| ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄|
| March 2025 |
| ᑕOᖇE |
| 🆄🅿🅳🅰🆃🅴 |
| 🅲🅾🅼🅿🅻🅴🆃🅴 |
|___________________|
()
\ ,,,
\(•◡•)
\ / \
--- ()
| \
| |
• ̄ ̄ ̄ ̄ ̄ ̄•
status.search.google.com/incidents/zp...
Posts by Lino Uruñuela
Encrypted in hex and braille ....🤔
What is a RAG system? Advanced RAG systems, when similarity doesn’t mean relevance
www.mecagoenlos.com/what-is-a-RA...
Sistemas RAG avanzados, cuando la similitud no significa relevancia www.mecagoenlos.com/Posicionamie...
El contenido "fake" generado por CloudFlare NO es contenido inventado sino que es contenido verídico, basado en artículos científicos que no tienen ninguna relevancia para no fomentar la desinformación.. para quitarse el sombrero 🎩
blog.cloudflare.com/ai-labyrinth/
Además mostrar contenido "fake" también generará enlaces a otras URLs fake, que solo un bot verá y seguirá. De esta manera, además de impedir que estos bots vean el contenido real les hace perder el tiempo (y recursos) en rastrear URLs con contenido que no les vale para nada.
Cloudflare implementa un nuevo sistema para impedir que bots no autorizados (crawlers) obtengan el contenido de sus usuarios
Cuando detecta un bot, en vez de devolver una página de error informando que ha sido bloqueado, mostrará contenido irrelevante generado por IA.
I’ve created a script to query my Search Console data from a database using natural language with the new Mistral model (mistral-small-2503).
www.mecagoenlos.com/Posicionamie...
| ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄|
| March 2025 |
| ᑕOᖇE |
| 🆄🅿🅳🅰🆃🅴 |
|_________________|
()
\ ,,,
\(•◡•)
\ / \
--- ()
| \
| |
• ̄ ̄ ̄ ̄ ̄ ̄•
status.search.google.com/incidents/zp...
Google Search Central Live 2025 𝗲𝗻 𝗠𝗮𝗱𝗿𝗶𝗱, el 9 de abril!
Organizada por el equipo de Búsqueda de Google, estarán, entre otros, Daniel Waisberg y @johnmu.com !
Hablarán sobre:
* Mejores prácticas SEO
* Search Console y Google Trends
* Google News
rsvp.withgoogle.com/events/searc...
This graph shows how many robots.txt files mention each User Agent.
GPTBot has been showing up in more and more robots.txt files over time
Post: www.mecagoenlos.com/Posicionamie...
How did I do? www.mecagoenlos.com/Posicionamie...
AI-related bots aren’t in the top 10 yet, but they’re slowly becoming more common in robots.txt
The number of robots.txt files that mention AI-related bots has been increasing over time
Which User Agents appear most often in robots.txt?
1 - '*': 68.16%
2 - "Others": 20.7% (all other User Agents)
3 - Googlebot: 7.7%
4 - mediapartners-google: 1.28%
5 - Bingbot: 0.73%
(Data based on an analysis of 400 million robots.txt )
Now that I think about it, if it didn’t have an A record, it wouldn’t resolve the robots.txt URL either....
Maybe by checking if the hostname has an A record?
dig mydomain.dev A
If there are no A or AAAA records, that would be a strong indication that the hostname doesn’t point directly to a web server. ¯\_(ツ)_/¯
Regarding robots.txt... I just published an analysis of over 400 million robots.txt files to see how UA bots are being restricted 😅
www.mecagoenlos.com/Posicionamie...
and how I did it (tech post)
www.mecagoenlos.com/Posicionamie...
I'll look for yours to see if I can "listen" to it. 🤣
Analizando más de 400 millones de robots.txt.
¿Se está impidiendo a los bots de Inteligencia Artificial acceder al contenido? ¿Cuáles son los bots de IA que están siendo bloqueados?
www.mecagoenlos.com/Posicionamie...
Actualizado! (Analizando más de 72 millones de robots.txt)
1- Los crawlers más bloqueados desde el robots.txt.
2- IA Crawlers más bloqueados
www.mecagoenlos.com/Posicionamie...
From chrome://on-device-internals/ you can load .bin file and use the model, but I don't know how to run it from the command line
Is it possible to run an LLM if you have a .bin weights file?
e..g. the weights of the LLM that Chrome uses for Built-in AI are located at this path (in Linux):
~/.config/google-chrome-unstable/OptGuideOnDeviceModel/2024.9.25.2033/weights.bin (3GB)
Is there a way to run it from the command line?
¿Cómo decide Google que URL debe rastrear?
Hoy he descubierto un paper de Google dónde describe una mejora del método de cómo decide qué URL debe ser la siguiente en rastrear
www.mecagoenlos.com/Posicionamie...
I processed data from Common Crawl’s latest robots.txt crawl – some numbers:
- 𝟳𝟮,𝟭𝟲𝟮,𝟰𝟴𝟮 𝗿𝗼𝗯𝗼𝘁𝘀.𝘁𝘅𝘁 files
- 𝟰𝟲,𝟲𝟴𝟮,𝟵𝟵𝟯 𝗱𝗼𝗺𝗮𝗶𝗻𝘀
- 90.000 WARC files
- 500 GB
…and more coming tomorrow
🤦♂️
Hi @johnmu.com , regarding your post johnmu.com/2025-trust-i...
Here's another way to solve the challenge using SQL... to be honest, I’m not sure which one will end up being more confusing haha.
Live Demo:
fiddle.clickhouse.com/a1e1884f-85f...
Google:
Se 𝗵𝗮 𝗮𝗰𝘁𝘂𝗮𝗹𝗶𝘇𝗮𝗱𝗼 la política de 𝗮𝗯𝘂𝘀𝗼 𝗱𝗲 𝗿𝗲𝗽𝘂𝘁𝗮𝗰𝗶𝗼𝗻 𝗱𝗲𝗹 𝘀𝗶𝘁𝗶𝗼 para incluir orientación de las 𝗽𝗿𝗲𝗴𝘂𝗻𝘁𝗮𝘀 𝗳𝗿𝗲𝗰𝘂𝗲𝗻𝘁𝗲𝘀 de nuestra publicación de blog sobre abuso de reputación del sitio .
developers.google.com/search/updat...