Advertisement · 728 × 90

Posts by Lino Uruñuela

Google Search Status Dashboard

| ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄|
| March 2025 |
| ᑕOᖇE |
| 🆄🅿🅳🅰🆃🅴 |
| 🅲🅾🅼🅿🅻🅴🆃🅴 |
|___________________|
()
\ ,,,
\(•◡•)
\ / \
--- ()
| \
| |
• ̄ ̄ ̄ ̄ ̄ ̄•

status.search.google.com/incidents/zp...

1 year ago 1 0 0 0

Encrypted in hex and braille ....🤔

1 year ago 1 0 0 0
Preview
What is a RAG system? A RAG system allows LLMs to access up-to-date and/or specific data, for example, basing its answer on specific documents, thus minimizing the risk of hallucinations or inaccurate answers.

What is a RAG system? Advanced RAG systems, when similarity doesn’t mean relevance
www.mecagoenlos.com/what-is-a-RA...

1 year ago 1 0 0 0
Preview
Sistemas RAG avanzados, cuando la similitud no significa relevancia La similitud no es lo mismo que la relevancia, como ejemplo, la pregunta "¿Por qué el cielo es azul?" tendrá un significado diferente a la respuesta

Sistemas RAG avanzados, cuando la similitud no significa relevancia www.mecagoenlos.com/Posicionamie...

1 year ago 0 0 0 0
Preview
Trapping misbehaving bots in an AI Labyrinth How Cloudflare uses generative AI to slow down, confuse, and waste the resources of AI Crawlers and other bots that don’t respect “no crawl” directives.

El contenido "fake" generado por CloudFlare NO es contenido inventado sino que es contenido verídico, basado en artículos científicos que no tienen ninguna relevancia para no fomentar la desinformación.. para quitarse el sombrero 🎩
blog.cloudflare.com/ai-labyrinth/

1 year ago 0 0 0 0

Además mostrar contenido "fake" también generará enlaces a otras URLs fake, que solo un bot verá y seguirá. De esta manera, además de impedir que estos bots vean el contenido real les hace perder el tiempo (y recursos) en rastrear URLs con contenido que no les vale para nada.

1 year ago 0 0 1 0

Cloudflare implementa un nuevo sistema para impedir que bots no autorizados (crawlers) obtengan el contenido de sus usuarios

Cuando detecta un bot, en vez de devolver una página de error informando que ha sido bloqueado, mostrará contenido irrelevante generado por IA.

1 year ago 0 0 1 0
Advertisement
Preview
Consultar datos de Search Console usando un LLM local He credo un script para consultar los datos a una base de datos usando lenguaje natural usando el nuevo modelo de Mistral

I’ve created a script to query my Search Console data from a database using natural language with the new Mistral model (mistral-small-2503).

www.mecagoenlos.com/Posicionamie...

1 year ago 0 0 0 0
Google Search Status Dashboard

| ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄|
| March 2025 |
| ᑕOᖇE |
| 🆄🅿🅳🅰🆃🅴 |
|_________________|
()
\ ,,,
\(•◡•)
\ / \
--- ()
| \
| |
• ̄ ̄ ̄ ̄ ̄ ̄•
status.search.google.com/incidents/zp...

1 year ago 1 0 0 0
Search Central Live Madrid 2025 Únete a nosotros para Search Central Live Madrid: una conferencia sobre la búsqueda para propietarios de sitios web, medios, especialistas en marketing digital, desarrolladores web y profesionales de ...

Google Search Central Live 2025 𝗲𝗻 𝗠𝗮𝗱𝗿𝗶𝗱, el 9 de abril!

Organizada por el equipo de Búsqueda de Google, estarán, entre otros, Daniel Waisberg y @johnmu.com !

Hablarán sobre:
* Mejores prácticas SEO
* Search Console y Google Trends
* Google News

rsvp.withgoogle.com/events/searc...

1 year ago 4 0 0 0
Post image

This graph shows how many robots.txt files mention each User Agent.

GPTBot has been showing up in more and more robots.txt files over time

Post: www.mecagoenlos.com/Posicionamie...

How did I do? www.mecagoenlos.com/Posicionamie...

1 year ago 0 0 0 0
Post image

AI-related bots aren’t in the top 10 yet, but they’re slowly becoming more common in robots.txt

The number of robots.txt files that mention AI-related bots has been increasing over time

1 year ago 0 0 1 0
Post image Post image

Which User Agents appear most often in robots.txt?

1 - '*': 68.16%
2 - "Others": 20.7% (all other User Agents)
3 - Googlebot: 7.7%
4 - mediapartners-google: 1.28%
5 - Bingbot: 0.73%

(Data based on an analysis of 400 million robots.txt )

1 year ago 0 0 1 0

Now that I think about it, if it didn’t have an A record, it wouldn’t resolve the robots.txt URL either....

1 year ago 0 0 0 0

Maybe by checking if the hostname has an A record?

dig mydomain.dev A

If there are no A or AAAA records, that would be a strong indication that the hostname doesn’t point directly to a web server. ¯\_(ツ)_/¯

1 year ago 0 0 1 0
Preview
¿Se está impidiendo a los bots de Inteligencia Artificial acceder al contenido? cómo ha ido incrementando el número de robots.txt en los que aparecen rastreadores asociados a la Inteligencia Artificial.

Regarding robots.txt... I just published an analysis of over 400 million robots.txt files to see how UA bots are being restricted 😅

www.mecagoenlos.com/Posicionamie...

and how I did it (tech post)
www.mecagoenlos.com/Posicionamie...

I'll look for yours to see if I can "listen" to it. 🤣

1 year ago 6 2 1 0
Preview
¿Se está impidiendo a los bots de Inteligencia Artificial acceder al contenido? cómo ha ido incrementando el número de robots.txt en los que aparecen rastreadores asociados a la Inteligencia Artificial.

Analizando más de 400 millones de robots.txt.

¿Se está impidiendo a los bots de Inteligencia Artificial acceder al contenido? ¿Cuáles son los bots de IA que están siendo bloqueados?

www.mecagoenlos.com/Posicionamie...

1 year ago 0 0 0 0
Advertisement
Preview
Analizando mas de 72 millones de robots.txt ¿Cuántos dominios, subdominios y robots.txt están bloqueando a los crawlers de Inteligencia Artificial? Te lo cuento tras analizar 70 millones de robots.txt

Actualizado! (Analizando más de 72 millones de robots.txt)

1- Los crawlers más bloqueados desde el robots.txt.

2- IA Crawlers más bloqueados

www.mecagoenlos.com/Posicionamie...

1 year ago 0 0 0 0
Preview
Analizando mas de 72 millones de robots.txt ¿Cuántos dominios, subdominios y robots.txt están bloqueando a los crawlers de Inteligencia Artificial? Te lo cuento tras analizar 70 millones de robots.txt

www.mecagoenlos.com/Posicionamie...

1 year ago 0 0 0 0
Post image Post image

From chrome://on-device-internals/ you can load .bin file and use the model, but I don't know how to run it from the command line

1 year ago 0 0 1 0

Is it possible to run an LLM if you have a .bin weights file?
e..g. the weights of the LLM that Chrome uses for Built-in AI are located at this path (in Linux):
~/.config/google-chrome-unstable/OptGuideOnDeviceModel/2024.9.25.2033/weights.bin (3GB)

Is there a way to run it from the command line?

1 year ago 0 0 1 0
Preview
¿Cómo decide Google que URL debe rastrear? Hoy he descubierto este paper de Google (A Scalable Crawling Algorithm Utilizing Noisy Change-Indicating Signals) dónde describe una mejora del método descrito en el artículo inicial

¿Cómo decide Google que URL debe rastrear?

Hoy he descubierto un paper de Google dónde describe una mejora del método de cómo decide qué URL debe ser la siguiente en rastrear

www.mecagoenlos.com/Posicionamie...

1 year ago 1 1 0 0
Post image

I processed data from Common Crawl’s latest robots.txt crawl – some numbers:

- 𝟳𝟮,𝟭𝟲𝟮,𝟰𝟴𝟮 𝗿𝗼𝗯𝗼𝘁𝘀.𝘁𝘅𝘁 files
- 𝟰𝟲,𝟲𝟴𝟮,𝟵𝟵𝟯 𝗱𝗼𝗺𝗮𝗶𝗻𝘀
- 90.000 WARC files
- 500 GB

…and more coming tomorrow

1 year ago 0 0 0 0

🤦‍♂️

1 year ago 1 0 1 0
Post image

Hi @johnmu.com , regarding your post johnmu.com/2025-trust-i...

Here's another way to solve the challenge using SQL... to be honest, I’m not sure which one will end up being more confusing haha.

Live Demo:
fiddle.clickhouse.com/a1e1884f-85f...

1 year ago 2 0 1 0
Preview
Latest Google Search Documentation Updates | Google Search Central  |  What's new  |  Google for Developers Learn about the latest and most recent Google Search Central documentation updates. Stay current with what's new at Google Search Central.

Google:
Se 𝗵𝗮 𝗮𝗰𝘁𝘂𝗮𝗹𝗶𝘇𝗮𝗱𝗼 la política de 𝗮𝗯𝘂𝘀𝗼 𝗱𝗲 𝗿𝗲𝗽𝘂𝘁𝗮𝗰𝗶𝗼𝗻 𝗱𝗲𝗹 𝘀𝗶𝘁𝗶𝗼 para incluir orientación de las 𝗽𝗿𝗲𝗴𝘂𝗻𝘁𝗮𝘀 𝗳𝗿𝗲𝗰𝘂𝗲𝗻𝘁𝗲𝘀 de nuestra publicación de blog sobre abuso de reputación del sitio .

developers.google.com/search/updat...

1 year ago 0 0 0 0
Advertisement