Seleccionar página

¡Buenas Soywebmasters!
¡Aquí David Ayala de nuevo!

En esta ocasión vengo a hablarte sobre algo en lo que algunas personas he visto que tienen dudas o no les queda del todo claro. Además me apetecía hablar sobre este tema, así que aquí está, un post sobre las diferencias entre rastreo e indexación en Google.

Así que sin más… ¡Comenzamos!

¿Qué es el rastreo de cara a Google?

Google es un buscador y como tal necesita mostrar resultados de páginas web para las búsquedas realizadas por sus usuarios. Estos resultados los encuentra rastreando la red, es decir saltando de unos enlaces a otros.

rastreo google

De igual manera Google no solo rastreará esas URLs una única vez pues lo hará más veces posteriormente para comprobar si el contenido ha cambiado, se ha añadido nuevo, sigue existiendo, etcétera.

¿Qué es la indexación de cara a Google?

Que Google rastree una URL no quiere decir que la indexe pues tras rastrearla deberá analizarla y después decidir si indexarla o no.

Simplificándolo todo, se podría decir que Google funciona mediante keywords e intenciones de búsqueda, es decir para poder encontrar cualquier URL el usuario debe introducir una keyword en el buscador, por lo tanto la indexación de una URL lleva implica la asociación de keywords o intenciones de búsqueda a la misma. Evidentemente estas podrían variar con el tiempo.

Cómo evitar rastreo de Google

Para evitar el rastreo de una URL por parte de Google debemos utilizar el fichero robots.txt.

En este fichero utilizaremos la directiva disallow para que Google no pueda rastrear una zona en concreto de nuestra web. Al tratarse de una directiva cuando Google lea nuestro robots.txt tendrá que hacerle caso sí o sí.

robots.txt

Bloquear el rastreo de una URL no implica bloquear su indexación, es decir, puede que Google no lea el contenido de esa URL al no poder rastrearla pero eso no quiere decir que no sepa de la existencia de esa URL debido a enlaces tanto internos como externos. Por lo tanto, una URL que esté bloqueada para rastreo podrá ser indexada por Google.

Cómo evitar indexación en Google

Para evitar la indexación de una URL en Google tenemos que utilizar la meta etiqueta robots noindex.

como evitar indexacion en google

Esta etiqueta es una directiva, es decir, a penas Google la vea le tiene que hacer caso obligatoriamente (no es una opción).

Si la URL estaba ya indexada en Google, evidentemente no se desindexará de manera instantánea pues primero Google tiene que leer esa etiqueta.

Podemos esperar hasta que Google pase por esa URL o intentar acelerarlo de una de las dos siguientes maneras:
-En Google Search console introduces la URL en el inspector de URLs, le das a “probar URL publicada” (este paso es más una manía mía) y luego a “solicitar indexación”.

solicitar indexacion

-Como con el noindex realmente queremos eliminar esa URL del índice podemos directamente en Google Search Console ir a la opción de “retirada de URLs” y solicitar la eliminación de la misma.

retirada de URLs

Cuando bloquear el rastreo de Google

La limitación del rastreo de cara a Google se realiza para evitar gastar recursos del buscador y presupuesto de rastreo “a lo tonto”.

Esto puede ser útil para limitar al bot de Google a rastrear ciertas URLs como las de parámetros o incluso para casos concretos como por ejemplo si Google siguiera rastreando zonas que ya no existen de nuestra web. Siguiendo ese mismo ejemplo, si antes existía una sección en nuestra web que ahora no y esa sección no la hemos redireccionado a ninguna parte y tan solo la hemos eliminado y comprobamos en los logs que Google pasado un tiempo sigue rastreando una y otra vez esas URLs (podría ser debido a enlaces externos), una solución sería bloquear el rastreo de esa/s URL/s.

Cuando bloquear la indexación de Google

Por norma general evitaremos la indexación de URLs que no queramos posicionar, es decir URLs que realmente no tengan ningún valor de cara a SEO pues si no va a posicionar en Google ¿Para que queremos que esté ahí?

De igual manera, las URLs que puedan ser consideradas como contenido duplicado, thin content, etcétera que por algún motivo no podamos eliminar o por que debamos dejarlas de cara a usabilidad de los usuarios.

Bloqueo de rastreo e indexación

Un error que he visto en muchas ocasiones es aplicar meta robots noindex y disallow de robots.txt para un directorio o una URL. Tras un tiempo se preguntan, ¿Por qué esas URLs no las está eliminando Google? ¡Google hace lo que le da la gana!

En esos casos es normal que no las elimine ya que para poder hacerlo debe ver la etiqueta meta robots noindex, pero… ¡No puede verla por que le has bloqueado el rastreo por robots.txt!

¡Cuidadín!

Conclusiones

Como has podido comprobar rastreo e indexación son dos cosas muy diferentes, por lo tanto es importante saber diferenciar la una de la otra para poder actuar de la manera más correcta según nuestras necesidades.

Ahora me gustaría que me dejaras tu opinión, me contases situaciones curiosas que te hayan ocurrido o en definitiva… ? ¡LO QUE ME QUIERAS CONTAR! ?



RECIBIR NOVEDADES POR EMAIL