Diferencia entre rastreo e indexación [NO DESTROCES TU SEO]

Inicio » SEO » Diferencia entre rastreo e indexación [NO DESTROCES TU SEO]

¡Buenas Soywebmasters!
¡Aquí David Ayala de nuevo!

En esta ocasión vengo a hablarte sobre algo en lo que algunas personas he visto que tienen dudas o no les queda del todo claro. Además me apetecía hablar sobre este tema, así que aquí está, un post sobre las diferencias entre rastreo e indexación en Google.

Así que sin más… ¡Comenzamos!

Índice

1 ¿Qué es el rastreo de cara a Google?
2 ¿Qué es la indexación de cara a Google?
3 Cómo evitar rastreo de Google
4 Cómo evitar indexación en Google
5 Cuando bloquear el rastreo de Google
6 Cuando bloquear la indexación de Google
7 Bloqueo de rastreo e indexación
8 Conclusiones

¿Qué es el rastreo de cara a Google?

Google es un buscador y como tal necesita mostrar resultados de páginas web para las búsquedas realizadas por sus usuarios. Estos resultados los encuentra rastreando la red, es decir saltando de unos enlaces a otros.

De igual manera Google no solo rastreará esas URLs una única vez pues lo hará más veces posteriormente para comprobar si el contenido ha cambiado, se ha añadido nuevo, sigue existiendo, etcétera.

¿Qué es la indexación de cara a Google?

Que Google rastree una URL no quiere decir que la indexe pues tras rastrearla deberá analizarla y después decidir si indexarla o no.

Simplificándolo todo, se podría decir que Google funciona mediante keywords e intenciones de búsqueda, es decir para poder encontrar cualquier URL el usuario debe introducir una keyword en el buscador, por lo tanto la indexación de una URL lleva implica la asociación de keywords o intenciones de búsqueda a la misma. Evidentemente estas podrían variar con el tiempo.

Cómo evitar rastreo de Google

Para evitar el rastreo de una URL por parte de Google debemos utilizar el fichero robots.txt.

En este fichero utilizaremos la directiva disallow para que Google no pueda rastrear una zona en concreto de nuestra web. Al tratarse de una directiva cuando Google lea nuestro robots.txt tendrá que hacerle caso sí o sí.

Bloquear el rastreo de una URL no implica bloquear su indexación, es decir, puede que Google no lea el contenido de esa URL al no poder rastrearla pero eso no quiere decir que no sepa de la existencia de esa URL debido a enlaces tanto internos como externos. Por lo tanto, una URL que esté bloqueada para rastreo podrá ser indexada por Google.

Cómo evitar indexación en Google

Para evitar la indexación de una URL en Google tenemos que utilizar la meta etiqueta robots noindex.

Esta etiqueta es una directiva, es decir, a penas Google la vea le tiene que hacer caso obligatoriamente (no es una opción).

Si la URL estaba ya indexada en Google, evidentemente no se desindexará de manera instantánea pues primero Google tiene que leer esa etiqueta.

Podemos esperar hasta que Google pase por esa URL o intentar acelerarlo de una de las dos siguientes maneras:
-En Google Search console introduces la URL en el inspector de URLs, le das a “probar URL publicada” (este paso es más una manía mía) y luego a “solicitar indexación”.

-Como con el noindex realmente queremos eliminar esa URL del índice podemos directamente en Google Search Console ir a la opción de “retirada de URLs” y solicitar la eliminación de la misma.

Cuando bloquear el rastreo de Google

La limitación del rastreo de cara a Google se realiza para evitar gastar recursos del buscador y presupuesto de rastreo “a lo tonto”.

Esto puede ser útil para limitar al bot de Google a rastrear ciertas URLs como las de parámetros o incluso para casos concretos como por ejemplo si Google siguiera rastreando zonas que ya no existen de nuestra web. Siguiendo ese mismo ejemplo, si antes existía una sección en nuestra web que ahora no y esa sección no la hemos redireccionado a ninguna parte y tan solo la hemos eliminado y comprobamos en los logs que Google pasado un tiempo sigue rastreando una y otra vez esas URLs (podría ser debido a enlaces externos), una solución sería bloquear el rastreo de esa/s URL/s.

Cuando bloquear la indexación de Google

Por norma general evitaremos la indexación de URLs que no queramos posicionar, es decir URLs que realmente no tengan ningún valor de cara a SEO pues si no va a posicionar en Google ¿Para que queremos que esté ahí?

De igual manera, las URLs que puedan ser consideradas como contenido duplicado, thin content, etcétera que por algún motivo no podamos eliminar o por que debamos dejarlas de cara a usabilidad de los usuarios.

Bloqueo de rastreo e indexación

Un error que he visto en muchas ocasiones es aplicar meta robots noindex y disallow de robots.txt para un directorio o una URL. Tras un tiempo se preguntan, ¿Por qué esas URLs no las está eliminando Google? ¡Google hace lo que le da la gana!

En esos casos es normal que no las elimine ya que para poder hacerlo debe ver la etiqueta meta robots noindex, pero… ¡No puede verla por que le has bloqueado el rastreo por robots.txt!

¡Cuidadín!

Conclusiones

Como has podido comprobar rastreo e indexación son dos cosas muy diferentes, por lo tanto es importante saber diferenciar la una de la otra para poder actuar de la manera más correcta según nuestras necesidades.

Ahora me gustaría que me dejaras tu opinión, me contases situaciones curiosas que te hayan ocurrido o en definitiva… 👉 ¡LO QUE ME QUIERAS CONTAR! 👈

RECIBIR NOVEDADES POR EMAIL

10 Comentarios

Raúl el marzo 14, 2020 a las 4:40 am

Hola David, muy interesante e importante conocer esta diferencia en estos conceptos.
Yo tengo la duda de si tienes un una url con idioma ingles por ejemplo que te está generando contenido duplicado o thin content y quieres desindexar ese contenido. Lo puedes hacer desde la raiz con robotstxt o tienes que ir pidiendo en search console la eliminación de cada url? Gracias. Un saludo
Responder
- David Ayala el marzo 14, 2020 a las 7:09 am
  
  Buenas Raúl! Si la URL es la versión inglesa con utilizar hreflang para indicarlo no deberías tener mayor problema. En cuanto a que quieras desindexarlo por cualquier otro motivo no sería con robots.txt pues ahí solo bloqueas rastreo, tendrías que utilizar la etiqueta meta robots noindex.
  Responder
Marco Arreguín el marzo 14, 2020 a las 10:05 am

Hola David, excelente aporte. El que explicarás cuando se debe usar uno y cuando otro, deja las cosas muy claras.

¿A partir de cuantas URL podrías considerar relevante el presupuesto de rastreo? Tengo sitios con menos de 50 url y me parece que no es factor, ¿o si?

Saludo!
Responder
- David Ayala el marzo 15, 2020 a las 1:13 pm
  
  Buenas Marco!
  
  Cuando son webs tan pequeñas no debe preocuparte tanto aspectos como presupuesto de rastreo 🙂
  Responder
Marco Arreguín el marzo 14, 2020 a las 10:05 am

Hola David, excelente aporte. El que explicarás cuando se debe usar uno y cuando otro, deja las cosas muy claras.

¿A partir de cuantas URL podrías considerar relevante el presupuesto de rastreo? Tengo sitios con menos de 50 url y me parece que no es factor, ¿o si?

Saludo!
Responder
- David Ayala el marzo 15, 2020 a las 1:13 pm
  
  Buenas Marco!
  
  Cuando son webs tan pequeñas no debe preocuparte tanto aspectos como presupuesto de rastreo 🙂
  Responder
Mad Marketing Digital el marzo 20, 2020 a las 7:09 pm

Excelente post, vamos a compartirlo con mis colegas.
Saludos!
Responder
Mad Marketing Digital el marzo 20, 2020 a las 7:09 pm

Excelente post, vamos a compartirlo con mis colegas.
Saludos!
Responder
Caio Ortega el mayo 22, 2020 a las 9:15 am

Para mí lo más importante, y lo que esperaba leer en tu explicación es la aclaración del último apartado "Bloqueo de rastreo e indexación" cuando alguien bloquea en el archivo robotx.txt para una página que tiene que estar en "noindex". Este es un fallo muy común. Buen post David!
Responder
Alejandro Daniel Jose el junio 6, 2021 a las 8:39 pm

Excelente post como siempre…
Saludos
Responder

Enviar comentario Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Comentario *

Nombre *

Correo electrónico *

Web

Te informamos de que los datos de carácter personal que nos proporciones, serán tratados por SEO Rosa SLU como responsable de esta web. La finalidad de la recogida de datos es para poder contactarle y para enviarle nuestras publicaciones y promociones de productos y/o servicios. Legitimación: Nos das tu consentimiento. Destinatarios: Los datos que nos facilites estarán ubicados en los servidores de Nicalia (https://www.nicalia.com/nosotros/politica-privacidad). Podrás ejercer en cualquier momento tus derechos de rectificación, limitación, supresión y acceso a los datos.

He leído y acepto la Política de privacidad *

David Ayala

CEO SEOluciones

David Ayala lleva desde el año 2003 trabajando en el mundo del SEO y el marketing digital y es conocido como el SEO Rosa o #SEORosa. Es dueño de varias agencias de marketing en España y en Andorra, autor del libro "Visibilidad Online Inmortaliza tu Marca" con la editorial Anaya, profesor de master en la universidad de Zaragoza, speaker en eventos, organizador del evento Andorra Masters, y mentor de emprendedores.

Redes sociales del autor: