Eliminar páginas indexadas en Google
Proceso para eliminar páginas del índice de los buscadores, en concreto, Google, aunque el proceso es extensible al resto.
- Tiempo de lectura: 7 minutos
- Autor: Emirodgar
- Publicado: 15/02/2021
- Actualizado: 29/03/2023
En ciertas ocasiones, con páginas de baja calidad, contenido duplicado o información que no tendría que haber sido indexada, nos vemos forzados a eliminar dicho contenido del índice de los buscadores. En esta chuleta me referiré en exclusiva a Google, aunque el proceso es extensible -en su mayor parte- al resto de buscadores.
- Eliminar a través de Google Search Console
- Evitar de nuevo su indexación (
noindex
o error4XX
) - Eliminar ficheros indexados
- Consejos adicionales
- Recursos
- Herramientas
- Preguntas frecuentes
Eliminar a través de Google Search Console
Si no tenemos dado de alta el dominio en Search Console, lo creamos.
La página existe
Si se trata de una página que existe -y simplemente queremos retirarla del índice de búsqueda de Google- debemos utilizar la herramienta oficial de Google para eliminar páginas de su índice. Podemos acceder a la misma a través de: Índice de Google
> Eliminar URLs
. Por desgracia, debemos incluir de una en una cada URL que queremos eliminar.
La página ya no existe
En el caso de que se trate de un contenido que ya no existe en nuestra web, pero que aun así sigue indexado en Google, debemos emplear la herramienta de eliminación de contenido obsoleto.
Esta medida es rápida y eficaz, ya que hemos usado la herramienta oficial, no obstante, se trata de una acción temporal (se aplica durante 90 días) por lo que tenemos que aplicar nuevas medidas para evitar que con el tiempo se vuelva a indexar.
Evitar de nuevo su indexación (noindex
o error 4XX
)
Para evitar que una página se indexe tenemos a nuestra disposición varios métodos. Dependiendo de la urgencia que tengamos o del número de páginas/secciones a bloquear, podemos hacer uso de unas u otras medidas. Ninguna es excluyente de las demás.
Noindex: La página sigue existiendo pero no queremos que se indexe
En ese caso, usaremos la etiqueta noindex para indicar al buscador que esa página no debe ser indexada.
Su uso es sencillo, bastará con incluir en la cabecera de la página (sección <head>
) la siguiente línea:
<meta name="robots" content="noindex">
Quedaría por tanto de la siguiente manera:
<!DOCTYPE html>
<html><head>
<meta name="robots" content="noindex">
(…)
</head>
<body>(…)</body>
</html>
Si no tenemos acceso a la página concreta, podemos gestionarlo desde el archivo de configuración del servidor y enviarlo como una petición HTTP
.
HTTP/1.1 200 OK
Date: Tue, 20 May 2023 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)
En los ejemplos anteriores estamos bloqueando la indexación a todos los robots de búsqueda. En la etiqueta name
podríamos especificar, en lugar de robots
el nombre concreto de un bot para limitar su indexación. Aquí tenemos el listado de los robots de Google.
Limitamos el rastreo del robot
Si tenemos problemas para utilizar la etiqueta noindex
, tenemos la opción de bloquear la página con el comando disallow desde el fichero robots.txt
. Cuando hablamos de secciones, es la medida más óptima, puesto que podemos usar expresiones regulares para que, con una regla, se aplique el bloqueo a múltiples páginas, evitando así tener que ir bloqueando una por una.
No es recomendable utilizar
noindex
ydisallow
a la vez; o una opción o la otra. Si bloqueamos la indexación pero también el rastreo, el robot de búsqueda no rastreará y no encontrará la directiva asociada con la indexación. En el caso de un proyecto nuevo no habrá problema, pero si es una página indexada, es muy posible que no se desindexe dado que quedará sin rastrear.
Si la página ya no va a existir
Si nos corre mucha prisa la eliminación de dicha página, podemos hacer lo siguiente:
- Aplicar una redirección
301
(permanente) hacia una página similar o hacia la página principal del sitio. Esta solución es posible que genere errores 404 leves dentro de Google Search Console. - Hacer que la página genere un error 404 o 410 (indicando que esta ya no existe).
Ambas opciones conseguirán que la URL indexada desaparezca del índice de Google, aunque tampoco estará disponible para los usuarios de nuestro sitio web.
Eliminar ficheros indexados
Si se han indexado ficheros ubicados en nuestro servidor, es recomendable bloquear el acceso a los mismos y únicamente permitir los documentos orientados a la página web. Para ello, en el caso del servidor Apache, debemos bloquear el listado de directorios haciendo uso de esta instrucción en nuestro fichero .htaccess:
Options -Indexes
Para que funcione, la opción AllowOverides
debe estar a on
. Una vez activado, si accedemos a un directorio, este no debe mostrar el listado de los documentos que contiene, sino un error de acceso.
Existen multitud de opciones que podemos configurar en Apache para mejorar el rendimiento y añadir funcionalidades SEO a nuestra página.
Consejos adicionales
Si se trata de páginas que sabemos que, tras un tiempo publicadas, no queremos que sigan indexadas, podemos hacer uso de la etiqueta unavailable_after de tal forma que ya vamos preparando el terreno para que, a corto plazo, Google las desindexe. Yo la suelo utilizar para páginas de eventos.
En el caso de que queramos que desaparezca información alojada en otras páginas y que están incumpliendo las normas, podemos seguir estos pasos, ya que debemos hacerlo a través del portal legal de Google.
Recursos
Inglés
-2023
- Experimento para desindexar URL con etiqueta unavailable_after- Listado de los robots de búsqueda de Google
Herramientas
- Google: Solicitud de retirada de URL de su índice
- Google: Solicitud de retirada de contenido obsoleto
- Google: Denunciar contenido ilegal
Preguntas frecuentes
Servicios adicionales
Aprovecha al máximo el conocimiento SEO de este portal suscribiéndote a la newsletter que enviamos cada semana con las novedades del mundo SEO. También te ofrecemos recursos y herramientas gratuitas para ser más eficiente en tus estrategias.
Newsletter
Suscribirse a la newsletter en LinkedinMás de 2.600 personas están suscritas a nuestra Newsletter de Chuleta SEO y reciben todas las semanas las últimas noticias del sector.