Eliminar páginas/URLs indexadas en Google

En ciertas ocasiones, con páginas de baja calidad, contenido duplicado o información que no tendría que haber sido indexada, nos vemos forzados a eliminar dicho contenido de los buscadores. En esta chuleta me referiré en exclusiva a Google aunque el proceso es extensible -en su mayor parte- al resto de buscadores.

1- Eliminar a través de Google Search Console

Si no tenemos dado de alta el dominio en Search Console, lo creamos.

La página existe

Si se trata de una página que existe -y simplemente queremos retirarla del índice de búsqueda de Google- debemos utilizar la herramienta oficial de Google para eliminar páginas de su índice. Podemos acceder a la misma a través de: Índice de Google > Eliminar URLs. Por desgracia, debemos incluir de una en una cada URL que queremos eliminar.

La página ya no existe

En el caso de que se trate de un contenido que ya no existe y que aún así sigue indexado en Google, debemos utilizar la herramienta de eliminación de contenido obsoleto.

Esta medida es rápida y eficaz, ya que hemos usado la herramienta oficial, no obstante, se trata de una accion temporal (se aplica durante 90 días) por lo que tenemos que aplicar nuevas medidas para evitar que con el tiempo se vuelva a indexar.

2- Evitar de nuevo su indexación

Para evitar que una página se indexe tenemos a nuestra disposición varios métodos. Dependiendo de la urgencia que tengamos o del número de páginas/secciones a bloquear, podemos hacer uso de unas u otras medidas. Ninguna es excluyente de las demás.

Si tenemos problemas para utilizar la etiqueta noindex, tenemos la opción de bloquear la página con el comando disallow desde el fichero robots.txt. Cuando hablamos de secciones, es la medida más óptima puesto que podemos usar expresiones regulares para que, con una regla, se aplique el bloqueo a múltiples páginas evitando así tener que ir bloqueando una por una. No es recomendable utilizar noindex y disallow en el mismo proyecto; o una opción o la otra.

Si nos corre mucha prisa la eliminación de dicha página y queremos evitar que aparezca un error, podemos hacer lo siguiente:

Esta solución es posible que genere errores 404 leves dentro de Google Search Console.

3- Eliminar ficheros indexados

Si se han indexado ficheros ubicados en nuestro servidor, es recomendable bloquear el acceso a los mismos y únicamente permitir los documentos orientados a la página web. Para ello, en el caso del servidor Apache, debemos bloquear el listado de directorios haciendo uso de esta instrucción en nuestro fichero .htaccess:

Options -Indexes

Para que funcione, la opción AllowOverides debe estar a on. Una vez activado, si accedemos a un directorio, éste no debe mostrar el listado de los documentos que contiene sino un error de acceso.

4- Consejos adicionales

Si se trata de páginas que sabemos que, tras un tiempo publicadas no queremos que sigan indexadas, podemos hacer uso de la etiqueta unavailable_after de tal forma que ya vamos preparando el terreno para que, a corto plazo, Google las desindexe. Yo la suelo utilizar para páginas de eventos.

En el caso de que queramos que desaparezca información alojada en otras páginas y que están incumpliendo las normas, podemos seguir estos pasos ya que debemos hacerlo a través del portal legal de Google.