Eliminar o quitar una página de los resultados de búsqueda de google

Fecha Publicación:       30 de Octubre de 2019
Fecha Modificación:       15 de Febrero de 2021

Aqui tenemos documentación de google Ayuda de Search Console:

Herramienta para eliminar URLs - Ayuda de Search Console

Para bloquear temporalmente una URL de la Búsqueda de Google, sigue estos pasos:

1) Abre la Herramienta para eliminar URLs.

2) Elige Elige una propiedad verificada (dominio verificado) donde se encuentra la url a eliminar.

3) Haz clic en Ocultar temporalmente.


Nota:  La Herramienta para eliminar URLs dentro de Google search console lo encontramos dentro de  Herramientas e informes antiguos   con el nombre de Retirada de URL.

Eliminar de forma permanente

La Herramienta para eliminar URLs solo sirve para eliminar temporalmente. Si quieres que desaparezca contenido o URLs de forma permanente de la Búsqueda de Google, debes seguir al menos uno de estos pasos:

  • Indica que la página no se debe indexar con una metaetiqueta noindex.

     Mas Información Bloquear la indexación de búsquedas con la metaetiqueta "noindex".

    Para evitar que una página aparezca en la Búsqueda de Google, incluye la metaetiqueta noindex en su código HTML o devuelve una cabecera "noindex" en la solicitud HTTP. Así, cuando el robot de Google vea la etiqueta o la cabecera al volver a rastrear la página, la eliminará de los resultados de búsqueda, independientemente de si otros sitios web tienen enlaces a ella.

Para impedir que los rastreadores web de la mayoría de los motores de búsqueda indexen una página de tu sitio web, coloca esta metaetiqueta en la sección <head> de la página, tal como se indica a continuación:

<meta name="robots" content="noindex">

¿Qué es mejor: disallow en robots.txt o noindex en cada url?

Así que veamos las dos vías para excluir páginas del índice de los buscadores:

· Robots.txt y su "Disallow":

 → Vea tambien Robots.txt: ¿Qué es, para qué sirve y cómo crearlo?

Robots,txt es un archivo que subimos a la raíz de nuestro servidor web (lo alojamos en http://www.tudominio.com/robots.txt).

 Tu página puede aparecer en los resultados de la búsqueda incluso si está bloqueada por un archivo robots.txt. Sin embargo, no tendrá descripción y se verá de la siguiente manera. Se excluirán los archivos de imagen, video, PDF y otros que no sean HTML. Si ves este resultado de la búsqueda para tu página y quieres corregirlo, quita la entrada robots.txt que bloquea la página. Para ocultar completamente la página de la búsqueda, usa otro método.

Una página bloqueada mediante robots.txt puede indexarse si se vincula desde otros sitios

En este archivo hay directrices para los buscadores y crawlers. Cuando este archivo tiene una directiva "Disallow" relativa a una cierta página, los crawlers saben que no tienen que leer esa página. Diciéndole a un crawler que no tiene que leer esa página, le estamos mandando una señal de que la página destino resulta ser poco importante y puede ignorarse. Y en mayor parte, esto asegurará de que esa página no aparecerá en los resultados de búsqueda de los buscadores.

En la documentación se ve ejemplos de robots.txt como :

 → Ir a Documentación Oficial crear un archivo robots.txt

  • Bloquear el rastreo de un directorio y de su contenido
  • Bloquear el rastreo de todo el sitio web
  • Permitir que acceda un solo rastreador
  • Bloquear el rastreo de una única página web
  • Bloquear una imagen concreta para que no aparezca en Google Imágenes
  • Bloquear las URL que terminen de una forma concreta (ejemplo Disallow: /*.xls$)
  • etc.

 

User-Agent: *
Disallow: /pruebas/
Disallow: /puertasycreaciones/
Disallow: /webadmin/

En este ejemplo permitimos que todos los agentes puedan escanear mi web  , ademas estamos denegando escanear las carpetas  pruebas ,  puertasycreaciones , webadmin

 

De todas formas, "Disallow" significa "no leer", no "no visitar". "Disallow" no hace las páginas invisibles; sólo las hace no indexables. Si un link entrante o alguna citación existe en una página con el "Disallow", los crawlers estaran al caso de la existencia de esa página y, en raros casos, alguien que busque esa página desde el buscador podrá encontrar el resultado pero con un texto en la descripción indicando que esa página ha sido bloqueada (aunque será clicable).

· El meta tag "noindex"

El meta tag "noindex" es una parte de código que ponemos en la sección <head> de nuestras páginas web. A diferencia del "Disallow", el meta tag "noindex" permite a los crawlers ver y leer esa página pero también les indica de que no indexen esa página cuando hayan terminado de leer.

NOTA:

La directiva noindex es la forma más efectiva de eliminar URL del índice cuando se permite el rastreo.

Códigos de estado HTTP 404 y 410: ambos códigos de estado significan que la página no existe, lo que eliminará dichas URL del índice de Google una vez que se rastreen y procesen.

Vea tambien Contenido duplicado y retirar url en una web

Articulo : 2284 - Veces Leidas
Compartir Articulo: