El tema del enlazado interno es uno de los más interesantes en el SEO. En el último artículo que escribí para el blog de Majestic, me centré en el tema de la prioridad de las URLs antes y después de una migración (lo podéis leer aquí). Pero este artículo se centra en las páginas huérfanas, qué son, cómo encontrarlas y por qué son importantes.

¿Qué son las páginas huérfanas?

El término técnico “páginas huérfanas” aglutina URLs o sub-páginas que no han podido ser encontradas a través del enlazado interno ya que no están enlazadas. Estas URLs que no están enlazadas internamente “flotan” en el conjunto de URLs de un dominio sin ser encontradas por un crawler estándar. Esto significa que no pueden ser encontradas tampoco por el bot de Google. Por lo tanto, en otras palabras, esta URL o página, se pierde en el abismo.

¿Cómo puedo encontrar páginas huérfanas?

Las páginas huérfanas solo pueden ser encontradas si se combinan diferentes fuentes de datos. Un análisis de las diferencias entre los datos de estas fuentes puede llevaros a descubrirlas, pero os aviso, las páginas huérfanas no deben confundirse con las “páginas finales o muertas”, que ciertamente, pudieran ser un problema para el enlazado interno, pero no nos valen como páginas huérfanas por lo que no las analizaremos en este artículo.

¿Cómo puedo encontrar páginas huérfanas con los datos de enlaces?

Lo más obvio es hacer un análisis de errores con los datos de enlaces que recibe un dominio.

La combinación de los datos obtenidos de crawlear una página y sus enlaces es el primer y más sencillo paso para descubrir páginas huérfanas. El método exacto y cómo lo hagáis probablemente dependa de vuestras preferencias y las herramientas disponibles. Si tenéis tanto un crawler como los datos de Majestic a mano, podéis comparar las URLs obtenidas del crawling y las URLs objetivo de los enlaces externos. La comparación de estas URLs, por ejemplo con un simple comando de Excel “VLOOKUP” o “BUSCARV” podría ser suficiente para detectar alguna página huérfana.

Si quieres algo más práctico y tienes que gestionar unas cantidades más significativas de datos, puedes solucionarlo con una herramienta específica para esto, como por ejemplo Deepcrawl. Como añadido a los datos obtenidos por el crawl de la web, puedes incluir los datos de enlaces de Majestic con tan solo hacer un clic al configurar el rastreo. Esta función es gratuita para el usuario ya que los datos de Majestic son añadidos vía API.

Sin embargo, también puedes añadir hasta 100 MB de datos de enlaces al crawl de manera manual. El resultado es un informe que refleja las diferencias obtenidas, ya sea porque la herramienta haya sacado las URLs del rastreo de la web o de los datos de los enlaces.

En el mejor de los casos, el informe se parecerá a esto porque no se han encontrado páginas huérfanas con los datos de enlaces:

También es posible que aparezca un número determinado de URLs en el informe que representa las páginas huérfanas que has buscado. Estas URLs deberían ser analizadas teniendo en cuenta lo siguiente:

a) Si tienen un valor añadido.
b) ¿De dónde vienen estas páginas exactamente?
c) Si estas páginas debieran revisarse y actualizarse porque tienen un valor añadido para el usuario o no.
d) Si finalmente deberían ser eliminadas por completo.

Como sabemos ahora, podemos descubrir las páginas huérfanas con la ayuda de los datos de los enlaces, pero también queremos recurrir a fuentes de datos adicionales. Esto puede contribuir a descubrir más de estas páginas (he de recalcar que usamos de nuevo Deepcrawl).

Encontrar páginas huérfanas a través de los Sitemaps

Este método es realmente fácil para verificar páginas huérfanas y, sin embargo, no es un método que se use a menudo. En la mayoría de los casos, lo que se pretende con el mapa del sitio es saber si tu Sitemap contiene todas las URLs que quieres que contenga, pero rara vez se utiliza para ver si contiene URLs que no pueden ser encontradas por un crawl a la web.

Esto es muy típico que ocurra cuando una página se crea y automáticamente se genera el Sitemap y se olvida enlazar la página internamente. Otra razón podría ser que las páginas no son eliminadas del enlazado interno, porque no se consideran importantes pero el Sitemap no se modifica automáticamente. Afortunadamente, muchas herramientas pueden ayudar a controlar esto. No siempre se tienen encontrar cantidades enormes de URLs con este método, cualquier resultado entre 1-10 puede ser en ocasiones suficiente. como muestra la captura de pantalla siguiente:

Ahora que ya somos capaces de descubrir páginas huérfanas a través del Sitemap,  vayamos a otro conjunto de datos también muy importante.

Encontrar páginas huérfanas con Google Search & Datos de Analytics

Esta comparación es posiblemente la más interesante, ya que los datos de Google los empleamos de manera habitual en nuestro trabajo. Con este sistema, si encontramos páginas huérfanas al cruzar los datos de Google Search y Google Analytics, el resultado obtenido podría ser algo mayor que, por ejemplo, de haber utilizado el método del Sitemap.

Aquí podemos estar seguros de que Google sabe de estas URLs, de alguna manera, y que nosotros ya no las tenemos enlazas internamente. Por supuesto, no asumimos que hay una diferencia de URL (lo que podría deberse al propio crawler) y además siempre presuponemos que todas las URLs únicas pueden ser indexadas (en concreto las que no contienen parámetros o índice de páginas).

Si estas interesado en conocer otras técnicas, podemos utilizar más fuentes de datos para encontrar páginas huérfanas, como te explico ahora.

Encontrando páginas huérfanas a través de los logs

Mencioné que la comparativa entre Google Search Console y Analytics es increíble, pero debería también decir que la comparativa con los Logs del servidor es incluso mejor. La razón de esto es bien sencilla: los Logs son datos que se encuentran en el servidor y son exactos. Los datos que están del lado del cliente como pueden ser los de Google Analytics o Search Console, los cuales básicamente no sabemos de dónde provienen, son como una especie de “caja negra”.

Pero si tienes a manos los datos de los Logs del servidor puedes utilizarlos para hacer la comparación y esperar que los resultados no se parezca a los que muestro en la siguiente imagen. Esto sería una situación bastante alarmante.

Si todavía no tienes suficientes ideas de cómo encontrar páginas huérfanas, puedes también exportar todas las páginas creadas y activas desde tu sistema y compararlas con el conjunto de URLs sacadas del crawl de la web. Uno se sorprende de cómo aparecen en ocasiones los resultados y cómo habitualmente salen páginas huérfanas que no conocías. Las razones de esto pueden ser varias, lo que nos lleva a la siguiente sección.

Razones para que existan las páginas huérfanas

Ya hemos hablado suficiente del descubrimiento de páginas huérfanas, pero todavía no de las razones de su existencia, y éstas pueden ser muy diferentes. He aquí algunas posibilidades que vamos a ver, sin que esto suponga tener un listado completo de todas ellas.

  • Páginas que han sido completa o sucesivamente eliminadas del enlazado interno sin haberse eliminado como páginas del sitio.
  • “Páginas de prueba” del sistema de la tienda, por ejemplo para hacer A/B tests. La persona a cargo deja la empresa en algún momento y nadie sabe de esas URLs nunca más.
  • URLs de un CRM anterior o viejo que nunca se eliminaron por completo.
  • Landing pages de un tema puntual o de tendencia que nunca se quitaron.
  • Uso incorrecto del CMS, lo que provocó que se crearan dichas páginas.
  • Categorías que fueron eliminadas pero no redireccionadas.
  • Páginas que simplemente se “olvidaron” durante una migración.

El problema con las páginas huérfanas

En ocasiones hay razones bastante dantescas que, por gracioso que pueda sonar, te distraen de la importancia de este tema. Una de los principales motivos por los que las páginas huérfanas pueden ser perjudiciales, más allá del tener un índice “aseado”, es el que pueden causar problema en el enfoque de palabras clave de un dominio. Por ejemplo, las páginas huérfanas se suman al reto de las URLs en su competencia por las palabras clave, y son páginas que nadie conoce pero que están alineadas con las mismas palabras clave o variantes (como “frigorífico vs. nevera” etc.) de nuestras páginas de interés, y esto puede afectar al éxito del posicionamiento de un dominio.

También podría ser prejudicial si la URL equivocada, a pesar de no estar (de ninguna manera) enlazada internamente, pudiera posicionar porque tal vez históricamente se hubiera enlazado mejor externamente y estuviese más optimizada que la nueva (si, ¡en ocasiones algunas páginas no se redirigen como debieran!).

También puede darse el caso de que perdamos la fuerza de los enlaces que recibe, ya que enlazan a una página huérfana de nuestro sitio.

Por supuesto, siempre se debería comprobar el tráfico de estas páginas, de ahí la utilización de Google Analytics.

Por otro lado, también has de considerar que las páginas huérfanas pueden interrumpir la estructura de enlaces de un dominio, por ejemplo, si estas páginas son encontradas en medio de la estructura de un sitio web. Es decir, que las páginas huérfanas solo enlazan a otras páginas, pero no reciben enlaces de ninguna otra página, lo cual hace que la estructura de URL se venga abajo puesto que bajo esta página tienes más URLs que solo son enlazadas desde una página huérfana. Con lo que tienes una rama entera de tu sitio web totalmente huérfana, con varias páginas colgando de la URL huérfana, sin aportar ningún valor al sitio.

Para terminar el artículo,  aquellos que no hayáis analizado todavía vuestro dominio de cara a las páginas huérfanas ahora sabéis a lo que os enfrentáis. Por qué es importante y cómo podéis proceder. Esperamos que no os encontréis en una situación como esta:

¿Por qué las páginas huérfanas son importantes?

Desde una perspectiva SEO, las páginas huérfanas reflejan que tal vez tengas un contenido de valor que no está siendo enlazado. Eso significa que la credibilidad online o el Trust Flow no están siendo traspasados a esas páginas, lo cual podría ayudarte en la visibilidad de tu  perfil online. Además, tus lectores y usuarios podrían estar perdiéndose un contenido realmente bueno de esas páginas cuando busquen tu sitio.

Así que hazlo ahora, no lo retrases, ¡empieza ya a buscar esas páginas huérfanas en tu sitio!

THANK YOU!
If you have any questions in the meantime, please contact help@majestic.com
You have successfully registered for a Majestic Demo. A Customer Advisor will contact you shortly to schedule a suitable time to connect.