Google explica cómo lidia con el contenido duplicado

Gary Illyes ha aclarado algunas cosas de cómo gestiona Google contenido duplicado y las páginas canónicas

Gary Illyes es un analista de Google especializado en tendencias webmaster. Es uno de los presentadores en el programa Search Off The Record, un podcast en el que los empleados de Google hablan de su experiencia de la compañía. También discuten información acerca de las últimas novedades, descubrimientos y avances en Google, comparten anécdotas y batallitas. Hay episodios muy interesantes. Os lo recomendamos si os interesa manteneros al día de las andadas del gigante californiano (y os apañáis bien en inglés).

Una de las primeras cosas que los compañeros preguntaron a Gary fue acerca de «Life of a Query«, una clase privada para ingenieros novatos en la compañía. Sospechamos que en dicha conferencia, que se presentó en mayo de este año y ya está implementada en el protocolo de training de Google, debe de contener no pocas enjundias. Mejume SEO. Algún quid de la cuestión que nos vendría muy bien saber. Y lo sospechamos porque el contenido de «Life of a Query» se ha mantenido tan secreto como la receta de la Coca-Cola. El propio Illyes está harto de decir que sí, a los SEOs les encantaría asistir a LOAQ. Pero no, no pueden.

No pudo hablar en extensión del contenido exacto de las conferencias, por razones obvias, pero sí que hizo una suerte de resumen (muy resumido) del «temario» que se estaba impartiendo en las clases. Y aquí es donde empezamos a hablar de contenido duplicado, canonicalización, dupe cluster, y otros palabros.

First things first: ¿qué importancia tiene el contenido duplicado en Google?

Si llevas algún tiempo con un proyecto web, ya te sonará todo. Uno se suele enterar por primera vez del tema del contenido duplicado cuando alguna de tus URLs deja de aparecer en los motores de búsqueda. Y es que los rastreadores de Google han detectado contenido muy parecido o idéntico y la han desindexado.

Tal y como explica Illyes en el podcast, el motivo de esta penalización es que toda la misión en la vida de Google Search es hacer el sistema de búsquedas lo más efectivo y eficiente posible para los usuarios. Y, en este sentido, el contenido duplicado es inútil.

Además, otra de las razones es que, en contra de lo que podamos pensar, el espacio de almacenamiento de Google no es infinito. Cientos de miles de servidores físicos almacenan información a lo largo y ancho del mundo. Teniendo en cuenta que se crean casi un millón de páginas web nuevas cada día, Google no se puede permitir desperdiciar espacio con páginas idénticas. Pero, ¿cómo «sabe» Google que una página es un contenido duplicado? y, sobre todo, entre varias páginas parecidas, ¿cómo sabe cuál es la original?

Algoritmos, por supuesto.

Un algoritmo es, en esencia, una expresión matemática que da instrucciones a un ordenador. Usamos algoritmos para decirle a un ascensor si tiene que subir, bajar, pararse, abrir o cerrar la puerta. Usamos algoritmos para predecir el retraso de los trenes en las estaciones de metro. Y Google usa algoritmos para casi absolutamente todo, incluido comparar el contenido de diferentes páginas web y determinar si dicho contenido se parece entre sí lo suficiente como para considerarse duplicado.

A grandísimos rasgos, y tal como nos explica Illyes en el podcast, el proceso de detección de contenido duplicado se divide en dos partes. Primero, un algoritmo hace lo que se conoce como «suma de verificación«, o «checksum». Una suma de verificación consiste, básicamente, en tomar una unidad de contenido, en este caso una página web, y sumar sus partes para sacarle una especie de huella dactilar de datos. John Mueller, otro de los presentadores del programa, lo explica como: «coges todas las letras de un documento, las sumas, y te sale un número larguísimo que después comparas con otros números larguísimos». Es más fácil e infinitamente más rápido comparar números que comparar palabras, dice Illyes.

Los checksums que coinciden, o que coinciden hasta cierto grado, son agrupados bajo la denominación de «dupe cluster», o, literalmente, «grupo de duplicados». En la segunda parte del proceso, Google tiene que determinar cuál de esas páginas web con checksums coincidentes es la original, o cannonical.

Señales, de M. Night Shyamalan

¿Cómo puede un algoritmo saber cuál de esas sumas interminables es la que debe, como dice Illyes, «liderar el grupo», o dicho de otra forma, aparecer en los motores de búsqueda? Buscando las señales. Hay un conjunto de 20 señales, más o menos, que se buscan para determinar si una página es la original, la canónica.

No es difícil imaginarse cuáles son. Buscar el original en contenido web es como buscarlo en deberes de colegio copiados: si uno de los cuadernos está bonito, cuidado, trabajado y el texto tiene 400 palabras, probablemente ese sea el original, y la copia sea el folio suelto y manchado que ha entregado el que nunca hace los deberes.

El algoritmo tiene en cuenta, por supuesto, el contenido. También el page rank , linkbuilding, inclusión en un sitemap, redirecciones a otras páginas, internas o externas… Cada uno de estos parámetros tiene un peso específico, y Google los compara entre las páginas de un grupo de duplicados. La página que más puntos tenga al final del recuento, se gana el premio de cannonical.

Independencia del ranking

John Mueller pregunta a Gary Illyes si el cómputo final de estas señales que determinan la canonicalización de una página se tiene en cuenta a la hora de posicionar. Illyes es muy claro: no. Son señales diferentes. Los criterios de posicionamiento tienen que ver con legibilidad, calidad, precisión. Los de canonicalización con autoría.

Eso sí, a mayor puntuación en las señales de canonicalización, mayor posibilidad de aparecer en los motores de búsqueda. A partir de ahí, sí que empezamos a hablar de ranking. O sea, que cannonical y ranking no son lo mismo, pero están claramente relacionados.

¿Se equivoca alguna vez Google?

Sí. Primero, porque ningún algoritmo es perfecto. A veces, incluso dentro de nuestra propia web, Google entiende que nuestro contenido es demasiado similar entre sí como para ser relevante. Esto es una faena, por ejemplo, en el caso de un e-commerce que tenga páginas de productos similares con pequeñas modificaciones.

Y segundo, porque, como dicen nuestros amigos de Search Off The Record, hay páginas duplicadas que ni siquiera una persona sería capaz de diferenciar entre original y réplica. Las copias bien hechas también existen.

Por eso, algunas veces Google marca como cannonical a la página incorrecta, y manda al limbo a la original. Hay formas de prevenir que esto pase. Por supuesto, los caminos de Google son inescrutables y nada puede garantizar nada al 100%. Pero, al final, las señales que busca Google para determinar la canonicalización de una página son aquellas que demuestren autoría sobre ella.

Si quieres asegurarte de que tu proyecto se lleva lo mejor posible con los algoritmos de Google, para eso estamos nosotros: Onion Studio, tu agencia de marketing digital en Málaga (y en todas partes).

Las imágenes que ilustran este artículo han sido extraídas de Unsplash.com