Google utiliza una técnica llamada Entity Extraction para indexar páginas web en su índice semántico. Una entidad (entity) tiene un significado en el mundo real. Puede ser una persona, por ejemplo, o una ciudad, u otras muchas cosas. Hablemos del SEO semántico.

Google necesita entender que esto no es solamente una palabra clave, por lo que utiliza un proceso de extracción de la entidad para tomar automáticamente los metadatos del documento a partir de los textos no estructurados que se encuentran en la web. La Entity Extraction utiliza programas (llamados Entity Extractors) para leer un documento de texto estructurado (es decir, uno que no tiene metadatos semánticos pero que tiene palabras clave relevantes) y enriquecerla mediante la adición inteligente de metadatos relevantes para la misma. Esto, además de dos actividades singulares de indexación semántica (el Linking -mapea la relación entre las entidades- y el Análisis -categoriza la información sobre una entidad en el contenido) permite a Google construir su Entity Graph que proporciona los resultados de búsqueda semántica.

Con frecuencia se dice que en un mundo perfecto el SEO no sería necesario. Los motores de búsqueda encontrarían un sitio web, lo indexarían, y luego lo clasificarían exactamente de la manera que debe ser clasificado, de forma que lo puedan encontrar aquellos que lo están buscando.

Ni que decir tiene, que este mundo perfecto no existe. En los tiempos previos a la búsqueda semántica la optimización de motores de búsqueda (SEO) era necesaria porque los sitios web no siempre eran fáciles de indexar. Muchos obstáculos se interponían en el camino entre el contenido de un sitio web y su ranking adecuado en los resultados de búsqueda. Estos podían ir desde la arquitectura de un sitio web con un uso excesivo de iFrames o JavaScript, hasta una pobre vinculación que ocultaba el contenido detrás de las pestañas.

El SEO consiste en el diseño de un análisis detallado de un sitio web para descubrir todos los errores que puedan impedir su apropiada clasificación y luego trabajar para solucionarlos. En la web semántica la tarea se complica por el hecho de que la gran parte del SEO semántico implica formas de extraer el contenido de un sitio web para que Google pueda formarse una idea más clara de lo que el sitio web está destinado a hacer. Esto aplica presión sobre el papel tradicional del profesional SEO para convertirle en algo parecido a un experto en contenidos con una profunda idea de la empresa del cliente y de su público objetivo.

Para que la búsqueda semántica funcione correctamente requiere relevancia y contexto. Estos son los dos elementos que determinan el valor y el significado de un dato concreto. Relevancia y contexto pueden utilizarse para deducir el significado de un conjunto de datos y mostrarlos en la respuesta a una consulta de búsqueda. Es una idea bastante simple que se basa en una matemática compleja que utiliza un lenguaje formal para explicar conceptos que tienen nombres como “data types”, “strings”, “alphabet set”, “array”, etc. Estos son los términos que significan algo específico. Las abstracciones que representan tienen una forma real en términos de datos, permiten la recolección significativa y la clasificación de la información. Su manipulación y su uso conduce a la formación de la topología del gráfico semántico. Sus ondulaciones, la densidad estructural y el crecimiento dependen por completo de la capacidad que el sitio web posee para que puedan ser indexados de esta manera; y es esta indexación la que lo cambia todo, transforma el sentido y el caos en una estructura significativa y organizada. El lenguaje de búsqueda semántica es muy importante, pero voy a considerar sólo aquellos términos que son de valor práctico en términos de SEO y pasaré por alto el resto que son de uso principalmente para expertos informáticos dedicados a la investigación.

De esta forma, las “text strings”” es el nombre dado a la representación abstracta de secuencias de palabras específicas. Lo que nosotros llamamos popularmente palabras clave (keywords). Las palabras clave, en el mundo de Booleano de búsqueda que hemos dejado atrás, adquieren significado según la colocación, la frecuencia y la co-ocurrencia.

Para usar un ejemplo, supongamos que un sitio web se dedica a la venta de granadas. La palabra “granada” probablemente aparecerá un determinado número de veces en el contenido, porque sabemos que la frecuencia de palabras clave (la densidad de palabras clave que se utilizaba para destacar términos en el pasado) es un elemento importante del SEO. El problema de las palabras clave es que la diferenciación entre sinónimos es difícil. Granada, el fruto, tiene el mismo nombre que Granada, la cuidad. Google tiene maneras de poder solucionar esto, pero la diferenciación es imposible cuando no puede entender lo que se está buscando (por ejemplo, la intención de la consulta de búsqueda).

SEO Semántico: ¿Granada o Granada?

SEO Semántico: ¿Granada o Granada?

El objetivo de Google consiste en deducir que el sitio web trata sobre granadas, la fruta, en lugar de Granada, la cuidad, y servir una respuesta directa a las preguntas que necesitan esa respuesta. En realidad Google quiere hacer más que eso. Quiere que, en relación con una consulta de texto específico, también ser capaz de responder con cualquier comentario de los clientes que han encontrado el sitio web y sus granadas, las fotografías de los clientes que hayan comprado las granadas de esta web y que puedan haber subido a un contexto de red social o de cualquier otro medio de comunicación, valorando la retroalimentación que puedan haber dejado.

Para hacer todo esto Google tiene que entender que “granada” es una entidad específica (una fruta), y en el momento en que lo hace tiene que ser capaz de relacionarla con un diferente conjunto de entidades asociadas (clientes, las fotografías, mermelada). Es esta asociación relacional la que está detrás de la idea de una entidad en una web semántica, la que es capaz de refinamiento y de mejora constante, y es totalmente escalable a través de la web.

Si el sitio web consistiera en la venta de mermelada de granada, entonces tendríamos que tener en cuenta que las palabras “mermelada de granada” ya no son una cadena de texto (una “palabra clave”) que tiene que ser utilizada en conjunto para conseguir una densidad de palabras clave específica y lograr que el sitio web se muestre en los resultados de búsqueda.

Desde el punto de vista SEO, esto tiene varias ventajas. En primer lugar, se amplía significativamente la lista de palabras clave, cambiando de una lista restrictiva de palabras que tienen que ser repetidas en una frecuencia determinada y una ubicación específica en el texto, a una forma más natural de la escritura que se ajuste a la forma en la que hablamos. Así que su “mermelada de granada” será intercambiable con “granada en conserva” por ejemplo, y la atención se centrará más en las preguntas que el contenido intenta abarcar que en la intención de construir la repetición de palabras clave.

“Mermelada de granada” ahora también puede convertirse en “granada en conserva” o “fruta en conserva” que puede producirse de varias maneras. Puede ser vendida en diferentes formatos, en diferentes lugares que pueden estar asociados con su venta, y pueden generar comentarios asociados.

El contexto que Google utiliza para crear todas estas asociaciones es el resultado directo de una colaboración pública con Microsoft y Yahoo, y está documentado en Schema.org.

Schema.org detalla el lenguaje técnico necesario para crear una red estructurada de datos que sea fácil de leer para la indexación semántica y aunque no es un requisito indispensable, definitivamente debe estar en nuestro radar en términos de aplicación en nuestro sitio web.

Por supuesto, el HTML tiene la posibilidad de añadir marcas semánticas a un sitio web. En un documento HTML el autor puede, entre otras cosas, añadir un título, añadir títulos y párrafos, dar énfasis al texto (a través de contenidos en cursiva), añadir imágenes (con etiquetas alt adecuadas), añadir enlaces a otras páginas, y usar diversos tipos de lista de una manera que enriquece más a fondo el valor informativo de la página. A algunas de estas prácticas se les dio un mayor protagonismo en el SEO de la web pre-semántica, mientras que otros (el texto en cursiva que es importante para el contenido de la página, por ejemplo) se usa con menos frecuencia.

A pesar de que los datos de tu web no puedan ser estructurados en su totalidad, las páginas web que se hayan creado correctamente, utilizando un Sistema de Gestión de Contenidos (CMS) que permita que el autor rellene todos los campos de metadatos relevantes incluyendo, cuando sea posible, las etiquetas que describen la página, serán más fáciles de rastrear por Google e incorporarlas a la web semántica.

Reconociendo la creciente importancia del marcado de datos estructurados de un sitio web, Google ha proporcionado la herramienta Marcador de Datos a la que se puede acceder a través de tu panel de Google Webmaster Tools. Aquí le dices a Google exactamente qué información en tu página web puede tener en un formato de datos estructurado. Google hace esto sobre la marcha por lo que no se cambia ningún código en tu sitio web, el motor de búsqueda “entiende” mejor los datos que resaltas y, aún más importante, sabe cómo tratar a las páginas similares que encuentra.

En el ejemplo de la granada, la rica red de relaciones que Google asocia con el término “mermelada de granada” significa que cuando una consulta de búsqueda de mermelada de granada se escriba en la búsqueda, aparecerá un resultado que se basa en el estado exacto de la entidad en el índice semántico de Google en relación con su ubicación. Lo que quiere decir que si hay una feria anual de la granada en determinado lugar asociado con nuestra mermelada de granada, aparecerá a los que buscan “mermelada de granada” y cuya ubicación esté cerca de ese lugar. También aparecerá en relación con la fecha, de modo que si la consulta de búsqueda se llevó a cabo en Agosto mientras que la estación de la granada es en el Otoño, la feria de la granada podría aparecer como un resultado académico más que como uno de valor práctico. Tal vez sería visible desde un PC, pero no en la búsqueda móvil, donde el reconocimiento de la ubicación es una señal más fuerte y los resultados se clasifican de manera diferente.

Esto sugiere un par de cosas importantes. En primer lugar, la búsqueda semántica crea una fluidez de contenido que es relevante sólo cuando es verdaderamente relevante. La búsqueda de “mermelada de granada” en Octubre por ejemplo, ofrece resultados diferentes que la misma búsqueda realizada en Agosto. En segundo lugar, la búsqueda vertical de la consulta es extraer resultados a partir de un índice diferente e informa a través de un mayor conocimiento de la intención de búsqueda (es decir, porque estás realmente en busca de “mermelada de granada”). La búsqueda por voz en Google de “mermelada de granada” por ejemplo, presentará resultados diferentes que una búsqueda en Google en un PC.

La búsqueda desde un PC asume la dirección IP y el historial de búsqueda. La búsqueda por voz de Android está formado por un índice diferente más la geolocalización suministrada por la señal GPS del teléfono. Los resultados serán totalmente diferentes.

Todo esta estrategia de SEO semántico se derrumbará cuando no haya datos suficientes para formar el tipo de asignación de relación que produce resultados. De esa manera los resultados de búsqueda se suministrarán convencionalmente, con las lagunas de conocimiento que Google rellenará por lo que ha indexado y lo clasificará utilizando el índice de búsqueda normal.

Un plan de acción para el sitio web “mermelada de granada” del ejemplo incluiría entonces:

-Suficiente difusión de la información en la web social para permitir la extracción de significado semántico.
-El uso de marcado semántico en el sitio web utilizando el vocabulario de Schema.org para permitir a Google indexar la información correctamente.
-El uso apropiado de etiquetas descriptivas en la propia página web.
-El uso de hashtags al compartir el contenido de la página en la web.
-El uso de marcado semántico en el sitio web utilizando la herramienta Marcador de Datos de Google, para permitir a Google entender cómo el valor de la información que indexa cambia como en el caso de eventos específicos celebrados en determinadas fechas y en ciertos lugares.
-Un programa de difusión de medios sociales que permita una amplio mapeo del contenido de la página en asociación con otras entidades como los lugares, puntos de venta, etc.

Saber lo importante que es la idea de una entidad ayuda a mirar un poco más de cerca cómo exactamente se construye. Permitirá desarrollar acciones SEO de manera granular, personalizadas y diseñadas para facilitar a Google la indexación de una entidad y que la entienda de forma más completa.