Bienvenidos a un nuevo episodio del podcast de Negocios Locales (suscríbete en Apple Podcast | Spotify | Ivoox) donde analizamos lo último en SEO, inteligencia artificial y tecnología. Hoy vamos a hablar de cómo los datos estructurados pueden ayudar a la IA a recomendar tu negocio local. ¡Empezamos!
Durante meses, los escépticos han argumentado que los Modelos de Lenguaje Grande (LLMs), como ChatGPT, no comprenden o entienden porque procesan todo como texto tokenizado.
La tokenización es el proceso mediante el cual un modelo de lenguaje (LLM) toma un texto y lo divide en unidades más pequeñas llamadas tokens. Estos tokens suelen ser palabras individuales, pero a veces pueden ser fragmentos de palabras o incluso caracteres sueltos. Por ejemplo, si la IA lee la palabra “peluquería”, podría dividirla en tokens como “pelu” + “quería”; en cambio, una palabra corta como “corte” quizás quede como un solo token. Es una forma de convertir el texto en números para que la máquina pueda procesarlo.
Para visualizarlo, imagina que tienes la carta de un restaurante escrita en una hoja. Un enfoque “tokenizado” sería como si la IA leyera la carta palabra por palabra o sílaba por sílaba, sin entender que ciertas palabras juntas tienen un significado mayor. Por ejemplo, el menú dice: «Especial del día: Pizza Margarita – 10 €». La IA lo trocea en piezas: “Especial”, “del”, “día”, “:”, “Pizza”, “Margari”, “ta”, “-”, “10”, “€”. La IA ve los fragmentos, pero no necesariamente comprende que todo junto significa que hay una pizza Margarita en promoción por 10 €. En resumen, la tokenización ayuda a la IA a manejar texto de forma eficiente, pero en ese proceso se pierde la estructura o el contexto completo de la información.
Con todo esto vemos que los LLM son como una “sopa de letras” donde a ver qué encuentras
Avances de los LLM para evitar las limitaciones de la tokenización
Las IA modernas tienen trucos para evitar estos errores causados por la tokenización:
- Uso de herramientas externas: Si la tarea es muy específica, algunos modelos pueden por ejemplo “llamar” a un programa externo para que le ayude a identificar si lo que está leyendo es un número de teléfono de un restaurante o un número con el que llevar a cabo cálculos. Para responder a cuestiones como ¿Cuánto cuesta hoy el cambio de dólar a euro? antes, un LLM intentaría adivinar basado en datos antiguos. Ahora, puede consultar una API financiera para dar la respuesta correcta en tiempo real.
- Razonamiento símbolico incorporado: Los nuevos modelos integran componentes de razonamiento. Es decir, no solo leen texto, sino que pueden deducir o estructurar internamente la información. Por ejemplo: si un negocio está cerrado los domingos, la IA puede razonar que no debe sugerirlo como opción ese día y si un hotel ofrece desayuno incluido solo en tarifas premium, la IA puede deducir que los clientes con tarifa estándar no lo tienen.
- Auto-verificación: Las IA más avanzadas pueden revisar sus propias respuestas para corregir errores o aceptar que no lo sabe. Ante la pregunta ¿Cuánto cuesta un corte de pelo en la peluquería de María? las IAs podían dar una respuesta inventada si no tenía datos concretos (y aún lo siguen haciendo). Ahora, puede revisar su respuesta, darse cuenta de que no tiene suficiente información y en su lugar decir: «No tengo esa información, pero puedes revisar la web de la peluquería aquí y motrar el enlace.
Gracias a estas mejoras, ya no es tan grave que la IA lea por tokens. De hecho, seguirá usando la tokenización porque es parte de su funcionamiento, pero ya es poco común que eso le impida entender algo importante. En resumen, hoy una inteligencia artificial difícilmente va a confundirse porque una palabra tenga muchas letras o porque haya un símbolo raro en la dirección de tu negocio. Esos “trabalenguas” técnicos han pasado a segundo plano. Lo realmente importante está en que no haya alucinaciones.
Los LLM no necesitan “adivinar” cuando disponen de datos estructurados
Una alucinación en este contexto significa que la IA, cuando no está segura de algo, puede inventar o suponer información incorrecta pero que suene creíble. Esto ocurre porque los modelos aprenden de muchísimos textos y a veces, si les preguntas algo específico que no recuerdan exactamente, rellenan los huecos con su mejor versión que no tiene por qué ser la correcta.
Aquí es donde los datos estructurados son la solución. Si proporcionamos a la IA información en un formato organizado y claro, la IA no tiene que adivinar nada, solo lee los hechos tal cual. Pensemos en un ejemplo concreto:
En un restaurante, los precios y los platos podrían estar en un párrafo descriptivo en su página web. Una IA leyendo esto “Menú del día: Ensalada César + Filete + postre – 8€” tal vez deduzca que solo el precio de la ensalada es de 8 euros, porque el formato es inconsistente. Ahora, imagina que el restaurante proporciona estos datos en una forma estructurada, por ejemplo, una pequeña tabla oculta en la página o un código especial indicando “plato: Ensalada César, precio: 8”. Así la IA no tiene que interpretar lenguaje natural; simplemente encuentra campo = plato, valor precio = 8. El resultado: cuando le preguntes “¿Cuánto cuesta el menú del díar?”, te dirá 8€ exactos, sin dudas ni invenciones.
Otro ejemplo sería una peluquería y sus horarios. Si en la web solo pone “Abrimos de martes a domingo, de 9 a 5, excepto festivos” en texto libre, una IA podría confundirse con el “excepto festivos” o al traducir el horario. Pero si esa información está en datos estructurados (por ejemplo, usando un formato estándar para horarios que muchos buscadores entienden), la IA sabrá con precisión que los martes a domingo abre 9:00–17:00 y que los festivos están excluidos. No hay lugar a interpretación errónea.
Hay quien piensa que si ponemos datos estructurados (como es el código JSON-LD de Schema.org) en una página, la IA lo leerá como si fuera texto cualquiera y lo convertirá en una “sopa de letras” más dentro de su modelo. En realidad, formatos como schema.org (muy usado para marcar datos de negocios en la web) están diseñados para que los robots los entiendan de forma directa.
Más allá RAG (Retrieval-Augmented Generation)
Hasta ahora, muchas IA para evitar las alucionaciones han evolucionado y funcionan con algo llamado RAG (Retrieval-Augmented Generation), que básicamente significa que buscan en textos existentes para complementar su respuesta (por ejemplo, buscan en Wikipedia y luego responden).
Esto suena bien, pero tiene dos grandes problemas:
- No siempre entiende la información: Como la IA solo «lee» los textos, puede confundir conceptos o no captar bien el significado.
- Todavía puede inventar cosas: Aunque consulta fuentes externas, sigue generando respuestas basadas en patrones, lo que puede llevar a información incorrecta.
Pero el futuro apunta a que no solo busquen texto sin procesar, sino que se avanzará en los siguientes aspectos:
- consulten bases de conocimiento estructurado. ¿Qué quiere decir esto? Que en lugar de que la IA lea cien páginas para averiguar los datos de un restaurante, podría consultar directamente un grafo de conocimiento o base de datos donde ya está la información organizada. Sería como preguntarle a una biblioteca bien ordenada en vez de revisar mil notas desordenadas. Por ejemplo: «¿Dónde está la panadería El Trigo en Madrid?» Si la IA usa RAG, puede leer muchas páginas y tratar de adivinar. Si usa datos estructurados, simplemente busca en su base de datos y responde con información exacta que aparece en el knowledge graph de la ficha de GBP.
- Comprensión basada en ontologías: alinear los LLMs con datos estructurados respaldados por ontologías, eliminamos la ambigüedad y mejoramos la precisión. Una ontología es una forma de organizar información con relaciones claras, y ayuda a la IA a entender que un concepto pertenece a una categoría específica y no a otra. En el podcast te explico el caso.
- Sistemas de Razonamiento Híbridos: Los mejores modelos de IA combinan conocimiento simbólico estructurado con modelos estadísticos, reduciendo la necesidad de conjeturas probabilísticas. Por ejemplo si se pregunta»¿A qué hora abre el restaurante La Luna los domingos?» Si la IA solo usa RAG, puede encontrar horarios en varios sitios y dar una respuesta errónea. Si usa razonamiento híbrido, verifica el horario en datos estructurados y da una respuesta exacta.
El futuro de los LLM está en la calidad de los datos, no en la tokenización
En vista de todo lo anterior, los expertos concluyen que las mayores mejoras en los modelos de IA vendrán de incorporar datos estructurados de alta calidad, más que de afinar cómo trocean las palabras
Añadir conocimiento bien organizado (por ejemplo, grandes gráficos de conocimiento que conectan datos entre sí) hace que la IA sea más precisa, sepa razonar mejor y recupere información de forma más fiable. Mientras que ajustar la tokenización da mejoras pequeñas pero tampoco nos permite llegar muy lejos.
Otros artículos donde os exlico cómo implementar schema:




