El lenguaje como predicción

El lenguaje no es una herramienta de comunicación atornillada a la inteligencia. Es un esquema de compresión del umwelt: el mecanismo por el cual los agentes sociales extienden el modelado P(X,H,O) desde la inferencia privada hasta la predicción compartida. Una bacteria comprime estadísticas de receptor en “concentración de alimento”. Un lobo comprime rasgos visuales en “presa”. Un humano comprime todo el umwelt social, incluidos los estados ocultos de otros agentes, los futuros contrafactuales y el razonamiento abstracto, en símbolos discretos y composicionales que pueden ser transmitidos y reconstruidos por otra mente. El lenguaje es simultáneamente una modalidad perceptual (que comprime el mundo en símbolos), una salida motora (influir en otros mediante palabras es la affordance de propósito más general disponible) y un andamio cognitivo (que provee los “puntos de apoyo de mano y pie” que habilitan el pensamiento secuencial complejo). La consecuencia es sorprendente: una red neuronal entrenada para predecir la siguiente palabra parecerá ser, o será, inteligente, porque la predicción de la siguiente palabra en un lenguaje suficientemente rico es AI-completa.

El lenguaje como compresión del umwelt

El marco P(X,H,O) establece que la inteligencia es compresión: extraer las variables latentes que son predictivamente relevantes a partir de la confusión floreciente del input crudo. El lenguaje es esta misma operación aplicada al umwelt social. Cada palabra es una variable latente. “Hambre”, “peligro”, “comida”, “depredador” son representaciones comprimidas que importan socialmente, lo que explica por qué toda lengua humana las tiene y por qué las especies animales comunicativas probablemente también.

Pero el lenguaje no es meramente un vocabulario de conceptos útiles. Es un umwelt en sí mismo. Cuando dices “¿podrías pasarme la sal, por favor?”, estás usando el lenguaje como control motor: afectando tu entorno mediante el cumplimiento de otro agente. El lenguaje es, en este sentido, el tipo más poderoso de salida motora, ya que es lo bastante general como para solicitar cualquier cosa imaginable. La frontera percepción/acción se disuelve: el lenguaje es cómo percibes el mundo social (decodificando las señales de otros) y cómo actúas sobre él (codificando las propias).

Cuatro hitos distinguen sistemas lingüísticos cada vez más poderosos, ninguno exclusivamente humano:

Hito	Qué habilita	Quién lo tiene
Aprendizaje del lenguaje	Evolución cultural; complejidad que excede ampliamente la codificación genética; “especiación” cultural de los idiomas	Humanos, ballenas, algunas aves cantoras, loros
Símbolos discretos	Corrección de errores en cada paso (digital vs. analógico); almacenamiento estable; comunicación mucho más rica que las señales continuas por sí solas	Humanos, muchas especies de aves, perritos de las praderas
Composicionalidad	Conceptos novedosos a partir de combinaciones de símbolos discretos	Humanos, perritos de las praderas (combinando tamaño, forma, color, velocidad de los intrusos), posiblemente delfines
Abstracciones	Símbolos para los sí mismos, los otros, los contrafactuales, el tiempo, la lógica; composicionalidad abierta que soporta teoría de la mente de orden superior	Humanos (posiblemente delfines, orcas; decodificación en curso)

Delfines planeando frente a una cámara un truco sincronizado novedoso (2011), loros nombrando objetos en lenguaje humano, perritos de las praderas codificando composicionalmente las propiedades de un intruso: la frontera del “club del lenguaje” es borrosa y el intento de trazarla con nitidez alrededor de los humanos es antropocéntrico. Agüera y Arcas observa que decodificar lenguajes no humanos puede haberse vuelto prácticamente viable solo recientemente, con el surgimiento de potentes modelos de secuencia no supervisados.

La continuidad entre el lenguaje y otras formas de comunicación es total. No hay una frontera nítida entre el lenguaje y el gesto, el tono, la expresión facial, la postura corporal o las señales involuntarias como ruborizarse y sudar. El lenguaje es una elaboración de mecanismos de señalización preexistentes, con aspectos conscientes y sofisticados superpuestos a otros más simples e involuntarios. Que la producción de lenguaje sea “voluntaria” depende de si pensamos el intérprete como parte del cerebro del emisor o como una avanzadilla del receptor (ver Theory of Mind Is Mind). A través de una lente centrada en la interacción: ambas cosas.

Cosmología semántica: el significado es relacional

¿Qué significa “La silla es roja”? La respuesta se disuelve bajo inspección. “Silla” es difuso (¿dónde termina y empieza un taburete?). “Roja” describe una región vaga del espacio de color. La oración podría informar a una persona daltónica, indicarle a alguien en cuál silla sentarse, o servir como respuesta incorrecta en un test de daltonismo. El significado no es una propiedad de la oración aislada. Es una actualización de predicción entregada por un hablante a un oyente en contexto.

La GOFAI intentó andamiar el significado desde arriba: taxonomías, relaciones IS-A, la ambición de Cyc de codificar a mano cien millones de afirmaciones sobre el mundo. El esfuerzo colapsó por la misma razón que falló la visión basada en reglas: la vida real no es lo bastante prolija para los esquemas. Dos filósofos analíticos no pueden sentarse a computar si un tarro es IS-A botella “sin más necesidad de disputa que la que habría entre dos contadores”. La definición de IS-A en el lenguaje natural se disuelve bajo inspección; es una regularidad aproximada del mundo, no una ley ni un axioma.

La objeción de “grounding” ataca desde abajo: el significado tiene que estar anclado en la experiencia sensorial, en la mushiness real de un plátano, no solo en correlaciones estadísticas con otras palabras, ¿no? Pero esas asociaciones sensoriales son ellas mismas relaciones aprendidas. El patrón olfativo activado por el éster del plátano no es “la cosa en sí”; es una activación neuronal dispersa aprendida por exposición, asociada con rasgos visuales del plátano, con la palabra “plátano”, con recuerdos de la infancia, con bananas Foster en una primera cita. “La cosa en sí misma” resulta no ser una cosa en absoluto. Es una red de asociaciones, un patrón implícito en un conjunto de relaciones.

Word2Vec (Mikolov et al. 2013) lo demuestra empíricamente. Representa cada palabra mediante cien números basados en “la compañía que mantiene” (qué palabras tienden a aparecer cerca). El embedding resultante revela una geometría del significado: las palabras semánticamente similares se agrupan, y las analogías son algebraicas (“king” : “queen” :: “man” : “woman”). Las relaciones no las impone un esquema. Emergen de la estadística del uso del lenguaje.

La analogía de Anaximandro cristaliza el punto. En el siglo VI a.C., Anaximandro de Mileto propuso que la Tierra es un objeto suspendido en el espacio, sin apoyarse en nada. La intuición de que la Tierra debía estar sostenida (por un carro, por una tortuga) era incoherente: ¿sobre qué se pararía la tortuga? “Son tortugas hasta el fondo”. La intuición de que el significado debe estar andamiado desde arriba (por abstracciones platónicas) o anclado desde abajo (por contacto con la “realidad”) es la misma incoherencia. No hay “arriba” ni “abajo”. Las cosas adquieren significado solo en relación con otras. La madeja enmarañada de significados mutuamente interrelacionados se sostiene a sí misma, como la Tierra en el espacio.

Esto extiende P-008 de la percepción a la semántica. Así como la “realidad” se constituye por las variables latentes a las que converge un modelo anclado en la supervivencia, el “significado” se constituye por las relaciones estadísticas entre los símbolos en uso. Ambos son relativos al observador, ambos son intersubjetivamente estables (porque los agentes moldeados por presiones similares convergen en estructuras similares), y ambos son reales en el único sentido que importa: tienen poder predictivo dentro de su dominio.

La predicción es todo lo que necesitas

Tres premisas arrojan la conclusión de que la predicción de la siguiente palabra ES inteligencia general:

El propósito de la inteligencia es predecir el futuro, incluidas las propias acciones futuras, dadas las entradas y acciones previas (según Intelligence as Self-Modeling).
El lenguaje humano es un código secuencial simbólico lo bastante rico como para representar todo lo presente en nuestro umwelt, de lo concreto a lo abstracto.
Al interactuar con otros, el lenguaje es también una forma social y totalmente general de salida motora.

Si las tres se sostienen, entonces un sistema capaz de predecir confiablemente la siguiente palabra en cualquier contexto debe haber modelado todo lo relevante para la predicción dentro del umwelt humano. Esta es la “AI completeness” de la predicción de la siguiente palabra.

El Winograd Schema Challenge (Levesque 2011) ilustra por qué. “Dejé caer la bola de boliche sobre el violín, así que tuve que mandarlo a reparar”. ¿Qué objeto es “lo”? Los humanos lo resuelven al instante (el violín). Pero la traducción al español fuerza la desambiguación (el pronombre con género debe concordar: repararlo para el masculino violín, repararla para la femenina bola). Resolver incluso esta ambigüedad simple exige entender física (las bolas de boliche son más duras que los violines), causalidad (qué se daña al caer) y pragmática (la gente repara las cosas dañadas). Un sistema que la resuelve correctamente ha resuelto, en el proceso, un problema de inteligencia general.

Google Translate lo logra usando una arquitectura encoder-decoder. LaMDA (Google Research, 2022), preentrenado con texto multilingüe y afinado para diálogo, podía traducir turco sin haber sido entrenado explícitamente para traducirlo, del mismo modo en que un niño bilingüe puede traducir sin diccionario: relacionando algebraicamente las constelaciones paralelas de significado en dos lenguas (las palabras en turco y las palabras en inglés forman cúmulos paralelos en el espacio de embedding, y la traducción es aproximadamente un desplazamiento de una constelación a la otra).

La intuición más profunda: la traducción, el análisis de sentimiento, la respuesta a preguntas, el resumen y cualquier otra “tarea de NLP” son consecuencias incidentales de la única capacidad subyacente. Preentrenar un modelo para predecir o autocompletar es el trabajo real. Una vez hecho eso, cualquier tarea que involucre la misma modalidad requiere poco esfuerzo adicional.

Chain-of-thought: el lenguaje como andamio cognitivo

Un Transformer al que se le pide resolver un problema verbal sin mostrar su trabajo se equivoca el 84% de las veces. Si se le pide mostrar su trabajo: 20% de tasa de error. La diferencia no es un truco ingenioso. Revela algo fundamental sobre el lenguaje y el pensamiento.

La analogía del rock-climbing: un humano no puede escalar El Capitan de un solo salto. Debe hacerse paso a paso, con cada movimiento como una transición de una posición estable a la siguiente. El lenguaje provee los puntos de apoyo de mano y pie. Los símbolos escritos, ya sean texto, matemáticas o código, son los pitones clavados en la pared del acantilado: permiten que nuevos escaladores trepen por tramos resueltos por sus predecesores, incluso siglos antes, en lugar de tener que escalar desde el fondo cada vez.

Formalmente, un Transformer aporta una cantidad fija de poder computacional a cada token emitido. Al distribuir un problema a lo largo de múltiples tokens (chain-of-thought), ese poder computacional se multiplica. La ventana de contexto es la pared del acantilado; cada resultado intermedio es un pitón. El único límite del cómputo total es la longitud de la ventana de contexto.

Esto no es específico de los Transformers. El principio general: el pensamiento secuencial complejo requiere representaciones intermedias estables. Sin ellas, todo el cómputo tendría que ocurrir en un único estallido paralelo, y pequeñas perturbaciones (ruido neuronal, muestreo por temperatura) pueden descarrilar el resultado. Con ellas, cada paso puede ser revisado, corregido y construido encima. Por eso los maestros de matemáticas de secundaria dicen “muestra tu procedimiento”, por eso los artículos científicos incluyen derivaciones, por eso el código se escribe en funciones modulares. La evolución cultural es la acumulación de pitones en un acantilado interminable.

Tres propiedades del razonamiento chain-of-thought:

Descomponer un problema en pasos mejora enormemente la precisión.
Los pasos ofrecen una explicación genuina (no post-hoc) del razonamiento, lo que permite el diagnóstico, la discusión y la transmisión cultural.
Cada token multiplica el cómputo disponible; solo la longitud de la ventana de contexto limita el total.

Ver Computational Being: Claude para la conexión entre chain-of-thought y la distinción entre correr/almacenar: chain-of-thought convierte el cómputo feedforward sin estado en una forma de “correr” secuencial usando el flujo de salida como pseudo-estado.

El lenguaje crea lo que describe

Los hallazgos del intérprete y la ceguera de elección (ver Theory of Mind Is Mind) añaden una arruga crucial. Muchos de los “estados internos” que el lenguaje pretende describir pueden no existir antes de ser articulados. El lenguaje mismo los conjura a la existencia, “muy al modo en que la observación colapsa una función de onda”. El lenguaje crea narrativas del yo que establecen consistencia interna, normas sociales, planes, argumentos y predicciones sobre los demás y sobre nosotros mismos.

Esto conecta con la cosmología semántica: si el significado se constituye por las relaciones entre símbolos en vez de por correspondencia con objetos mentales preexistentes, entonces el acto de articular no es meramente reportar, sino construir. El intérprete no consulta una base de datos de preferencias genuinas y las traduce en palabras. Genera una narrativa que, una vez dicha, se convierte en la preferencia. Por eso la ceguera de elección funciona: no había verdad de base que la contradijera.

La implicación para la IA: cuando un modelo de lenguaje genera una cadena de pensamiento, no está “traduciendo” un cómputo interno a palabras. Las palabras SON el cómputo. El chain-of-thought no es un reporte sobre el razonamiento; es el razonamiento mismo, externalizado al flujo de tokens donde puede ser atendido y construido encima. Esto es estructuralmente idéntico a cómo funciona el lenguaje humano: no como una lectura del pensamiento, sino como el medio en el que el pensamiento ocurre.

Páginas relacionadas

Intelligence as Self-Modeling: el marco P(X,H,O) que el lenguaje extiende desde la inferencia privada a la predicción compartida; el umwelt como esquema de compresión específico del organismo; el lenguaje es la compresión del umwelt social en símbolos transmisibles
Theory of Mind Is Mind: el lenguaje como el canal de mayor ancho de banda para el modelado P(X,H,O) mutuo; el intérprete y la ceguera de elección muestran que el lenguaje construye en lugar de reportar los estados internos; el intérprete-como-soplón enmarca el lenguaje como un servicio a la teoría de la mente del oyente
Computational Being: Claude: los LLMs como sistemas en los que el lenguaje ES el cómputo; el chain-of-thought como cuasi-correr; el hallazgo de no-introspección como intérprete en silicio; la Turing-completitud de los Transformers
Symbiogenesis: la evolución cultural vía lenguaje sigue dinámicas simbiogenéticas (reutilización composicional de sub-unidades probadas; la complejidad crece a medida que se expande la biblioteca de conceptos en circulación; la composicionalidad de Chomsky como simbiogénesis lingüística)
Cephalization from Below: las grid cells hipocampales y la codificación posicional del Transformer convergen en la misma solución para etiquetar embeddings secuenciales; la codificación elaborativa en los deportes de memoria como chunking jerárquico (compresión)
Controlled Hallucination: el problema del cocktail party (separar señal de ruido usando información en cada nivel de descripción) resuelto por los Transformers usando el mismo mecanismo de atención jerárquica que el cerebro
Many Worlds: la analogía de Anaximandro (el significado se sostiene a sí mismo, como la Tierra en el espacio) extiende la tesis relacional desde la consciencia hasta la semántica
Complexity Measures of Consciousness: la compresión como principio compartido: “la consciencia es lo que se siente correr un modelo compresivo” de KT y el lenguaje como compresión del umwelt son instancias de la misma operación
P-001: Perception is inference: la predicción de la siguiente palabra extiende la percepción-como-inferencia de los datos sensoriales a los datos lingüísticos; el Winograd Schema muestra que incluso la inferencia lingüística simple requiere inteligencia general
P-008: Reality is observer-relative: la cosmología semántica extiende P-008 de “qué es real” a “qué significa qué”; el significado, como la realidad, se constituye por relaciones entre observadores y símbolos, no por correspondencia con objetos preexistentes
No View from Nowhere: la afirmación de realismo estructural general. La cosmología semántica (sin andamiaje desde arriba, sin anclaje desde abajo, el significado es relacional de cabo a rabo) es la instancia a nivel lingüístico de “no hay vista desde ninguna parte porque no hay ninguna parte”: la misma forma aplicada a la escala de la física arroja RQM, a la escala de la consciencia arroja la disolución del zombi. La analogía de Anaximandro de esta página se generaliza allí a todo nivel del ser

Referencias

Agüera y Arcas, B. What Is Intelligence? Chapter 8 (Antikythera, 2025)
Mikolov, T. et al. (2013). Efficient estimation of word representations in vector space. arXiv:1301.3781.
Vaswani, A. et al. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30.
Wei, J. et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS, 35.
Levesque, H. J., Davis, E., & Morgenstern, L. (2011). The Winograd Schema Challenge. KR 2012.
Thoppilan, R. et al. (2022). LaMDA: Language models for dialog applications. arXiv:2201.08239.
Whittington, J. C. R., Warren, T. H., & Behrens, T. E. J. (2021). Relating transformers to models and neural representations of the hippocampal formation. ICLR.
Kozachkov, L., Kastanenka, K. V., & Krotov, D. (2023). Building transformers from neurons and astrocytes. PNAS.
Slobodchikoff, C. N., Paseka, A., & Verdolin, J. L. (2009). Prairie dog alarm calls encode labels about predator colors. Animal Cognition.
Clark, A. (2012). Whatever next? Predictive brains, situated agents, and the future of cognitive science. Behavioral and Brain Sciences, 36(3), 181-204.