Cefalización desde abajo

Los cerebros no surgieron para comandar cuerpos. Surgieron porque los músculos necesitaban coordinación, y la coordinación requería flujo de información. La imagen estándar (cerebro como comandante central que emite órdenes motoras a una periferia obediente) invierte la secuencia evolutiva real: los animales móviles tuvieron coordinación muscular durante cientos de millones de años antes de que existiera nada parecido a un sistema nervioso centralizado. Las redes nerviosas evolucionaron primero como extensiones del sistema muscular, proveyendo sincronización de largo alcance entre células contráctiles. La cefalización (la concentración de tejido neural en una cabeza) ocurrió después, cuando los planes corporales bilaterales crearon un extremo delantero que vivía, computacionalmente hablando, en el futuro del animal. El cerebro no es un jefe que adquirió un cuerpo. Es un nudo de neuronas que los músculos ataron en su propia puerta delantera.

Sincronización de fase: coherencia sin mando

Los primeros animales móviles, que datan al menos del Ediacárico (635-539 Ma), no tenían sistemas nerviosos centralizados. Las medusas nadan mediante bombeo rítmico. El pólipo de agua dulce Hydra coordina su columna corporal a través de una red nerviosa difusa. Ambos logran un movimiento coherente mediante sincronización de fase: las células contráctiles individuales alinean la frecuencia y la fase de sus oscilaciones con las de sus vecinas. Ninguna célula está al mando. La coordinación es predicción local en su forma más mínima: cada unidad ajusta su sincronía para coincidir con las unidades que puede sentir.

El mismo principio opera a escala de organismos enteros. Los enjambres gigantes de luciérnagas sincronizan sus destellos a través de claros de bosque, logrando un cuasi unísono sin ningún director. El mecanismo: cada luciérnaga ajusta su fase para coincidir con el brillo de las vecinas visibles, y dado que pueden ver no solo a los individuos adyacentes sino el brillo agregado de los lejanos, la sincronización se propaga rápidamente. La física es idéntica al acoplamiento del marcapasos cardiaco, solo que a otra escala.

Lo que hace esto relevante para la consciencia: el comportamiento coherente y unificado no requiere un integrador. El corazón late sin cerebro. El peristaltismo se propaga sin mando central. Las uniones comunicantes (gap junctions: acoplamiento eléctrico directo entre células vecinas) y las redes nerviosas descentralizadas proveen infraestructura suficiente para la acción muscular coordinada. Esto es coherencia que surge desde abajo, vía acoplamiento de fase, no impuesta desde arriba por un operador de integración.

La «red nerviosa subepitelial» del ctenóforo es particularmente reveladora: consiste en una red fusionada (sincitial) de fibras nerviosas, una autopista no dirigida, a nivel de todo el organismo, para la transmisión de señales a larga distancia. No está cableada para sentir el mundo externo. Está cableada para ayudar a las células musculares a saber qué hacen las células musculares distantes. Las primeras redes neurales podrían entenderse mejor como sistemas sensoriales internos para músculos.

La revolución bilateriana: un extremo delantero que vive en el futuro

La transición de organismos con simetría radial (medusas, Hydra, coral) a otros con simetría bilateral (gusanos, y eventualmente todo lo que hay en tierra) introdujo una asimetría computacional que lo cambió todo.

Un pólipo de coral es sésil: se posa en una roca y procesa lo que sea que lo bañe. Un bilateriano se mueve por el mundo en una dirección particular. Tiene un extremo delantero. Como lo expresa Peter Godfrey-Smith: «En el mar, los animales tienen planes corporales variados. En tierra, todos los animales son bilaterianos. No hay medusas terrestres.»

El extremo delantero se encuentra con el futuro primero. Los receptores químicos (gusto/olfato, los sensores ambientales más antiguos y ubicuos) en el frente detectan comida o amenaza antes que el resto del cuerpo. «El extremo delantero de un gusano vive en su futuro, mientras que su extremo trasero vive en su pasado.» Esta asimetría espaciotemporal es la presión evolutiva que produjo la cefalización.

Un gusano que puede virar a izquierda o derecha necesita señales espacialmente diferenciadas: un «ñam» a la derecha, o un «guácala» a la izquierda, debe hacer que los músculos del lado derecho (pero no los del izquierdo) se contraigan. Una red nerviosa difusa no puede transmitir fácilmente información tan espacialmente específica. Así, conforme los músculos de todo el cuerpo empezaron a cablearse selectivamente al extremo delantero del animal, el nudo resultante de neuronas espacialmente organizadas se convirtió en el primer cerebro: la cefalización como la agregación, en el extremo delantero, de avanzadas sensoriales al servicio de la periferia motora.

Los Acoela, un antiguo orden de pequeños gusanos marinos que divergieron de otros animales hace más de 550 Ma, parecen conservar esta etapa del desarrollo. Tienen una red nerviosa distribuida más un «casquete cerebral», una agregación de neuronas al frente que coincide con sensores (incluyendo un ojo simple). Cazan usando un comportamiento complejo guiado por los sentidos. Sin embargo, su cerebro no está muy organizado: corta un acoelo a la mitad y cada mitad se regenera en un animal completo. Moléculas señalizadoras intercambiadas entre células musculares (no neuronas) orquestan el proceso de patronado y regeneración.

El argumento «meathead» (cabeza de carne): invertir la jerarquía de control

La narrativa estándar de la neurociencia coloca al cerebro en la cima de una jerarquía de mando: el cerebro decide, las neuronas motoras transmiten, los músculos obedecen. Agüera y Arcas sostiene que esta imagen puede estar exactamente al revés, o al menos ser engañosamente unilateral.

Considera la evidencia:

El corazón late rítmicamente sin ningún input neural. Un corazón extraído para trasplante sigue latiendo por su cuenta. Las células musculares cardiacas se coordinan mediante uniones comunicantes y actividad intrínseca de marcapasos.
El peristaltismo (la compresión coordinada que mueve la comida a través del intestino) depende de ondas viajeras de contracción gobernadas por plexos neurales locales, no por el cerebro.
Los arcos reflejos evaden el cerebro por completo. Cuando tocas una estufa caliente, la retracción ocurre a nivel espinal. El cerebro es informado después del hecho.
Los tunicados (sea squirts) poseen un sistema nervioso central durante su etapa larval nadadora libre, pero reabsorben la mayor parte de él cuando se adhieren a un sustrato y se vuelven sésiles. No tiene sentido tener un cerebro para un animal que ya no se mueve.

La neurona misma ilustra la ambigüedad. Una neurona motora con su soma en la columna lumbar envía un axón hasta la punta del dedo gordo del pie (un metro en humanos, diez metros en ballenas azules). Instintivamente leemos el soma como «agente» y el axón como «paciente»: la cabeza decide, la cola obedece. Pero dado que el aprendizaje requiere que información sobre los efectos río abajo fluya hacia atrás hasta la fuente (sea como sea que el cerebro implemente esto), el blanco está tanto «al mando» como la fuente. La cola menea al perro.

La analogía del teatro captura la distinción entre causa eficiente y causa final. Un acomodador cierra las puertas cuando un contador llega a cincuenta. La quincuagésima persona en entrar es la causa eficiente (disparó el clic). Pero la causa final es que el teatro alcanzó su capacidad. Si el contador se rompe, el acomodador cuenta en papel. Romper la cadena causal no rompe el resultado, porque un agente inteligente reenruta alrededor de la disrupción. Esta es la firma de los sistemas propositivos (entensionales): exhiben causalidad hacia atrás no porque el futuro literalmente cause el presente, sino porque los agentes adaptativos predicen el futuro y actúan para hacerlo realidad.

La implicación para la neurociencia: la interpretación de «flujo de mando» de los trenes de espigas neurales no es errónea, pero está incompleta. Cada región del cerebro está tratando de predecir a todas las demás regiones del cerebro. Ninguna jerarquía inherente determina cuál está dando órdenes.

De la quimiotaxis a la cognición: el puente neuromodulador

Incluso antes de que la cefalización produjera algo parecido a un cerebro, los bilaterianos necesitaban modular el comportamiento en escalas temporales más largas que las de las espigas neurales individuales. Hasta las bacterias computan un «promedio de bateo» de la concentración de comida a lo largo del tiempo para decidir si correr (run) o dar tumbos (tumble).

La solución: neuromoduladores, señales químicas que se acumulan y disipan gradualmente, afectando a poblaciones enteras de neuronas simultáneamente. En términos de P(X,H,O), los neuromoduladores son las variables H originales de escala temporal lenta: no permanentes, pero más duraderas que cualquier input momentáneo (X) o acción (O).

La dopamina y la serotonina, que siguen siendo críticas para la cognición humana, se remontan a los primeros sistemas nerviosos bilaterianos (más de 550 Ma).

Neuromodulador	Función original	Qué rastrea	Rol en P(X,H,O)
Dopamina	Sensores de «comida cercana» en la cabeza del gusano	Comida futura esperada (anticipación, no placer)	Variable H lenta: convierte «comida-afuera» en una señal interna promediada en el tiempo
Serotonina	Sensores de comida en la garganta del gusano	Comida consumida (saciedad)	Variable H lenta: «suficiente, deja de buscar»

A la dopamina se le suele etiquetar como una señal de «placer». Esto no es del todo correcto, ni siquiera en los gusanos. Un gusano en un entorno rico en comida libera dopamina, disparando un giro continuo para explotar el parche local (análogo al aumento del tumbo de una bacteria cerca de comida). Cuando la comida declina, el gusano gira para reorientarse hacia una concentración mayor. La dopamina rastrea la predicción de comida futura, no la presencia de comida. El correlato subjetivo más apto es la anticipación.

Evidencia en humanos: en una serie de experimentos éticamente dudosos en los años sesenta, pacientes cableados para estimular directamente su propia producción de dopamina reportaron no placer sino una anticipación creciente, «como si se acumulara hacia un orgasmo sexual» que nunca podían alcanzar, presionando el botón frenéticamente. A la inversa, ratas con neuronas dopaminérgicas destruidas se vuelven pasivas y mueren de hambre incluso con comida bajo las narices. Si la comida se coloca directamente en sus bocas, comen con evidente placer. La dopamina no es la recompensa. Es el impulso hacia la recompensa esperada.

La serotonina cumple la función inversa: rastrea la comida consumida (detectada en la garganta), acumulándose con el tiempo para señalar saciedad y aplacar el impulso, guiado por dopamina, de buscar comida. La caracterización tosca pero útil: dopamina = «querer», serotonina = «obtener».

Aprendizaje por diferencia temporal: la dopamina reutilizada

Conforme los cerebros se volvieron más complejos, la dopamina fue reutilizada, pasando de una simple señal de anticipación a algo que se aproxima a una señal de aprendizaje por diferencia temporal (TD). El descubrimiento de Schultz/Dayan/Montague (años noventa) estableció la correspondencia:

Las neuronas dopaminérgicas disparan a una tasa de fondo moderada
Una recompensa inesperada produce una ráfaga de dopamina
Una vez que se aprende la asociación entre una señal y una recompensa, la ráfaga de dopamina se desplaza más temprano, hacia la señal misma (el mono se relame cuando ve la luz, no cuando prueba el jugo)
Si la recompensa esperada se retiene, la actividad dopaminérgica cae por debajo del nivel basal: un error de predicción negativo

Esto mapea con precisión a la señal de «crítico» del aprendizaje TD: no la recompensa misma, sino la diferencia entre la recompensa predicha y la real. La arquitectura actor-crítico (la función de política aprende de las predicciones de la función de valor, la función de valor aprende de los resultados reales) se levanta a sí misma, desde la ingenuidad hasta la competencia.

El camino evolutivo es continuo. En los primeros bilaterianos, la dopamina ya es una predicción de comida (comida cercana, no comida en la boca). Predecir la dopamina es, por lo tanto, una predicción de una predicción de comida. Conforme las estructuras cerebrales crecieron río arriba y río abajo de las neuronas liberadoras de dopamina, las áreas río arriba se volvieron críticos cada vez más sofisticados (pronósticos de mayor alcance), y las áreas río abajo se volvieron actores cada vez más sofisticados (políticas conductuales más complejas). La señal TD no necesitó ser inventada. Emergió de la profundización de un bucle de predicción que ya estaba corriendo en los gusanos.

Salvedades: Agüera y Arcas advierte explícitamente contra sobreidentificar la función cerebral con el aprendizaje TD. Los cerebros reales trascienden el aprendizaje TD en al menos dos formas: (1) los humanos pueden aprender tareas que derrotan a los algoritmos TD (juegos de mesa complejos, por ejemplo, requirieron elaboraciones más allá del TD básico), y (2) evidencia reciente muestra que la dopamina codifica información mucho más allá de una señal escalar de error de predicción. Como con todo modelo computacional en este marco, el aprendizaje TD ilumina una esquina. No ilumina todas las esquinas.

Modularidad genérica: el córtex como colonia

La cefalización produjo un cerebro. La explosión de inteligencia social (Humphrey 1976, Dunbar 1998) lo escaló, y pudo hacerlo de forma barata porque el córtex tiene una estructura modular genérica.

Las columnas corticales (definidas de forma laxa, con fronteras debatidas) forman un panal repetitivo. El circuito básico es prácticamente el mismo en todas las regiones cerebrales. El «córtex visual» y el «córtex auditivo» difieren principalmente en el cableado de entrada, no en su arquitectura computacional. En el experimento de Sharma, Angelucci y Sur (2000), los nervios ópticos de hurones bebés fueron redirigidos al córtex auditivo; los animales aprendieron a ver, desarrollando mapas de sensibilidad a la orientación en el córtex «auditivo» recableado. Los humanos ciegos pueden aprender una forma limitada de visión vía estimulación espacialmente patroneada de la lengua, o ecolocación vía «sonar de clics». El hardware es genérico.

Esta modularidad genérica hizo posible la explosión de inteligencia del mismo modo que la estructura modular del ADN hizo posibles a las serpientes: la evolución pudo expandir la lámina cortical replicando columnas sin inventar nada fundamentalmente nuevo. En delfines y humanos, la expansión progresó hasta el punto de plegar el córtex en fisuras densas. Los humanos comprimen aproximadamente 0.25 m² de área cortical dentro del cráneo.

El córtex, por lo tanto, no es un órgano único sino una colonia de unidades de predicción que se replicaron dentro de los cráneos en números cada vez mayores a través de una mayor cooperación entre ellas. Esto reencuadra al cerebro como una población, no una entidad unitaria, y a la inteligencia que produce como un fenómeno colectivo entre unidades que se predicen mutuamente. Ver Theory of Mind Is Mind para cómo esto se conecta con la hipótesis del cerebro social y la consciencia como «swing».

El pulpo: teoría de la mente descentralizada

El pulpo parece desafiar la hipótesis del cerebro social (inteligente pero antisocial) hasta que miras adentro. Tres quintas partes de sus neuronas están en los brazos, no en la cabeza, porque las fibras nerviosas de los moluscos carecen de vainas de mielina. La señalización a larga distancia es lenta y costosa; el control centralizado es imposible. Cada brazo responde a estímulos de forma independiente, cada ventosa tiene su propia inteligencia prensil (tacto, gusto, fotorreceptores, cromatóforos), y los brazos se comunican directamente vía un anillo de ganglios que evade el cerebro.

Agüera y Arcas propone que el pulpo se entiende mejor como una comunidad estrechamente entretejida de ocho brazos que comparten un par común de ojos. El cerebro central (mayormente lóbulos ópticos) comprime información visual al servicio de los brazos, no como un comandante central. La explosión de inteligencia que produjo al pulpo pudo haber sido impulsada por modelado predictivo mutuo entre sus brazos, bajo la restricción de un ancho de banda limitado entre brazos. Esto es estructuralmente idéntico a la inteligencia social humana: predicción mutua de alta fidelidad bajo comunicación de bajo ancho de banda. La autotomía de ataque en el calamar (un brazo cortado pelea con un depredador mientras el resto escapa) puede no ser diferente de la defensa kamikaze de una abeja por la colmena.

Esto conecta la cefalización desde abajo con P-005: la coherencia puede surgir a través de predicción mutua entre agentes descentralizados, no solo a través de integración top-down. El pulpo logra natación coherente, caza y escape vía el mismo mecanismo que una tripulación de remo que logra «swing».

Recurrencia como profundidad en el tiempo

El córtex es somero (pocas capas) pero densamente recurrente: las conexiones de retroalimentación dominan sobre las de feedforward. Esto desconcertó a los investigadores de IA acostumbrados a redes convolucionales profundas (CNNs) con docenas o cientos de capas feedforward. La resolución: una red neuronal recurrente (RNN) que corre T pasos temporales es computacionalmente equivalente a una red feedforward con T capas. El córtex logra procesamiento profundo a través de iteración temporal, no de profundidad espacial.

Esto explica por qué la arquitectura recurrente es ubicua a través de las regiones corticales, sean «sensoriales», «motoras» o «de asociación». Todo el córtex está haciendo lo mismo: predicción autorregresiva de secuencias que se despliega en el tiempo. El procesamiento «profundo» de una CNN es una instantánea espacial de lo que un circuito recurrente hace dinámicamente. Los pasos temporales tempranos producen juicios rápidos y gruesos (el «doble vistazo»: ¿eso es un gato?). Los pasos temporales posteriores refinan la representación (tras un examen más cercano: un gato doméstico, no un tigre; calicó, ojos verdes, expresión ligeramente molesta). Esta arquitectura de doble velocidad sirve a la supervivencia: reacciones rápidas a estímulos salientes (vía salidas tempranas) y percepción de alta resolución para todo lo demás (vía iteración continuada).

El argumento biológico a favor de la recurrencia frente a la profundidad feedforward es directo. Las neuronas y sinapsis son lentas comparadas con los transistores. Un animal que necesitara que el input visual se propagara a través de 100 capas corticales antes de producir una respuesta motora sería devorado mucho antes de la capa 50. Las conexiones de salto (skip connections, presentes en el córtex biológico y en arquitecturas modernas de aprendizaje profundo como las ResNets) permiten que algunas activaciones se salten capas, pero la restricción fundamental persiste: un tiempo de reacción rápido requiere arquitectura somera. La recurrencia resuelve esto haciendo que la profundidad sea función del tiempo disponible más que de una estructura espacial fija.

La evidencia de que incluso neuronas individuales son predictores de secuencias (Saponati y Vinck 2023) y que la circuitería cortical implementa modelado predictivo de secuencias (Keller y Mrsic-Flogel 2018) apoya esta imagen: la predicción es la operación universal, a cada escala desde la sinapsis hasta la región cortical.

El subterráneo: hipocampo y ganglios basales

Debajo del córtex, estructuras cerebrales más antiguas implementan formas especializadas del mismo principio de predicción y aprendizaje, sintonizadas a distintas escalas temporales y tipos de problemas.

Hipocampo: aprendizaje de secuencias en una sola pasada

El hipocampo (griego: «caballito de mar», por su forma) es un espiral de tejido profundo en cada hemisferio cerebral. Su función original probablemente fue la construcción en tiempo real de mapas espaciales: esencial para cualquier animal que se mueva por un entorno estable. Conserva esta función: las «células de lugar» hipocampales disparan cuando un animal está en ubicaciones específicas, y las ráfagas rápidas de actividad de células de lugar durante el reposo corresponden a la repetición (replay) de trayectorias pasadas y a la simulación de futuras.

Henry Molaison (1926-2008), conocido en la literatura como H.M., estableció el papel del hipocampo en la formación de la memoria. Tras la extirpación bilateral del hipocampo para tratar una epilepsia intratable, Molaison retuvo sus recuerdos previos a la cirugía, su personalidad y su memoria de corto plazo, pero no podía formar nuevas memorias episódicas. Si su atención divagaba, era como si la interacción nunca hubiera ocurrido. Sus últimos recuerdos databan de 1953.

La interpretación: el hipocampo es un aprendiz rápido de secuencias en una sola pasada que captura patrones esparcidos de actividad cortical secuencial (referencia → referencia → referencia, la forma en que damos direcciones) en tiempo real. El córtex, que aprende lentamente pero tiene una capacidad mucho mayor y conexiones asociativas más ricas, consolida estos registros hipocampales mediante repetición (replay) reiterada durante el sueño (se ha registrado repetición más rápida que el tiempo real de experiencias previas en animales dormidos). La privación del sueño afecta la formación de la memoria precisamente porque interrumpe esta tubería de consolidación.

Esta es una división del trabajo limpia: el hipocampo captura rápidamente pero tiene capacidad limitada; el córtex integra lentamente pero construye estructura asociativa profunda. Cada uno aprende del otro: el hipocampo hace aprendizaje rápido en una sola pasada desde el córtex en el momento de vigilia, luego el córtex obtiene entrenamiento basado en repetición (replay) desde el hipocampo durante el sueño.

Células de rejilla, codificación posicional, y el paralelo con el Transformer

En 2014, se otorgó un Premio Nobel a los descubridores de las «células de rejilla» hipocampales: neuronas en el córtex entorrinal medial que disparan en bellos patrones hexagonales conforme un animal navega el espacio, formando un sistema cartesiano de posicionamiento. Evidencia creciente sugiere que las funciones de mapeo espacial y de formación de memoria episódica del hipocampo pueden estar relacionadas o incluso ser idénticas: la antigua técnica del «palacio de la memoria» (memorizar secuencias colocándolas en un entorno imaginado) explota la misma maquinaria espacial-secuencial.

La conexión con la inteligencia artificial es asombrosa. La arquitectura Transformer (Vaswani et al. 2017) requiere «codificación posicional» (positional encoding) para etiquetar los embeddings de los tokens con información sobre su orden; sin tal etiquetado, cada operación de atención formaría conexiones entre una bolsa desordenada de palabras. Whittington et al. (2021) mostraron que cuando la codificación posicional de un Transformer se aprende (en lugar de especificarse a mano) durante una tarea de navegación espacial, los patrones de activación resultantes se asemejan estrechamente a las células de rejilla, junto con patrones relacionados como las «células de banda» y las «células de lugar» también observadas en el hipocampo. La similitud es altamente sugerente: estos patrones son los bloques de construcción más naturales para componer etiquetas espaciotemporales, y el cerebro parece haber dado con la misma solución que el Transformer, por la misma razón.

A un nivel más celular, Kozachkov et al. (2023) propusieron que las interacciones entre neuronas y astrocitos (un tipo de célula glial que comprende más de la mitad del volumen del cerebro) podrían implementar un mecanismo de atención al estilo Transformer. Los procesos de los astrocitos envuelven aproximadamente el 60% de las sinapsis hipocampales formando «sinapsis tripartitas», y la forma en que modulan la transmisión de señales se parece sospechosamente al producto punto de atención (emparejamiento clave-consulta seguido de ponderación de valores). De confirmarse, esto significaría que la innovación arquitectónica clave del Transformer, la atención, tiene una contraparte biológica que la neurociencia ha venido subestimando al tratar a los astrocitos como meras «células de soporte».

La convergencia opera en ambas direcciones. El Transformer no fue diseñado para imitar la función hipocampal, sin embargo sus soluciones de ingeniería (codificación posicional, productos punto de atención) parecen redescubrir primitivas computacionales que la evolución encontró de forma independiente. Esto apoya la afirmación más amplia de esta página: la estructura del procesamiento de información está determinada más por el problema que se resuelve que por el sustrato que lo resuelve. Ver Language as Prediction para cómo estos mecanismos sustentan el modelado del lenguaje.

Ganglios basales: selección de acción tipo softmax

Los ganglios basales son una colección de núcleos en el centro del cerebro, presentes desde los primeros vertebrados (peces óseos de la era cámbrica). Integran y seleccionan entre patrones de activación competidores provenientes de otras áreas cerebrales, mediados por dopamina (ver la sección de aprendizaje TD arriba). Su función es un softmax neural: múltiples acciones candidatas compiten, y la ganadora dirige el comportamiento.

Los núcleos posteriores manejan habilidades motoras («memoria muscular», secuencias aprendidas que no requieren «pensar»). Los núcleos anteriores manejan asociaciones estímulo-acción impulsadas por metas de mayor nivel (antojos, hábitos, adicciones). El comportamiento de peces y anfibios parece estar dirigido principalmente por este mecanismo tipo aprendizaje por refuerzo, careciendo de la simulación predictiva de mayor nivel del mundo, los otros y el yo que apareció con el neocórtex de los mamíferos.

La relación entre los ganglios basales y el córtex ilustra la autonomía por capas del cerebro: los niveles más nuevos o «más altos» proveen predicción de largo alcance y con ello se ganan su sustento metabólico, pero aumentan una arquitectura subyacente en gran medida autónoma. Los comportamientos habilidosos y de baja latencia aprendidos inicialmente por el córtex pueden ser «descargados» a los ganglios basales para ejecución en paralelo, liberando al córtex para procesamiento más lento y deliberativo. La división del trabajo se ve como tácticas (ganglios basales) frente a estrategia (córtex). Referirse a los ganglios basales como «inconscientes» o como si implementaran un «piloto automático» presupone que no son realmente parte de «ti», pero esa es la falacia homuncular: lo que realmente significa es que el intérprete (ver Theory of Mind Is Mind) no tiene acceso completo a estas regiones más antiguas.

Siete conclusiones: la arquitectura distribuida de predicción

Combinando el recorrido por el subterráneo con la historia de cefalización de arriba:

Muchas regiones cerebrales, no solo las áreas corticales, son predictores de secuencias (incluso la retina es un predictor de secuencias).
Distintas regiones predicen sobre distintas escalas temporales, con regiones que evolucionaron más tarde generalmente capaces de predicciones más complejas sobre horizontes más largos.
Las regiones cerebrales se predicen activamente unas a otras y, donde están conectadas a inputs sensoriales o outputs motores, predicen esas señales.
La forma en que están cableadas entre sí determina en gran parte qué predicen y qué recursos de información pueden movilizar.
La predicción mutua efectiva implica aprendizaje mutuo.
La división del trabajo no es perfectamente limpia. Un área cerebral puede aprender algo primero, y luego enseñárselo a otras (para menor latencia, robustez, paralelismo, o mayor generalidad). Esto no sería posible si las áreas no fueran capaces de aprendizaje de secuencias.
Ninguna parte del cerebro es la parte «consciente» donde reside un homúnculo. El cerebro es una aldea de unidades de predicción que se predicen mutuamente, especializadas por conectividad, operando a distintas escalas temporales, todas ellas «tú».

Hacia una predicción simbiótica dinámicamente estable

El capítulo culmina con un bosquejo de cómo podría verse una teoría unificada del aprendizaje. Agüera y Arcas la llama «predicción simbiótica dinámicamente estable»: no aprendizaje por refuerzo puro (demasiado estrecho, recompensa única), no solo el cerebro bayesiano (demasiado neuro-céntrico), sino predicción no supervisada de secuencias restringida por la estabilidad dinámica y la simbiosis.

Cuatro desiderata para la teoría unificada:

Predicción activa del futuro dado el pasado como el problema central
Sin distinción entre aprendizaje e inferencia: la predicción debe ocurrir sobre todas las escalas temporales, no solo durante una «fase de entrenamiento»
Síntesis de predicción con termodinámica en el espíritu de la estabilidad dinámica
Predicción mutua entre agentes que conduce a resultados colectivos de suma no nula

La crítica de Patricia Churchland a la IA de la era AlphaGo motiva el movimiento más allá de la recompensa: «Mantener la homeostasis a menudo involucra valores que compiten y oportunidades que compiten, así como compensaciones y prioridades.» Los organismos reales no están optimizando para una sola cosa. La obsesión unilateral no es propicia para el mutualismo ni para la supervivencia, por lo tanto no es dinámicamente estable. El cerebro, sea lo que sea que esté haciendo, debe estar haciendo algo más general que la maximización de recompensa.

Este bosquejo incide en los hilos existentes del marco: T-003 (correr vs. almacenar) se afila con la insistencia en que la predicción debe ocurrir sobre todas las escalas temporales (el punto 2 disuelve la frontera entre aprendizaje e inferencia); T-008 (el prior composicional refleja la simbiogénesis) gana mayor evidencia con la observación de que la proliferación neural misma sigue dinámicas simbiogenéticas (las neuronas colonizan nichos favorables como replicadores); y P-007 (estabilidad dinámica) podría extenderse desde el dominio termodinámico al dominio del aprendizaje como un principio unificado.

Páginas relacionadas

The Bayesian Brain: la implementación neural de alta resolución de la predicción cuyo origen explica la historia evolutiva de esta página; visión sacádica como autoencoder enmascarado biológico
Controlled Hallucination: lo que la maquinaria predictiva descrita aquí produce a nivel de experiencia consciente; los experimentos de despliegue contingente a la mirada demuestran directamente el campo visual alucinado
Intelligence as Self-Modeling: P(X,H,O) como el marco formal dentro del cual los neuromoduladores funcionan como variables H; esta página rellena la ruta filogenética de la bacteria al cerebro
Life as Computation: estabilidad dinámica y el suelo termodinámico; el bosquejo de «predicción simbiótica dinámicamente estable» busca unificarla con el aprendizaje
Symbiogenesis: la cefalización es ella misma un evento simbiogenético (células nerviosas como primas no móviles que entran en sociedad simbiótica con células musculares); la proliferación neural sigue la misma lógica de colonizar y cooperar que la simbiogénesis genómica
Theory of Mind Is Mind: la colonia de columnas corticales y el material sobre el pulpo extienden la historia de cefalización desde «cómo surgieron los cerebros» hasta «cómo escalan los cerebros» y «de qué surge la consciencia» (predicción mutua entre unidades de predicción genéricas)
Computational Being (Bach): el principio de coherencia de Bach (P-005) se complica con la evidencia de sincronización de fase aquí: la coherencia puede preceder y operar sin un operador de integración centralizado
P-001: Perception is inference: la cefalización es la explicación evolutiva de por qué los organismos con extremos delanteros se convirtieron en máquinas de inferencia
P-005: Coherence organizes agency: la sincronización de fase añade una vía bottom-up hacia la coherencia distinta de la integración top-down
Language as Prediction: las células de rejilla y la codificación posicional del Transformer convergen en la misma solución; la captura hipocampal en una sola pasada más la consolidación cortical es la arquitectura biológica que les falta a los Transformers (sin memoria de largo plazo); el problema del cóctel como atención jerárquica
P-007: Dynamic stability: el bosquejo de «predicción simbiótica dinámicamente estable» extiende el principio termodinámico de P-007 al dominio del aprendizaje

Referencias

Agüera y Arcas, B. What Is Intelligence? Chapter 4 (Antikythera, 2025)
Godfrey-Smith, P. Metazoa: Animal Life and the Birth of the Mind (2020/2024)
Schultz, W., Dayan, P., & Montague, R. R. (1997). A neural substrate of prediction and reward. Science, 275(5306), 1593-1599.
Sutton, R. S. (1988). Learning to predict by the methods of temporal differences. Machine Learning, 3(1), 9-44.
Burkhardt, P. et al. (2023). Syncytial nerve net in a ctenophore. Science.
Strogatz, S. (2004). Sync: The Emerging Science of Spontaneous Order. Penguin.
Agüera y Arcas, B. What Is Intelligence? Chapter 7 (Antikythera, 2025)
Saponati, M. & Vinck, M. (2023). Sequence learning in single neurons. Nature.
Keller, G. B. & Mrsic-Flogel, T. D. (2018). Predictive processing: a canonical cortical computation. Neuron, 100(2), 424-435.
Pfeiffer, B. E. & Foster, D. J. (2013). Hippocampal place-cell sequences depict future paths to remembered goals. Nature, 497(7447), 74-79.
Bennett, M. (2023). A Brief History of Intelligence. Mariner Books.
Heath, R. G. (1963). Electrical self-stimulation of the brain in man. American Journal of Psychiatry.
Churchland, P. S. (2016). Motivations and drives are computationally messy.
Whittington, J. C. R., Warren, T. H., & Behrens, T. E. J. (2021). Relating transformers to models and neural representations of the hippocampal formation. ICLR.
Kozachkov, L., Kastanenka, K. V., & Krotov, D. (2023). Building transformers from neurons and astrocytes. PNAS.
Vaswani, A. et al. (2017). Attention is all you need. NeurIPS, 30.