El cerebro bayesiano

La hipótesis de que el cerebro es fundamentalmente un motor de inferencia. La percepción, la cognición y la acción no son procesos pasivos sino computaciones bayesianas activas: el cerebro genera continuamente predicciones sobre las causas del input sensorial, y luego actualiza esas predicciones con base en la evidencia entrante. Lo que experimentamos como realidad es una creencia posterior, no una lectura directa del mundo.

Este marco unifica un rango extraordinario de fenómenos bajo un único principio computacional: minimizar la sorpresa (o equivalentemente, minimizar la free energy). Atención, aprendizaje, acción, estados psicodélicos, meditación y la identidad propia encuentran explicaciones naturales dentro de él.

Fuente: Shamil Chandaria, “The Bayesian Brain and Meditation” (Waking Up / Sam Harris).

El problema de la percepción

El problema de la percepción bayesiana: causas ocultas v generan datos sensoriales u, el agente debe invertir vía el teorema de Bayes

El mundo contiene causas ocultas v (objetos, eventos, estados) que generan datos sensoriales u mediante procesos causales. El agente nunca tiene acceso directo a v, solo a u. La tarea fundamental de la percepción: inferir las causas ocultas a partir de la evidencia sensorial.

El teorema de Bayes da la solución matemáticamente óptima:

P(v|u) = P(u|v) P(v) / P(u)

Término	Nombre	Significado
P(v\|u)	Posterior	Qué creer sobre el mundo dados los datos
P(u\|v)	Likelihood	Qué tan probable es este dato dado un estado particular del mundo
P(v)	Prior	Qué se creía antes de que los datos llegaran
P(u)	Evidencia	Likelihood marginal, una constante de normalización

Esta es la recognition density: la mejor conjetura del cerebro sobre la realidad. Es la solución matemáticamente óptima que maximiza el valor de toda la información disponible.

El detalle: la inferencia bayesiana exacta es computacionalmente intratable para cualquier cosa más allá de problemas de juguete. Cerebros reales, con restricciones de tiempo real, necesitan una aproximación.

El algoritmo variacional

El algoritmo variacional: inferencia bayesiana aproximada con modelo generativo, error de predicción y minimización de free energy

La solución propuesta del cerebro: inferencia variacional. En lugar de computar el verdadero posterior P(v|u) directamente, el cerebro mantiene:

Un modelo generativo (generative model): un modelo interno de cómo las causas ocultas producen datos sensoriales
Un posterior aproximado Q(v|u): la mejor conjetura actual del cerebro, parametrizada para ser tratable
Free energy F: una cota superior computable sobre la sorpresa (-log P(u))

El loop del algoritmo:

Datos sensoriales u llegan del mundo
El modelo generativo produce predicciones u’
El prediction error (error de predicción) e = u - u’ se computa
Los parámetros del modelo se ajustan para minimizar la free energy

La free energy se descompone en dos términos:

Precisión de la reconstrucción: qué tan bien el modelo explica los datos
Divergencia KL D_KL(Q || P_prior): cuánto se ha alejado el posterior aproximado de las creencias previas

Minimizar la free energy simultáneamente hace al modelo mejor explicando los datos Y mantiene las creencias cercanas a los priors. Esta es una navaja de Occam incorporada: la explicación más simple consistente con la evidencia gana.

Este es el núcleo del free energy principle de Friston: todos los sistemas adaptativos minimizan una cota variacional de free energy sobre la sorpresa. No es solo un modelo del cerebro. Se propone como un principio universal de los sistemas auto-organizados.

Precision weighting y atención

Precision weighting: creencia posterior como promedio ponderado entre prior y evidencia sensorial, con la precisión determinando los pesos

Bajo supuestos gaussianos (aproximación de Laplace), la actualización bayesiana se vuelve elegante. Prior, likelihood y posterior son todas distribuciones gaussianas, y la media posterior es simplemente:

μ_post = w_prior · μ_prior + w_data · μ_data

donde los pesos son razones de precisión:

Peso	Fórmula	Significado
w_prior	π_prior / (π_prior + π_data)	Cuánto cuenta la creencia previa
w_data	π_data / (π_prior + π_data)	Cuánto cuenta la evidencia sensorial

Precisión π = 1/σ² (varianza inversa). Alta precisión = distribución estrecha = alta confianza. Baja precisión = distribución amplia = incertidumbre.

El posterior es literalmente un promedio ponderado por precisión entre lo que creías y lo que observaste. Priors estrechos y confiados dominan datos ruidosos. Evidencia nítida y confiable se impone sobre priors vagos.

El remate: la atención es precision weighting. Cuando atiendes a algo, aumentas la precisión esperada de los errores de predicción en ese canal sensorial. Esto hace que la evidencia cuente más frente a las expectativas previas. La atención no cambia lo que ves. Cambia cuánto importa lo que ves en relación con lo que esperabas.

Nota: esta es una idealización matemática. En la práctica, los pesos de precisión son modulados por sistemas neuromoduladores (dopamina, norepinefrina, acetilcolina, serotonina), no solo por una optimalidad abstracta.

La jerarquía predictiva global

La jerarquía predictiva global: el cerebro como máquina predictiva en capas que abarca todas las modalidades, con el cuerpo como primer prior

Esto no es una sola capa de predicción. El cerebro implementa un modelo generativo jerárquico que abarca cada modalidad sensorial y motora: visión, audición, olfato, gusto, propiocepción, interocepción, somatosensación.

En cada nivel de la jerarquía:

Las predicciones fluyen hacia abajo (desde capas más profundas y abstractas)
Los errores de predicción fluyen hacia arriba (desde capas superficiales, cercanas a lo sensorial)

El microcircuito canónico implementa esta división del trabajo: las capas corticales profundas generan predicciones (campos receptivos grandes, dinámicas lentas), las capas superficiales computan errores de predicción (campos receptivos pequeños, dinámicas rápidas).

Corriendo en paralelo a esto hay una “jerarquía sombra” de precisión esperada que rastrea la confianza en cada nivel:

Unisensorial (canales sensoriales crudos)
Multisensorial (integración cross-modal)
Modelo del self (el nivel más alto)

El cuerpo como primer prior (Allen & Tsakiris, 2019). Los priors homeostáticos y alostáticos sobre estados fisiológicos esenciales cargan con la precisión esperada más alta. Antes de que el cerebro prediga cualquier cosa sobre el mundo externo, predice su propia viabilidad continuada. La inferencia más fundamental del organismo es interoceptiva: ¿estoy vivo? ¿Estoy estable?

“Predigo, luego soy”: la identidad como inferencia interoceptiva. Esto se conecta con el marco de la “alucinación controlada” de Anil Seth (Being You, 2021): la consciencia no es percepción de la realidad sino la mejor predicción del cerebro sobre la realidad, restringida desde abajo por la evidencia sensorial y desde arriba por el modelo del self.

La experiencia como construcción restringida

Co-surgir dependiente como inferencia bayesiana: la experiencia emerge de la interacción entre datos externos y maneras de mirar

Chandaria traza un paralelo sorprendente: el cerebro bayesiano se mapea sobre el concepto budista de co-surgir dependiente (pratītyasamutpāda). El mundo experimentado es una construcción, pero restringida. Surge en dependencia de:

Datos externos: la señal sensorial, el mundo empujando de vuelta
Maneras de mirar: priors de alto nivel, creencias, modelos, posturas atencionales

Ninguno de los dos por sí solo produce experiencia. El mundo sin un modelo es ruido sin estructura. Un modelo sin el mundo es alucinación sin restricciones. La experiencia vive en la intersección: P(v) × P(u|v). El mundo experimentado es lo que emerge cuando las creencias previas se encuentran con la restricción sensorial.

“El truco es hacerlo bello.”

Esta no es una frase desechable. Si la experiencia es una construcción (si los priors que traes le dan forma al mundo que habitas), entonces la calidad de tus priors es una cuestión ética y estética. La práctica contemplativa (meditación, psiconáutica) puede entenderse como el refinamiento sistemático de las “maneras de mirar” que co-construyen la experiencia.

Atractores de creencia y psicodélicos

El modelo REBUS: los psicodélicos aplanan el paisaje de free energy, permitiendo escapar de atractores de creencia profundos

El paisaje de free energy define cuencas de atracción: configuraciones estables de creencia en las que el sistema se asienta. El paisaje de Waddington (1957) provee la metáfora visual: una canica rodando por canales que se hacen más profundos y estrechos con el tiempo. Desarrollo, aprendizaje y hábito tallan surcos en el paisaje. Surcos profundos = priors de alta precisión = patrones rígidos de inferencia.

El modelo REBUS (Relaxed Beliefs Under Psychedelics; Carhart-Harris & Friston, 2019) propone que los psicodélicos funcionan aplanando el paisaje de free energy. Reducen la precision weighting de los priors de alto nivel, aflojando el control top-down sobre la percepción y la cognición. El sistema escapa de atractores profundos y puede explorar nuevas regiones del espacio de estados.

Por esto la experiencia psicodélica se siente simultáneamente como disolución (viejos patrones rompiéndose) y revelación (nuevos patrones volviéndose accesibles). El paisaje no ha cambiado. Es la canica la que está libre para rodar.

Implicaciones clínicas: depresión, adicción y TOC pueden modelarse como atractores patológicamente profundos: creencias y patrones de conducta con demasiada precisión, demasiado resistentes a ser actualizados por nueva evidencia. Los psicodélicos (y potencialmente la meditación) ofrecen un mecanismo para reconstruirte a ti mismo aplanando temporalmente el paisaje y permitiendo una recanalización hacia cuencas más sanas.

La diapositiva referencia trabajo en curso sobre “Canalisation and plasticity in psychopathology” con Carhart-Harris, Chandaria y otros, sugiriendo que este es un programa de investigación activo, no solo una metáfora.

Raíces evolutivas: ¿por qué inferencia bayesiana, para empezar?

El marco de predictive processing típicamente se introduce a través de la neurociencia: la arquitectura de las jerarquías corticales, la mismatch negativity, la actualización ponderada por precisión. Pero la pregunta más profunda es: ¿por qué cualquier sistema adaptativo debería hacer inferencia bayesiana en primer lugar?

Intelligence as Self-Modeling provee la respuesta desde primeros principios. Cualquier agente que deba sobrevivir en un entorno variable aprende implícitamente una distribución conjunta P(X,H,O) sobre observaciones externas (X), estado interno (H) y sus propias acciones (O). Esto es lo que hace una bacteria cuando estima la concentración química vía un promedio móvil de eventos de acoplamiento molecular: está comprimiendo un flujo sensorial de alta dimensión en la variable latente (concentración) que es predictivamente relevante para su supervivencia. No se requiere cerebro.

El cerebro bayesiano es esta misma computación a mayor resolución. La precision weighting es el mecanismo para arbitrar entre la creencia previa y la evidencia entrante: el mismo trade-off que una bacteria hace cuando adapta su ventana de tiempo para promediar concentración. El modelo generativo jerárquico es una estructura profunda de variables latentes sobre una X y una H mucho más ricas. La inferencia activa (actuar para cumplir las predicciones) corresponde a las decisiones de run-tumble de la bacteria condicionadas sobre concentración estimada y hambre.

Lo que este anclaje añade: la inferencia bayesiana no es un truco ingenioso que los cerebros inventaron. Es la arquitectura computacional necesaria de cualquier agente adaptativo bajo selección. La derivación de la bacteria muestra que la evolución, como el bucle externo del aprendizaje no supervisado, convergerá hacia una conducta aproximadamente bayesiana donde sea que opere. El predictive processing en la corteza no es “el cerebro aproximando a Bayes”: es la instancia más reciente y elaborada de una computación que lleva corriendo unos 4 mil millones de años.

Páginas relacionadas

Cephalization from Below: la precuela evolutiva: cómo las redes nerviosas, los cerebros y los sistemas neuromoduladores surgieron para servir a la coordinación muscular, produciendo la maquinaria predictiva que esta página describe
Intelligence as Self-Modeling: la derivación evolutiva desde primeros principios que muestra que la inferencia bayesiana es la arquitectura necesaria de cualquier agente adaptativo; la bacteria como agente bayesiano fundamenta P-001 independientemente de la neurociencia
Computational Being (Bach): el “self-organizing game engine with inverse rendering” de Bach es este mismo marco en otro lenguaje; su modelo del self (agente + demandas + modelo de control) se mapea sobre la arquitectura de modelo generativo + precision weighting
Controlled Hallucination: la contraparte fenomenológica de esta página; Seth mapea la maquinaria del predictive processing sobre la experiencia consciente, la identidad y la estrategia del “problema real”
Complexity Measures of Consciousness: cómo la maquinaria computacional descrita aquí se mide empíricamente (PCI, LZW), más la KT de Ruffini como la formalización en teoría de la información
P-001: Perception is inference: el prior fundacional que subyace a todo este marco
P-002: Experience is a constrained construction: la intuición del co-surgir dependiente, puenteando computación y práctica contemplativa

Referencias

Carhart-Harris, R. L., & Friston, K. (2019). REBUS and the anarchic brain: toward a unified model of the brain action of psychedelics. Pharmacological Reviews, 71(3), 316-344.
Adams, R., Stephan, K., Brown, H., Frith, C., & Friston, K. (2013). The Computational Anatomy of Psychosis. Frontiers in Psychiatry.
Allen, M., & Tsakiris, M. (2019). The body as first prior. The Interoceptive Mind.
Seth, A. (2021). Being You: A New Science of Consciousness. Faber & Faber.
Chandaria, S. “The Bayesian Brain and Meditation.” Waking Up (Sam Harris).