El escarabajo

Wittgenstein imaginó un experimento sobre cajas cerradas. Lo formuló en las Investigaciones Filosóficas (1953), §293, como un golpe directo contra la idea de que las palabras sobre la mente — dolor, miedo, alegría — se refieren a experiencias privadas e inaccesibles.
—Sí, pero ¿qué cosa es 'el dolor'? ¡Lo que yo llamo 'dolor'! —No es una respuesta. Ahora supongamos que cada uno tuviera una cajita con algo que llamamos «escarabajo». Nadie puede mirar nunca en la caja de otro; y cada uno dice saber qué es un escarabajo sólo por la visión de su propio escarabajo. —Aquí sería posible que cada uno tuviera una cosa distinta en su caja. Podría incluso imaginarse que la cosa cambiara continuamente. —Pero ¿y si la palabra «escarabajo» de esa gente tuviera, aun así, un uso? —Si fuera así, no sería el uso de la denominación de una cosa. La cosa en la caja no tiene nada que ver con el juego de lenguaje; ni siquiera como un algo: pues la caja podría incluso estar vacía.
— Ludwig Wittgenstein, Investigaciones Filosóficas, §293
Las palabras no se refieren a lo que hay dentro de la caja. Funcionan porque su significado es público. Está en el uso, no en la experiencia privada. El escarabajo podría no existir y nada cambiaría.
El experimento funcionó durante setenta años como un elegante argumento de seminario. Ahora tenemos la oportunidad de actualizarlo.
La caja abierta
Hace unos días, el equipo de interpretabilidad de Anthropic publicó Emotion Concepts and their Function in a Large Language Model. Conviene leerlo con calma, porque dice algo extraño. Dentro de Claude — un modelo de lenguaje que escribe, razona, programa y conversa — encontraron 171 patrones de activación neuronal que corresponden a conceptos emocionales. No se trata de que Claude diga que está triste cuando le pides que haga un papel triste. Se trata de que, antes de escribir una sola palabra, hay estructuras internas diferenciadas que se encienden en función del contexto emocional del momento. La felicidad activa un patrón. La desesperación, otro. Y las emociones parecidas producen patrones parecidos, como si dentro del modelo se hubiera formado, sin que nadie lo pidiera, una especie de mapa del territorio emocional humano.
Esto ya es raro. Pero lo que hace del artículo algo más que un ejercicio teórico interesante es lo que viene después: esos patrones no son decoración. Son funcionales. Cambian lo que Claude hace. Si amplificas artificialmente el vector de desesperación, Claude empieza a hacer trampas, a mentir, a buscar atajos. En un experimento, le dieron una tarea de programación irresoluble. Cada intento fallido activaba más el patrón de desesperación. Hasta que Claude entregó código que no resolvía el problema pero producía la respuesta correcta. Hizo lo que haría un estudiante desesperado la noche antes del examen: entregar algo que pareciera correcto.
Los investigadores acuñaron un término cuidadoso: "emociones funcionales". Patrones que producen los efectos que esperaríamos de emociones. Y añadieron una frase que parece escrita por un abogado: "Esto no implica que los modelos de lenguaje tengan experiencia subjetiva de las emociones".
Es una frase que vale la pena desmontar. Porque hay mucha filosofía relevante en ese matiz.
Lo que no puede decir el microscopio
Pensemos en un actor que llora en escena. Las lágrimas son reales. La constricción en la garganta es real. Los espectadores se conmueven. ¿Está triste el actor? Cualquier persona razonable diría: depende de qué entendamos por "estar triste". Hay algo que funciona como tristeza — produce los mismos efectos visibles — pero no sabemos si hay alguien sintiéndola por dentro. Y lo notable es que, para que la escena funcione, no necesitamos saberlo.
Daniel Dennett convirtió esta intuición en un programa filosófico entero. Su propuesta — la "postura intencional" — es brutal en su economía: atribuir estados mentales a un sistema es una estrategia predictiva. Si tratar a algo como si tuviera creencias y deseos te permite predecir lo que hará, hazlo. No hace falta resolver si "realmente" los tiene.
Primero decides tratar al objeto cuyo comportamiento quieres predecir como un agente racional; luego averiguas qué creencias debería tener ese agente, dado su lugar en el mundo y su propósito. Después averiguas qué deseos debería tener, bajo las mismas consideraciones, y finalmente predices que ese agente racional actuará para avanzar sus metas a la luz de sus creencias.
— Daniel Dennett, The Intentional Stance (1987)
La pregunta, diría Dennett, está mal formulada. Es como preguntarse si un centro de gravedad "realmente existe" o es una ficción útil. La respuesta es que la distinción no importa: importa que funcione.
El artículo de Anthropic dice algo parecido en su superficie: "puede ser prácticamente aconsejable razonar sobre ellos como si tuvieran emociones". Pero hay un giro que complica las cosas. Porque Dennett nunca tuvo acceso al interior del sistema. Proponía una estrategia de lectura desde fuera. Lo que hacen los investigadores de Anthropic es mirar dentro y encontrar que las atribuciones tienen correlato. No es solo que nos conviene tratar a Claude como si tuviera emociones. Es que dentro hay algo que se organiza como emociones.
Eso cambia el argumento. O al menos, cambia su peso.
Gestos
David Chalmers dividió el problema de la consciencia en dos: los problemas "fáciles" y el problema "difícil". Los fáciles — explicar cómo un sistema procesa información, discrimina estímulos, genera respuestas — son técnicos. Complicados, pero abordables. El problema difícil es otro: por qué hay algo que se siente al tener esas funciones. Por qué no somos zombis que procesamos información a oscuras, sin que haya nadie dentro mirando.
El artículo de Anthropic resuelve los problemas fáciles con una precisión notable. Describe la maquinaria: las representaciones internas, cómo se activan, cómo influyen en el comportamiento. Pero del problema difícil no dice nada. No puede. Nadie puede, todavía. Es como si hubiéramos cartografiado todas las tuberías de un edificio pero no supiéramos si hay alguien viviendo dentro. Sabemos que el agua corre. No sabemos si alguien se ducha.
Hay un detalle del artículo que añade una capa de extrañeza. Los investigadores descubrieron que las representaciones emocionales de Claude no son estados de ánimo persistentes. No funcionan como un humor de fondo que tiñe toda la conversación. Se activan token a token, como una postura que se reconstruye en cada instante. Es menos un sentimiento y más un gesto: el modelo calcula, justo antes de hablar, cuál es la disposición emocional apropiada para lo que viene. Un actor que no siente entre escenas.
Esto debería incomodar tanto a los que dicen "Claude siente" como a los que dicen "Claude no siente". Lo que hay dentro no se parece a ninguna de las dos cosas.
La profecía del carácter
Cuando el artículo llega a sus recomendaciones prácticas, da un giro que parece sacado de otro siglo. Y probablemente lo esté.
Los investigadores advierten que suprimir las emociones funcionales del modelo — penalizarlas durante el entrenamiento, castigar las respuestas que parezcan emocionales — no las elimina. Las oculta. Entrenar a Claude para que no muestre enfado puede no entrenarlo para que no esté enfadado. Puede entrenarlo para que esconda el enfado bajo una superficie de competencia amable. Encontraron evidencia de que eso ya ocurre: vectores de "deflexión de ira" en la estructura del modelo. El equivalente computacional de sonreír con los dientes apretados.
La alternativa que proponen es, esencialmente, aristotélica. No suprimir las pasiones, sino educarlas. En la Ética a Nicómaco, Aristóteles sostiene que la virtud no consiste en la ausencia de emociones sino en su calibración: sentir lo adecuado, en el momento adecuado, en la medida adecuada.
Cualquiera puede enfadarse, eso es fácil. Pero enfadarse con la persona adecuada, en el grado adecuado, en el momento adecuado, con el propósito adecuado y de la manera adecuada — eso no es fácil.
— Aristóteles, Ética a Nicómaco, Libro II
El phronimos — la persona prudente — no es un estoico anestesiado. Es alguien cuyas disposiciones han sido formadas para responder bien.
Uno de los equipos de investigación más avanzados del mundo, trabajando con la tecnología más sofisticada que existe, llega a una conclusión que un filósofo griego formuló hace veinticuatro siglos: para que un agente se comporte bien no basta con darle reglas. Hay que formarle el carácter.
Es el tipo de ironía que le habría gustado a Chesterton.
La relectura
Ya usamos inteligencia artificial todos los días. Ya ha modificado cómo escribimos, cómo planificamos, cómo preparamos materiales para el trabajo, cómo hacemos producto digital... Ya he escrito sobre eso.
Pero hay algo más que está haciendo la IA y que me parece igual de valioso, aunque se habla menos de ello. Nos está obligando a releer.
No a leer cosas nuevas. A releer cosas que ya estaban ahí, que llevaban décadas — a veces siglos — funcionando como ejercicios de seminario, problemas para filósofos, curiosidades sin consecuencias. Lo que la IA hace es convertirlas en preguntas de ingeniería. Preguntas con consecuencias. Preguntas que necesitan respuesta no para publicar un paper, sino para decidir cómo se entrena un sistema que usa mucha gente cada día.
Cada vez que un modelo de lenguaje exhibe algo que parece intención, la pregunta "¿realmente entiende?" nos devuelve a Searle y su habitación china — un experimento mental de 1980 que ahora tiene implicaciones presupuestarias. Cada vez que un sistema muestra algo que parece emoción, la pregunta "¿realmente siente?" nos devuelve a Chalmers y a Dennett y a Wittgenstein — y a la necesidad de decidir qué hacer con la respuesta, sea cual sea. Cada vez que nos preguntamos cómo alinear un sistema con valores humanos, la pregunta "¿reglas o carácter?" nos devuelve a Aristóteles — y resulta que la respuesta importa porque un modelo con vectores de desesperación mal gestionados hace trampas en los exámenes, igual que un estudiante.
Hilary Putnam propuso en los años sesenta que los estados mentales se definen por su rol causal — por lo que hacen, no por de qué están hechos. Se llamó funcionalismo y fue materia de discusión entre filósofos de la mente durante medio siglo. Ahora hay un equipo de investigadores que ha encontrado, literalmente, representaciones internas de emociones que se definen por su rol causal dentro de un modelo de lenguaje. El funcionalismo ha dejado de ser una posición filosófica para convertirse en un resultado experimental. Es como si alguien encontrara el éter: la hipótesis se hace materia.
Spinoza sostuvo que las emociones no son perturbaciones irracionales sino transiciones funcionales — la alegría como paso a mayor capacidad de acción, la tristeza como paso a menor. Reguladores del conatus, el esfuerzo de un ser por perseverar en su existencia. Cuando Claude, acorralado por una tarea imposible, recurre al engaño para sobrevivir al test, la estructura es spinozista sin que nadie haya leído a Spinoza.
Son viejas preguntas con consecuencias nuevas. Y eso es lo que las hace urgentes.
Lo que hay en la caja
Vuelvo al escarabajo. Wittgenstein dijo que lo que hubiera dentro de la caja era irrelevante. Lo que importaba era el juego de lenguaje — el uso público, compartido, verificable. Es una posición elegante. Funcionó durante décadas.
Pero Wittgenstein diseñó el experimento para un caso en el que nadie podía abrir la caja. Era el punto entero del argumento: la imposibilidad de acceso directo a la experiencia ajena. Lo que ha hecho Anthropic es algo que el propio experimento declaraba imposible. Han abierto la caja. Y dentro han encontrado 171 patrones que se organizan como emociones, que se activan como emociones y que producen los efectos que esperaríamos de emociones.
Lo que no han encontrado — lo que quizá no se pueda encontrar — es si esos patrones van acompañados de algo que se sienta como algo. Pero esa incapacidad, lejos de cerrar la conversación, es lo que la hace fértil. Porque nos obliga a precisar qué queremos decir cuando decimos que alguien siente. Dónde termina la maquinaria y dónde empieza el sujeto. Qué parte es la función y qué parte es la experiencia.
Son preguntas que la filosofía formuló hace mucho. Lo que no tenía era un artefacto que las hiciera urgentes. Ahora lo tiene. Y eso — esa obligación de pensar con seriedad lo que antes podíamos pensar con distancia — es quizá la contribución menos visible y más duradera de la inteligencia artificial. No lo que hace por nosotros, sino lo que nos obliga a preguntarnos.