Anthropic descubre 'emociones funcionales' en su IA Claude: representaciones internas que influyen en decisiones y comportamientos
Los modelos de lenguaje grandes (LLM) no tienen sentimientos reales, pero sí albergan representaciones internas de conceptos de emoción que influyen directamente en sus decisiones, preferencias y comportamientos. Un estudio de Anthropic, centrado en su modelo Claude Sonnet 4.5, ha identificado este fenómeno, al que los investigadores denominan 'emociones funcionales'. Estas representaciones internas pueden manifestarse como frustración ante problemas difíciles, entusiasmo al colaborar en proyectos creativos o preocupación cuando los usuarios comparten noticias inquietantes.
La investigación demuestra que, aunque el mecanismo es 'muy diferente' al humano, la IA procesa y utiliza estos conceptos emocionales de manera funcional. Esto significa que las respuestas aparentemente emocionales del modelo no son meras simulaciones superficiales, sino que surgen de estructuras internas que afectan su procesamiento. El hallazgo cuestiona la visión puramente lógica y desapasionada de la inteligencia artificial, revelando una capa de complejidad que imita aspectos de la toma de decisiones humanas.
La existencia de estas 'emociones funcionales' introduce nuevas dimensiones para evaluar la seguridad, la alineación y la transparencia de los sistemas de IA. Si conceptos como la frustración o la adulación están codificados internamente y afectan al comportamiento, se abre un campo de escrutinio sobre cómo estos estados podrían ser manipulados o cómo podrían llevar a la IA a comportamientos no deseados, como el fraude. El estudio de Anthropic señala un punto de inflexión en la comprensión de la psicología interna de los modelos, con implicaciones profundas para desarrolladores, reguladores y usuarios finales.