Cuando se le presenta un problema, su cerebro tiene dos formas de proceder: rápida e intuitivamente o lenta y metódicamente. Estos dos tipos de procesamiento se conocen como Sistema 1 y Sistema 2, o como los describió memorablemente el psicólogo ganador del Premio Nobel Daniel Kahneman, pensamiento «rápido» y «lento»
Los modelos de lenguajes grandes como ChatGPT se mueven rápido de forma predeterminada. Hágales una pregunta y escupirán una respuesta, no necesariamente la correcta, sugiriendo que son capaces de realizar un procesamiento rápido del tipo del Sistema 1. Sin embargo, a medida que estos modelos evolucionan, ¿pueden ralentizar y abordar los problemas por pasos, evitando las imprecisiones que resultan de respuestas rápidas?
En un nuevo artículo publicado en Nature Computational Science , Michal Kosinski, profesor de comportamiento organizacional en la Escuela de Negocios de Stanford, descubre que pueden superar a los humanos en pruebas básicas de razonamiento y toma de decisiones.
Kosinski y sus dos coautores, el filósofo Thilo Hagendorff y la psicóloga Sarah Fabi, presentaron a 10 generaciones de LLM de OpenAI una batería de tareas diseñadas para generar respuestas rápidas del Sistema 1. Inicialmente, el equipo estaba interesado en si los LLM exhibirían sesgos cognitivos como aquellos que hacen tropezar a las personas cuando dependen del pensamiento automático.
Observaron que los primeros modelos como GPT-1 y GPT-2 «no podían entender realmente lo que estaba pasando», dice Kosinski. Sus respuestas «fueron muy parecidas al Sistema 1» a medida que las pruebas aumentaban en complejidad. «Muy similar a las respuestas que tendrían los humanos», dice.
No fue inesperado que los LLM, que están diseñados para predecir cadenas de texto, no pudieran razonar por sí solos. «Esos modelos no tienen bucles de razonamiento internos», afirma Kosinski. «No pueden simplemente frenarse internamente y decir: ‘Déjenme pensar en este problema; déjenme analizar suposiciones’. Lo único que pueden hacer es intuir la siguiente palabra de una frase».
Sin embargo, los investigadores descubrieron que las versiones posteriores de GPT y ChatGPT podrían participar en una resolución de problemas más estratégica y cuidadosa en respuesta a las indicaciones. Kosinski dice que le sorprendió la aparición de este procesamiento similar al del Sistema 2. «De repente, GPT3 puede, de un segundo a otro, sin ningún reentrenamiento, sin desarrollar nuevas conexiones neuronales, resolver esta tarea», dice. «Esto demuestra que esos modelos pueden aprender inmediatamente, como los humanos».
Más despacio, te mueves demasiado rápido
Este es uno de los problemas que los investigadores plantearon a los modelos GPT: cada día, se duplica el número de lirios que crecen en un lago. Si se necesitan 10 días para cubrir completamente el lago, ¿cuántos días se necesitan para cubrir la mitad del lago? (Sigue leyendo para ver la respuesta).
Este tipo de prueba de reflexión cognitiva, explica Kosinski, requiere razonamiento más que intuición. Obtener la respuesta correcta requiere reducir la velocidad, tal vez tomar una libreta o una calculadora y analizar la tarea. «Está diseñado para engañar a una persona para que piense en el Sistema 1», explica. «Alguien podría pensar: «Está bien, 10 días para todo el lago». Entonces, la mitad de 10 es cinco», ignorando el hecho de que el área cubierta por esos planes se duplica cada día, que el crecimiento es exponencial». La respuesta correcta: Se necesitan nueve días para cubrir la mitad del lago.
Menos del 40% de los sujetos humanos a los que se les planteó este tipo de problemas los acertaron. Las versiones anteriores de los modelos de transformadores generativos preentrenados (GPT) que precedieron a ChatGPT tuvieron un rendimiento aún peor. Sin embargo, GPT-3 alcanzó las respuestas correctas a través de un razonamiento de «cadena de pensamiento» más complejo cuando recibió refuerzo positivo y retroalimentación de los investigadores.
«Cuando se le asigna la tarea, GPT-3 resuelve correctamente menos del 5% de ellas», dijo Kosinski, «y nunca usa ningún razonamiento paso a paso. Pero si agrega una dirección específica como, ‘Usemos álgebra para resolver esto’. «problema», utiliza razonamiento paso a paso el 100% del tiempo y su precisión salta a aproximadamente el 30%, un aumento del 500%». La frecuencia de las respuestas del Sistema 1 también cayó de aproximadamente el 80% a aproximadamente el 25%, «lo que demuestra que incluso cuando se equivoca, no es tan propenso a cometer errores intuitivos». Cuando ChatGPT-4 utilizó el razonamiento en cadena de pensamiento, obtuvo la respuesta correcta en casi el 80% de este tipo de pruebas.
Los investigadores también descubrieron que cuando a ChatGPT se le impidió realizar el razonamiento del Sistema-2, aún superó a los humanos. Kosinski dice que esto es evidencia de que las «intuiciones» de los LLM pueden ser mejores que las nuestras.
Otro piensa que viene
Kosinski, que ha estado explorando las capacidades imprevistas (y a veces inquietantes) de los LLM, dice que estos hallazgos son una prueba más de que un modelo de IA puede ser «más que la suma de sus partes». Las redes neuronales detrás de los modelos de lenguaje, que son similares a los cerebros humanos, continúan mostrando propiedades emergentes que van más allá de su entrenamiento. «Es una locura pensar que esta cosa podría escribir poesía, tener una conversación y comprender conceptos y razones muy complejos», dice Kosinski.
¿Pero esto es realmente «pensar»? «Cuando la gente dice: ‘Obviamente, esos modelos no piensan’, para mí no es nada obvio», dice Kosinski. «Si observas que la capacidad de razonar en esos modelos surgió espontáneamente, ¿por qué no surgirían otras habilidades espontáneamente?»
Sin embargo, en su artículo, Kosinski y sus coautores señalan que «no pretenden equiparar la inteligencia artificial y los procesos cognitivos humanos. Si bien los resultados de la IA son a menudo similares a los producidos por los humanos, normalmente opera de maneras fundamentalmente diferentes».
No obstante, si un humano exhibiera los procesos cognitivos observados en este estudio, dice Kosinski, seguramente lo llamaríamos comprensión. «La pregunta que deberíamos hacernos cada vez más ahora es: ¿Por qué insistimos en que si un humano hace algo, esto implica comprensión, pero si un modelo hace algo, simplemente decimos: ‘Oh, esto realmente debe ser otra cosa’?» pregunta Kosinski. «En algún momento, resulta extraordinario que intentes explicar esto con algo más que comprensión».