En un giro inesperado, Apple ha lanzado un estudio que desafía todo lo que creíamos saber sobre los modelos de razonamiento de inteligencia artificial. Con la WWDC 2025 a la vuelta de la esquina, este hallazgo no puede pasar desapercibido. La investigación revela que estos sistemas, como los grandes modelos lingüísticos de OpenAI y Claude, pueden no estar razonando en absoluto.
Una mirada más cercana a los experimentos
A diferencia de otros estudios que se apoyan en pruebas matemáticas estándar, los investigadores de Apple han creado entornos controlados con acertijos como el Torre de Hanoi y el Cruzando ríos. Esto les permitió analizar no solo las respuestas finales, sino también el proceso lógico interno detrás del razonamiento. Y los resultados son sorprendentes.
Crisis en la lógica
A medida que aumentaba la complejidad, todos los modelos evaluados—desde o3-mini hasta DeepSeek-R1 y Claude 3.7 Sonnet—se desplomaron en su precisión. De hecho, ¡alcanzaron una tasa de éxito del cero por ciento! Curiosamente, cuanto más difíciles se volvían los problemas, menos esfuerzo parecían hacer para resolverlos. Los investigadores apuntan a unas limitaciones fundamentales en lugar de meras restricciones de recursos.
Y aquí viene lo más alarmante: incluso cuando se les proporcionó el algoritmo completo para resolver los problemas, ¡los modelos seguían fallando! Esto sugiere que el verdadero obstáculo no es encontrar una estrategia adecuada, sino ejecutar pasos lógicos básicos. Además, demostraron ser inconsistente; lograban resolver acertijos complejos pero fracasaban en aquellos mucho más sencillos.
El estudio destaca tres regímenes diferentes: sorprendentemente, los modelos estándar superan a los modelos de razonamiento en baja complejidad; estos últimos brillan a niveles intermedios; y ambos se estrellan completamente cuando las cosas se complican demasiado.
La conclusión es clara: estos llamados “modelos de razonamiento” dependen más del emparejamiento sofisticado de patrones que del verdadero razonamiento humano. No están escalando su lógica como nosotros lo hacemos; tienden a sobrepensar problemas fáciles mientras simplifican excesivamente los complicados.
A medida que nos acercamos al evento donde Apple probablemente centrará su atención en nuevos diseños y funciones software —de acuerdo con Bloomberg— este hallazgo invita a reflexionar sobre hacia dónde vamos con la inteligencia artificial.