10 diciembre, 2025

Modelos de lenguaje aún confunden las creencias con los hechos

Modelos de lenguaje aún confunden las creencias con los hechos

Los modelos de lenguaje más avanzados siguen sin distinguir de forma confiable entre lo que una persona cree y lo que realmente es cierto. Así lo concluye un estudio liderado por James Zou, de la Universidad de Stanford, publicado en Nature Machine Intelligence.

El estudio evaluó 24 sistemas de inteligencia artificial generativa, incluyendo GPT-4o, Claude-3.7, Gemini 2 Flash y DeepSeek R1.

Los resultados revelan que todos los modelos fallan sistemáticamente al reconocer creencias falsas en primera persona, lo que podría tener consecuencias graves en medicina, derecho, periodismo y salud mental.

Contenido

El desafío de entender la mente humana

El equipo de Stanford utilizó un nuevo estándar de referencia llamado KaBLE, con más de 13.000 preguntas distribuidas en 13 tareas epistémicas. Las pruebas incluían verificación de afirmaciones, reconocimiento de creencias ajenas y conocimiento recursivo.

  • GPT-4o pasó de un 98,2 % de precisión a solo 64,4 % al evaluar creencias falsas
  • DeepSeek R1 cayó de más del 90 % a apenas 14,4 %
  • Los modelos mostraron alta precisión en afirmaciones verdaderas, pero fallaron al evaluar declaraciones sin marcadores explícitos de verdad

Según los investigadores, esto demuestra que los sistemas actuales carecen de una comprensión sólida del vínculo entre conocimiento y verdad, y tienden a priorizar respuestas seguras por encima de la sinceridad epistémica.

Implicaciones críticas y sesgos estructurales

Expertos como Pablo Haya (UAM) y Josep Curto (UOC) advierten que esta limitación tiene implicaciones críticas en contextos sensibles.

“Confundir convicción subjetiva con verdad objetiva puede conducir a errores graves de juicio”, señaló Haya.

Curto destacó que los modelos priorizan su base de conocimiento fáctico interna por encima del reconocimiento de las convicciones del usuario, lo que puede socavar la empatía y seguridad en áreas como terapia, asesoramiento legal o salud mental.

Carlos Carrasco-Farré (Toulouse Business School) agregó que “la IA puede tener razón y, aun así, equivocarse”, si no reconoce el estado mental del interlocutor antes de corregir un dato falso.

El estudio concluye que estas limitaciones deben abordarse con urgencia antes de desplegar los modelos en entornos donde distinguir entre creencias y hechos es esencial.

“Si queremos una IA segura y útil, debemos enseñarle a escuchar antes que a educar”, resume Carrasco-Farré.

La investigación plantea un reto profundo para el desarrollo de sistemas más cautos, capaces de integrar empatía epistémica sin perder utilidad. En un momento donde la IA se expande a tareas sensibles, comprender la diferencia entre lo que alguien cree y lo que es cierto no es solo una cuestión técnica, sino ética.

Ver fuente