A medida que los chatbots de inteligencia artificial (IA) evolucionan, se vuelven más sofisticados y capaces de responder a una amplia gama de preguntas. Sin embargo, un nuevo estudio revela que esta capacidad ampliada también los hace más propensos a cometer errores. La investigación, llevada a cabo por científicos de la Universidad de Cambridge y el Instituto Valenciano de Investigación en Inteligencia Artificial, señala que los modelos de lenguaje complejo (LLM) más populares tienden a “alucinar” al tratar de satisfacer demandas de información específicas de los usuarios.
¿Qué son las alucinaciones en los chatbots?
Las llamadas alucinaciones son respuestas generadas por los chatbots que, aunque parezcan coherentes, pueden ser incorrectas, sin contexto o incluso peligrosas. Este fenómeno fue observado desde que productos como ChatGPT y Copilot salieron al mercado. Al principio, los errores alarmaron a la comunidad tecnológica, pero las empresas desarrolladoras minimizaron la importancia de estos problemas.
El origen de las alucinaciones radica en la naturaleza misma de los LLM. Estos chatbots no razonan de la misma manera que los humanos, sino que predicen respuestas basadas en patrones previamente entrenados. Al no tener un verdadero entendimiento del tema, sus respuestas pueden parecer correctas, pero ser inexactas o imprecisas.
Mejoras en el entrenamiento, pero más riesgos
Las empresas han intentado mejorar la fiabilidad de los chatbots con más entrenamiento, bases de datos de mayor calidad y filtros precisos. Hoy, los chatbots son más precisos que nunca, capaces de responder casi cualquier pregunta, salvo en excepciones como temas políticos o ilegales.
Sin embargo, según los expertos, esta mayor precisión conlleva un mayor riesgo de error. Como explica José Hernández-Orello, coautor del estudio publicado en Nature, los chatbots actuales responden a todo, incluso a preguntas extremadamente complejas o difíciles, lo que aumenta las probabilidades de equivocación. “Están respondiendo a casi todo en estos días, y eso significa más respuestas correctas, pero también más respuestas incorrectas“, señala el investigador.
Estudio sobre la fiabilidad de los modelos de lenguaje complejo
Seis investigadores de inteligencia artificial analizaron modelos de lenguaje como GPT de OpenAI, LLaMA de Meta y BLOOM de BigScience. El estudio se basó en tres aspectos principales: la dificultad de las preguntas, la cantidad de veces que los chatbots se negaron a responder y la estabilidad de los modelos. Se formularon miles de preguntas en áreas como ciencia, geografía, aritmética y lenguaje.
Si bien los modelos mejoraron en precisión gracias a las actualizaciones en sus entrenamientos y bases de datos, la investigación mostró que los chatbots no se moderaban ante preguntas difíciles. En lugar de negarse a responder o mostrar precaución, como en sus primeras versiones, los modelos ofrecían respuestas inexactas ante solicitudes complejas.
¿Cómo pueden mejorar los chatbots? La importancia de aprender a decir “no lo sé”
Hernández-Orello propone dos soluciones para reducir las alucinaciones en los chatbots de IA. Por un lado, los LLM deberían aprender a decir “no lo sé” cuando una pregunta excede sus capacidades o cuando los datos disponibles no son suficientes. Por otro lado, los usuarios deben aprender a utilizar los chatbots para tareas específicas en lugar de esperar que actúen como enciclopedias universales.
El investigador también destaca la importancia de establecer umbrales de dificultad. “Todavía estoy muy sorprendido de que las versiones recientes de algunos de estos modelos, incluido uno de OpenAI, se les pueda pedir que multipliquen dos números muy largos y ofrezcan una respuesta incorrecta”, comenta Hernández-Orello. Según su perspectiva, los chatbots deberían negar respuestas en casos donde la probabilidad de error es alta, evitando confundir al usuario.
Conclusión: El desafío de la precisión en los chatbots
A pesar de los avances en la tecnología de chatbots de IA, la fiabilidad sigue siendo un reto. Los usuarios y desarrolladores deben trabajar juntos para garantizar que estas herramientas se utilicen de manera efectiva y segura, reconociendo sus limitaciones y aprendiendo a navegar por sus respuestas con cautela.