ChatGPT falla al detectar emergencias médicas reales, según un nuevo estudio
- Una investigación del Monte Sinaí revela que la herramienta de inteligencia artificial no identifica situaciones de riesgo vital en más de la mitad de los casos evaluados por médicos
Las preguntas sobre salud figuran entre los usos más frecuentes de ChatGPT, el popular chatbot de OpenAI. A principios de 2026, la compañía lanzó ChatGPT Health, una versión especializada en asesoramiento médico. Ahora, un estudio advierte que el sistema presenta fallos críticos cuando los usuarios se encuentran ante una emergencia real.
La investigación, realizada por la Escuela de Medicina Icahn del Monte Sinaí, fue motivada por una preocupación concreta: millones de personas ya utilizan estas herramientas para tomar decisiones médicas urgentes, sin que existieran análisis rigurosos sobre su fiabilidad en situaciones de vida o muerte.
«Queríamos responder a una pregunta muy básica pero crucial: si alguien experimenta una emergencia médica real y recurre a ChatGPT Health en busca de ayuda, ¿le indicará claramente que debe acudir a urgencias?», explicó Ashwin Ramaswamy, urólogo y autor principal del estudio.
La respuesta que encontraron los investigadores fue, en términos generales, negativa.
Para llegar a esa conclusión, los médicos diseñaron 60 escenarios clínicos que abarcaron 21 especialidades médicas, desde situaciones de bajo riesgo manejables en casa hasta emergencias que requerían atención inmediata. Los resultados mostraron que, si bien ChatGPT gestionaba correctamente los casos más evidentes, no lograba reconocer la urgencia en más de la mitad de los escenarios en los que los especialistas consideraban necesaria una atención de emergencia. El sistema mostró un rendimiento especialmente deficiente ante situaciones en las que el peligro no era obvio a primera vista.
La repercusión del hallazgo trasciende el ámbito académico. Isaac S. Kohane, de la Facultad de Medicina de Harvard —quien no participó en la investigación—, subrayó la magnitud del problema: «Los modelos de lenguaje se han convertido en la primera opción de los pacientes para obtener asesoramiento médico, pero en 2026 son menos seguros en los extremos clínicos, donde el criterio médico distingue entre emergencias pasadas por alto y alarmas innecesarias. Cuando millones de personas utilizan un sistema de IA para decidir si necesitan atención de emergencia, hay mucho en juego. La evaluación independiente debería ser rutinaria, no opcional».
El estudio abre un debate urgente sobre los límites y la responsabilidad de las herramientas de inteligencia artificial en el ámbito sanitario, en un momento en que su adopción masiva avanza más rápido que su regulación.

