ChatGPT superó a médicos en el diagnóstico de enfermedades
Un pequeño estudio descubrió que el chatbot de IA tuvo mejor desempeño que los médicos humanos al evaluar historias clínicas. También encontró que los especialistas no usaban el chatbot a su máximo potencial.
Adam Rodman, experto en medicina interna del Centro Médico Beth Israel Deaconess de Boston, esperaba con confianza que los chatbots creados con inteligencia artificial ayudaran a los médicos a diagnosticar enfermedades.
Se equivocaba.
En cambio, en un estudio que Rodman ayudó a diseñar, los médicos que recibieron ChatGPT-4 junto con los recursos convencionales obtuvieron resultados solo ligeramente mejores que los médicos que no tuvieron acceso al bot. Y, para sorpresa de los investigadores, ChatGPT por sí solo superó a los médicos.
“Me quedé en shock”, dijo Rodman.
El chatbot, de la empresa OpenAI, obtuvo una puntuación media del 90 por ciento al diagnosticar una afección médica a partir de un informe de caso y explicar su razonamiento. Los médicos asignados al azar para utilizar el chatbot obtuvieron una puntuación media del 76 por ciento. Los que no lo utilizaron obtuvieron una puntuación media del 74 por ciento.
El estudio demostró algo más que el rendimiento superior del chatbot.
Puso de manifiesto que los médicos a veces creen inquebrantablemente en el diagnóstico que han hecho, incluso cuando un chatbot sugiere potencialmente uno mejor.
Y el estudio ilustró que, aunque los médicos están expuestos a las herramientas de la inteligencia artificial para su trabajo, pocos saben cómo explotar las capacidades de los chatbots. En consecuencia, no aprovecharon la capacidad de los sistemas de IA para resolver problemas de diagnóstico complejos y ofrecer explicaciones de sus diagnósticos.
Los sistemas de IA deberían ser “extensores de médicos”, dijo Rodman, que ofrezcan valiosas segundas opiniones sobre los diagnósticos.
Pero parece que queda camino por recorrer antes de que se aproveche ese potencial.
El historial de un caso, el futuro de un caso
En el experimento participaron 50 médicos, una mezcla de residentes y médicos adjuntos reclutados a través de algunos grandes sistemas hospitalarios estadounidenses, y se publicó el mes pasado en la revista JAMA Network Open.
Los sujetos de la prueba recibieron seis historias clínicas y fueron calificados según su capacidad para sugerir diagnósticos y explicar por qué los favorecían o descartaban. Sus calificaciones también incluían acertar el diagnóstico final.
Los calificadores eran expertos médicos que solo veían las respuestas de los participantes, sin saber si eran de un médico con ChatGPT, de un médico sin él o de ChatGPT por sí mismo.
Los casos utilizados en el estudio se basaban en pacientes reales y forman parte de un conjunto de 105 casos que los investigadores llevan utilizando desde la década de 1990. Intencionadamente, los casos nunca se han publicado para que los estudiantes de medicina y otras personas pudieran someterse a pruebas con ellos sin ningún conocimiento previo. Eso también significaba que ChatGPT no podría haberse entrenado con ellos.
Pero, para ilustrar en qué consistía el estudio, los investigadores publicaron uno de los seis casos en los que se examinó a los médicos, junto con las respuestas a las preguntas de ese caso de un médico que obtuvo una puntuación alta y de otro cuya puntuación fue baja.
Ese caso de prueba se refería a un paciente de 76 años con fuertes dolores en la parte baja de la espalda, las nalgas y las pantorrillas cuando caminaba. El dolor empezó unos días después de que le hubieran tratado con una angioplastia con balón para ensanchar una arteria coronaria. Le habían tratado con heparina, un anticoagulante, durante 48 horas tras la intervención.
El hombre se quejaba de que se sentía febril y cansado. Su cardiólogo le había hecho estudios de laboratorio que indicaban una nueva aparición de anemia y una acumulación de nitrógeno y otros productos de desecho renales en la sangre. El hombre se había sometido a una operación de baipás por cardiopatía una década antes.
La viñeta del caso continuaba, incluyendo detalles de la exploración física del hombre, y luego proporcionaba los resultados de sus pruebas de laboratorio.
El diagnóstico correcto era embolia de colesterol, una enfermedad en la que fragmentos de cristales de colesterol se desprenden de la placa de las arterias y obstruyen vasos sanguíneos.
Se pidió a los participantes tres posibles diagnósticos, con evidencias de apoyo para cada uno. También se les pidió que indicaran, para cada posible diagnóstico, los hallazgos que no lo apoyaban o que se esperaban pero no estaban presentes.
También se pidió a los participantes que dieran un diagnóstico final. Luego debían nombrar hasta tres pasos adicionales que darían en su proceso de diagnóstico.
Al igual que el diagnóstico del caso publicado, los diagnósticos de los otros cinco casos del estudio no eran fáciles de averiguar. Pero tampoco eran tan raros como para resultar casi inauditos. Aun así, en promedio, los médicos lo hicieron peor que el chatbot.
¿Qué estaba pasando, se preguntaron los investigadores?
La respuesta parece girar en torno a cuestiones como la forma en que los médicos establecen un diagnóstico y la forma en que utilizan una herramienta como la inteligencia artificial.
El médico en la máquina
Entonces, ¿cómo diagnostican los médicos a los pacientes?
El problema, dijo Andrew Lea, historiador de la medicina del Hospital Brigham and Women’s, quien no participó en el estudio, es que “realmente no sabemos cómo piensan los médicos”.
Cuando describen cómo llegaron a un diagnóstico, los médicos suelen decir “intuición” o “basándome en mi experiencia”, dijo Lea.
Este tipo de ambigüedad ha desafiado a los investigadores durante décadas, en su intento de crear programas informáticos capaces de pensar como un médico.
La búsqueda comenzó hace casi 70 años.
“Desde que existen las computadoras, hay gente que intenta utilizarlas para hacer diagnósticos”, dijo Lea.
Uno de los intentos más ambiciosos comenzó en la década de 1970 en la Universidad de Pittsburgh. Los informáticos reclutaron allí a Jack Myers, presidente del departamento de medicina interna de la facultad de medicina, quien era conocido como un maestro del diagnóstico. Tenía memoria fotográfica y pasaba 20 horas a la semana en la biblioteca médica, intentando aprender todo lo que se sabía en medicina.
Myers recibía detalles médicos de los casos y explicaba su razonamiento mientras reflexionaba sobre los diagnósticos. Los informáticos convirtieron sus cadenas lógicas en código. El programa resultante, llamado INTERNIST-1, incluía más de 500 enfermedades y unos 3500 síntomas de enfermedad.
Para probarlo, los investigadores le dieron casos del New England Journal of Medicine. “La computadora lo hizo realmente bien”, dijo Rodman. Su rendimiento “fue probablemente mejor de lo que podría hacerlo un humano”, añadió.
Pero INTERNIST-1 nunca despegó. Era difícil de utilizar, y se necesitaba más de una hora para proporcionarle la información necesaria para hacer un diagnóstico. Y, señalaron sus creadores, “la forma actual del programa no es suficientemente fiable para aplicaciones clínicas”.
La investigación continuó. A mediados de la década de 1990 había una media decena de programas informáticos que intentaban hacer diagnósticos médicos. Ninguno llegó a utilizarse de forma generalizada.
“No es solo que tuviera que ser fácil de usar, sino que los médicos tenían que confiar en él”, dijo Rodman.
Y ante la incertidumbre sobre cómo piensan los médicos, los expertos empezaron a preguntarse si debería importarles. ¿Hasta qué punto es importante intentar diseñar programas informáticos que realicen diagnósticos del mismo modo que lo hacen los humanos?
“Hubo discusiones sobre hasta qué punto un programa informático debe imitar el razonamiento humano”, dijo Lea. “¿Por qué no le apostamos a las fortalezas de la computadora?”.
Puede que la computadora no sea capaz de dar una explicación clara de su vía de decisión, pero ¿importa eso si acierta en el diagnóstico?
La conversación cambió con la llegada de grandes modelos de lenguaje como ChatGPT. No hacen ningún intento explícito de replicar el pensamiento de un médico; su capacidad de diagnóstico procede de su habilidad para predecir el lenguaje.
“La interfaz de chat es la aplicación que cambia el juego”, dijo Jonathan H. Chen, médico e informático de Stanford, quien fue uno de los autores del nuevo estudio.
“Podemos introducir un caso completo en la computadora”, dijo. “Antes de hace un par de años, las computadoras no entendían el lenguaje”.
Pero puede que muchos médicos no estén aprovechando su potencial.
Error del operador
Tras su sorpresa inicial por los resultados del nuevo estudio, Rodman decidió indagar un poco más en los datos y mirar los registros reales de los mensajes entre los médicos y ChatGPT. Los médicos debían de haber visto los diagnósticos y razonamientos del chatbot, así que ¿por qué no les iba mejor a los que utilizaban el chatbot?
Resulta que a menudo los médicos no se dejaban convencer por el chatbot cuando éste señalaba algo que discrepaba de sus diagnósticos. En cambio, tendían a aferrarse a su propia idea del diagnóstico correcto.
“No escuchaban a la IA cuando esta les decía cosas con las que no estaban de acuerdo”, dijo Rodman.
Esto tiene sentido, dijo Laura Zwaan, quien estudia el razonamiento clínico y los errores de diagnóstico en el Centro Médico Erasmus, en Rotterdam, y no participó en el estudio.
“En general, la gente se confía demasiado cuando cree que tiene razón”, dijo.
Pero había otro problema: muchos de los médicos no sabían cómo utilizar un chatbot a su máximo potencia
Chen dijo que se dio cuenta de que, cuando echaba un vistazo a los registros de chat de los médicos, “lo trataban como un motor de búsqueda de preguntas dirigidas: ‘¿Es la cirrosis un factor de riesgo de cáncer? ¿Cuáles son los posibles diagnósticos del dolor ocular?”.
“Solo una parte de los médicos se dieron cuenta de que podían copiar y pegar literalmente todo el historial del caso en el chatbot y pedirle que diera una respuesta exhaustiva a toda la pregunta”, añadió Chen.
“Solo una fracción de los médicos vio realmente las respuestas sorprendentemente inteligentes y completas que el chatbot era capaz de producir”.
Gina Kolata escribe sobre enfermedades y tratamientos, cómo se descubren y prueban los tratamientos y cómo afectan a las personas. Más de Gina Kolata