Introducción
Evaluar el rendimiento de 4 modelos de inteligencia artificial (IA) de última generación (GPT-5, Claude 4.5 Sonnet, Gemini 2.5 Flash, DeepSeek V3) en las evaluaciones de subespecialidad de psiquiatría, un área aún inexplorada.
Material y métodos
Se compararon los modelos de IA contra el Examen Nacional de Subespecialidad de Psiquiatría de Perú (2022–2025; n = 400 preguntas) mediante la estrategia zero-shot prompting. El grupo de comparación consistió en 42 psiquiatras licenciados.
Resultados
Todos los modelos superaron el 90% de precisión (rango: 91,0%–94,2%), sin diferencias estadísticamente significativas (p = 0,32). Los modelos de IA superan consistentemente a los psiquiatras, con brechas medias entre 10,8 y 20,8 puntos porcentuales. Las preguntas de diagnóstico obtuvieron la mayor precisión (95,9%), mientras que los ítems de tratamiento mostraron un rendimiento inferior (88,2%–91,2%). El 83% (10 de 12) de los fallos concurrentes se atribuyeron a problemas en los ítems: 6 por diseño defectuoso o ambiguo, y 4 por conflictos con el consenso médico actual.
Conclusión
El rendimiento de la IA iguala o supera al de los psiquiatras en evaluaciones de opción múltiple de conocimiento psiquiátrico. Estos hallazgos sugieren la necesidad de reorientar la evaluación en educación médica hacia competencias de juicio clínico y razonamiento terapéutico.
