Evaluación comparativa de modelos de inteligencia artificial de última generación frente a psiquiatras humanos en el examen nacional de subespecialidad en Perú: un estudio transversal

Benchmarking state-of-the-art artificial intelligence models against human psychiatrists on the national subspecialty examination in Peru: A cross-sectional study

junio 23, 2026 Área salud, Educación Médica, Elsevier España, Medicina, Vol. 27. Núm. 3. (Mayo - Junio 2026)

Evaluación comparativa de modelos de inteligencia artificial de última generación frente a psiquiatras humanos en el examen nacional de subespecialidad en Perú: un estudio transversal

Introducción

Evaluar el rendimiento de 4 modelos de inteligencia artificial (IA) de última generación (GPT-5, Claude 4.5 Sonnet, Gemini 2.5 Flash, DeepSeek V3) en las evaluaciones de subespecialidad de psiquiatría, un área aún inexplorada.

Material y métodos

Se compararon los modelos de IA contra el Examen Nacional de Subespecialidad de Psiquiatría de Perú (2022–2025; n = 400 preguntas) mediante la estrategia zero-shot prompting. El grupo de comparación consistió en 42 psiquiatras licenciados.

Resultados

Todos los modelos superaron el 90% de precisión (rango: 91,0%–94,2%), sin diferencias estadísticamente significativas (p = 0,32). Los modelos de IA superan consistentemente a los psiquiatras, con brechas medias entre 10,8 y 20,8 puntos porcentuales. Las preguntas de diagnóstico obtuvieron la mayor precisión (95,9%), mientras que los ítems de tratamiento mostraron un rendimiento inferior (88,2%–91,2%). El 83% (10 de 12) de los fallos concurrentes se atribuyeron a problemas en los ítems: 6 por diseño defectuoso o ambiguo, y 4 por conflictos con el consenso médico actual.

Conclusión

El rendimiento de la IA iguala o supera al de los psiquiatras en evaluaciones de opción múltiple de conocimiento psiquiátrico. Estos hallazgos sugieren la necesidad de reorientar la evaluación en educación médica hacia competencias de juicio clínico y razonamiento terapéutico.