Cuando la IA predice tu suicidio y nadie sabe qué hacer con esa información

Los algoritmos ya predicen riesgo suicida con precisión estadística. El problema no es técnico: es qué hacer con una alerta que no puedes confirmar ni ignorar. Análisis desde la ética clínica.

12 de junio de 2026 16 min de lectura

Un clínico recibe una alerta de IA: un paciente concreto tiene alto riesgo de intento suicida en los próximos 30 días. No hay señales visibles. El paciente no ha llamado. El algoritmo puede estar equivocado, pero si acierta y no actúas, las consecuencias son irreversibles. Este artículo propone un nombre para ese tipo de angustia y una forma de pensar el problema sin caer ni en el entusiasmo tecnológico ni en el rechazo frontal.

Imagina la siguiente situación. Es martes por la mañana en una unidad de salud mental. Antes de empezar las consultas, abres el sistema y aparece una alerta automática: un paciente al que viste hace tres semanas, que en aquel momento negó ideación suicida activa y que estaba estable, aparece marcado como “alto riesgo de intento suicida en los próximos 30 días” por un algoritmo de aprendizaje automático que cruza datos de su historia clínica electrónica. El paciente no ha pedido cita. No ha llamado. No ha pasado nada visible. Solo hay un número en una pantalla.

¿Qué haces?

Si llamas al paciente y le preguntas directamente, puede que se sienta vigilado, invadido, o que simplemente niegue lo que el algoritmo predice. Si no haces nada y dos semanas después hay un intento, ¿qué responsabilidad tienes sobre una información que te llegó y no procesaste? Si activas un protocolo de seguimiento intensivo basado en una alerta probabilística, ¿estás haciendo clínica o estás administrando un seguro contra demandas?

Este artículo trata sobre ese momento. No sobre si la IA va a sustituir al clínico —no va a hacerlo, al menos no en el horizonte cercano—, sino sobre lo que ocurre cuando un sistema te informa de algo que no puedes confirmar y sobre lo que no puedes intervenir sin consecuencias. Voy a proponer que ese fenómeno tiene nombre propio y merece pensamiento clínico específico.

Ilustración estilo New Yorker: clínico frente a portátil con resplandor azul, signos de interrogación flotando, silla vacía del paciente ausente.

Qué hacen estos sistemas y dónde ya están funcionando

Los modelos predictivos de riesgo suicida basados en machine learning llevan más de una década desarrollándose. La lógica es razonable: las escalas tradicionales basadas en autoinforme y juicio clínico tienen una capacidad predictiva modesta, y los registros electrónicos contienen miles de variables —diagnósticos previos, prescripciones, frecuencia de consultas, ingresos, notas de enfermería procesadas por NLP— que un algoritmo puede integrar de formas que un clínico humano no puede.

Kessler y colaboradores (2015) publicaron uno de los trabajos fundacionales: un modelo predictivo de suicidio tras hospitalización psiquiátrica en soldados del ejército estadounidense, con datos administrativos. McCoy y colaboradores (2016) mostraron que añadir procesamiento de lenguaje natural sobre notas clínicas mejoraba la predicción de suicidio y muerte accidental tras el alta hospitalaria. Walsh y colaboradores (2017) entrenaron modelos de machine learning capaces de predecir intentos suicidas con varios años de antelación a partir de historiales electrónicos. Simon y colaboradores (2018), usando datos de Kaiser Permanente, desarrollaron modelos para predecir intentos y muertes por suicidio tras consultas ambulatorias.

El despliegue real más documentado es REACH VET, el programa del Departamento de Asuntos de Veteranos de Estados Unidos. Cada mes, un algoritmo identifica al 0,1% de veteranos con mayor riesgo predicho, y a cada uno se le asigna un clínico que debe contactarlo proactivamente para revisar el plan de tratamiento. Landes y colaboradores (2024) documentaron el proceso de implementación, y Dent y colaboradores (2025) publicaron resultados sobre mortalidad: el programa parece asociarse a ciertos beneficios, aunque los efectos sobre mortalidad por suicidio específicamente son más matizados de lo que el optimismo inicial sugería.

El punto importante es este: no estamos hablando de un escenario futurista. Estos sistemas ya están corriendo. Hay clínicos que reciben alertas hoy.

La precisión que prometen y lo que esa precisión oculta

Cuando se publican estos modelos, suelen presentarse con métricas de discriminación —AUC, sensibilidad, especificidad— que a primera vista parecen impresionantes. Una AUC de 0,80 o superior, en un problema como la predicción suicida, suena prometedora. Y en términos estadísticos, lo es.

El problema no es la AUC. El problema es la tasa base.

El suicidio es, afortunadamente, un evento estadísticamente raro incluso en poblaciones clínicas de alto riesgo. Y cuando un evento es raro, un clasificador con buena AUC sigue generando muchos más falsos positivos que verdaderos positivos. Belsher y colaboradores (2019) hicieron una revisión sistemática y meta-análisis específicamente sobre esto, y la conclusión fue incómoda: aunque los modelos predictivos discriminan razonablemente bien, el valor predictivo positivo en términos absolutos es bajo, y eso limita seriamente su utilidad clínica.

La revisión más reciente, la de Spittal y colaboradores (2025), publicada en PLOS Medicine, analizó 53 estudios con más de 35 millones de registros. Las conclusiones son aún más severas: los algoritmos de machine learning no son sustancialmente mejores que las escalas tradicionales, y —este es el dato que conviene retener— más de la mitad de las personas clasificadas como de “bajo riesgo” acabaron suicidándose o autolesionándose. Solo alrededor del 6% de las clasificadas como “alto riesgo” murieron por suicidio. Menos del 20% reconsultaron por autolesión.

Nock y colaboradores (2022) compararon directamente predicción algorítmica sobre historiales, autoinforme del paciente y juicio clínico. Ninguna de las tres fuentes, por separado, alcanzó una precisión que pudiera considerarse clínicamente decisiva. En adolescentes, donde la tasa base de suicidio consumado es aún más baja, la revisión de Liu y colaboradores (2025) y el trabajo de Su y colaboradores (2023) muestran patrones similares: discriminación aceptable en validación interna, utilidad clínica incierta.

Vale la pena formularlo así: el problema no es que los algoritmos sean malos prediciendo. Es que predecir bien un evento raro produce, casi inevitablemente, listas de “alto riesgo” en las que la mayoría de las personas no van a hacer lo que el algoritmo predice. Y al mismo tiempo, la mayoría de quienes sí se van a suicidar no estaban en la lista de alto riesgo.

Si lo piensas un momento, esto no es un fallo técnico que se vaya a resolver con más datos. Es una propiedad matemática de predecir eventos raros.

La postura contraria, presentada con honestidad

Antes de seguir, conviene hacer justicia al argumento a favor. Quien defiende estos sistemas no es ingenuo. El argumento razonable es el siguiente: incluso un modelo con baja precisión absoluta puede ser útil si se usa para asignar recursos escasos. Si un sistema sanitario solo tiene capacidad para hacer seguimiento intensivo al 1% de su población, y el algoritmo identifica a un grupo donde el riesgo es, digamos, diez veces el de la población general, eso es información clínicamente accionable aunque la mayoría de ese 1% nunca llegue a intentar suicidarse.

Es un argumento serio. REACH VET, en cierto modo, opera con esa lógica: no pretende predecir quién se va a suicidar, pretende priorizar a quién contactar primero. Y los resultados de Dent y colaboradores (2025) sugieren que el contacto adicional puede tener valor clínico, independientemente de si la predicción específica era correcta.

El contraargumento, también honesto, es que esa lógica de “priorización” se desliza con facilidad hacia una lógica de “predicción”, y que los clínicos que reciben las alertas no las leen como recomendaciones de priorización, las leen como advertencias sobre pacientes concretos. El sistema sanitario está construido para responder a información sobre individuos, no a redistribuciones probabilísticas de recursos. Y ahí es donde aparece el problema que quiero nombrar.

El dilema: saber algo que no puedes confirmar

Volvamos al clínico del martes por la mañana. Tiene una alerta sobre un paciente concreto. ¿Qué tipo de información es esa?

No es un diagnóstico. No es el resultado de una entrevista. No es siquiera el resultado de aplicar una escala como la Columbia-Suicide Severity Rating Scale (Posner et al., 2011), que al menos tiene la transparencia de preguntar al paciente directamente sobre ideación, plan e intención. Es una probabilidad derivada de un modelo cuya lógica interna es, en la mayoría de los casos, opaca incluso para quien lo entrenó.

El clínico se enfrenta entonces a tres opciones, y ninguna es buena:

Opción uno: actuar como si la alerta fuera verdadera. Llamar al paciente, intensificar seguimiento, quizá derivar a urgencias si la conversación es ambigua. Si en la mayoría de los casos el algoritmo se equivoca —y los datos de Spittal et al. (2025) sugieren que se equivoca a menudo—, esto significa intervenir sobre personas que no necesitaban intervención, generando iatrogenia, erosionando alianza terapéutica y consumiendo recursos.

Opción dos: ignorar la alerta. Confiar en el juicio clínico previo. Si el algoritmo acierta en ese caso concreto, el clínico cargará con la pregunta de por qué no actuó cuando tenía la información delante. En términos médico-legales, una alerta documentada en el sistema y desatendida es un problema muy distinto a no haber tenido nunca la información.

Opción tres: hacer “algo intermedio”. Una nota en la historia. Un recordatorio para la siguiente sesión. Una vigilancia mental aumentada. Esto es lo que probablemente hace la mayoría de los clínicos, y es lo más humano. También es lo más difícil de evaluar, lo más difícil de protocolizar y lo que más se parece a no hacer nada con la apariencia de estar haciendo algo.

El problema profundo no es elegir entre estas opciones. El problema es que el sistema sanitario te ha entregado una información que no encaja en ninguna de las categorías epistémicas con las que la práctica clínica está organizada. No es síntoma, no es signo, no es queja del paciente, no es hallazgo exploratorio. Es una predicción no verificable sobre un futuro que, si actúas para evitarlo, ya no podrás saber si iba a ocurrir.

Una nota cultural breve

En Minority Report (Spielberg, 2002), el sistema precrime detiene a personas por delitos que aún no han cometido. El dilema dramático de la película es exactamente este: una vez detenido el sospechoso, ya no es posible saber si habría delinquido. La predicción se autodestruye en el momento en que se actúa sobre ella.

La situación clínica no es idéntica —nadie está deteniendo a nadie, y la intención es ayudar, no castigar—, pero hay un eco estructural que conviene reconocer. Cuando intervienes para prevenir un evento predicho por un sistema, pierdes la posibilidad de saber si el sistema acertó. Si el paciente no se suicida, puede ser porque el algoritmo se equivocó o porque tu intervención funcionó. No tienes forma de distinguirlo. Esto, que en la película es un giro narrativo, en la clínica es una condición estructural permanente.

Incertidumbre predictiva clínica: nombrar el fenómeno

Quiero proponer un nombre para este tipo específico de incertidumbre, porque creo que no se reduce a la incertidumbre habitual del trabajo clínico y merece ser pensado aparte.

Llamo incertidumbre predictiva clínica a la incertidumbre que aparece cuando un sistema —algorítmico, estadístico o de cualquier otra naturaleza— te informa sobre la probabilidad futura de un evento grave en un paciente concreto, en condiciones tales que: (a) no puedes verificar la predicción mediante la exploración clínica disponible, (b) no puedes ignorarla sin asumir responsabilidad por la omisión, y (c) cualquier intervención que realices sobre la base de esa predicción modifica el escenario de forma que la predicción ya no podrá ser confirmada ni refutada empíricamente.

Tres rasgos definen este fenómeno y lo hacen distinto de la incertidumbre clínica clásica.

Primero, es opaca. La incertidumbre clínica clásica viene acompañada de un razonamiento explorable: sabes por qué dudas. La incertidumbre predictiva clínica viene de un sistema cuya lógica interna no está disponible para tu razonamiento. No puedes preguntarle al algoritmo qué peso le dio a qué variable de una forma que cambie tu evaluación del paciente concreto.

Segundo, es asimétrica en sus consecuencias. Si te equivocas actuando, los costos son distribuidos: alianza terapéutica dañada, recursos consumidos, iatrogenia menor. Si te equivocas no actuando y el evento ocurre, los costos son catastróficos y concentrados, tanto para el paciente como para ti. Esta asimetría empuja sistemáticamente hacia la sobreactuación.

Tercero, es autodestructiva como información. En el momento en que intervienes, pierdes la posibilidad de aprender si la predicción era acertada. El sistema no puede mejorar con tu experiencia clínica porque tu experiencia clínica, al modificarse en respuesta a la alerta, deja de ser un dato limpio sobre el valor predictivo del sistema.

¿Por qué importa nombrar esto? Porque si lo confundimos con la incertidumbre clínica habitual, vamos a tratarlo con las herramientas de siempre —más entrevista, más escalas, más juicio clínico— y esas herramientas no están diseñadas para este tipo de incertidumbre. La entrevista no puede confirmar una predicción algorítmica sobre 30 días vista cuando el paciente, en este momento, no presenta indicadores clínicos. La escala de Columbia puede dar negativo y la alerta seguir activa. El juicio clínico se enfrenta a una información cuya validez no puede evaluar.

Una lectura desde la perspectiva del clínico, no del sistema

Aquí es donde la formación en aceptación tiene algo que aportar, aunque sea modestamente. Buena parte de la angustia clínica frente a estas alertas viene de un intento de resolver una incertidumbre que estructuralmente no se puede resolver. El clínico quiere saber si el paciente está en riesgo real. Y no puede saberlo. La alerta no se lo dice, la entrevista tampoco, el algoritmo menos.

No se trata de aceptar la incertidumbre como un gesto de resignación estoica frente a las alertas. Se trata de reconocer que la pregunta “¿cómo elimino esta incertidumbre?” es la pregunta equivocada, y que la pregunta correcta es “¿qué intervención clínica responsable es coherente con mis valores profesionales en presencia de esta incertidumbre irreducible?”.

Esto cambia la conversación. Deja de tratarse de acertar la predicción y empieza a tratarse de actuar con criterio bajo información parcial, que es lo que la clínica ha hecho siempre. La diferencia es que ahora el origen de la información parcial es un sistema externo que aparenta certeza estadística y que va a quedar registrado en la historia clínica del paciente.

Hacia un uso clínico responsable

No tengo una receta. Cualquiera que la ofrezca con seguridad probablemente no ha pensado el problema con suficiente cuidado. Pero hay algunas direcciones que parecen razonables.

Primero, sería sensato que estos sistemas no se desplegaran sin protocolos clínicos explícitos sobre qué hacer con la alerta. REACH VET, con todas sus limitaciones, al menos define una respuesta estándar: contacto proactivo y revisión del plan. Cuando una alerta llega a un clínico sin protocolo, la decisión queda enteramente sobre sus hombros, y el sistema sanitario externaliza el problema ético al individuo más vulnerable de la cadena.

Segundo, sería honesto que los sistemas comunicaran no solo la categoría de riesgo sino la calibración real: cuántas de las personas clasificadas como “alto riesgo” han presentado el evento en estudios de validación. Una alerta que dice “alto riesgo” sin contexto induce a leerla como si la probabilidad fuera muy alta. Una alerta que dice “este paciente está en un grupo donde aproximadamente el 6% presenta el evento en el periodo predicho” comunica algo más fiel a la realidad.

Tercero, sería razonable que los clínicos formados en estos sistemas tuvieran espacios donde discutir las alertas con colegas, no como excepción sino como práctica habitual. La incertidumbre predictiva clínica no debería procesarse en soledad.

Cuarto, y esto es más incómodo: vale la pena preguntarse si todas las alertas necesitan llegar al clínico. La decisión de a quién contactar primero puede tomarse a nivel organizacional sin transferir la información individual al profesional que ve al paciente, si esa información no va a cambiar su práctica de forma claramente beneficiosa. Saber algo que no puedes confirmar y sobre lo que no puedes intervenir sin consecuencias no es siempre mejor que no saberlo. Esta afirmación va contra la intuición de que más información es siempre mejor en clínica, pero la intuición se sostiene mal frente a este tipo concreto de información.

Hay precedentes institucionales relevantes. El NHS inglés ha cuestionado en su guía clínica reciente el uso de escalas de riesgo categóricas para suicidio, sobre la base de que no funcionan como herramientas de decisión clínica [VERIFICAR cita específica]. Es una postura discutible y discutida, pero indica que las dudas sobre la utilidad clínica real de la predicción categórica de riesgo suicida no son una preocupación marginal.

Cierre

El debate público sobre la IA en salud mental tiende a polarizarse entre el entusiasmo —“vamos a salvar vidas con algoritmos”— y el rechazo —“esto deshumaniza la clínica”—. Las dos posturas pierden el matiz importante. Estos sistemas pueden tener utilidad real en la priorización de recursos a escala poblacional y, al mismo tiempo, generar en el clínico individual un tipo de incertidumbre que la práctica clínica nunca había tenido que gestionar de esta forma.

La incertidumbre predictiva clínica no se resuelve con más datos ni con mejores modelos. Se gestiona reconociendo que es un fenómeno nuevo, que requiere pensamiento institucional, protocolos claros, transparencia en la comunicación del riesgo y, sobre todo, una honestidad profesional que admita lo que no sabemos y no podemos saber.

El clínico del martes por la mañana sigue ahí, mirando la pantalla. No hay una decisión correcta universal. Hay decisiones más responsables que otras, y casi todas pasan por no fingir que la alerta es lo que no es: una respuesta. Es una pregunta abierta, llegada en forma de número, sobre una persona concreta. Lo que hagas con ella te define más como clínico que la propia precisión del algoritmo.

Referencias

Belsher, B. E., Smolenski, D. J., Pruitt, L. D., Bush, N. E., Beech, E. H., Workman, D. E., … & Skopp, N. A. (2019). Prediction models for suicide attempts and deaths: A systematic review and meta-analysis. JAMA Psychiatry, 76(6), 642-651. https://doi.org/10.1001/jamapsychiatry.2019.0174

Dent, B. N., et al. (2025). The REACH VET program and mortality outcomes among veterans at high risk of suicide. JAMA Network Open, 8(5), e2519513. https://doi.org/10.1001/jamanetworkopen.2025.19513

Kessler, R. C., Warner, C. H., Ivany, C., Petukhova, M. V., Rose, S., Bromet, E. J., … & Ursano, R. J. (2015). Predicting suicides after psychiatric hospitalization in US Army soldiers. JAMA Psychiatry, 72(1), 49-57. https://doi.org/10.1001/jamapsychiatry.2014.1754

Landes, S. J., et al. (2024). Impact of implementation facilitation on the REACH VET clinical program for veterans at risk for suicide. Psychiatric Services, 75(9), 891-898. https://doi.org/10.1176/appi.ps.20230277

Liu, X., et al. (2025). Predictive performance of machine learning for suicide in adolescents: Systematic review and meta-analysis. Journal of Medical Internet Research, 27, e73052. https://doi.org/10.2196/73052

McCoy, T. H., Castro, V. M., Roberson, A. M., Snapper, L. A., & Perlis, R. H. (2016). Improving prediction of suicide and accidental death after discharge from general hospitals with natural language processing. JAMA Psychiatry, 73(10), 1064-1071. https://doi.org/10.1001/jamapsychiatry.2016.2172

Nock, M. K., et al. (2022). Prediction of suicide attempts using clinician assessment, patient self-report, and electronic health records. JAMA Network Open, 5(1), e2144373. https://doi.org/10.1001/jamanetworkopen.2021.44373

Posner, K., Brown, G. K., Stanley, B., Brent, D. A., Yershova, K. V., Oquendo, M. A., … & Mann, J. J. (2011). The Columbia-Suicide Severity Rating Scale: Initial validity and internal consistency findings from three multisite studies with adolescents and adults. American Journal of Psychiatry, 168(12), 1266-1277. https://doi.org/10.1176/appi.ajp.2011.10111704

Simon, G. E., et al. (2018). Predicting suicide attempts and suicide deaths following outpatient visits using electronic health records. American Journal of Psychiatry, 175(10), 951-960. https://doi.org/10.1176/appi.ajp.2018.17101167

Spittal, M. J., et al. (2025). Machine learning algorithms and their predictive accuracy for suicide and self-harm: Systematic review and meta-analysis. PLOS Medicine, 22(5), e1004581. https://doi.org/10.1371/journal.pmed.1004581

Su, C., et al. (2023). Machine learning-based prediction for self-harm and suicide attempts in adolescents. Psychiatry Research, 328, 115446. https://doi.org/10.1016/j.psychres.2023.115446

Walsh, C. G., Ribeiro, J. D., & Franklin, J. C. (2017). Predicting risk of suicide attempts over time through machine learning. Clinical Psychological Science, 5(3), 457-469. https://doi.org/10.1177/2167702617691560

NHS England. (2023). Staying safe from suicide: A guide for clinicians. [Documento institucional citado vía Infocop.]

¿Esto te toca de cerca?

Es de las cosas que se trabajan bien en consulta. Hago terapia online en español desde la Terapia de Aceptación y Compromiso, en procesos breves: la mayoría se resuelven en pocas sesiones.

Cómo trabajo → Reservar una sesión

El newsletter quincenal del polímata

Artículos en la intersección de psicología, código y aula. Sin separar los oficios.

Suscribirme gratis ← Todos los artículos

Seguir leyendo

psicologia ensayo 12 min

Autoeficacia, cincuenta años después: lo que queda en pie del artículo que cambió la psicología del cambio

Cincuenta años después del artículo seminal de Bandura sobre autoeficacia, una revisión crítica de lo que sigue en pie, lo que se ha actualizado y cómo las terapias contextuales heredaron sus preguntas mejor que sus respuestas.

psicologia 12 min

Productividad paliativa: cuando la IA te hace sentir productivo sin serlo

Pasas cuarenta minutos afinando un prompt para una tarea que, sin IA, habrías resuelto en diez. Y sin embargo, te sientes productivo. Te propongo un concepto para entender lo que está pasando: productividad paliativa.

psicologia 7 min

¿Por qué casi nunca soñamos con el móvil?

Circula por internet que nadie sueña con su teléfono. Es un mito —pero tiene algo de razón. Te explico por qué el cerebro dormido ignora las pantallas y elige otras imágenes.

act psicologia ensayo 16 min

ACT a medida: el fin de los protocolos manualizados y el auge de la intervención basada en procesos

Los protocolos manualizados de ACT permitieron validar la terapia empíricamente, pero el modelo basado en procesos (PMC/EEMM) apunta a una personalización real. Análisis crítico del pacto fáustico del protocolo y el riesgo del eclecticismo sin formación.