Ensayos
La psicología del centauro
Sobre la integración de dos naturalezas
Hay personas que co-trabajan con inteligencia artificial de manera genuinamente productiva. Y hay personas que creen que lo hacen. La diferencia no se ve en lo que producen —se ve en lo que son capaces de juzgar. Este ensayo examina esa distinción desde la psicología, la evidencia y tres mil años de mitología griega.
El centauro — por qué no es una metáfora nueva
Imagina que estás parado frente a dos espejos en ángulo. El primero te devuelve tu cara. El segundo, algo más: tu cara más la pantalla que tienes detrás, más la ventana que dejaste abierta, más el modelo de lenguaje que está generando la respuesta mientras tú ajustas la pregunta. No es un truco de feria. Es el retrato de cómo mucha gente trabaja hoy, y de cómo algunas —no todas— lo hacen bien.
El problema es que ese retrato no tiene nombre todavía. O tiene demasiados: “humano aumentado”, “usuario avanzado de IA”, “trabajador híbrido”. Términos que describen una práctica pero no capturan lo que ocurre por dentro. Lo que le pasa a la persona que está parada entre los dos espejos.
Hay uno que me parece más honesto. Un término que no viene de un consultor de Silicon Valley ni de un congreso de innovación, sino de un tablero de ajedrez, en León, en junio de 1998.
El tablero donde nació la palabra
Hay que contar esto con fechas, porque si no se convierte en leyenda.
En mayo de 1997, Garry Kaspárov —el mejor ajedrecista del mundo en ese momento, posiblemente el mejor que haya existido— perdió un match contra Deep Blue, el programa de IBM. No fue un resultado ajustado. Fue una derrota que le cambió algo por dentro. Lo que más lo perturbó, contó años después, no fue perder: fue jugar contra algo que no tenía nada que ganar ni que perder. Sin miedo, sin cansancio, sin ego. Solo cálculo.
Lo que hizo Kaspárov después es lo que importa. Podría haberse retirado, o haberse dedicado a demonizar la tecnología. En cambio, preguntó algo distinto: ¿qué pasa si jugamos juntos?
En junio de 1998, en León, organizó lo que llamó “Advanced Chess” —ajedrez avanzado—. El formato era sencillo en apariencia: dos grandes maestros asistidos por programas de ajedrez jugaban entre sí. Kaspárov con Fritz, Veselin Topalov con ChessBase. El resultado fue un empate: 3-3. Modesto, si lo piensas como espectáculo. Extraordinario, si lo piensas como experimento. Porque lo que estaba sucediendo en ese tablero no era que los humanos le ganaban a las máquinas ni que las máquinas se imponían a los humanos. Era otra cosa: la integración de dos tipos de inteligencia en tiempo real.
Ahí, en ese momento, alguien usó la palabra “centauro”. Mitad humano, mitad máquina. Un ser compuesto que no era ninguno de los dos por separado.
Quiero que te quede claro qué pasó en León —y qué no pasó. No fue “un centauro venciendo a grandes maestros en solitario”. Fueron dos grandes maestros asistidos jugando contra otros dos grandes maestros asistidos. El experimento medía si la colaboración funcionaba, no si destruía a los contrincantes. Eso vino después.
La ventana
Entre aproximadamente 2005 y 2008, el freestyle chess —el ajedrez libre, sin restricciones de formato— mostró algo que sí era dramático. En el torneo PAL/CSS de 2005, un equipo formado por dos aficionados y hardware ordinario venció a grandes maestros con supercomputadoras y a los motores solos. No fue un accidente: fue reproducible. Humano + máquina + buen proceso resultaba más poderoso que cualquiera de los tres componentes por separado.
Kaspárov articuló la lección en términos que valen la pena citar: el proceso importa. No basta con tener acceso a la máquina. La diferencia entre el equipo ganador y los demás no era el hardware ni el ELO de los jugadores: era cómo organizaban la colaboración. Cuándo confiaban en el motor y cuándo lo cuestionaban. Cuándo imponían juicio humano y cuándo se apartaban para dejar calcular.
Eso es la tesis del centauro: que en cierta franja de habilidad y proceso, la combinación supera a sus partes.
Ahora viene la parte incómoda, la que tengo que contarte si quiero que confíes en el resto del ensayo.
Esa ventaja se cerró.
Hacia 2013, los motores ya eran tan potentes que un humano interviniendo en sus cálculos los debilitaba más de lo que los mejoraba. Hoy, en ajedrez competitivo, la pregunta “¿puede un centauro vencer a Stockfish?” tiene una respuesta sencilla: no. El humano en ese contexto específico es ruido, no señal.
La era del centauro en el ajedrez fue real. Duró aproximadamente entre 2005 y 2013. Y se cerró.
Te cuento esto no para demoler la metáfora, sino para salvarla. Porque lo que el ajedrez mostró no fue que la combinación siempre gana: mostró que puede ganar bajo ciertas condiciones. Y esas condiciones —cuáles son, qué las produce, qué las destruye— son exactamente lo que este ensayo quiere examinar. Solo que trasladadas a un territorio donde los motores no son (todavía) tan superiores. Donde la ventana no se ha cerrado.
Un número y su honestidad
En 2025, Soldatova, Chigarkova e Ilyukhina publicaron un estudio con 1.841 participantes de entre 14 y 39 años sobre lo que llamaron “el centauro digital”¹. El 27,3% se identificaba como centauro digital en el momento de la encuesta. Un 41,3% aspiraba a serlo en la próxima década.
Esos números son reveladores. También requieren una lectura cuidadosa.
Lo que miden es autoidentificación y preferencia declarada, no conducta observada. El estudio no siguió a nadie durante meses para ver si realmente trabajaban de esa manera. Preguntó si se reconocían en esa descripción, y una proporción significativa dijo que sí. Los propios autores son transparentes sobre esto: es preferencia, no performance.
Esto importa. No porque invalide el estudio —no lo invalida— sino porque cambia qué tipo de pregunta podemos hacer a partir de él. No podemos decir “1 de cada 4 personas trabaja hoy en modo centauro”. Podemos decir que hay una fracción creciente de personas que se reconoce en esa forma de entender el trabajo, y que aspira a habitarla. Y eso ya es suficiente para que la pregunta sea urgente.
¿Qué hace que alguien adopte esa identidad?
Lo que predice la adopción —y lo que no
El estudio de Soldatova y colegas también midió predictores. ¿Qué caracteriza a quienes se identifican como centauros digitales? ¿Es un rasgo de personalidad? ¿Una habilidad técnica? ¿Una forma de atención?
Acá es donde el ensayo tiene que ser preciso, porque lo fácil sería contar una historia limpia —“resulta que no importa lo técnico, lo que importa es lo psicológico”— y esa historia sería falsa.
El predictor más fuerte de la identidad de centauro fue la competencia digital. La habilidad técnica encabezó los predictores.
Detrás aparecían dos predictores psicológicos. El más fuerte de los dos era lo que la escala MAAS[a] mide como atención plena disposicional —atención y conciencia del momento presente—. Nada más, nada menos: no una capacidad cognitiva sofisticada ni una habilidad ejecutiva elaborada, sino la tendencia a estar presente en lo que haces mientras lo haces. Detrás venía la inteligencia emocional, sobre todo la intrapersonal: la capacidad de reconocer y manejar los propios estados internos. Dos rasgos que no tienen nada que ver con saber programar y todo que ver con cómo te relacionas contigo mismo mientras trabajas.
Para que se entienda. La competencia digital es saber qué herramienta existe, cómo se le pide, qué puede hacer y qué no. La atención al presente es otra cosa completamente distinta: es estar de verdad metido en lo que tienes delante —leer la respuesta de la máquina palabra por palabra mientras aparece, registrar lo que dice en lugar de dejarla pasar como ruido de fondo, seguir habitando la tarea en vez de ausentarte de ella—. Una mira hacia la máquina. La otra mira hacia ti.
Pero hay una matización que no puedes ignorar: cuando los investigadores controlaron estadísticamente las actitudes hacia la tecnología —cuánto le atrae a alguien lo digital, cuánto confía en ello—, la atención al presente perdió significación.[b] No desapareció dramáticamente del mapa, pero se debilitó hasta el punto de no sobrevivir el ajuste.
Déjame ser preciso, porque acá la tentación de redondear es fuerte. Sería cómodo concluir que lo técnico se desinfla y lo psicológico queda en pie —una historia bonita, sobre todo para un psicólogo que escribe sobre esto—. Pero no es lo que el estudio sostiene. Lo que sostiene es más áspero y más modesto: la competencia digital fue el predictor más fuerte, y la atención al presente perdió significación al controlar por las actitudes hacia la tecnología. Eso, y nada más que eso, es lo que la fuente permite afirmar. No que lo técnico “gane” ni que lo psicológico “pierda” en general: solo esos dos hechos, sueltos, sin la moraleja cómoda que pegaría tan bien. Todo lo demás es conjetura mía. Y cuando conjeture, te lo voy a decir.
La pregunta que me queda, y que no aparece en el paper, es la siguiente: ¿predecir quién adopta la identidad es lo mismo que predecir quién la habita bien?
La costura del ensayo
No es lo mismo identificarse como centauro que sobrevivir al serlo.
Adoptas la identidad cuando reconoces que trabajas con IA de manera integrada, cuando sientes que esa combinación define algo de cómo eres. Pero habitarla bien es otra cosa. Implica sostener el proceso cuando la máquina da una respuesta que suena bien pero que no termina de convencerte. Implica saber cuándo apartarte y cuándo ceder. Implica mantener intacto tu juicio cuando el volumen de lo que la IA puede generar haría más cómodo no tener juicio propio.
Piénsalo así. Dos personas abren la misma herramienta y le dan el mismo encargo: redacta este correo difícil, resume este informe, propón una estructura. A los dos minutos las dos tienen un texto en pantalla. Pero una lo lee y algo no le cierra —reconoce dónde la máquina acertó, dónde se fue por las ramas, qué frase suena a formulario y hay que tirar a la basura—. La otra lo lee, asiente y lo manda. Las dos adoptaron la identidad de centauro. Solo una la está habitando. Y desde afuera, mirando la velocidad y el volumen, las dos parecen exactamente iguales. Esa es justamente la trampa: que la diferencia no se ve en lo que produces, sino en lo que eres capaz de juzgar.
El estudio de Soldatova y colegas midió la primera cosa: quién adopta la identidad. Y esa es una pregunta legítima y valiosa. Pero el ensayo que tienes en manos quiere preguntar la segunda.
Acá es donde tengo que ser claro sobre lo que ofrezco. No es un hallazgo científico. Es una apuesta.
Apuesto a que lo que te ayuda a habitar bien el centauro no es lo mismo que lo que predice que lo adoptes. Para adoptarlo —para reconocerte en esa forma de trabajar— lo que más pesa, ya lo vimos, es la habilidad técnica. Pero lo que apuesto que te protege una vez dentro es otra cosa: el perfil psicológico. La inteligencia emocional, la atención al presente. Justo los rasgos que para la adopción quedaban en segundo plano, y que hasta se desdibujaban cuando entraba en juego cuánto te atrae la tecnología. Mi apuesta es que esos rasgos, secundarios para entrar, son decisivos para sostenerse: el escudo contra las amenazas que aparecen después de cruzar el umbral —la dilución de la voz, la dependencia pasiva, la ilusión de comprender sin comprender de verdad—.
Fíjate que no es lo técnico lo que pongo en el escudo. Lo técnico te abre la puerta; mi apuesta es que lo que te sostiene adentro es lo otro.
Pero que quede claro: nadie lo ha medido. Es mi hipótesis, no un hallazgo. El estudio midió quién se identifica como centauro, no quién resiste sus costos. Que el perfil psicológico te proteja una vez dentro es una apuesta mía, y tratarla como otra cosa sería deshonesto.
Esa distinción —predecir la adopción versus proteger contra las amenazas— es el eje de lo que viene.
El que lo hace bien
En casi todos los relatos, los centauros son la criatura que no consigue gobernarse. En la boda de Pirítoo se emborrachan e intentan llevarse a las mujeres por la fuerza, y el festejo se deshace en matanza. La mitad animal devorando a la mitad humana —una y otra vez, en cada versión del mito.
Pero hay una excepción.
Quirón no se parece a los demás. Lo que lo distingue no es su origen, sino lo que hace con su naturaleza doble: no la niega ni intenta ser solo humano o solo animal. La habita. Y desde esa integración, enseña —es el maestro de Aquiles—.
Quirón no es un centauro que venza a los humanos. Es un centauro que aprende a integrar lo que es.
Lo que me interesa de esa imagen no es el detalle mitológico sino la estructura que ilumina. Hay centauros que se fragmentan bajo su propia dualidad. Y hay centauros que la integran hasta volverla coherente. La diferencia no está en tener la naturaleza doble —todos la tienen—. Está en qué hacen con ella.
Cuando pienso en las personas que trabajan hoy con inteligencia artificial de manera genuinamente productiva —no los que la usan como calculadora glorificada, no los que la temen y la evitan, sino los que construyen algo real en la combinación— me parece que estoy mirando una versión moderna de esa misma distinción. Algunos la habitan. Otros se fragmentan en ella.
La pregunta es qué separa a unos de otros.
Una advertencia antes de seguir
Todo lo que sigue en este ensayo va a explorar esa pregunta desde varios ángulos: la identidad, la atención, el proceso, las amenazas que aparecen después de la adopción. Pero ninguno de esos apartados va a poder ofrecerte un algoritmo. La psicología del centauro no es una lista de pasos.
Lo que sí puede ofrecer es un mapa de las condiciones. Y los mapas, cuando son honestos sobre lo que no saben, valen más que las certezas que se construyeron apuradas.
La era del centauro en el ajedrez duró unos ocho años y se cerró. No porque la idea fuera mala, sino porque el contexto cambió hasta que la combinación dejó de ser ventajosa. En el trabajo cognitivo, en la escritura, en la toma de decisiones complejas, esa ventana no se ha cerrado todavía. Pero sería ingenuo asumir que permanece abierta por defecto, para todos, sin condiciones.
Quién la aprovecha bien, y por qué, es lo que me propongo examinar.
Kaspárov vio algo en León en 1998 que tardamos veinte años en empezar a entender. Quirón lleva más de dos mil años siendo una imagen de esa misma intuición. El centauro no es una metáfora nueva. Es una pregunta vieja sobre cómo integrar dos naturalezas sin que ninguna destruya a la otra.
Y esa pregunta, ahora mismo, tiene más urgencia que nunca.
Notas
[a] MAAS son las siglas de Mindful Attention Awareness Scale: un cuestionario que mide cuánta atención y conciencia presta una persona a lo que hace mientras lo hace. No mide una capacidad extraordinaria, sino la tendencia cotidiana a estar presente en lugar de funcionar en piloto automático.
[b] «Controlar estadísticamente» una variable consiste en descontar su efecto para ver qué queda del resto. Cuando un predictor «pierde significación» al hacerlo, quiere decir que su influencia aparente se explicaba, en buena parte, por esa otra variable. Aquí: el peso de la atención al presente se diluía una vez que se tenía en cuenta cuánto le atrae a la persona la tecnología.
Referencias
¹ Soldatova, G. U., Chigarkova, S. V., & Ilyukhina, S. N. (2025). The Digital Centaur as a Type of Technologically Augmented Human in the AI Era: Personal and Digital Predictors. Behavioral Sciences, 15(11), 1487. https://doi.org/10.3390/bs15111487
Nota histórica: Los datos sobre el Advanced Chess de León (1998), el freestyle chess y el torneo PAL/CSS (2005) provienen de fuentes históricas documentadas sobre el ajedrez avanzado, incluyendo los escritos del propio Kaspárov (“The Chess Master and the Computer”, The New York Review of Books, 2010) y material de referencia sobre la historia del freestyle chess.
Contra el mito de la productividad — emergencia, no multiplicación
Hay una promesa que circula con mucha confianza en los lugares donde se habla de inteligencia artificial y trabajo: la del x10. Trabajas con IA y rindes diez veces más. O cinco. O, en las versiones más prudentes, “significativamente más”. La promesa no salió de la nada —salió de algún lugar real—. Programadores entusiastas contando en las redes cómo la IA les escribía el código de rutina. Consultores midiendo cuánto tardaban en armar una presentación antes y después de ChatGPT. El boca a boca del asombro temprano, que siempre es genuino aunque no siempre sea representativo.
La narrativa del multiplicador tiene un atractivo particular. Es simple, es optimista, y encaja perfecto con la imagen del centauro que presenté en el apartado anterior: si te acoplas con una herramienta de ese calibre, la potencia debería ser la suma —o el producto— de las dos partes. La lógica parece de sentido común.
El problema es que el sentido común, acá, se equivoca. Y hay evidencia sistemática que lo dice con bastante claridad. Ojo: esto no significa que la IA rinda mal ni que no sirva —te lo voy a mostrar con cuidado, porque la honestidad tiene que ir en los dos sentidos—. Significa que el efecto no es uniforme, no es multiplicativo como regla, y que la trampa psicológica de creer que sí lo es puede salir más cara que la pérdida de rendimiento misma.
La viga que no quieres ignorar
En 2024, un equipo del MIT publicó en Nature Human Behaviour el meta-análisis[a] más completo que existe sobre el rendimiento de las combinaciones humano-IA.¹ Vaccaro, Almaatouq y Malone revisaron 106 estudios, con 370 tamaños de efecto, sobre trabajos publicados entre enero de 2020 y junio de 2023. La pregunta que se hicieron fue la más exigente posible: ¿la combinación humano-IA supera al mejor de los dos por separado?
No al promedio de los dos. Al mejor. Si la IA sola rinde a un nivel X y el humano solo a un nivel Y, ¿el equipo llega a más que el mayor de los dos?
El resultado, en promedio: Hedges’ g = −0,23[b] (IC 95 %: −0,39 a −0,07).¹ Negativo. La combinación, en promedio, rindió peor que el mejor de los dos agentes por separado.
Esto merece un segundo de silencio.
No es que la combinación ganara menos de lo esperado. Es que perdió. Es una pérdida neta de sinergia frente al mejor agente individual —que es la métrica más honesta y, también, la más incómoda—.
¿Significa que la IA “rinde mal”? No. Y acá es donde hay que leer despacio, porque ese sería el malentendido más fácil de cometer. El dato que importa tanto como el promedio negativo es este: la heterogeneidad entre estudios fue I² = 97,7 %.[c]¹ Altísima. Quiere decir que el promedio esconde una dispersión enorme —hay configuraciones donde la combinación gana, y hay configuraciones donde pierde—. El x10 uniforme se cae; pero no se reemplaza por “siempre pierde”. Se reemplaza por algo más interesante: depende.
El moderador más fuerte del meta-análisis lo explica bien. Con un efecto contundente (F = 81,79; p < 0,001), la combinación gana cuando el humano ya era mejor que la IA en esa tarea, y pierde cuando la IA ya era mejor que el humano.¹ El punto de partida manda. Si traes al equipo más que tu contraparte artificial, el acoplamiento puede sumar. Si la IA ya te supera de entrada en esa tarea específica, la combinación tiende a restar.
Un matiz que no quiero que pase desapercibido, porque es justo donde se cuela el error fácil: esto no dice que el resultado dependa de cómo colaboras —del método, del diseño, del estilo de interacción—. Para ese claim no hay ancla dura. Lo que el dato mide es quién partía mejor en capacidad relativa. Es una distinción fina y la voy a respetar a lo largo del apartado: una cosa es “depende de quién era mejor de entrada” (esto está medido) y otra muy distinta es “depende de tu técnica para colaborar” (esto suena bien, pero no está demostrado).
El steelman: las ganancias reales existen
Sería deshonesto no decirlo: hay estudios que muestran ganancias grandes y reales.
El más limpio es el de Noy y Zhang (2023), publicado en Science: un experimento controlado y preregistrado[d] con 444 profesionales.² En tareas de redacción profesional de nivel medio, el tiempo bajó 0,8 desviaciones estándar[e] y la calidad subió 0,4.² Eso no es ruido: es un efecto claro y robusto.
Ahora, fíjate qué hace ese dato con la tesis. No la refuta —la confirma—. Las ganancias son reales y son específicas de un dominio. Redacción profesional de nivel medio no es programación, no es análisis legal, no es diagnóstico clínico. La especificidad del resultado es la evidencia de la no-uniformidad, no su excepción.
Y hay un territorio donde el ruido del x10 suena más fuerte que en ningún otro —el de la programación— que merece una mirada honesta. Los números grandes y positivos que circulan sobre productividad en código suelen venir de autoinforme, no de rendimiento medido. Un estudio interno de Microsoft, conocido como “Dear Diary”, encontró que el 84 % de los participantes reportaba cambios positivos en sus prácticas con IA. Pero el brazo cuantitativo del mismo estudio no halló efecto significativo ni en código producido, ni en pull requests completados, ni en tiempos de desarrollo.
Lo que la gente siente que produjo y lo que efectivamente produjo no son la misma cosa. Esa grieta entre percepción y output va a volver enseguida. Y cuando vuelva, va a doler.
La trampa: creerse multiplicado mientras te frenan
Acá está, para mí, el corazón del apartado. Y el regalo más valioso que la evidencia le hace a un ensayo de psicología.
En 2025, METR publicó un experimento preregistrado —todavía en preprint, no revisado por pares, lo cual importa y por eso lo aclaro— con 16 desarrolladores de software experimentados.⁴ No novatos peleándose con una herramienta nueva. Programadores con alrededor de cinco años trabajando en sus propios repositorios, código que conocían a fondo. Les asignaron al azar 246 tareas reales de sus propios proyectos. Usaron IA de frontera de comienzos de 2025 —Cursor con Claude 3.5 y 3.7—.
El resultado: fueron un 19 % más lentos con la IA que sin ella.⁴
Y ahora la parte que da frío. Antes de empezar, habían pronosticado que la IA los aceleraría un 24 %. Después de terminar el experimento, seguían creyendo que los había acelerado un 20 %. Cuando en realidad los había frenado un 19 %.⁴
Para en eso un momento. La brecha llamativa no es entre la expectativa previa y el resultado —eso sería esperable, todos sobreestimamos antes de probar—. La brecha es entre el resultado real y la percepción posterior. Después de haberlo vivido, en carne propia, seguían creyendo lo contrario de lo que había pasado.
El caveat de alcance es obligatorio, y lo pongo acá, donde introduzco el dato, no al final, donde perdería fuerza: son 16 personas, en un nicho muy específico —desarrolladores expertos sobre código que ya dominaban—. Es un contexto particular, no una muestra del trabajo humano-IA en general. El dato interno es fuerte; su generalización no está demostrada.
Dicho eso, mi lectura —y la marco como lectura mía, no como lo que prueba un estudio de 16 personas— es que el mecanismo que revela es más ancho que su muestra. Creer que te estás multiplicando mientras el reloj corre en sentido contrario no es un error privativo de los programadores expertos. Es la trampa del multiplicador: la narrativa del x10 se instala en la percepción antes de que lleguen los resultados, y después filtra lo que crees que está pasando. El experimento lo muestra en este nicho con una nitidez incómoda. Yo apuesto a que el patrón es más general —pero eso es mi conjetura, no el dato, y prefiero que sepas distinguir una cosa de la otra—.
¿Y si el problema eran los modelos viejos?
La objeción honesta a toda esta evidencia es temporal: el meta-análisis de Vaccaro cubre hasta junio de 2023.¹ GPT-4 maduro, Claude 3, los modelos de razonamiento, la era de los agentes —todo eso llegó después—. ¿No rescata la multiplicación la pura mejora de capacidad de los modelos nuevos?
La evidencia posterior a 2023 dice que no. O, más preciso: la no-uniformidad se reproduce también en la era de la frontera.
Un meta-análisis clínico de 2026 (Wang y colegas, en npj Digital Medicine, con modelos de frontera incluido DeepSeek-R1) encontró beneficios “sugestivos, pero muy inciertos y dependientes del contexto”, con intervalos de predicción que cruzan el cero.⁵ Nada de sinergia uniforme: lo mismo de antes, con los modelos de última generación.
Ju y Aral (2025, experimento de campo con GPT-4o, unos 2.234 participantes) describieron un perfil que ellos mismos llaman “dentado” (jagged): la calidad del texto mejoró, la de las imágenes empeoró, y el volumen de trabajo subió un 50 % conviviendo con ese deterioro de calidad.⁶ No-uniformidad directa, con modelo de frontera.
Göndöcs, Horváth y Dörfler (2025), en un meta-análisis cualitativo de 206 estudios, concluyen que el rendimiento híbrido no es aditivo, y que “una colaboración efectiva exige más que una IA de alto rendimiento”.⁷
Hay un dato que pide honestidad adicional, y no lo voy a esconder: con IA de frontera sí hay ganancias reales frente a no usar IA en ciertos dominios. Un experimento de campo en Procter & Gamble encontró que individuos con IA igualaban la calidad de equipos de dos personas sin IA —eso es notable—.* Pero atención: eso no es lo mismo que la métrica dura de Vaccaro. Una cosa es “con IA rindes más que sin IA” (cierto, y fácil de aceptar). Otra muy distinta es “la combinación supera al mejor de los dos por separado” (el umbral exigente). Ese segundo umbral ningún estudio de frontera lo ha vuelto a cruzar en positivo.
El mensaje honesto y exacto cabe en una línea: más capacidad no es sinergia automática.
Y una asimetría de evidencia que tampoco quiero ocultar: la no-uniformidad estructural se apoya en algo sólido —Vaccaro, que es amplio y preregistrado—. La confirmación en la era de frontera es convergente y plausible, pero descansa en muestras más chicas, dominios sueltos, algún preprint. Alcanza para no descartar el patrón. No alcanza para declararlo cerrado. Te lo digo con ese peso, ni más ni menos.
”Emergencia, no multiplicación” — una imagen mía, no un hallazgo
Llegamos al nombre que le quiero poner al fenómeno. Y quiero ser explícito antes de usarlo: “emergencia, no multiplicación” es una glosa mía, no el hallazgo de ninguna fuente. Lo subrayo porque es importante que sepas de qué tipo de cosa se trata.
Lo que propongo con esa imagen es esto: lo que surge del acoplamiento humano-IA es algo propio del sistema. No es la suma amplificada de las partes, ni su promedio —es una dinámica nueva, que puede ir en cualquier dirección según el contexto, y que en promedio tiende a interferir más que a potenciar cuando se la mide contra la vara más alta—.
Hay un matiz en la palabra “emergencia” que necesito blindar contra un malentendido fácil. En filosofía y en los sistemas complejos, “emergencia” suele cargar una connotación de novedad valiosa: lo que emerge es algo bueno que antes no existía. No la uso en ese sentido. La uso en el más austero: del acoplamiento surge algo de otro tipo que sus partes por separado. El sistema acoplado se comporta de un modo que no puedes predecir sumando los componentes. Y ese modo puede ser mejor o peor —los datos dicen que, en promedio, es peor frente al mejor agente individual—. “Emergencia” describe el carácter del resultado, no su signo. Que quede grabado: emerger no es mejorar.
¿Por qué “glosa” y no “hallazgo”? Porque la propia literatura formal me dice por qué no puede ser un hallazgo. Hemmer y colegas (2025), en el European Journal of Information Systems, sistematizaron el concepto de complementariedad en estos equipos —y lo definen de forma operativa: hay complementariedad cuando el equipo supera a ambos agentes por separado—.³ Esa complementariedad real, dicen, “rara vez se observa”.³ Es decir: la ciencia mide “¿el equipo rinde más?”, no “¿emerge algo de otro tipo?”. Mi imagen de “emergencia de tipo” no tiene suelo empírico propio; por eso la marco honestamente como lo que es, una imagen del autor. Hemmer me hace el favor de dejar el hueco a la vista.
Lo que sí tiene suelo: que el resultado no es aditivo, no es uniforme y no es predecible a partir de las partes. Lo que no lo tiene: que a eso convenga llamarlo “emergencia” en algún sentido técnico preciso. La imagen sirve para orientarte. No para probar nada. Y cuando una imagen mía haga ese trabajo —orientar, no probar— te lo voy a decir cada vez.
Prometeo y el fuego que no te multiplica
Prometeo roba el fuego —la téchne, el saber técnico— y se lo entrega a los humanos. Un acto de generosidad radical, con un costo radical: las cadenas, el águila, el hígado que vuelve a crecer cada noche para que el suplicio recomience al amanecer, siempre idéntico.
Pero la imagen que me interesa no es el castigo. Es la ambivalencia del don.
El fuego que Prometeo entrega no multiplica automáticamente a quien lo recibe. No vuelve más fuerte al que no sabe sostenerlo, ni garantiza nada por el mero hecho de ser entregado. Su valor no está en la posesión —está en la relación entre quien lo tiene y lo que hace con él, en qué terreno, con qué capacidad previa—. El dato de Vaccaro dice algo parecido sin mitología: la combinación gana cuando el humano ya llevaba ventaja; pierde cuando la ventaja ya era de la IA.¹ El don es real. El don es ambivalente. El don no es la multiplicación.
Una advertencia antes de cerrar con esta imagen, porque es fácil torcerla: Prometeo no está acá para culpar al usuario. No estoy diciendo que la pérdida de rendimiento venga de “usar mal” la herramienta o de no saber “aprovecharla”. Eso sería traicionar el dato. Vaccaro mide capacidad relativa y tipo de tarea —no técnica de colaboración, no actitud, no destreza con los prompts—. La ambivalencia prometeica es estructural, no moral. El fuego calienta o quema según condiciones que no son solo responsabilidad de quien lo recibe.
Lo que el mito ilumina es otra cosa: la tentación de creer que tener el fuego ya es la victoria. El centauro que se cree x10 por el solo hecho del acoplamiento —antes de preguntarse en qué terreno está parado y qué trae él de entrada— ese centauro ya tiene un pie en la trampa que METR midió en sus dieciséis programadores.
Creerse multiplicado es, muchas veces, el primer paso para frenarse sin darse cuenta.
Notas
[a] Un meta-análisis reúne y combina estadísticamente los resultados de muchos estudios para estimar un efecto promedio más fiable que el de cualquiera por separado.
[b] Un tamaño de efecto (aquí, Hedges’ g) expresa cuán grande es una diferencia en una escala comparable entre estudios: cerca de 0 es trivial, y el signo negativo indica que el efecto va en contra —la combinación rinde por debajo del mejor de los dos—. El paréntesis es el intervalo de confianza del 95 %, el rango donde con alta probabilidad se halla el valor real; como no llega a tocar el 0, el resultado se considera estadísticamente fiable.
[c] I² mide qué parte de las diferencias entre estudios responde a variación real y no al azar. Un 97,7 % es altísimo: los estudios no están midiendo todos lo mismo, hay una dispersión enorme detrás de ese promedio.
[d] Preregistrar un estudio consiste en publicar las hipótesis y el plan de análisis ANTES de recoger los datos, de modo que los autores no puedan amoldar las reglas a los resultados una vez vistos. Es un sello de credibilidad metodológica.
[e] Una desviación estándar es una unidad que mide cuánto se aparta un valor de su promedio; permite comparar efectos medidos en escalas distintas. Un cambio de 0,8 desviaciones es grande.
Referencias
-
Vaccaro, M., Almaatouq, A., & Malone, T. (2024). When combinations of humans and AI are useful: A systematic review and meta-analysis. Nature Human Behaviour, 8(12), 2293-2303. https://doi.org/10.1038/s41562-024-02024-1
-
Noy, S., & Zhang, W. (2023). Experimental evidence on the productivity effects of generative artificial intelligence. Science, 381(6654), 187-192. https://doi.org/10.1126/science.adh2586
-
Hemmer, P., Schemmer, M., Kühl, N., Vössing, M., & Satzger, G. (2025). Complementarity in human-AI collaboration: concept, sources, and evidence. European Journal of Information Systems, 34(6), 979-1002. https://doi.org/10.1080/0960085X.2025.2475962
-
Becker, J., Rush, N., Barnes, E., & Rein, D. (2025). Measuring the impact of early-2025 AI on experienced open-source developer productivity [Preprint]. arXiv:2507.09089.
-
Wang, G., et al. (2026). Human–large language model collaboration in clinical medicine: a systematic review and meta-analysis. npj Digital Medicine, 9(1). https://doi.org/10.1038/s41746-026-02382-2
-
Ju, H., & Aral, S. (2025). Collaborating with AI agents: Field experiments on teamwork, productivity, and performance [Preprint]. arXiv:2503.18238.
-
Göndöcs, D., Horváth, S., & Dörfler, V. (2025). Uncovering the dynamics of human-AI hybrid performance: A qualitative meta-analysis of empirical studies. International Journal of Human-Computer Studies, 205, 103622. https://doi.org/10.1016/j.ijhcs.2025.103622
Nota: El dato de Procter & Gamble (individuos con IA igualando a equipos de dos personas sin IA) proviene de Dell’Acqua, F., et al. (2025), working paper w33641 de la NBER —documento de trabajo aún no revisado por pares, citado en prosa por ese motivo—. No debe confundirse con el estudio de campo de BCG del mismo autor, que se aborda en un apartado posterior.
La crisis de agencia y la identidad híbrida
Hay una pregunta que aparece tarde, cuando ya llevas un rato co-trabajando con IA. No te la haces al principio —al principio estás ocupado descubriendo lo que la herramienta puede hacer, calibrando límites, encontrando el flujo—. Pero en algún momento, revisando un texto que “armaste”, o tomando una decisión que “pensaste”, la pregunta llega sola: ¿esto lo pensé yo, o me lo sugirió la máquina?
No es una pregunta filosófica de salón. Es algo que afecta cómo te sientes respecto de tu trabajo, cómo defiendes tus ideas, cómo te explicas a ti mismo en qué eres bueno. Y si los apartados anteriores miraban hacia afuera —qué produce el centauro, si el rendimiento es lo que parece—, este mira hacia adentro. Qué le pasa al sujeto. Qué se altera en la persona que co-trabaja.
Cambian varias cosas, pero no todas con la misma intensidad ni en la misma dirección. Antes de entrar en ellas, necesito contarte qué decide cuál de esas alteraciones te va a pegar, y en qué forma.
La clave: no es la IA, es el modo en que la usas
En 2026, Wenting He publicó un estudio con 162 músicos co-creando con IA.¹ El hallazgo central: a medida que la IA asumía más del proceso —más automatización, menos decisión del músico—, el sentido de agencia caía, y el sentido de propiedad sobre el resultado también. Y el efecto era más pronunciado en los músicos más expertos. No en los principiantes, que quizás no tenían tanta propiedad que perder. En los que ya sabían bien qué era suyo.
Ese mismo año, Lee, Yin, Jia y Wakslak publicaron un experimento preregistrado con 269 trabajadores de oficina sobre escritura ocupacional.² El diseño distinguía dos formas de usar la IA: modo pasivo —copy-paste del output tal cual— y modo activo —el trabajador redactaba primero, y después usaba la IA para refinar—. El resultado fue limpio: el modo pasivo redujo la autoeficacia, el sentido de propiedad y el significado percibido del trabajo. El modo activo preservó esas tres cosas. No parcialmente: las preservó de manera indistinguible del trabajo hecho a mano, sin IA.
Esta es la viga maestra del apartado. Y antes de seguir, quiero ser preciso sobre qué tipo de viga es.
Lo que He y Lee midieron es una conducta: cómo usas la IA en el momento de usarla. Eso es empírico, verificado, y es el ancla dura de este apartado. Pero al comienzo del ensayo aposté otra cosa: que el perfil psicológico —la inteligencia emocional, la atención al presente— es lo que te inclina hacia el modo activo. Que ese perfil te protege de las alteraciones que vienen ahora. Y esa apuesta sigue siendo apuesta, no hallazgo. Usar la IA activamente es algo que haces; que lo hagas porque eres quien eres —por rasgos estables de tu psicología— es lo que yo conjeturo. Lo conjeturo con convicción, pero sin medición. Te lo digo acá porque todo lo que sigue depende de entender la diferencia entre una conducta que se midió y un rasgo que aposté.
La tesis del apartado no es “la IA no te cambia nada”. Es que el cambio es condicional: depende de cómo entras a la interacción. El modo pasivo —aceptar el output, copy-paste, abdicar de la decisión— activa las alteraciones. El modo activo —decidir primero, usar la IA para refinar lo tuyo— las amortigua, o directamente las neutraliza.
Esa es la estructura. Ahora, las caras de lo que se altera.
La primera cara: la agencia que fluctúa
La agencia —la experiencia de ser el autor de tus propios actos y resultados— no es un interruptor encendido o apagado. Es dinámica. Se puede debilitar sin que te des cuenta de que se está debilitando.
Acá tengo que ser honesto sobre algo, porque es fácil dárselas de más preciso de lo que la ciencia permite. Cuando hablo de la agencia como si tuviera cuatro caras nítidas —la autoeficacia creativa, el sentido de control, la propiedad del resultado, la autonomía—, estoy sintetizando yo. El instrumento más riguroso que existe para medir el sentido de agencia, el SoAS[a] de Tapal y colegas (2017), la mide en dos dimensiones, no cuatro.³ Lo que el estudio de He y el de Lee miden —sentido de agencia, propiedad, autoeficacia— son facetas de un mismo fenómeno, no un constructo único y validado en cuatro partes. La fluctuación es real y está medida. El desglose prolijo en cuatro es mío.
Lo que sí está medido sin glosa: en el modo pasivo, la experiencia de autoría cae. No porque hayas hecho menos —en pantalla, el output puede ser idéntico o mejor— sino porque lo que sientes es que no lo hiciste tú. Y esa brecha entre lo producido y la vivencia de haberlo producido tiene consecuencias: se reduce el compromiso con el resultado, defiendes menos tus ideas, te vuelves más permeable a que la IA te reencuadre sin que protestes.
La viñeta es tan sencilla como incómoda, y la pongo en una sola persona a propósito: no es cuestión de quién eres, sino de por dónde entras. Alguien tiene dos informes que entregar el mismo día. El primero lo arranca él: tira sus ideas en sucio, desordenadas, y después le pide a la IA que las ordene y pula. El segundo lo resuelve al revés: le describe el problema a la máquina y manda el output con un par de retoques. En pantalla quedan parecidos —misma calidad, misma prolijidad—. Pero del lado de adentro no se sienten igual. El primero lo puede defender párrafo por párrafo: sabe por qué va ese orden, qué tocó la IA y por qué lo dejó. Del segundo no sabría bien qué señalar como propio; si le preguntas si está orgulloso, duda. Misma persona, misma herramienta, mismo día. Lo único que cambió fue por dónde entró.
El trabajo es comparable. El dueño, no.
La segunda cara: la identidad profesional amenazada
Cuando la IA hace bien cosas que antes te definían como experto, ocurre algo más profundo que “podrían reemplazarme”. Ocurre una amenaza a la identidad: una sacudida en qué crees que eres, no solo en si vas a conservar el puesto.
Ackerhans y colegas publicaron en 2025 un estudio con 292 participantes del ámbito de la salud.⁴ La pregunta era contraintuitiva: ¿qué pasa si la IA explica cómo llegó a sus recomendaciones —más transparencia, más explicabilidad— en vez de soltar el resultado pelado? La lógica diría que entender el razonamiento de la máquina reduce el miedo. El estudio encontró lo contrario: más explicabilidad produjo más amenaza identitaria, no menos. La interpretación de los autores es que ver el razonamiento de la IA hace más difícil sostener la ilusión de que lo que ella hace es algo distinto —o inferior— a lo que haces tú.
Hay que pisar con cuidado acá, y lo aclaro donde corresponde, no al final: es un solo estudio, con un 95 % de estudiantes de medicina —no médicos en ejercicio—, y el efecto estaba parcialmente compensado por un aumento de confianza en la herramienta. Existe un segundo estudio, de Shonhe y Min (2025), con 404 profesionales de gestión de registros en seis países de África, que confirma que la amenaza identitaria ante la IA aparece también en otra población.⁵ Pero ese segundo estudio no mide la paradoja de la transparencia —solo confirma que la amenaza existe—. No son el mismo dato, y no quiero sumarlos como si lo fueran: la paradoja descansa en una sola fuente; la existencia de la amenaza, en dos.
Dicho eso, el mecanismo es nítido y vale contarlo aun viniendo de una sola medición: a mayor visibilidad del razonamiento de la IA, mayor fricción con tu identidad de experto. Para el médico, ver cómo la máquina llega al diagnóstico activa la pregunta que duele: ¿en qué me diferencio, exactamente?
Lo que amortigua esto —y acá el paisaje es flaco, lo digo de frente— es lo que Ackerhans llama personal innovativeness: la disposición a adoptar tecnologías nuevas con apertura. En ese estudio redujo la amenaza, con un efecto débil (un coeficiente de −0,108, apenas significativo[b]). Lo menciono igual, por dos razones. Es el único moderador medido para esta amenaza en concreto. Y es una disposición, no una conducta —lo cual importa para la apuesta más grande del ensayo: aquí sí un rasgo estable moderó algo, aunque no sea ninguno de los dos que yo aposté—.
La tercera cara: el contra-eje moral
Acá la dirección se da vuelta, y es importante que lo veas.
Las dos caras anteriores son costos que sufres: tu agencia se debilita, tu identidad se sacude. Cosas que te pasan. Pero hay un mecanismo que va al revés: algo que el co-trabajar con IA te invita a ejercer, y que opera en tu beneficio a costa de tu integridad moral. Tiene nombre en la literatura: moral wiggle room, el margen de maniobra moral.
Dong y Bocian publicaron en 2024 un experimento sobre un sesgo de autointerés viejo y bien conocido: la tendencia a atribuirnos los resultados buenos y a empujarles a otros los malos.⁶ Lo que probaron de nuevo fue si la IA se convierte en el nuevo destinatario al que se le endosa la culpa. La respuesta fue que sí: cuando el resultado era negativo, los participantes lo cargaban más a la cuenta de la IA que a la propia. No porque la IA hubiera fallado más —sino porque la culpa viajó hacia el agente externo que estaba ahí, disponible para recibirla—.
Dos matices que no puedes saltarte. Primero: ese sesgo no nació con la IA ni le pertenece. Es un sesgo de autointerés general, que la psicología mide hace décadas; la IA es apenas el destinatario nuevo y cómodo, no la causa. Segundo: lo que Dong y Bocian miden es, específicamente, el traspaso de la culpa por las propias transgresiones, en resultados negativos. No miden si la gente se queda con el crédito del output de la IA como si fuera propio. Ese polo inverso —reclamar como tuyo lo bueno que hizo la máquina— todavía no tiene respuesta empírica clara. Es una pregunta abierta, y la dejo abierta: ni la afirmo ni la niego, porque no tengo el dato para inclinarme en ningún sentido. Y cuando no tengo el dato, prefiero decírtelo a rellenarlo.
¿Qué amortigua el wiggle room? Lu, Miazek y Bocian (2025) mostraron que la educación explícita sobre el sesgo de autointerés —hacerlo visible, ponerle nombre— lo eliminó en su experimento con 668 participantes.⁷ Eso es alentador y plausible. Pero seamos exactos: lo que midieron fue el sesgo en juicios morales generales, no en el contexto específico de co-trabajo con IA. Que funcione igual acá es un puente que tiendo yo, como hipótesis. El sesgo de fondo es el mismo; la extrapolación al terreno de la IA es mía, no de ellos.
Y conviene no fundir este mecanismo con los otros dos, porque “amortiguarlo” significa algo opuesto. Cuando tu agencia se debilita, eso es un daño que te pasa, del que te proteges o te recuperas. Cuando ejerces el wiggle room, eso es algo que haces, y de lo que sales beneficiado —moral y a veces materialmente— a costa de la honestidad sobre la autoría. Amortiguar lo primero es resiliencia. Amortiguar lo segundo es volverte menos auto-indulgente, ganar en integridad a costa tuya. No es el mismo problema, y no tiene el mismo tipo de solución. Meterlos en la misma bolsa de “protección” sería más cómodo de lo que la verdad permite.
Quién modera qué — sin unificar lo que no es uniforme
Llegamos al punto que más cuesta no torcer.
La tentación narrativa es redondear: y lo que te protege de todo esto es el perfil psicológico que presenté al principio. Es la historia limpia. Es también la historia incorrecta —y prefiero perder la prolijidad antes que venderte una falsa—. Porque cuando vas amenaza por amenaza, lo que aparece no es un escudo único, sino tres cosas de naturaleza distinta y con tres pesos de evidencia distintos.
La más firme, primero. Contra la erosión de la agencia, lo que protege es algo que haces, no algo que eres: el modo de uso, activo en lugar de pasivo. Eso es lo que He y Lee midieron, con datos duros, y es el suelo más sólido que pisa este apartado.
La segunda te la doy con todas sus grietas. Contra la amenaza a la identidad, el único moderador que alguien llegó a medir es una disposición —la personal innovativeness, la apertura a lo nuevo—, y con un efecto débil, en un solo estudio. Es poco, pero es lo que hay. Y fíjate lo que no es: no es la inteligencia emocional ni la atención al presente, los dos rasgos que aposté al abrir el ensayo. Esos dos, específicamente, nadie los probó nunca como escudo de ninguna de estas amenazas. Que te inclinen hacia el modo activo sigue siendo mi apuesta; que además te abran a ablandar la amenaza identitaria es un puente todavía más largo. Lo tiendo como conjetura, y como conjetura te lo marco, no como dato.
La tercera entra por un camino que no es ni rasgo ni conducta: conocimiento. Contra el sesgo de autointerés —el del wiggle room— lo que lo desarma es, simplemente, saber que existe, reconocer su forma cuando empieza a operar. Educación, no temperamento.
Tres amenazas, tres moderadores que ni abren la misma cerradura ni están hechos del mismo metal: uno es conducta y tiene el respaldo más firme; otro es disposición y amortigua apenas —y encima no es el que yo apostaba—; el tercero es conocimiento y entra por su cuenta. Ese es el mapa honesto. El escudo único quedaría más bonito en la página, pero no existe.
Proteo y el daimon que no toma el volante
Proteo, en la mitología griega, es el dios que cambia de forma. No por capricho: cambia según quién lo agarra y cómo. Quien lo sostiene firme le saca la verdad; quien lo suelta, obtiene apenas una forma más, y otra, y otra.
La agencia en el co-trabajo con IA tiene algo de proteico. No es fija, no es un dato de tu persona: es algo que se moldea en la interacción. Y la maleabilidad, ojo, no es la amenaza. La amenaza es no darte cuenta de que el fluido en el que trabajas te está dando forma a ti mientras crees que eres tú quien la da. El modo activo no elimina la fluidez —la IA igual participa, igual modifica—. Lo que hace es mantenerte en el papel del que sostiene a Proteo, en lugar del que lo suelta.
Y para el otro polo, el moral, sirve otra imagen. El daimon de Sócrates —esa voz interior que él decía oír— aconseja, advierte, a veces calla. Pero no toma el volante: quien decide es Sócrates. Esa me parece una imagen más honesta de lo que la IA puede ser que las que van a circular en los años próximos —la IA como “socio”, como “co-autor”, como “par”—. La IA puede ser daimon: voz que refina, que completa, que señala, sin ser el conductor. Lo contrario del daimon es justo el wiggle room: soltarle el volante moral a la máquina, y que la culpa se vaya con él cuando algo sale mal.
Dos imágenes griegas, dos polos de un mismo cuidado. El centauro que aprende a sostener su naturaleza doble —el Quirón del primer apartado— y el que deja que una mitad le arranque el timón a la otra. La pregunta de fondo no cambió: no es si la naturaleza doble existe —existe, y este apartado mostró algunas de sus caras—. Es qué haces con ella cuando la tienes en las manos.
Notas
[a] El SoAS (Sense of Agency Scale) es un cuestionario validado que mide cuánto siente una persona que es ella quien causa sus propios actos y sus resultados.
[b] Un coeficiente expresa la fuerza y la dirección de una relación entre dos variables: cuanto más cerca de 0, más débil; el signo indica el sentido. Un −0,108 «apenas significativo» quiere decir que el efecto existe y va en la dirección esperada, pero es pequeño y queda al borde de poder confundirse con el azar.
Referencias
-
He, W. (2026). Subjective task load and psychological ownership in generative AI collaborative music creation: mechanisms shaping creators’ state sense of agency. Frontiers in Psychology, 17, 1835406. https://doi.org/10.3389/fpsyg.2026.1835406
-
Lee, E. H., Yin, Y., Jia, N., & Wakslak, C. J. (2026). Relying on AI at work reduces self-efficacy, ownership, and meaning while active collaboration mitigates the effects. Scientific Reports, 16(1), 13583. https://doi.org/10.1038/s41598-026-42312-6
-
Tapal, A., Oren, E., Dar, R., & Eitam, B. (2017). The Sense of Agency Scale: A measure of consciously perceived control over one’s mind, body, and the immediate environment. Frontiers in Psychology, 8, 1552. https://doi.org/10.3389/fpsyg.2017.01552
-
Ackerhans, S., Wehkamp, K., Petzina, R., Dumitrescu, D., & Schultz, C. (2025). Perceived trust and professional identity threat in AI-based clinical decision support systems: Scenario-based experimental study on AI process design features. JMIR Formative Research, 9, e64266. https://doi.org/10.2196/64266
-
Shonhe, L., & Min, Q. (2025). Human–machine collaboration: exploring professional identity threat within the records and information management community. Aslib Journal of Information Management. https://doi.org/10.1108/AJIM-08-2024-0673
-
Dong, M., & Bocian, K. (2024). Responsibility gaps and self-interest bias: People attribute moral responsibility to AI for their own but not others’ transgressions. Journal of Experimental Social Psychology, 111, 104584. https://doi.org/10.1016/j.jesp.2023.104584
-
Lu, Y., Miazek, K., & Bocian, K. (2025). Testing education and accountability as moderators of the self-interest bias in moral character judgments. Personality and Social Psychology Bulletin. https://doi.org/10.1177/01461672251364308
El criterio — lo único que la IA no te da
A esta altura del ensayo el foco cambió. Los dos primeros apartados miraban hacia afuera: qué produce el centauro, si el rendimiento es lo que parece. El tercero miraba hacia adentro: qué le pasa al sujeto, a la experiencia de ser el autor de lo que haces. Este mira algo diferente, más sutil y más urgente que los dos anteriores: qué le pasa al juicio. No a ti mientras trabajas, sino a la pregunta que tienes que hacerte cuando el trabajo está hecho.
Esa pregunta es la más incómoda de todas. Y la más difícil de delegar.
El momento que nadie te anuncia
Hay un instante en el co-trabajo con IA que no aparece en los tutoriales. Nadie lo avisa porque nadie sabe exactamente cuándo llega.
Lo que sí sabes es que ocurre después. Después de que la IA te entrega algo: un texto, un análisis, una propuesta, una síntesis. No un borrador a medio hacer sino algo terminado, coherente, con forma. Algo que se sostiene solo en la página. Que tiene argumento. Que suena bien.
Y ahí, exactamente ahí, llega el momento: ¿pero esto está bien?
No “¿está bien redactado?”. No “¿tiene los puntos que pedí?”. Esas dos preguntas la IA puede contestarlas, de hecho las contestó antes de que las hicieras. La pregunta que no puede contestar es otra: si lo que dice es correcto. Si la recomendación es la que corresponde en este caso, con estos datos, para este cliente, en este momento. Si el análisis que parece sólido no tiene un error de fondo que el texto fluido hace muy difícil ver. Si la conclusión a la que llega es la que tú —después de pensar, después de mirar el conjunto, después de poner en juego lo que sabes sobre el problema— suscribís o no.
Esa pregunta la IA no la contesta por ti. Y lo que este apartado quiere examinar es por qué, y qué significa eso.
Lo que tiene evidencia dura — y no es lo que esperabas
Hay un hallazgo que vale la pena presentar con precisión, porque es fácil exagerarlo y más fácil todavía mal-citarlo.
En 2024, Huang, Chen, Mishra, Zheng, Yu, Song y Zhou publicaron un estudio en ICLR que preguntaba algo específico: ¿puede un modelo de lenguaje corregir sus propios errores de razonamiento sin recibir información externa?¹ No con feedback de un humano, no con verificación contra una base de datos, no con un oráculo que le diga si está bien o mal: solo con la capacidad intrínseca del modelo para revisar su propio output.
La respuesta fue no. La auto-corrección intrínseca —sin verdad externa— no mejora el rendimiento. En algunos casos lo degrada.
Esto es lo que tiene evidencia dura en este apartado. Y quiero ser preciso sobre qué dice y qué no dice, porque la precisión acá importa.
Lo que el estudio demuestra es una carencia del modelo: la IA, sin un punto de referencia externo, no puede cerrar el bucle evaluativo sola. No puede revisar si lo que produjo es correcto en el sentido que importa —correcto respecto de la realidad, de los hechos, del problema concreto—. Para eso necesita algo que no tiene por sí misma.
Lo que el estudio no demuestra —y este es el matiz que más cuesta sostener— es que el humano llene ese hueco bien. Que la IA no se autoevalúe fiablemente no implica que tú evalúes bien. Son dos afirmaciones distintas, con distinto nivel de respaldo empírico. La primera está en el paper. La segunda, lamento decirte, sigue siendo una apuesta. Volvemos a esto en un momento.
Hay una señal convergente, más blanda, que apunta en la misma dirección. Un preprint de 2025 de Tian, Han, Chen, Xu y colegas estudia el fenómeno de los “modelos-juez”: modelos entrenados explícitamente para evaluar outputs de otros modelos.² El hallazgo central es que esos modelos-juez están sistemáticamente sobreconfiados: estiman que aciertan más de lo que aciertan. Es una señal que refuerza el cuadro. Pero es un preprint —todavía no atravesó revisión formal— y el propio paper propone una solución de calibración, lo cual lo convierte simultáneamente en evidencia del problema y en recordatorio de que el campo está trabajando en resolverlo. Lo cito como apoyo, no como ancla. Y como blanco móvil: lo que es verdad a 2026 sobre la capacidad auto-evaluativa de los modelos puede no serlo en dos años. La dirección del campo es hacia jueces más calibrados, y sería deshonesto ignorarlo.
Lo que sí sobrevive el año en que fue escrito este ensayo: el rol evaluador, hoy, no se puede soltar a la máquina. No porque la IA sea mala —puede producir cosas excelentes—, sino porque no tiene el instrumento para verificar que lo que produjo es correcto respecto del mundo. Ese instrumento tiene que venir de afuera.
Lo que no tiene evidencia dura — y por qué igual importa
“El valor migra de producir a juzgar.”
Esta frase me gusta. La escribí al principio del proyecto, y todavía la defiendo. Pero tengo que ser honesto sobre qué tipo de cosa es: es mi apuesta, no un hallazgo. Y más honesto todavía: es una apuesta que deseo ganar. Hay algo desiderativo en ella —quiero que el juicio sea el reducto que no se delega— y prefiero confesarlo a vestirlo de objetividad.
La lógica es la siguiente. Si la IA puede producir volúmenes crecientes de output —texto, análisis, propuestas, código— y si además no puede cerrar sola el bucle evaluativo, entonces lo que queda como rol irreductiblemente humano es el juicio. La evaluación de si lo producido es correcto, pertinente, valioso. El nodo en el que alguien tiene que decidir.
Eso es lo que Lazaros, Vrahatis y Kotsiantis, en una revisión sistemática de 2026 sobre sistemas de IA con participación humana, llaman “el juicio en los nodos”: la calidad de la intervención humana —no su cantidad— es lo que discrimina el resultado en los sistemas bien diseñados.³ Es una conceptualización de una revisión, no una prueba causal. Pero captura bien la lógica del argumento.
El problema —y acá está el caveat que no me puedo callar— es que eso no resuelve nada por sí solo. Que el rol evaluador sea irreductiblemente humano no implica que los humanos lo ejerzan bien.
Hay datos que incomodan. Li, Yang, Zhang y Liao publicaron en CHI 2024 un estudio de dos experimentos, con 126 participantes cada uno, sobre qué pasa cuando los modelos de IA expresan mal su propia incertidumbre —cuando muestran más confianza de la que tienen.⁴ ¿Comunicarle eso al usuario ayuda a tomar mejores decisiones? La respuesta es frustrante: saber que el modelo está mal calibrado[a] ayuda a detectar la mala calibración, pero no mejora la eficacia de la decisión. A veces genera el efecto contrario: sub-confianza, parálisis, dudas en el lugar equivocado.
Y hay la conceptualización de lo que sería la reliance apropiada —cuándo seguir a la IA, cuándo apartarse— de Schemmer, Hemmer, Kühl y Benz (2022), que muestra que no es obvia ni intuitiva.⁵ Saber que debes evaluar con criterio no te da el criterio. Y saber que el modelo se equivoca no te dice dónde.
Todo esto apunta en la misma dirección: el hueco existe (la IA no lo cierra), y el humano está ahí para llenarlo, pero no lo llena bien por defecto. “Tu valor migra a juzgar” es la apuesta del autor. Lo que la evidencia sostiene, más honestamente, es que el rol evaluador es necesario y que ejercerlo bien es difícil. Esas son dos afirmaciones distintas, y no quiero confundirlas.
La paradoja que nadie ha medido limpiamente
Hay una intuición que circula con fuerza cuando se habla de IA y experticia: que las personas que mejor usan la IA son las que más saben. Que el experto, paradójicamente, saca más partido de la herramienta porque puede leer su output con más rigor, detectar sus errores con más precisión, aprovechar lo bueno sin tragarse lo malo.
Es una idea seductora. Y puede ser verdad.
Pero nadie la ha medido con suficiente limpieza. Los estudios que intentaron anclarla directamente —incluyendo trabajos en ajedrez y en ciencia de datos— dieron resultados que no sostenían la afirmación de manera robusta. La paradoja del experto puede existir; también puede ser una proyección de lo que queremos creer. La razón por la que la menciono, con este nivel de honestidad, es que si la ignorara parecería que la doy por válida en silencio. Está en el mapa. Su estatus epistémico es el de conjetura tentadora, no el de hallazgo.
El contrapunto que hace honesto todo lo anterior
Hay un estudio grande que cualquier versión honesta de este argumento tiene que mencionar, y que no encaja del todo bien con la viga de “producir→juzgar”.
Dillon, Jaffe, Immorlica y Stanton publicaron en 2025 un working paper del NBER sobre el impacto del acceso a IA generativa en los patrones de trabajo de más de 7.000 empleados.⁶ El estudio es de escala inusual en este campo, y sus resultados merecen ser leídos con fidelidad al hallazgo, no al título.
El título dice “Shifting Work Patterns with Generative AI”. El hallazgo dice algo más matizado: a nivel individual, no se detectaron cambios en la cantidad ni en la composición de las tareas de los trabajadores. La IA liberó tiempo —los trabajadores que la usaban completaban ciertas tareas más rápido—, pero ese tiempo liberado no migró, a nivel individual, hacia tareas de mayor supervisión o evaluación. La composición del trabajo, vista tarea por tarea, no se reformuló.
Este dato no refuta la viga “producir→juzgar” como apuesta normativa —“así deberías organizarte”—, pero sí impide presentarla como descripción de lo que ocurre conductualmente. Lo que la evidencia dice, con ese paper sobre la mesa, es que el shift no aparece solo. Que no es la consecuencia natural de tener acceso a la herramienta. Que si sucede, es porque alguien lo diseña o lo elige.
Y lo digo con claridad porque no es el problema que parece. Si el juicio evaluador no migra por inercia, entonces aparece solo cuando alguien lo pone ahí a propósito: puede diseñarlo la organización —reorganizando el trabajo para que el rol evaluador exista— o puede elegirlo la persona que co-trabaja. El estudio no decide entre esas dos lecturas, y yo no voy a fingir que sí. Lo que sí puedo decir es cuál de las dos me interesa a mí: la individual, la que depende de que tú elijas detenerte a juzgar en vez de aceptar lo que llega. Ahí —y solo ahí— entra mi apuesta de que habitar bien ese rol depende de algo psicológico, no solo de tener la herramienta. El dato no me la prueba; nada más deja el lugar abierto para hacerla.
Mêtis — la inteligencia que no se deja seducir
Los griegos tenían un concepto para esto. No para el juicio como facultad abstracta, sino para la inteligencia que opera en condiciones difíciles: bajo presión, ante la incertidumbre, frente a algo que tiene apariencia de verdad pero puede no serlo.
La llamaban mêtis. Inteligencia astuta, situacional. La astucia de Ulises en el caballo de Troya, no la fuerza de Aquiles. La capacidad de leer la trampa antes de caer en ella. De no dejarse llevar por lo que parece, porque lo que parece puede ser una superficie bien construida que oculta algo distinto.
La mêtis es la antítesis de la sobreconfianza. Y no es accidental que el concepto encaje aquí: lo que la IA no tiene, a 2026, es exactamente la capacidad de mêtis respecto de sí misma. No puede ser astuta sobre sus propios errores. Puede construir una respuesta que parece sólida, que tiene forma, que fluye; pero no sabe cuándo esa solidez es real y cuándo es solo apariencia.
La mêtis humana —cuando aparece— es lo que llena ese hueco. No el conocimiento enciclopédico, no la velocidad, no la capacidad de producir volumen. La astucia de detenerse donde la máquina no se detiene, de preguntar lo que la máquina no pregunta, de notar que algo suena bien pero algo falla.
Y acá viene el matiz que importa, y que la mitología no cuenta tan claramente: la mêtis no es un don. Se cultiva. La tradición que la estudió como categoría griega —Detienne y Vernant entre ellos⁷— la lee como algo que se forja en la práctica, en la exposición repetida a situaciones que requieren astucia. No es un rasgo fijo. Es una disposición que se puede desarrollar o dejar atrofiar.
Eso rima con algo que este ensayo viene sugiriendo. El problema del juicio en el co-trabajo con IA no es que el humano no tenga criterio. Es que el criterio no se ejerce por defecto. Que la comodidad de recibir algo bien formado —el output pulido, la síntesis fluida, la propuesta coherente— crea las condiciones para no preguntarse si está bien. Para dejar que la apariencia de calidad reemplace a la evaluación de la calidad. Para que la mêtis quede sin ejercitar.
Eso es overreliance. No ignorancia: confianza mal calibrada, entregada sin suficiente fricción.
El polo de tensión — por qué esto no es una victoria
Lo que hace de este un buen lugar para detenerse es lo siguiente: el criterio evaluador es irreductiblemente humano y es frágil en manos humanas.
Las dos cosas al mismo tiempo. Sin sacrificar ninguna.
La primera parte —irreductible— tiene su ancla en lo que Huang y colegas mostraron: la IA no cierra el bucle evaluativo sola. El rol de juicio no se puede delegar por completo, porque la máquina no tiene el instrumento para saber si lo que produjo es correcto.
La segunda parte —frágil— tiene su ancla en lo que Li y colegas mostraron, y en lo que la evidencia sobre overreliance muestra en general: el humano no ejerce bien ese rol por defecto. Saber que debería escrutar no le da el criterio. Detectar la sobreconfianza del modelo no mejora automáticamente la calidad de su decisión.
Lo que esto produce no es un fracaso del argumento. Produce la pregunta correcta: ¿qué dispone a ejercer bien ese rol? ¿Qué perfil psicológico inclina hacia la mêtis en vez de hacia la overreliance? ¿Qué es lo que separa al centauro que se detiene donde importa del centauro que deja pasar el output sin preguntar?
Esa pregunta es la que hace necesario el apartado que cierra el ensayo —el del perfil protector—. No como coronación triunfal de lo que vino antes, sino como consecuencia honesta de la tensión que este apartado no resuelve. El criterio es lo irreductible y lo que más cuesta sostener. Por eso importa saber qué lo sostiene.
Notas
[a] Un modelo está bien calibrado cuando la confianza que muestra coincide con su acierto real: dice «estoy seguro al 90 %» y acierta nueve de cada diez veces. Está mal calibrado —sobreconfiado— cuando exhibe más seguridad de la que sus aciertos justifican.
Referencias
-
Huang, J., Chen, X., Mishra, S., Zheng, H. S., et al. (2024). Large Language Models Cannot Self-Correct Reasoning Yet. ICLR 2024. arXiv:2310.01798
-
Tian, Z., Han, Z., Chen, Y., Xu, H., et al. (2025). Overconfidence in LLM-as-a-Judge: Diagnosis and Confidence-Driven Solution. arXiv:2508.06225
-
Lazaros, K., Vrahatis, A. G., & Kotsiantis, S. (2026). Human-in-the-Loop Artificial Intelligence: A Systematic Review of Concepts, Methods, and Applications. Entropy, 28(4), 377. https://doi.org/10.3390/e28040377
-
Li, J., Yang, Y., Zhang, R., Liao, Q. V., et al. (2024). Understanding the Effects of Miscalibrated AI Confidence on User Trust, Reliance, and Decision Efficacy. CHI 2024. arXiv:2402.07632
-
Schemmer, M., Hemmer, P., Kühl, N., Benz, C., et al. (2022). Should I Follow AI-based Advice? Measuring Appropriate Reliance in Human-AI Decision-Making. arXiv:2204.06916
-
Dillon, E., Jaffe, S., Immorlica, N., & Stanton, C. (2025). Shifting Work Patterns with Generative AI. NBER Working Paper w33795. https://doi.org/10.3386/w33795
-
Detienne, M., & Vernant, J.-P. (1978). Cunning Intelligence in Greek Culture and Society. Harvester Press / Humanities Press.
Cuando se sueltan las riendas — la degradación condicional del juicio
Faetón no era ignorante. Era el hijo de Helios, el dios del sol, y sabía perfectamente de qué estaba hablando cuando pidió conducir el carro. Sabía que los caballos eran divinos, que el recorrido estaba trazado, que el vehículo era poderoso. Lo que no sabía era cómo escrutar el camino mientras conducía. Y eso —no la ignorancia, sino la sobreconfianza— fue lo que lo perdió. Tomó las riendas y las soltó en el sentido que importa: soltó el juicio sobre lo que el carro estaba haciendo.
La divergencia que nadie debería pasar por alto
En 2026, un equipo de investigación publicó los resultados de un experimento de campo con 758 consultores de BCG.¹ Era un RCT[a] preregistrado —uno de los diseños más confiables para aislar causas— y el hallazgo central es el tipo de dato que vale la pena detenerse a leer dos veces, no una.
En una tarea para la que la IA no estaba bien equipada, los consultores asistidos fueron un 19% menos propensos a producir soluciones correctas que sus colegas sin acceso a la herramienta. No rindieron igual. Rindieron peor. La explicación que el estudio ofrece es la sobreconfianza: los consultores con IA sobre-confiaron en su output y no lo escrutaron con la atención crítica que habrían puesto si hubieran trabajado sin ella.
Pero el hallazgo tiene una segunda cara, y esa segunda cara es la que vuelve al dato genuinamente incómodo. Los outputs asistidos —los menos correctos— puntuaron más alto en coherencia y persuasión subjetiva que los que no habían tenido ayuda de la IA. El texto mejor construido era el texto menos acertado. La superficie y el fondo divergían: algo que suena bien, que fluye, que está bien armado, puede ser al mismo tiempo algo que está mal.
Dell’Acqua y sus colegas no medían la pérdida longitudinal de pericia. No seguían a los consultores a lo largo del tiempo para ver si se deterioraban. Lo que midieron fue lo que pasó en esa tarea, en esa sesión, cuando el output no se escrutó. El “deskilling condicional” —la etiqueta que yo le pondría— es una etiqueta de autor, no del paper. Lo que el paper muestra es más preciso y más acotado: cuando el output no se examina, el output asistido es más persuasivo pero no más correcto. Esa divergencia es el mecanismo. Y ese mecanismo tiene nombre.
Una vieja conocida con ropa nueva
La automation complacency no es una intuición ni una preocupación. Es un fenómeno atencional documentado con décadas de investigación —investigación que viene, hay que decirlo, de la automatización pre-IA: control supervisorio, aviación, sistemas de monitoreo.² Lo traigo por analogía, no como medición directa sobre el co-trabajo con IA generativa. La variable condicionante en esa tradición es la carga cognitiva, no los incentivos organizacionales, y ese matiz importa.
Lo que la investigación de Parasuraman y Manzey sistematizó es que la complacency emerge bajo condiciones de carga multitarea, afecta tanto a novatos como a expertos, y no se resuelve con instrucciones simples ni con práctica adicional. No es falta de experiencia: es una respuesta atencional a un sistema que “no falla”. Cuando el sistema automatizado va bien —cuando no da señales de error, cuando produce outputs plausibles—, la atención se relaja. Y cuando la atención se relaja, se pierden cosas.
La IA generativa le pone ropa nueva a ese mecanismo. El output no es solo plausible: es fluido, coherente, persuasivo. Si la automatización clásica desenganchaba la atención porque el sistema iba bien, la IA generativa la desengancha además porque el output parece muy bien. La superficie de calidad hace más difícil sostener la fricción evaluativa. Faetón no veía señales de peligro: los caballos corrían suaves y el viento soplaba en la dirección correcta.
Cuándo aparece la degradación
Lee y sus colegas publicaron en CHI 2025 un estudio con 319 trabajadores del conocimiento que pedía algo más sutil que medir errores.³ Pedía que los participantes describieran cómo pensaban mientras usaban IA generativa: si verificaban, si cuestionaban, si invertían esfuerzo cognitivo en revisar lo que el modelo proponía. No es medición objetiva de pérdida de habilidad —el propio título del paper lo aclara: son reducciones auto-reportadas en esfuerzo cognitivo. Es percepción, no medición.
Pero lo que esa percepción muestra tiene coherencia con el cuadro que Dell’Acqua dibujó. Más confianza en la IA generativa se asocia con menos pensamiento crítico. El efecto se concentra en las tareas rutinarias o de bajo riesgo: cuando la tarea no parece importante, el umbral para escrutar el output baja. La atención se guarda para las cosas que parecen contar.
Acá aparece la condición que activa la degradación: no el acceso a la IA sino la relajación del escrutinio. Esto importa porque no es lo mismo para todos ni en todo momento. El mismo estudio muestra que más confianza en la propia capacidad —no en la IA, sino en uno mismo— se asocia con más pensamiento crítico, no con menos. El escrutinio no es un lujo; es una consecuencia de sentirse responsable del resultado.
La viñeta que ilustra esto no es dramática. Es cotidiana y por eso más honesta. Tú empiezas revisando un output con atención: comparás, verificás, cambiás cosas. Funciona bien. El output siguiente lo revisás un poco menos, porque el anterior estuvo bien. Y el siguiente un poco menos todavía, porque la IA “no falla”. No hay un momento de decisión consciente: hay un deslizamiento. La fricción evaluativa va cayendo en las tareas que parecen de bajo riesgo, en los outputs que parecen sólidos, en el trabajo que ya hiciste muchas veces. Y es exactamente ahí —donde el escrutinio se relaja— donde la divergencia de Dell’Acqua puede aparecer: el output más persuasivo, menos correcto.
La condicionalidad de verdad: degrada o mejora
Lo que convierte todo lo anterior en algo más interesante que una advertencia es la otra cara del mismo mecanismo.
Brynjolfsson, Li y Raymond publicaron en 2025 un experimento de campo con más de 5.000 agentes de soporte al cliente.⁴ El acceso a IA generativa subió la productividad un 14% en promedio. Pero lo que el estudio permite ver, si uno mira bien los detalles, no es solo que la productividad sube: es que la IA difundió conocimiento. Los trabajadores menos experimentados —los novatos— mejoraron un 34%. Los más experimentados, en cambio, casi no se movieron o mostraron una pequeña homogeneización de calidad hacia la media.
Caveats que vienen con este dato: el estudio mide productividad con la IA presente, no pericia internalizada tras retirarla. No podemos saber, con ese diseño, si los novatos habrían mantenido esa mejora sin el modelo. Y “productividad” incluye velocidad y volumen, no solo calidad del juicio. Pero el contrapunto sigue siendo importante: en condiciones donde el output se escruta y se califica —donde hay una métrica de corrección, donde el resultado importa y se ve—, la herramienta sube la pericia en vez de degradarla.
La diferencia entre el cuadro de Dell’Acqua y el de Brynjolfsson no es que uno sea optimista y el otro pesimista. Es que son condiciones distintas —y distintas en más de una cosa: tareas diferentes, horizontes de tiempo diferentes, poblaciones diferentes—. Pero leídas juntas dejan algo claro: el desenlace no es uniforme. La misma clase de herramienta degrada en un escenario y difunde pericia en otro. No hay un efecto único que se pueda anunciar.
Acá tengo que ser cuidadoso con lo que la evidencia permite decir, porque es justo el lugar donde la prisa se equivocaría. Ninguno de estos dos estudios manipuló el escrutinio para medir su efecto: el upskilling de Brynjolfsson viene de la difusión de conocimiento experto hacia los novatos, no de que alguien revisara más. Lo que el contraste muestra es que el desenlace depende de la condición, no que el escrutinio sea la variable. Las piezas, leídas con cuidado, se reparten el trabajo: Lee conecta la confianza en la IA con el aflojamiento del escrutinio —más confianza, menos pensamiento crítico—, y Dell’Acqua mide la merma del juicio cuando ese escrutinio se afloja. Una liga el dejar de mirar; la otra mide el costo de no haber mirado.
Con esa cautela puesta, la tesis del apartado se sostiene y vale la pena formularla con honestidad: el efecto no es uniforme ni está decidido de antemano. La misma herramienta puede degradar el juicio o difundir pericia según la condición. No “la IA te degrada”. No “la IA te mejora”. Depende —y entre las cosas de las que depende, la que este ensayo persigue, está si te detenés a escrutar lo que produce o lo aceptás como viene.
Yang y sus colegas publicaron en 2026 un estudio sobre estudiantes universitarios que afinó esa condicionalidad todavía más.⁵ Hay que flaggear el alcance: es población en aprendizaje, no trabajadores bajo incentivos profesionales, y el trasplante directo de estudiantes a trabajadores tiene sus problemas. Pero la conclusión vale como señal: la misma dependencia tecnológica produce deskilling, reskilling o upskilling según las metas con las que el usuario se aproxima a la herramienta. No hay un camino determinado. Hay condiciones.
Faetón al caer
Hay un detalle del mito que suele omitirse. Cuando Faetón perdió el control del carro y los caballos empezaron a quemar la tierra, Zeus lo fulminó. No como castigo, sino como solución: detener el desastre antes de que fuera irreversible.
Lo que me quedo es la imagen previa. El momento en que Faetón sostenía las riendas y todo parecía ir bien. En que los caballos corrían y el cielo estaba despejado y él no tenía señales claras de que algo estuviera fallando. No porque fuera estúpido o descuidado. Porque había soltado el juicio sobre lo que el carro estaba haciendo —y el carro no te avisaba cuando se salía del camino.
La degradación que mide Dell’Acqua no es distinta en estructura. El output que parece bien es el output que menos se revisa. Y cuanto más suena a bien, más cuesta detenerse a preguntar si lo está. Eso no es un destino: es una condición. Y como toda condición, es modificable.
Que sea modificable es la buena noticia. Que no lo sea por sí sola es la mala.
Notas
[a] Un RCT (ensayo controlado aleatorizado) reparte a los participantes al azar entre el grupo que recibe la intervención y el que no, de modo que las diferencias de resultado puedan atribuirse a la intervención y no al azar ni a sesgos previos. Es uno de los diseños más fiables para establecer causa y efecto.
Referencias
-
Dell’Acqua, F., McFowland, E., Mollick, E., Lifshitz, H., Kellogg, K. C., Rajendran, S., Krayer, L., Candelon, F., & Lakhani, K. R. (2026). Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of Artificial Intelligence on Knowledge Worker Productivity and Quality. Organization Science, 37(2), 403-423. https://doi.org/10.1287/orsc.2025.21838
-
Parasuraman, R., & Manzey, D. H. (2010). Complacency and Bias in Human Use of Automation: An Attentional Integration. Human Factors, 52(3), 381-410. https://doi.org/10.1177/0018720810376055
-
Lee, H.-P., Sarkar, A., Tankelevitch, L., Drosos, I., Rintel, S., Banks, R., & Wilson, N. (2025). The Impact of Generative AI on Critical Thinking: Self-Reported Reductions in Cognitive Effort and Confidence Effects From a Survey of Knowledge Workers. Proceedings of CHI 2025. https://doi.org/10.1145/3706598.3713778
-
Brynjolfsson, E., Li, D., & Raymond, L. (2025). Generative AI at Work. The Quarterly Journal of Economics, 140(2), 889-942. https://doi.org/10.1093/qje/qjae044
-
Yang, B., Sun, Y., Zeng, Z., & Li, Q. (2026). Deskilling, reskilling, or upskilling? Unpacking the pathways of student adaptation to generative artificial intelligence. International Journal of Information Management, 87, 103002. https://doi.org/10.1016/j.ijinfomgt.2025.103002
Habitar el centauro
Llegamos al final con una deuda. La contraje en el primer apartado y la dejé respirando debajo de todo el ensayo: predecir quién adopta la identidad del centauro no es lo mismo que predecir quién la habita bien. La ciencia respondió la primera mitad de esa frase. La segunda es mía, y quiero decirlo antes de empezar a cerrar, no después.
Lo que el dato muestra —ya lo vimos— es que para reconocerte en esa forma de trabajar, para adoptarla, lo que más pesa es la habilidad técnica. Lo psicológico quedaba en segundo plano. Mi apuesta, la que sostiene este apartado y que no es un hallazgo, es que eso que queda en segundo plano para entrar es justamente lo que te sostiene una vez adentro. La técnica te abre la puerta. Otra cosa te mantiene en pie del otro lado.
Este apartado tiene dos pisos, y voy a marcar cuál es cuál en cada paso. Uno está hecho de evidencia. El otro, de una conjetura que creo bien fundada pero que nadie midió todavía. Mezclarlos sería el tipo de historia limpia que vengo rechazando desde el principio.
Lo que sí sabemos
Empiezo por el suelo firme, porque lo hay.
De todo lo que el ensayo recorrió, la pieza con el respaldo más sólido es la del tercer apartado: el modo de uso. No es una intuición ni una metáfora. Es un hallazgo medido, con diseños preregistrados, sobre lo que le pasa a tu sentido de autoría según cómo co-trabajás. El modo pasivo —aceptar el output tal cual, copiarlo, abdicar de la decisión— erosiona la agencia, la propiedad sobre lo que hacés, el sentido de que el trabajo es tuyo. El modo activo —vos decidís y redactás primero, y la IA refina después— la preserva, a un nivel indistinguible del trabajo sin ninguna ayuda.
Eso es lo que se sabe, y se sabe con solidez. Conviene, eso sí, ser exacto con su alcance. Lo que los estudios midieron es que el modo de uso protege la agencia —la experiencia de ser el autor de lo que producís—. Para las otras cosas que este ensayo puso sobre la mesa —la identidad profesional, la degradación del juicio— no se ha medido todavía nada. Y ahí no es el modo de uso lo que las cubriría: es donde entra mi apuesta, el perfil. Marco la diferencia porque es justo el lugar donde lo demostrado se termina y empieza lo que apuesto.
Así que el piso firme es esto: hay una manera de co-trabajar que protege tu agencia, y la diferencia no está en la herramienta sino en quién toma la decisión primero. Si me quedara solo con lo demostrado, este sería el final del ensayo. Habitar bien el centauro es trabajar en modo activo. Punto.
Pero ese final, además de pobre, esquivaría la pregunta que de verdad me interesa. Porque si el modo activo protege, queda una pregunta abierta debajo: ¿qué te inclina a usarlo? ¿Qué hace que una persona, frente al mismo output tentador y fácil de aceptar, se detenga a decidir primero en lugar de soltar las riendas? Ahí termina el suelo firme. Y ahí empieza mi apuesta.
La apuesta
Lo que apuesto es esto: que hay un perfil psicológico que te inclina hacia el modo activo y te protege de las amenazas que aparecen después del umbral. No una habilidad, no una técnica. Dos rasgos, sobre todo: la inteligencia emocional —en particular la intrapersonal, la capacidad de reconocer y manejar tus propios estados internos— y la atención al presente, eso que la escala MAAS mide como atención y conciencia de lo que está pasando ahora, mientras pasa.
Tengo que ser honesto sobre el tamaño de este salto. Lo que la investigación documentó es que esos rasgos predicen quién se identifica como centauro. Que además te protejan una vez dentro es una inferencia mía. Nadie midió si la inteligencia emocional o la atención al presente amortiguan las amenazas que este ensayo fue nombrando. Lo creo plausible, voy a decir por qué, pero no lo voy a vestir de hallazgo.
¿Por qué lo creo? Porque cada amenaza que el arco fue dejando tiene una forma que ese perfil parece hecho para sostener. Déjame recorrerlas, una por una, pero rápido y en clave nueva —no para volver a contarlas, sino para mostrar dónde el escudo haría su trabajo.
La dilución de la voz: esa sensación de que lo que sale ya no es del todo tuyo, de que tu manera de decir las cosas se va pareciendo a la del modelo. Es a la vez un problema de agencia y de identidad profesional. La atención al presente sería, justamente, lo que te permitiría notar el deslizamiento mientras ocurre —registrar que estás aceptando una formulación que no es la tuya, en el momento en que la aceptás, no tres meses después cuando ya no reconocés tu propia prosa.
La dependencia pasiva: el deslizamiento del apartado anterior, el de Faetón, el escrutinio que se afloja output tras output porque la IA “no falla”. Acá la atención al presente haría un trabajo de más: que notar lo que pasa ahora se vuelva darte cuenta de que dejaste de mirar. Ese paso —de la atención al presente al escrutinio de lo que estás haciendo— lo doy yo: es plausible más que probado, y prefiero decirlo a esconderlo.
La ilusión de comprender sin comprender de verdad: creer que entendés lo que el modelo produjo porque suena bien y fluye, cuando en realidad no cerraste el bucle, no juzgaste si era correcto. La inteligencia emocional intrapersonal —saber leer tu propio estado— es lo que podría avisarte de la diferencia entre la sensación de comprender y la comprensión. Entre la confianza y el fundamento de la confianza.
Tres caras distintas, un mismo perfil que haría —apuesto— un trabajo diferente en cada una. Eso es lo original de lo que propongo, y también lo más arriesgado: nadie conectó todavía estos rasgos con estas amenazas. Lo dejo dicho como apuesta, no como respuesta cerrada.
Y así y todo podría sumarse una cuarta —el primer apartado no la nombró, pero el tercero sí—: el sesgo de autointerés, esa tendencia a endosarle a la IA la culpa de lo que sale mal y quedarte el crédito de lo que sale bien. La dejo al margen a propósito, porque es de otra naturaleza: no un costo que sufrís sino una distorsión que ejercés, donde “amortiguar” querría decir volverte menos auto-servicial, no más resistente. Mismo perfil, trabajo inverso.
Lo que sube y lo que baja la apuesta
Una apuesta honesta tiene que decir qué la fortalece y qué la complica. Las dos cosas.
Lo que la sube, sin cerrarla: no estoy hablando en el vacío total. Hay un estudio con empleados que trabajan a diario con IA donde un tipo de atención plena en el trabajo —cercana a la que vengo nombrando— amortigua una amenaza inducida por la IA: la inseguridad laboral, el miedo a ser reemplazado, y sus efectos sobre el bienestar y el aprendizaje.¹ Es un buen dato y hay que tratarlo con exactitud: la amenaza que ese estudio mide no es ninguna de las cuatro del arco. No es agencia, ni juicio, ni identidad, ni autointerés. Es un análogo. Muestra que esta clase de rasgo puede amortiguar algún costo de co-trabajar con IA. Sube la plausibilidad de mi apuesta. No la confirma.
Lo que la complica, y lo pongo sobre la mesa porque esconderlo sería deshonesto: hay otra familia de rasgos con más evidencia que el mío como candidata a protectora. Son las alfabetizaciones —saber leer, evaluar y manejar la información y las herramientas—. Y conviene mirarlas de cerca, porque lo que muestran no es lo que uno esperaría.
Un estudio grande con universitarios encuentra que la alfabetización informacional —la information literacy— amortigua el efecto de la dependencia sobre el pensamiento crítico.² Suena a punto en contra de mi apuesta: hay algo medido que protege, y no es lo que yo propongo. Pero el mismo estudio le encuentra un rol doble —amortigua el pensamiento crítico y a la vez amplifica la fatiga cognitiva cuando la dependencia es alta—. No es un escudo limpio.
Y acá tengo que frenar antes de cantar victoria, porque hay una lectura cómoda que sería falsa. Sería fácil decir “esos rasgos son técnicos, y si fallan, gana mi foco psicológico”. No. Ninguna de esas alfabetizaciones es habilidad técnica pura: todas incluyen evaluar críticamente lo que tenés delante, que es metacognición[a] con otro nombre. Solapan con mi propia costura, la más frágil. No son el rival de mi apuesta: son, en parte, la misma cosa con otra etiqueta.
Por eso el dato que más me pesa va contra mí, no a favor. Cuando se mide específicamente la alfabetización en IA —la AI literacy—, más alfabetización se asocia con peor calibración: más confianza, menos precisión al juzgar el propio desempeño. Tanto, que en ese estudio el viejo efecto Dunning-Kruger[b] —el patrón por el que los menos diestros son los que más se sobreestiman— directamente se desvaneció con el uso de IA.³ Un rasgo con fuerte componente evaluativo se midió y empeoró la metacognición. Eso no refuerza mi costura atención→escrutinio. La debilita. Lo anoto en la columna que me incomoda, que es donde tiene que ir.
Queda una complicación más, interna a la apuesta. Aun si tuviera razón, el efecto no sería lineal. Ya lo vimos: en lo que respecta a la confianza en la propia capacidad, no es “más es mejor”. El nivel alto protege; el nivel intermedio es, paradójicamente, el más expuesto. Más perfil no es más escudo de manera automática. Depende del nivel, y la relación tiene curvas que no entiendo del todo.
Sumo todo: un análogo que sube la plausibilidad, unas alfabetizaciones que resultan medio parientes —y una de ellas, mirada de cerca, muerde mi eslabón más débil—, y una no-linealidad que me impide prometer proporciones. La apuesta sigue en pie. Pero sale de este párrafo más matizada de lo que entró, y así tiene que ser.
El regreso a Quirón
Empecé el ensayo con Quirón y quiero terminar ahí, porque el círculo cierra mejor de lo que esperaba.
Quirón es el centauro que no se deja romper por su propia dualidad. Los otros se desbordan —la parte animal ganándole a la razón—. Él integra las dos naturalezas y por eso puede ser maestro. El ensayo pasó por las otras imágenes: el fuego ambivalente de Prometeo, que potencia y ata; Proteo, el yo que toma la forma de cómo lo sostenés; la mêtis, la astucia que se cultiva y no se hereda; Faetón, lo que pasa cuando soltás el juicio creyendo que el carro se conduce solo. Todas son caras de lo mismo: la doble naturaleza puede habitarse bien o desbordarse.
Habitar bien el centauro no es, entonces, poseer el don. Faetón tenía el carro y el linaje y el conocimiento, y se desbordó igual. Habitar bien es la integración: lo que hacés —el modo activo, que sabemos que protege la agencia— y el temple que te inclina a hacerlo —el perfil, que apuesto que protege el resto—. Lo verificado y lo apostado, juntos, sosteniéndose.
Y acá tengo que decir lo que este apartado no es. No es un algoritmo. No te voy a dar cinco pasos para habitar bien el centauro, ni un test para medir si tenés el perfil, ni una receta. Lo prometí en el primer apartado y lo sostengo: la psicología del centauro no es una lista de pasos. Es un mapa de condiciones. Lo que el ensayo puede ofrecerte es saber dónde están los desfiladeros —el modo pasivo, el escrutinio que se afloja, la voz que se diluye— y cuál parece ser el terreno firme. Caminarlo es tuyo.
Lo último, y es lo más honesto que puedo decir. La parte sólida de este mapa —el modo de uso— ya alcanza para cambiar cómo trabajás mañana: decidí primero, refiná después. La parte apostada —el perfil que te sostiene— es una hipótesis que ojalá alguien mida, porque si tengo razón, cambia para quién enseñamos a usar estas herramientas y cómo. Pero no la mido yo en estas páginas, y tratarla como otra cosa sería traicionar todo lo que vine pidiendo.
El centauro no se hereda. Se habita. Y habitarlo bien, sospecho, se parece menos a tener una herramienta que a sostener un temple.
Notas
[a] La metacognición es la capacidad de observar y juzgar los propios procesos mentales: darse cuenta de si uno entendió de verdad, de si está seguro con razón, de cuándo conviene revisar. Pensar sobre cómo se está pensando.
[b] El efecto Dunning-Kruger describe que quien menos domina un terreno tiende a sobrestimar más su competencia: la misma falta de pericia que produce los errores impide reconocerlos. Suele atenuarse con la práctica y la retroalimentación; en el estudio citado, con IA de por medio ese patrón habitual directamente dejó de aparecer.
Referencias
-
Wu, T.-J., Liang, Y., & Wang, Y. (2024). The Buffering Role of Workplace Mindfulness: How Job Insecurity of Human-Artificial Intelligence Collaboration Impacts Employees’ Work-Life-Related Outcomes. Journal of Business and Psychology, 39(6), 1395-1411. https://doi.org/10.1007/s10869-024-09963-6
-
Tian, J., & Zhang, R. (2025). Learners’ AI dependence and critical thinking: The psychological mechanism of fatigue and the social buffering role of AI literacy. Acta Psychologica, 260, 105725. https://doi.org/10.1016/j.actpsy.2025.105725
-
Fernandes, D., Villa, S., Nicholls, S., Haavisto, O., Buschek, D., Schmidt, A., Kosch, T., Shen, C., & Welsch, R. (2026). AI makes you smarter but none the wiser: The disconnect between performance and metacognition. Computers in Human Behavior, 175, 108779. https://doi.org/10.1016/j.chb.2025.108779