Stanford publicó el viernes su AI Index Report 2026, cuatrocientas veintitrés páginas con la radiografía más completa que existe del estado de la inteligencia artificial en el mundo. Lo produce cada año el Instituto de Inteligencia Artificial Centrada en el Humano, y esta novena edición — coordinada por Yolanda Gil y Raymond Perrault — llega con un dato que debería incomodar a cualquiera que tenga algo que ver con la toma de decisiones: la IA está avanzando más rápido que cualquier sistema construido para gestionarla. Gobiernos, universidades, marcos regulatorios, evaluaciones de seguridad — todos van detrás.
No es una opinión. Es lo que dicen los datos. Y hay un chingo de datos.
Hoy destacamos:
- Stanford confirma que la IA no se está frenando: se está acelerando
- La brecha entre Estados Unidos y China se cerró de facto
- Los agentes de IA pasaron del doce al sesenta y seis por ciento de éxito en tareas reales
- Incidentes documentados de IA subieron de doscientos treinta y tres a trescientos sesenta y dos
- El agua que consume la IA ya podría abastecer a doce millones de personas
- México sube seis posiciones en el índice de confianza para inversión extranjera
- CREAO, la empresa que reconstruyó todo su proceso alrededor de IA
- Los desarrolladores jóvenes son los primeros en perder empleo donde la IA más produce
La IA no se está estancando. Se está acelerando.
El reporte de Stanford arranca con lo que para muchos será una sorpresa: la inteligencia artificial generativa alcanzó el cincuenta y tres por ciento de adopción en la población en apenas tres años. Más rápido que la computadora personal. Más rápido que el internet. La adopción organizacional llegó al ochenta y ocho por ciento, y cuatro de cada cinco estudiantes universitarios ya usan herramientas de IA generativa. Mientras tanto, Sundar Pichai presumía esta semana que Gemma 4, el modelo abierto de Google, superó los diez millones de descargas en su primera semana y acumula quinientos millones en total. Y Sam Altman anunció un nuevo tier de ChatGPT Pro a cien dólares mensuales “por demanda popular”. La IA generativa ya no se está adoptando. Se está consumiendo.
En lo técnico, SWE-bench Verified — el indicador más citado para medir si un agente de IA puede resolver problemas reales de código — pasó del sesenta por ciento a casi el cien por ciento de la línea base humana en un solo año. Los modelos de frontera ya igualan o superan a los humanos en preguntas de ciencia a nivel de doctorado, razonamiento multimodal y matemáticas de competencia. Gemini Deep Think ganó medalla de oro en la Olimpiada Internacional de Matemáticas.
Pero aquí viene la letra chica que tanto nos gusta en El Vigía: el mejor modelo del mundo lee correctamente un reloj analógico solo la mitad de las veces. Los agentes de IA saltan del doce al sesenta y seis por ciento de éxito en OSWorld — el benchmark que les pone tareas reales en sistemas operativos —, pero todavía fallan una de cada tres veces. Y los robots domésticos solo completan el doce por ciento de las tareas del hogar. La frontera de la IA es irregular: brillante en lo abstracto, torpe en lo cotidiano. Gana olimpiadas de matemáticas pero no sabe qué hora es.
La nueva Guerra Fría ya tiene números
Uno de los hallazgos más geopolíticos del AI Index: la brecha entre Estados Unidos y China se cerró de facto. En febrero de 2025, DeepSeek R1 igualó brevemente al mejor modelo estadounidense. A marzo de 2026, el modelo puntero de Anthropic le lleva apenas un dos punto siete por ciento al mejor modelo chino. En la práctica, empate técnico.
Pero los perfiles son distintos. Estados Unidos produce más modelos de frontera, más patentes de alto impacto y domina en centros de datos: cinco mil cuatrocientos veintisiete, diez veces más que cualquier otro país. China lidera en volumen de publicaciones, citas, producción de patentes totales y en instalaciones de robots industriales. Corea del Sur destaca por densidad de innovación: más patentes de IA per cápita que nadie.
Y luego está la dependencia que nadie quiere ver de frente: prácticamente todos los chips de IA del planeta los fabrica una sola empresa, TSMC, en una sola isla, Taiwán. La expansión de TSMC en Arizona arrancó operaciones en 2025, pero el mundo sigue con todos los huevos en la misma canasta geográfica. Estados Unidos invirtió doscientos ochenta y cinco mil novecientos millones de dólares en IA el año pasado — veintitrés veces más que China en inversión privada — pero su capacidad de atraer talento global cayó ochenta por ciento en un solo año.
Y México, ¿dónde queda?
Mientras Stanford publicaba su radiografía, Kearney sacó su Índice Global de Confianza de Inversión Extranjera Directa 2026. México subió seis posiciones, del lugar veinticinco al diecinueve. Es la mejor posición del país en años. Las razones que dan los inversionistas: facilidad para hacer negocios, talento y fuerza laboral, desempeño económico.
Suena bien. Pero crúzalo con el AI Index y la foto cambia. Innovación tecnológica aparece apenas en quinto lugar entre las razones para invertir en México, con veintitrés por ciento. Infraestructura está en último lugar con dieciocho. Y en el mapa global de IA que dibuja Stanford, América Latina prácticamente no existe: ni en modelos de frontera, ni en patentes significativas, ni en centros de datos relevantes.
México está subiendo como destino de inversión justo cuando la IA está redefiniendo qué carajos significa “talento” y qué carajos significa “infraestructura”. La pregunta incómoda es si esa subida captura la nueva ola o si es la última ola del viejo modelo — nearshoring, manufactura, mano de obra competitiva — antes de que la economía de IA cambie las reglas.
El caso CREAO: qué significa de verdad ser “AI-first”
Mientras la mayoría de las empresas siguen “asistidas por IA” — un ingeniero con Cursor aquí, un PM con ChatGPT allá —, hay quien ya cruzó al otro lado. CREAO es una plataforma de agentes con veinticinco empleados que reconstruyó su proceso de ingeniería de cero alrededor de la IA. Su CTO — un físico de doctorado que se la ha rifado rediseñando todo en dos meses — reporta que el noventa y nueve por ciento de su código de producción lo escriben agentes. Despliegan entre tres y ocho veces al día. Un ciclo que antes les tomaba seis semanas ahora dura un día: concepto a las diez de la mañana, prueba A/B al mediodía, decisión de matar o mejorar a las tres, nueva versión en producción a las cinco.
OpenAI le puso nombre a lo que CREAO estaba haciendo antes de que lo nombraran: “harness engineering” — la idea de que el trabajo principal de un equipo de ingeniería ya no es escribir código sino construir el arnés que permite a los agentes hacer trabajo útil. Cuando algo falla, la pregunta no es “¿cómo lo arreglamos?” sino “¿qué capacidad le falta al agente y cómo se la hacemos legible?”
Lo más revelador del relato no es la tecnología. Es la parte humana. El CTO pasó de dedicar el sesenta por ciento de su tiempo a gestionar personas a menos del diez. Los ingenieros junior se adaptaron más rápido que los senior. Y hay gente en el equipo que pasa más tiempo debatiendo si la IA puede hacer su trabajo que haciendo el trabajo. Eso se siente familiar.
Donde sube la productividad, baja el empleo
El dato más incómodo del AI Index — y el que más cuesta digerir después de los ochenta mil despidos del trimestre pasado — es el takeaway número nueve: las ganancias de productividad por IA están apareciendo en los mismos campos donde el empleo de nivel de entrada está comenzando a caer.
Los estudios muestran ganancias de productividad del catorce al veintiséis por ciento en soporte al cliente y desarrollo de software. Pero en software, los desarrolladores estadounidenses de veintidós a veinticinco años cayeron casi veinte por ciento desde 2024, mientras que el número de desarrolladores mayores sigue creciendo.
CREAO vuelve a ser relevante: su CTO observó exactamente lo opuesto dentro de su equipo — los juniors se adaptaron más rápido que los seniors. La contradicción se resuelve cuando distingues entre los juniors que están dentro de un sistema “AI-first” y los que están fuera de él. Dentro, la IA los amplifica. Fuera, los reemplaza.
El costo que nadie quiere ver: agua, luz y CO2
El AI Index dedica un apartado a algo que tiende a perderse entre tanta carrera por la supremacía: la huella ambiental. Las emisiones estimadas de entrenamiento de Grok 4, el modelo de xAI, alcanzaron las setenta y dos mil ochocientas dieciséis toneladas de CO2 equivalente. La capacidad energética de los centros de datos de IA llegó a veintinueve punto seis gigawatts — comparable al consumo de todo el estado de Nueva York en hora pico. Y el consumo anual de agua de GPT-4o en inferencia podría exceder las necesidades de agua potable de doce millones de personas.
Son números que rara vez aparecen en los comunicados de prensa de los laboratorios.
Lo que la IA no puede hacer (todavía)
Para no terminar con puro drama. Los robots domésticos completan el doce por ciento de las tareas del hogar. La brecha entre el laboratorio y la cocina de tu casa sigue siendo un abismo. Los modelos de frontera superan a los químicos humanos en promedio, pero sacan veinte por ciento en astrofísica y treinta y tres por ciento en observación terrestre. Los incidentes documentados de IA subieron de doscientos treinta y tres a trescientos sesenta y dos — y la investigación reciente encontró que mejorar una dimensión responsable de la IA, como la seguridad, puede degradar otra, como la precisión.
Dario Amodei lo dijo esta semana con una claridad que se agradece: la ciberseguridad es el primer peligro claro de los modelos de frontera, pero no será el último. Si logramos resolverlo colectivamente, podría servir como plano de acción para lo que viene.
El Pichicuaz, por su parte, sigue sin encontrar croquetas que le caigan bien a sus veinte años. Eso sí que no lo resuelve ningún modelo de frontera.
Para comprender el texto
AI Index Report: Reporte anual de Stanford que mide el estado de la inteligencia artificial con datos públicos e independientes. Es la referencia más citada del campo. La edición 2026 es la novena.
SWE-bench Verified: Benchmark que mide si un agente de IA puede resolver problemas reales de ingeniería de software tomados de repositorios de código abierto. Es el indicador más usado para evaluar la capacidad práctica de los modelos.
OSWorld: Benchmark que evalúa a los agentes de IA en tareas reales dentro de sistemas operativos — navegar archivos, usar aplicaciones, configurar software. Mide lo que un asistente digital debería poder hacer en tu computadora.
Harness engineering: Concepto acuñado por OpenAI en febrero de 2026. Propone que el trabajo principal de un equipo de ingeniería ya no es escribir código sino construir el sistema — el “arnés” — que permite a los agentes de IA hacer trabajo útil de forma confiable y verificable.
Nearshoring: Práctica de trasladar operaciones productivas a países cercanos geográficamente. México ha sido el principal beneficiario de esta tendencia respecto a Estados Unidos, pero su ventaja depende de que la cercanía física siga importando.