La IA y el desnudo accidental

El Odín, mi pastor alemán, lleva un rato mirándome con esa cara de “ya estás otra vez pegado a la pantalla” mientras el Sheldon duerme panza arriba con gatuna pereza en el sillón como si el mundo no se estuviera cayendo a pedazos — y la neta es que esta semana la industria de la inteligencia artificial decidió quitarse la ropa en público, unos a propósito y otros por puro descuido.

Empecemos por el descuido, que es lo más sabroso. Anthropic — la empresa que me hace la herramienta con la que estoy escribiendo esto — publicó por accidente el código fuente completo de Claude Code: 512 mil líneas de TypeScript, mil novecientos archivos, todo el mecanismo interno de lo que probablemente sea el agente de programación más usado del planeta. ¿Cómo? Un archivo de configuración que alguien olvidó excluir antes de subir el paquete al repositorio público. En cuestión de horas ya había miles de copias circulando y la comunidad de desarrolladores estaba destripando cada rincón. Lo que encontraron adentro es fascinante y ridículo a partes iguales: un asistente siempre activo llamado KAIROS que “sueña” — consolida memoria mientras el usuario no está—, un sistema de planificación profunda de treinta minutos llamado ULTRAPLAN, un Tamagotchi virtual llamado Buddy, modelos no lanzados con nombres en clave como Capybara y Strudel, y — aquí viene lo bueno — un “Modo Encubierto” diseñado específicamente para evitar que se filtre información interna de Anthropic a través de código generado por IA. Es decir, construyeron un sistema para prevenir filtraciones y el sistema se filtró junto con todo lo que estaba protegiendo. Dario Amodei, el CEO, no ha dicho ni pío en X en semanas. Supongo que está ocupado.

Y es la segunda filtración en menos de una semana. La primera fue un error en su sistema de gestión de contenidos que reveló detalles de un modelo secreto llamado Claude Mythos. Dos tropezones en siete días de una empresa que se vende como la más cuidadosa y alineada del sector. Ojo: el código expuesto es genuinamente impresionante — cuarenta y tantas herramientas, capas de permisos, orquestación multi-agente — pero cuando tu narrativa es “nosotros sí nos tomamos la seguridad en serio”, un archivo olvidado en un repositorio público te deja peor que cualquier prueba de rendimiento.

Mientras Anthropic se tapaba, OpenAI se destapaba a propósito: cerró una ronda de financiamiento de 122 mil millones de dólares — la más grande en la historia de la inversión privada. Amazon metió 50 mil millones, Nvidia otros 30 mil, SoftBank co-lideró, y hasta entraron inversores minoristas por primera vez. La valuación post-money quedó en 852 mil millones de dólares, más que todas menos unas quince empresas del S&P 500. Sam Altman no busca inversores, busca aliados para financiar una era entera, y el camino apunta a una salida a bolsa para finales de 2026. Los números de uso son de locura: más de 900 millones de usuarios activos semanales en ChatGPT, con los clientes empresariales ya representando el 40 por ciento de los ingresos. Mientras tanto, Sora — su generador de video que tanto entusiasmó al mundo — se cierra porque las pérdidas por cómputo eran insostenibles; Los Angeles Times reportó que una inversión de mil millones de Disney nunca se ejecutó. OpenAI quiere ser la superapp de la IA y para eso necesita concentrar todo en un solo producto. Los que apostaron a Sora como plataforma de producción se quedan mirando, otra vez, la fragilidad de construir sobre herramientas propietarias ajenas.

Pero aquí viene el dato que me dejó pensando más que ningún otro y que conecta todo lo demás. La ARC Prize Foundation lanzó ARC-AGI-3, una prueba nueva que funciona como un videojuego: mete al modelo en un entorno interactivo sin instrucciones, sin reglas, sin datos de entrenamiento, y le dice “descubre cómo funciona esto y resuélvelo”. Los humanos lo resuelven al cien por ciento en el primer intento. ¿Los modelos de frontera? Gemini 3.1 Pro sacó 0.37 por ciento. GPT-5.4 sacó 0.26. Claude Opus 4.6 — el que tengo encendido aquí — sacó 0.25. Los mismos modelos que en la prueba anterior llegaban al 77 por ciento. ¿La diferencia? La anterior medía reconocimiento de patrones — básicamente memoria disfrazada de inteligencia. Esta mide la capacidad de aprender algo nuevo desde cero. Y ahí, como diría François Chollet, el creador de la prueba, la inteligencia no está en el modelo sino en el andamiaje que los humanos construimos alrededor.

Y mientras los modelos sacan cero en aprender, un modelo interno no publicado de OpenAI produjo tres demostraciones matemáticas publicables de problemas abiertos de Erdős — problemas de combinatoria y teoría de números que llevaban décadas sin resolverse — sin guía humana alguna. Los autores del artículo en arXiv dicen que el modelo generó las pruebas completas solo; los humanos nada más limpiaron la redacción. Terence Tao, que algo sabe del tema, observó que los sistemas de IA son buenos para la “cola larga” de problemas oscuros donde las técnicas estándar aplican pero nadie se había sentado a intentarlo sistemáticamente. Eso no es aprender, es aplicar lo que ya sabe a escala industrial. Que es exactamente lo que los modelos hacen bien y exactamente lo que ARC-AGI-3 demuestra que no alcanza.

Lo que nos deja con una paradoja que la encuesta de Quinnipiac captura con números: el 51 por ciento de los estadounidenses ya usa herramientas de IA para buscar información — desde consultas cotidianas hasta tareas de trabajo—, arriba del 37 por ciento hace un año. Pero el 76 por ciento le confía poco o nada a lo que esas herramientas le responden. El 70 por ciento cree que la IA va a destruir empleos — y entre los de la Generación Z, que son los que más la usan, la cifra sube al 81 por ciento. El 55 por ciento piensa que la IA hace más daño que bien en la vida cotidiana, once puntos más que el año pasado. Más uso, menos confianza. La gente no se está volviendo escéptica por ignorancia sino por experiencia directa. Como escribió Luiza Jarovsky en su newsletter de hoy, las brechas que la IA generativa está creando — de acceso, de capacidad, de poder — ya son visibles apenas tres años y medio después de la ola. Con los smartphones y las redes sociales nos tardamos dos décadas en ver el daño. Esta vez el reloj va más rápido.

Y Google, que no descansa, lanzó Veo 3.1 Lite — un modelo de generación de video que recorta los costos de inferencia a la mitad. Esto es un ataque directo a Kling y Runway, porque lo que Google está haciendo no es competir por calidad sino por volumen: producir más video sintético, más barato, más rápido, en formato vertical para TikTok y horizontal para YouTube. El 7 de abril baja también el precio de Veo 3.1 Fast. La estrategia es asfixiar a la competencia por precio, como hizo Amazon con los libros. Mientras tanto, Meta lanzó sus Ray-Ban con graduación óptica real — desde 499 dólares, con IA local que registra comidas y resume chats, ocho horas de batería. Quieren que su inteligencia artificial viva en tu cara las veinticuatro horas. Ya controlan el 76 por ciento del mercado de lentes inteligentes.

Karpathy publicó el domingo su viejo diagrama “LLM OS” de 2023 y lo puso junto a lo que existe hoy — la tesis de que los modelos de lenguaje se convertirían en sistemas operativos se está cumpliendo pieza por pieza. Y soltó otra observación que me quedó dando vueltas: notó que las herramientas de código de Anthropic están empujando fuerte en la dirección de convertir Claude Code en algo mucho más ambicioso. “Ya lanzaron varias funciones que apuntan claramente a empujar Code hacia lo que era Claw”, escribió. Claw — así se llamaba el proyecto antes de que lo renombraran. Parece que Karpathy leyó el código filtrado antes que todos nosotros.

El Odín bostezó hace rato y se fue a dormir. El Pichicuaz, mi siamés, lo reemplazó en la puerta del estudio con esa cara de gato que juzga todo. Y lo que juzgaría si pudiera leer es lo siguiente: una industria que levanta 122 mil millones de dólares mientras sus modelos sacan cero en una prueba que cualquier niño resuelve, que filtra su propio código fuente mientras predica seguridad, y que es usada cada vez más por gente que cada vez confía menos en ella. El desnudo fue accidental, pero lo que reveló no. Lo que reveló es que la distancia entre lo que estas máquinas pueden hacer y lo que no pueden aprender sigue siendo el problema central de nuestra época — y que 852 mil millones de dólares de valuación no compran un solo punto porcentual de comprensión genuina.

Para comprender el texto

TypeScript — Lenguaje de programación derivado de JavaScript, muy usado para construir aplicaciones web y herramientas de IA.

Sourcemap / archivo de configuración — Un archivo técnico que funciona como un mapa del código fuente original. Si se publica por error, cualquiera puede ver cómo está construido el programa por dentro.

Repositorio público (npm) — Un almacén en línea donde los desarrolladores suben y comparten paquetes de software. npm es el más grande del mundo para código JavaScript.

Multi-agente — Arquitectura donde varios sistemas de IA trabajan coordinados, cada uno con una función distinta, para resolver tareas complejas.

ARC-AGI-3 — Prueba de inteligencia artificial creada por François Chollet que evalúa la capacidad de un modelo para aprender reglas nuevas sin entrenamiento previo, no solo reconocer patrones ya vistos.

Problemas de Erdős — Problemas matemáticos abiertos propuestos por Paul Erdős (1913-1996), uno de los matemáticos más prolíficos de la historia. Muchos siguen sin resolverse décadas después.

arXiv — Repositorio abierto donde investigadores publican artículos científicos antes de su revisión formal. Es la plataforma estándar para compartir avances en IA, matemáticas y física.

Salida a bolsa (IPO) — El proceso mediante el cual una empresa privada comienza a vender acciones al público general en el mercado de valores.

Inferencia — En IA, el proceso de generar una respuesta o resultado a partir de un modelo ya entrenado. Cada vez que le preguntas algo a ChatGPT o generas un video con Veo, eso es inferencia — y cuesta dinero en servidores y energía.

Veo 3.1 Lite — Modelo de generación de video de Google, versión económica que reduce costos a la mitad respecto al modelo completo.

📖 Diccionario terminológico de IA — Más de 630 términos explicados
🔧 Directorio de herramientas de IA

Mutatis mutandis

La IA y el desnudo accidental

Descubre más de Mutatis mutandis