- Hace 9 meses, el autor concluyó que la IA ya podía hacer análisis de seguridad de código lo suficientemente bien como para reemplazar de verdad a personas, y por eso fundó una startup
- Al inicio, cambiar de GPT-4o a Claude 3.5 Sonnet produjo una gran mejora cualitativa en la explicación de vulnerabilidades de seguridad y en la evaluación de su gravedad
- Pero después de eso, la mayoría de los modelos, incluidos Claude 3.6 y 3.7, no mostraron mejoras reales en los benchmarks internos ni en la capacidad de detectar bugs
- Las mejoras de rendimiento se debieron principalmente a avances generales de ingeniería, no al modelo de IA en sí
- Otras startups tuvieron experiencias similares, y la mayoría pasó por el ciclo de nuevo anuncio de modelo → buen desempeño en benchmarks → mejora mínima en el mundo real
- El autor considera que los avances actuales de los modelos de IA todavía no son significativos en términos de utilidad económica ni de capacidad de generalización
La brecha entre los benchmarks de IA y el rendimiento real
- Los modelos de IA sacan buenas calificaciones en pruebas, pero eso casi no se refleja en su capacidad para el trabajo real
- Los benchmarks suelen enfocarse en problemas cortos y aislados, por lo que no encajan bien con aplicaciones reales
- Como ejemplo, los modelos Claude tienen dificultades para mantener memoria de largo plazo, al punto de no poder terminar un juego de Pokémon
- Benchmarks como ‘Humanity’s Last Exam’ parecen importantes a primera vista, pero no evalúan adecuadamente la utilidad real
- El autor dice que, de ahora en adelante, al juzgar el rendimiento de la IA solo confiará en benchmarks basados en uso real, como Claude Plays Pokemon
Problemas de confiabilidad en los laboratorios de IA
- Los laboratorios de IA están en una competencia de escala civilizatoria, y algunos tienen incentivos para exagerar el rendimiento o publicar selectivamente solo los buenos resultados
- De hecho, muchos de los benchmarks usados por OpenAI, Anthropic y otros se basan en conjuntos de prueba públicos, por lo que existe posibilidad de manipulación
- Salvo evaluaciones semiprivadas como ARC-AGI, casi todos los resultados podrían estar basados en datasets ya vistos durante el entrenamiento
- La interpretación más optimista es que el problema no sea un límite técnico, sino simplemente trampa por parte de humanos
Razones estructurales por las que los benchmarks no reflejan la utilidad real
- Las pruebas de IQ en humanos sí se correlacionan con distintos logros reales, pero los benchmarks de IA no
- La mayoría de los benchmarks de IA están compuestos por acertijos independientes o problemas de resolución de corto plazo
- La IA sigue siendo muy débil en aspectos que los problemas reales sí exigen, como memoria, conciencia situacional y seguimiento de objetivos
- Los benchmarks son convenientes para desarrollar y evaluar, pero tienen poca relación con la capacidad integral en el mundo real
Los modelos de IA pueden ser inteligentes, pero el problema de alignment podría estar limitando su rendimiento
- La empresa del autor usa IA en revisiones reales de seguridad de código, pero los modelos no entienden bien el contexto de la tarea
- Los modelos no logran seguir la instrucción de reportar solo problemas que realmente afectan al servicio, y con frecuencia emiten advertencias innecesarias
- Esto se debe a que fueron entrenados para preferir respuestas que “parecen inteligentes”
- Para conversación eso puede funcionar, pero al integrarlos en sistemas los errores se acumulan y terminan causando problemas
- Intentar corregir solo los síntomas visibles es riesgoso a largo plazo, y hace falta resolver el problema de alignment de raíz
Reflexiones finales e implicaciones sociales
- Hoy la IA rinde por debajo de las expectativas exageradas que la rodean, y eso coincide con la experiencia cotidiana de muchos usuarios
- Antes de que sistemas de IA no alineados afecten a toda la sociedad, hace falta una comprensión y un diseño más fundamentales
- Más que benchmarks centrados solo en resultados, importa una evaluación cualitativa que refleje escenarios de uso real
5 comentarios
Coincido. La he estado usando bien con el modelo Claude 3.7 en Perplexity, pero recientemente también estoy usando Gemini 2.5 y de verdad la siento muy potente en rendimiento.
¿Por qué últimamente solo suben noticias que parecen de la prensa económica?
A mí me encanta...
Parece que hoy en día hay que poner títulos así de exagerados para llamar la atención.
Opiniones de Hacker News
Mi madre dijo que Paul Newman tenía problemas con el alcohol. Le pregunté a ChatGPT y respondió que Paul Newman no era conocido por tener problemas con el alcohol
En el USAMO reciente, los modelos SOTA obtuvieron en promedio un 5%. Esto sugiere que los modelos de IA en realidad no están resolviendo los problemas, sino recordando resultados pasados
Los LLM tienden a reportar cualquier cosa, así que muchas veces exageran
Leer las reacciones a este artículo es interesante. Muestra que nuestra reacción colectiva es muy diversa y está basada en anécdotas
Mi experiencia personal coincide con la opinión del autor
La mejora en los resultados de benchmarks y la falta de mejora en tareas reales reflejan la naturaleza de los LLM
Usé gemini 2.5 el fin de semana y me pareció excelente
Aunque el desarrollo de los LLM se detuviera ahora, seguiríamos encontrando nuevos usos durante los próximos 10 años
Como alguien que usa LLM y plugins de asistencia para programar, siento que GPT/Claude han empeorado en los últimos 12 meses