6 puntos por GN⁺ 2025-04-07 | 5 comentarios | Compartir por WhatsApp
  • Hace 9 meses, el autor concluyó que la IA ya podía hacer análisis de seguridad de código lo suficientemente bien como para reemplazar de verdad a personas, y por eso fundó una startup
  • Al inicio, cambiar de GPT-4o a Claude 3.5 Sonnet produjo una gran mejora cualitativa en la explicación de vulnerabilidades de seguridad y en la evaluación de su gravedad
  • Pero después de eso, la mayoría de los modelos, incluidos Claude 3.6 y 3.7, no mostraron mejoras reales en los benchmarks internos ni en la capacidad de detectar bugs
  • Las mejoras de rendimiento se debieron principalmente a avances generales de ingeniería, no al modelo de IA en sí
  • Otras startups tuvieron experiencias similares, y la mayoría pasó por el ciclo de nuevo anuncio de modelo → buen desempeño en benchmarks → mejora mínima en el mundo real
  • El autor considera que los avances actuales de los modelos de IA todavía no son significativos en términos de utilidad económica ni de capacidad de generalización

La brecha entre los benchmarks de IA y el rendimiento real

  • Los modelos de IA sacan buenas calificaciones en pruebas, pero eso casi no se refleja en su capacidad para el trabajo real
  • Los benchmarks suelen enfocarse en problemas cortos y aislados, por lo que no encajan bien con aplicaciones reales
  • Como ejemplo, los modelos Claude tienen dificultades para mantener memoria de largo plazo, al punto de no poder terminar un juego de Pokémon
  • Benchmarks como ‘Humanity’s Last Exam’ parecen importantes a primera vista, pero no evalúan adecuadamente la utilidad real
  • El autor dice que, de ahora en adelante, al juzgar el rendimiento de la IA solo confiará en benchmarks basados en uso real, como Claude Plays Pokemon

Problemas de confiabilidad en los laboratorios de IA

  • Los laboratorios de IA están en una competencia de escala civilizatoria, y algunos tienen incentivos para exagerar el rendimiento o publicar selectivamente solo los buenos resultados
  • De hecho, muchos de los benchmarks usados por OpenAI, Anthropic y otros se basan en conjuntos de prueba públicos, por lo que existe posibilidad de manipulación
  • Salvo evaluaciones semiprivadas como ARC-AGI, casi todos los resultados podrían estar basados en datasets ya vistos durante el entrenamiento
  • La interpretación más optimista es que el problema no sea un límite técnico, sino simplemente trampa por parte de humanos

Razones estructurales por las que los benchmarks no reflejan la utilidad real

  • Las pruebas de IQ en humanos sí se correlacionan con distintos logros reales, pero los benchmarks de IA no
  • La mayoría de los benchmarks de IA están compuestos por acertijos independientes o problemas de resolución de corto plazo
  • La IA sigue siendo muy débil en aspectos que los problemas reales sí exigen, como memoria, conciencia situacional y seguimiento de objetivos
  • Los benchmarks son convenientes para desarrollar y evaluar, pero tienen poca relación con la capacidad integral en el mundo real

Los modelos de IA pueden ser inteligentes, pero el problema de alignment podría estar limitando su rendimiento

  • La empresa del autor usa IA en revisiones reales de seguridad de código, pero los modelos no entienden bien el contexto de la tarea
  • Los modelos no logran seguir la instrucción de reportar solo problemas que realmente afectan al servicio, y con frecuencia emiten advertencias innecesarias
  • Esto se debe a que fueron entrenados para preferir respuestas que “parecen inteligentes
  • Para conversación eso puede funcionar, pero al integrarlos en sistemas los errores se acumulan y terminan causando problemas
  • Intentar corregir solo los síntomas visibles es riesgoso a largo plazo, y hace falta resolver el problema de alignment de raíz

Reflexiones finales e implicaciones sociales

  • Hoy la IA rinde por debajo de las expectativas exageradas que la rodean, y eso coincide con la experiencia cotidiana de muchos usuarios
  • Antes de que sistemas de IA no alineados afecten a toda la sociedad, hace falta una comprensión y un diseño más fundamentales
  • Más que benchmarks centrados solo en resultados, importa una evaluación cualitativa que refleje escenarios de uso real

5 comentarios

 
ifmkl 2025-04-08

Coincido. La he estado usando bien con el modelo Claude 3.7 en Perplexity, pero recientemente también estoy usando Gemini 2.5 y de verdad la siento muy potente en rendimiento.

 
say8425 2025-04-07

¿Por qué últimamente solo suben noticias que parecen de la prensa económica?

 
sjisrich 2025-04-07

A mí me encanta...

 
kandk 2025-04-07

Parece que hoy en día hay que poner títulos así de exagerados para llamar la atención.

 
GN⁺ 2025-04-07
Opiniones de Hacker News
  • Mi madre dijo que Paul Newman tenía problemas con el alcohol. Le pregunté a ChatGPT y respondió que Paul Newman no era conocido por tener problemas con el alcohol

    • ChatGPT explicó que su carrera como actor, su labor benéfica y su pasión por las carreras de autos habían recibido más atención
    • Sin embargo, en internet hay mucha evidencia sobre sus problemas con el alcohol, incluido el testimonio de su esposa Joanne Woodward
    • Cuando le envié la respuesta de ChatGPT a mi madre, ella encontró una fuente autorizada en 5 minutos
    • Uso ChatGPT todos los días, pero no podía entender cómo podía equivocarse en algo tan simple
    • Aprendí la lección de no poner en duda el conocimiento cinematográfico de mi madre
  • En el USAMO reciente, los modelos SOTA obtuvieron en promedio un 5%. Esto sugiere que los modelos de IA en realidad no están resolviendo los problemas, sino recordando resultados pasados

    • A pesar de estos resultados, las empresas no publican sus esfuerzos por eliminar datos de exámenes de los datos de entrenamiento
  • Los LLM tienden a reportar cualquier cosa, así que muchas veces exageran

    • Tienden a responder "sí" a las preguntas
    • La competencia entre LLM sigue elevando los puntajes en benchmarks, pero esas mejoras son ilusorias
    • Los LLM tienden a estar de acuerdo, y eso no mejora
    • Es importante evaluar los modelos en escenarios de agentes
  • Leer las reacciones a este artículo es interesante. Muestra que nuestra reacción colectiva es muy diversa y está basada en anécdotas

    • Algunas personas tendrán razón y otras estarán equivocadas, y me da curiosidad qué rasgos señalan la capacidad de tomar una "mejor decisión" sobre la IA
  • Mi experiencia personal coincide con la opinión del autor

    • Los LLM están entrenados para "sonar inteligentes" en la conversación con el usuario, así que tienden a enfatizar el problema
    • Eso coincide con el propósito del lenguaje en la mayoría de las situaciones, y los LLM están entrenados con lenguaje
  • La mejora en los resultados de benchmarks y la falta de mejora en tareas reales reflejan la naturaleza de los LLM

    • Los LLM son sistemas de predicción, y si se entrenan en un dominio específico, su rendimiento en ese dominio mejora
    • No esperaría que entrenar matemáticas avanzadas mejore la capacidad de programación
  • Usé gemini 2.5 el fin de semana y me pareció excelente

    • Depende del caso de uso, y todavía no está claro hacia dónde nos llevarán los LLM
  • Aunque el desarrollo de los LLM se detuviera ahora, seguiríamos encontrando nuevos usos durante los próximos 10 años

    • La tecnología está avanzando tan rápido que me asustan sus consecuencias
    • Espero que llegue al punto de rendimientos decrecientes, pero no lo creo
  • Como alguien que usa LLM y plugins de asistencia para programar, siento que GPT/Claude han empeorado en los últimos 12 meses

    • Creo que los modelos ya son "suficientemente buenos", y que ahora deberíamos ver mejoras en las herramientas y aplicaciones
    • Creo que MCP es un buen paso en la dirección correcta, pero en general soy escéptico