1 puntos por GN⁺ 1 시간 전 | 1 comentarios | Compartir por WhatsApp
  • AlphaEvolve es un agente de programación basado en Gemini que comenzó con el diseño de algoritmos avanzados y ha ampliado su alcance a problemas abiertos de matemáticas e informática, optimización de la infraestructura de Google y desafíos científicos e industriales
  • En genómica, mejoró DeepConsensus y redujo los errores de detección de variantes en 30%; en redes eléctricas, ayudó a elevar la tasa de hallazgo de soluciones factibles para el problema de AC Optimal Power Flow de 14% a más de 88%
  • En ciencias de la Tierra, automatizó la optimización del modelo Earth AI y mejoró en 5% la precisión global de predicción de riesgos de desastres naturales en 20 categorías, como incendios forestales, inundaciones y tornados; en física cuántica, propuso circuitos cuánticos con errores 10 veces menores que la línea base previa en el Willow quantum processor
  • En matemáticas, contribuyó junto con Terence Tao a resolver un problema de Erdős, mejoró cotas inferiores para el Traveling Salesman Problem y los Ramsey Numbers, y también se usó en modelos interpretables de neurociencia, microeconomía, criptografía, datos sintéticos y mitigaciones de seguridad para IA
  • En la infraestructura de Google, se utilizó en el diseño de la próxima generación de TPU, políticas de reemplazo de caché, heurísticas de compactación de LSM-tree en Google Spanner y optimización de compiladores; en aplicaciones comerciales, logró duplicar la velocidad de entrenamiento de Klarna, mejorar en 10.4% la eficiencia de rutas de FM Logistic y acelerar cerca de 4 veces el entrenamiento e inferencia de MLFF en Schrödinger

Impacto social y sostenibilidad

  • Genómica

    • AlphaEvolve se utilizó para mejorar DeepConsensus, el modelo de corrección de errores de secuenciación de ADN desarrollado por Google Research, reduciendo en 30% los errores de detección de variantes
    • Esta mejora ayuda a los científicos de PacBio a analizar datos genéticos con mayor precisión y a menor costo
    • Aaron Wenger, de PacBio, señaló que la solución descubierta por AlphaEvolve aumenta de forma significativa la precisión de los equipos de secuenciación y podría permitir a los investigadores descubrir mutaciones causantes de enfermedades que antes permanecían ocultas, gracias a datos de mayor calidad
  • Optimización de redes eléctricas

    • AlphaEvolve se aplicó al problema de AC Optimal Power Flow
    • Ayudó a elevar la tasa con la que un modelo entrenado de Graph Neural Network (GNN) encuentra soluciones factibles para ese problema de 14% a más de 88%
    • Como resultado, se redujo de forma importante la necesidad de etapas de posprocesamiento costosas en la red eléctrica
  • Ciencias de la Tierra

Avances en la frontera de la investigación

Mejoras en infraestructura de IA

  • AlphaEvolve dejó de ser una prueba piloto para convertirse en un componente central de la infraestructura de Google
  • Se utiliza como herramienta regular para optimizar el diseño de la próxima generación de TPU
  • Descubrió una política de reemplazo de caché más eficiente, logrando en solo dos días una tarea que antes requería meses de trabajo intensivo por parte de personas
  • Jeff Dean afirmó que AlphaEvolve ya comenzó a optimizar el nivel más bajo del hardware que impulsa el stack de IA, y que propuso diseños de circuitos eficientes aunque contraintuitivos que se integraron directamente en el silicio de la siguiente generación de TPU
  • AlphaEvolve mejoró la heurística de compactación de Log-Structured Merge-tree de Google Spanner, aumentando su eficiencia
  • Esta optimización redujo en 20% la amplificación de escritura (write amplification), es decir, la proporción de datos escritos al almacenamiento frente a la solicitud original
  • AlphaEvolve también aportó ideas para una nueva estrategia de optimización de compiladores que reduce casi 9% el uso de almacenamiento del software

Expansión de aplicaciones comerciales

  • Junto con Google Cloud, AlphaEvolve se está ofreciendo a empresas comerciales de múltiples industrias
  • En servicios financieros, Klarna usó AlphaEvolve para optimizar uno de sus grandes modelos transformer, mejorando la calidad del modelo y duplicando la velocidad de entrenamiento
  • En manufactura de semiconductores, Substrate aplicó AlphaEvolve a su framework de litografía computacional, multiplicando la velocidad de ejecución y permitiendo simulaciones avanzadas de semiconductores a mayor escala
  • En logística, FM Logistic optimizó problemas complejos de rutas como el Traveling Salesman Problem, mejorando la eficiencia de rutas en 10.4% frente a una solución previamente muy optimizada y ahorrando más de 15,000 km de desplazamientos al año
  • En publicidad y marketing, WPP refinó componentes de modelos de IA y trabajó con datos complejos de campañas de alta dimensionalidad mediante AlphaEvolve, mejorando la precisión en 10% frente a una optimización manual competitiva del modelo
  • En materiales computacionales y ciencias de la vida, Schrödinger aplicó AlphaEvolve y logró una aceleración de cerca de 4 veces tanto en entrenamiento como en inferencia de Machine Learned Force Fields (MLFF)
  • Gabriel Marques, de Schrödinger, señaló que una inferencia de MLFF más rápida reduce los ciclos de I+D en descubrimiento de fármacos, diseño de catalizadores y desarrollo de materiales, permitiendo a las empresas evaluar candidatos moleculares en días en lugar de meses y generando un impacto real en el negocio

Dirección futura

  • Durante el último año, AlphaEvolve se ha consolidado rápidamente como un sistema multipropósito de uso general
  • Muestra que el próximo gran avance podría estar impulsado por algoritmos capaces de aprender, evolucionar y optimizarse por sí mismos
  • Google DeepMind busca ampliar las capacidades de AlphaEvolve y aplicarlo a desafíos externos más amplios

1 comentarios

 
GN⁺ 1 시간 전
Comentarios de Hacker News
  • Me recordó a "Don't fall into the anti-AI hype" de Antirez [0]
    En una sola línea: estos modelos fundacionales son realmente muy buenos para optimizar espacios de problemas muy de alto nivel pero muy bien definidos, como “haz más rápida la multiplicación de matrices”. En el caso de Antirez era “haz Redis más rápido”
    Las reacciones se dividieron entre “esto jamás servirá para mi trabajo” y “terminó en una hora algo que tomaría meses”, y creo que ambas son correctas. Da gusto que Antirez siga logrando resultados después [1], pero también creo que está bien pensar que gran parte del trabajo que hace la mayoría de la gente —con mucho conocimiento tácito, centrado en sistemas humanos y definido de forma ambigua— es difícil de abordar para un LLM, o quizá ni siquiera era para eso desde el principio
    [0] https://antirez.com/news/158
    [1] https://antirez.com/news/164

    • La verdad, ya no lo creo tanto. Los modelos han empezado a manejar bastante bien la ambigüedad, y Claude Code ahora me hace preguntas cuando hay partes ambiguas
      Pronto todas las reuniones estarán grabadas y transcritas, y se guardarán en un lugar bien indexado donde un agente pueda buscar cuando se encuentre con ambigüedad. Si hoy puede preguntar, entonces en un entorno así también podrá buscar la respuesta por su cuenta. De hecho, si ya tienes una buena documentación en Notion o Confluence, eso ya pasa; el problema es que casi no hay organizaciones así
      Reforzar por aprendizaje por refuerzo la “identificación de ambigüedad” será más difícil que hacerlo con algoritmos de rendimiento, pero no imposible, y creo que ya está en marcha. Ahora es cuestión de tiempo
    • Claude y otros me han servido bastante para implementar rápido algoritmos que yo ya había pensado. Eso sí, hay que hacer muchas preguntas de control y revisar el código
      Son débiles para inventar desde cero algoritmos poco comunes, y muy seguido meten atajos ridículamente cortoplacistas. Por ahora siguen siendo una herramienta, no un artesano que domina hábilmente las herramientas. Eso irá cambiando poco a poco, y también se irá reduciendo el nicho donde ganan los algoritmos raros
    • Al final, el factor parece ser una de dos cosas: “sorprendente, mejoró la eficiencia en 1%” o “perdí una hora depurando una API alucinada de forma estúpida”
      Es realmente difícil juzgar cuál de los dos gana en promedio
    • ¿Y si la investigación asistida por IA empuja a la IA más allá de los LLM? ¿Ves imposible que eso ocurra?
    • Decir que “los LLM no pueden con trabajos llenos de conocimiento tácito, centrados en sistemas humanos y definidos ambiguamente” probablemente se verá como algo muy miope hacia 2030
  • A los CEOs de IA les encanta hablar largamente de cómo la IA va a curar el cáncer, pero en realidad el único que parece estar atacando activamente ese tipo de problemas de investigación es DeepMind
    OpenAI y Anthropic más bien parecen estar persiguiendo ingresos empresariales e ingresos por programación

    • Google puede autofinanciarse con su fondo de guerra, pero OpenAI y Anthropic están en posición de pedirle dinero a inversionistas
  • ¿La gente de Google está satisfecha usando agentes de programación Gemini en vez de Claude Code o Codex? No lo digo con sarcasmo, de verdad me da curiosidad

    • Sí. El modelo es bueno y rápido, y las herramientas internas ya se pusieron al día
      Todavía hay cosas por ordenar en UI/UX/herramientas, integración con sistemas de control de versiones y problemas más profundos que no es fácil comentar, pero creo que la mayoría de las quejas tienen más que ver con la velocidad del cambio que con la capacidad real
      Lo interesante es que varias personas influyentes dentro de la empresa dicen con fuerza que prefieren el modelo Flash al modelo Pro. Independientemente de si eso es cierto, es interesante que hayamos llegado a una etapa donde un modelo “mejor” no necesariamente es más útil, y donde combinar un modelo más rápido con mejoras en el arnés puede ser un mejor punto intermedio
    • Si te refieres a la Gemini VS Code Extension, es pésima comparada con Claude Code o Codex. No sé cómo sigue en operación en este estado
      Hay timeouts constantes, modos de fallo extraños y el problema de que para cambiar de modo tienes que empezar un chat nuevo. Aun así, eso parece más un problema de la extensión que del modelo Gemini en sí
      Dejando de lado la parte de la extensión de VS Code y viendo solo la resolución real de problemas, los tres modelos premier son excelentes agentes de programación para mi uso
    • Programar no es el único uso de Gemini ni de modelos como este. Este artículo tampoco trata de programación
      Puede que Gemini no sea el mejor agente de programación, pero sí puede ser muy bueno para otras cosas
    • El mes pasado Steve Yegge dio a entender que no: https://xcancel.com/Steve_Yegge/status/2043747998740689171
    • Por lo que he hablado con gente de Google, la mayoría estaba descontenta con los agentes internos de Gemini y parece pensar que últimamente han empeorado bastante
      Se les olvida por completo cómo hacer llamadas a herramientas, pierden mucho tiempo en eso y al final se rinden, o ignoran totalmente las guías de estilo de código de archivos tipo AGENTS.md
      Mi experiencia corriendo Gemma 4 en local fue parecida. Después de una o dos llamadas a herramientas, empieza a hacerlas a su manera. Apenas ayer vi que redefinió una herramienta como read_file(start, end) a read_file(start, number_of_bytes), y ni siquiera admitía la posibilidad de estar equivocado
  • Si la IA mejora por sí sola, o al menos mejora la arquitectura sobre la que corre, entonces la singularidad estaría cerca, tal como dice la gente
    Fuera de generar datos sintéticos o probar modelos, ¿hay otros casos en los que la IA se haya usado para mejorar un LLM?

    • Que la IA se vuelva más competente a sí misma y que optimice el software usado para entrenamiento e inferencia de IA son cosas tan distintas como manzanas y naranjas
      Un transformer más eficiente solo reduce el costo de ejecución
      Para decir “la IA mejora a la IA”, una generación de IA tendría que diseñar la siguiente generación de IA de forma fundamentalmente más competente que ella misma. No solo hacerla más rápida o más barata, sino algo al nivel de que un cerebro reptiliano diseñe de forma autónoma un cerebro mamífero
      Incluso conectada a un arnés inteligente como AlphaEvolve, no creo que un LLM tenga ese tipo de creatividad. Aunque podría haber una excepción si la arquitectura de la siguiente generación estuviera escondida de forma evidente como una combinación de componentes que un LLM pueda ser inducido a predecir
      La ruta más probable es que, tras algunos pasos más de innovación humana hacia la AGI, aparezca una IA capaz de innovación autónoma, no solo de generación combinatoria basada en prompts
    • Sí. Cuando publicaron AlphaEvolve el año pasado, mejoraron con un modelo Gemini anterior un kernel usado para entrenar los modelos de esta generación, y lograron que la ejecución del entrenamiento fuera 1% más rápida. No es enorme, pero igual cuenta
    • Lo más viral recientemente creo que fue https://github.com/karpathy/autoresearch
    • ¿La auto-mejora necesariamente implicaría una singularidad?
      ¿No podría haber restricciones lo bastante fuertes como para hacer imposible una singularidad, o un horizonte temporal tan largo que no sea práctico?
    • Personalmente creo que “la IA se mejora a sí misma” es algo para observar en 2027
      Todos los grandes laboratorios de IA están avanzando fuerte en proyectos de agentes de investigación, especialmente agentes para mejorar la propia IA, y espero que muchos de ellos salgan de la fase experimental este año
      El próximo año realmente harán mucho trabajo, y creo que veremos el primer gran cambio arquitectónico válido co-inventado por IA
  • ¿Cuántas veces más voy a tener que escuchar lo del problema de Erdős? :) Al principio suena como un gran logro de la humanidad, pero con el tiempo vuelve una y otra vez

    • Ya solo quedan como 700 problemas de Erdős abiertos, así que cuando se resuelvan todos por fin podremos descansar
  • Mientras tanto, Gemini CLI lleva meses roto
    https://github.com/google-gemini/gemini-cli/issues/22141

  • Ojalá Google se enfoque en el lanzamiento oficial de los modelos Gemini 3.x y dé suficiente capacidad como para no tener que seguir peleando con errores 429
    Muchas veces da la impresión de que no quieren que desarrolles aplicaciones para clientes empresariales con Vertex API. Es una pena, considerando lo bueno que ha sido el modelo en cosas como análisis de documentos

    • ¿Lo haces en el plan gratuito? En el plan gratuito he visto muchos más 429
  • Todos los papers de *Evolve tienen resultados muy impresionantes, pero al revisar la información pública me queda la impresión de que la atención se concentra en el lado LLM y de IA
    Sin embargo, los resultados reportados casi siempre vienen de entornos extremadamente bien diseñados para que los LLM y los algoritmos evolutivos funcionen bien
    Este paper es un gran ejemplo de eso y vale la pena leerlo
    Magellan: Autonomous Discovery of Novel Compiler Optimization Heuristics with AlphaEvolve
    https://arxiv.org/abs/2601.21096

  • Es una solución sumamente simple para mejorar algoritmos. Ojalá hubiera existido algo así hace unos años cuando yo hacía activation engineering: https://blog.n.ichol.ai/llm-activation-engineering-an-easy-f...
    ¿Cómo se puede acceder a AlphaEvolve?

    • Es puro contenido para presumir. Básicamente significa: conviértete en una empresa de mil millones de dólares o lárgate
  • El problema que he sentido con Claude es simple: incluso en tareas sencillas infla demasiado el código y los outputs, y a veces ni siquiera funcionan
    Gemini logra bastante bien un equilibrio más fácil de mantener: da soluciones que sí funcionan, con justo la cantidad de código necesaria y la mínima complejidad
    Hoy en día solo recurro a Claude para código frontend, sobre todo HTML. Incluso ahí mete demasiado CSS y termina ocupando como el 60% del archivo, pero aun así da una sensación un poco más pulida, así que por ahora acepto el aumento en tamaño del archivo