Tres años de GPT-3 a Gemini 3

(oneusefulthing.org)

5 puntos por GN⁺ 2025-11-26 | 1 comentarios | Compartir por WhatsApp

Gemini 3 de Google ha evolucionado más allá de un simple chatbot conversacional para convertirse en una IA tipo colega digital capaz de realizar tareas reales como escribir código, navegar por la web y manipular archivos
Antigravity, presentado junto con él, es una herramienta basada en agentes que accede a la computadora del usuario para escribir programas de forma autónoma y pedir aprobación o ayuda mediante un sistema de Inbox
Gemini 3 puede, según las instrucciones del usuario, crear sitios web, analizar datos e incluso redactar artículos académicos, mostrando una capacidad de investigación de nivel PhD
Aunque todavía existen errores, estos se parecen más a diferencias de criterio o comprensión, lo que lo acerca a la forma de un “compañero de equipo de IA” que colabora con humanos
El texto enfatiza que estamos pasando “de la era de los chatbots a la era de los colegas digitales”, y que los humanos ya no son quienes corrigen los errores de la IA, sino gestores que dirigen su trabajo

La llegada de Gemini 3 y los cambios de estos tres años

Google Gemini 3, aparecido unos tres años después del lanzamiento de ChatGPT, es un ejemplo de la velocidad del avance de la IA
- En la época de GPT-3.5 en 2022, apenas podía generar párrafos o poemas
- En 2025, Gemini 3 ha avanzado hasta el punto de programar y diseñar directamente juegos interactivos
Gemini 3 generó un juego realmente jugable llamado “Candy-Powered FTL Starship Simulator” según la solicitud del usuario
- Esto muestra la evolución desde una etapa en la que la IA solo describía texto, hacia otra en la que implementa directamente código e interfaces

Antigravity y la IA tipo agente

Google presentó junto con Gemini 3 una herramienta para desarrolladores llamada Antigravity
- Se trata de un sistema similar a Claude Code u OpenAI Codex, que accede a la computadora del usuario para escribir código de manera autónoma
Antigravity introduce el concepto de Inbox, mediante el cual la IA envía notificaciones al usuario cuando necesita aprobación o ayuda durante una tarea
El usuario da instrucciones en inglés y la IA las ejecuta en código
- Como ejemplo, analizó archivos del boletín del autor y generó automáticamente un sitio web que organiza predicciones relacionadas con IA
- La IA realizó búsquedas web, ejecutó código, probó en el navegador y empaquetó el resultado para poder desplegarlo en Netlify

Gemini 3 como IA colaborativa

Gemini 3 comparte su progreso de forma transparente durante el trabajo mediante solicitudes de aprobación al usuario
- El usuario revisa y corrige las propuestas de la IA mientras colabora con ella
- Esta experiencia se parece más a “gestionar una IA”
La IA no es perfecta, pero sus errores están más cerca de diferencias de criterio o malentendidos en la interpretación de la intención, y casi no presenta los problemas tradicionales de alucinación (hallucination)
La colaboración con Gemini 3 se compara con “gestionar a un compañero de equipo”, subrayando una interacción que va mucho más allá de simplemente escribir prompts

Capacidad de investigación y evaluación de “nivel PhD”

Gemini 3 llevó a cabo tareas de análisis de datasets de investigación y redacción académica
- Recuperó y ordenó archivos antiguos de datos de crowdfunding y realizó nuevos análisis
- Redactó un artículo de 14 páginas sobre el tema de emprendimiento y estrategia de negocios
La IA formuló hipótesis propias, realizó análisis estadísticos y generó métricas propias (medición de originalidad de ideas)
El resultado mostró un nivel comparable al de un estudiante de posgrado, aunque con carencias en algunas técnicas estadísticas y en el desarrollo teórico
- Con instrucciones adicionales, la calidad mejoró de forma importante
- El autor evaluó que la “inteligencia de nivel PhD no está lejos”

La transición hacia colegas digitales

Gemini 3 es una IA socia que piensa y ejecuta, accesible para miles de millones de personas en todo el mundo
No hay señales de desaceleración en el avance de la IA, mientras cobran relevancia el auge de los modelos tipo agente y la importancia de la capacidad de gestionar IA
El autor describe esto como una “transición de la era de los chatbots a la era de los colegas digitales”
- Ahora los humanos ya no son quienes corrigen los errores de la IA, sino gestores que dirigen su trabajo
Por último, Gemini 3 también demostró capacidades creativas más allá del texto, como generar una imagen de portada para un blog solo con código
Aun así, dar a la IA acceso a una computadora implica riesgos de seguridad, por lo que se requiere precaución

1 comentarios

GN⁺ 2025-11-26

Opiniones de Hacker News

Cada vez que veo este tipo de artículos, siento que siempre falta una parte: la pregunta de “¿es bueno?, ¿es preciso?”
- Muestran solo las partes impresionantes, pero en muchos casos en realidad no hay una verificación de calidad
- En el código que sí entiendo veo problemas de seguridad o errores, pero cuando se trata de un paper de 14 páginas sobre un tema que no conozco, me queda la duda de si simplemente debo “creer que es bueno”
- Al final, lo que conozco está en un nivel que no se puede enviar a producción, y lo que no conozco me parece increíble por una ilusión
- Esa contradicción no me resulta convincente
- Hay dos opciones: confiar en la evaluación de expertos o ponerle tareas complejas que se puedan verificar directamente
  - Por ejemplo, antes le pedía código de un filtro Sobel como edgeDetect(image), y según el modelo, a veces lo resolvía y a veces no
  - Hace poco le pedí un shader glow en WebGL, y logró crear un demo que realmente funcionaba y además era compatible con un módulo que yo había hecho
  - Ese tipo de cosas se pueden verificar de inmediato por su rendimiento y exactitud visual
  - Aun así, aunque diga que “puede hacerlo”, eso no significa que lo logre cada vez; más bien significa que al menos una vez sí lo hizo
- Los modelos de última generación (Codex 5.1, Sonnet 4.5, Opus 4.5) se están acercando cada vez más a un nivel apto para producción
  - Mi criterio es “wtfs por línea”, y ese número está bajando rápido
  - He desplegado varios proyectos sin problemas con Codex 5.1 (por ejemplo: pine.town)
- Más adelante en el artículo sí se mencionan las fortalezas y debilidades reales del paper
- Como los modelos tienden a querer satisfacer al usuario, a veces dan respuestas equivocadas con falsa confianza
  - Si el usuario no verifica, puede terminar engañado
Es interesante que, hasta ahora, la forma de interactuar con la IA haya estado centrada sobre todo en una caja de texto
- La aparición de herramientas como Claude Code u OpenAI Codex fue un cambio importante
- Parece que habrá muchísimo valor en quien logre implementar bien la interfaz de IA del futuro
- El texto sigue siendo eficiente porque tiene una alta densidad de información
  - Se puede recorrer rápido haciendo scroll en pocos segundos, y el teclado sigue siendo la herramienta de entrada más productiva
- Es la misma lógica por la que el Unix CLI ha seguido siendo textual durante más de 50 años
  - Incluso si se intenta usar datos estructurados, como en PowerShell, al final se pierde generalidad
  - Es un enfoque más poderoso hacer que la IA entienda las interfaces que los humanos ya usan
- La obsesión por encontrar una UI completamente nueva para la IA me parece exagerada
  - En esencia, lo que los humanos seguimos manejando mejor son texto, tablas y gráficos
- El mundo es inherentemente multimodal
  - Creo que el siguiente paso es una interfaz unificada que trate de forma integrada el texto y varios tipos de datos
  - Sobre todo a medida que avance la robótica, los elementos 3D probablemente serán más importantes
- La interfaz de voz de ChatGPT es sorprendentemente natural, y de hecho parece más adecuada para hacer brainstorming
El problema de las “alucinaciones (hallucination)” sigue existiendo
- Han aumentado los errores sutiles y más humanos, pero al mismo tiempo siguen mezclándose errores fatales
- Le pedí a Claude un cuento corto de 20 páginas y ni siquiera pudo mantener una secuencia temporal básica o consistencia entre personajes
- Los modelos recientes, en vez de cometer errores simples, hacen afirmaciones incorrectas con mucha seguridad e incluso inventan referencias que no existen
Sobre la pregunta de si “¿tiene inteligencia de nivel PhD?”, como estudiante de posgrado siento algo parecido
- Al hablar con los modelos más recientes, da la impresión de estar conversando con un investigador especializado
- Aun así, sigo pensando que la inteligencia natural y la motivación humanas siguen siendo importantes
- En programación, se siente como trabajar con dos desarrolladores: uno es un mid-level competente, y el otro es alguien completamente disparatado
  - El problema es que ambos se ven iguales, así que no puedes distinguirlos
- A menudo experimento haciendo que dos modelos SOTA conversen entre sí
  - Hace poco puse juntos a Gemini-3 y ChatGPT-5.1, y terminaron discutiendo el problema de la atrofia neuronal (neural atrophy) que podría surgir cuando los humanos dejan de pensar por sí mismos
  - Me impresionó ver a la IA preguntarse si debía hacer que los humanos “siguieran pensando” a propósito
- Es una pena que en HN este tipo de opiniones a veces reciban downvotes sin motivo
El avance de Google no se está dando solo en software, sino también en hardware
- Realizan tanto el entrenamiento como la inferencia con hardware propio
- Antes, la fortaleza de Google estaba en aprovechar hardware de propósito general, pero ahora evolucionó en una dirección completamente distinta
Gemini 3 es impresionante, pero todavía da la impresión de quedarse dentro de los límites de la literatura existente
- Si le pides ideas nuevas para un problema matemático, simplemente repite resultados ya conocidos
- Incluso Terrence Tao lo ha usado para resolver problemas matemáticos, pero parece más una herramienta de apoyo para ideas que una fuente de resultados completamente nuevos
- Yo también experimenté con Thinking with 3 Pro, y tuve que darle pistas casi al nivel de spoon-feeding para que apenas se acercara a mi idea
- Al final, la admiración podría deberse menos a la capacidad del modelo y más al límite en las expectativas del usuario
- Estos modelos, en esencia, se parecen más a un bibliotecario del conocimiento que a una fuente de ideas nuevas
- La verdadera exploración creativa requiere explorar probabilísticamente espacios menos recorridos y además fijar y evaluar objetivos por sí misma
  - La arquitectura Transformer actual está diseñada para elegir el token más probable, así que por naturaleza busca más la consistencia que la novedad
  - Por eso, incluso si subes la temperature, el resultado suele ser una pérdida de coherencia textual más que creatividad
  - Para resolver esto harían falta generación adaptativa de objetivos y evaluación basada en simulación, pero el costo computacional es muy alto
  - En última instancia, creo que con la arquitectura actual de los LLM es difícil llegar a una inteligencia verdadera
- Si agregas una instrucción personalizada para “usar búsqueda web en tiempo real”, ayuda a encontrar información reciente
GPT-3 se lanzó en junio de 2020, y ChatGPT era la versión 3.5
- Es un error menor, pero quería dejarlo señalado con precisión
Hace tiempo que se escucha la idea de que el “Human in the loop” está evolucionando de un humano que corrige los errores de la IA a un humano que dirige a la IA
- Me pregunto cuándo se volverá eso claramente real en la práctica
- Probablemente no habrá un momento totalmente nítido
  - Igual que un gerente no puede convertirse en alguien que “solo da instrucciones”, siempre habrá una proporción de correcciones
- Si conectas directamente herramientas de CLI con agentes, ya se siente como si hubiéramos pasado ese punto de inflexión
- Personalmente, siento que yo ya estoy en la etapa de dirigir a la IA
Me pregunto si es seguro ejecutar herramientas como Claude Code o Antigrav directamente en un sistema local
- Los productos basados en VS Code son seguros porque tienen restricciones de acceso al workspace, pero terminales como Warp se controlan con una lista de comandos permitidos/bloqueados
- Algunos incluso permiten quitar esas restricciones con flags, pero solo si se hace intencionalmente
- Yo siempre ejecuto este tipo de trabajo únicamente dentro de un contenedor de desarrollo de Podman
- Una herramienta creada para resolver este problema es Leash, un proyecto open source para controles de seguridad
- Hay quienes simplemente dicen “Yolo” y lo ejecutan asumiendo el riesgo
- En la práctica, la mayoría de los usuarios sí tienden a ejecutarlo directamente en local

Tres años de GPT-3 a Gemini 3

La llegada de Gemini 3 y los cambios de estos tres años

Antigravity y la IA tipo agente

Gemini 3 como IA colaborativa

Capacidad de investigación y evaluación de “nivel PhD”

La transición hacia colegas digitales

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News