5 puntos por GN⁺ 2025-11-26 | 1 comentarios | Compartir por WhatsApp
  • Gemini 3 de Google ha evolucionado más allá de un simple chatbot conversacional para convertirse en una IA tipo colega digital capaz de realizar tareas reales como escribir código, navegar por la web y manipular archivos
  • Antigravity, presentado junto con él, es una herramienta basada en agentes que accede a la computadora del usuario para escribir programas de forma autónoma y pedir aprobación o ayuda mediante un sistema de Inbox
  • Gemini 3 puede, según las instrucciones del usuario, crear sitios web, analizar datos e incluso redactar artículos académicos, mostrando una capacidad de investigación de nivel PhD
  • Aunque todavía existen errores, estos se parecen más a diferencias de criterio o comprensión, lo que lo acerca a la forma de un “compañero de equipo de IA” que colabora con humanos
  • El texto enfatiza que estamos pasando “de la era de los chatbots a la era de los colegas digitales”, y que los humanos ya no son quienes corrigen los errores de la IA, sino gestores que dirigen su trabajo

La llegada de Gemini 3 y los cambios de estos tres años

  • Google Gemini 3, aparecido unos tres años después del lanzamiento de ChatGPT, es un ejemplo de la velocidad del avance de la IA
    • En la época de GPT-3.5 en 2022, apenas podía generar párrafos o poemas
    • En 2025, Gemini 3 ha avanzado hasta el punto de programar y diseñar directamente juegos interactivos
  • Gemini 3 generó un juego realmente jugable llamado “Candy-Powered FTL Starship Simulator” según la solicitud del usuario
    • Esto muestra la evolución desde una etapa en la que la IA solo describía texto, hacia otra en la que implementa directamente código e interfaces

Antigravity y la IA tipo agente

  • Google presentó junto con Gemini 3 una herramienta para desarrolladores llamada Antigravity
    • Se trata de un sistema similar a Claude Code u OpenAI Codex, que accede a la computadora del usuario para escribir código de manera autónoma
  • Antigravity introduce el concepto de Inbox, mediante el cual la IA envía notificaciones al usuario cuando necesita aprobación o ayuda durante una tarea
  • El usuario da instrucciones en inglés y la IA las ejecuta en código
    • Como ejemplo, analizó archivos del boletín del autor y generó automáticamente un sitio web que organiza predicciones relacionadas con IA
    • La IA realizó búsquedas web, ejecutó código, probó en el navegador y empaquetó el resultado para poder desplegarlo en Netlify

Gemini 3 como IA colaborativa

  • Gemini 3 comparte su progreso de forma transparente durante el trabajo mediante solicitudes de aprobación al usuario
    • El usuario revisa y corrige las propuestas de la IA mientras colabora con ella
    • Esta experiencia se parece más a “gestionar una IA”
  • La IA no es perfecta, pero sus errores están más cerca de diferencias de criterio o malentendidos en la interpretación de la intención, y casi no presenta los problemas tradicionales de alucinación (hallucination)
  • La colaboración con Gemini 3 se compara con “gestionar a un compañero de equipo”, subrayando una interacción que va mucho más allá de simplemente escribir prompts

Capacidad de investigación y evaluación de “nivel PhD”

  • Gemini 3 llevó a cabo tareas de análisis de datasets de investigación y redacción académica
    • Recuperó y ordenó archivos antiguos de datos de crowdfunding y realizó nuevos análisis
    • Redactó un artículo de 14 páginas sobre el tema de emprendimiento y estrategia de negocios
  • La IA formuló hipótesis propias, realizó análisis estadísticos y generó métricas propias (medición de originalidad de ideas)
  • El resultado mostró un nivel comparable al de un estudiante de posgrado, aunque con carencias en algunas técnicas estadísticas y en el desarrollo teórico
    • Con instrucciones adicionales, la calidad mejoró de forma importante
    • El autor evaluó que la “inteligencia de nivel PhD no está lejos”

La transición hacia colegas digitales

  • Gemini 3 es una IA socia que piensa y ejecuta, accesible para miles de millones de personas en todo el mundo
  • No hay señales de desaceleración en el avance de la IA, mientras cobran relevancia el auge de los modelos tipo agente y la importancia de la capacidad de gestionar IA
  • El autor describe esto como una “transición de la era de los chatbots a la era de los colegas digitales”
    • Ahora los humanos ya no son quienes corrigen los errores de la IA, sino gestores que dirigen su trabajo
  • Por último, Gemini 3 también demostró capacidades creativas más allá del texto, como generar una imagen de portada para un blog solo con código
  • Aun así, dar a la IA acceso a una computadora implica riesgos de seguridad, por lo que se requiere precaución

1 comentarios

 
GN⁺ 2025-11-26
Opiniones de Hacker News
  • Cada vez que veo este tipo de artículos, siento que siempre falta una parte: la pregunta de “¿es bueno?, ¿es preciso?”

    • Muestran solo las partes impresionantes, pero en muchos casos en realidad no hay una verificación de calidad
    • En el código que sí entiendo veo problemas de seguridad o errores, pero cuando se trata de un paper de 14 páginas sobre un tema que no conozco, me queda la duda de si simplemente debo “creer que es bueno”
    • Al final, lo que conozco está en un nivel que no se puede enviar a producción, y lo que no conozco me parece increíble por una ilusión
    • Esa contradicción no me resulta convincente
    • Hay dos opciones: confiar en la evaluación de expertos o ponerle tareas complejas que se puedan verificar directamente
      • Por ejemplo, antes le pedía código de un filtro Sobel como edgeDetect(image), y según el modelo, a veces lo resolvía y a veces no
      • Hace poco le pedí un shader glow en WebGL, y logró crear un demo que realmente funcionaba y además era compatible con un módulo que yo había hecho
      • Ese tipo de cosas se pueden verificar de inmediato por su rendimiento y exactitud visual
      • Aun así, aunque diga que “puede hacerlo”, eso no significa que lo logre cada vez; más bien significa que al menos una vez sí lo hizo
    • Los modelos de última generación (Codex 5.1, Sonnet 4.5, Opus 4.5) se están acercando cada vez más a un nivel apto para producción
      • Mi criterio es “wtfs por línea”, y ese número está bajando rápido
      • He desplegado varios proyectos sin problemas con Codex 5.1 (por ejemplo: pine.town)
    • Más adelante en el artículo sí se mencionan las fortalezas y debilidades reales del paper
    • Como los modelos tienden a querer satisfacer al usuario, a veces dan respuestas equivocadas con falsa confianza
      • Si el usuario no verifica, puede terminar engañado
  • Es interesante que, hasta ahora, la forma de interactuar con la IA haya estado centrada sobre todo en una caja de texto

    • La aparición de herramientas como Claude Code u OpenAI Codex fue un cambio importante
    • Parece que habrá muchísimo valor en quien logre implementar bien la interfaz de IA del futuro
    • El texto sigue siendo eficiente porque tiene una alta densidad de información
      • Se puede recorrer rápido haciendo scroll en pocos segundos, y el teclado sigue siendo la herramienta de entrada más productiva
    • Es la misma lógica por la que el Unix CLI ha seguido siendo textual durante más de 50 años
      • Incluso si se intenta usar datos estructurados, como en PowerShell, al final se pierde generalidad
      • Es un enfoque más poderoso hacer que la IA entienda las interfaces que los humanos ya usan
    • La obsesión por encontrar una UI completamente nueva para la IA me parece exagerada
      • En esencia, lo que los humanos seguimos manejando mejor son texto, tablas y gráficos
    • El mundo es inherentemente multimodal
      • Creo que el siguiente paso es una interfaz unificada que trate de forma integrada el texto y varios tipos de datos
      • Sobre todo a medida que avance la robótica, los elementos 3D probablemente serán más importantes
    • La interfaz de voz de ChatGPT es sorprendentemente natural, y de hecho parece más adecuada para hacer brainstorming
  • El problema de las “alucinaciones (hallucination)” sigue existiendo

    • Han aumentado los errores sutiles y más humanos, pero al mismo tiempo siguen mezclándose errores fatales
    • Le pedí a Claude un cuento corto de 20 páginas y ni siquiera pudo mantener una secuencia temporal básica o consistencia entre personajes
    • Los modelos recientes, en vez de cometer errores simples, hacen afirmaciones incorrectas con mucha seguridad e incluso inventan referencias que no existen
  • Sobre la pregunta de si “¿tiene inteligencia de nivel PhD?”, como estudiante de posgrado siento algo parecido

    • Al hablar con los modelos más recientes, da la impresión de estar conversando con un investigador especializado
    • Aun así, sigo pensando que la inteligencia natural y la motivación humanas siguen siendo importantes
    • En programación, se siente como trabajar con dos desarrolladores: uno es un mid-level competente, y el otro es alguien completamente disparatado
      • El problema es que ambos se ven iguales, así que no puedes distinguirlos
    • A menudo experimento haciendo que dos modelos SOTA conversen entre sí
      • Hace poco puse juntos a Gemini-3 y ChatGPT-5.1, y terminaron discutiendo el problema de la atrofia neuronal (neural atrophy) que podría surgir cuando los humanos dejan de pensar por sí mismos
      • Me impresionó ver a la IA preguntarse si debía hacer que los humanos “siguieran pensando” a propósito
    • Es una pena que en HN este tipo de opiniones a veces reciban downvotes sin motivo
  • El avance de Google no se está dando solo en software, sino también en hardware

    • Realizan tanto el entrenamiento como la inferencia con hardware propio
    • Antes, la fortaleza de Google estaba en aprovechar hardware de propósito general, pero ahora evolucionó en una dirección completamente distinta
  • Gemini 3 es impresionante, pero todavía da la impresión de quedarse dentro de los límites de la literatura existente

    • Si le pides ideas nuevas para un problema matemático, simplemente repite resultados ya conocidos
    • Incluso Terrence Tao lo ha usado para resolver problemas matemáticos, pero parece más una herramienta de apoyo para ideas que una fuente de resultados completamente nuevos
    • Yo también experimenté con Thinking with 3 Pro, y tuve que darle pistas casi al nivel de spoon-feeding para que apenas se acercara a mi idea
    • Al final, la admiración podría deberse menos a la capacidad del modelo y más al límite en las expectativas del usuario
    • Estos modelos, en esencia, se parecen más a un bibliotecario del conocimiento que a una fuente de ideas nuevas
    • La verdadera exploración creativa requiere explorar probabilísticamente espacios menos recorridos y además fijar y evaluar objetivos por sí misma
      • La arquitectura Transformer actual está diseñada para elegir el token más probable, así que por naturaleza busca más la consistencia que la novedad
      • Por eso, incluso si subes la temperature, el resultado suele ser una pérdida de coherencia textual más que creatividad
      • Para resolver esto harían falta generación adaptativa de objetivos y evaluación basada en simulación, pero el costo computacional es muy alto
      • En última instancia, creo que con la arquitectura actual de los LLM es difícil llegar a una inteligencia verdadera
    • Si agregas una instrucción personalizada para “usar búsqueda web en tiempo real”, ayuda a encontrar información reciente
  • GPT-3 se lanzó en junio de 2020, y ChatGPT era la versión 3.5

    • Es un error menor, pero quería dejarlo señalado con precisión
  • Hace tiempo que se escucha la idea de que el “Human in the loop” está evolucionando de un humano que corrige los errores de la IA a un humano que dirige a la IA

    • Me pregunto cuándo se volverá eso claramente real en la práctica
    • Probablemente no habrá un momento totalmente nítido
      • Igual que un gerente no puede convertirse en alguien que “solo da instrucciones”, siempre habrá una proporción de correcciones
    • Si conectas directamente herramientas de CLI con agentes, ya se siente como si hubiéramos pasado ese punto de inflexión
    • Personalmente, siento que yo ya estoy en la etapa de dirigir a la IA
  • Me pregunto si es seguro ejecutar herramientas como Claude Code o Antigrav directamente en un sistema local

    • Los productos basados en VS Code son seguros porque tienen restricciones de acceso al workspace, pero terminales como Warp se controlan con una lista de comandos permitidos/bloqueados
    • Algunos incluso permiten quitar esas restricciones con flags, pero solo si se hace intencionalmente
    • Yo siempre ejecuto este tipo de trabajo únicamente dentro de un contenedor de desarrollo de Podman
    • Una herramienta creada para resolver este problema es Leash, un proyecto open source para controles de seguridad
    • Hay quienes simplemente dicen “Yolo” y lo ejecutan asumiendo el riesgo
    • En la práctica, la mayoría de los usuarios sí tienden a ejecutarlo directamente en local