Google anuncia Gemini CLI GitHub Actions
(blog.google)- Google anunció Gemini CLI GitHub Actions, basada en Gemini CLI, para habilitar la colaboración en equipo en repositorios de GitHub.
- Gemini CLI es un agente de IA de código abierto que permite usar capacidades de IA desde la terminal.
- Esta versión de GitHub Actions está diseñada para entornos de trabajo en equipo y se puede pensar como un colega de IA residente en el repositorio.
- Esta herramienta se ofrece de forma gratuita y como código abierto, y actualmente está disponible en versión beta para todo el mundo.
- Se ejecuta de forma automática y asíncrona según los eventos del repositorio de GitHub (como nuevos issues, creación de PR, etc.), y procesa tareas automáticamente al comprender el contexto completo del proyecto.
- Ofrece 3 flujos de trabajo de código abierto potentes.
- Clasificación inteligente de issues (Intelligent issue triage)
- Analiza nuevos issues y los etiqueta y prioriza automáticamente.
- Ayuda a que los desarrolladores se concentren en las tareas importantes.
- Revisión rápida de PR (Accelerated pull request reviews)
- Proporciona retroalimentación inmediata y profunda sobre los cambios de código.
- Revisa la calidad, el estilo y la exactitud del código para aliviar la carga del revisor.
- Colaboración bajo demanda (On-demand collaboration)
- Es posible delegar tareas mencionando
@gemini-clien un issue o PR. - Ejemplos: "Escribir pruebas para este bug", "Implementar la sugerencia anterior", "Lluvia de ideas de soluciones alternativas", "Corrección de un bug claramente definido".
- Es posible delegar tareas mencionando
- Clasificación inteligente de issues (Intelligent issue triage)
- Estos flujos de trabajo pueden verse como un launchpad; al ser de código abierto, se pueden configurar flujos propios.
- Al automatizar tareas repetitivas y que consumen mucho tiempo, mejora la productividad de desarrollo y aumenta la eficiencia del código revisado y la gestión de issues, acelerando la colaboración del equipo.
1 comentarios
Comentario de Hacker News
Es una situación confusa porque no se distingue si esto es un CLI, una GitHub Action o una GitHub Application.
Jules, que antes se conocía como un ‘coding agent’, ahora parece que otra herramienta está cubriendo ese rol, o que esto sea otro caso de canibalización interna de Google, y eso genera confusión.
Siento que esta empresa debería tener ahora un liderazgo con una visión más clara.
Incluso teniendo 13 años escribiendo código de Android, habiendo colaborado con Google, actuado como líder en la comunidad y en conferencias de desarrolladores de Google, conectado con muchos GDE y usando la API de Gemini en un producto, me cuesta entender qué es esto.
Para un cliente común, esto sería prácticamente imposible de entender.
También hay 2 SDK para conectarse a la API de Gemini, y la documentación está totalmente dispersa, por lo que para una función específica hay que buscar por Google y revisar repositorios de código.
La mayoría de las funcionalidades que uno quiere están limitadas por rate limit o abiertas solo para testers privados.
Además, hay tres coding agents.
Aunque se tiene acceso a la cuenta de Google y al teléfono, la app de Gemini no sirve.
Incluso tareas básicas en Google Cloud, como agregar una cuenta de servicio, tienen una UX confusa y difícil de usar.
Lo único realmente aprovechable es AI Studio: permite probar varios modelos y mejoró la experiencia de emisión de la clave API de Gemini.
Sinceramente, me cuesta mucho celebrar este lanzamiento; al final parece más un producto “de nivel medio” nuevo.
Siento que se necesita una frontera clara entre la cultura de investigación y la cultura de software.
En un entorno de investigación, el caos de varios equipos haciendo experimentos al mismo tiempo puede tener un efecto positivo,
pero el software y los productos con los que se enfrenta el cliente requieren un enfoque diferente.
Google parece crear varios espacios de incubación, y cuando algunos de ellos funcionan, no siempre se integran bien con los productos existentes y eso confunde a los usuarios.
También hay casos como NotebookLLM.
Pero personalmente creo que esta diversidad de experimentos es mejor.
El equipo de NotebookLLM parecía trabajar con bastante autonomía.
Lo más irónico es que, aunque haya acceso a la cuenta y a la información del teléfono de Google, la app de Gemini no hace nada.
Cuando abres la app te saluda con “Hello, Vasco”, pero si preguntas “¿cómo me llamo?”, te responde que no puede ver información del usuario.
Ya sé por qué pasa, pero la situación es demasiado graciosa.
Jules funciona de forma asíncrona en una VM, sobre un checkout de código separado.
Gemini CLI funciona de forma síncrona con el usuario en local (salvo en modo YOLO).
Son enfoques completamente distintos.
En Google Workspace la situación cambia nuevamente.
Activar Gemini CLI para toda la organización es una actividad de sentimientos encontrados.
Explicación detallada
Entiendo que Google sienta la necesidad de entrar en la competencia de IA para programación, pero hay muchas cosas raras.
Gemini no puede ni siquiera reservar algo tan simple como una cita de reunión en el calendario.
En Google Docs no puede editar de forma colaborativa, solo insertar contenido.
No hay un MCP de administración central para Docs o Sheets.
Para ayudar con fórmulas de Sheets, incluso está peor que Google Search.
Con tantas áreas que son suyas, es una pena que no destaque como IA.
Antes, al intentar buscar exactamente la cadena “remarkable” en Gmail, también devolvía palabras relacionadas como “amazing”.
Es un momento frustrante viendo que la búsqueda de todos los productos está en retroceso.
En la práctica, al ver un correo de reserva de envío en mi Android y mantener presionado el botón de encendido, aparece un popup de Gemini.
Si cargan el contexto de la pantalla y dices “ponlo en mi calendario”, se añade el evento.
No siempre funciona perfecto (por ejemplo, falla cuando cruza varios días o la ubicación es rara), pero está mejorando.
Si eres cliente de Google Workspace, también funciona la integración con la web app de Gemini y con Calendar y Drive.
También se pueden hacer tareas como resumir documentos.
Así que el “no se puede crear eventos” no es del todo cierto.
Pienso que Google no libera Gemini en todo su stack por una razón parecida a la de Apple, que no lo habilita totalmente en iPhone.
Aún no hay suficiente confiabilidad para ponerlo al 99,99% de las personas.
Es un sistema que usan bien los early adopters de tecnología, pero que no recomendaría para el público general.
Hay muchísimas maneras de uso pequeñas pero útiles, aunque el marketing sea flojo.
Por ejemplo, le pedí a Gemini que tomara una foto de una lista de compras y la convirtiera en un formato para pegar, y lo trasladó tal cual a Google Keep, pero no pudo hacer clasificación por categorías.
Con un poco más de foco del equipo para pulirlo, sería mucho más útil.
OpenAI promociona varias funciones en TikTok y hay mucha gente joven de 30 años o menos que ni siquiera sabe que Gemini existe.
Yo percibo a Gemini más práctico que ChatGPT, pero el marketing es totalmente insuficiente.
El soporte de Google Docs es tan limitado que no genera expectativas.
La percepción es que la búsqueda cambió a solo embeddings y por eso no funciona bien.
En realidad se necesita una búsqueda híbrida que combine embeddings, matching de texto y vectores de calidad, y no es fácil escalarla rápido de manera robusta.
Si alguien conoce algo así, sería genial que lo compartiera.
Para saber qué servicio es realmente, se necesita muchísimo tiempo.
Hay que quitar el copy de marketing, la explicación extensa y la jerga innecesaria para que aparezca su forma real.
Por lo que entiendo, esto es una GitHub Action.
Se coloca en un YAML de workflow de GitHub, ejecuta Gemini CLI y manda prompts, contexto del repo y datos de eventos como diffs de issues o PR para devolver respuestas o ejecutar tareas.
A través de un token o una app se puede leer/escribir datos del repo con la API de GitHub (agregar labels, comentarios, sugerencias de código, etc.), usando llamadas estándar al endpoint HTTPS de la API del LLM de Gemini.
Hay un video donde Boris Cherny y Catherine Wu hablan sobre linting semántico de CLI basado en IA en el podcast Latent Space.
Entrevista de YouTube relacionada
Aún no he usado de forma activa CLI basado en IA en CI/CD, pero el trabajo de pass/fail semántico me parece muy interesante.
En la documentación dice “úsalo en la interfaz de chat”, pero me pregunto qué entiende por interfaz de chat.
Los planes de Gemini (Google One, Workspace, etc.) solo se aplican a productos web y excluyen los basados en API (por ejemplo, Gemini CLI).
Sería un cambio real si con una sola suscripción mensual para desarrolladores pudieras usar todo: CLI, GitHub Action, Gemini chat y Jules.
Anhelo que exista un esquema de suscripción único tipo Claude.
Probé con varios agentes y con solo 5 o 6 pedidos ya te topas con el rate limit.
En cambio, la app web se siente como de uso ilimitado.
Te dicen “haz pruebas con la cuota gratuita amplia”, pero justo ahí se te corta en poco tiempo.
Es válido para pruebas simples, pero en producción real se queda corto.
En el texto de las imágenes de las diapositivas promocionales,
la frase de que con la etiqueta ‘@mini-cli’ puedes delegar desde crear bugs hasta arreglarlos es demasiado graciosa.
Tal vez sea justamente una forma muy honesta de describirlo.
Dudo que sea correcto llamarlo “gemini cli”.
Si se usa sobre todo por GitHub, ya no es realmente un CLI.
No sería mejor una nomenclatura más intuitiva, tipo “gemini github action” o “run gemini”, al estilo de Claude Code?
Tal vez el equipo de Gemini CLI lo nombró así para que se reconozca su trabajo, o por presión interna para que no luzca como un producto demasiado general.
En la práctica, instala gemini-cli dentro del VM de GitHub Action y pasa como prompt los comentarios de issues/PR para gemini-cli.
Yo también tenía esa misma duda con el naming.
Esa parte la encuentro realmente decepcionante.
Es, en esencia, un add-on para usar con Gemini-CLI completamente en local.
El año pasado desarrollé una plataforma de bounty para PR de GitHub en serio.
Debido a los incentivos entraban muchos PR de baja calidad y también era posible redactar un borrador con IA, así que ese concepto terminó volviéndose casi irrelevante.
La preocupación central de la gestión de open source se movió al “recurso limitado de reviewers/maintainers”.
Por eso estoy experimentando con un framework para generar PRs automáticamente desde agentes principales y optimizar la revisión y aprobación/corrección.
Aquí he estado documentando un estudio de caso relacionado
Requiere bastante configuración y, comparado con GitHub Copilot Agent que puede usar cualquiera con facilidad, la propuesta de valor cae bastante.
Gemini assistant tendría que ser claramente mejor que las herramientas existentes para tener al menos algo de tracción.
Gemini podría estar bien si la suscripción fuera clara y razonable.
Me resulta incluso sospechoso que esto sea realmente gratis.
La “escucha” puede ser que paguemos con datos para entrenamiento, y como no hay opción de opt-out, creo que hay que usarlo con cuidado en repos personales o internos.
Estoy obteniendo muchos buenos resultados con Copilot Agent.
A veces hay que cerrar PR, limpiar issues o trabajar localmente con Cursor, pero el arranque del trabajo es tan rápido que la satisfacción general es alta.