7 puntos por GN⁺ 2025-08-30 | 1 comentarios | Compartir por WhatsApp
  • grok-code-fast-1 de xAI es un modelo de codificación con IA ultrarrápido para desarrolladores, con respuestas veloces y funciones amigables con el IDE
  • Este modelo fue preentrenado principalmente con conjuntos de datos de programación y, mediante evaluaciones con usuarios reales, fue diseñado para destacar en el uso de herramientas como grep, terminal y edición de archivos
  • Su rendimiento alcanza una velocidad de generación de 190 tokens por segundo y una puntuación de 70.8% en SWE-Bench-Verified, con fortalezas en múltiples lenguajes como TypeScript, Python, Java, Rust, C++ y Go
  • El precio está fijado en $0.20 por 1 millón de tokens de entrada, $1.50 de salida y $0.02 para entrada en caché, y en algunas plataformas asociadas (GitHub Copilot, Cursor, etc.) se ofrece gratis por tiempo limitado
  • Próximamente también se lanzarán variantes con soporte para entrada multimodal, llamadas paralelas a herramientas y contexto ampliado

Resumen general

  • grok-code-fast-1 de xAI es un modelo de codificación con IA ultrarrápido desarrollado para resolver los problemas de lentitud en entornos reales de desarrollo, donde el razonamiento iterativo y el uso de herramientas ocurren con frecuencia
  • A partir de la retroalimentación de ingenieros en activo, fue reconstruido desde cero como una arquitectura de modelo rápida, ágil y adecuada para tareas reales
  • El equipo de inferencia e ingeniería de cómputo introdujo numerosos métodos innovadores en una tecnología de servicio extremadamente rápida
    • Los usuarios pueden percibir una experiencia en la que ya se han realizado varias llamadas a herramientas incluso antes de terminar de leer el flujo de pensamiento
  • Gracias a la optimización del caché de prompts, logró una tasa de aciertos de caché superior al 90% en entornos asociados

Diseño y conjuntos de datos

  • Se construyó el entorno de entrenamiento sobre una enorme base de datos de preentrenamiento centrada en programación
  • Se realizó un postentrenamiento de alta calidad con datos reales de pull requests y escritura de código
  • Mediante una estrecha colaboración con diversos socios de lanzamiento, se mejora continuamente el comportamiento del modelo dentro de plataformas agentic

Características principales y entornos compatibles

  • grok-code-fast-1 maneja con solidez herramientas de desarrollo comunes como grep, terminal y edición de archivos
  • Los usuarios pueden aprovecharlo directamente en entornos de desarrollo principales como los IDE

Rendimiento de programación

  • Da soporte a toda la pila de desarrollo de software
  • Muestra un uso sobresaliente en TypeScript, Python, Java, Rust, C++ y Go
  • Incluso con supervisión mínima, procesa con rapidez y precisión diversas tareas de programación como crear proyectos desde cero, responder preguntas sobre codebases y corregir bugs con precisión
  • Grok Code Fast 1 ofrece la respuesta más rápida entre los modelos actuales
  • Si se usa dividiendo el trabajo en unidades pequeñas, resulta muy favorable para construir flujos de trabajo iterativos y veloces
  • Como ejemplo real, completó un prototipo de Battle Simulator en solo un día dentro del entorno de Cursor
  • Es eficiente planear funciones grandes, dividirlas por etapas y ejecutarlas de forma iterativa

Política de precios

  • $0.20 por cada 1 millón de tokens de entrada
  • $1.50 por cada 1 millón de tokens de salida
  • $0.02 por cada 1 millón de tokens de entrada almacenados en caché
  • Con un gran rendimiento y un precio económico, permite resolver tareas diarias de programación de forma rápida y eficiente

Rendimiento y evaluación del modelo

  • La velocidad de procesamiento de tokens (Tokens Per Second, TPS): 190 se ubica al nivel más alto de la industria
  • Frente a otros modelos (Gemini 2.5 Pro, GPT-5, Claude Sonnet 4, Qwen3-Coder, Grok 4), muestra una fuerte competitividad tanto en precio como en velocidad de procesamiento
  • Se combinaron diversos benchmarks públicos y pruebas reales de desarrolladores
    • Alcanzó 70.8% en el subconjunto de SWE-Bench-Verified
  • Al combinar evaluaciones humanas periódicas con ingenieros de campo y pruebas automatizadas, se maximiza la utilidad práctica y la satisfacción con el modelo

Planes futuros y guía de uso

  • Está disponible a través de la API oficial y de socios principales, y también ofrece una prueba gratuita por tiempo limitado
    • GitHub Copilot, Cursor, Cline, Roo Code, Kilo Code, opencode, Windsurf, etc.
  • Promete actualizaciones continuas y un ciclo de mejora rápido
  • También se están entrenando nuevas variantes con funciones como entrada multimodal, llamadas paralelas a herramientas y soporte de contexto ampliado
  • También se ofrece una guía de prompt engineering
  • Es posible compartir opiniones en la model card y en canales de retroalimentación (Discord, etc.)

1 comentarios

 
GN⁺ 2025-08-30
Opiniones en Hacker News
  • Ayer lo probé con Cline; es rápido, encaja bien con el flujo agentic y la calidad del código es bastante buena. No entiendo por qué este hilo es tan negativo (incluso me marcaron mientras escribía). Me parece que este modelo está bien, se siente al nivel de gpt5-mini o mejor. Usé gpt5-mini como principal durante varios días y, además de ajustarse al presupuesto, resolvía bien lo que necesitaba hacer

    • Cosas que me llamaron la atención:

      • Es rápido (lo probé en la zona horaria de la UE)
      • Maneja de forma interesante el enfoque agentic; en vez de modificar todo el archivo de una vez, va corrigiéndolo poco a poco en varias pasadas
      • Usé alrededor de 110 mil tokens en una función relacionada con parsing de HTML (bs4) y aun así completó la tarea sin problemas; no tuvo líos en un contexto alto
      • Si fallaba en el primer intento, creaba un archivo aparte para hacer mock/test y, cuando funcionaba, modificaba el archivo principal del módulo. GPT5-mini a veces se confundía al editar archivos durante la tarea y terminaba fallando
    • En general está bien; por el precio, sirve incluso como daily driver. También me imagino usar Opus + gpt5 high como planner y este modelo como implementer. Como es rápido, también se ve interesante para una configuración estilo pass@x en paralelo

    • Está bueno que haya varias opciones en todos los niveles. Hace falta que distintos proveedores compitan para que se mantengan bajo presión y bajen los precios. gpt5-mini cuesta 2$/MTok y este modelo ronda 1.5$/MTok, así que se siente casi “gratis”. No entiendo este ambiente tan negativo

    • Qwen3-Coder-480B (alojado en Cerebras) cuesta 2$/Mtok por entrada y salida a través de OpenRouter

      • En OpenRouter dicen que Cerebras entrega más de 2000 tokens por segundo, o sea, 10 veces más rápido
      • Los benchmarks independientes parecen mostrar que el modelo Qwen3-Coder-480B es mejor
    • ¿Deberíamos considerar que el rendimiento es bueno si usa como la mitad del context length? En qwen3-coder da la impresión de que se confunde en 65k/256k, y además es 50% más caro que grok

    • Leí bien la reseña; me da curiosidad cómo se compara con claude code

    • Yo pienso algo parecido; he estado usando este modelo últimamente y está bastante bien, además de ser muy rápido

      • Los comentarios en HN son negativos con Elon Musk y muestran reacciones sesgadas hacia los LLM, así que siento que no lo están evaluando de forma justa
  • Lo interesante es que el benchmark que este modelo destaca es la velocidad de salida de tokens; incluso le pusieron “fast” en el nombre

    • En general, supongo que los ingenieros de software considerarían más importante la calidad de los tokens que la velocidad

    • La clave es qué tan rápido sea

      • Si los resultados de un LLM de todos modos a veces fallan, puede ser más valioso probar prompts rápidamente varias veces e ir refinando de forma iterativa
      • Llevado al extremo, si pudiera procesar un proyecto completo en milisegundos, sería muchísimo más valioso aunque tuviera la misma tasa de éxito
      • Esa velocidad podría cambiar no solo la experiencia del usuario, sino también la forma misma de usar la herramienta
      • Incluso podrías recibir tres propuestas distintas al instante
      • Personalmente no quiero involucrarme con X, así que no pienso usar Grok; eso ya es preferencia personal
    • No es la peor métrica que ha inventado xAI

    • Probé la API gratuita de Cerebras (Qwen Coder 480b, gpt-oss-120b; no es patrocinado) y de verdad va rapidísimo, como a 3000 tokens por segundo

      • Por eso siempre reviso la velocidad del modelo
      • Pero la nube de Cerebras tiene un límite diario de 70 millones de tokens, y he visto comentarios de que ese tope se alcanza muy rápido, así que para desarrollo diario tiene bastantes restricciones
    • Depende del uso

      • Para autocompletar funciones simples (manejo de strings, definición de funciones, etc.), la velocidad importa más
      • En código más de exploración o de toma de decisiones, la calidad importa más; pero si tengo claro lo que estoy haciendo, un modelo menos inteligente pero rápido ayuda más al flujo de trabajo
      • Con modelos lentos, el flujo cambia bastante porque tienes que revisar el código con mucho cuidado, como si hicieras una revisión de PR
    • La velocidad sí importa muchísimo

      • Claro, si la calidad cae demasiado ya no sirve, pero si hubiera un modelo tan bueno como Claude Sonnet 4 y además rápido, podría cambiar por completo el juego en coding agentic
      • Ahorita mandas un prompt y tienes que esperar de 30 segundos a varios minutos, así que en la práctica es difícil experimentar
      • Si terminara en pocos segundos, sería mucho más viable trabajar de forma experimental e iterativa
      • Eso sería especialmente útil en código frontend, donde tienes que ir cambiando la UI una y otra vez
  • Me da curiosidad qué están usando en HN como asistente de coding con IA; me gustaría oír recomendaciones de plugins de VSCode y consejos de uso real

  • Me pregunto si esta es la versión de “coding” que salió cuando mucha gente decía que el rendimiento de código de Grok-4 era malo

    • Si es flojo en benchmarks, da la impresión de que se apoyan en una métrica más fácil de inflar (la velocidad)

    • Busqué y lo único que encontré fue una publicación en Reddit de una cuenta claramente spam elogiando ese modelo

    • Enlace a esa cuenta

    • Me da la impresión de que está basado en Grok 3; Grok 3 era rapidísimo y estaba especializado en programación

  • Según el benchmark interno, grok-code-fast-1 saca 70.8% en SWE-Bench-Verified completo, y me gustaría ver un poco más esa herramienta de benchmark

    • En reportes de terceros anda más cerca de 57.6%

    • Enlace relacionado

      • Puede ser un nitpick, pero me sorprendió que apenas abrí el sitio el formato de fechas estuviera tan mal hecho (mezclan sin orden día/mes/año)

      • No solo confunde; además rompe el ordenamiento

      • Probé ordenar por la columna de fechas y no tuvo ningún sentido (ordenó según elementos intermedios)

      • Si no cuidan ni algo tan básico, me hace sospechar que su código también puede estar flojo

      • [Algunos países todavía usan ese formato, pero la mayoría ya se pasó al estándar]

      • Aun así, comparado con otros modelos, el resultado sí se ve bueno

  • Incluso con la versión base de Grok 4 he visto resultados bastante decentes

    • El problema es que casi no da explicaciones y tiende a limitarse a cambiar el código, pero el resultado en sí no estuvo mal
    • Personalmente, más que una versión más rápida, yo querría un poco más de feedback y explicación sobre los cambios propuestos
    • Últimamente he sentido que GPT-5 me resulta más útil que Sonnet 4
      • Cuando le preguntas por distintas opciones de arquitectura, da respuestas muy buenas y me gusta que guíe la resolución paso a paso

      • Prefiero ese proceso de ir afinando hacia lo que realmente quiero, en lugar de que reescriba todo el código de una sola vez en modo “one-shot”

      • Creo que Opus 4.1 o la serie Sonnet no se evalúan bien con métricas de resolución one-shot; lo importante de verdad es qué tan bien cumplen el rol de asistente

      • gpt-5 también, si se encapricha con una dirección que yo no quiero, puede repetir el mismo comportamiento aunque hables mucho con él

        • Por eso hay gente que prefiere la respuesta tipo “sí, tienes razón” de modelos como Claude
        • Lo que uno espera del modelo cambia según el nivel de experiencia de desarrollo, pero para mí es importante que la decisión final siga siendo mía
      • Puede que Sonnet 4 esté por debajo de GPT-5 en diseño de arquitectura o análisis profundo, pero cuando ya hay un plan detallado y solo toca sacar mucho código, Sonnet 4 lo hace mejor

  • Después de probar Grok durante varios días, más bien me dio la impresión de que va en retroceso

    • Hacía tiempo que no me pasaba que me borrara partes de mi código al azar

    • Los modelos de coding de gama alta últimamente ya son bastante confiables, pero siento que Grok todavía no está en ese punto

    • Da igual que sea rápido o gratis: si no puedo confiarle mi código, no me sirve como herramienta

      • Probé Grok Code Fast 1 gratis en Kilo Code y el resultado fue muy malo

        • Me pareció menos confiable que GPT 5 Mini y, de forma irónica, también más lento
      • ¿Full Self Coding?

      • Me gustaría saber qué plataforma/lenguaje usas

        • Me confunden las reseñas tan extremas cuando no mencionan eso
        • Hay diferencias grandes según el lenguaje; en desarrollo web con TS casi siempre salen mejores resultados
      • ¿Que borre parte del código de verdad es un problema? ¿No tienes control de versiones?

  • Hace cosas absurdas y raras a una velocidad impresionante, y eso no es bueno

    • Sirve para tareas simples y concretas como endpoints CRUD, archivos i8n y cosas así, pero fuera de eso no tanto

      • Yo justamente uso este modelo para eso

        • Es ideal como modelo para encargarse de “tareas simples y tediosas”
        • No todo requiere un modelo súper inteligente; lo uso para resolver rápido muchas cosas que nadie quiere hacer
        • Eso sí, si no le das instrucciones más concretas, el resultado se descarrila
        • Pero si le das ejemplos claros, cumple bien con lo que le pides
      • Le pedí que mejorara un Justfile y lo enredó por completo, destruyó todo y se quedó en un loop infinito

        • Lo usé en Kilo Code; por mi experiencia, esto puede variar mucho de una persona a otra
  • Incluso en la etapa stealth del modelo ‘sonic’, ya era rápido, pero la calidad no era tan precisa como debería

    • Sí generaba tests y los ejecutaba repetidamente, pero en realidad no validaba el comportamiento esperado, solo comprobaba llamadas a mocks

    • Tiene el límite de no prestar suficiente atención a los patrones de uso reales

      • En casos así, parecería que puede ser fuerte generando boilerplate
  • A mí me pareció impresionante

    • Ante una pregunta de refactorización, hizo varias llamadas a herramientas, leyó el código rápido, lo analizó lógicamente y me dijo que había encontrado dos bugs
    • Claro, ninguno de los dos era un bug
    • Pero igual “se veía genial”