Comparación de 4 agentes de vibe coding con el mismo prompt (Lovable, Gemini, Rork, Flowith)

(stdy.blog)

13 puntos por spilist2 2025-05-26 | 2 comentarios | Compartir por WhatsApp

Probé algunos servicios que descubrí recientemente y, de paso, hice vibe coding con 4 agentes con fortalezas distintas. (Antes ya había comparado servicios de prototipado con IA (v0, Lovable, Replit, Bolt, Tempo, Mocha) usando deep research + probándolos uno por uno; esta vez los comparé implementando lo mismo con el mismo prompt)

Lovable: uno de los líderes entre los servicios de prototipado con IA. Implementa interfaces pulidas rápidamente. Permite despliegue público inmediato
Gemini App Build: se usa en Google AI Studio. Permite crear apps que llamen a la API de Gemini gratis. Sin límite de cantidad de chats
Rork: servicio de vibe coding que fue el primero en integrar un simulador de apps móviles. Se puede probar la app desde el teléfono
Flowith Neo: un superagente que funciona 24 horas. Puede realizar varias tareas, incluida programación, con múltiples agentes

En todos los casos hice lo mismo: cargué el handout de un taller de entrenamiento de habilidades para pedir ayuda que había desarrollado junto con conocidos, y les pedí que "crearan una app de simulación para practicar por cuenta propia"

Evalué cada servicio de forma totalmente subjetiva con estos 7 criterios (70 puntos en total)

Proceso de implementación
- Eficiencia: si requirió poca intervención de mi parte para llegar a una app funcional
- Comodidad: si era fácil probar y depurar
- Velocidad: si implementaba rápido
- Costo: si el costo de implementación era bajo
Resultado de la implementación
- Funcionalidad: si las funciones cumplían las expectativas y eran variadas
- Usabilidad: si la UI/UX de la app era intuitiva y atractiva
- Efectividad: si realmente ayudaba a entrenar la habilidad de pedir ayuda

Resumen de resultados de la evaluación

(La imagen con el resumen en tabla, y las pantallas detalladas de cada servicio, están en el blog)

En general:

Proceso de implementación: Lovable > Gemini >> Rork >>>> Flowith
Resultado de la implementación: Lovable ~= Flowith > Gemini = Rork

¿Cuántos turnos hicieron falta para terminar?

Tanto Lovable como Gemini quedaron listos en el primer turno (Gemini corrigió un bug por su cuenta y así quedó terminado)
Rork quedó listo en 3 turnos tras 2 correcciones de bugs (pegando mensajes de error)
Flowith no logró completarlo aunque intervine varias veces e intentó arreglarlo por su cuenta; aun así, como mostraba previews constantemente, sí se podían ver resultados intermedios

Impresiones

Puede que haya algo de sesgo personal, pero en general Lovable fue abrumadoramente superior. Aun así, cada uno tenía fortalezas bastante claras
- Gemini: la experiencia de poder probar llamadas al LLM directamente es especial
- Rork: probar una app móvil directamente en el teléfono sí le da ese sabor propio de app
- Flowith: hizo investigación adicional de verdad. Si tan solo lo hubiera terminado...
Tenía expectativas altas con Flowith. Los resultados intermedios fueron impresionantes, pero todavía no creo que sirva como herramienta principal de vibe coding. Sobre todo porque, al no basarse en mensajes de chat sino en créditos, termina costando demasiado
Como referencia, la evaluación del proceso de implementación no se basa solo en esta prueba sino en la experiencia acumulada. Era mi primera vez con Rork; Lovable lo he usado varias veces, y Gemini y Flowith los probé creando 3 cosas cada uno

Evaluación detallada

🥇 1.er lugar Lovable - 63 puntos (terminado en el primer turno)

Proceso de implementación

Eficiencia: 9
Comodidad: 9
Velocidad: 10
Costo: 7

Simplemente hace todo bien. Fue la implementación del primer turno más rápida y limpia. Muy cómoda la corrección automática de bugs basada en mensajes de error. Buena edición visual gratuita y buen bugfixing. La edición de código puede hacerse en el momento si pagas; gratis, se puede con integración a GitHub. También es muy bueno el despliegue público inmediato.

Resultado de la implementación

Funcionalidad: 9
Usabilidad: 10
Efectividad: 9

La UI, como era de esperarse, es bonita e impecable. No tiene una enorme cantidad de funciones, pero interpretó el handout de forma creativa, quedó intuitiva y tenía todo lo que debía tener.

Que siempre obligue a seguir las 3 etapas para pedir ayuda es una desventaja. La simulación también era sencilla, basada en reglas, pero era adecuada. Me dejó la sensación de que bastaría con añadirle el LLM y algunos de los puntos buenos que vi en otros servicios.

🥈 2.º lugar Gemini App Build - 56 puntos (terminado en el primer turno tras corregir un bug por su cuenta)

Proceso de implementación

Eficiencia: 7
Comodidad: 8
Velocidad: 8
Costo: 10

Su gran ventaja es el chat gratis y poder llamar a Gemini gratis. En el primer turno construyó bastante bien, y el bug que apareció justo después de crearlo lo corrigió por su cuenta.

En multivuelta no se desempeña tan bien. También puede hacer corrección automática de bugs a partir de mensajes de error, pero en el bug de esta prueba no logró arreglarlo hasta el final y al final tuve que intervenir manualmente. No tiene edición visual, pero es el más cómodo para modificar código. La desventaja es que para desplegar hace falta Cloud Run.

Resultado de la implementación

Funcionalidad: 8
Usabilidad: 6
Efectividad: 9

La UI es claramente rígida. Hace pensar en herramientas de Google y no interpreta el contenido del handout de forma creativa, sino que lo presenta tal cual. También resulta algo incómodo que obligue a pasar siempre por las 3 etapas.

Pero, aun así, la experiencia de chatear dentro de la simulación y que la IA responda es muy única y efectiva, así que por eso suma más puntos. Eso solo lo hace este.

🥉 3.er lugar Rork - 46 puntos (terminado en 3 turnos)

Proceso de implementación

Eficiencia: 7
Comodidad: 5
Velocidad: 7
Costo: 4

Su punto fuerte es que se convierte en app móvil. Funcionó bien instalándolo tanto en Android como en iPhone con la app Expo Go. También permite elegir el modelo de implementación, incluido Claude Sonnet 4. Tiene corrección automática de bugs y de hecho los corrige bien.

No permite editar código, no tiene edición visual y, sobre todo, el problema es que el bugfixing es de pago. Honestamente, al menos arreglar gratis los bugs de la app con errores que él mismo generó en el primer turno no sería mucho pedir, ¿no?

Resultado de la implementación

Funcionalidad: 8
Usabilidad: 7
Efectividad: 8

Lo construyó por su cuenta solo en inglés. La UI era rígida y poco atractiva. Buena parte del contenido del handout aparecía casi tal cual. Aun así, tenía todo lo necesario y era cómodo poder ejecutar por separado las 3 funciones.

La simulación era de opción múltiple y además daba evaluación, así que me pareció buena para que principiantes practiquen. Eso sí, el texto era demasiado largo.

4.º lugar Flowith Neo - 35 puntos (incompleto después de n turnos)

Proceso de implementación

Eficiencia: 1
Comodidad: 3
Velocidad: 3
Costo: 1

Está bien eso de hacer planeación adicional con búsqueda web. Sin embargo, hace muchísimo trabajo pero en las 3 apps que le pedí nunca logró completar ninguna. La probaba por su cuenta, luego volvía a planear e intentaba corregir bugs, y no los solucionaba. Como no cobra por mensaje sino por créditos, repetir por su cuenta ciclos de intento y fallo consumió una gran cantidad de créditos y eso me molestó.

En cada etapa intermedia desplegaba una versión en una URL pública. Pero muchas veces una versión anterior era mejor. Si fallaba en medio de la implementación, hacía falta volver a ejecutarlo manualmente. El código solo puede verse descargándolo y, por supuesto, editarlo también solo se puede por prompt. No permite edición visual.

Resultado de la implementación

Funcionalidad: 9
Usabilidad: 10
Efectividad: 7

La planeación inicial y las previews intermedias fueron muy impresionantes. Al final no lo completó, y además iba cambiando entre versiones, pero sí había muchos elementos que daban ganas de tomar prestados para otras apps. Por ejemplo, hacer una evaluación previa más rigurosa o entrenar con distintos escenarios y niveles de dificultad. La UI también era bonita, salvo algunas rarezas, y fue el más detallista.

2 comentarios

princox 2025-05-28

Yo uso bolt.new, así que me gustaría comparar cómo va este.

spilist2 2025-05-29

Yo también creo que en junio voy a usar bastante Bolt por el hackatón de Bolt (premio total de 1 millón de dólares) https://www.stdy.blog/registered-at-vibe-coding-hackathon/. Después de eso habrá que compararlos jaja

Comparación de 4 agentes de vibe coding con el mismo prompt (Lovable, Gemini, Rork, Flowith)

Resumen de resultados de la evaluación

Evaluación detallada

🥇 1.er lugar Lovable - 63 puntos (terminado en el primer turno)

🥈 2.º lugar Gemini App Build - 56 puntos (terminado en el primer turno tras corregir un bug por su cuenta)

4.º lugar Flowith Neo - 35 puntos (incompleto después de n turnos)

Lecturas relacionadas

2 comentarios