4 puntos por denimcoder 2025-12-02 | 3 comentarios | Compartir por WhatsApp

Hola.
Soy un desarrollador que desea que la tecnología de IA se convierta en una herramienta cálida que genere cambios positivos en la vida cotidiana de las personas.

Con la convicción de que los pequeños registros y la reflexión diaria, al acumularse, pueden cambiar la vida,
desarrollé 'Haru Ongi', una app de diario de gratitud que cualquiera puede usar de forma fácil y constante.

Aunque ya existen muchas excelentes apps de diario con IA en el mercado, sentí que había un límite en recibir consuelo solo a través de texto.

Necesitaba una 'voz' que se sintiera como la de un amigo de verdad hablándote al lado.

Para lograrlo, utilicé el modelo más reciente de Gemini e implementé retroalimentación de audio natural.

[Introducción al servicio]

Haru Ongi es una app en la que, cuando escribes un diario de gratitud, el personaje de IA que elijas te envía de inmediato una respuesta por 'voz' con empatía y ánimo.

[Funciones principales]

  1. Respuesta por voz de un amigo de IA:
    Apenas escribes el diario, analiza el contenido y genera retroalimentación en voz.

  2. 3 amigos de IA con personalidades únicas:

    • La amiga alegre y cálida 'Seona': cuando necesitas energía positiva

    • El mentor sereno y amable 'Hyunjun': cuando necesitas consejos para crecer

    • Siempre de tu lado, la acogedora 'abuelita Sunja': cuando necesitas consuelo cálido y empatía

  3. Privacidad de los datos:

    • El contenido de los diarios escritos por los usuarios se almacena de forma segura con cifrado AES256.

[Stack tecnológico y experiencia de desarrollo]

  • AI Model: Google Gemini 2.5 Flash Native Audio Preview

    • En comparación con generar texto y luego añadir TTS, el modelo Native Audio resultó mucho más natural en entonación y respiración (Pause).
    • Fue especialmente efectivo para implementar la forma de hablar cálida y pausada del personaje 'Sunja (abuelita)'.
    • Ajustando los prompts, pude afinar la persona de cada personaje, la velocidad de voz, la respiración, el tono y la expresión emocional para crear la voz deseada.
    • También evalué la GPT Realtime API de OpenAI, pero considerando la eficiencia de costos ($20.00 per 1M tokens), finalmente integré Gemini.
  • Cost Optimization:

    • Como el costo de los tokens de salida de audio es mucho más alto que el del texto ($12.00 per 1M tokens), fue necesario un proceso de optimización para controlar la longitud de las respuestas mediante el prompt del sistema.
  • UI Workflow: aumenté la eficiencia del desarrollo con Figma Dev Mode.

    • Al proporcionarle a la IA, como contexto (Context), los diseños y la información de assets de Figma, el trabajo de implementación de la UI se volvió mucho más sencillo.
  • Backend: Supabase (DB, Auth), Railway (Fastify), Cloudflare R2 (File Storage)

  • Frontend: React Native (Expo), TypeScript

  • Dev Tools: Claude Code (Main), Cursor (Sub)

[Cierre]
Si hoy te sientes emocionalmente cansado, date una vuelta.
Por ahora, solo está disponible en Android.
Gracias.

3 comentarios

 
denimcoder 2025-12-21

¡Ya también fue lanzada en la App Store!

https://smplu.link/F8JwF

 
mssmss 2025-12-02

Estoy apoyándolos porque hice un servicio parecido y lo uso yo solo. ¡Ojalá se convierta en un buen producto! Creo que voy a tener que cambiarlo a Native Audio y desarrollarlo de nuevo.

 
denimcoder 2025-12-03

Gracias por el apoyo jaja. La voz del modelo Native Audio suena bastante natural, así que creo que si lo prueban tendrán una buena experiencia.