13 puntos por GN⁺ 2025-03-21 | 2 comentarios | Compartir por WhatsApp
  • Demo interactiva para que los desarrolladores prueben los nuevos modelos de texto a voz de la API de OpenAI
  • Con prompts se pueden especificar en detalle efectos de voz, tono, velocidad, emoción, pronunciación, pausas y más

Demo

  • Selección de voz: 11 opciones, incluyendo Alloy, Ash, Ballad, Coral y Echo
  • Selección de distintos vibes: Sincere, Friendly, Noir Detective, Robot, Auctioneer y más
  • Ejemplo: Sincere
    Voice Affect: Calm, composed, and reassuring. Competent and in control, instilling trust.  
    Tone: Sincere, empathetic, with genuine concern for the customer and understanding of the situation.  
    Pacing: Slower during the apology to allow for clarity and processing. Faster when offering solutions to signal action and resolution.  
    Emotions: Calm reassurance, empathy, and gratitude.  
    Pronunciation: Clear, precise: Ensures clarity, especially with key details. Focus on key words like "refund" and "patience."   
    Pauses: Before and after the apology to give space for processing the apology.  
    
  • Ejemplo: Caballero medieval
    Efecto de voz: profundo, autoritario y ligeramente dramático, reflejando la grandeza de los relatos en inglés antiguo  
    Tono: noble, heroico y formal, capturando la esencia de los caballeros medievales y las aventuras épicas  
    Emoción: combina emoción, expectativa, misterio y la solemnidad del destino y el deber  
    Pronunciación: clara, cuidadosa y con un ritmo ligeramente formal; palabras como "hast", "thou" y "doth" se enfatizan lentamente para reflejar patrones de pronunciación del inglés antiguo  
    Pausas: hacer pausas después de frases en inglés antiguo como "Lo!" y "Hark!", y entre cláusulas como "Choose thy path" para enfatizar la importancia de la decisión y permitir que el oyente perciba la seriedad de la misión  
    

2 comentarios

 
GN⁺ 2025-03-21
Comentarios en Hacker News
  • El precio de estos modelos es bastante más bajo que el de ElevenLabs

    • En el caso del modelo "gpt-4o-mini-tts", el audio cuesta $0.015 por minuto, un 85% más barato que ElevenLabs
    • El plan "Business" de ElevenLabs ofrece 11,000 minutos de TTS por $1100 al mes, cobrando 10 centavos por minuto
    • OpenAI podría ofrecer 11,000 minutos de TTS por $165
    • Piden verificar si el cálculo es correcto
  • Jeff de OpenAI informa que se han lanzado nuevos modelos de audio

    • Se lanzaron dos modelos de reconocimiento de voz y un nuevo modelo de TTS
    • También hay soporte en el Agents SDK para convertir fácilmente agentes de texto en agentes de voz
    • Dice que le avisen si tienen preguntas
  • Se mencionan problemas de confiabilidad en los modelos de texto a voz y de voz a texto

    • No está claro cuánto problema causarán en aplicaciones del mundo real
    • Se comparte un enlace a unas notas relacionadas
  • Preguntan cómo obtener "speech marks" junto con el audio generado

    • Se explica que "speech marks" se usa en el servicio TTS Polly de AWS
    • Es útil para resaltar texto y para lip sync
  • Avances recientes en grandes modelos de texto a voz y de voz a texto

    • Se menciona la necesidad de soluciones de texto a voz multilingües y offline
    • Consideran que Tortoise TTS suele distorsionar palabras con frecuencia
    • El SDK de Acapela es la única solución de plugin para apps de escritorio
    • Esperan que los nuevos modelos basados en redes neuronales funcionen eficientemente en computadoras comunes
  • Según el texto ingresado en la caja de "vibe", se pueden lograr distintas entonaciones y personalidades

    • Sorprende el nivel de prosodia y entonación inteligente
    • Ha avanzado al punto de que para grabar audiolibros casi solo harían falta celebridades
    • Se comparten varios ejemplos de voces divertidas
  • Reacción al ingresar el copypasta de Navy Seal

    • Los controles de seguridad funcionan de manera diferente según las instrucciones de "vibe"
    • El conductor de taxi de NYC funciona sin problemas y es divertido
  • Sienten que la voz del nuevo modelo tiene una vibración sutil y que queda por debajo de Siri

  • La herramienta oficial de OpenAI está vinculada al anuncio de los nuevos modelos

  • Cita importante del anuncio oficial

    • Los desarrolladores pueden indicarle al modelo no solo qué decir, sino también cómo decirlo
    • "vibes" son las instrucciones dentro de la UI
    • El nuevo modelo maneja mejor las diferencias sutiles
    • El costo de salida de audio de gpt-4o-mini-tts, de $0.015 por minuto, resulta práctico
    • Planean hacer más pruebas
 
sylee999 2025-03-21

También funciona perfectamente en coreano.