Modelos de audio de OpenAI

(openai.fm)

13 puntos por GN⁺ 2025-03-21 | 2 comentarios | Compartir por WhatsApp

Demo interactiva para que los desarrolladores prueben los nuevos modelos de texto a voz de la API de OpenAI
Con prompts se pueden especificar en detalle efectos de voz, tono, velocidad, emoción, pronunciación, pausas y más

Demo

Selección de voz: 11 opciones, incluyendo Alloy, Ash, Ballad, Coral y Echo
Selección de distintos vibes: Sincere, Friendly, Noir Detective, Robot, Auctioneer y más

Ejemplo: Sincere

Voice Affect: Calm, composed, and reassuring. Competent and in control, instilling trust.  
Tone: Sincere, empathetic, with genuine concern for the customer and understanding of the situation.  
Pacing: Slower during the apology to allow for clarity and processing. Faster when offering solutions to signal action and resolution.  
Emotions: Calm reassurance, empathy, and gratitude.  
Pronunciation: Clear, precise: Ensures clarity, especially with key details. Focus on key words like "refund" and "patience."   
Pauses: Before and after the apology to give space for processing the apology.

Ejemplo: Caballero medieval

Efecto de voz: profundo, autoritario y ligeramente dramático, reflejando la grandeza de los relatos en inglés antiguo  
Tono: noble, heroico y formal, capturando la esencia de los caballeros medievales y las aventuras épicas  
Emoción: combina emoción, expectativa, misterio y la solemnidad del destino y el deber  
Pronunciación: clara, cuidadosa y con un ritmo ligeramente formal; palabras como "hast", "thou" y "doth" se enfatizan lentamente para reflejar patrones de pronunciación del inglés antiguo  
Pausas: hacer pausas después de frases en inglés antiguo como "Lo!" y "Hark!", y entre cláusulas como "Choose thy path" para enfatizar la importancia de la decisión y permitir que el oyente perciba la seriedad de la misión

2 comentarios

GN⁺ 2025-03-21

Comentarios en Hacker News

El precio de estos modelos es bastante más bajo que el de ElevenLabs
- En el caso del modelo "gpt-4o-mini-tts", el audio cuesta $0.015 por minuto, un 85% más barato que ElevenLabs
- El plan "Business" de ElevenLabs ofrece 11,000 minutos de TTS por $1100 al mes, cobrando 10 centavos por minuto
- OpenAI podría ofrecer 11,000 minutos de TTS por $165
- Piden verificar si el cálculo es correcto
Jeff de OpenAI informa que se han lanzado nuevos modelos de audio
- Se lanzaron dos modelos de reconocimiento de voz y un nuevo modelo de TTS
- También hay soporte en el Agents SDK para convertir fácilmente agentes de texto en agentes de voz
- Dice que le avisen si tienen preguntas
Se mencionan problemas de confiabilidad en los modelos de texto a voz y de voz a texto
- No está claro cuánto problema causarán en aplicaciones del mundo real
- Se comparte un enlace a unas notas relacionadas
Preguntan cómo obtener "speech marks" junto con el audio generado
- Se explica que "speech marks" se usa en el servicio TTS Polly de AWS
- Es útil para resaltar texto y para lip sync
Avances recientes en grandes modelos de texto a voz y de voz a texto
- Se menciona la necesidad de soluciones de texto a voz multilingües y offline
- Consideran que Tortoise TTS suele distorsionar palabras con frecuencia
- El SDK de Acapela es la única solución de plugin para apps de escritorio
- Esperan que los nuevos modelos basados en redes neuronales funcionen eficientemente en computadoras comunes
Según el texto ingresado en la caja de "vibe", se pueden lograr distintas entonaciones y personalidades
- Sorprende el nivel de prosodia y entonación inteligente
- Ha avanzado al punto de que para grabar audiolibros casi solo harían falta celebridades
- Se comparten varios ejemplos de voces divertidas
Reacción al ingresar el copypasta de Navy Seal
- Los controles de seguridad funcionan de manera diferente según las instrucciones de "vibe"
- El conductor de taxi de NYC funciona sin problemas y es divertido
Sienten que la voz del nuevo modelo tiene una vibración sutil y que queda por debajo de Siri
La herramienta oficial de OpenAI está vinculada al anuncio de los nuevos modelos
Cita importante del anuncio oficial
- Los desarrolladores pueden indicarle al modelo no solo qué decir, sino también cómo decirlo
- "vibes" son las instrucciones dentro de la UI
- El nuevo modelo maneja mejor las diferencias sutiles
- El costo de salida de audio de gpt-4o-mini-tts, de $0.015 por minuto, resulta práctico
- Planean hacer más pruebas

sylee999 2025-03-21

También funciona perfectamente en coreano.

Modelos de audio de OpenAI

Demo

Lecturas relacionadas

2 comentarios

Comentarios en Hacker News