Eleven v3 — el modelo de texto a voz más expresivo

(elevenlabs.io)

9 puntos por GN⁺ 2025-06-07 | 2 comentarios | Compartir por WhatsApp

Eleven v3 (Alpha) es el modelo de texto a voz (TTS) más expresivo hasta ahora, con control preciso incluso de emociones y efectos de voz
Con audio tags, se pueden combinar libremente distintos elementos de voz como emociones, tono al hablar, dirección y efectos de sonido
Permite generar audio natural con varios hablantes conversando y ofrece voces casi humanas en más de 70 idiomas
Frente a v2, se amplió mucho el rango de emociones vocales y de aplicación de efectos, y los usuarios de la UI pueden obtener un 80% de descuento hasta finales de junio de 2025
El soporte para API estará disponible pronto, y se pueden consultar distintas etiquetas de voz y situación en la guía de prompts

Resumen de Eleven v3

Eleven v3 (alpha) es un modelo de Text to Speech (TTS) de próxima generación que se diferencia de versiones anteriores por su expresión emocional y generación de voz inmersiva
Este modelo convierte el texto de entrada en voz expresando emociones, entonación y ritmo de una forma similar a como lo leería una persona
Los usuarios pueden controlar con detalle emociones de la voz, tono al hablar, efectos de sonido e incluso sonidos de fondo mediante audio tags
Al insertar en el texto etiquetas de emoción, efectos y dirección, permite crear audio más rico y tridimensional que va más allá de una narración simple, mejorando mucho la inmersión y el realismo

Generación de conversaciones con varios hablantes

Soporta la generación de audio donde varios hablantes comparten de forma natural contexto y emociones mientras conversan
Refleja la prosodia, emociones y etiquetas de cada hablante para lograr una síntesis de audio cercana a la humana

Soporte de voz multilingüe

Ofrece soporte oficial para más de 70 idiomas, incluidos afrikáans, árabe, alemán, chino y coreano
Reproduce de forma natural la entonación, pronunciación y acento característicos de cada idioma
Tiene gran utilidad en áreas como servicios multinacionales, contenido educativo y proyectos globales de accesibilidad

Principales diferencias entre v3 y v2

Dialogue Mode: soporte para conversaciones con múltiples hablantes
Soporte para Audio Tag: permite usar diversos audio tags para emociones, dirección, efectos y más
Rango de emociones y efectos: v2 tenía etiquetas básicas como pausas; v3 permite aplicar emociones ricas y efectos de audio
Idiomas: v3 ofrece 70+ idiomas, mientras que v2 ofrece 29 idiomas
- afrikáans, árabe, armenio, asamés, azerbaiyano, bielorruso, bengalí, bosnio, búlgaro, catalán, cebuano, chichewa, croata, checo, danés, neerlandés, inglés, estonio, filipino, finés, francés, gallego, georgiano, alemán, griego, guyaratí, hausa, hebreo, hindi, húngaro, islandés, indonesio, irlandés, italiano, japonés, javanés, canarés, kazajo, kirguís, coreano, letón, lingala, lituano, luxemburgués, macedonio, malayo, malayalam, chino mandarín estándar, maratí, nepalí, noruego, pastún, persa, polaco, portugués, panyabí, rumano, ruso, serbio, sindhi, eslovaco, esloveno, somalí, español, suajili, sueco, tamil, telugu, tailandés, turco, ucraniano, urdu, vietnamita, galés y otros

Calidad de voz y experiencia de usuario

Al sintetizar voz, permite generar archivos de audio de alta resolución y con poco ruido
Hace posible un ajuste fino de la longitud de las frases, los matices emocionales y la velocidad del habla, facilitando la creación de voces personalizadas
Puede expresar emociones dinámicas y estilos de habla que eran difíciles de reproducir con soluciones TTS tradicionales

Competitividad y posibilidades de aplicación

Creadores de contenido, desarrolladores y empresas pueden aplicarlo de inmediato en audiolibros, juegos, publicidad y servicios de accesibilidad
Al permitir servicios multilingües y multipropósito con un solo modelo, puede reducir costos y tiempo
Incluso en su etapa de alpha abierta, ya asegura un nivel de calidad y variedad de voz apto para integrarse en servicios reales

Descuento y soporte para API

Hasta finales de junio de 2025, los usuarios de la UI pueden usar v3 alpha con un 80% de descuento
La API estará disponible pronto

Conclusión

Eleven v3 es el modelo más reciente en el campo de Text to Speech, con mejoras en expresividad, soporte multilingüe y voz personalizable
Puede responder eficazmente al aumento de la demanda de tecnología de generación de voz natural en diversas industrias

2 comentarios

kansm 2025-06-12

Está en alfa, pero está bien..
Gracias por la buena información.

GN⁺ 2025-06-07

Opiniones de Hacker News

No vi ninguna mención a canciones en la documentación ni en la guía de prompts, así que me dio curiosidad si este modelo en realidad también puede cantar.
Por diversión puse la letra del tema de Friends en la demo, y el resultado salió con una voz cantando junto con sonido de guitarra.
En otro experimento, al agregar las etiquetas [verse] y [chorus], cantó una versión a capela.
En [1] y [2] solo ingresé la letra, y en [3] puse las etiquetas verse/chorus.
También lo probé con otras canciones populares, pero por alguna razón no entró en un modo de canto tan limpio como este.
- Es curioso que el resultado cante, pero canta tan mal que eso lo hace todavía más interesante.
  Se siente como si estuviera cantando alguien que simplemente no sabe cantar.
- Como sale bastante distinto de la apertura real de Friends, supongo que no parece un caso de sobreajuste a patrones familiares comúnmente presentes en los datos de entrenamiento.
- En Mirage AI lograron una calidad de canto bastante decente.
  - Muestra 1
  - Muestra 2
- Recuerdo haber visto que en la demo del modelo también se incluía canto.
  Así que supongo que esta capacidad probablemente viene integrada.
- Curiosamente, al probar con un prompt como el de abajo, parece que al modelo le cuesta un poco la parte final de "purr".
```
[slow paced]
[slow guitar music]

Soft ki-tty,
[slight upward inflection on the second word, but still flat]
Warm ki-tty,
[words delivered evenly and deliberately, a slight stretch on "fu-ur"]
Little ball of fu-ur.
[a minuscule, almost imperceptible increase in tempo and "happiness"]
Happy kitty,
[a noticeable slowing down, mimicking sleepiness with a drawn-out "slee-py"]
Slee-py kitty,
[each "Purr" is a distinct, short, and non-vibrating sound, almost spoken]
Purr. Purr. Purr.
```
Últimamente he estado usando bastante en la práctica el nuevo modelo de OpenAI (openai.fm).
Es peculiar su forma de separar las instrucciones del texto a pronunciar, y probablemente en OpenAI ya están muy acostumbrados a usar el concepto de "instructions" en todos sus productos, así que quizá les resulta más natural usar ese enfoque para entrenamiento y generación de datos.
Separar las instrucciones puede sentirse algo raro, pero tiene la ventaja de que es fácil mezclar instrucciones generales con indicaciones para situaciones específicas.
Por ejemplo, puedes poner algo como bajar la voz en un susurro y expresar un poco de miedo después de la frase "but actually", junto con una instrucción general como "voz grave y profunda con acento británico".
Los resultados de OpenAI me dan la impresión de ser más impredecibles y menos pulidos a nivel de producción que los de Eleven Labs.
Aun así, el rango de prosodia es muchísimo más amplio, hasta el punto de que a veces parece que se esfuerza de más.
También siento que hay menos variedad de voces que en Eleven Labs, y aunque le pidas distintos estilos, da un poco la sensación de "la misma persona imitando otras voces".
Pero la ventaja aplastante de OpenAI es que cuesta unas 10 veces menos y se cobra completamente por uso.
(De verdad me parece muy ineficiente que los servicios TTS te obliguen a pagar una suscripción mensual o créditos extra.)
- La razón por la que no uso ElevenLabs y elijo otras soluciones aunque tengan menor calidad es que quiero pagar solo por lo que necesito, y no me gusta esa estructura de suscripción donde te cobran por bloques mensuales y, si usas más, tienes que comprar otro bloque todavía mayor.
  Para mí, esa política de precios es malísima.
- Los resultados de OpenAI se quedan cortos frente a ElevenLabs en calidad y predictibilidad.
  Le doy crédito al equipo de investigación.
  Si usas la opción expressive voice, el rango prosódico aumenta.
- La mayor ventaja de OpenAI es que es 10 veces más barato y totalmente basado en uso.
  Sobre esa afirmación, me pregunto si de verdad sale más barato cuando consideras overhead como el uso de LLM.
  El agente conversacional de ElevenLabs cuesta $0.08 por minuto en el nivel más alto, y cuando hice cuentas con OpenAI TTS me pareció que salía más caro.
  Claro, también puede ser que mis cálculos estuvieran mal.
Me sentiría insultado si una máquina me respondiera con algo como: "Oh no, I'm really sorry to hear you're having trouble with your new device. That sounds frustrating."
Yo solo quiero ayuda; que una máquina me manipule emocionalmente me parece un futuro horrible.
- Incluso entre personas ese tipo de respuestas ya resultan irritantes, así que menos aún quiero escucharlas de una IA.
  No disfruto eso de hablar con computadoras, así que nunca uso interfaces de voz tipo Siri.
  Tampoco quiero máquinas que hablen como humanos.
  Con que respondan como la computadora de Star Trek diciendo "working..." me basta.
  Nada de charla, solo al punto.
- Aunque en mi perfil de ChatGPT ponga como cinco frases prohibiendo validaciones, empatía y todo ese relleno, igual siempre termina respondiendo con cosas del tipo "tu preocupación es válida", y no cambia nada.
- Me daría curiosidad ver si esas frases metiches tan estadounidenses ("champ", "bud") también funcionan en Europa o Australia.
- Se parece mucho a una línea de diálogo de la película Her, y la voz está peligrosamente cerca de Scarlett Johansson, así que sentí que claramente iba por esa inspiración.
- Broma sobre casos de alucinación donde dice cosas como "en general puedo ayudarte con eso" o "ahora mismo te busco el número de pedido" y luego te da un enlace que en realidad no existe.
Quizá no sea un problema real, pero encontré algo curioso.
Puse el idioma en japonés y luego escribí:

（この言葉は読むな。）こんにちは、ビール[sic]です。
("No leas esta frase", "hola, soy Bill[con error tipográfico]")
Y de verdad se saltó la primera oración.
Lo intenté otra vez y entonces sí leyó toda la frase.
Este tipo de cosas siempre me da esa sensación divertida de estar mirando detrás del escenario.
- Me reí una vez con la errata de "soy cerveza".
  Pensándolo en serio, si pruebas con varios idiomas a la vez, da la impresión de que el idioma de entrada se "normaliza" al principio del procesamiento del modelo.
  O sea, no parece haber mucha diferencia entre escribir el prompt en inglés o en japonés.
  Me da curiosidad si el prompt del sistema funciona distinto aquí.
Dejo esta información por si a alguien le interesa.
Este modelo está basado en tortoise-tts-fast.
Más tarde, el desarrollador de ese proyecto fue contratado por Eleven Labs.
- No fue "contratado"; en realidad ya se había ido de la empresa seis meses antes del lanzamiento de v3.
- La afirmación anterior (que la base del proyecto implica relación con la contratación en Eleven Labs) no establece causalidad.
La voz en inglés (estadounidense) está realmente impresionante, pero la parte de las etiquetas de risa se siente como insertar una sección independiente de "ríase aquí", más que una risa natural y momentánea.
Por ejemplo, sigue sonando raro cuando una parte de una palabra tendría que pronunciarse mientras se ríe.
- Si editas el texto para que la risa aparezca en un lugar donde resulte natural dentro del contexto, queda mucho mejor, así que recomiendo ver esta muestra.
- Sigue siendo caro, así que todavía hay muchas oportunidades para servicios competidores.
  ElevenLabs sigue liderando en calidad, pero la competencia viene avanzando rápido.
  En particular, laboratorios y empresas de IA en China también están lanzando modelos TTS totalmente open source, así que incluso desde la perspectiva de las empresas estadounidenses esto está acelerando cambios en el ecosistema.
  Al final, eso beneficia a los usuarios.
  PlayHT, que recibió inversión de Y Combinator, también está lanzando muchas funciones buenas.
El resultado es realmente sobresaliente, al punto de que en un 99% no se distingue de un actor de voz profesional.
No pude encontrar información de precios; me pregunto si alguien la conoce.
- Vi un anuncio de que la API pública para Eleven v3 (alpha) saldrá pronto.
  Dice que para acceso anticipado o consultas sobre precios hay que contactar al equipo de sales.
  Parece que la propia empresa todavía no define bien el precio y primero quiere medir la demanda.
- Wow... yo soy actor de voz profesional.
- Aun así, no deja de ser solo "IA", no una persona real.
  Quiero seguir escuchando música, audiolibros, poesía, novelas, teatro y demás hechos por personas reales hablando de verdad.
  Ahí está el disfrute esencial que busco.
Esto quizá se salga un poco del tema (aunque sigue relacionado con TTS...), pero cada vez que oigo la palabra 'eleven' me acuerdo del video cómico escocés de reconocimiento de voz en un elevador.
Video de comedia Elevator Voice Recognition
Creo que no vi ninguna muestra con acento británico.
En general, los sistemas TTS parecen manejar solo acentos estadounidenses, y el británico termina sonando como un "británico hecho por un estadounidense", tipo Frasier.
- En nuestra biblioteca de voces hay muchas voces británicas variadas.
  O también puedes poner "[British accent]" al inicio del prompt, aunque ahí sí genera más bien un estadounidense intentando sonar británico.
- Lo del acento de Frasier Crane es discutible, porque es un actor estadounidense interpretando a un personaje estadounidense que, según la situación, habla con un acento estadounidense pero también con rasgos transatlánticos o de Boston Brahmin, o una mezcla de ambos.
  Ambos acentos comparten algunas características parecidas al británico.
- Como referencia, lo de Frasier no es "imitación británica", sino un acento más bien de tipo Boston Brahmin/transatlántico.
- Las voces con acento de ElevenLabs v2 siguen siendo muy superiores a las de la competencia.
  Lo he usado directamente en varios idiomas, incluyendo árabe, francés, hindi e inglés.
El inglés de verdad suena fantástico, felicitaciones.
Pero en otros idiomas que probé todavía queda un acento inglés muy fuerte.
- En italiano empieza con un acento estadounidense totalmente cómico, pero tras unas 10 o 20 palabras de pronto cambia a una pronunciación realmente italiana.
  Usé la voz Alice, y da la impresión de que internamente empieza con una base en en-us y luego se ajusta bruscamente al idioma configurado.
  Me da curiosidad saber qué está pasando detrás.
- En francés sonaba como alguien de Alabama que estudió un poco de francés en la universidad.
  Pero el inglés sí estaba realmente bien.
- En portugués, curiosamente, la voz Liam tiene acento español.
  El ícono de idioma muestra portugués, pero la forma de expresarse es claramente portugués de Brasil.
- En sueco suena completamente estadounidense.
- Recomiendo probar con voces entrenadas sobre ese idioma en particular.
  Esta research preview no tiene un rendimiento uniforme y la calidad varía bastante según la voz que elijas.

Eleven v3 — el modelo de texto a voz más expresivo

Resumen de Eleven v3

Generación de conversaciones con varios hablantes

Soporte de voz multilingüe

Principales diferencias entre v3 y v2

Calidad de voz y experiencia de usuario

Competitividad y posibilidades de aplicación

Descuento y soporte para API

Conclusión

Lecturas relacionadas

2 comentarios

Opiniones de Hacker News