- Se lanzaron nuevas funciones de voz e imagen para ChatGPT.
- Ahora es posible conversar de forma natural por voz y hacer preguntas adjuntando imágenes.
- La voz se convierte en texto mediante Whisper, y las respuestas se transforman en voces profesionales basadas en un nuevo modelo de TTS.
- El nuevo modelo de TTS puede reproducir fielmente la voz de una persona con solo unos segundos de muestra.
- Este modelo también se usa en la función de traducción de pódcasts de Spotify, realizando traducciones multilingües con la voz original del podcaster.
- Se pueden adjuntar varias imágenes a la vez, y no solo reconoce el texto dentro de ellas, sino también objetos con gran detalle.
- Es posible preguntar cómo usar una herramienta o dispositivo, o conversar sobre recetas a partir de los ingredientes dentro del refrigerador.
- También puede analizar gráficos o resolver problemas matemáticos.
- En la app móvil, la herramienta de dibujo permite enfocar la atención en partes específicas de una imagen.
- Por seguridad y privacidad, las funciones para analizar o hablar sobre personas están fuertemente limitadas.
- Se espera que esté disponible primero para usuarios de Plus y Enterprise dentro de las próximas 2 semanas.
- La voz solo funciona en iOS y Android, mientras que la función de adjuntar imágenes está disponible en todas las plataformas.
4 comentarios
Skynet is coming...
Parece que el OS de la película Her ya va a ser posible.
Cuando salió GPT-4 por primera vez apareció brevemente, pero me parece increíble que no solo reconozca imágenes, sino que también las entienda.
En los ejemplos aparece una parte donde le preguntan cómo ajustar el asiento de una bicicleta,
y parece que no se trata solo de reconocimiento de imágenes, sino de algo como mirar el manual y encontrar la herramienta adecuada...
Pensé que quizá necesitaba una suscripción Plus, pero así ya cambia un poco la cosa... tengo muchísima curiosidad.
Resumen de IA del hilo de HN