ChatGPT ahora puede ver, escuchar y hablar

kuroneko · 2023-09-26T10:09:40+09:00

Se lanzaron nuevas funciones de voz e imagen para ChatGPT. Ahora es posible conversar de forma natural por voz y hacer preguntas adjuntando imágenes. La voz se convierte en texto mediante Whisper, y las respuestas se transforman en voces profesionales basadas en un nuevo modelo de TTS. El nuevo modelo de TTS puede reproducir fielmente la voz de una persona con solo unos segundos de muestra. Este modelo también se usa en la función de traducción de pódcasts de Spotify, realizando traducciones multilingües con la voz original del podcaster. Se pueden adjuntar varias imágenes a la vez, y no solo reconoce el texto dentro de ellas, sino también objetos con gran detalle. Es posible preguntar cómo usar una herramienta o dispositivo, o conversar sobre recetas a partir de los ingredientes dentro del refrigerador. También puede analizar gráficos o resolver problemas matemáticos. En la app móvil, la herramienta de dibujo permite enfocar la atención en partes específicas de una imagen. Por seguridad y privacidad, las funciones para analizar o hablar sobre personas están fuertemente limitadas. Se espera que esté disponible primero para usuarios de Plus y Enterprise dentro de las próximas 2 semanas. La voz solo funciona en iOS y Android, mientras que la función de adjuntar imágenes está disponible en todas las plataformas.

(openai.com)

22 puntos por kuroneko 2023-09-26 | 4 comentarios | Compartir por WhatsApp

Se lanzaron nuevas funciones de voz e imagen para ChatGPT.
Ahora es posible conversar de forma natural por voz y hacer preguntas adjuntando imágenes.
La voz se convierte en texto mediante Whisper, y las respuestas se transforman en voces profesionales basadas en un nuevo modelo de TTS.
- El nuevo modelo de TTS puede reproducir fielmente la voz de una persona con solo unos segundos de muestra.
- Este modelo también se usa en la función de traducción de pódcasts de Spotify, realizando traducciones multilingües con la voz original del podcaster.
Se pueden adjuntar varias imágenes a la vez, y no solo reconoce el texto dentro de ellas, sino también objetos con gran detalle.
- Es posible preguntar cómo usar una herramienta o dispositivo, o conversar sobre recetas a partir de los ingredientes dentro del refrigerador.
- También puede analizar gráficos o resolver problemas matemáticos.
- En la app móvil, la herramienta de dibujo permite enfocar la atención en partes específicas de una imagen.
- Por seguridad y privacidad, las funciones para analizar o hablar sobre personas están fuertemente limitadas.
Se espera que esté disponible primero para usuarios de Plus y Enterprise dentro de las próximas 2 semanas.
La voz solo funciona en iOS y Android, mientras que la función de adjuntar imágenes está disponible en todas las plataformas.

4 comentarios

alstjr7375 2023-09-26

Skynet is coming...

ciber27 2023-09-26

Parece que el OS de la película Her ya va a ser posible.

kuroneko 2023-09-26

Cuando salió GPT-4 por primera vez apareció brevemente, pero me parece increíble que no solo reconozca imágenes, sino que también las entienda.

En los ejemplos aparece una parte donde le preguntan cómo ajustar el asiento de una bicicleta,
y parece que no se trata solo de reconocimiento de imágenes, sino de algo como mirar el manual y encontrar la herramienta adecuada...

Pensé que quizá necesitaba una suscripción Plus, pero así ya cambia un poco la cosa... tengo muchísima curiosidad.

kuroneko 2023-09-26

Resumen de IA del hilo de HN

modeless: cree que la latencia es actualmente el mayor problema de los asistentes de voz, y que construir un modelo de toma de turnos en conversaciones por voz permitiría interacciones más naturales.
TheEzEzz: construyó un sistema de pedidos por voz de baja latencia usando Llama y otras herramientas, con tiempos de respuesta cercanos a una conversación natural. Cree que la investigación continua en esta área podría permitir desarrollar nuevas aplicaciones.
cyrux004: cuestiona si los modelos que corren localmente pueden alcanzar el mismo rendimiento que los modelos basados en la nube, especialmente en sistemas complejos.
TheEzEzz: coincide en que depende de la aplicación, y espera que se vuelva común un enfoque híbrido donde los modelos locales se encarguen del procesamiento inicial y solo recurran a grandes modelos en la nube cuando sea necesario.
simian1983: pregunta qué ocurrirá si se hacen solicitudes sin sentido o maliciosas al sistema.
TheEzEzz: responde que el sistema está entrenado para ignorar frases irrelevantes, de modo que el ruido de fondo no interfiera con las solicitudes.
furyofantares: enfatiza la importancia de poder interrumpir la respuesta de un asistente de voz, igual que al hablar con una persona.
dotancohen: sugiere que la interrupción podría ser una señal de humanidad que los sistemas de IA todavía no dominan.
jonplackett: cree que un verdadero asistente de voz con nivel humano debería ser capaz de entender la entonación, que transmite información importante que no está presente en el texto.

ChatGPT ahora puede ver, escuchar y hablar

Lecturas relacionadas

4 comentarios