- OpenAI incorpora nuevas funciones de voz e imagen en ChatGPT
- Las nuevas funciones ofrecen una interfaz más intuitiva, como conversar por voz o mostrarle imágenes a ChatGPT
- Los usuarios pueden aprovechar estas funciones de distintas maneras, como tomar fotos de puntos de referencia para mantener conversaciones en tiempo real, o fotografiar el refrigerador y la despensa para decidir el menú de la cena
- Está previsto que se implementen durante las próximas dos semanas para usuarios Plus y Enterprise; la función de voz estará disponible en iOS y Android, y la función de imagen en todas las plataformas
- La nueva función de voz está impulsada por un modelo de texto a voz capaz de generar audio similar al humano a partir de texto y unos pocos segundos de una voz de muestra
- La función de voz fue desarrollada en colaboración con actores de voz profesionales y utiliza Whisper, el sistema de reconocimiento de voz de código abierto de OpenAI, para convertir las palabras habladas en texto
- La función de comprensión de imágenes está impulsada por GPT-3.5 y GPT-4, que aplican capacidades de razonamiento lingüístico a una amplia variedad de imágenes
- OpenAI está desplegando estas funciones de forma gradual para garantizar un uso seguro y beneficioso, y para preparar a los usuarios ante sistemas futuros más potentes
- La nueva tecnología de voz presenta riesgos potenciales frente a actores maliciosos que puedan hacerse pasar por figuras públicas o cometer fraudes
- Los modelos basados en visión también plantean nuevos desafíos, por ejemplo, alucinar información sobre personas o depender de la interpretación de imágenes del modelo en áreas de alto riesgo
- OpenAI ha tomado medidas para limitar la capacidad de ChatGPT de analizar y hacer declaraciones directas sobre personas, con el fin de respetar la privacidad individual
- OpenAI comunica con transparencia las limitaciones del modelo, destacando especialmente las limitaciones en investigación y en idiomas con escrituras no romanas
- Los usuarios Plus y Enterprise podrán probar las funciones de voz e imagen durante las próximas dos semanas, y otros grupos de usuarios, incluidos los desarrolladores, podrán hacerlo poco después
1 comentarios
Opiniones de Hacker News