1 puntos por GN⁺ 2023-09-26 | 1 comentarios | Compartir por WhatsApp
  • OpenAI incorpora nuevas funciones de voz e imagen en ChatGPT
  • Las nuevas funciones ofrecen una interfaz más intuitiva, como conversar por voz o mostrarle imágenes a ChatGPT
  • Los usuarios pueden aprovechar estas funciones de distintas maneras, como tomar fotos de puntos de referencia para mantener conversaciones en tiempo real, o fotografiar el refrigerador y la despensa para decidir el menú de la cena
  • Está previsto que se implementen durante las próximas dos semanas para usuarios Plus y Enterprise; la función de voz estará disponible en iOS y Android, y la función de imagen en todas las plataformas
  • La nueva función de voz está impulsada por un modelo de texto a voz capaz de generar audio similar al humano a partir de texto y unos pocos segundos de una voz de muestra
  • La función de voz fue desarrollada en colaboración con actores de voz profesionales y utiliza Whisper, el sistema de reconocimiento de voz de código abierto de OpenAI, para convertir las palabras habladas en texto
  • La función de comprensión de imágenes está impulsada por GPT-3.5 y GPT-4, que aplican capacidades de razonamiento lingüístico a una amplia variedad de imágenes
  • OpenAI está desplegando estas funciones de forma gradual para garantizar un uso seguro y beneficioso, y para preparar a los usuarios ante sistemas futuros más potentes
  • La nueva tecnología de voz presenta riesgos potenciales frente a actores maliciosos que puedan hacerse pasar por figuras públicas o cometer fraudes
  • Los modelos basados en visión también plantean nuevos desafíos, por ejemplo, alucinar información sobre personas o depender de la interpretación de imágenes del modelo en áreas de alto riesgo
  • OpenAI ha tomado medidas para limitar la capacidad de ChatGPT de analizar y hacer declaraciones directas sobre personas, con el fin de respetar la privacidad individual
  • OpenAI comunica con transparencia las limitaciones del modelo, destacando especialmente las limitaciones en investigación y en idiomas con escrituras no romanas
  • Los usuarios Plus y Enterprise podrán probar las funciones de voz e imagen durante las próximas dos semanas, y otros grupos de usuarios, incluidos los desarrolladores, podrán hacerlo poco después

1 comentarios

 
GN⁺ 2023-09-26
Opiniones de Hacker News
  • Las nuevas funciones de voz e imagen de ChatGPT tienen potencial, pero preocupa la latencia entre las consultas y las respuestas.
  • Esta tecnología podría usarse en la planificación de robots, lo que podría llevar a que robots de propósito general realicen trabajo simple.
  • Los avances de ChatGPT podrían descolocar a muchas startups que intentaban desarrollar capacidades multimodales.
  • Hay decepción por la eliminación de la función de navegación web sin un anuncio adecuado.
  • Las nuevas funciones podrían usarse para aplicar reconocimiento de imágenes robusto basado en IA en interfaces de usuario de aplicaciones y para generar código de automatización de pruebas ejecutable.
  • La experiencia de usuario más intuitiva parece ser el chat de texto, pero la interacción con imágenes también es interesante.
  • La incorporación del soporte de imágenes podría ser mal utilizada por estudiantes para obtener respuestas a sus tareas.
  • Hay críticas por la falta de comunicación sobre las nuevas funciones de OpenAI y su despliegue.
  • Las nuevas funciones podrían reducir la complejidad y la latencia de integrar varios servicios de IA en proyectos de hobby.
  • Hay críticas de que ChatGPT sigue en modo de "demo genial" y no aprovecha por completo su potencial, como usar voz para explicar programas.