ChatGPT incorpora conversación por voz y entrada de imágenes

(openai.com)

1 puntos por GN⁺ 2023-09-26 | 1 comentarios | Compartir por WhatsApp

OpenAI está incorporando gradualmente a ChatGPT la conversación por voz y la entrada de imágenes, para que sea posible ir más allá del texto y hacer preguntas hablando o mostrando fotos
La función de voz requiere activación voluntaria en la app móvil, permite elegir una de 5 voces y usa Whisper para convertir lo que dice el usuario en texto
La función de imágenes maneja fotos, capturas de pantalla y documentos que mezclan texto e imágenes, y en la app móvil permite señalar áreas específicas con una herramienta de dibujo
Se desplegará primero para usuarios Plus y Enterprise durante 2 semanas; la voz estará en iOS y Android, y las imágenes en todas las plataformas
Como existen riesgos como la síntesis de voz realista, la interpretación de imágenes de personas y la dependencia en áreas de alto riesgo, OpenAI aplica un despliegue limitado junto con medidas de seguridad

Nuevas formas de entrada en ChatGPT: hablar, mostrar y preguntar

ChatGPT incorpora funciones para que los usuarios puedan conversar por voz o mostrar imágenes mientras hacen preguntas
Las nuevas funciones buscan que el uso de ChatGPT sea más intuitivo y no dependa solo de escribir con teclado
Algunos ejemplos de uso son los siguientes
- Tomar una foto de un lugar emblemático durante un viaje y preguntar en una conversación en tiempo real qué tiene de interesante
- Mostrar una foto del refrigerador y la despensa, y preguntar por ideas para la cena y una receta paso a paso
- Tomar una foto de un problema de matemáticas de un niño, marcar un conjunto de ejercicios con un círculo y pedir pistas

Qué usuarios y plataformas lo reciben primero

Los usuarios de Plus y Enterprise podrán usar las funciones de voz e imágenes durante las próximas 2 semanas
La función de voz estará disponible en iOS y Android, y debe activarse desde la configuración
La función de imágenes estará disponible en todas las plataformas
Más adelante se ampliará el acceso a otros grupos de usuarios, incluidos los desarrolladores

Cómo funciona la función de voz

Los usuarios podrán tener una conversación de ida y vuelta por voz con ChatGPT
- Conversaciones mientras se desplazan
- Pedir cuentos para dormir para la familia
- Resolver discusiones en la mesa, entre otros casos de uso
Para iniciar la voz en la app móvil, hay que activar la conversación por voz en Settings → New Features
Luego se presiona el botón de audífonos en la parte superior derecha de la pantalla de inicio y se elige una voz preferida entre 5 voces
La nueva función de voz usa un modelo de texto a voz capaz de generar audio similar al humano a partir de texto y solo unos segundos de voz de muestra
Cada voz fue creada por OpenAI en colaboración con actores de voz profesionales
Lo que dice el usuario se convierte a texto mediante Whisper, el sistema de reconocimiento de voz de código abierto de OpenAI

Cómo funciona la función de imágenes

Los usuarios podrán mostrar una o más imágenes a ChatGPT y continuar la conversación
La entrada de imágenes puede usarse para tareas como
- Revisar por qué una parrilla no se enciende
- Ver el contenido del refrigerador y planear una comida
- Analizar gráficos complejos con datos de trabajo
Para enfocar la atención en un área específica, se puede usar la herramienta de dibujo de la app móvil
Para agregar imágenes, hay que presionar el botón de foto para tomar una o seleccionar una existente
- En iOS y Android primero hay que presionar el botón de más
- Se pueden comentar varias imágenes juntas o guiar al assistant sobre qué parte debe mirar usando la herramienta de dibujo
La comprensión de imágenes está a cargo de GPT‑3.5 multimodal y GPT‑4
Estos modelos aplican capacidades de razonamiento lingüístico a distintos tipos de imágenes, como fotos, capturas de pantalla y documentos que combinan texto e imágenes

Despliegue gradual y medidas de seguridad

OpenAI opta por un enfoque de lanzamiento gradual de sus herramientas para poder mejorarlas y reducir riesgos al mismo tiempo
En modelos avanzados con voz y visión, el potencial de uso indebido en el mundo real aumenta, por lo que esta estrategia se vuelve aún más importante
Riesgos y límites relacionados con la voz
- La nueva tecnología de voz puede crear voces sintéticas realistas a partir de solo unos segundos de una voz real
- Aunque permite usos creativos y aplicaciones centradas en accesibilidad, también conlleva riesgos como la suplantación de figuras públicas o fraudes
- OpenAI usa esta tecnología para un caso de uso específico: chat de voz
- El chat de voz está construido con las voces de actores de voz con los que OpenAI colaboró directamente
- Spotify usa esta tecnología en el piloto Voice Translation
- Esta función traduce podcasts a idiomas adicionales con la voz del propio podcaster, ampliando el alcance de la narración
- Enlace relacionado: Voice Translation
Riesgos y límites relacionados con la entrada de imágenes
- Los modelos basados en visión presentan nuevos desafíos, como alucinaciones sobre personas o la dependencia de la interpretación de imágenes en áreas de alto riesgo
- OpenAI probó los modelos con red teams y diversos alpha testers antes de un despliegue más amplio
- Las áreas de prueba incluyeron zonas de riesgo como extremismo y capacidad científica
- El trabajo con Be My Eyes se utiliza para entender cómo se usan las imágenes y cuáles son sus límites
- Be My Eyes es una app móvil gratuita para personas ciegas o con baja visión
- Los usuarios consideran útil poder tener conversaciones generales sobre imágenes que incluyen personas, como cuando en un televisor aparece alguien de fondo
- Como ChatGPT no siempre es preciso y también debe respetar la privacidad de las personas, OpenAI aplicó medidas técnicas que limitan fuertemente la capacidad de ChatGPT para analizar personas y hacer afirmaciones directas sobre ellas
- El uso real y la retroalimentación se utilizarán para mejorar las medidas de seguridad sin perder la utilidad de la herramienta

Límites del modelo y precauciones de uso

Como los usuarios pueden llegar a depender de ChatGPT en temas especializados, como investigación, es importante entender los límites del modelo y evitar usos de alto riesgo sin verificación
El modelo es competente en la transcripción de texto en inglés, pero tiene menor desempeño en algunos otros idiomas, especialmente en sistemas de escritura no romanos
OpenAI no recomienda a los usuarios que no hablan inglés usar ChatGPT para este propósito
Se puede leer más sobre el enfoque de seguridad para la entrada de imágenes y el trabajo relacionado con Be My Eyes en system card for image input

1 comentarios

GN⁺ 2023-09-26

Opiniones de Hacker News

La interfaz de voz tiene un potencial enorme, pero esta demo es bastante decepcionante porque, como otros asistentes de voz mediocres, tiene varios segundos de demora entre la pregunta y la respuesta.
No tiene por qué ser así. Una demo local hecha con Llama 2 responde en unos 0.5 segundos, así que se siente menos como Siri y más como hablar con una persona real.
Habría que empaquetarlo para que la gente pueda probarlo, pero está el problema de que es difícil determinar si el usuario terminó de hablar. A los sistemas de reconocimiento de voz ya hechos les faltan datasets y modelos de toma de turnos conversacional, y una empresa como OpenAI probablemente podría crearlos con facilidad.
- Totalmente de acuerdo. Para habilitar una gran experiencia de voz, la latencia es clave. Una demo breve en la que estoy trabajando para pedidos por voz está en https://youtu.be/WfvLIEHwiyo
  La latencia total de ida y vuelta —conversión de voz a texto, LLM, POS para validación de SKU y generación de voz de vuelta— está en el orden de cientos de milisegundos. Como hay validación de SKU, las alucinaciones también son imposibles, y a este nivel se siente bastante natural. Si se convierte este tipo de baja latencia en un sistema general, creo que abriría muchísimo el abanico de aplicaciones.
- Exacto. Tiene que estar listo apenas termino de hablar, y yo debo poder interrumpir a mitad de camino.
  Si eso es posible, puede empezar a hablar con cautela cuando hago una pausa breve, y si sigo hablando puede detenerse de inmediato.
  No quiero tener que preocuparme por cómo estructurar la interacción como una cadena explícita de llamada/respuesta, ni tener que cuidarme de no dejar de hablar hasta terminar mi idea por miedo a que actúe en un momento equivocado.
- Determinar si el usuario terminó de hablar a veces es difícil no solo para quien escucha, sino también para la persona que habla.
  Las interrupciones educadas, o su ausencia, podrían convertirse en una señal para distinguir si estamos hablando con una IA.
- Me pregunto si podrías compartir un enlace a GitHub. ¿Dónde estás reduciendo la latencia? ¿Estás procesando el audio crudo como texto?
  En mi experiencia, salvo que uses un modelo pequeño como uno de 7B, el tiempo de generación de ChatGPT es mucho más rápido que el de Llama local.
- Me pregunto cuándo las computadoras empezarán a tener en cuenta también la entonación. Realmente ayudaría a entender el final de una frase.
  Hay muchísima información en la entonación que no existe en el texto puro. Una IA que no entienda esa parte del lenguaje, por más inteligente que sea, seguirá pareciendo tonta en algún sentido.
El ejemplo de la bicicleta es simpático e impresionante, pero creo que la interacción con humanos opaca una posibilidad más grande.
Con algunos ajustes, esto se convierte en un solucionador general para la planificación robótica. Todavía quedan varios problemas difíciles antes de llegar a una solución que funcione en la práctica, pero uno de ellos ya estaría resuelto.
¿Veremos en los próximos 5 años robots de propósito general impulsados por ChatGPT haciendo trabajo manual simple?
- El ejemplo de la bicicleta fue flojo para un video demo, e incluso confuso.
  1. En la primera imagen no fue lo bastante inteligente como para reconocer que era un cierre de asiento con perno. Una persona sí puede darse cuenta.
  2. El manual no es visible para el espectador, así que no sabemos cómo sabe el modelo que es un perno de 4 mm, o si solo lo adivinó porque era lo más probable.
  3. Tampoco entiendo cómo sabe que la caja de herramientas usa llaves Allen métricas.
    Además, me pregunto si este es el mismo modelo de visión que ya está en Bing Chat.
- Google ya lo demostró hace unos meses.
  https://www.deepmind.com/blog/rt-2-new-model-translates-visi...
- Sinceramente, creo que podrían haber usado un ejemplo más convincente. Que reconozca muchas cosas está bueno, pero no sé qué tan útil es realmente la demo.
  Una persona con una caja de herramientas y un manual hace una pregunta muy básica: cómo bajar el asiento de una bicicleta. Me pregunto quién tiene el manual de su bicicleta, y es algo que hasta mi hijo de 5 años puede hacer.
  Seguro hay una mejor manera de mostrar el impacto revolucionario de la IA en la humanidad. Aunque fuera algo como cómo atarse los cordones.
- Es cierto, pero la huella ecológica es enorme.
  Tampoco es adecuada para robots pequeños y livianos como drones.
- Esta es la parte que más me entusiasma. Hubo un pequeño avance reciente: https://pressroom.toyota.com/toyota-research-institute-unvei...
Con este anuncio, parece que murieron bastantes startups que intentaban hacer multimodalidad sobre ChatGPT.
Viendo la velocidad con la que resuelve casos de uso con imágenes y voz, no sería raro que pronto se convierta en una sola app que lo domine todo.
Ya se ve el reemplazo de Alexa/Siri/Google Home, el reemplazo de la búsqueda de imágenes de Google y la caída de startups de edtech que resolvían problemas con IA a partir de una foto; y parece que habrá más.
- En retrospectiva, esas startups tendrían que haber tenido cuidado. Deberían haber sabido que OpenAI tiene Whisper y que GPT-4 fue diseñado pensando también en el formato de imágenes.
  No diría que OpenAI haya dejado ver abiertamente sus intenciones, pero la primera pregunta estratégica debió haber sido: “¿Por qué OpenAI todavía no está haciendo esto y, si decide hacerlo, qué vamos a hacer nosotros?”.
- Este año fue realmente frustrante hablar con Google y Siri. Cuando manejo solo durante mucho tiempo, simplemente quiero conversar para aprender sobre temas al azar.
  Todo el verano quise aprender más francés, teoría musical, historia, matemáticas y cosas así “hablando” con ChatGPT. Esta función parece encajar perfecto.
- Crear herramientas o apps de IA de propósito general se siente cada vez más como una mala decisión. Veo dos modelos de negocio de IA viables:
  1. IA especializada por dominio: entrenar modelos de IA en temas muy técnicos y específicos donde los modelos de IA generales no rinden bien.
  2. Integración: si se construye sobre modelos de IA existentes, no enfocarse en agregar funciones, sino en integrarse con los flujos de trabajo existentes de empresas y usuarios. Automatizar procesos internos y conectar sistemas de formas que antes eran imposibles puede generar mucho valor, y además es algo difícil de hacer directamente para las empresas de modelos de IA.
    Ambos suelen ir de la mano.
- Cualquiera que haya seguido los lanzamientos de funciones de OpenAI no debería haberse sorprendido de que ChatGPT se volviera multimodal.
  La app ya tiene entrada por voz. Por ahora convierte la voz a texto antes de enviarla, pero funciona tan bien que casi no hace falta revisar ni corregir. Más bien me preguntaba por qué todavía no respondía con voz.
  La entrada de imágenes fue el punto central y lo más destacado del anuncio de GPT-4 en marzo: https://openai.com/research/gpt-4
- En vez de morir, ¿no podrían pivotar a multimodalidad sobre Llama 2 u otros modelos open source? No tendría que ser un cambio enorme.
  Muchas empresas, gobiernos, etc., no pueden usar OpenAI, que envía datos a un servicio de terceros, por sus propias políticas. Pagarían por algo que pueda ejecutarse on-premise o en su propia nube privada.
Esto será una daga que vuelva imposible la educación en línea.
Solo con ChatGPT ya se podía copiar y pegar problemas técnicos en texto y recibir respuestas con 90% de precisión. La única debilidad eran los problemas con diagramas o dibujos.
Con soporte de imágenes, los estudiantes podrán subir capturas de pantalla o escaneos de documentos y obtener respuestas válidas de ChatGPT. En mi opinión, muchos estudiantes estarán más que dispuestos a abusar de esta función. Para responder, habría que abandonar los sistemas de calificación o imponer educación presencial, donde las tareas se hagan solo en la escuela bajo supervisión y sin deberes.
- También hay otra opción. Esto podría no reemplazar el trabajo del estudiante, sino el trabajo del docente.
  El mayor uso que le encontré a ChatGPT fue aprender por cuenta propia sobre varios temas. Se puede usar como un seminario socrático, haciéndole preguntas a ChatGPT para aprender X.
  Claro que cambiará drásticamente la capacidad de los estudiantes de generar tareas, pero también puede cambiar drásticamente la forma en que aprenden. Con tutoría asistida por IA, la escuela en línea puede convertirse en mucho más de lo que es hoy.
  También parece posible un futuro en el que la educación esté mucho más descentralizada, donde los estudiantes elijan directamente el currículo y el método, y sientan propiedad y control sobre su trabajo, en lugar de verlo como simple “trabajo para mantenerse ocupado”.
- Es cierto.
  Si los talentos más brillantes de nuestra época decidieron que, para el progreso de la especie, lo mejor es que los humanos sean reemplazados por máquinas, uno se pregunta qué sentido tiene estudiar en la escuela.
  Si hoy tienes 16 años, conoces los planes de ChatGPT y OpenAI, y al mismo tiempo te dicen que estudies duro para conseguir un buen trabajo mientras lees el futuro que imaginan los tecnócratas, debe ser bastante confuso.
  Debe de ser realmente difícil querer estudiar ahora y aun así no hacer trampa.
- Se está pasando por alto que pronto el docente será un LLM con una cámara apuntando al estudiante.
  En una clase en línea, ¿por qué habría que ver obligatoriamente el video de una persona? ¿Por qué habría que pedirle al estudiante que produzca algo en una habitación oscura?
  La evaluación del estudiante se basará no en tareas, sino en las conversaciones que haya tenido con un asistente de IA. Enseñar se puede automatizar, pero aprender no.
  Por ahora solo hay un desfase en el que la educación todavía no se puso al día, y como la educación es cara, eso se resolverá rápido. Los padres de verdad tienen que animar a sus hijos a hacer ejercicios de aprendizaje como antes, y ChatGPT debería usarse como Wikipedia. Durante la transición, una generación sufrirá.
- Cuando se habla del abuso de ChatGPT en el contexto escolar, por lo general se trata de estudiantes de secundaria superior o de educación superior. Ellos saben distinguir entre lo correcto y lo incorrecto, y también tienen la capacidad motriz y el acceso para usar la herramienta.
  La necesidad concreta que intentan resolver es quitarse de encima la tarea o el ensayo para hacer XYZ. Probablemente ChatGPT no se use para XYZ. Entonces hay que convertir eso en el objeto en el que invierten su tiempo.
  En algún punto, tendrán que identificar hacia atrás las habilidades necesarias y aprenderlas, y necesitarán orientación y estructura educativa. No será fácil ni ocurrirá sin tiempo y recursos, pero la adaptación avanzará de esa forma.
- En algunos exámenes de certificación, tuve que ejecutar una app en mi computadora para comprobar que no hubiera nada más abierto, y mantener la cámara encendida durante todo el examen para que se vieran mi cuerpo y mis manos.
  Hay formas de hacer que hacer trampa sea lo suficientemente difícil como para que no valga la pena. Dicho eso, esta tecnología cambiará enormemente qué aprendemos y cómo lo aprendemos. Es transformadora y tampoco va a desacelerarse.
No me gusta la forma en que desactivaron durante meses la función de chat con navegación web, es decir, navegación con Bing, y luego la eliminaron en silencio
Habría estado bien que hubiera un aviso adecuado de que iban a quitar la función. Puede que se me haya pasado, pero la última noticia oficial fue que la desactivaban temporalmente mientras arreglaban algo. Cuando me di cuenta, había desaparecido por completo de la plataforma sin que dijeran nada.
- En mi cuenta, actualmente Browsing with Bing está activado como plugin. Desapareció durante meses y volvió de repente hace una o dos semanas.
- Fue decepcionante, y coincido en que parece que no la van a reactivar por un tiempo
  Aunque Perplexity AI usa mejor la búsqueda web que ChatGPT, así que por ese motivo lo uso más que ChatGPT.
- Me creé una cuenta para decir esto, pero yo tengo esta función actualmente. Desapareció durante meses y creo que volvió la semana pasada
  No es un plugin, sino un “modelo” separado que se puede elegir.
- De acuerdo. Ahora hay que depender de plugins de terceros.
Hasta ahora, la experiencia de usuario más intuitiva, a nivel de killer app, parece ser el chat de texto
Interactuar mostrando imágenes también es interesante, porque se siente como hablar con un amigo sobre algún tema, pero habrá que ver si se siente como hablar con alguien muy inteligente, como ChatGPT, o con alguien muy torpe que reconoce objetos hasta cierto punto
Reconocer una llave inglesa no es tan impresionante como conversar con ChatGPT sobre historia o hacer que escriba código que realmente funciona
OpenAI lo está haciendo bien. A la gente se le ocurren casos de uso interesantes, pero parece que la principal forma en que la mayoría interactúa con la IA sigue siendo ChatGPT
Eso sí, todavía no parecen haberle encontrado la vuelta a la generación de imágenes, y las cosas geniales siguen saliendo de MidJourney y Stable Diffusion.
- OpenAI también planea lanzar DALL-E 3 “a principios de octubre”, y las imágenes que eligieron para la demo muestran una comprensión de prompts sin precedentes
  Parece incluso posible incluir texto con oraciones completas dentro de las imágenes generadas.
Estaba armando algunos proyectos de hobby que conectan varios servicios de IA para implementar esto, así que me entusiasma que se reduzcan la complejidad y la latencia de tantas idas y vueltas
Si la API sale a tiempo, es decir, alrededor de Halloween, la parte de software de un proyecto multimodal con una cabeza de esqueleto parlante con cámara ESP32 que mira los disfraces de la gente y les hace comentarios sarcásticos debería volverse un poco más fácil.
- Irónicamente, justamente por eso yo ni siquiera lo intenté.
- Si lo haces, estaría bueno que compartas el proceso o los detalles. Suena realmente genial y a mí también me gustaría hacer algo parecido.
- Definitivamente quiero ver el proyecto terminado. Mi correo está en el perfil.
Desde mi posición, con bastante experiencia en automatización de pruebas de software, lo que estoy esperando es un reconocimiento de imágenes basado en IA sólido para interfaces de usuario de apps
Si se combina con la capacidad de la IA para escribir código de automatización de pruebas, espero que se pueda generar código de pruebas ejecutable para Selenium o Appium a partir de una sola captura de pantalla o de una secuencia de capturas. Siento que ya casi estamos ahí.
- Recomiendo el paper Spotlight de Google[1]. Los datasets creados para este objetivo son muy interesantes
  Dicen que internamente tienen un dataset pantalla-acción-pantalla, pero no parece que lo vayan a publicar. Supongo que así se ve la ventaja de ser dueños de Android
  También está el paper reciente de Hugging Face, IDEFICS[2]. Afirma ser una implementación open source de un paper anterior sobre Flamingo, es decir, comprensión de tareas multimodales con pocos ejemplos. Creo que este campo se va a poner caliente pronto
  [1] https://research.google/pubs/pub52171/
  [2] https://huggingface.co/blog/idefics
Mi mayor queja sobre OpenAI/ChatGPT es su pésimo marketing
Anuncian funciones o plugins de este tipo, me entusiasma ir a probarlos, pero todavía no me los han habilitado, y como cliente de pago es frustrante que lo único que pueda hacer sea revisar todos los días
Ni siquiera envían correos como “ya puedes usar plugins” o “el chat de voz fue activado en tu cuenta”, así que muchas veces termino olvidándome de las funciones nuevas hasta que las vuelvo a ver por casualidad más tarde
Recién abrí la app y fui a “New Features” en la configuración, y Bing Browsing estaba desactivado. Ni siquiera sabía que en algún momento había funcionado. Pensé que quizá necesitaba actualizar la app, fui a la App Store, pero ya tenía la versión más reciente; cerré y volví a abrir la app, y ahora la sección “New Features” directamente desapareció
No voy a andar revisando regularmente la configuración de la app para ver si hay funciones nuevas. Realmente no entiendo que no haya ni un mensaje dentro de la app, ni hablar de correo o push.
- Pasaron de ser una empresa de investigación de nicho a probablemente la startup de más rápido crecimiento de la historia
  No digo que no les importe la comunicación con los clientes, pero por dentro debe ser un caos y un desorden total.
- Hacen marketing como si fueran una startup de tres personas que encontró una plantilla inicial de SaaS, conectó Stripe a las apuradas y nunca miró atrás
  Para empezar a usar la API, de hecho tuve que cancelar mi suscripción y volver a registrarme. Supongo que estaba en una revisión anterior del modelo de facturación
  Me gustan las empresas que tienen éxito no gracias al marketing y el diseño, sino a pesar de ellos. Significa que tienen algo realmente especial.
- ¿Vamos camino a la singularidad y te quejas del marketing?
- Si “lo único que puedes hacer es revisar todos los días”, parece que el marketing está funcionando bien
  Si simplemente te fueras y te olvidaras, tendrían que mejorar la retención, pero como no lo vas a hacer, no hace falta.
- Si la mayor queja de los usuarios es la frustración por funciones que todavía no pueden usar, entonces lo están haciendo extraordinariamente bien.
No entiendo cómo pueden empaquetar todo esto por 20 dólares al mes. ¿De verdad el costo de cómputo se vuelve tan barato al escalar?
También me pregunto cómo Apple y Google van a ofrecer esto gratis. Me gustaría esconderme como una mosca en esa reunión. Seguro habrá muchísimas discusiones tipo dilema del innovador entre “tenemos que hacerlo” y “nos está comiendo los márgenes”.
Quizá sea una idea un poco aventurada, pero creo que Apple está tomando la decisión correcta al dejar que se asiente el polvo. Así como Zuckerberg quemó 20 mil millones de dólares y Apple lanzó Vision Pro, creo que podría pasar algo similar con Llama. Aunque no estoy tan seguro, porque el software sí es el campo principal de Facebook y el hardware no.
- El costo de cómputo no es barato. Como dijo Altman, es bien sabido que OpenAI actualmente está quemando mucho dinero.
  Pero si se consideran la inversión de 10 mil millones de dólares de Microsoft y los ingresos por suscripciones y API, por ahora están bien. Es un momento clave para las empresas de IA, y OpenAI básicamente está intentando asegurar la mayor cuota de mercado posible ofreciendo 10 veces más valor a un precio más bajo que otros modelos comerciales.
- Es la misma razón por la que en Nueva York un viaje de Uber que antes costaba 20 dólares ahora cuesta 80.
  El capital de riesgo está subsidiando la conquista del mercado.
- También es bastante posible que cobren cerca del costo, o incluso por debajo, porque quieren los datos de los usuarios.
  Basta pensar cuánto tendrían que pagar para contratar testers a gran escala.
- Probablemente quieren arrasar el mercado con la inyección de dinero de Microsoft y luego subir los precios.
- Creo que procesar muchas consultas en paralelo puede ser mucho más barato que procesarlas una por una.

ChatGPT incorpora conversación por voz y entrada de imágenes

Nuevas formas de entrada en ChatGPT: hablar, mostrar y preguntar

Qué usuarios y plataformas lo reciben primero

Cómo funciona la función de voz

Cómo funciona la función de imágenes

Despliegue gradual y medidas de seguridad

Riesgos y límites relacionados con la voz

Riesgos y límites relacionados con la entrada de imágenes

Límites del modelo y precauciones de uso

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News