OpenAI presenta GPT-4o, un modelo de IA multimodal con capacidades de texto, audio e imagen
(openai.com)• Un modelo de IA revolucionario capaz de procesar y generar texto, audio e imágenes al mismo tiempo
• Con tiempos de respuesta en tiempo real comparables a la conversación humana, GPT-4o establece un nuevo estándar para la interacción natural entre humanos y computadoras
• En la API es más rápido y rentable, y además supera el rendimiento de GPT-4 Turbo en texto y código, especialmente en idiomas distintos del inglés
• Gracias a las capacidades multimodales de GPT-4o, puede comprender entradas de audio y responder a ellas, generar salida de audio y participar en conversaciones en tiempo real
• El modelo muestra razonamiento mejorado, dominio multilingüe, comprensión de audio y visual, y percepción visual
• OpenAI destacó las medidas de seguridad implementadas en el diseño y el entrenamiento posterior de GPT-4o para mitigar riesgos potenciales
• La versión inicial incluye entradas de texto e imagen y salida de texto; las funciones de audio y video estarán disponibles en el futuro para socios confiables de la API
5 comentarios
Se siente de verdad que la velocidad mejoró muchísimo.
Si preguntas en coreano,
el rendimiento del modelo en sí *2 × 1.7 (mejora en los tokens en coreano) = 3.4 veces más rápido
La O de 4O significa Omni.
La última actualización de ChatGPT: el modelo GPT-4o y una accesibilidad mejorada para los usuarios
ChatGPT está enfocado en hacer que las herramientas avanzadas de IA sean accesibles gratuitamente para todos. El lanzamiento de la versión de escritorio y del nuevo modelo insignia, GPT-4o, busca mejorar la naturalidad y la facilidad de uso para los usuarios. GPT-4o ofrecerá capacidades más rápidas y mejoradas en texto, visión y audio, lo que marcará un avance importante en la colaboración entre humanos y máquinas.
La expansión de ChatGPT con GPT-4o
Ahora ofrecemos GPT-4o a todos los usuarios, con capacidades de razonamiento por voz, texto y visión. Las nuevas funciones incluyen conversación por voz en tiempo real, memoria, búsqueda de información en tiempo real y análisis avanzado de datos. GPT-4o estará disponible en 50 idiomas, con mejoras en calidad y velocidad, y límites de uso más altos para los usuarios de pago.
Nuevas funciones en tiempo real y mayor capacidad de respuesta en ChatGPT
Las nuevas funciones de ChatGPT ofrecen capacidad de respuesta en tiempo real y la habilidad de detectar las emociones del usuario. El modelo puede generar voces en distintos estilos, como una voz dramática, una voz robótica o una voz cantada. Además, ChatGPT ahora admite tareas visuales y puede interactuar con los usuarios en un entorno de demostración en vivo.
Resolver ecuaciones lineales: paso a paso
Barrett Zoph y ChatGPT resuelven la ecuación 3X + 1 = 4 separando primero el término X y luego encontrando el valor de X, para después hablar sobre aplicaciones reales de las ecuaciones lineales en la vida diaria, como costos, planes de viaje y cálculos de negocios. Esto aporta una nueva confianza para entender las matemáticas y usarlas en problemas reales.
Analizar datos del clima con ChatGPT
ChatGPT ayuda a analizar datos del clima explicando funciones de código e interpretando la salida de gráficos. La función 'Fu' es esencial para suavizar los datos de temperatura y reducir el ruido en el gráfico. Este muestra promedios suavizados, temperaturas mínimas y máximas a lo largo de todo 2018, además de una anotación destacada sobre un gran evento de lluvia ocurrido a finales de septiembre.
Interacción multilingüe y tecnología de IA
La tecnología de IA muestra, mediante una demostración en vivo, capacidades de interacción multilingüe e interpretación de emociones. La demostración destaca el objetivo de facilitar el acceso de los usuarios a esta tecnología en un futuro cercano. Además, en esta presentación se reconoce al equipo que contribuyó al avance tecnológico y sus méritos.
Corely, ¡el contenido clave de YouTube en solo 10 segundos! - https://corely.ai/content/openai-spring-update-2022
Introducing GPT-4o
La parte de la demo de conversación en tiempo real del video de presentación está impactante. Desde más o menos el minuto 9:45 (el enlace de arriba está puesto para empezar desde ahí).
Ahora ya se le puede interrumpir fácilmente a mitad de la respuesta, responde casi en tiempo real y además la entonación es mucho más rica.