OpenAI presenta GPT-4o, un modelo de IA multimodal con capacidades de texto, audio e imagen

(openai.com)

11 puntos por brainer 2024-05-14 | 5 comentarios | Compartir por WhatsApp

• Un modelo de IA revolucionario capaz de procesar y generar texto, audio e imágenes al mismo tiempo
• Con tiempos de respuesta en tiempo real comparables a la conversación humana, GPT-4o establece un nuevo estándar para la interacción natural entre humanos y computadoras
• En la API es más rápido y rentable, y además supera el rendimiento de GPT-4 Turbo en texto y código, especialmente en idiomas distintos del inglés
• Gracias a las capacidades multimodales de GPT-4o, puede comprender entradas de audio y responder a ellas, generar salida de audio y participar en conversaciones en tiempo real
• El modelo muestra razonamiento mejorado, dominio multilingüe, comprensión de audio y visual, y percepción visual
• OpenAI destacó las medidas de seguridad implementadas en el diseño y el entrenamiento posterior de GPT-4o para mitigar riesgos potenciales
• La versión inicial incluye entradas de texto e imagen y salida de texto; las funciones de audio y video estarán disponibles en el futuro para socios confiables de la API

5 comentarios

bluejoyq 2024-05-14

Se siente de verdad que la velocidad mejoró muchísimo.

brainer 2024-05-14

Si preguntas en coreano,

el rendimiento del modelo en sí *2 × 1.7 (mejora en los tokens en coreano) = 3.4 veces más rápido

xguru 2024-05-14

La O de 4O significa Omni.

corelyai 2024-05-14

La última actualización de ChatGPT: el modelo GPT-4o y una accesibilidad mejorada para los usuarios

ChatGPT está enfocado en hacer que las herramientas avanzadas de IA sean accesibles gratuitamente para todos. El lanzamiento de la versión de escritorio y del nuevo modelo insignia, GPT-4o, busca mejorar la naturalidad y la facilidad de uso para los usuarios. GPT-4o ofrecerá capacidades más rápidas y mejoradas en texto, visión y audio, lo que marcará un avance importante en la colaboración entre humanos y máquinas.

La expansión de ChatGPT con GPT-4o

Ahora ofrecemos GPT-4o a todos los usuarios, con capacidades de razonamiento por voz, texto y visión. Las nuevas funciones incluyen conversación por voz en tiempo real, memoria, búsqueda de información en tiempo real y análisis avanzado de datos. GPT-4o estará disponible en 50 idiomas, con mejoras en calidad y velocidad, y límites de uso más altos para los usuarios de pago.

Nuevas funciones en tiempo real y mayor capacidad de respuesta en ChatGPT

Las nuevas funciones de ChatGPT ofrecen capacidad de respuesta en tiempo real y la habilidad de detectar las emociones del usuario. El modelo puede generar voces en distintos estilos, como una voz dramática, una voz robótica o una voz cantada. Además, ChatGPT ahora admite tareas visuales y puede interactuar con los usuarios en un entorno de demostración en vivo.

Resolver ecuaciones lineales: paso a paso

Barrett Zoph y ChatGPT resuelven la ecuación 3X + 1 = 4 separando primero el término X y luego encontrando el valor de X, para después hablar sobre aplicaciones reales de las ecuaciones lineales en la vida diaria, como costos, planes de viaje y cálculos de negocios. Esto aporta una nueva confianza para entender las matemáticas y usarlas en problemas reales.

Analizar datos del clima con ChatGPT

ChatGPT ayuda a analizar datos del clima explicando funciones de código e interpretando la salida de gráficos. La función 'Fu' es esencial para suavizar los datos de temperatura y reducir el ruido en el gráfico. Este muestra promedios suavizados, temperaturas mínimas y máximas a lo largo de todo 2018, además de una anotación destacada sobre un gran evento de lluvia ocurrido a finales de septiembre.

Interacción multilingüe y tecnología de IA

La tecnología de IA muestra, mediante una demostración en vivo, capacidades de interacción multilingüe e interpretación de emociones. La demostración destaca el objetivo de facilitar el acceso de los usuarios a esta tecnología en un futuro cercano. Además, en esta presentación se reconoce al equipo que contribuyó al avance tecnológico y sus méritos.

Corely, ¡el contenido clave de YouTube en solo 10 segundos! - https://corely.ai/content/openai-spring-update-2022