Anuncios principales
- Realtime API, que permite implementar funciones similares al modo de voz avanzado de ChatGPT
- Aumento del rate limit del modelo o1 para igualarlo con GPT-4o (10 mil veces por minuto)
- Reducción de precio de la API de GPT-4o con caché automática de prompts. Para llamadas repetidas, cuesta 50% menos sin desarrollo adicional
- API de fine-tuning multimodal
- La cantidad de apps activas en la plataforma de OpenAI se triplicó del año pasado a este año, y la cantidad de desarrolladores activos llega a 3 millones
Resumen del modelo o1
- OpenAI lanzó o1, un nuevo modelo de razonamiento
- o1 se clasifica como una nueva familia de modelos, distinta del GPT-4o existente
- OpenAI considera que el futuro va en la dirección de desarrollar varios modelos para distintos casos de uso
- o1 destaca por su capacidad de pensar en forma de cadena de pensamiento, por lo que es adecuado para tareas de programación, pero es lento y costoso
- Como la mayoría de los prompts no necesitan la capacidad avanzada de razonamiento de o1, o1 no será el modelo predeterminado
- Romain Huet, responsable de relaciones con desarrolladores en OpenAI, presentó una demo usando o1 para crear una app de iPhone de punta a punta en 30 segundos con un solo prompt
- También llevó un dron al escenario y mostró una demo en la que creó una web app para controlarlo frente al público
- Estas demos también habrían sido posibles con modelos GPT anteriores, pero con o1 se pueden crear mucho más rápido
- o1 muestra un futuro en el que se puede pasar de una idea a una app en 1 o 2 minutos
API en tiempo real para conversaciones por voz
- La función más impresionante que lanzó OpenAI es la Realtime API, que permite a los desarrolladores implementar en sus apps capacidades similares al modo de voz avanzado de ChatGPT
- Los desarrolladores pueden enviar audio grabado a los servidores de OpenAI y recibir en tiempo real respuestas grabadas, transcripciones y llamadas a funciones
- La Realtime API se lanza desde hoy en beta pública, y en el futuro también admitirá más modalidades como video
- La Realtime API cuesta 0.06 dólares por minuto de entrada de audio y 0.24 dólares por salida de audio, para un total de 0.15 dólares por minuto (asumiendo que la entrada y la salida de audio son iguales)
- Esto es más caro que el servicio de voz a voz de ElevenLabs, que cuesta alrededor de 0.11 dólares por minuto, pero no se paga según uso sino que hay que comprar una cantidad fija de tiempo cada mes
- La voz en tiempo real abre muchos casos de uso nuevos, como mejores asistentes de lectura o enseñanza de idiomas más inmersiva
Herramientas de fine-tuning
- OpenAI se está tomando en serio la idea de que usar varios modelos es mejor que usar un solo modelo grande
- Ayuda a las empresas a crear versiones personalizadas de GPT-4o adaptadas a sus propios casos de uso
- OpenAI imagina un futuro en el que todas las empresas tendrán modelos ajustados finamente con acceso a sus propios datos
API de fine-tuning de imágenes
- Cualquiera puede hacer fine-tuning de GPT-4o usando sus propios datos de imágenes
- Por ejemplo, si trabajas en el área médica y quieres ajustar finamente la capacidad de GPT-4o para leer y etiquetar MRI, puedes usar esta API
Herramientas de destilación de modelos
- OpenAI lanzó dos herramientas para hacer mejor la destilación de modelos, el proceso de crear versiones más pequeñas, rápidas y baratas de modelos fundacionales construidas para casos de uso específicos
- Hizo más fácil la destilación al agregar en el Developer Playground una función para registrar interacciones previas con la API y usarlas como datos para fine-tuning
- También agregó la herramienta Evals al Playground para que los desarrolladores puedan evaluar el rendimiento de modelos ajustados finamente
Reducir 50% el costo de llamadas repetidas a la API con caché de prompts
- OpenAI lanzó una nueva función de caché de prompts que detecta llamadas repetidas a la API y devuelve respuestas generadas anteriormente
- Esta función opera automáticamente desde hoy y puede reducir en 50% el costo de muchas llamadas a la API sin trabajo adicional por parte del desarrollador
- Esta función se alinea con la tendencia de OpenAI de competir para hacer cada vez más barato el uso de su API
- Es una buena noticia para los desarrolladores, pero genera una dinámica interesante con Microsoft, el socio más grande de OpenAI
- Microsoft ha estado presionando a grandes empresas para que compren por adelantado llamadas a la API de GPT-4 por encima de cierto monto para garantizar capacidad
- Queda la duda de cómo verán estas rebajas de precio Microsoft y los clientes que ya hicieron compromisos de compra
La estrategia de OpenAI
1. Enfocarse en desarrollar varios modelos para distintos casos de uso
- OpenAI cree que, en lugar de resolver todo con un solo modelo, las aplicaciones más efectivas serán las que usen varios modelos juntos
- Los desarrolladores pueden combinar modelos fuertes en razonamiento como o1 con modelos fuertes en contexto largo o procesamiento de prompts con imágenes como GPT-4o para ofrecer una experiencia consistente al usuario
2. o1 es un paso importante hacia agentes que pueden trabajar de forma autónoma
- Los agentes han sido durante mucho tiempo una de las aplicaciones de IA más atractivas, pero los modelos GPT anteriores tenían muchas probabilidades de no funcionar bien cuando intentaban resolver tareas por sí mismos
- Se espera que o1 desempeñe un papel clave en la creación de agentes realmente autónomos gracias a su capacidad de reflexionar sobre su propio proceso de pensamiento y planificar los siguientes pasos
3. La cantidad de tecnología disponible para que los desarrolladores creen experiencias sorprendentes para los usuarios se ha vuelto enorme
- Es fácil olvidar que hace apenas unos años nada de lo que se mostró hoy era posible o siquiera estaba en el radar
- Hoy, incluso un desarrollador individual que crea apps en su tiempo libre puede lograr cosas que antes ni un equipo completo de desarrollo podía hacer
Aún no hay comentarios.