Todo lo que OpenAI anunció en DevDay

xguru · 2024-10-03T10:20:02+09:00

Anuncios principales Realtime API, que permite implementar funciones similares al modo de voz avanzado de ChatGPT Aumento del rate limit del modelo o1 para igualarlo con GPT-4o (10 mil veces por minuto) Reducción de precio de la API de GPT-4o con caché automática de prompts. Para llamadas repetidas, cuesta 50% menos sin desarrollo adicional API de fine-tuning multimodal La cantidad de apps activas en la plataforma de OpenAI se triplicó del año pasado a este año, y la cantidad de desarrolladores activos llega a 3 millones Resumen del modelo o1 OpenAI lanzó o1, un nuevo modelo de razonamiento o1 se clasifica como una nueva familia de modelos, distinta del GPT-4o existente OpenAI considera que el futuro va en la dirección de desarrollar varios modelos para distintos casos de uso o1 destaca por su capacidad de pensar en forma de cadena de pensamiento, por lo que es adecuado para tareas de programación, pero es lento y costoso Como la mayoría de los prompts no necesitan la capacidad avanzada de razonamiento de o1, o1 no será el modelo predeterminado Romain Huet, responsable de relaciones con desarrolladores en OpenAI, presentó una demo usando o1 para crear una app de iPhone de punta a punta en 30 segundos con un solo prompt También llevó un dron al escenario y mostró una demo en la que creó una web app para controlarlo frente al público Estas demos también habrían sido posibles con modelos GPT anteriores, pero con o1 se pueden crear mucho más rápido o1 muestra un futuro en el que se puede pasar de una idea a una app en 1 o 2 minutos API en tiempo real para conversaciones por voz La función más impresionante que lanzó OpenAI es la Realtime API, que permite a los desarrolladores implementar en sus apps capacidades similares al modo de voz avanzado de ChatGPT Los desarrolladores pueden enviar audio grabado a los servidores de OpenAI y recibir en tiempo real respuestas grabadas, transcripciones y llamadas a funciones La Realtime API se lanza desde hoy en beta pública, y en el futuro también admitirá más modalidades como video La Realtime API cuesta 0.06 dólares por minuto de entrada de audio y 0.24 dólares por salida de audio, para un total de 0.15 dólares por minuto (asumiendo que la entrada y la salida de audio son iguales) Esto es más caro que el servicio de voz a voz de ElevenLabs, que cuesta alrededor de 0.11 dólares por minuto, pero no se paga según uso sino que hay que comprar una cantidad fija de tiempo cada mes La voz en tiempo real abre muchos casos de uso nuevos, como mejores asistentes de lectura o enseñanza de idiomas más inmersiva Herramientas de fine-tuning OpenAI se está tomando en serio la idea de que usar varios modelos es mejor que usar un solo modelo grande Ayuda a las empresas a crear versiones personalizadas de GPT-4o adaptadas a sus propios casos de uso OpenAI imagina un futuro en el que todas las empresas tendrán modelos ajustados finamente con acceso a sus propios datos API de fine-tuning de imágenes Cualquiera puede hacer fine-tuning de GPT-4o usando sus propios datos de imágenes Por ejemplo, si trabajas en el área médica y quieres ajustar finamente la capacidad de GPT-4o para leer y etiquetar MRI, puedes usar esta API Herramientas de destilación de modelos OpenAI lanzó dos herramientas para hacer mejor la destilación de modelos, el proceso de crear versiones más pequeñas, rápidas y baratas de modelos fundacionales construidas para casos de uso específicos Hizo más fácil la destilación al agregar en el Developer Playground una función para registrar interacciones previas con la API y usarlas como datos para fine-tuning También agregó la herramienta Evals al Playground para que los desarrolladores puedan evaluar el rendimiento de modelos ajustados finamente Reducir 50% el costo de llamadas repetidas a la API con caché de prompts OpenAI lanzó una nueva función de caché de prompts que detecta llamadas repetidas a la API y devuelve respuestas generadas anteriormente Esta función opera automáticamente desde hoy y puede reducir en 50% el costo de muchas llamadas a la API sin trabajo adicional por parte del desarrollador Esta función se alinea con la tendencia de OpenAI de competir para hacer cada vez más barato el uso de su API Es una buena noticia para los desarrolladores, pero genera una dinámica interesante con Microsoft, el socio más grande de OpenAI Microsoft ha estado presionando a grandes empresas para que compren por adelantado llamadas a la API de GPT-4 por encima de cierto monto para garantizar capacidad Queda la duda de cómo verán estas rebajas de precio Microsoft y los clientes que ya hicieron compromisos de compra La estrategia de OpenAI 1. Enfocarse en desarrollar varios modelos para distintos casos de uso OpenAI cree que, en lugar de resolver todo con un solo modelo, las aplicaciones más efectivas serán las que usen varios modelos juntos Los desarrolladores pueden combinar modelos fuertes en razonamiento como o1 con modelos fuertes en contexto largo o procesamiento de prompts con imágenes como GPT-4o para ofrecer una experiencia consistente al usuario 2. o1 es un paso importante hacia agentes que pueden trabajar de forma autónoma Los agentes han sido durante mucho tiempo una de las aplicaciones de IA más atractivas, pero los modelos GPT anteriores tenían muchas probabilidades de no funcionar bien cuando intentaban resolver tareas por sí mismos Se espera que o1 desempeñe un papel clave en la creación de agentes realmente autónomos gracias a su capacidad de reflexionar sobre su propio proceso de pensamiento y planificar los siguientes pasos 3. La cantidad de tecnología disponible para que los desarrolladores creen experiencias sorprendentes para los usuarios se ha vuelto enorme Es fácil olvidar que hace apenas unos años nada de lo que se mostró hoy era posible o siquiera estaba en el radar Hoy, incluso un desarrollador individual que crea apps en su tiempo libre puede lograr cosas que antes ni un equipo completo de desarrollo podía hacer

(every.to)

12 puntos por xguru 2024-10-03 | Aún no hay comentarios. | Compartir por WhatsApp

Anuncios principales

Realtime API, que permite implementar funciones similares al modo de voz avanzado de ChatGPT
Aumento del rate limit del modelo o1 para igualarlo con GPT-4o (10 mil veces por minuto)
Reducción de precio de la API de GPT-4o con caché automática de prompts. Para llamadas repetidas, cuesta 50% menos sin desarrollo adicional
API de fine-tuning multimodal
La cantidad de apps activas en la plataforma de OpenAI se triplicó del año pasado a este año, y la cantidad de desarrolladores activos llega a 3 millones

Resumen del modelo o1

OpenAI lanzó o1, un nuevo modelo de razonamiento
o1 se clasifica como una nueva familia de modelos, distinta del GPT-4o existente
OpenAI considera que el futuro va en la dirección de desarrollar varios modelos para distintos casos de uso
o1 destaca por su capacidad de pensar en forma de cadena de pensamiento, por lo que es adecuado para tareas de programación, pero es lento y costoso
Como la mayoría de los prompts no necesitan la capacidad avanzada de razonamiento de o1, o1 no será el modelo predeterminado
Romain Huet, responsable de relaciones con desarrolladores en OpenAI, presentó una demo usando o1 para crear una app de iPhone de punta a punta en 30 segundos con un solo prompt
También llevó un dron al escenario y mostró una demo en la que creó una web app para controlarlo frente al público
Estas demos también habrían sido posibles con modelos GPT anteriores, pero con o1 se pueden crear mucho más rápido
o1 muestra un futuro en el que se puede pasar de una idea a una app en 1 o 2 minutos

API en tiempo real para conversaciones por voz

La función más impresionante que lanzó OpenAI es la Realtime API, que permite a los desarrolladores implementar en sus apps capacidades similares al modo de voz avanzado de ChatGPT
Los desarrolladores pueden enviar audio grabado a los servidores de OpenAI y recibir en tiempo real respuestas grabadas, transcripciones y llamadas a funciones
La Realtime API se lanza desde hoy en beta pública, y en el futuro también admitirá más modalidades como video
La Realtime API cuesta 0.06 dólares por minuto de entrada de audio y 0.24 dólares por salida de audio, para un total de 0.15 dólares por minuto (asumiendo que la entrada y la salida de audio son iguales)
Esto es más caro que el servicio de voz a voz de ElevenLabs, que cuesta alrededor de 0.11 dólares por minuto, pero no se paga según uso sino que hay que comprar una cantidad fija de tiempo cada mes
La voz en tiempo real abre muchos casos de uso nuevos, como mejores asistentes de lectura o enseñanza de idiomas más inmersiva

Herramientas de fine-tuning

OpenAI se está tomando en serio la idea de que usar varios modelos es mejor que usar un solo modelo grande
Ayuda a las empresas a crear versiones personalizadas de GPT-4o adaptadas a sus propios casos de uso
OpenAI imagina un futuro en el que todas las empresas tendrán modelos ajustados finamente con acceso a sus propios datos

API de fine-tuning de imágenes

Cualquiera puede hacer fine-tuning de GPT-4o usando sus propios datos de imágenes
Por ejemplo, si trabajas en el área médica y quieres ajustar finamente la capacidad de GPT-4o para leer y etiquetar MRI, puedes usar esta API

Herramientas de destilación de modelos

OpenAI lanzó dos herramientas para hacer mejor la destilación de modelos, el proceso de crear versiones más pequeñas, rápidas y baratas de modelos fundacionales construidas para casos de uso específicos
Hizo más fácil la destilación al agregar en el Developer Playground una función para registrar interacciones previas con la API y usarlas como datos para fine-tuning
También agregó la herramienta Evals al Playground para que los desarrolladores puedan evaluar el rendimiento de modelos ajustados finamente

Reducir 50% el costo de llamadas repetidas a la API con caché de prompts

OpenAI lanzó una nueva función de caché de prompts que detecta llamadas repetidas a la API y devuelve respuestas generadas anteriormente
Esta función opera automáticamente desde hoy y puede reducir en 50% el costo de muchas llamadas a la API sin trabajo adicional por parte del desarrollador
Esta función se alinea con la tendencia de OpenAI de competir para hacer cada vez más barato el uso de su API
Es una buena noticia para los desarrolladores, pero genera una dinámica interesante con Microsoft, el socio más grande de OpenAI
Microsoft ha estado presionando a grandes empresas para que compren por adelantado llamadas a la API de GPT-4 por encima de cierto monto para garantizar capacidad
Queda la duda de cómo verán estas rebajas de precio Microsoft y los clientes que ya hicieron compromisos de compra

La estrategia de OpenAI

1. Enfocarse en desarrollar varios modelos para distintos casos de uso

OpenAI cree que, en lugar de resolver todo con un solo modelo, las aplicaciones más efectivas serán las que usen varios modelos juntos
Los desarrolladores pueden combinar modelos fuertes en razonamiento como o1 con modelos fuertes en contexto largo o procesamiento de prompts con imágenes como GPT-4o para ofrecer una experiencia consistente al usuario

2. o1 es un paso importante hacia agentes que pueden trabajar de forma autónoma

Los agentes han sido durante mucho tiempo una de las aplicaciones de IA más atractivas, pero los modelos GPT anteriores tenían muchas probabilidades de no funcionar bien cuando intentaban resolver tareas por sí mismos
Se espera que o1 desempeñe un papel clave en la creación de agentes realmente autónomos gracias a su capacidad de reflexionar sobre su propio proceso de pensamiento y planificar los siguientes pasos

3. La cantidad de tecnología disponible para que los desarrolladores creen experiencias sorprendentes para los usuarios se ha vuelto enorme

Es fácil olvidar que hace apenas unos años nada de lo que se mostró hoy era posible o siquiera estaba en el radar
Hoy, incluso un desarrollador individual que crea apps en su tiempo libre puede lograr cosas que antes ni un equipo completo de desarrollo podía hacer