Notas de Simon Willison sobre o3-mini

xguru · 2025-02-02T10:07:02+09:00

El nuevo modelo o3-mini de OpenAI fue presentado recientemente y, al igual que otros modelos de la serie o, es un poco difícil de evaluar Ahora, además de GPT-4o, o1, o1 Pro y otros modelos existentes, hay que decidir cuál elegir según el caso de uso Según la System Card de o3-mini (PDF), en algunos indicadores de evaluación o3-mini supera a GPT-4o y o1, pero no muestra un rendimiento consistentemente alto en todos los apartados Destaca especialmente en métricas de benchmark relacionadas con programación competitiva, como Codeforces ELO OpenAI planea permitir que o3-mini haga búsquedas en internet y luego resuma los resultados en ChatGPT Como el modelo o1 anterior no usaba la herramienta de búsqueda web dentro de ChatGPT, llama la atención la utilidad potencial de esta nueva función Además, o3-mini no soporta funciones de visión (imágenes), pero existe la posibilidad de que el próximo modelo mini incluya visión Se añadió soporte para o3-mini en LLM 0.21, la herramienta CLI que escribí Con la opción -o reasoning_effort se puede indicar high, medium o low Actualmente, o3-mini solo está disponible para usuarios de Tier 3 o superior Para pertenecer a ese tier, el gasto mínimo en la API debe ser de más de $100 El costo de o3-mini es: $1.10 por cada millón de tokens de entrada $4.40 por cada millón de tokens de salida Cuesta menos de la mitad que GPT-4o ($2.50/$10) y menos de una décima parte que o1 ($15/$60) Probó ejecutar el script hn-summary.sh con o3-mini para resumir una publicación de Hacker News (42890627) hn-summary.sh 42890627 -o o3-mini Usó 18,936 tokens de entrada y 2,905 de salida, con un costo total aproximado de 0.033612 dólares (3.3612 centavos) El límite máximo de tokens de salida de o3-mini es de 100,000 Es mucho mayor que GPT-4o (16,000), DeepSeek R1 (8,000) y Claude 3.5 (8,000) Como los tokens usados para razonamiento interno también consumen parte de ese límite, puede ser difícil que la salida real llegue a 100,000 Puede aceptar hasta 200,000 tokens de entrada, una capacidad ampliada frente a los 128,000 de GPT-4o Parece tener mucho potencial para tareas como traducciones de texto largo Porque es barato y está bien posicionado para manejar entradas y salidas extensas En Hacker News resultó interesante el comentario del traductor profesional Tom Gally Mencionó que tanto DeepSeek R1 como o3-mini mostraron una caída de calidad hacia el final al traducir textos largos Al principio parecía que R1 no estaba mal, pero o3-mini produjo resultados más fluidos, con un inglés más natural y más cercanos al estilo de escritura solicitado Sin embargo, la longitud de salida fue de 5,855 caracteres para R1, 9,052 para o3-mini y 11,021 para la versión editada manualmente R1 omitió algunos párrafos de la parte final, y o3-mini usó un estilo abreviado extraño (usar / entre sustantivos en lugar de and) Su opinión es que ChatGPT, Claude y Gemini no habían mostrado este tipo de problemas al traducir ese mismo texto

(simonwillison.net)

14 puntos por xguru 2025-02-02 | 1 comentarios | Compartir por WhatsApp

El nuevo modelo o3-mini de OpenAI fue presentado recientemente y, al igual que otros modelos de la serie o, es un poco difícil de evaluar
- Ahora, además de GPT-4o, o1, o1 Pro y otros modelos existentes, hay que decidir cuál elegir según el caso de uso
Según la System Card de o3-mini (PDF), en algunos indicadores de evaluación o3-mini supera a GPT-4o y o1, pero no muestra un rendimiento consistentemente alto en todos los apartados
- Destaca especialmente en métricas de benchmark relacionadas con programación competitiva, como Codeforces ELO
OpenAI planea permitir que o3-mini haga búsquedas en internet y luego resuma los resultados en ChatGPT
- Como el modelo o1 anterior no usaba la herramienta de búsqueda web dentro de ChatGPT, llama la atención la utilidad potencial de esta nueva función
Además, o3-mini no soporta funciones de visión (imágenes), pero existe la posibilidad de que el próximo modelo mini incluya visión
Se añadió soporte para o3-mini en LLM 0.21, la herramienta CLI que escribí
- Con la opción -o reasoning_effort se puede indicar high, medium o low
Actualmente, o3-mini solo está disponible para usuarios de Tier 3 o superior
- Para pertenecer a ese tier, el gasto mínimo en la API debe ser de más de $100
El costo de o3-mini es:
- $1.10 por cada millón de tokens de entrada
- $4.40 por cada millón de tokens de salida
- Cuesta menos de la mitad que GPT-4o ($2.50/$10) y menos de una décima parte que o1 ($15/$60)
Probó ejecutar el script hn-summary.sh con o3-mini para resumir una publicación de Hacker News (42890627)
- hn-summary.sh 42890627 -o o3-mini
- Usó 18,936 tokens de entrada y 2,905 de salida, con un costo total aproximado de 0.033612 dólares (3.3612 centavos)
El límite máximo de tokens de salida de o3-mini es de 100,000
- Es mucho mayor que GPT-4o (16,000), DeepSeek R1 (8,000) y Claude 3.5 (8,000)
- Como los tokens usados para razonamiento interno también consumen parte de ese límite, puede ser difícil que la salida real llegue a 100,000
Puede aceptar hasta 200,000 tokens de entrada, una capacidad ampliada frente a los 128,000 de GPT-4o
Parece tener mucho potencial para tareas como traducciones de texto largo
- Porque es barato y está bien posicionado para manejar entradas y salidas extensas
En Hacker News resultó interesante el comentario del traductor profesional Tom Gally
- Mencionó que tanto DeepSeek R1 como o3-mini mostraron una caída de calidad hacia el final al traducir textos largos
- Al principio parecía que R1 no estaba mal, pero o3-mini produjo resultados más fluidos, con un inglés más natural y más cercanos al estilo de escritura solicitado
- Sin embargo, la longitud de salida fue de 5,855 caracteres para R1, 9,052 para o3-mini y 11,021 para la versión editada manualmente
- R1 omitió algunos párrafos de la parte final, y o3-mini usó un estilo abreviado extraño (usar / entre sustantivos en lugar de and)
- Su opinión es que ChatGPT, Claude y Gemini no habían mostrado este tipo de problemas al traducir ese mismo texto

1 comentarios

xguru 2025-02-02

Lanzamiento de OpenAI o3-Mini

Notas de Simon Willison sobre o3-mini

Lecturas relacionadas

1 comentarios