- El nuevo modelo o3-mini de OpenAI fue presentado recientemente y, al igual que otros modelos de la serie o, es un poco difícil de evaluar
- Ahora, además de GPT-4o, o1, o1 Pro y otros modelos existentes, hay que decidir cuál elegir según el caso de uso
- Según la System Card de o3-mini (PDF), en algunos indicadores de evaluación o3-mini supera a GPT-4o y o1, pero no muestra un rendimiento consistentemente alto en todos los apartados
- Destaca especialmente en métricas de benchmark relacionadas con programación competitiva, como Codeforces ELO
- OpenAI planea permitir que o3-mini haga búsquedas en internet y luego resuma los resultados en ChatGPT
- Como el modelo o1 anterior no usaba la herramienta de búsqueda web dentro de ChatGPT, llama la atención la utilidad potencial de esta nueva función
- Además, o3-mini no soporta funciones de visión (imágenes), pero existe la posibilidad de que el próximo modelo mini incluya visión
- Se añadió soporte para o3-mini en LLM 0.21, la herramienta CLI que escribí
- Con la opción
-o reasoning_effort se puede indicar high, medium o low
- Actualmente, o3-mini solo está disponible para usuarios de Tier 3 o superior
- Para pertenecer a ese tier, el gasto mínimo en la API debe ser de más de $100
- El costo de o3-mini es:
- $1.10 por cada millón de tokens de entrada
- $4.40 por cada millón de tokens de salida
- Cuesta menos de la mitad que GPT-4o ($2.50/$10) y menos de una décima parte que o1 ($15/$60)
- Probó ejecutar el script hn-summary.sh con o3-mini para resumir una publicación de Hacker News (42890627)
hn-summary.sh 42890627 -o o3-mini
- Usó 18,936 tokens de entrada y 2,905 de salida, con un costo total aproximado de 0.033612 dólares (3.3612 centavos)
- El límite máximo de tokens de salida de o3-mini es de 100,000
- Es mucho mayor que GPT-4o (16,000), DeepSeek R1 (8,000) y Claude 3.5 (8,000)
- Como los tokens usados para razonamiento interno también consumen parte de ese límite, puede ser difícil que la salida real llegue a 100,000
- Puede aceptar hasta 200,000 tokens de entrada, una capacidad ampliada frente a los 128,000 de GPT-4o
- Parece tener mucho potencial para tareas como traducciones de texto largo
- Porque es barato y está bien posicionado para manejar entradas y salidas extensas
- En Hacker News resultó interesante el comentario del traductor profesional Tom Gally
- Mencionó que tanto DeepSeek R1 como o3-mini mostraron una caída de calidad hacia el final al traducir textos largos
- Al principio parecía que R1 no estaba mal, pero o3-mini produjo resultados más fluidos, con un inglés más natural y más cercanos al estilo de escritura solicitado
- Sin embargo, la longitud de salida fue de 5,855 caracteres para R1, 9,052 para o3-mini y 11,021 para la versión editada manualmente
- R1 omitió algunos párrafos de la parte final, y o3-mini usó un estilo abreviado extraño (usar
/ entre sustantivos en lugar de and)
- Su opinión es que ChatGPT, Claude y Gemini no habían mostrado este tipo de problemas al traducir ese mismo texto
1 comentarios
Lanzamiento de OpenAI o3-Mini