14 puntos por xguru 2025-02-02 | 1 comentarios | Compartir por WhatsApp
  • El nuevo modelo o3-mini de OpenAI fue presentado recientemente y, al igual que otros modelos de la serie o, es un poco difícil de evaluar
    • Ahora, además de GPT-4o, o1, o1 Pro y otros modelos existentes, hay que decidir cuál elegir según el caso de uso
  • Según la System Card de o3-mini (PDF), en algunos indicadores de evaluación o3-mini supera a GPT-4o y o1, pero no muestra un rendimiento consistentemente alto en todos los apartados
    • Destaca especialmente en métricas de benchmark relacionadas con programación competitiva, como Codeforces ELO
  • OpenAI planea permitir que o3-mini haga búsquedas en internet y luego resuma los resultados en ChatGPT
    • Como el modelo o1 anterior no usaba la herramienta de búsqueda web dentro de ChatGPT, llama la atención la utilidad potencial de esta nueva función
  • Además, o3-mini no soporta funciones de visión (imágenes), pero existe la posibilidad de que el próximo modelo mini incluya visión
  • Se añadió soporte para o3-mini en LLM 0.21, la herramienta CLI que escribí
    • Con la opción -o reasoning_effort se puede indicar high, medium o low
  • Actualmente, o3-mini solo está disponible para usuarios de Tier 3 o superior
    • Para pertenecer a ese tier, el gasto mínimo en la API debe ser de más de $100
  • El costo de o3-mini es:
    • $1.10 por cada millón de tokens de entrada
    • $4.40 por cada millón de tokens de salida
    • Cuesta menos de la mitad que GPT-4o ($2.50/$10) y menos de una décima parte que o1 ($15/$60)
  • Probó ejecutar el script hn-summary.sh con o3-mini para resumir una publicación de Hacker News (42890627)
    • hn-summary.sh 42890627 -o o3-mini
    • Usó 18,936 tokens de entrada y 2,905 de salida, con un costo total aproximado de 0.033612 dólares (3.3612 centavos)
  • El límite máximo de tokens de salida de o3-mini es de 100,000
    • Es mucho mayor que GPT-4o (16,000), DeepSeek R1 (8,000) y Claude 3.5 (8,000)
    • Como los tokens usados para razonamiento interno también consumen parte de ese límite, puede ser difícil que la salida real llegue a 100,000
  • Puede aceptar hasta 200,000 tokens de entrada, una capacidad ampliada frente a los 128,000 de GPT-4o
  • Parece tener mucho potencial para tareas como traducciones de texto largo
    • Porque es barato y está bien posicionado para manejar entradas y salidas extensas
  • En Hacker News resultó interesante el comentario del traductor profesional Tom Gally
    • Mencionó que tanto DeepSeek R1 como o3-mini mostraron una caída de calidad hacia el final al traducir textos largos
    • Al principio parecía que R1 no estaba mal, pero o3-mini produjo resultados más fluidos, con un inglés más natural y más cercanos al estilo de escritura solicitado
    • Sin embargo, la longitud de salida fue de 5,855 caracteres para R1, 9,052 para o3-mini y 11,021 para la versión editada manualmente
    • R1 omitió algunos párrafos de la parte final, y o3-mini usó un estilo abreviado extraño (usar / entre sustantivos en lugar de and)
    • Su opinión es que ChatGPT, Claude y Gemini no habían mostrado este tipo de problemas al traducir ese mismo texto

1 comentarios