18 puntos por happyhaki 19 일 전 | 2 comentarios | Compartir por WhatsApp

oh-my-free-models (omfm) es un proxy local que enruta agentes de código al modelo más rápido disponible en ese momento entre varios proveedores gratuitos. Si cambias el baseURL de un agente compatible con OpenAI o Anthropic a localhost y dejas seleccionados algunos modelos gratuitos, omfm sigue enviando las solicitudes incluso mientras fluctúan la latencia, los rate limits y las cuotas.

¿Por qué hace falta?

Los agentes de código en el free tier se ven bien en la hoja de especificaciones, pero cuando los pones a trabajar de verdad, se traban en cuatro puntos.

  • El rate limit corta el trabajo a la mitad. Los modelos gratuitos de OpenRouter o NVIDIA lanzan 429 sin aviso. Una ejecución que iba bien se detiene por una sola llamada de herramienta, y alguien tiene que reintentarlo manualmente.

  • La latencia se dispara o cae según la hora del día. El mismo modelo gratuito puede ser rápido por la mañana y volverse tan lento por la tarde que deja de servir. Como cambia según la hora y la región, no puedes definir de antemano cuál es “el modelo rápido”. Solo existe “el modelo rápido en este momento”.

  • Cuando se agota la cuota, hay que cambiar de proveedor a mano. Si se termina la cuota gratuita de un proveedor, tienes que cambiar tú mismo la key y el baseURL. La configuración del agente no se adapta sola a ese cambio.

  • El catálogo gratuito cambia seguido. Aparecen modelos nuevos, otros desaparecen, algunos quedan marcados como deprecated y otros empiezan a devolver errores en silencio. No te enteras por el dashboard, sino cuando ya te chocaste con el problema.

Funciones principales

  • Enrutamiento de solicitudes al modelo activo con menor latencia actual dentro del pool de modelos gratuitos seleccionado
  • Los modelos que arrojan errores de rate limit o cuota, como 429/402, entran en cooldown durante unos 10 minutos
  • Provee endpoints compatibles con OpenAI /v1 y compatibles con Anthropic /anthropic
  • Se puede usar en clientes compatibles con OpenAI como OpenClaw, Hermes Agent u OpenCode con url=http://localhost:4567/v1 y model=omfm
  • En Claude Code, se puede usar cambiando el base URL de Anthropic a http://localhost:4567/anthropic
  • Permite separar pools de modelos por uso con grupos como omfm/fast, omfm/balanced y omfm/capable
  • Incluye CLI como omfm model, omfm start, omfm status, omfm doctor y omfm usage

Es especialmente útil para agentes locales o de CLI de código que aceptan endpoints compatibles con OpenAI, como OpenClaw o Hermes Agent. Si dejas intacta la configuración del agente y solo cambias el base URL y el modelo a omfm, por detrás se automatizan la medición de latencia de los modelos gratuitos, la exclusión de modelos fallidos y el cambio de proveedor.

2 comentarios

 
channprj 14 일 전

Es un proyecto interesante. Me hizo pensar por un momento en 9router, pero parece estar más especializado en modelos gratuitos, así que me resulta interesante. Gracias por el buen producto.

https://9router.com

 
happyhaki 14 일 전

Oh, qué interesante que exista algo así. Gracias por compartirlo. Yo había pensado en LiteLLM, pero siento que en cuanto metes proveedores de pago en omfm ya no hay mucha diferencia, así que quiero mantener solo modelos gratuitos.