El AI de código abierto debe ganar
(opensourceaimustwin.com)- El AI es una infraestructura civilizatoria para el trabajo, la educación, la ciencia, el software, la creación, los servicios públicos y la capacidad nacional, y su acceso no debe depender de las condiciones y precios de unas pocas empresas
- La capacidad de investigar, construir, reparar, distribuir, auditar, ajustar, entrenar, preservar y ejecutar sistemas inteligentes sin pedir permiso está directamente ligada a la libertad operativa
- El AI de código abierto debe mantener su usabilidad incluso si los laboratorios dominantes actuales, laboratorios extranjeros, fabricantes de hardware, plataformas en la nube o proveedores de modelos de pesos abiertos cambian de rumbo o desaparecen
- Si un pequeño número de laboratorios frontier cerrados y empresas de plataforma controlan los modelos, existe el riesgo de que la infraestructura de inteligencia se convierta en una economía de suscripción de la cognición
- Estados Unidos no debe quedarse atrás en la libertad de ejecutar, inspeccionar, modificar, hacer benchmark, entrenar y preservar la infraestructura de inteligencia, y una actitud práctica debe combinar la capacidad estadounidense con estándares abiertos globales
El AI de código abierto debe ganar
- Si la inteligencia se convierte en algo que solo puede tomarse prestado de unas pocas instituciones cerradas, el público perderá no solo la libertad del software, sino también la libertad operativa
- Debe ser posible investigar, construir, reparar, distribuir, auditar, ajustar, entrenar, preservar y ejecutar sistemas inteligentes sin pedir permiso, y esta capacidad es existencialmente importante
- El AI se considera una infraestructura civilizatoria que sostiene el trabajo, la educación, la ciencia, el software, la creación, los servicios públicos y la capacidad nacional
- El acceso al AI no debe depender de APIs cerradas, plataformas remotas, términos de uso cambiantes, ajustes opacos, disponibilidad del modelo ni precios fijados por unas pocas empresas
Condiciones que el AI de código abierto debe mantener
- El AI de código abierto debe ser usable, comprensible y reproducible
- El AI de código abierto debe permitir el despliegue local, ser económicamente sostenible y permitir que la comunidad asuma la gobernanza
- Incluso si los laboratorios dominantes de hoy, laboratorios extranjeros, fabricantes de hardware, plataformas en la nube o proveedores de modelos de pesos abiertos cambian de rumbo o desaparecen, el AI de código abierto debe seguir funcionando
- Si un pequeño número de laboratorios frontier cerrados y empresas de plataforma controlan los modelos, existe el riesgo de que la infraestructura de inteligencia se convierta en una economía de suscripción de la cognición
- Estados Unidos no debe quedarse atrás en la libertad de ejecutar, inspeccionar, modificar, hacer benchmark, entrenar y preservar la infraestructura de inteligencia
- Una actitud práctica debe consistir en combinar la capacidad estadounidense con estándares abiertos globales
2 comentarios
Opiniones en Lobste.rs
No existe la “IA” de código abierto. Los LLM que pueden ejecutarse en local son solo bloques opacos que las megacorporaciones, que gastan millones de dólares en entrenar cada versión y controlan por completo los datos de entrada, ofrecen por buena voluntad
Una persona que no sea independientemente rica no puede revisar por completo cómo se hizo el modelo, ni modificar el dataset de entrenamiento original, ni reconstruirlo desde cero cuando quiera
Ejecutar necesariamente un LLM gratuito precompilado en una computadora personal es una dependencia cultivada de infraestructura centralizada y, en la realidad actual, se parece más a apoyar una tecnología que el individuo no puede controlar estructuralmente. Mejor sería escribir un manifiesto diciendo que debe ganar la fusión fría
Claro, la mayoría de esos modelos no están al nivel de los modelos de frontera si se mira solo la capacidad técnica, y a veces ni siquiera buscan eso. Por ejemplo, la UE financió el desarrollo de modelos que representen mejor los idiomas dentro de la UE para fines como la traducción
Y no creo que, por definición, un modelo de código abierto tenga que poder ejecutarse necesariamente en local. Si el modelo es realmente abierto, aunque la empresa detrás quiebre, la base para seguir desarrollándolo no queda encerrada dentro de esa empresa, así que el riesgo disminuye mucho. El software de código abierto no significa necesariamente “puedo hacerlo barato en mi máquina local”
Entre los LLM relativamente abiertos recientes están NVIDIA-Nemotron-3-Nano-30B-A3B (código de código abierto, se entrega la mayor parte del dataset de entrenamiento) y Olmo-3.1-32B-Think (código de código abierto, todos los datos de entrenamiento publicados en Hugging Face)
En teoría, cualquiera puede reproducir un modelo similar, decidir qué datos usar para entrenarlo o modificar la receta de entrenamiento. Aun así, sigue siendo cierto que el preentrenamiento todavía está fuera del alcance de un individuo que no sea rico
OLMo está explícitamente señalado como un modelo que pasó la etapa de verificación de la OSI, y Pythia también fue verificado por la OSI como un sistema de IA de código abierto que cumple los requisitos. Lucie-7B es uno de los primeros LLM multilingües que siguen la definición de IA de la OSI, y sus creadores afirman que el dataset de entrenamiento, el código de preparación de datos y los pesos del modelo se ofrecen todos bajo licencias abiertas
También es cierto que entrenar desde cero cuesta mucho dinero. Pero si es así, me pregunto si entonces usar el kernel de Linux también habría que llamarlo una “dependencia cultivada”, porque ahí aplican las mismas salvedades
La “IA es infraestructura civilizatoria para el trabajo, la educación, la ciencia, el software, la creación, los servicios públicos y la capacidad nacional” no es verdad. Solo las personas que la controlan quieren que lo sea y la están empujando desesperadamente para convertirla en eso, pero en realidad no lo es
Basta con no subcontratar el pensamiento a máquinas que consumen muchos recursos, infringen copyright y alucinan 😘
Claro, no concentrar este poder en manos de unas pocas megacorporaciones resuelve uno de los grandes problemas de la IA actual, pero no resuelve en absoluto los demás
En la práctica, el agente local de programación más pequeño que resulta útil es Qwen3.6 27B, y en una tarjeta NVIDIA con límite de energía funciona sin problemas de forma intermitente alrededor de 280~300W. La electricidad usada en un día de programación probablemente sea menor que pasar unas cuantas horas jugando Subnautica 2 en una PC gamer de escritorio. También porque con modelos pequeños no puedes subcontratar tanto pensamiento, así que la IA descansa más y la persona piensa más
El costo de entrenamiento es mayor, pero si solo intentaras entrenar unos cuantos modelos del tamaño de 27B al año, eso se pierde dentro del conjunto de la civilización industrial. Cuando alguna vez hice el cálculo, salía algo así como que con sumar una fundición de aluminio geotérmica más en Islandia bastaría para entrenar varios modelos de clase 27B. No es gratis, pero está cerca de ser un error de redondeo
El consumo eléctrico de inferencia es menor que el de tres focos incandescentes, y además solo mientras el modelo realmente está generando. El consumo de entrenamiento sí equivale al de una gran instalación industrial, pero casi todo podría hacerse con energía renovable. Islandia es buena para eso
Lo de “infracción de copyright” no parece sostenerse bajo la jurisprudencia actual de EE. UU., y conviene ser cautelosos con ampliar todavía más el poder del copyright. Llevo oponiéndome a esa expansión desde los 90, así que aunque no me guste cómo se entrenan los LLM, este tema parece haberse movido fuera del terreno del derecho de autor hacia el de la política y la legislación. Aunque el caso de Anthropic copiando libros ilegalmente sí sería una excepción
Pero el problema de subcontratar el pensamiento sí se está volviendo un desastre muy rápido. Mucha gente intenta convertirse en marionetas de carne de un dios máquina, y eso da miedo
Es parecido a decir que matar está mal “porque es ilegal”. Matar sí está mal, pero no por su ilegalidad. La ley puede cambiar. Si se construyó toda una corriente alrededor de que la IA está mal por el copyright y luego el Congreso la legaliza, ¿todos van a aceptar de pronto que la IA está bien? Había otras razones para oponerse que estaban más cerca del centro de la preocupación real, y quizá habría sido más productivo agruparse alrededor de ellas
Alexandra Elbakyan también es una infractora de copyright. Pero ella es una adulta, y todas las universidades deberían tener su estatua
No hay futuro para el aprendizaje automático y los modelos de lenguaje a gran escala que sea realmente abierto y justo sin considerar toda la cadena de suministro. Recomiendo leer https://time.com/6247678/openai-chatgpt-kenya-workers/
Pronto llegaremos al pico de datos, y después de eso el avance probablemente vendrá sobre todo de usar de forma agéntica los LLM más recientes en conjunto
Es probable que el último modelo de código abierto que se publique termine usándose durante años como base para superestructuras cambiantes de agentes open source o de otro tipo
Más exactamente, el público debería reconocer la enorme financiación pública que las grandes tecnológicas han recibido en los últimos 20 años, y especialmente últimamente, y exigir derechos sobre la infraestructura pagada con impuestos
Estas empresas no habrían existido ni podrían existir sin inyecciones masivas de dinero público. Además, buena parte de los datos de entrenamiento se tomó directamente de los bienes comunes públicos
Estos modelos no son el resultado de un esfuerzo privado, sino el resultado final de un enorme esfuerzo colectivo, y deberían reconocerse legalmente como bienes comunes públicos
Sea importante o no, sea una burbuja o no, sean predictores alucinantes de tokens o no, es muy importante que todos los países tengan un marco legal para obligar a los “Frontier lab” a publicar como código abierto todos los modelos salvo los más recientes
Lo publicado debe incluir pesos, datos de entrenamiento y metodología, o si no debe obligarse a que cada modelo se vuelva de código abierto después de 10~15 años. Por el avance del conocimiento humano y para evitar la separación entre quienes “tienen” y quienes “no tienen”, todos los modelos deben hacerse públicos después de cierto tiempo
Tal vez pienses que la AGI no está cerca, pero la intención de estos laboratorios de frontera es llegar primero a la AGI y luego quedársela solos detrás de un muro de pago. Sea muy probable o poco probable, eso debe impedirse por el bien de toda la humanidad
Opiniones de Hacker News
Hace tiempo que venimos pensando en crear un sistema de entrenamiento distribuido de modelos con máquinas a las que la gente contribuya de forma voluntaria, pero en la práctica la dificultad es astronómicamente alta
La velocidad de comunicación no da abasto, y también es un problema la contaminación de datos que llega desde nodos no confiables
Lo segundo quizá podría resolverse casi por completo con un sistema de rollback de checkpoints autorreparable que no obligue a descartar todos los resultados posteriores a los datos contaminados, pero esto no es un proyecto pequeño que una sola persona pueda hacer solo con una idea
Si ahora toda la investigación frontier terminara prohibida de seguir avanzando, entonces este enfoque podría empezar a volverse interesante
La suma de todas las GPU del planeta superaría sus capacidades, pero hace falta una forma de usarlas de manera distribuida y eficiente
Aunque no podamos entrenar Fable tan rápido como ellos, tener acceso algún día es mejor que no tenerlo jamás
El hardware especializado para AI no solo es muchísimo más rápido que las GPU de consumo, también tiene mucha mejor eficiencia energética y conectividad, y cada uno de esos tres factores por sí solo derrumba la idea
La diferencia en eficiencia energética es tan grande que, incluso juntando todas las GPU públicas o dispositivos similares del planeta, el costo de electricidad sería demasiado alto, y podría salir más barato en costo total construir tu propio datacenter con ese dinero
Incluso si la electricidad fuera gratis, unir GPU dispersas por todo el mundo con la latencia de internet las haría miles o millones de veces más lentas, y ni siquiera está claro que fuera viable
En cualquier caso, es difícil conseguir fable-oss en esta década, y quizá incluso en este siglo
Sería mejor que los gobiernos, aunque fuera en forma de alianza, compraran y poseyeran directamente datacenters para operarlos en beneficio público, y de hecho creo que deberían hacerlo
Más bien imagina miles de pequeños datacenters o usuarios individuales reuniendo capacidad ociosa por internet para coordinar una corrida de entrenamiento más grande que la de una sola entidad
Empresas como Pluralis Research, Prime Intellect y Nous Research están persiguiendo esa visión, y ya han tenido éxito con entrenamiento distribuido a cierta escala, pero en la práctica el entrenamiento distribuido por internet sigue muy por detrás del entrenamiento centralizado
Incluso los modelos más grandes, como 8B Protocol Model de Pluralis, INTELLECT-1 de Prime Intellect y Consilience 40B de Nous, fueron entrenados con 1,000 veces menos cómputo que modelos frontier actuales como Grok 4 de xAI
https://epoch.ai/gradient-updates/how-far-can-decentralized-...
Eso parte de una mala comprensión de cuánto silicio fue precisamente a esas empresas y de cuánto más potente es ese silicio frente al hardware de consumo
El modelo BLOOM también fue producto de un esfuerzo colaborativo: https://huggingface.co/docs/transformers/en/model_doc/bloom
Nous afirma que ya lo logró: https://github.com/NousResearch/DisTrO
También ha habido artículos sobre compresión de gradientes que antes reportaron tasas de compresión altas
También se necesita esto y inferencia distribuida de LLM
Ya llegamos al punto en que para una persona es demasiado caro armar equipo para ejecutar modelos de última generación
Por eso hay que crear y adoptar frameworks para que individuos compartan recursos y puedan ejecutar modelos de última generación de forma distribuida
Eso también haría más difícil que los gobiernos los censuren
La única forma de impedir que una sola entidad lo convierta en un arma es dar acceso a todo el mundo
Ejecuta inferencia completamente distribuida en Mac, Windows, Linux, Android, iOS e incluso HarmonyOS
Los modelos open source / open weights van a seguir mejorando, y al final algo de nivel mythos terminará corriendo incluso en smartphones o hardware de gafas
Pero por ahora hacer coincidir oferta y demanda es terriblemente engorroso
Por ejemplo, que una MacBook tenga 16GB de RAM no significa que realmente pueda usar completos esos 16GB de hardware físico, y también está el problema de ajustar el modelo y las configuraciones (
kvcache,context limit,temperature, etc.) a la demandaHace falta inferencia de AI hecha por personas y para personas, así que toda ayuda es bienvenida
Un proyecto llamado Petals llegó a afirmar hasta 4 tok/s con un modelo de 180B, pero el repositorio no ha recibido actualizaciones en 2 años
https://petals.dev/
En el espacio de políticas también entra la opción de que el gobierno regule tanto el acceso como los monopolios
Estoy en contra del monopolio de esta tecnología, pero también debería quedar claro el riesgo de darle a todo el mundo una AGI/ASI liberada de restricciones
Como ejemplo de juguete, uno podría imaginar una AI básica universal donde el gobierno subcontrata a varios laboratorios (
n_quorum) y da a todos un presupuesto de tokensAun así, operar una API tendría que venir con controles de seguridad
Si todo el mundo pudiera ejecutar su propia AGI liberada de restricciones, la única norma social estable probablemente sería vigilancia masiva para monitorear quién podría crear amenazas CBRNE
No parece una victoria clara desde la perspectiva de las libertades civiles, pero entiendo que se pueda seguir esa lógica
En mi casa y en mi negocio ya ganó desde el principio.
Para ser precisos, eran pesos abiertos, y esa diferencia sutil me resulta incómoda.
Nunca he entendido la postura de hacer que el funcionamiento o el desarrollo de un producto dependa por completo del código fuente secreto de una de dos grandes startups, con rentabilidad incierta y una caja negra por dentro.
También va contra principios sanos de ingeniería.
Por eso no pensaba hacerlo, y si ahora exploro la IA es porque, gracias a los pesos abiertos, decidí que vale la pena dedicarle tiempo.
Ya de por sí los negocios suelen quedar subordinados a las políticas de una sola plataforma de pagos y de dos proveedores estadounidenses de tarjetas de crédito, y eso ya es bastante malo.
Tal vez por mi espíritu de freelancer, siempre me inquieta que me pidan poner demasiada energía en estudiar y aprender no una tecnología base, sino el producto de alguien más.
También recuerdo la época en que Microsoft convencía a los departamentos prometiendo acceso al código fuente de NT.
También recuerdo a una figura importante de nuestro lado diciendo que Linux era una rama secundaria y que el acceso a NT nos volvería relevantes.
Siempre hace falta más control sobre el propio destino, y me recuerdo a mí mismo y a quienes me rodean que la vanguardia va por delante de la tecnología estable más reciente.
El progreso ocurre en la vanguardia, pero también hay riesgo de romper cosas.
La ingeniería debe enfocarse no en subirse al progreso ajeno, sino en construir sobre la tecnología estable más reciente.
Herramientas como llama.cpp son abiertas, pero sin pesos no sirven de nada.
Los pesos son un capital absurdamente caro que grandes organizaciones en guerra entre sí donan.
Por ejemplo, no sé si archive.org podría crear pesos realmente abiertos, y fuera de archive.org también me cuesta imaginar que otra organización open source como freebsd o apache esté en posición de crear pesos realmente abiertos.
Si alguien pudiera, tal vez serían los gobiernos, agencias gubernamentales o universidades.
Pero hoy esas instituciones no tienen suficiente financiamiento, autoridad, voluntad ni interés como para volcar dinero en la infraestructura necesaria para crear pesos.
La IA complementa la forma en que desarrollamos en el negocio, y los ingenieros prefieren con mucho usar Opus 4.8 antes que el mejor modelo open source.
Creo que el open source es importante, pero en mi negocio simplemente voy a usar las mejores herramientas disponibles.
Si open source pasa a significar software gratis, en la práctica termina pareciéndose a decir que uno solo quiere una copia gratuita.
Lo que deberíamos decir es que proyectos públicos y operados por la comunidad hagan de forma conjunta el preentrenamiento y el entrenamiento.
Eso significa manejar públicamente los corpus de entrenamiento y coordinar de algún modo el trabajo de entrenamiento.
Esto cambia por completo el significado del término, y se parece a cuando la gente mezcla piratería con robo.
Son cosas distintas, así que deberíamos usar palabras distintas.
Pesos gratuitos, código de inferencia y plantillas de chat son muy distintos de un proyecto de LLM operado por la comunidad.
¿Quién pondría el dinero?
El costo de entrenamiento es tan alto que cuesta imaginarlo.
Solo parece haber un modelo de financiamiento con VC que busca retorno de inversión, o un modelo financiado por el PCCh para consolidar el modelo social autoritario de China.
Puede que exista algo como el modelo 4B de una universidad, pero no parece que pueda llegar muy lejos.
Todos los días me sorprende que mi computadora con Linux ofrezca una experiencia casi igual a la de sistemas operativos creados por dos empresas valuadas en billones de dólares.
Incluso hace cosas que esas alternativas comerciales no pueden hacer.
Si DeepSeek de verdad puede lanzar modelos con una décima parte del costo de sus competidores occidentales y con solo una fracción del personal, eso podría significar que en este espacio hay mercado para alguien que ofrezca una alternativa.
Pienso en por qué empresas como IBM están dispuestas a contribuir a Linux y liberar esas contribuciones gratuitamente.
Es porque forman parte de un grupo de patrocinadores corporativos que necesita una alternativa frente al actor comercial más dominante del mercado.
La razón por la que Meta libera React casi gratis es parecida.
A Meta le conviene más que se convierta en estándar y poder contratar gente que ya lo conoce.
Es más difícil imaginar el mismo beneficio de ecosistema en los modelos de IA, pero tal vez exista en alguna parte.
Sí puedo imaginar a proveedores de datacenter/VPS patrocinando algo así para reducir el poder de negociación de las grandes empresas de IA.
Claro, también es posible que este optimismo sea pura fantasía.
Si los creadores de modelos pueden raspar el trabajo ajeno para entrenar, lavar esa información como si fuera suya y no devolver nada a los creadores originales, no veo por qué destilar modelos tendría que ser ilegal.
Es lo mismo que los creadores de modelos frontier están haciendo con la propiedad intelectual ajena en general.
El entrenamiento es hoy así de caro, en un nivel difícil de imaginar.
¿Y si varias universidades juntaran dinero?
¿Y si varios países juntaran dinero?
Al final habrá avances y optimizaciones.
La gente dudaba de que un sistema operativo open source fuera viable, pero Linux ha sido durante décadas una opción real en el escritorio, y ni hablar de lo extendido que está como sistema operativo de servidores y teléfonos.
No tiene valor usar modelos viejos.
El manifiesto de open source AI exige que “la IA open source también debe ser económicamente sostenible”, pero eso se parece más a un pensamiento ilusorio.
gpt-oss ya está viejo, pero cuando salió estaba bien.
Nemotron también es sólido, y en especial el lanzamiento ultra reciente es bueno.
Nvidia tiene una historia mucho mejor, sobre todo frente a los modelos chinos, porque no solo publica el modelo en sí, sino también todo lo demás, incluidos los datos de pre y postentrenamiento.
Más que obtener modelos open source como subproducto de empresas, con gusto pagaría 50 dólares al mes para apoyar un laboratorio de investigación en IA open source.
¿Cómo saber que ese laboratorio de IA open source no va a escindirse de algún modo como empresa con fines de lucro?
Tal vez debería empezar a usar su API.
Tampoco es solo un subproducto empresarial.
Puede que la IA de pesos abiertos no tenga incentivos para invertir grandes sumas de capital en entrenamiento e investigación
Podrían surgir cosas como fondos de donaciones, pero naturalmente no alcanzarían el nivel de financiamiento que reciben los laboratorios de frontera
Por eso, creo que quizá sea imposible que la IA exista solo con pesos abiertos
Es probable que actores principales como OpenAI, Anthropic y Google sigan presentes y tengan modelos mejores que las versiones de código abierto
Puede verse como la relación entre Photoshop y GIMP
Photoshop sería el laboratorio de frontera y GIMP sería el modelo de pesos abiertos
GIMP es suficientemente útil para diversos flujos de trabajo de edición de imágenes, pero Photoshop simplemente es mejor
Sería genial que hubiera un modelo de pesos abiertos mejor que los laboratorios de frontera, pero no creo que sea posible
OpenAI y otros también podrían lanzar productos on-premise
Ya sea en forma de racks appliance o de otro tipo, las grandes empresas van a querer ejecutar la inferencia localmente para mantener la soberanía de los datos y controlar costos
Eso será todavía más cierto cuando llegue el momento de integrar IA en manufactura u otras redes aisladas
Ahora estamos en una especie de fase de expansión acelerada, pero a menos que la tecnología detrás de la IA realmente evolucione, será cada vez más difícil crear modelos mejores y aparecerán rendimientos decrecientes
Si el GIMP de los LLM logra aunque sea el 80% del rendimiento del modelo financiado por capital de riesgo, será suficientemente útil para mucha gente
Aunque sea cierto que no es tan bueno como un modelo propietario, creo que el simple hecho de tener la opción de usar un modelo de código abierto ya es una victoria
Cuando quede claro que es imposible sacarle billones de dólares a los consumidores, las valuaciones de billones dejarán de tener sentido
Mientras tanto, y de todos modos, si la optimización de software y la expansión del hardware continúan, no pasará mucho antes de que en dispositivos móviles corran pesos abiertos mejores que Fable
Aunque no sé qué tan práctico sería eso
Algunos modelos de IA son tan grandes que solo pueden ejecutarse razonablemente en centros de datos hiperescalables de última generación
Publicar esos modelos como código abierto en general no tiene mucho sentido
Eso está a una escala muy superior incluso a la de los mayores modelos públicos actuales, al punto de descartar incluso una inferencia lenta en clústeres temporales pequeños y baratos
Es posible que Fable ya esté en ese punto
Estoy de acuerdo con el sentimiento y la misión, pero este objetivo ya no puede separarse de la política
Ser Open Source(tm) no impide que los gobiernos u otros actores ejerzan control sobre el silicio o sobre lo que ese silicio puede hacer, y eso ya está ocurriendo en todo el mundo
Aunque el modelo sea de código abierto, eso no resuelve la regulación ni los incentivos económicos
No es un problema que pueda resumirse en unos pocos párrafos
La IA es infraestructura civilizatoria, y hace falta una solución civilizatoria, no solo código fuente
Todos saben que las empresas de IA tomaron contenido sin autorización para entrenar, pero no va a pasar nada
Es un ejemplo descarado de aplicación clasista de la ley
La razón para aplicar sus propias leyes a conveniencia siempre será la seguridad nacional
Como ellos poseen la infraestructura, sus intereses se convierten en seguridad nacional
Cada vez que la tecnología da un gran salto puede sacudir el tablero, pero el capitalismo financiero se adapta rápido y absorbe esa ola
Si el texto no lo trató, la distinción entre código abierto y pesos abiertos es importante
Los modelos de pesos abiertos son casi como una droga de entrada en la que la primera dosis es gratis
Al menos sin los datos originales de entrenamiento, la capacidad de mejorarlos de forma significativa es demasiado limitada, así que rápidamente quedan rezagados frente a los modelos más recientes que siguen desarrollándose
Entonces uno termina esperando con ansias la siguiente publicación o regresando a la API del proveedor
Con solo mover hacia adelante la fecha de corte del conocimiento, la experiencia del usuario ya mejora de forma perceptible, sin mencionar la inferencia, el entrenamiento consciente de cuantización y muchas otras mejoras que vendrán
Se puede investigar para mejorar los modelos de pesos abiertos, pero la conclusión es la misma
Si no es código abierto, el beneficio para el público general es mucho menor
El AI de código abierto, por definición, nunca puede ganar
Hoy en día, el AI al final se parece más a una optimización por ascenso de colina, y los laboratorios cerrados pueden absorber todo lo que hace el mundo abierto y construir más encima
En la mayoría de los casos de uso eso no es un gran problema, porque el AI está funcionando de una manera de saturación de capacidades
https://www.delanceyukschoolschesschallenge.com/the-rising-t...
La excepción son solo los campos donde la ventaja frente a la competencia importa, como áreas que están en conflicto inherente con la naturaleza o con otras personas
La segunda gran victoria probablemente será cuando la gente común pueda ejecutarlo en su propio hardware
Microsoft podía aprender todo lo que quisiera de Linux, pero Linux no solo mantuvo su relevancia a pesar de competidores comerciales, sino que, a diferencia de casos como la cuota de mercado actual de Firefox, ahora es por mucho el sistema operativo más extendido
Parece que la capacidad de absorber todas las buenas ideas o datos de un sistema abierto no es el único factor decisivo
Ahora mismo Fable y Mythos están en la frontera tecnológica, pero pronto se volverán commodities
Por cada empresa como OpenAI/Anthropic que intenta ir por delante con el modelo más reciente, habrá como cien empresas intentando convertir sus complementos en commodities
Basta con que al menos una de las alternativas a los modelos cerrados sea tan buena como GPT-4 para considerar que el código abierto ganó
De hecho, con los modelos Google Gemma ya casi estamos en ese punto
Como ingeniero de software, no he sentido una diferencia en mi productividad desde Sonnet
Claro, Opus es mejor y Fable será mejor, pero desde el punto de vista del valor económico ya estamos topando con rendimientos decrecientes
Cuando pasé de usar uno de los primeros modelos GPT en Cursor a Claude Code y Sonnet, para mí hubo casi una mejora de productividad de 5x
Antes de Claude Code, usaba AI solo para fragmentos pequeños de código, pero con Claude Code + Sonnet podía delegarle subtareas completas
Aun así, no confío lo suficiente en Opus como para dejarle una funcionalidad completa de principio a fin
No estoy seguro de que algún día llegue a ser así, y quizá ni siquiera haga falta
Las empresas sí exigen cierto nivel alto de talento a los ingenieros de software, pero una vez que se supera ese umbral, realmente no les importa en absoluto
Incluso si la diferencia es grande, ni siquiera se dan cuenta