2 puntos por GN⁺ 4 시간 전 | 2 comentarios | Compartir por WhatsApp
  • El AI es una infraestructura civilizatoria para el trabajo, la educación, la ciencia, el software, la creación, los servicios públicos y la capacidad nacional, y su acceso no debe depender de las condiciones y precios de unas pocas empresas
  • La capacidad de investigar, construir, reparar, distribuir, auditar, ajustar, entrenar, preservar y ejecutar sistemas inteligentes sin pedir permiso está directamente ligada a la libertad operativa
  • El AI de código abierto debe mantener su usabilidad incluso si los laboratorios dominantes actuales, laboratorios extranjeros, fabricantes de hardware, plataformas en la nube o proveedores de modelos de pesos abiertos cambian de rumbo o desaparecen
  • Si un pequeño número de laboratorios frontier cerrados y empresas de plataforma controlan los modelos, existe el riesgo de que la infraestructura de inteligencia se convierta en una economía de suscripción de la cognición
  • Estados Unidos no debe quedarse atrás en la libertad de ejecutar, inspeccionar, modificar, hacer benchmark, entrenar y preservar la infraestructura de inteligencia, y una actitud práctica debe combinar la capacidad estadounidense con estándares abiertos globales

El AI de código abierto debe ganar

  • Si la inteligencia se convierte en algo que solo puede tomarse prestado de unas pocas instituciones cerradas, el público perderá no solo la libertad del software, sino también la libertad operativa
  • Debe ser posible investigar, construir, reparar, distribuir, auditar, ajustar, entrenar, preservar y ejecutar sistemas inteligentes sin pedir permiso, y esta capacidad es existencialmente importante
  • El AI se considera una infraestructura civilizatoria que sostiene el trabajo, la educación, la ciencia, el software, la creación, los servicios públicos y la capacidad nacional
  • El acceso al AI no debe depender de APIs cerradas, plataformas remotas, términos de uso cambiantes, ajustes opacos, disponibilidad del modelo ni precios fijados por unas pocas empresas

Condiciones que el AI de código abierto debe mantener

  • El AI de código abierto debe ser usable, comprensible y reproducible
  • El AI de código abierto debe permitir el despliegue local, ser económicamente sostenible y permitir que la comunidad asuma la gobernanza
  • Incluso si los laboratorios dominantes de hoy, laboratorios extranjeros, fabricantes de hardware, plataformas en la nube o proveedores de modelos de pesos abiertos cambian de rumbo o desaparecen, el AI de código abierto debe seguir funcionando
  • Si un pequeño número de laboratorios frontier cerrados y empresas de plataforma controlan los modelos, existe el riesgo de que la infraestructura de inteligencia se convierta en una economía de suscripción de la cognición
  • Estados Unidos no debe quedarse atrás en la libertad de ejecutar, inspeccionar, modificar, hacer benchmark, entrenar y preservar la infraestructura de inteligencia
  • Una actitud práctica debe consistir en combinar la capacidad estadounidense con estándares abiertos globales

2 comentarios

 
GN⁺ 3 시간 전
Opiniones en Lobste.rs
  • No existe la “IA” de código abierto. Los LLM que pueden ejecutarse en local son solo bloques opacos que las megacorporaciones, que gastan millones de dólares en entrenar cada versión y controlan por completo los datos de entrada, ofrecen por buena voluntad
    Una persona que no sea independientemente rica no puede revisar por completo cómo se hizo el modelo, ni modificar el dataset de entrenamiento original, ni reconstruirlo desde cero cuando quiera
    Ejecutar necesariamente un LLM gratuito precompilado en una computadora personal es una dependencia cultivada de infraestructura centralizada y, en la realidad actual, se parece más a apoyar una tecnología que el individuo no puede controlar estructuralmente. Mejor sería escribir un manifiesto diciendo que debe ganar la fusión fría

    • En general es cierto, pero en la práctica también hay modelos financiados con fondos públicos donde se publican los pesos, los datos de entrenamiento y la metodología
      Claro, la mayoría de esos modelos no están al nivel de los modelos de frontera si se mira solo la capacidad técnica, y a veces ni siquiera buscan eso. Por ejemplo, la UE financió el desarrollo de modelos que representen mejor los idiomas dentro de la UE para fines como la traducción
      Y no creo que, por definición, un modelo de código abierto tenga que poder ejecutarse necesariamente en local. Si el modelo es realmente abierto, aunque la empresa detrás quiebre, la base para seguir desarrollándolo no queda encerrada dentro de esa empresa, así que el riesgo disminuye mucho. El software de código abierto no significa necesariamente “puedo hacerlo barato en mi máquina local”
    • Incluso entre los LLM que corren en local hay un espectro de apertura. Algunos son bloques opacos con casi nada de información sobre los datos y los métodos de entrenamiento, pero otros publican el dataset de entrenamiento y el código fuente
      Entre los LLM relativamente abiertos recientes están NVIDIA-Nemotron-3-Nano-30B-A3B (código de código abierto, se entrega la mayor parte del dataset de entrenamiento) y Olmo-3.1-32B-Think (código de código abierto, todos los datos de entrenamiento publicados en Hugging Face)
      En teoría, cualquiera puede reproducir un modelo similar, decidir qué datos usar para entrenarlo o modificar la receta de entrenamiento. Aun así, sigue siendo cierto que el preentrenamiento todavía está fuera del alcance de un individuo que no sea rico
    • Sí existen modelos completamente de código abierto. No son modelos de frontera, pero realmente existen
      OLMo está explícitamente señalado como un modelo que pasó la etapa de verificación de la OSI, y Pythia también fue verificado por la OSI como un sistema de IA de código abierto que cumple los requisitos. Lucie-7B es uno de los primeros LLM multilingües que siguen la definición de IA de la OSI, y sus creadores afirman que el dataset de entrenamiento, el código de preparación de datos y los pesos del modelo se ofrecen todos bajo licencias abiertas
    • De la frase “no puedes revisarlo todo, modificar el dataset original ni rehacerlo desde cero cuando quieras”, la parte cierta es que no todos los modelos promocionados como “abiertos” son realmente transparentes y abiertos respecto a los datos, el proceso de entrenamiento, etc. Lo ideal es llegar incluso a la reproducibilidad
      También es cierto que entrenar desde cero cuesta mucho dinero. Pero si es así, me pregunto si entonces usar el kernel de Linux también habría que llamarlo una “dependencia cultivada”, porque ahí aplican las mismas salvedades
  • La “IA es infraestructura civilizatoria para el trabajo, la educación, la ciencia, el software, la creación, los servicios públicos y la capacidad nacional” no es verdad. Solo las personas que la controlan quieren que lo sea y la están empujando desesperadamente para convertirla en eso, pero en realidad no lo es

  • Basta con no subcontratar el pensamiento a máquinas que consumen muchos recursos, infringen copyright y alucinan 😘
    Claro, no concentrar este poder en manos de unas pocas megacorporaciones resuelve uno de los grandes problemas de la IA actual, pero no resuelve en absoluto los demás

    • Decir que “consume muchos recursos” es correcto cuando se entrena un modelo de frontera o cuando se hace que cientos de millones de personas usen modelos de frontera. Pero si dices eso sobre IA local, probablemente hiciste mal las cuentas o estás defendiendo una postura ambientalista bastante extrema
      En la práctica, el agente local de programación más pequeño que resulta útil es Qwen3.6 27B, y en una tarjeta NVIDIA con límite de energía funciona sin problemas de forma intermitente alrededor de 280~300W. La electricidad usada en un día de programación probablemente sea menor que pasar unas cuantas horas jugando Subnautica 2 en una PC gamer de escritorio. También porque con modelos pequeños no puedes subcontratar tanto pensamiento, así que la IA descansa más y la persona piensa más
      El costo de entrenamiento es mayor, pero si solo intentaras entrenar unos cuantos modelos del tamaño de 27B al año, eso se pierde dentro del conjunto de la civilización industrial. Cuando alguna vez hice el cálculo, salía algo así como que con sumar una fundición de aluminio geotérmica más en Islandia bastaría para entrenar varios modelos de clase 27B. No es gratis, pero está cerca de ser un error de redondeo
      El consumo eléctrico de inferencia es menor que el de tres focos incandescentes, y además solo mientras el modelo realmente está generando. El consumo de entrenamiento sí equivale al de una gran instalación industrial, pero casi todo podría hacerse con energía renovable. Islandia es buena para eso
      Lo de “infracción de copyright” no parece sostenerse bajo la jurisprudencia actual de EE. UU., y conviene ser cautelosos con ampliar todavía más el poder del copyright. Llevo oponiéndome a esa expansión desde los 90, así que aunque no me guste cómo se entrenan los LLM, este tema parece haberse movido fuera del terreno del derecho de autor hacia el de la política y la legislación. Aunque el caso de Anthropic copiando libros ilegalmente sí sería una excepción
      Pero el problema de subcontratar el pensamiento sí se está volviendo un desastre muy rápido. Mucha gente intenta convertirse en marionetas de carne de un dios máquina, y eso da miedo
    • La infracción de copyright suele mencionarse como una razón por la que los LLM y las empresas de IA son malos, pero creo que concentrarse en ese punto es desviarse
      Es parecido a decir que matar está mal “porque es ilegal”. Matar sí está mal, pero no por su ilegalidad. La ley puede cambiar. Si se construyó toda una corriente alrededor de que la IA está mal por el copyright y luego el Congreso la legaliza, ¿todos van a aceptar de pronto que la IA está bien? Había otras razones para oponerse que estaban más cerca del centro de la preocupación real, y quizá habría sido más productivo agruparse alrededor de ellas
      Alexandra Elbakyan también es una infractora de copyright. Pero ella es una adulta, y todas las universidades deberían tener su estatua
  • No hay futuro para el aprendizaje automático y los modelos de lenguaje a gran escala que sea realmente abierto y justo sin considerar toda la cadena de suministro. Recomiendo leer https://time.com/6247678/openai-chatgpt-kenya-workers/

  • Pronto llegaremos al pico de datos, y después de eso el avance probablemente vendrá sobre todo de usar de forma agéntica los LLM más recientes en conjunto
    Es probable que el último modelo de código abierto que se publique termine usándose durante años como base para superestructuras cambiantes de agentes open source o de otro tipo

  • Más exactamente, el público debería reconocer la enorme financiación pública que las grandes tecnológicas han recibido en los últimos 20 años, y especialmente últimamente, y exigir derechos sobre la infraestructura pagada con impuestos
    Estas empresas no habrían existido ni podrían existir sin inyecciones masivas de dinero público. Además, buena parte de los datos de entrenamiento se tomó directamente de los bienes comunes públicos
    Estos modelos no son el resultado de un esfuerzo privado, sino el resultado final de un enorme esfuerzo colectivo, y deberían reconocerse legalmente como bienes comunes públicos

  • Sea importante o no, sea una burbuja o no, sean predictores alucinantes de tokens o no, es muy importante que todos los países tengan un marco legal para obligar a los “Frontier lab” a publicar como código abierto todos los modelos salvo los más recientes
    Lo publicado debe incluir pesos, datos de entrenamiento y metodología, o si no debe obligarse a que cada modelo se vuelva de código abierto después de 10~15 años. Por el avance del conocimiento humano y para evitar la separación entre quienes “tienen” y quienes “no tienen”, todos los modelos deben hacerse públicos después de cierto tiempo
    Tal vez pienses que la AGI no está cerca, pero la intención de estos laboratorios de frontera es llegar primero a la AGI y luego quedársela solos detrás de un muro de pago. Sea muy probable o poco probable, eso debe impedirse por el bien de toda la humanidad

 
GN⁺ 4 시간 전
Opiniones de Hacker News
  • Hace tiempo que venimos pensando en crear un sistema de entrenamiento distribuido de modelos con máquinas a las que la gente contribuya de forma voluntaria, pero en la práctica la dificultad es astronómicamente alta
    La velocidad de comunicación no da abasto, y también es un problema la contaminación de datos que llega desde nodos no confiables
    Lo segundo quizá podría resolverse casi por completo con un sistema de rollback de checkpoints autorreparable que no obligue a descartar todos los resultados posteriores a los datos contaminados, pero esto no es un proyecto pequeño que una sola persona pueda hacer solo con una idea
    Si ahora toda la investigación frontier terminara prohibida de seguir avanzando, entonces este enfoque podría empezar a volverse interesante
    La suma de todas las GPU del planeta superaría sus capacidades, pero hace falta una forma de usarlas de manera distribuida y eficiente
    Aunque no podamos entrenar Fable tan rápido como ellos, tener acceso algún día es mejor que no tenerlo jamás

    • Como ya escribí en otra respuesta más arriba, aunque sea una buena idea, es difícil que funcione en el mundo real
      El hardware especializado para AI no solo es muchísimo más rápido que las GPU de consumo, también tiene mucha mejor eficiencia energética y conectividad, y cada uno de esos tres factores por sí solo derrumba la idea
      La diferencia en eficiencia energética es tan grande que, incluso juntando todas las GPU públicas o dispositivos similares del planeta, el costo de electricidad sería demasiado alto, y podría salir más barato en costo total construir tu propio datacenter con ese dinero
      Incluso si la electricidad fuera gratis, unir GPU dispersas por todo el mundo con la latencia de internet las haría miles o millones de veces más lentas, y ni siquiera está claro que fuera viable
      En cualquier caso, es difícil conseguir fable-oss en esta década, y quizá incluso en este siglo
      Sería mejor que los gobiernos, aunque fuera en forma de alianza, compraran y poseyeran directamente datacenters para operarlos en beneficio público, y de hecho creo que deberían hacerlo
    • Cuando la gente piensa en entrenamiento distribuido, normalmente no imagina primero enormes datacenters propiedad de la misma empresa entrenando un modelo a larga distancia
      Más bien imagina miles de pequeños datacenters o usuarios individuales reuniendo capacidad ociosa por internet para coordinar una corrida de entrenamiento más grande que la de una sola entidad
      Empresas como Pluralis Research, Prime Intellect y Nous Research están persiguiendo esa visión, y ya han tenido éxito con entrenamiento distribuido a cierta escala, pero en la práctica el entrenamiento distribuido por internet sigue muy por detrás del entrenamiento centralizado
      Incluso los modelos más grandes, como 8B Protocol Model de Pluralis, INTELLECT-1 de Prime Intellect y Consilience 40B de Nous, fueron entrenados con 1,000 veces menos cómputo que modelos frontier actuales como Grok 4 de xAI
      https://epoch.ai/gradient-updates/how-far-can-decentralized-...
    • No es correcto decir que la suma de todas las GPU del planeta supera sus capacidades
      Eso parte de una mala comprensión de cuánto silicio fue precisamente a esas empresas y de cuánto más potente es ese silicio frente al hardware de consumo
    • Hace unos años hubo un proyecto llamado Petals que intentó lograr parte de ese objetivo con P2P: https://github.com/bigscience-workshop/petals
      El modelo BLOOM también fue producto de un esfuerzo colaborativo: https://huggingface.co/docs/transformers/en/model_doc/bloom
    • Creo que sí es posible, porque con las técnicas adecuadas la información de gradientes puede comprimirse 10000 veces
      Nous afirma que ya lo logró: https://github.com/NousResearch/DisTrO
      También ha habido artículos sobre compresión de gradientes que antes reportaron tasas de compresión altas
  • También se necesita esto y inferencia distribuida de LLM
    Ya llegamos al punto en que para una persona es demasiado caro armar equipo para ejecutar modelos de última generación
    Por eso hay que crear y adoptar frameworks para que individuos compartan recursos y puedan ejecutar modelos de última generación de forma distribuida
    Eso también haría más difícil que los gobiernos los censuren
    La única forma de impedir que una sola entidad lo convierta en un arma es dar acceso a todo el mundo

    • Me pregunto si habrá una forma de que pequeños LLM locales se complementen entre sí y, en conjunto, formen un LLM mucho más capaz
    • Hice Teale.com y lo publiqué como open source
      Ejecuta inferencia completamente distribuida en Mac, Windows, Linux, Android, iOS e incluso HarmonyOS
      Los modelos open source / open weights van a seguir mejorando, y al final algo de nivel mythos terminará corriendo incluso en smartphones o hardware de gafas
      Pero por ahora hacer coincidir oferta y demanda es terriblemente engorroso
      Por ejemplo, que una MacBook tenga 16GB de RAM no significa que realmente pueda usar completos esos 16GB de hardware físico, y también está el problema de ajustar el modelo y las configuraciones (kvcache, context limit, temperature, etc.) a la demanda
      Hace falta inferencia de AI hecha por personas y para personas, así que toda ayuda es bienvenida
    • Si el modelo está distribuido, al considerar la transferencia de datos entre capas del modelo, la inferencia distribuida de LLM parece muy ineficiente
      Un proyecto llamado Petals llegó a afirmar hasta 4 tok/s con un modelo de 180B, pero el repositorio no ha recibido actualizaciones en 2 años
      https://petals.dev/
    • La afirmación de que la única forma de impedir que una sola entidad lo convierta en un arma es dar acceso a todo el mundo tiene un punto intermedio
      En el espacio de políticas también entra la opción de que el gobierno regule tanto el acceso como los monopolios
      Estoy en contra del monopolio de esta tecnología, pero también debería quedar claro el riesgo de darle a todo el mundo una AGI/ASI liberada de restricciones
      Como ejemplo de juguete, uno podría imaginar una AI básica universal donde el gobierno subcontrata a varios laboratorios (n_quorum) y da a todos un presupuesto de tokens
      Aun así, operar una API tendría que venir con controles de seguridad
      Si todo el mundo pudiera ejecutar su propia AGI liberada de restricciones, la única norma social estable probablemente sería vigilancia masiva para monitorear quién podría crear amenazas CBRNE
      No parece una victoria clara desde la perspectiva de las libertades civiles, pero entiendo que se pueda seguir esa lógica
  • En mi casa y en mi negocio ya ganó desde el principio.
    Para ser precisos, eran pesos abiertos, y esa diferencia sutil me resulta incómoda.
    Nunca he entendido la postura de hacer que el funcionamiento o el desarrollo de un producto dependa por completo del código fuente secreto de una de dos grandes startups, con rentabilidad incierta y una caja negra por dentro.
    También va contra principios sanos de ingeniería.
    Por eso no pensaba hacerlo, y si ahora exploro la IA es porque, gracias a los pesos abiertos, decidí que vale la pena dedicarle tiempo.
    Ya de por sí los negocios suelen quedar subordinados a las políticas de una sola plataforma de pagos y de dos proveedores estadounidenses de tarjetas de crédito, y eso ya es bastante malo.
    Tal vez por mi espíritu de freelancer, siempre me inquieta que me pidan poner demasiada energía en estudiar y aprender no una tecnología base, sino el producto de alguien más.
    También recuerdo la época en que Microsoft convencía a los departamentos prometiendo acceso al código fuente de NT.
    También recuerdo a una figura importante de nuestro lado diciendo que Linux era una rama secundaria y que el acceso a NT nos volvería relevantes.
    Siempre hace falta más control sobre el propio destino, y me recuerdo a mí mismo y a quienes me rodean que la vanguardia va por delante de la tecnología estable más reciente.
    El progreso ocurre en la vanguardia, pero también hay riesgo de romper cosas.
    La ingeniería debe enfocarse no en subirse al progreso ajeno, sino en construir sobre la tecnología estable más reciente.

    • En este contexto, la palabra open source tiene un matiz incómodo.
      Herramientas como llama.cpp son abiertas, pero sin pesos no sirven de nada.
      Los pesos son un capital absurdamente caro que grandes organizaciones en guerra entre sí donan.
      Por ejemplo, no sé si archive.org podría crear pesos realmente abiertos, y fuera de archive.org también me cuesta imaginar que otra organización open source como freebsd o apache esté en posición de crear pesos realmente abiertos.
      Si alguien pudiera, tal vez serían los gobiernos, agencias gubernamentales o universidades.
      Pero hoy esas instituciones no tienen suficiente financiamiento, autoridad, voluntad ni interés como para volcar dinero en la infraestructura necesaria para crear pesos.
    • Yo, de forma interesante, tomé otro enfoque.
      La IA complementa la forma en que desarrollamos en el negocio, y los ingenieros prefieren con mucho usar Opus 4.8 antes que el mejor modelo open source.
      Creo que el open source es importante, pero en mi negocio simplemente voy a usar las mejores herramientas disponibles.
  • Si open source pasa a significar software gratis, en la práctica termina pareciéndose a decir que uno solo quiere una copia gratuita.
    Lo que deberíamos decir es que proyectos públicos y operados por la comunidad hagan de forma conjunta el preentrenamiento y el entrenamiento.
    Eso significa manejar públicamente los corpus de entrenamiento y coordinar de algún modo el trabajo de entrenamiento.
    Esto cambia por completo el significado del término, y se parece a cuando la gente mezcla piratería con robo.
    Son cosas distintas, así que deberíamos usar palabras distintas.
    Pesos gratuitos, código de inferencia y plantillas de chat son muy distintos de un proyecto de LLM operado por la comunidad.

    • EleutherAI podría ser algo cercano a eso.
  • ¿Quién pondría el dinero?
    El costo de entrenamiento es tan alto que cuesta imaginarlo.
    Solo parece haber un modelo de financiamiento con VC que busca retorno de inversión, o un modelo financiado por el PCCh para consolidar el modelo social autoritario de China.
    Puede que exista algo como el modelo 4B de una universidad, pero no parece que pueda llegar muy lejos.

    • Entiendo esa preocupación, pero incluso ahora siguen existiendo como open source cosas igual de grandes y complejas.
      Todos los días me sorprende que mi computadora con Linux ofrezca una experiencia casi igual a la de sistemas operativos creados por dos empresas valuadas en billones de dólares.
      Incluso hace cosas que esas alternativas comerciales no pueden hacer.
      Si DeepSeek de verdad puede lanzar modelos con una décima parte del costo de sus competidores occidentales y con solo una fracción del personal, eso podría significar que en este espacio hay mercado para alguien que ofrezca una alternativa.
      Pienso en por qué empresas como IBM están dispuestas a contribuir a Linux y liberar esas contribuciones gratuitamente.
      Es porque forman parte de un grupo de patrocinadores corporativos que necesita una alternativa frente al actor comercial más dominante del mercado.
      La razón por la que Meta libera React casi gratis es parecida.
      A Meta le conviene más que se convierta en estándar y poder contratar gente que ya lo conoce.
      Es más difícil imaginar el mismo beneficio de ecosistema en los modelos de IA, pero tal vez exista en alguna parte.
      Sí puedo imaginar a proveedores de datacenter/VPS patrocinando algo así para reducir el poder de negociación de las grandes empresas de IA.
      Claro, también es posible que este optimismo sea pura fantasía.
    • De verdad necesitamos un precedente legal que establezca que la destilación de modelos es una actividad legal.
      Si los creadores de modelos pueden raspar el trabajo ajeno para entrenar, lavar esa información como si fuera suya y no devolver nada a los creadores originales, no veo por qué destilar modelos tendría que ser ilegal.
      Es lo mismo que los creadores de modelos frontier están haciendo con la propiedad intelectual ajena en general.
    • ¿Alguna vez has calculado el costo de las computadoras de los años 60 ajustado por inflación?
      El entrenamiento es hoy así de caro, en un nivel difícil de imaginar.
      ¿Y si varias universidades juntaran dinero?
      ¿Y si varios países juntaran dinero?
      Al final habrá avances y optimizaciones.
      La gente dudaba de que un sistema operativo open source fuera viable, pero Linux ha sido durante décadas una opción real en el escritorio, y ni hablar de lo extendido que está como sistema operativo de servidores y teléfonos.
    • No es solo caro, también es derrochador.
      No tiene valor usar modelos viejos.
      El manifiesto de open source AI exige que “la IA open source también debe ser económicamente sostenible”, pero eso se parece más a un pensamiento ilusorio.
    • Para los laboratorios que lanzan modelos cerrados, quizá podría funcionar un esquema en el que también publiquen un modelo open source.
      gpt-oss ya está viejo, pero cuando salió estaba bien.
      Nemotron también es sólido, y en especial el lanzamiento ultra reciente es bueno.
      Nvidia tiene una historia mucho mejor, sobre todo frente a los modelos chinos, porque no solo publica el modelo en sí, sino también todo lo demás, incluidos los datos de pre y postentrenamiento.
  • Más que obtener modelos open source como subproducto de empresas, con gusto pagaría 50 dólares al mes para apoyar un laboratorio de investigación en IA open source.

    • Los laboratorios de IA están gastando cientos de miles de millones de dólares, así que harían falta muchísimos suscriptores para competir.
    • Creo que OpenAI destruyó la confianza.
      ¿Cómo saber que ese laboratorio de IA open source no va a escindirse de algún modo como empresa con fines de lucro?
    • Hasta donde sé, DeepSeek no tiene modelos cerrados y publica más código/datos/papers que la mayoría.
      Tal vez debería empezar a usar su API.
      Tampoco es solo un subproducto empresarial.
  • Puede que la IA de pesos abiertos no tenga incentivos para invertir grandes sumas de capital en entrenamiento e investigación
    Podrían surgir cosas como fondos de donaciones, pero naturalmente no alcanzarían el nivel de financiamiento que reciben los laboratorios de frontera
    Por eso, creo que quizá sea imposible que la IA exista solo con pesos abiertos
    Es probable que actores principales como OpenAI, Anthropic y Google sigan presentes y tengan modelos mejores que las versiones de código abierto
    Puede verse como la relación entre Photoshop y GIMP
    Photoshop sería el laboratorio de frontera y GIMP sería el modelo de pesos abiertos
    GIMP es suficientemente útil para diversos flujos de trabajo de edición de imágenes, pero Photoshop simplemente es mejor
    Sería genial que hubiera un modelo de pesos abiertos mejor que los laboratorios de frontera, pero no creo que sea posible

    • Yo pienso algo parecido, pero incluso si no son modelos de código abierto, creo que la IA local terminará siendo inevitable
      OpenAI y otros también podrían lanzar productos on-premise
      Ya sea en forma de racks appliance o de otro tipo, las grandes empresas van a querer ejecutar la inferencia localmente para mantener la soberanía de los datos y controlar costos
      Eso será todavía más cierto cuando llegue el momento de integrar IA en manufactura u otras redes aisladas
    • La analogía entre Photoshop y GIMP es bastante buena
      Ahora estamos en una especie de fase de expansión acelerada, pero a menos que la tecnología detrás de la IA realmente evolucione, será cada vez más difícil crear modelos mejores y aparecerán rendimientos decrecientes
      Si el GIMP de los LLM logra aunque sea el 80% del rendimiento del modelo financiado por capital de riesgo, será suficientemente útil para mucha gente
      Aunque sea cierto que no es tan bueno como un modelo propietario, creo que el simple hecho de tener la opción de usar un modelo de código abierto ya es una victoria
    • Viéndolo con algo de distancia, es cuestión de tiempo
      Cuando quede claro que es imposible sacarle billones de dólares a los consumidores, las valuaciones de billones dejarán de tener sentido
      Mientras tanto, y de todos modos, si la optimización de software y la expansión del hardware continúan, no pasará mucho antes de que en dispositivos móviles corran pesos abiertos mejores que Fable
    • Quizá sería posible si hubiera una forma de que los usuarios donaran cómputo para el entrenamiento, como en folding@home
      Aunque no sé qué tan práctico sería eso
    • Hay una razón más fundamental por la que es difícil que la IA exista solo con pesos abiertos
      Algunos modelos de IA son tan grandes que solo pueden ejecutarse razonablemente en centros de datos hiperescalables de última generación
      Publicar esos modelos como código abierto en general no tiene mucho sentido
      Eso está a una escala muy superior incluso a la de los mayores modelos públicos actuales, al punto de descartar incluso una inferencia lenta en clústeres temporales pequeños y baratos
      Es posible que Fable ya esté en ese punto
  • Estoy de acuerdo con el sentimiento y la misión, pero este objetivo ya no puede separarse de la política
    Ser Open Source(tm) no impide que los gobiernos u otros actores ejerzan control sobre el silicio o sobre lo que ese silicio puede hacer, y eso ya está ocurriendo en todo el mundo
    Aunque el modelo sea de código abierto, eso no resuelve la regulación ni los incentivos económicos
    No es un problema que pueda resumirse en unos pocos párrafos
    La IA es infraestructura civilizatoria, y hace falta una solución civilizatoria, no solo código fuente

    • El capitalismo monopolista y el capitalismo financiero han dominado el mercado desde hace más de 100 años, y el Estado sirve a esos enormes intereses
      Todos saben que las empresas de IA tomaron contenido sin autorización para entrenar, pero no va a pasar nada
      Es un ejemplo descarado de aplicación clasista de la ley
      La razón para aplicar sus propias leyes a conveniencia siempre será la seguridad nacional
      Como ellos poseen la infraestructura, sus intereses se convierten en seguridad nacional
      Cada vez que la tecnología da un gran salto puede sacudir el tablero, pero el capitalismo financiero se adapta rápido y absorbe esa ola
  • Si el texto no lo trató, la distinción entre código abierto y pesos abiertos es importante
    Los modelos de pesos abiertos son casi como una droga de entrada en la que la primera dosis es gratis
    Al menos sin los datos originales de entrenamiento, la capacidad de mejorarlos de forma significativa es demasiado limitada, así que rápidamente quedan rezagados frente a los modelos más recientes que siguen desarrollándose
    Entonces uno termina esperando con ansias la siguiente publicación o regresando a la API del proveedor
    Con solo mover hacia adelante la fecha de corte del conocimiento, la experiencia del usuario ya mejora de forma perceptible, sin mencionar la inferencia, el entrenamiento consciente de cuantización y muchas otras mejoras que vendrán
    Se puede investigar para mejorar los modelos de pesos abiertos, pero la conclusión es la misma
    Si no es código abierto, el beneficio para el público general es mucho menor

  • El AI de código abierto, por definición, nunca puede ganar
    Hoy en día, el AI al final se parece más a una optimización por ascenso de colina, y los laboratorios cerrados pueden absorber todo lo que hace el mundo abierto y construir más encima
    En la mayoría de los casos de uso eso no es un gran problema, porque el AI está funcionando de una manera de saturación de capacidades
    https://www.delanceyukschoolschesschallenge.com/the-rising-t...
    La excepción son solo los campos donde la ventaja frente a la competencia importa, como áreas que están en conflicto inherente con la naturaleza o con otras personas

    • Cuando se alcanza la saturación de capacidades en tareas comunes, gana el código abierto, y eso ya está ocurriendo
      La segunda gran victoria probablemente será cuando la gente común pueda ejecutarlo en su propio hardware
    • Lo mismo podría haberse dicho de Linux
      Microsoft podía aprender todo lo que quisiera de Linux, pero Linux no solo mantuvo su relevancia a pesar de competidores comerciales, sino que, a diferencia de casos como la cuota de mercado actual de Firefox, ahora es por mucho el sistema operativo más extendido
      Parece que la capacidad de absorber todas las buenas ideas o datos de un sistema abierto no es el único factor decisivo
    • Los laboratorios cerrados también siguen teniendo que justificar la inversión, y eso se vuelve cada vez más difícil a medida que la capacidad de los modelos se acerca al estancamiento
      Ahora mismo Fable y Mythos están en la frontera tecnológica, pero pronto se volverán commodities
      Por cada empresa como OpenAI/Anthropic que intenta ir por delante con el modelo más reciente, habrá como cien empresas intentando convertir sus complementos en commodities
    • AllegroLisp está muy por detrás de SBCL
    • El hecho de que un modelo de código abierto tenga que ser tan bueno como Claude Mythos o Claude Sonnet no es lo que define la victoria
      Basta con que al menos una de las alternativas a los modelos cerrados sea tan buena como GPT-4 para considerar que el código abierto ganó
      De hecho, con los modelos Google Gemma ya casi estamos en ese punto
      Como ingeniero de software, no he sentido una diferencia en mi productividad desde Sonnet
      Claro, Opus es mejor y Fable será mejor, pero desde el punto de vista del valor económico ya estamos topando con rendimientos decrecientes
      Cuando pasé de usar uno de los primeros modelos GPT en Cursor a Claude Code y Sonnet, para mí hubo casi una mejora de productividad de 5x
      Antes de Claude Code, usaba AI solo para fragmentos pequeños de código, pero con Claude Code + Sonnet podía delegarle subtareas completas
      Aun así, no confío lo suficiente en Opus como para dejarle una funcionalidad completa de principio a fin
      No estoy seguro de que algún día llegue a ser así, y quizá ni siquiera haga falta
      Las empresas sí exigen cierto nivel alto de talento a los ingenieros de software, pero una vez que se supera ese umbral, realmente no les importa en absoluto
      Incluso si la diferencia es grande, ni siquiera se dan cuenta