13 puntos por GN⁺ 8 시간 전 | 1 comentarios | Compartir por WhatsApp
  • Se ha vuelto común conectar APIs de OpenAI o Anthropic a funciones de una app, pero depender de modelos de IA alojados en la nube hace que una función pueda detenerse por una caída del servidor o un problema de pago, además de aumentar la carga sobre la privacidad
  • Los dispositivos modernos tienen una potente capacidad de cómputo en el propio equipo, como el Neural Engine, pero la mayor parte del tiempo permanece inactiva mientras espera respuestas del servidor
  • Por ejemplo, usando el framework FoundationModels de Apple, es posible implementar funciones de IA como resumen, clasificación y extracción directamente en el dispositivo, sin servidor
  • El cliente nativo para iOS de The Brutalist Report genera resúmenes de artículos en el dispositivo con la API de modelos locales de Apple, evitando el servidor y eliminando la necesidad de prompts, registros de usuario, cuentas de proveedor o notas al pie sobre almacenamiento de contenido
  • Puede que los modelos locales no sean tan inteligentes como los de la nube, pero para tareas de transformación de datos como resumir, clasificar, extraer, reescribir o normalizar, pueden ser más que suficientes; los modelos en la nube deberían usarse solo cuando de verdad hagan falta

Problemas de depender de la IA en la nube

  • Se está expandiendo la tendencia de que los desarrolladores agreguen llamadas a APIs de OpenAI o Anthropic a funciones de sus apps sin demasiada reflexión
  • Este enfoque vuelve al software frágil, invasivo para la privacidad y fundamentalmente inestable
    • Si el servidor falla o vence la tarjeta de crédito, la app deja de funcionar
  • En el momento en que transmites el contenido del usuario a un proveedor externo de IA, la naturaleza misma del producto cambia
    • Aparecen problemas de retención de datos, consentimiento, auditoría, filtraciones, solicitudes gubernamentales y uso como datos de entrenamiento
  • Todo pasa a depender del estado de la red, la disponibilidad del proveedor externo, los rate limits, los pagos de la cuenta y el estado de tu propio backend, lo que complica toda la pila
  • Al final, una sola función de UX se convierte en un sistema distribuido que genera costos
  • Enviar a la nube funciones que podrían resolverse localmente es dispararse en el pie

Por qué tiene sentido aprovechar el dispositivo local

  • El silicio que hoy llevas en el bolsillo es incomparablemente más rápido que el de hace 10 años, y su Neural Engine dedicado pasa la mayor parte del tiempo sin uso
    • Mientras tanto, seguir esperando una respuesta JSON desde una granja de servidores en Virginia no tiene mucho sentido
  • La meta no debería ser “AI everywhere”, sino software útil
  • Si una función puede ejecutarse localmente, elegir dependencias externas ya es en sí mismo un daño innecesario

Resumen en el dispositivo en The Brutalist Report

  • The Brutalist Report es un servicio agregador de noticias inspirado en la web de estilo noventero
  • Al crear recientemente su cliente nativo para iOS, el objetivo de diseño fue mantener una experiencia de lectura de noticias de alta densidad
  • El cliente de iOS incluye una lista de titulares de alto contraste, un modo lector que elimina los elementos que dificultan leer la web y una vista de “intelligence” para resumir artículos de forma opcional
  • Lo clave es que el resumen se genera en el dispositivo mediante la API de modelos locales de Apple
  • No hace falta pasar por un servidor, ni guardar prompts o registros de usuario, ni tener cuentas de proveedor, ni agregar notas del tipo “conservamos el contenido durante 30 días”
  • Se ha vuelto demasiado natural asumir que todo uso de IA ocurre del lado del servidor, y revertir eso requerirá un esfuerzo de toda la industria
  • Algunos casos de uso sí exigen la inteligencia que solo ofrecen los modelos alojados en la nube, pero no todos; por eso hace falta criterio

Herramientas de IA local en el ecosistema de Apple

  • En el ecosistema de Apple, durante el último año se ha invertido para que los desarrolladores puedan aprovechar fácilmente modelos de IA locales integrados
  • El flujo básico consiste en importar FoundationModels, comprobar la disponibilidad de SystemLanguageModel.default y luego construir un prompt con LanguageModelSession para obtener una respuesta
    import FoundationModels  
    
    let model = SystemLanguageModel.default  
    guard model.availability == .available else { return }  
    
    let session = LanguageModelSession {  
      """  
      Provide a brutalist, information-dense summary in Markdown format.  
      - Use **bold** for key concepts.  
      - Use bullet points for facts.  
      - No fluff. Just facts.  
      """  
    }  
    
    let response = try await session.respond(options: .init(maximumResponseTokens: 1_000)) {  
      articleText  
    }  
    
    let markdown = response.content  
    
  • En contenido largo, se puede dividir el texto plano en bloques de unas 10 mil letras, generar en cada bloque notas concisas de “facts only” y luego combinar un resumen final en una segunda pasada
  • Este tipo de trabajo encaja muy bien con modelos locales
    • Los datos de entrada ya están en el dispositivo, porque es contenido que el usuario ya está leyendo
    • La salida es liviana
    • Se procesa rápido y de forma privada
    • Se trata de resumir una página que el usuario acaba de cargar, no de inventar conocimiento nuevo sobre el mundo, así que no hace falta una inteligencia sobrehumana
  • La IA local brilla cuando el papel del modelo no es buscar en todo el universo, sino transformar datos que el usuario ya posee

Cómo se construye la confianza

  • Funciones de IA como resumir correos, extraer tareas pendientes de notas o clasificar documentos son cosas que la gente quiere, pero en las que no confía
  • El enfoque típico en la nube convierte todas esas funciones en una cuestión de confianza: “¿está bien enviar los datos al servidor?”
  • La IA local cambia esa estructura al procesar ahí mismo los datos que ya están en el dispositivo
  • La confianza del usuario no se construye con una política de privacidad de 2,000 palabras
  • La confianza se construye diseñando un sistema donde esa política ni siquiera sea necesaria

Salida estructurada e IA basada en tipos

  • Una de las buenas decisiones recientes de Apple fue mover la “salida de IA” de un bloque de texto sin estructura hacia datos tipados
  • En lugar de “pedirle JSON al modelo y esperar que salga bien”, un patrón más nuevo y mejor es definir un struct de Swift que represente el resultado deseado
  • Se puede dar una guía en lenguaje natural para cada campo y hacer que el modelo genere una instancia de ese tipo
    import FoundationModels  
    
    @Generable  
    struct ArticleIntel {  
      @Guide(description: "One sentence. No hype.") var tldr: String  
      @Guide(description: "3–7 bullets. Facts only.") var bullets: [String]  
      @Guide(description: "Comma-separated keywords.") var keywords: [String]  
    }  
    
    let session = LanguageModelSession()  
    let response = try await session.respond(  
      to: "Extract structured notes from the article.",  
      generating: ArticleIntel.self  
    ) {  
      articleText  
    }  
    
    let intel = response.content  
    
  • Con este enfoque, la UI no necesita raspar bullets desde Markdown ni confiar en que el modelo recuerde un esquema JSON
  • La app puede recibir tipos reales con campos reales y renderizarlos de forma consistente
  • Esto produce salida estructurada que la app realmente puede usar, y todo el proceso se ejecuta localmente
  • No es solo una interfaz conveniente, sino una mejora en la calidad de ingeniería
  • Es la diferencia que permite que, en una app local-first, la IA no sea una función curiosa, sino un subsistema confiable

Respuesta a “los modelos locales son menos inteligentes”

  • Es cierto que los modelos locales no son tan inteligentes como los de la nube, pero para la mayoría de las funciones de una app eso no es lo importante
  • La mayoría de las funciones no requieren escribir como Shakespeare ni explicar mecánica cuántica, sino realizar de forma estable alguna de estas tareas: resumir, clasificar, extraer, reescribir o normalizar
  • Para esas tareas, los modelos locales son más que suficientemente buenos
  • Si intentas usar un modelo local como reemplazo de todo internet, te vas a decepcionar; pero si lo usas como “transformador de datos” dentro de la app, terminas preguntándote por qué lo mandabas al servidor
  • Los modelos en la nube deberían usarse solo cuando realmente hagan falta, y los datos del usuario deberían quedarse donde están
  • Cuando se use IA, no debería ser solo para pegar un cuadro de chat, sino para aprovecharla como un subsistema real con salida tipada y comportamiento predecible

Privacidad y construcción de confianza

  • Existen muchas funciones de IA que la gente quiere pero no confía, como resumir correos, extraer acciones desde notas o clasificar documentos
  • El enfoque en la nube convierte todo esto en un experimento de confianza: “envíanos tus datos al servidor, los trataremos bien”
  • La IA local cambia esto de raíz: los datos ya están en el dispositivo y se procesan ahí mismo
  • La confianza no se construye redactando una política de privacidad de 2,000 palabras, sino con una arquitectura que haga innecesaria esa política

1 comentarios

 
GN⁺ 8 시간 전
Opiniones de Hacker News
  • La forma en que los usuarios mayoritarios ven ahora la IA local se parece a cómo veían el open source hace unas décadas
    En algunos productos, las soluciones de pago iban mucho más adelante, así que el open source a menudo se ignoraba por completo, con una actitud de “¿para qué molestarse?”
    Luego aparecieron SaaS y plataformas dependientes, y ahora está bastante claro que ese juicio en general estaba equivocado
    En programación, la dependencia de Anthropic y OpenAI es absurda, pero a mucha gente no le importa o solo espera que China no deje de publicar pesos abiertos
    El modelo de negocio de los pesos abiertos es muy nuevo, está mezclado con una pulseada de poder entre países e institutos de investigación, y se mueve una cantidad ridícula de dinero sin prácticamente ninguna supervisión real de la mayoría
    Ahora mismo hay un valor enorme abierto a casi todo el mundo, pero es una apuesta peligrosa que podría detenerse sin ninguna advertencia por razones que no controlamos

    • No veo qué impide seguir corriendo los mejores LLM de pesos abiertos que existen hoy en hardware de consumo
      Para el 95% de los usos son suficientes, y no tienen fecha de caducidad
      El “riesgo” es no poder usar el siguiente modelo de la siguiente generación, y ese impacto parece muy bajo
    • No sé cuál es el modelo de negocio de la IA de pesos abiertos y en realidad creo que prácticamente no existe
      En el mejor de los casos funciona como publicidad para vender modelos más avanzados
      La gran diferencia con el open source es que no puedes entrenar un LLM solo con tiempo libre y ganas
      Hace falta muchísimos datos y recursos de cómputo enormes
      En esto ojalá esté equivocado, porque me gustaría mucho más un futuro que avance hacia los pesos abiertos
    • No creo que deba ser una dinámica de IA local contra IA en la nube
      La IA local debe tratarse como un producto aparte, procesar localmente lo que de verdad no necesita IA en la nube y usar la IA en la nube como alternativa de respaldo reduciría mucho los costos
    • Estoy esperando que el gobierno de EE. UU. cree su propia IA local
      Como se haría con impuestos, existe la posibilidad de que al final termine liberándose como open source, y la NSA tiene décadas de datos de internet, así que si entrena con eso, los pesos abiertos podrían llegar a ser tan buenos como el modelo de cualquier empresa
    • Cuando el costo se vuelva un factor importante, o cuando una opción gratuita pero más débil resulte atractiva y accesible, por ejemplo como un agente on-device con experiencia de usuario al estilo Apple, los usuarios sí se moverían bastante hacia lo local
      Si piensas en quitar fondos de fotos o hacer OCR de PDFs, casi nadie usa servicios de pago para ese tipo de cosas en el uso cotidiano
  • Ese momento va a llegar, y no está tan lejos
    La tendencia ya tomó forma. Al principio solo se podían correr LLM potentes en grandes centros de datos, ahora claramente ya estamos en el nivel de varios servidores con unas cuantas H100 instaladas, y cada vez más nos acercamos a “128GB de VRAM en una MacBook Pro o en Strix Halo”
    En el próximo año, en empresas se volverá estándar el patrón de “planear con un LLM remoto caro y ejecutar con un LLM local lento pero más rápido que una persona”, y gradualmente eso se moverá hacia “es suficiente hacer todo con LLM locales”
    Al final se formará un equilibrio similar al de la nube tradicional: alojarlo por tu cuenta o pagar por flexibilidad y velocidad
    La pregunta es hasta qué punto el hosting local va a terminar con el actual sobrecalentamiento de recursos de cómputo, y qué significará eso para el mercado

    • Ese punto ya llegó ahora mismo
      Estoy corriendo Qwen y Gemma cuantizados en una PC gamer decente de hace 3 años, más o menos con una RTX 3080 de 12GB y 32GB de RAM
      Es lento y la ventana de contexto es pequeña, pero con el entorno de ejecución adecuado puede revisar y clasificar fotos de viajes
      Puede hacer OCR de recibos y resumir gastos, responder preguntas sencillas, analizar código y hasta escribir código cuando no hace falta mucho contexto
      Si le dedicas algo de atención a la integración con VS Code, creo que hasta podrías sacar un autocompletado decente
      Veo “128GB de VRAM en una MacBook Pro o en Strix Halo” como la configuración mínima viable para coding agéntico
      Pero por ahora funciona al revés. La versión en la nube es varios órdenes de magnitud más barata que alojarlo uno mismo, porque con el uso compartido se logra una utilización de servidores mucho mayor
      Si una empresa gasta 500 mil dólares en equipo para correr GLM 5.1, obtiene seguridad de datos, flexibilidad y ausencia de censura, pero aun así sale demasiado caro comparado con una suscripción por asiento de Anthropic
    • El mayor impacto de los modelos locales podría ser simplemente impedir que la inferencia remota se convierta en la única opción
  • Justo unas líneas más abajo, la gente estaba escandalizada porque Chrome metió un modelo LLM local para inferencia local que ocupa varios GB de espacio
    O sea, si lo hacen está mal y si no lo hacen también está mal

    • Basta con que no usen gigabytes de ancho de banda y almacenamiento sin preguntar
    • Si necesito el modelo, yo mismo iré a descargarlo
      Hace poco hice exactamente eso para jugar con generación de imágenes
    • Esa es una lectura algo deshonesta
      La gente no se está enojando por instalar modelos locales en sí, sino por la falta de autonomía del usuario
      No lo instales a escondidas; solo da la opción de descargar el modelo o no
      No es tan difícil, y así funcionan todas las demás opciones locales
    • Es una interpretación rara
      Si no es opt-in o si te lo meten a la fuerza en el navegador, está mal
      Nadie se enoja porque una app que corre un LLM local descargue los datos que necesita
    • Conviene leer los comentarios para ver de qué se está quejando realmente la gente
      Este comentario trata la naturaleza de la discusión de una manera bastante deshonesta
  • Creo que la discusión sobre IA privada y la discusión sobre IA local deberían separarse
    La opción realista para correr LLM grandes es uno o varios servidores grandes en línea, pero eso no significa que necesariamente tengan que operarlos empresas privadas
    Garantías sólidas de aislamiento entre tenants, idealmente zero trust, y una solución de inferencia self-hosted lo bastante fácil de desplegar y mantener, algo así como un Plex para IA, serían una opción para la privacidad
    La verdad no he investigado nada de esto y no sé qué tan viable sea. Puede que ya exista y que yo solo tenga que entrar al servidor de Discord correcto
    Además, aunque casi ni hace falta decirlo aquí, lo sorprendente es que los modelos abiertos están cerca de los mejores modelos comerciales, así que podría decirse que la parte más difícil ya está mayormente resuelta

    • Otra opción es la inferencia privada verificable corriendo modelos open source dentro de enclaves de seguridad en la nube
      Se usa NVIDIA confidential computing, el código del enclave es open source y al conectarse se valida con remote attestation para demostrar criptográficamente que el proveedor de inferencia no puede ver ningún dato
      Tinfoil: https://tinfoil.sh/ es un buen ejemplo. Divulgación de intereses: soy cofundador
      Aquí se puede leer más sobre cómo funciona: https://docs.tinfoil.sh/verification/verification-in-tinfoil
      Decir que los modelos abiertos ya están cerca de los mejores modelos comerciales es mayormente cierto para ciertas tareas
      Por ejemplo, en una interfaz de chat ya es difícil aprovechar bien una inteligencia de modelo superior a la que ofrecen los mejores modelos open source
      Pero los entornos de ejecución para programación todavía se benefician de una mayor inteligencia del modelo, especialmente porque, como en claude-code o codex, el entorno de ejecución del proveedor y la interfaz de llamadas a herramientas del modelo están estrechamente conectados mediante reinforcement learning, y esa también es otra razón por la que sigue habiendo diferencias incluso controlando la inteligencia del modelo
      El fundador de opencode, un entorno open source de ejecución para programación que soporta varios proveedores de modelos, también comentó recientemente lo difícil que es ajustar bien el entorno para cada proveedor: https://x.com/thdxr/status/2053290393727324313
  • Los ejemplos del texto confirman mi idea de que, para que los modelos locales triunfen, no tienen que competir con los modelos de frontera; solo tienen que ser lo bastante buenos
    Tienen que hacer bien tareas pequeñas y correr de manera razonable en dispositivos de consumo
    Mejor todavía si también corren en teléfonos
    Al experimentar con LLM locales, vi que aumentar el tamaño del modelo ayuda, pero lo que de verdad volvió útiles a modelos casi inútiles fue la capacidad de usar herramientas
    Permitir búsqueda web y fetch de páginas web ayudó mucho más a reducir alucinaciones que usar un modelo más grande, y además no existe el problema de la fecha límite del entrenamiento
    Claro, puede que los modelos más grandes usen mejor las herramientas, pero muchas veces los modelos pequeños fueron suficientes

  • Hice una demo de lo que puede hacer la nueva Prompt API de Chrome que usa modelos locales: https://adsm.dev/posts/prompt-api/#what-could-you-build-with...
    Como en el texto original, brilla en entornos limitados donde transforma datos que pertenecen al usuario
    Para tareas más abiertas claramente es menos útil

    • No recomiendo tomar la Prompt API de Chrome como un buen ejemplo de LLM local
      Está bien, pero en verdad es muy débil
      Los modelos de 8B de hace un año eran mejores en algunos aspectos, y los modelos recientes han mejorado de forma significativa
    • “Reescribir texto publicitario usando el contexto alrededor”, sí, exacto, ese es el plan
      No puede hacerse sin modelo local ni sin página web
      Mientras todos los demás cargan con el costo de la electricidad y el desgaste del hardware, el proveedor obtiene más y mejores abusos de adtech y vigilancia, y más baratos
    • Básicamente están corriendo un LLM para hacer una transformación de datos para la que un procedimiento determinista sería mucho más adecuado, y para eso usan una fuente de poder de 1000 watts
      Impresionante, de verdad
  • Los actores ya establecidos harán todo lo posible por bloquear lo local, pero hay varias razones técnicas para creer que los modelos pequeños y especializados podrían terminar siendo el estándar
    Si eso pasa, lo local también vendrá detrás
    El texto original se enfoca en si hace falta un modelo grande para lo que el usuario quiere
    Pero también hay indicios de que los modelos grandes quizá no lleguen a ser suficientemente confiables en la práctica a menos que a) la interpretabilidad mecanicista madure lo suficiente o b) los sistemas multiagente no terminen convirtiéndose todos en sistemas multimodelo
    En el caso de a), los avances en interpretabilidad mecanicista podrían corregir problemas de los modelos grandes, pero al mismo tiempo también podrían hacer posible obtener representaciones integradas y recortar solo las partes útiles de modelos gigantes
    La idea sería quedarse con lo necesario y tirar lo innecesario para reducir costos y superficie de problemas
    ¿Solo necesitas razonamiento? ¿Solo visión? Entonces recorta solo esa parte del monstruo gigantesco
    La capacidad de aislar problemas difícilmente llegará sin la capacidad de aislar subsistemas funcionales
    En el caso de b), basta con mirar el evil vector o categorías de alucinación especializadas en uso de herramientas
    Si no existe una solución completa para la alineación de utilidad/honestidad/inocuidad, es muy probable que la creatividad y el rigor, junto con muchos otros factores, choquen entre sí de manera fundamental
    Si de todas formas vas a necesitar varios modelos para todo, ¿para qué querrías un modelo universal enorme y caro?
    Por eso la especialización también mete presión para reducirlo todo al mínimo de modelos expertos confiables

  • Mi preocupación con los LLM, dejando de lado el aspecto filosófico y el impacto económico, es que parece difícil entrenar modelos funcionales localmente
    LLM de juguete sí, pero algo realmente útil lo veo difícil
    No solo hace falta una capacidad de cómputo enorme, también hacen falta datasets mayormente obtenidos de forma ilegal

    • Me parece una visión demasiado pesimista
      Puede que yo personalmente no sea una inteligencia tan extraordinaria, pero para llegar a la inteligencia que tengo ahora no necesité aprender de todos los libros, todos los artículos de Wikipedia, todos los posts de blogs, todos los manuales de referencia ni todas las líneas de código que se han usado hasta ahora
      De hecho, ni siquiera aprendí el 1% de ese material, ni mucho menos el 0.00000000001%
      Está claro que el texto en sí no es un prerrequisito de la inteligencia
      Como mínimo, si con solo observar vagamente mi entorno durante unos 20 años me acerqué a algo parecido a la inteligencia, eso es una fuerte evidencia de que el “dataset” necesario son solo los sensores y el mundo alrededor
      Claro, el cerebro humano no parte de cero: hubo millones de años de evolución para crear el suelo donde pudiera echar raíces la inteligencia
      Pero esa estructura base parece bastante general y no parece depender de un set específico de entrenamiento
      También podría ser posible evolucionarla artificialmente
    • Con la tecnología actual, no el modelo completo, pero LoRA sí es realmente bueno para fine-tuning y se puede crear en unas horas con una computadora gamer avanzada
      Mientras el modelo base soporte mi idioma, es muy probable que con la capacidad de cómputo libre de los dispositivos electrónicos que ya tengo pueda entrenar varios LoRA al mes
      En el futuro, cuando una computadora doméstica normal tenga capacidades comparables a las de un servidor actual, también se podrá entrenar un LLM completo en casa
    • Esto importa porque aunque el modelo corra localmente, todavía podría ser un modelo propietario
      No tengo forma de intervenir en con qué fue entrenado, cómo se etiquetaron los datos de entrenamiento, qué guardrails tiene ni qué sesgos podría tener
    • Hay demasiadas tecnologías que no se pueden reproducir localmente, y no creo que los LLM sean especialmente distintos
      Como con todo lo demás, habrá grandes fabricantes de LLM, pequeños fabricantes de LLM, creadores artesanales de LLM, entusiastas de los LLM y consumidores de LLM
    • Depende del campo
      Hay bastantes casos de uso donde se pueden conseguir los datos de entrenamiento necesarios para uso personal o no comercial
      Desde ese punto, el problema es la cantidad de cómputo y tiempo necesarios para entrenar, y si estás dispuesto a esperar, incluso con hardware de consumo se pueden hacer modelos útiles
  • Es cierto eso de “usa modelos en la nube solo cuando de verdad haga falta”, pero el problema es que es mucho más fácil usar un modelo de última generación subsidiado que pasar tiempo afinando la configuración de modelos locales
    Acabo de darme cuenta de eso con agentes de programación
    Puede que no siempre haga falta usar la versión más nueva en xhigh, pero al final terminas haciéndolo
    Porque puedes terminar el trabajo en menos tiempo, con menos esfuerzo y prácticamente al mismo precio
    Creo que solo cuando los principales proveedores empiecen a cobrar según el consumo real de tokens vamos a ver esfuerzos serios hacia la IA local

    • Que usar modelos de última generación sea más fácil no es un problema, es una función
      Tengo como 8 pestañas abiertas con proveedores de tier gratuito, y ChatGPT, Claude y Gemini están del lado de la frontera
      No tengo ningún problema en agotar uno y pasar al siguiente
      Puedo pasarme el día así, haciéndoles implementar funciones o clases específicas de mi código
      Como sí sé escribir y diseñar software de verdad, no necesito estar ejecutando agentes en bucle para que hagan todo en un solo día
      Solo con chatbots web y copiar/pegar puedo generar miles de líneas de código por hora, manteniendo a la vez un modelo mental fuerte del código y pudiendo cambiar yo mismo lo que haga falta
      De hecho, esta mañana hice justo eso en un proyecto en Python
      Como yo había diseñado lo que necesitaba, cada generación consistía en pedir una sola función, y cuando en la mañana tuve que agregar algo, fui directo al lugar correcto y lo corregí yo mismo sin preguntarle nada al chatbot
      Si generas todo completo a partir de una especificación, eso no se puede hacer
    • El camino de menor resistencia casi siempre gana
      Sobre todo cuando el precio oculta el costo real
    • No estoy viendo buen rendimiento en modelos locales
      Cada vez que aparece un post sobre LLM, en los comentarios siempre hay mucha gente diciendo con total seguridad que obtiene resultados tan buenos como Opus con los últimos DeepSeek/Qwen, etc., pero mi experiencia no se parece en nada a eso
      Los modelos open source se vienen completamente abajo frente a Claude en cuanto les pides algo apenas complejo
      Me hace sospechar que quizá estamos en una situación parecida a Linux en los 90
      Funcionaba más o menos, pero en realidad no estaba nada listo para usuarios domésticos, y aun así había mucha gente que, por motivos principalmente ideológicos, te insistía en la cara que todo estaba bien
  • La gente en realidad está intentando hacer “el mejor software” posible
    Los aceleracionistas quijotescos de la IA son una minoría ruidosa entre quienes hacen software, y elegir APIs en línea por encima de sistemas locales por lo general no es pereza del desarrollador sino una decisión en favor del usuario
    Ahora mismo se puede hacer más cosas y hacerlas mejor con IA privada que con modelos locales
    Eso es inevitable
    Incluso si la IA local mejora, estar en la frontera del rendimiento de LLM muchas veces sigue siendo una inversión que vale la pena
    La mayoría de la gente no adopta algo si el producto no es de primer nivel y además extremadamente conveniente
    Ese estándar es alto, y la IA local muchas veces no lo cumple
    La insistencia de HN en tratar a todos los usuarios como si fueran fanáticos de Linux open source, priorización extrema de la privacidad y self-hosting da una pena ajena tremenda por lo anticuada que se ve