La IA local debería ser la norma
(unix.foo)- Se ha vuelto común conectar APIs de OpenAI o Anthropic a funciones de una app, pero depender de modelos de IA alojados en la nube hace que una función pueda detenerse por una caída del servidor o un problema de pago, además de aumentar la carga sobre la privacidad
- Los dispositivos modernos tienen una potente capacidad de cómputo en el propio equipo, como el Neural Engine, pero la mayor parte del tiempo permanece inactiva mientras espera respuestas del servidor
- Por ejemplo, usando el framework FoundationModels de Apple, es posible implementar funciones de IA como resumen, clasificación y extracción directamente en el dispositivo, sin servidor
- El cliente nativo para iOS de The Brutalist Report genera resúmenes de artículos en el dispositivo con la API de modelos locales de Apple, evitando el servidor y eliminando la necesidad de prompts, registros de usuario, cuentas de proveedor o notas al pie sobre almacenamiento de contenido
- Puede que los modelos locales no sean tan inteligentes como los de la nube, pero para tareas de transformación de datos como resumir, clasificar, extraer, reescribir o normalizar, pueden ser más que suficientes; los modelos en la nube deberían usarse solo cuando de verdad hagan falta
Problemas de depender de la IA en la nube
- Se está expandiendo la tendencia de que los desarrolladores agreguen llamadas a APIs de OpenAI o Anthropic a funciones de sus apps sin demasiada reflexión
- Este enfoque vuelve al software frágil, invasivo para la privacidad y fundamentalmente inestable
- Si el servidor falla o vence la tarjeta de crédito, la app deja de funcionar
- En el momento en que transmites el contenido del usuario a un proveedor externo de IA, la naturaleza misma del producto cambia
- Aparecen problemas de retención de datos, consentimiento, auditoría, filtraciones, solicitudes gubernamentales y uso como datos de entrenamiento
- Todo pasa a depender del estado de la red, la disponibilidad del proveedor externo, los rate limits, los pagos de la cuenta y el estado de tu propio backend, lo que complica toda la pila
- Al final, una sola función de UX se convierte en un sistema distribuido que genera costos
- Enviar a la nube funciones que podrían resolverse localmente es dispararse en el pie
Por qué tiene sentido aprovechar el dispositivo local
- El silicio que hoy llevas en el bolsillo es incomparablemente más rápido que el de hace 10 años, y su Neural Engine dedicado pasa la mayor parte del tiempo sin uso
- Mientras tanto, seguir esperando una respuesta JSON desde una granja de servidores en Virginia no tiene mucho sentido
- La meta no debería ser “AI everywhere”, sino software útil
- Si una función puede ejecutarse localmente, elegir dependencias externas ya es en sí mismo un daño innecesario
Resumen en el dispositivo en The Brutalist Report
- The Brutalist Report es un servicio agregador de noticias inspirado en la web de estilo noventero
- Al crear recientemente su cliente nativo para iOS, el objetivo de diseño fue mantener una experiencia de lectura de noticias de alta densidad
- El cliente de iOS incluye una lista de titulares de alto contraste, un modo lector que elimina los elementos que dificultan leer la web y una vista de “intelligence” para resumir artículos de forma opcional
- Lo clave es que el resumen se genera en el dispositivo mediante la API de modelos locales de Apple
- No hace falta pasar por un servidor, ni guardar prompts o registros de usuario, ni tener cuentas de proveedor, ni agregar notas del tipo “conservamos el contenido durante 30 días”
- Se ha vuelto demasiado natural asumir que todo uso de IA ocurre del lado del servidor, y revertir eso requerirá un esfuerzo de toda la industria
- Algunos casos de uso sí exigen la inteligencia que solo ofrecen los modelos alojados en la nube, pero no todos; por eso hace falta criterio
Herramientas de IA local en el ecosistema de Apple
- En el ecosistema de Apple, durante el último año se ha invertido para que los desarrolladores puedan aprovechar fácilmente modelos de IA locales integrados
- El flujo básico consiste en importar
FoundationModels, comprobar la disponibilidad deSystemLanguageModel.defaulty luego construir un prompt conLanguageModelSessionpara obtener una respuestaimport FoundationModels let model = SystemLanguageModel.default guard model.availability == .available else { return } let session = LanguageModelSession { """ Provide a brutalist, information-dense summary in Markdown format. - Use **bold** for key concepts. - Use bullet points for facts. - No fluff. Just facts. """ } let response = try await session.respond(options: .init(maximumResponseTokens: 1_000)) { articleText } let markdown = response.content - En contenido largo, se puede dividir el texto plano en bloques de unas 10 mil letras, generar en cada bloque notas concisas de “facts only” y luego combinar un resumen final en una segunda pasada
- Este tipo de trabajo encaja muy bien con modelos locales
- Los datos de entrada ya están en el dispositivo, porque es contenido que el usuario ya está leyendo
- La salida es liviana
- Se procesa rápido y de forma privada
- Se trata de resumir una página que el usuario acaba de cargar, no de inventar conocimiento nuevo sobre el mundo, así que no hace falta una inteligencia sobrehumana
- La IA local brilla cuando el papel del modelo no es buscar en todo el universo, sino transformar datos que el usuario ya posee
Cómo se construye la confianza
- Funciones de IA como resumir correos, extraer tareas pendientes de notas o clasificar documentos son cosas que la gente quiere, pero en las que no confía
- El enfoque típico en la nube convierte todas esas funciones en una cuestión de confianza: “¿está bien enviar los datos al servidor?”
- La IA local cambia esa estructura al procesar ahí mismo los datos que ya están en el dispositivo
- La confianza del usuario no se construye con una política de privacidad de 2,000 palabras
- La confianza se construye diseñando un sistema donde esa política ni siquiera sea necesaria
Salida estructurada e IA basada en tipos
- Una de las buenas decisiones recientes de Apple fue mover la “salida de IA” de un bloque de texto sin estructura hacia datos tipados
- En lugar de “pedirle JSON al modelo y esperar que salga bien”, un patrón más nuevo y mejor es definir un
structde Swift que represente el resultado deseado - Se puede dar una guía en lenguaje natural para cada campo y hacer que el modelo genere una instancia de ese tipo
import FoundationModels @Generable struct ArticleIntel { @Guide(description: "One sentence. No hype.") var tldr: String @Guide(description: "3–7 bullets. Facts only.") var bullets: [String] @Guide(description: "Comma-separated keywords.") var keywords: [String] } let session = LanguageModelSession() let response = try await session.respond( to: "Extract structured notes from the article.", generating: ArticleIntel.self ) { articleText } let intel = response.content - Con este enfoque, la UI no necesita raspar bullets desde Markdown ni confiar en que el modelo recuerde un esquema JSON
- La app puede recibir tipos reales con campos reales y renderizarlos de forma consistente
- Esto produce salida estructurada que la app realmente puede usar, y todo el proceso se ejecuta localmente
- No es solo una interfaz conveniente, sino una mejora en la calidad de ingeniería
- Es la diferencia que permite que, en una app local-first, la IA no sea una función curiosa, sino un subsistema confiable
Respuesta a “los modelos locales son menos inteligentes”
- Es cierto que los modelos locales no son tan inteligentes como los de la nube, pero para la mayoría de las funciones de una app eso no es lo importante
- La mayoría de las funciones no requieren escribir como Shakespeare ni explicar mecánica cuántica, sino realizar de forma estable alguna de estas tareas: resumir, clasificar, extraer, reescribir o normalizar
- Para esas tareas, los modelos locales son más que suficientemente buenos
- Si intentas usar un modelo local como reemplazo de todo internet, te vas a decepcionar; pero si lo usas como “transformador de datos” dentro de la app, terminas preguntándote por qué lo mandabas al servidor
- Los modelos en la nube deberían usarse solo cuando realmente hagan falta, y los datos del usuario deberían quedarse donde están
- Cuando se use IA, no debería ser solo para pegar un cuadro de chat, sino para aprovecharla como un subsistema real con salida tipada y comportamiento predecible
Privacidad y construcción de confianza
- Existen muchas funciones de IA que la gente quiere pero no confía, como resumir correos, extraer acciones desde notas o clasificar documentos
- El enfoque en la nube convierte todo esto en un experimento de confianza: “envíanos tus datos al servidor, los trataremos bien”
- La IA local cambia esto de raíz: los datos ya están en el dispositivo y se procesan ahí mismo
- La confianza no se construye redactando una política de privacidad de 2,000 palabras, sino con una arquitectura que haga innecesaria esa política
1 comentarios
Opiniones de Hacker News
La forma en que los usuarios mayoritarios ven ahora la IA local se parece a cómo veían el open source hace unas décadas
En algunos productos, las soluciones de pago iban mucho más adelante, así que el open source a menudo se ignoraba por completo, con una actitud de “¿para qué molestarse?”
Luego aparecieron SaaS y plataformas dependientes, y ahora está bastante claro que ese juicio en general estaba equivocado
En programación, la dependencia de Anthropic y OpenAI es absurda, pero a mucha gente no le importa o solo espera que China no deje de publicar pesos abiertos
El modelo de negocio de los pesos abiertos es muy nuevo, está mezclado con una pulseada de poder entre países e institutos de investigación, y se mueve una cantidad ridícula de dinero sin prácticamente ninguna supervisión real de la mayoría
Ahora mismo hay un valor enorme abierto a casi todo el mundo, pero es una apuesta peligrosa que podría detenerse sin ninguna advertencia por razones que no controlamos
Para el 95% de los usos son suficientes, y no tienen fecha de caducidad
El “riesgo” es no poder usar el siguiente modelo de la siguiente generación, y ese impacto parece muy bajo
En el mejor de los casos funciona como publicidad para vender modelos más avanzados
La gran diferencia con el open source es que no puedes entrenar un LLM solo con tiempo libre y ganas
Hace falta muchísimos datos y recursos de cómputo enormes
En esto ojalá esté equivocado, porque me gustaría mucho más un futuro que avance hacia los pesos abiertos
La IA local debe tratarse como un producto aparte, procesar localmente lo que de verdad no necesita IA en la nube y usar la IA en la nube como alternativa de respaldo reduciría mucho los costos
Como se haría con impuestos, existe la posibilidad de que al final termine liberándose como open source, y la NSA tiene décadas de datos de internet, así que si entrena con eso, los pesos abiertos podrían llegar a ser tan buenos como el modelo de cualquier empresa
Si piensas en quitar fondos de fotos o hacer OCR de PDFs, casi nadie usa servicios de pago para ese tipo de cosas en el uso cotidiano
Ese momento va a llegar, y no está tan lejos
La tendencia ya tomó forma. Al principio solo se podían correr LLM potentes en grandes centros de datos, ahora claramente ya estamos en el nivel de varios servidores con unas cuantas H100 instaladas, y cada vez más nos acercamos a “128GB de VRAM en una MacBook Pro o en Strix Halo”
En el próximo año, en empresas se volverá estándar el patrón de “planear con un LLM remoto caro y ejecutar con un LLM local lento pero más rápido que una persona”, y gradualmente eso se moverá hacia “es suficiente hacer todo con LLM locales”
Al final se formará un equilibrio similar al de la nube tradicional: alojarlo por tu cuenta o pagar por flexibilidad y velocidad
La pregunta es hasta qué punto el hosting local va a terminar con el actual sobrecalentamiento de recursos de cómputo, y qué significará eso para el mercado
Estoy corriendo Qwen y Gemma cuantizados en una PC gamer decente de hace 3 años, más o menos con una RTX 3080 de 12GB y 32GB de RAM
Es lento y la ventana de contexto es pequeña, pero con el entorno de ejecución adecuado puede revisar y clasificar fotos de viajes
Puede hacer OCR de recibos y resumir gastos, responder preguntas sencillas, analizar código y hasta escribir código cuando no hace falta mucho contexto
Si le dedicas algo de atención a la integración con VS Code, creo que hasta podrías sacar un autocompletado decente
Veo “128GB de VRAM en una MacBook Pro o en Strix Halo” como la configuración mínima viable para coding agéntico
Pero por ahora funciona al revés. La versión en la nube es varios órdenes de magnitud más barata que alojarlo uno mismo, porque con el uso compartido se logra una utilización de servidores mucho mayor
Si una empresa gasta 500 mil dólares en equipo para correr GLM 5.1, obtiene seguridad de datos, flexibilidad y ausencia de censura, pero aun así sale demasiado caro comparado con una suscripción por asiento de Anthropic
Justo unas líneas más abajo, la gente estaba escandalizada porque Chrome metió un modelo LLM local para inferencia local que ocupa varios GB de espacio
O sea, si lo hacen está mal y si no lo hacen también está mal
Hace poco hice exactamente eso para jugar con generación de imágenes
La gente no se está enojando por instalar modelos locales en sí, sino por la falta de autonomía del usuario
No lo instales a escondidas; solo da la opción de descargar el modelo o no
No es tan difícil, y así funcionan todas las demás opciones locales
Si no es opt-in o si te lo meten a la fuerza en el navegador, está mal
Nadie se enoja porque una app que corre un LLM local descargue los datos que necesita
Este comentario trata la naturaleza de la discusión de una manera bastante deshonesta
Creo que la discusión sobre IA privada y la discusión sobre IA local deberían separarse
La opción realista para correr LLM grandes es uno o varios servidores grandes en línea, pero eso no significa que necesariamente tengan que operarlos empresas privadas
Garantías sólidas de aislamiento entre tenants, idealmente zero trust, y una solución de inferencia self-hosted lo bastante fácil de desplegar y mantener, algo así como un Plex para IA, serían una opción para la privacidad
La verdad no he investigado nada de esto y no sé qué tan viable sea. Puede que ya exista y que yo solo tenga que entrar al servidor de Discord correcto
Además, aunque casi ni hace falta decirlo aquí, lo sorprendente es que los modelos abiertos están cerca de los mejores modelos comerciales, así que podría decirse que la parte más difícil ya está mayormente resuelta
Se usa NVIDIA confidential computing, el código del enclave es open source y al conectarse se valida con remote attestation para demostrar criptográficamente que el proveedor de inferencia no puede ver ningún dato
Tinfoil: https://tinfoil.sh/ es un buen ejemplo. Divulgación de intereses: soy cofundador
Aquí se puede leer más sobre cómo funciona: https://docs.tinfoil.sh/verification/verification-in-tinfoil
Decir que los modelos abiertos ya están cerca de los mejores modelos comerciales es mayormente cierto para ciertas tareas
Por ejemplo, en una interfaz de chat ya es difícil aprovechar bien una inteligencia de modelo superior a la que ofrecen los mejores modelos open source
Pero los entornos de ejecución para programación todavía se benefician de una mayor inteligencia del modelo, especialmente porque, como en claude-code o codex, el entorno de ejecución del proveedor y la interfaz de llamadas a herramientas del modelo están estrechamente conectados mediante reinforcement learning, y esa también es otra razón por la que sigue habiendo diferencias incluso controlando la inteligencia del modelo
El fundador de opencode, un entorno open source de ejecución para programación que soporta varios proveedores de modelos, también comentó recientemente lo difícil que es ajustar bien el entorno para cada proveedor: https://x.com/thdxr/status/2053290393727324313
Los ejemplos del texto confirman mi idea de que, para que los modelos locales triunfen, no tienen que competir con los modelos de frontera; solo tienen que ser lo bastante buenos
Tienen que hacer bien tareas pequeñas y correr de manera razonable en dispositivos de consumo
Mejor todavía si también corren en teléfonos
Al experimentar con LLM locales, vi que aumentar el tamaño del modelo ayuda, pero lo que de verdad volvió útiles a modelos casi inútiles fue la capacidad de usar herramientas
Permitir búsqueda web y fetch de páginas web ayudó mucho más a reducir alucinaciones que usar un modelo más grande, y además no existe el problema de la fecha límite del entrenamiento
Claro, puede que los modelos más grandes usen mejor las herramientas, pero muchas veces los modelos pequeños fueron suficientes
Hice una demo de lo que puede hacer la nueva Prompt API de Chrome que usa modelos locales: https://adsm.dev/posts/prompt-api/#what-could-you-build-with...
Como en el texto original, brilla en entornos limitados donde transforma datos que pertenecen al usuario
Para tareas más abiertas claramente es menos útil
Está bien, pero en verdad es muy débil
Los modelos de 8B de hace un año eran mejores en algunos aspectos, y los modelos recientes han mejorado de forma significativa
No puede hacerse sin modelo local ni sin página web
Mientras todos los demás cargan con el costo de la electricidad y el desgaste del hardware, el proveedor obtiene más y mejores abusos de adtech y vigilancia, y más baratos
Impresionante, de verdad
Los actores ya establecidos harán todo lo posible por bloquear lo local, pero hay varias razones técnicas para creer que los modelos pequeños y especializados podrían terminar siendo el estándar
Si eso pasa, lo local también vendrá detrás
El texto original se enfoca en si hace falta un modelo grande para lo que el usuario quiere
Pero también hay indicios de que los modelos grandes quizá no lleguen a ser suficientemente confiables en la práctica a menos que a) la interpretabilidad mecanicista madure lo suficiente o b) los sistemas multiagente no terminen convirtiéndose todos en sistemas multimodelo
En el caso de a), los avances en interpretabilidad mecanicista podrían corregir problemas de los modelos grandes, pero al mismo tiempo también podrían hacer posible obtener representaciones integradas y recortar solo las partes útiles de modelos gigantes
La idea sería quedarse con lo necesario y tirar lo innecesario para reducir costos y superficie de problemas
¿Solo necesitas razonamiento? ¿Solo visión? Entonces recorta solo esa parte del monstruo gigantesco
La capacidad de aislar problemas difícilmente llegará sin la capacidad de aislar subsistemas funcionales
En el caso de b), basta con mirar el evil vector o categorías de alucinación especializadas en uso de herramientas
Si no existe una solución completa para la alineación de utilidad/honestidad/inocuidad, es muy probable que la creatividad y el rigor, junto con muchos otros factores, choquen entre sí de manera fundamental
Si de todas formas vas a necesitar varios modelos para todo, ¿para qué querrías un modelo universal enorme y caro?
Por eso la especialización también mete presión para reducirlo todo al mínimo de modelos expertos confiables
Mi preocupación con los LLM, dejando de lado el aspecto filosófico y el impacto económico, es que parece difícil entrenar modelos funcionales localmente
LLM de juguete sí, pero algo realmente útil lo veo difícil
No solo hace falta una capacidad de cómputo enorme, también hacen falta datasets mayormente obtenidos de forma ilegal
Puede que yo personalmente no sea una inteligencia tan extraordinaria, pero para llegar a la inteligencia que tengo ahora no necesité aprender de todos los libros, todos los artículos de Wikipedia, todos los posts de blogs, todos los manuales de referencia ni todas las líneas de código que se han usado hasta ahora
De hecho, ni siquiera aprendí el 1% de ese material, ni mucho menos el 0.00000000001%
Está claro que el texto en sí no es un prerrequisito de la inteligencia
Como mínimo, si con solo observar vagamente mi entorno durante unos 20 años me acerqué a algo parecido a la inteligencia, eso es una fuerte evidencia de que el “dataset” necesario son solo los sensores y el mundo alrededor
Claro, el cerebro humano no parte de cero: hubo millones de años de evolución para crear el suelo donde pudiera echar raíces la inteligencia
Pero esa estructura base parece bastante general y no parece depender de un set específico de entrenamiento
También podría ser posible evolucionarla artificialmente
Mientras el modelo base soporte mi idioma, es muy probable que con la capacidad de cómputo libre de los dispositivos electrónicos que ya tengo pueda entrenar varios LoRA al mes
En el futuro, cuando una computadora doméstica normal tenga capacidades comparables a las de un servidor actual, también se podrá entrenar un LLM completo en casa
No tengo forma de intervenir en con qué fue entrenado, cómo se etiquetaron los datos de entrenamiento, qué guardrails tiene ni qué sesgos podría tener
Como con todo lo demás, habrá grandes fabricantes de LLM, pequeños fabricantes de LLM, creadores artesanales de LLM, entusiastas de los LLM y consumidores de LLM
Hay bastantes casos de uso donde se pueden conseguir los datos de entrenamiento necesarios para uso personal o no comercial
Desde ese punto, el problema es la cantidad de cómputo y tiempo necesarios para entrenar, y si estás dispuesto a esperar, incluso con hardware de consumo se pueden hacer modelos útiles
Es cierto eso de “usa modelos en la nube solo cuando de verdad haga falta”, pero el problema es que es mucho más fácil usar un modelo de última generación subsidiado que pasar tiempo afinando la configuración de modelos locales
Acabo de darme cuenta de eso con agentes de programación
Puede que no siempre haga falta usar la versión más nueva en xhigh, pero al final terminas haciéndolo
Porque puedes terminar el trabajo en menos tiempo, con menos esfuerzo y prácticamente al mismo precio
Creo que solo cuando los principales proveedores empiecen a cobrar según el consumo real de tokens vamos a ver esfuerzos serios hacia la IA local
Tengo como 8 pestañas abiertas con proveedores de tier gratuito, y ChatGPT, Claude y Gemini están del lado de la frontera
No tengo ningún problema en agotar uno y pasar al siguiente
Puedo pasarme el día así, haciéndoles implementar funciones o clases específicas de mi código
Como sí sé escribir y diseñar software de verdad, no necesito estar ejecutando agentes en bucle para que hagan todo en un solo día
Solo con chatbots web y copiar/pegar puedo generar miles de líneas de código por hora, manteniendo a la vez un modelo mental fuerte del código y pudiendo cambiar yo mismo lo que haga falta
De hecho, esta mañana hice justo eso en un proyecto en Python
Como yo había diseñado lo que necesitaba, cada generación consistía en pedir una sola función, y cuando en la mañana tuve que agregar algo, fui directo al lugar correcto y lo corregí yo mismo sin preguntarle nada al chatbot
Si generas todo completo a partir de una especificación, eso no se puede hacer
Sobre todo cuando el precio oculta el costo real
Cada vez que aparece un post sobre LLM, en los comentarios siempre hay mucha gente diciendo con total seguridad que obtiene resultados tan buenos como Opus con los últimos DeepSeek/Qwen, etc., pero mi experiencia no se parece en nada a eso
Los modelos open source se vienen completamente abajo frente a Claude en cuanto les pides algo apenas complejo
Me hace sospechar que quizá estamos en una situación parecida a Linux en los 90
Funcionaba más o menos, pero en realidad no estaba nada listo para usuarios domésticos, y aun así había mucha gente que, por motivos principalmente ideológicos, te insistía en la cara que todo estaba bien
La gente en realidad está intentando hacer “el mejor software” posible
Los aceleracionistas quijotescos de la IA son una minoría ruidosa entre quienes hacen software, y elegir APIs en línea por encima de sistemas locales por lo general no es pereza del desarrollador sino una decisión en favor del usuario
Ahora mismo se puede hacer más cosas y hacerlas mejor con IA privada que con modelos locales
Eso es inevitable
Incluso si la IA local mejora, estar en la frontera del rendimiento de LLM muchas veces sigue siendo una inversión que vale la pena
La mayoría de la gente no adopta algo si el producto no es de primer nivel y además extremadamente conveniente
Ese estándar es alto, y la IA local muchas veces no lo cumple
La insistencia de HN en tratar a todos los usuarios como si fueran fanáticos de Linux open source, priorización extrema de la privacidad y self-hosting da una pena ajena tremenda por lo anticuada que se ve