¿La entrada basada en píxeles es mejor que el texto? La pregunta que Karpathy planteó sobre el paper de DeepSeek-OCR

(twitter.com/karpathy)

3 puntos por GN⁺ 2025-10-24 | 1 comentarios | Compartir por WhatsApp

El paper de DeepSeek-OCR publicado recientemente explora la posibilidad de que los modelos de lenguaje grandes (LLM) puedan entrenarse recibiendo píxeles de imagen directamente como entrada en lugar de texto
Este enfoque propone omitir la etapa tradicional de OCR (reconocimiento óptico de caracteres) y pasar la información visual al modelo tal como está
Al mencionar este paper, Karpathy plantea la duda de si una entrada en píxeles puede ofrecer un contexto más rico que los tokens de texto
Esta idea se conecta con la dirección de avance de la IA multimodal y explora experimentalmente si los modelos de lenguaje pueden internalizar capacidades de comprensión visual
Esta discusión es vista como una línea de investigación importante que podría redefinir en el futuro la estructura de entrada y el paradigma de entrenamiento de los LLM

Conceptos clave del paper DeepSeek-OCR

DeepSeek-OCR propone una arquitectura de modelo de lenguaje grande que procesa directamente los datos de píxeles de imágenes de documentos en lugar de usar entradas tradicionales basadas en texto
- Los sistemas OCR tradicionales extraen el texto de una imagen y luego lo envían al modelo de lenguaje, pero en ese proceso se pierde la forma de los caracteres, el diseño y el contexto visual
- Para reducir esa pérdida, DeepSeek-OCR usa información visual a nivel de píxel tal como está como entrada del modelo
El modelo está diseñado para comprender al mismo tiempo diversos elementos visuales dentro de una imagen, como letras, tablas, fórmulas y diagramas
- Con ello, puede realizar no solo reconocimiento de texto, sino también comprensión de la estructura documental e inferencia semántica

El planteamiento de Karpathy

En su hilo de Twitter, Karpathy menciona el paper al plantear la pregunta: “¿Los píxeles son una mejor entrada que el texto?”
- Señala que el método actual, en el que los LLM aprenden solo con tokens de texto, puede provocar pérdida de información
- En particular, comenta que si un modelo de lenguaje pudiera aprender directamente el contexto visual, sería posible una arquitectura de aprendizaje integrada que omita la etapa de OCR
Karpathy evalúa que este enfoque tiene potencial para mejorar la capacidad de generalización del modelo y su comprensión multimodal
- Aun así, también señala limitaciones prácticas, como el alto costo computacional de la entrada en píxeles y la dificultad de construir datasets a gran escala

Significado técnico e impacto potencial

La entrada basada en píxeles tiene la ventaja de una mayor densidad de información y conservación del contexto visual frente a la entrada basada en texto
- Por ejemplo, en documentos con tablas o fórmulas, la conversión a texto puede hacer que se pierda información estructural, mientras que la entrada en píxeles la mantiene intacta
Por otro lado, la entrada en píxeles también viene acompañada de problemas como aumento en el número de parámetros del modelo, mayor costo de entrenamiento y menor velocidad de inferencia
- Por eso, en aplicaciones reales suele mencionarse como alternativa más realista un enfoque híbrido de texto y píxeles
Esta discusión se considera una exploración experimental sobre si los LLM pueden internalizar capacidades de percepción visual y espacial más allá de la simple comprensión del lenguaje

Implicaciones para la industria

En sectores que manejan estructuras documentales complejas, como procesamiento documental, finanzas, derecho y salud, el enfoque de DeepSeek-OCR tiene gran relevancia
- Por ejemplo, podría permitir construir sistemas de IA capaces de entender tal cual la disposición visual de contratos o facturas escaneadas
La discusión de Karpathy impulsa una revisión fundamental de los formatos de entrada en IA y podría influir en la dirección futura del diseño de los LLM
Los LLM basados en entrada de píxeles podrían llevar a la sustitución o integración de la tecnología OCR y están siendo observados como un nuevo punto de inflexión para la investigación en IA multimodal

1 comentarios

GN⁺ 2025-10-24

Opiniones de Hacker News

No son píxeles sino percels. Un píxel es un punto de una imagen, pero un percel es una unidad de información perceptual que puede incluir sonido, sensaciones e incluso tokens de pensamiento
En el caso humano, se reconocen percels que combinan varios sentidos, y las redes neuronales, especialmente los LLM, no procesan los percels de forma aislada sino dentro del contexto de los percels vecinos
- Escribí una propuesta de financiamiento para investigación basada en esta idea. Los investigadores de ML la destrozaron por poco práctica, pero un neurocientífico la apoyó con mucha fuerza
  Da pena que, aunque el potencial de la investigación interdisciplinaria sea grande, sea tan difícil conseguir fondos solo porque no encaja en los marcos existentes
- El concepto me pareció tan interesante que lo busqué, pero no encontré nada. Me pregunto si es un neologismo inventado por ti o si hay algún paper o investigación de referencia
- Al final pienso que se parece al concepto de espacio latente (latent space). Es similar en el sentido de que agrupa vectores relacionados
- Para representar un percel como vector, parecería necesario mapearlo a un espacio latente separando dimensiones según cada modo perceptual: visual, auditivo, etc.
- En broma, me dan ganas de llamarlo toxel en vez de percel
“Kill the tokenizer” es una propuesta radical, pero fundamental
La tokenización no es más que un hack provisional para cuantificar el lenguaje, y distorsiona su esencia
La idea de que los píxeles puedan ser una unidad de representación más poderosa suena extraña, pero alguien tiene que intentar enfoques nuevos
- Cuando leo, proceso el texto de forma visual y también auditiva al mismo tiempo
  Por eso, la entrada basada en visión se siente como un resultado natural de la evolución
  Si en vez de renderizar texto y leerlo con OCR se codificaran muestras de voz con TTS, quizá sería más eficiente que usar píxeles. Claro, dependería de la resolución o de la tasa de muestreo
- El Byte Latent Transformer de Meta intentó reemplazar al tokenizer, pero al final no llamó mucho la atención
- Entonces surge la duda de con qué se decodificaría al momento de generar. Los tokens significan más que una simple representación visual, así que generar solo imágenes de texto no basta
- El texto tiene una densidad de información muy alta. Por eso sigue siendo eficiente como entrada
- A mí tampoco me queda claro. ¿De verdad tiene sentido que la imagen sea mejor que el texto mismo? Más bien suena a decir que mejor tomemos una captura de toda la pantalla y entrenemos también la cámara
Como investigación relacionada e interesante, hay un paper de Lex Flagel y otros en el que convierten datos de secuencias de ADN en imágenes y los entrenan con una CNN
Como resultado, la CNN pudo reproducir las métricas genéticas que antes se obtenían con análisis basados en texto
Enlace al paper
El núcleo de la discusión reciente es tomar conciencia de la abstracción con pérdida (lossy abstraction) que usamos al representar lenguaje para las máquinas
La tokenización es solo una de ellas; los píxeles o las señales de voz son otras aproximaciones
El verdadero valor de estos experimentos está en poner a prueba los supuestos de diseño de la arquitectura actual
Un enfoque que aprenda alineación multimodal podría descubrir mejores estructuras latentes o métodos de entrenamiento, y eso podría terminar mejorando los codificadores de texto existentes
En especial, en idiomas donde los límites entre palabras son ambiguos, métodos de codificación alternativos podrían ser de gran ayuda
Lo de “compresión de información → ventana de contexto corta → mayor eficiencia” que plantea el paper es interesante,
pero me hace preguntarme si, cuando cambian el tamaño de la letra, la fuente o el espaciado, la tasa de compresión no podría empeorar
Estoy de acuerdo con lo que dice Karpathy.
Una de las ventajas de los tokens de texto es que aprenden una comprensión intrínseca del método de entrada, es decir, del teclado QWERTY
Por ejemplo, “Hello” y “Hwllo” se reconocen como semánticamente cercanos gracias a que las teclas están una al lado de la otra
- Si una IA pudiera leer mediante entrada basada en píxeles, variaciones como “HWLLO” o “H3LL0” también podrían reconocerse como similares a través de la semejanza visual
  Haría falta más entrenamiento, pero al final se podría obtener una capacidad de reconocimiento más generalizada
- A mí me hace sentido el typo learning. De hecho, también lo mencioné en mi video
  Como también se pueden generar errores tipográficos en imágenes para entrenar, no creo que sea un gran problema
Cuando pienso en mí mismo, lo que escucho en mi cabeza es un flujo de palabras
No son páginas ni imágenes, sino una sensación de palabras en forma de sonido que van conectándose
La tokenización actual podría ser ineficiente. El lenguaje ya tiene una estructura de compresión de alto nivel,
pero es posible que exista una mejor forma de representarlo en el espacio latente
- En la industria también se conocen bien las limitaciones de los tokenizers. Pero implementar en la práctica una forma escalable de reemplazarlos es muy difícil
- Los modelos de imagen usan tokens de unidades más grandes. En texto también se podría crear un gran vocabulario de tokens basado en n-gramas,
  pero la arquitectura actual de los LLM es ineficiente para manejar distribuciones de salida demasiado grandes
Siento que todavía falta mucho para que este enfoque sea práctico
Cada vez que ChatGPT propone “¿lo visualizamos como imagen?”, el resultado termina lleno de alucinaciones (hallucinations)
- Pero la generación de imágenes y la entrada de imágenes son problemas completamente distintos
  Aquí se habla de convertir texto en imagen para dárselo como entrada a un LLM, no de generar imágenes
Como discusiones recientes relacionadas, están
un caso de DeepSeek-OCR corriendo en Nvidia Spark y
el proyecto DeepSeek OCR.
Ambos se discutieron activamente en octubre de 2025

¿La entrada basada en píxeles es mejor que el texto? La pregunta que Karpathy planteó sobre el paper de DeepSeek-OCR

Conceptos clave del paper DeepSeek-OCR

El planteamiento de Karpathy

Significado técnico e impacto potencial

Implicaciones para la industria

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News