- El paper de DeepSeek-OCR publicado recientemente explora la posibilidad de que los modelos de lenguaje grandes (LLM) puedan entrenarse recibiendo píxeles de imagen directamente como entrada en lugar de texto
- Este enfoque propone omitir la etapa tradicional de OCR (reconocimiento óptico de caracteres) y pasar la información visual al modelo tal como está
- Al mencionar este paper, Karpathy plantea la duda de si una entrada en píxeles puede ofrecer un contexto más rico que los tokens de texto
- Esta idea se conecta con la dirección de avance de la IA multimodal y explora experimentalmente si los modelos de lenguaje pueden internalizar capacidades de comprensión visual
- Esta discusión es vista como una línea de investigación importante que podría redefinir en el futuro la estructura de entrada y el paradigma de entrenamiento de los LLM
Conceptos clave del paper DeepSeek-OCR
- DeepSeek-OCR propone una arquitectura de modelo de lenguaje grande que procesa directamente los datos de píxeles de imágenes de documentos en lugar de usar entradas tradicionales basadas en texto
- Los sistemas OCR tradicionales extraen el texto de una imagen y luego lo envían al modelo de lenguaje, pero en ese proceso se pierde la forma de los caracteres, el diseño y el contexto visual
- Para reducir esa pérdida, DeepSeek-OCR usa información visual a nivel de píxel tal como está como entrada del modelo
- El modelo está diseñado para comprender al mismo tiempo diversos elementos visuales dentro de una imagen, como letras, tablas, fórmulas y diagramas
- Con ello, puede realizar no solo reconocimiento de texto, sino también comprensión de la estructura documental e inferencia semántica
El planteamiento de Karpathy
- En su hilo de Twitter, Karpathy menciona el paper al plantear la pregunta: “¿Los píxeles son una mejor entrada que el texto?”
- Señala que el método actual, en el que los LLM aprenden solo con tokens de texto, puede provocar pérdida de información
- En particular, comenta que si un modelo de lenguaje pudiera aprender directamente el contexto visual, sería posible una arquitectura de aprendizaje integrada que omita la etapa de OCR
- Karpathy evalúa que este enfoque tiene potencial para mejorar la capacidad de generalización del modelo y su comprensión multimodal
- Aun así, también señala limitaciones prácticas, como el alto costo computacional de la entrada en píxeles y la dificultad de construir datasets a gran escala
Significado técnico e impacto potencial
- La entrada basada en píxeles tiene la ventaja de una mayor densidad de información y conservación del contexto visual frente a la entrada basada en texto
- Por ejemplo, en documentos con tablas o fórmulas, la conversión a texto puede hacer que se pierda información estructural, mientras que la entrada en píxeles la mantiene intacta
- Por otro lado, la entrada en píxeles también viene acompañada de problemas como aumento en el número de parámetros del modelo, mayor costo de entrenamiento y menor velocidad de inferencia
- Por eso, en aplicaciones reales suele mencionarse como alternativa más realista un enfoque híbrido de texto y píxeles
- Esta discusión se considera una exploración experimental sobre si los LLM pueden internalizar capacidades de percepción visual y espacial más allá de la simple comprensión del lenguaje
Implicaciones para la industria
- En sectores que manejan estructuras documentales complejas, como procesamiento documental, finanzas, derecho y salud, el enfoque de DeepSeek-OCR tiene gran relevancia
- Por ejemplo, podría permitir construir sistemas de IA capaces de entender tal cual la disposición visual de contratos o facturas escaneadas
- La discusión de Karpathy impulsa una revisión fundamental de los formatos de entrada en IA y podría influir en la dirección futura del diseño de los LLM
- Los LLM basados en entrada de píxeles podrían llevar a la sustitución o integración de la tecnología OCR y están siendo observados como un nuevo punto de inflexión para la investigación en IA multimodal
1 comentarios
Opiniones de Hacker News
No son píxeles sino percels. Un píxel es un punto de una imagen, pero un percel es una unidad de información perceptual que puede incluir sonido, sensaciones e incluso tokens de pensamiento
En el caso humano, se reconocen percels que combinan varios sentidos, y las redes neuronales, especialmente los LLM, no procesan los percels de forma aislada sino dentro del contexto de los percels vecinos
Da pena que, aunque el potencial de la investigación interdisciplinaria sea grande, sea tan difícil conseguir fondos solo porque no encaja en los marcos existentes
“Kill the tokenizer” es una propuesta radical, pero fundamental
La tokenización no es más que un hack provisional para cuantificar el lenguaje, y distorsiona su esencia
La idea de que los píxeles puedan ser una unidad de representación más poderosa suena extraña, pero alguien tiene que intentar enfoques nuevos
Por eso, la entrada basada en visión se siente como un resultado natural de la evolución
Si en vez de renderizar texto y leerlo con OCR se codificaran muestras de voz con TTS, quizá sería más eficiente que usar píxeles. Claro, dependería de la resolución o de la tasa de muestreo
Como investigación relacionada e interesante, hay un paper de Lex Flagel y otros en el que convierten datos de secuencias de ADN en imágenes y los entrenan con una CNN
Como resultado, la CNN pudo reproducir las métricas genéticas que antes se obtenían con análisis basados en texto
Enlace al paper
El núcleo de la discusión reciente es tomar conciencia de la abstracción con pérdida (lossy abstraction) que usamos al representar lenguaje para las máquinas
La tokenización es solo una de ellas; los píxeles o las señales de voz son otras aproximaciones
El verdadero valor de estos experimentos está en poner a prueba los supuestos de diseño de la arquitectura actual
Un enfoque que aprenda alineación multimodal podría descubrir mejores estructuras latentes o métodos de entrenamiento, y eso podría terminar mejorando los codificadores de texto existentes
En especial, en idiomas donde los límites entre palabras son ambiguos, métodos de codificación alternativos podrían ser de gran ayuda
Lo de “compresión de información → ventana de contexto corta → mayor eficiencia” que plantea el paper es interesante,
pero me hace preguntarme si, cuando cambian el tamaño de la letra, la fuente o el espaciado, la tasa de compresión no podría empeorar
Estoy de acuerdo con lo que dice Karpathy.
Una de las ventajas de los tokens de texto es que aprenden una comprensión intrínseca del método de entrada, es decir, del teclado QWERTY
Por ejemplo, “Hello” y “Hwllo” se reconocen como semánticamente cercanos gracias a que las teclas están una al lado de la otra
Haría falta más entrenamiento, pero al final se podría obtener una capacidad de reconocimiento más generalizada
Como también se pueden generar errores tipográficos en imágenes para entrenar, no creo que sea un gran problema
Cuando pienso en mí mismo, lo que escucho en mi cabeza es un flujo de palabras
No son páginas ni imágenes, sino una sensación de palabras en forma de sonido que van conectándose
La tokenización actual podría ser ineficiente. El lenguaje ya tiene una estructura de compresión de alto nivel,
pero es posible que exista una mejor forma de representarlo en el espacio latente
pero la arquitectura actual de los LLM es ineficiente para manejar distribuciones de salida demasiado grandes
Siento que todavía falta mucho para que este enfoque sea práctico
Cada vez que ChatGPT propone “¿lo visualizamos como imagen?”, el resultado termina lleno de alucinaciones (hallucinations)
Aquí se habla de convertir texto en imagen para dárselo como entrada a un LLM, no de generar imágenes
Como discusiones recientes relacionadas, están
un caso de DeepSeek-OCR corriendo en Nvidia Spark y
el proyecto DeepSeek OCR.
Ambos se discutieron activamente en octubre de 2025