Es más usable de lo que uno piensa, pero como el soporte de terceros es mejor en Mac, al final no termino usándolo.. jaja

 

¡Gracias por la buena observación!

Creo que la expresión “convertirlo en un problema estructural” sonó un poco abstracta.
Lo que quise decir en el texto fue:

Before: "etiquetado = intervención humana = costo proporcional"
After: "etiquetado = pipeline = costos variables mínimos después de la configuración inicial"

Es decir, se transformó un problema de costo puntual en un problema de construcción de sistema.
También es válida la expresión “se creó un nuevo modelo de trabajo”.
Más precisamente, creo que podría decirse como “reemplazamos el trabajo humano por un pipeline de software” jaja

 

¡Hola! Gracias por leer el artículo, me alegra que te haya parecido interesante.

Coincido con lo que mencionas. Es cierto que el VLM tiene mejor rendimiento que YOLO y que una clasificación errónea de YOLO puede hacer que se pierda información importante. Aun así, decidimos incluir la etapa de recorte por las siguientes razones.

La primera es el costo. Si se usa la imagen completa directamente en el VLM, el costo aumenta de forma drástica por el procesamiento de imágenes de alta resolución. Esa fue la razón principal para introducir el recorte.

La segunda es la velocidad de procesamiento.
Para procesar datasets grandes en un tiempo realista, esta mejora de velocidad era indispensable.

La tercera es la mejora en la precisión.
El recorte, de hecho, puede aumentar la precisión del juicio del VLM. En una imagen completa pueden aparecer juntos fondos complejos, varios personajes, texto, adornos, etc., y eso puede confundir al VLM sobre qué objeto debe evaluar. Por ejemplo, puede darse el caso de que no quede claro si se trata de un personaje en un póster del fondo, del peluche principal o de otro personaje al lado. En cambio, al usar recortes, el objeto objetivo queda claramente aislado, lo que permite que el VLM se concentre solo en ese objeto al evaluarlo.

Por supuesto, esto no resuelve por completo los problemas de falsas negativas o falsas positivas de YOLO. Sin embargo, configuramos el confidence threshold de YOLO en 0.5 para aumentar el recall y luego mitigamos ese problema filtrando las falsas detecciones en las etapas posteriores de filtrado con CLIP y verificación con Verifier. Además, como procesamos grandes volúmenes de datos, incluso si se producen algunas omisiones, estadísticamente pudimos asegurar una cantidad suficiente de datos de alta calidad.

En conclusión, el objetivo era construir un pipeline práctico encontrando un punto de equilibrio entre costo, velocidad y precisión, y la etapa de recorte tuvo un efecto positivo en los tres aspectos.

 

Hola, winterjung, gracias por interesarte en mi trabajo. Para la confiabilidad uso el valor de confidence que devuelve directamente el VLM (GPT-4o). Como mencionaste, existe la limitación de que no está claro en qué se basa GPT-4o para calcular confidence y que no es posible reproducirlo. Aun así, desde una perspectiva práctica, lo implementé de modo que en la etapa final de verificación (Verifier) se decida si validar o no en función de un umbral, asumiendo que el confidence que devuelve el VLM es razonablemente preciso.

No tenía idea de que el modelo got-4o-mini tuviera tokens de entrada de imagen excesivamente caros; gracias por avisarme. Lo reflejé de inmediato en el código jaja

 

Parece que critica por criticar

 

Sí, este es un artículo para explicar la arquitectura de cómo realmente se construye el producto.
Aprovechando que lo estabilicé en la versión 1.0 y ordené la documentación, también organicé el texto.

 

También está bien pasarse por completo a C3. Como es un proyecto que mantiene la sintaxis de C con cambios mínimos y añade funciones modernas, la migración también es sencilla.

 
xguru 2026-01-03 | comentario padre | en: La carta de 2025 (danwang.co)

Por el título, probablemente no les dé ganas de hacer clic… pero de los textos sobre la relación entre EE. UU. y China que he leído últimamente, este fue el más entretenido.

 
ffdd270 2026-01-03 | comentario padre | en: La carta de 2025 (danwang.co)

Esto está divertido…

 

¿Cuál sería la diferencia entre esa discusión y un issue? Un issue no es un “bug”. Ya sea un bug, una propuesta de funcionalidad o un PR… si hay algo para debatir, entonces es un issue.
Si no vale la pena discutirlo, se puede cerrar.

 

Lo instalé el año pasado en una Galaxy Book, pero no sé si fue por un problema de compatibilidad, porque se quedaba congelada a cada rato.

 

Rich - una biblioteca de Python para dar formato vistoso a la terminal sigue siendo lo mejor.

Si lo que buscas es solo la función de tablas, también están opciones como PrettyTable o Tabulate.

 

Se ve práctico, ¿qué hay para Python?

 

Wow, también sorprende que haya empezado en Japón. Pensé que algo así iba a pasar primero en Europa o en Estados Unidos.

 

El año pasado hubo muchas mejoras en HiDPI y HDR, y ahora parece que el soporte es mejor que en Windows.

 

La verdad me pregunto por qué 4o mini tiene ese precio; según entiendo, el 4o normal es más barato jajaja

 

Obviamente, yo estaba pensando equivocadamente que sería un núcleo ARM.
Gracias por la amable respuesta

 

¡El boom de Linux ya viene..! Llevo usando una PC con Linux desde la secundaria, hace ya como 20 años.
Desde hace unos 5 años cambié mi laptop principal a Fedora y me quedé ahí.
También tengo una desktop con Windows, pero fuera de ciertos juegos casi no hay motivo para prenderla.
Incluso para páginas de instituciones públicas, en vez de usar la desktop con Windows, hasta resulta mejor correrlas en un entorno virtual dentro de Bottle, porque así puedes meter todos esos programas de seguridad innecesarios únicamente en la máquina virtual.