2 puntos por GN⁺ 2024-10-29 | 1 comentarios | Compartir por WhatsApp

Regreso a las notas manuscritas mediante la lectura y escritura a mano

  • Introducción

    • Los ingenieros de software de Google Research, Blagoj Mitrevski y Andrii Maksai, presentan un modelo que convierte fotos de escritura a mano a formato digital.
    • Este modelo puede reproducir trazos de pluma sin necesidad de equipo especializado.
    • Las notas digitales tienen ventajas como durabilidad, posibilidad de edición y facilidad de indexación, pero existe una diferencia frente a la escritura tradicional.
    • Para reducir esa brecha, se necesita una técnica de "derenderizado" que convierta la escritura a mano en tinta digital.
  • Ventajas de la tinta digital

    • Incluso quienes prefieren la escritura manuscrita tradicional pueden acceder a sus notas en formato digital.
    • Más allá del OCR, permite crear documentos libremente editables manteniendo el estilo de la escritura a mano.
    • Facilita la integración y organización con contenido digital.
  • InkSight: conversión de escritura a mano de offline a online

    • Propone un método para extraer trazos desde fotos de escritura a mano sin equipo especializado.
    • En lugar de depender de estructuras geométricas tradicionales, aprende a "leer" y "escribir" para ofrecer un rendimiento sólido en diversos escenarios.
  • Resumen general

    • El objetivo es capturar detalles de trayectoria a nivel de trazo en la escritura manuscrita.
    • Los trazos resultantes pueden guardarse en la app de notas que el usuario elija.
  • Desafíos

    • Datos supervisados limitados: obtener datos emparejados de imágenes y tinta digital es costoso y consume mucho tiempo.
    • Escalabilidad para imágenes de gran tamaño: se deben procesar de forma eficiente imágenes de entrada con distintas resoluciones y cantidades de contenido.
  • Metodología

    • Aprende a leer y escribir para generalizar la tarea de derenderizado usando como entrada imágenes con estilos diversos.
    • Sin depender de estructuras geométricas, extrae con precisión los elementos de texto y genera representaciones vectoriales similares a la forma en que escriben las personas.
  • Flujo de trabajo del sistema

    • Usa OCR para extraer cuadros delimitadores a nivel de palabra y derenderiza cada palabra por separado.
    • Mediante aumento de datos, reduce la diferencia de dominio entre imágenes sintéticas y fotos reales.
  • Modelo visión-lenguaje

    • Crea una mezcla de entrenamiento que incluye cinco tipos de tareas.
    • Cada tarea se distingue durante el entrenamiento y la inferencia mediante texto de entrada específico para esa tarea.
  • Resultados

    • Para evaluar el rendimiento del modelo, se recopiló un conjunto de datos de evaluación y se entrenaron tres variantes del modelo.
    • Las evaluaciones automáticas y humanas muestran que la salida del modelo es similar a la imagen de entrada y a la tinta digital generada por humanos.
  • Conclusión

    • Presenta el primer enfoque para convertir fotos de escritura a mano en tinta digital.
    • Propone un método que puede construirse con bloques estándar sin necesidad de modelado complejo.

Resumen de GN⁺

  • La tecnología para convertir escritura a mano a formato digital combina las ventajas de la escritura tradicional y las notas digitales para ofrecer una mejor experiencia al usuario.
  • Como esta tecnología puede ofrecer un rendimiento sólido en diversos escenarios sin equipo especializado, es muy probable que se adopte ampliamente.
  • Productos de la industria con funciones similares incluyen el smart pen de Wacom y el smartpen de Livescribe.

1 comentarios

 
GN⁺ 2024-10-29
Opiniones de Hacker News
  • Resulta interesante una aplicación que pueda convertir una letra manuscrita desprolija en una caligrafía limpia mediante un sistema

    • Podría transformar en limpio lo que se escribe rápido durante una clase
  • Había expectativa por volver a aprender a escribir a mano, pero la investigación de Google ayuda a mejorar las notas digitales

    • Me gustaría mejorar mi letra sin depender de la tecnología
  • Hay interés en la tecnología más reciente para reconocer escritura manuscrita en fotos

    • Me interesa más convertir notas escritas a mano a Markdown
  • Hace 10 años intenté OCR en inglés con tesseract, pero en idiomas no ingleses el rendimiento no era bueno

    • Es bueno ver investigación de OCR basada en transformers
  • Hay curiosidad sobre si esto podría funcionar incluso en dispositivos de bajo consumo

  • La idea de imitar la escritura humana resulta interesante

    • Implementarlo en un modelo de aprendizaje automático era el objetivo
  • Se pregunta si esta tecnología podría usarse para crear firmas o escritura falsificadas

  • Es un proyecto de investigación que podría tener un gran impacto en el ámbito educativo, en las notas digitales escritas a mano o en la preservación de documentos antiguos

  • Se está buscando una buena solución de OCR para escritura manuscrita

    • Los modelos anteriores solo funcionaban con PDF, y se quiere una solución personalizada que funcione offline
  • Se presenta un modelo que convierte fotos de escritura manuscrita a formato digital

    • También existe una visión escéptica de que podría ser una forma de que Google recopile datos