1 puntos por GN⁺ 2025-02-10 | 1 comentarios | Compartir por WhatsApp
  • Un experimento que reconoce escritura a mano en la reMarkable 2, reacciona según gestos o el contenido de la pantalla y vuelve a escribir sobre la pantalla
    • Un proyecto que explora la interacción entre escritura a mano y la pantalla

Configuración/instalación

  • Hay que configurar variables de entorno como OPENAI_API_KEY.
  • Hay que instalar y ejecutar el binario en la reMarkable.

Uso

  • Hay que iniciar ghostwriter en la reMarkable.
  • Puedes dibujar en la pantalla y tocar la esquina superior derecha para activar funciones auxiliares.
  • Durante el procesamiento se dibujan puntos, y puedes ver respuestas escritas o dibujadas.

Estado / bitácora

  • 2024-10-06: Se completó la prueba de concepto básica. La función de volver a dibujar en la pantalla no funciona bien.
  • 2024-10-07: Se implementaron gestos básicos e indicador de estado.
  • 2024-10-10: Inicio de la configuración del teclado virtual.
  • 2024-10-20: Se introdujeron la salida de texto y otros modos.
  • 2024-10-21: Se completó la compilación del release binario.
  • 2024-10-23: Refactorización del código y plan para probar nuevos modelos de Anthropic.
  • 2024-11-02: Cambio a provisión de herramientas.
  • 2024-11-07: Se añadió Claude/Anthropic.
  • 2024-11-22: Inicio del boceto del sistema de evaluación.
  • 2024-12-02: Se añadió una etapa básica de segmentación de imágenes.
  • 2024-12-15: Integración del motor.
  • 2024-12-18: Se resolvieron problemas de actualización del sistema.
  • 2024-12-19: Intento de modo VLM en red local.
  • 2024-12-22: Inicio de la construcción del sistema de evaluación.
  • 2024-12-25: Simplificación y expansión del CLI.
  • 2024-12-28: Mejoras de usabilidad.

Ideas

  • Activar solicitudes mediante gestos o contenido.
  • Enviar capturas de pantalla a un modelo de visión y mostrar el resultado en la pantalla.
  • Posibilidad de enviar eventos de teclado.
  • Construir un sistema básico de evaluación.
  • Desarrollar una biblioteca de prompts.
  • Automatizar la configuración inicial.
  • Añadir una función de generación de diagramas.
  • Añadir funciones para consultar y enviar información externa.
  • Implementar un modo de conversación.
  • Intentar usar un VLM local en red.

Material de referencia

  • Uso de recursos de Awesome reMarkable.
  • Aplicación de la tecnología de captura de pantalla de reSnap.
  • Inspiración en el dibujo de pantalla de rmkit lamp.
  • Conversión de SVG a png con resvg.
  • Creación de un dispositivo de entrada de teclado con rM-input-devices.
  • En reMarkableAI se encontró el proceso OCR→OpenAI→PDF→Device.
  • rMAI usa replicate como servicio de API de modelos en una app separada.
  • Crazy Cow es una herramienta que convierte texto en trazos de pluma.

1 comentarios

 
GN⁺ 2025-02-10
Opiniones en Hacker News
  • Soy el autor del proyecto. El proyecto sigue en marcha, y la mayor observación es la limitación de conciencia espacial de los modelos visuales

  • Está muy bueno. Da gusto ver a gente hackeando apps para la tablet reMarkable

  • Ojalá la tablet reMarkable no estuviera tan cerrada

    • Es uno de mis hardwares favoritos, y me gustaría que tuviera más apps
  • Genial

    • Llevaba meses queriendo implementar algo así. Muy bien hecho
  • Está increíble. Voy a probarlo este fin de semana

    • Había estado jugando con la idea de enviar PDFs por correo y pasarlos a un LLM para que cree tareas automáticamente al escribir pendientes
    • Este proyecto abre una mejor forma de lograr ese objetivo en tiempo real
  • Para quienes leen documentos PDF, me pregunto si el tamaño de 11 pulgadas de la reMarkable es suficiente

    • Yo tengo la versión de segunda generación de la Sony DPT de 13 pulgadas, y la experiencia de visualización es perfecta
    • Pero proyectos como este siguen atrayéndome hacia los productos de reMarkable
  • Me encanta este proyecto. Hay modelos de difusión vectorial; si el modelo decide dibujar algo, ¿qué tal si lo subcontrata mediante una llamada a herramienta?

    • Luego podría especificar un rango de coordenadas y un prompt
  • Este caso de uso que combina entrada manuscrita con LLM es excelente

    • Me pregunto qué tan bien maneja una letra desordenada y si un ajuste fino con notas personales podría mejorar el reconocimiento con el tiempo
  • Tengo una tablet boox (una tablet Android completa con pantalla eink), y algo así sería perfecto

    • Me pregunto si en 5 años el hardware móvil podrá soportar esto de forma local
  • ¿Qué tal este proyecto en los lectores electrónicos Onyx Boox basados en Android?

    • ¿Sería posible?