ocap - un grabador de alto rendimiento que registra todo en el escritorio
(github.com/open-world-agents)Es un grabador de código abierto, ocap (Omnimodal CAPture), creado para recopilar datos de escritorio para entrenar agentes de IA, pero que también puede usarse para fines generales.
Las herramientas de grabación existentes, como OBS, solo guardan video o no pueden guardar varios tipos de datos sincronizados. Para el entrenamiento de IA, se necesitan datos sincronizados que incluyan hasta "cuándo el usuario presionó qué tecla, hacia dónde movió el mouse y qué ventana estaba activa". Fue creado para resolver eso.
Características:
- Registra video de pantalla + audio + eventos de teclado/mouse + eventos de ventana, sincronizados con precisión de nanosegundos
- Codificación acelerada por hardware (H265/HEVC, GPU NVIDIA)
- Iniciar/detener grabación con un solo comando:
ocap my-recording→ Ctrl+C - La lógica principal está contenida en un solo archivo Python (~400 líneas), lo que facilita la personalización
- Basado en GStreamer, con una estructura que permite extenderlo a Linux/macOS
- Salida: .mkv (video) + .mcap (registro de eventos, formato MCAP ya validado en robótica)
Instalación:
conda install open-world-agents::gstreamer-bundle
pip install ocap
O también puedes descargar el zip desde la página de lanzamientos y ejecutar run.bat.
Originalmente se desarrolló para el proyecto de investigación D2E (https://worv-ai.github.io/d2e/), que entrena Embodied AI con datos de escritorio, pero como también puede usarse como una herramienta de grabación de escritorio de uso general, se separó como un paquete independiente.
Por ahora solo es compatible con entornos Windows + GPU NVIDIA, y el soporte para GPU AMD/Intel u otros sistemas operativos está estructurado de forma que basta con cambiar el pipeline de GStreamer.
GitHub: https://github.com/open-world-agents/ocap
PyPI: https://pypi.org/project/ocap/
Aún no hay comentarios.