- Anthropic anunció una versión mejorada de Claude 3.5 Sonnet y un nuevo modelo, Claude 3.5 Haiku
- Se incorpora en beta pública la función de uso de computadora (
computer use), que permite indicarle a Claude que use una computadora como lo haría una persona
- Mejora el rendimiento general manteniendo el precio y la velocidad actuales
Introducción a la función Computer Use
- Los desarrolladores pueden indicar a Claude, a través de la API, que use una computadora real como si fuera una persona
- Puede realizar tareas como ver la pantalla, mover el cursor, hacer clic en botones y escribir texto
- Por ahora está en una etapa experimental, por lo que a veces puede resultar incómodo y presentar errores
- Asana, Canva, Cognition, DoorDash, Replit y The Browser Company ya comenzaron a explorar estas capacidades para realizar tareas que requieren decenas de pasos, y a veces cientos
Claude 3.5 Sonnet: capacidad de ingeniería de software de nivel líder en la industria
- El Claude 3.5 Sonnet actualizado muestra mejoras amplias en los benchmarks de la industria, con aumentos de rendimiento especialmente fuertes en tareas de codificación con agentes y uso de herramientas
- En SWE-bench Verified, su rendimiento subió de 33.4% a 49.0%, logrando una puntuación superior a la de cualquier modelo disponible públicamente
- En TAU-bench, también mejoró de 62.6% a 69.2% en el dominio minorista, y de 36.0% a 46.0% en el dominio de aerolíneas
- Según la retroalimentación inicial de clientes como GitLab, Cognition y The Browser Company, Claude 3.5 Sonnet representa un salto importante en la codificación impulsada por IA
Claude 3.5 Haiku: combina tecnología de punta con costo accesible y velocidad
- Claude 3.5 Haiku es la siguiente generación de su modelo más rápido
- Mejora en todas las áreas técnicas con el mismo costo y una velocidad similar a la del Haiku de la generación anterior, y supera al anterior modelo tope de gama, Claude 3 Opus
- Destaca especialmente en tareas de programación, con 40.6% en SWE-bench Verified, superando a muchos agentes que usan modelos públicos de última generación, incluido el Claude 3.5 Sonnet original y GPT-4o
- Gracias a su baja latencia, mejor seguimiento de instrucciones y uso de herramientas más preciso, es adecuado para productos orientados al usuario, tareas de subagentes especializados y generación de experiencias personalizadas a partir de grandes volúmenes de datos
Enseñando a Claude a navegar una computadora de forma responsable
- Con la función de uso de computadora están intentando algo fundamentalmente nuevo
- En lugar de crear herramientas específicas para completar tareas individuales, le están enseñando a Claude habilidades generales para usar una computadora
- Los desarrolladores pueden usar estas capacidades iniciales para automatizar procesos repetitivos, crear y probar software, y realizar tareas abiertas como investigación
- En OSWorld, Claude 3.5 Sonnet obtuvo 14.9% en la categoría solo con capturas de pantalla, superando ampliamente la siguiente mejor puntuación de un sistema de IA, que fue 7.8%
- La función de uso de computadora aún es imperfecta y podría abrir nuevas vías para amenazas como spam, desinformación y fraude, por lo que están adoptando un enfoque proactivo para un despliegue seguro
Perspectivas futuras de Computer Use
- Aprender del despliegue inicial de esta tecnología, que todavía está en una fase temprana, ayudará a comprender mejor el potencial y el impacto de sistemas de IA cada vez más potentes
- Invitan a explorar la beta pública de los nuevos modelos y de la función de uso de computadora, y a compartir retroalimentación
- Creen que estos avances abrirán nuevas posibilidades para la forma de colaborar con Claude
Opinión de GN⁺
- La función de uso de computadora se parece a RPA (Robotic Process Automation), pero parece ofrecer un enfoque más flexible y más general
- Se espera que ayude mucho a automatizar tareas repetitivas en empresas, aunque al inicio conviene empezar por trabajos de baja criticidad considerando la posibilidad de errores
- Se prevé que esta función compita con herramientas RPA existentes como Power Automate y UiPath, y que con el tiempo la frontera entre IA y RPA se vuelva aún más difusa
- Desde el punto de vista de seguridad, otorgarle a una IA permisos para controlar una computadora puede introducir nuevos riesgos, por lo que probablemente se requerirán controles de acceso estrictos y monitoreo
1 comentarios
Comentarios de Hacker News