Anthropic presenta la función Computer Use y los modelos Claude 3.5 Sonnet/Haiku

(anthropic.com)

10 puntos por GN⁺ 2024-10-23 | 1 comentarios | Compartir por WhatsApp

Anthropic anunció una versión mejorada de Claude 3.5 Sonnet y un nuevo modelo, Claude 3.5 Haiku
Se incorpora en beta pública la función de uso de computadora (computer use), que permite indicarle a Claude que use una computadora como lo haría una persona
Mejora el rendimiento general manteniendo el precio y la velocidad actuales

Introducción a la función Computer Use

Los desarrolladores pueden indicar a Claude, a través de la API, que use una computadora real como si fuera una persona
Puede realizar tareas como ver la pantalla, mover el cursor, hacer clic en botones y escribir texto
Por ahora está en una etapa experimental, por lo que a veces puede resultar incómodo y presentar errores
Asana, Canva, Cognition, DoorDash, Replit y The Browser Company ya comenzaron a explorar estas capacidades para realizar tareas que requieren decenas de pasos, y a veces cientos

Claude 3.5 Sonnet: capacidad de ingeniería de software de nivel líder en la industria

El Claude 3.5 Sonnet actualizado muestra mejoras amplias en los benchmarks de la industria, con aumentos de rendimiento especialmente fuertes en tareas de codificación con agentes y uso de herramientas
En SWE-bench Verified, su rendimiento subió de 33.4% a 49.0%, logrando una puntuación superior a la de cualquier modelo disponible públicamente
En TAU-bench, también mejoró de 62.6% a 69.2% en el dominio minorista, y de 36.0% a 46.0% en el dominio de aerolíneas
Según la retroalimentación inicial de clientes como GitLab, Cognition y The Browser Company, Claude 3.5 Sonnet representa un salto importante en la codificación impulsada por IA

Claude 3.5 Haiku: combina tecnología de punta con costo accesible y velocidad

Claude 3.5 Haiku es la siguiente generación de su modelo más rápido
Mejora en todas las áreas técnicas con el mismo costo y una velocidad similar a la del Haiku de la generación anterior, y supera al anterior modelo tope de gama, Claude 3 Opus
Destaca especialmente en tareas de programación, con 40.6% en SWE-bench Verified, superando a muchos agentes que usan modelos públicos de última generación, incluido el Claude 3.5 Sonnet original y GPT-4o
Gracias a su baja latencia, mejor seguimiento de instrucciones y uso de herramientas más preciso, es adecuado para productos orientados al usuario, tareas de subagentes especializados y generación de experiencias personalizadas a partir de grandes volúmenes de datos

Enseñando a Claude a navegar una computadora de forma responsable

Con la función de uso de computadora están intentando algo fundamentalmente nuevo
En lugar de crear herramientas específicas para completar tareas individuales, le están enseñando a Claude habilidades generales para usar una computadora
Los desarrolladores pueden usar estas capacidades iniciales para automatizar procesos repetitivos, crear y probar software, y realizar tareas abiertas como investigación
En OSWorld, Claude 3.5 Sonnet obtuvo 14.9% en la categoría solo con capturas de pantalla, superando ampliamente la siguiente mejor puntuación de un sistema de IA, que fue 7.8%
La función de uso de computadora aún es imperfecta y podría abrir nuevas vías para amenazas como spam, desinformación y fraude, por lo que están adoptando un enfoque proactivo para un despliegue seguro

Perspectivas futuras de Computer Use

Aprender del despliegue inicial de esta tecnología, que todavía está en una fase temprana, ayudará a comprender mejor el potencial y el impacto de sistemas de IA cada vez más potentes
Invitan a explorar la beta pública de los nuevos modelos y de la función de uso de computadora, y a compartir retroalimentación
Creen que estos avances abrirán nuevas posibilidades para la forma de colaborar con Claude

Opinión de GN⁺

La función de uso de computadora se parece a RPA (Robotic Process Automation), pero parece ofrecer un enfoque más flexible y más general
Se espera que ayude mucho a automatizar tareas repetitivas en empresas, aunque al inicio conviene empezar por trabajos de baja criticidad considerando la posibilidad de errores
Se prevé que esta función compita con herramientas RPA existentes como Power Automate y UiPath, y que con el tiempo la frontera entre IA y RPA se vuelva aún más difusa
Desde el punto de vista de seguridad, otorgarle a una IA permisos para controlar una computadora puede introducir nuevos riesgos, por lo que probablemente se requerirán controles de acceso estrictos y monitoreo

1 comentarios

GN⁺ 2024-10-23

Comentarios de Hacker News

Sonnet ocupó el primer lugar en la tabla de clasificación de edición de código de aider con 84.2%. Al usar el modo "architect", establece el SOTA en 85.7%. Usa DeepSeek como modelo "editor"
- Sonnet también registró un SOTA de 92.1% en un benchmark de refactorización más exigente
Claude 3.5 Opus ya no se menciona en la documentación oficial de Anthropic. Esto sugiere que su lanzamiento se retrasó o fue cancelado
Como alguien que desarrolla productos AI SaaS, pensaba que la integración de APIs resolvería la mayor parte de la automatización con IA, pero en la práctica me di cuenta de que mucho software interactúa directamente con personas
- Por ejemplo, mi cuñado, que es médico, usa software personalizado con formularios MFC en Windows, y el contador usa un software potente llamado Cantax
- Si estás en el espacio SaaS, terminas creyendo que todo el mundo debería tener APIs backend cliente-servidor, pero en realidad no es así
La capacidad de uso de computadora es muy impresionante
- No se trata simplemente de un agente que usa la computadora como herramienta, sino de un agente de razonamiento autónomo que, si le fijas un objetivo, usa la computadora y el navegador para lograrlo
- Podría superar a OpenAI GPT-o1
Es interesante el enfoque de Anthropic en la seguridad de IA. La IA tiene la capacidad de usar la computadora y el navegador para alcanzar los objetivos solicitados
Claude ha sido superior a ChatGPT durante los últimos 8 meses, pero tiene una base de usuarios menor
La diferencia entre Sonnet y Opus no está clara. En el sitio web de Anthropic, Opus aparece como el modelo más avanzado, pero en otras partes dicen que Sonnet es el modelo más rápido y avanzado
- Según pruebas manuales, sentí que Opus daba respuestas ligeramente mejores, aunque no puedo asegurarlo
La demo de programación con Claude necesita más discusión
- Es posible que pronto lleguen la verdadera programación para usuario final y la programación por parte de gerentes de producto
Con la nueva API ocurrieron cosas curiosas durante el entrenamiento
- Claude detuvo una grabación de pantalla de larga duración y se perdieron todos los videos, o durante una demo de programación se puso a ver fotos del Parque Nacional Yellowstone

Anthropic presenta la función Computer Use y los modelos Claude 3.5 Sonnet/Haiku

Introducción a la función Computer Use

Claude 3.5 Sonnet: capacidad de ingeniería de software de nivel líder en la industria

Claude 3.5 Haiku: combina tecnología de punta con costo accesible y velocidad

Enseñando a Claude a navegar una computadora de forma responsable

Perspectivas futuras de Computer Use

Opinión de GN⁺

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News