10 puntos por GN⁺ 2024-10-23 | 1 comentarios | Compartir por WhatsApp
  • Anthropic anunció una versión mejorada de Claude 3.5 Sonnet y un nuevo modelo, Claude 3.5 Haiku
  • Se incorpora en beta pública la función de uso de computadora (computer use), que permite indicarle a Claude que use una computadora como lo haría una persona
  • Mejora el rendimiento general manteniendo el precio y la velocidad actuales

Introducción a la función Computer Use

  • Los desarrolladores pueden indicar a Claude, a través de la API, que use una computadora real como si fuera una persona
  • Puede realizar tareas como ver la pantalla, mover el cursor, hacer clic en botones y escribir texto
  • Por ahora está en una etapa experimental, por lo que a veces puede resultar incómodo y presentar errores
  • Asana, Canva, Cognition, DoorDash, Replit y The Browser Company ya comenzaron a explorar estas capacidades para realizar tareas que requieren decenas de pasos, y a veces cientos

Claude 3.5 Sonnet: capacidad de ingeniería de software de nivel líder en la industria

  • El Claude 3.5 Sonnet actualizado muestra mejoras amplias en los benchmarks de la industria, con aumentos de rendimiento especialmente fuertes en tareas de codificación con agentes y uso de herramientas
  • En SWE-bench Verified, su rendimiento subió de 33.4% a 49.0%, logrando una puntuación superior a la de cualquier modelo disponible públicamente
  • En TAU-bench, también mejoró de 62.6% a 69.2% en el dominio minorista, y de 36.0% a 46.0% en el dominio de aerolíneas
  • Según la retroalimentación inicial de clientes como GitLab, Cognition y The Browser Company, Claude 3.5 Sonnet representa un salto importante en la codificación impulsada por IA

Claude 3.5 Haiku: combina tecnología de punta con costo accesible y velocidad

  • Claude 3.5 Haiku es la siguiente generación de su modelo más rápido
  • Mejora en todas las áreas técnicas con el mismo costo y una velocidad similar a la del Haiku de la generación anterior, y supera al anterior modelo tope de gama, Claude 3 Opus
  • Destaca especialmente en tareas de programación, con 40.6% en SWE-bench Verified, superando a muchos agentes que usan modelos públicos de última generación, incluido el Claude 3.5 Sonnet original y GPT-4o
  • Gracias a su baja latencia, mejor seguimiento de instrucciones y uso de herramientas más preciso, es adecuado para productos orientados al usuario, tareas de subagentes especializados y generación de experiencias personalizadas a partir de grandes volúmenes de datos

Enseñando a Claude a navegar una computadora de forma responsable

  • Con la función de uso de computadora están intentando algo fundamentalmente nuevo
  • En lugar de crear herramientas específicas para completar tareas individuales, le están enseñando a Claude habilidades generales para usar una computadora
  • Los desarrolladores pueden usar estas capacidades iniciales para automatizar procesos repetitivos, crear y probar software, y realizar tareas abiertas como investigación
  • En OSWorld, Claude 3.5 Sonnet obtuvo 14.9% en la categoría solo con capturas de pantalla, superando ampliamente la siguiente mejor puntuación de un sistema de IA, que fue 7.8%
  • La función de uso de computadora aún es imperfecta y podría abrir nuevas vías para amenazas como spam, desinformación y fraude, por lo que están adoptando un enfoque proactivo para un despliegue seguro

Perspectivas futuras de Computer Use

  • Aprender del despliegue inicial de esta tecnología, que todavía está en una fase temprana, ayudará a comprender mejor el potencial y el impacto de sistemas de IA cada vez más potentes
  • Invitan a explorar la beta pública de los nuevos modelos y de la función de uso de computadora, y a compartir retroalimentación
  • Creen que estos avances abrirán nuevas posibilidades para la forma de colaborar con Claude

Opinión de GN⁺

  • La función de uso de computadora se parece a RPA (Robotic Process Automation), pero parece ofrecer un enfoque más flexible y más general
  • Se espera que ayude mucho a automatizar tareas repetitivas en empresas, aunque al inicio conviene empezar por trabajos de baja criticidad considerando la posibilidad de errores
  • Se prevé que esta función compita con herramientas RPA existentes como Power Automate y UiPath, y que con el tiempo la frontera entre IA y RPA se vuelva aún más difusa
  • Desde el punto de vista de seguridad, otorgarle a una IA permisos para controlar una computadora puede introducir nuevos riesgos, por lo que probablemente se requerirán controles de acceso estrictos y monitoreo

1 comentarios

 
GN⁺ 2024-10-23
Comentarios de Hacker News
  • Sonnet ocupó el primer lugar en la tabla de clasificación de edición de código de aider con 84.2%. Al usar el modo "architect", establece el SOTA en 85.7%. Usa DeepSeek como modelo "editor"
    • Sonnet también registró un SOTA de 92.1% en un benchmark de refactorización más exigente
  • Claude 3.5 Opus ya no se menciona en la documentación oficial de Anthropic. Esto sugiere que su lanzamiento se retrasó o fue cancelado
  • Como alguien que desarrolla productos AI SaaS, pensaba que la integración de APIs resolvería la mayor parte de la automatización con IA, pero en la práctica me di cuenta de que mucho software interactúa directamente con personas
    • Por ejemplo, mi cuñado, que es médico, usa software personalizado con formularios MFC en Windows, y el contador usa un software potente llamado Cantax
    • Si estás en el espacio SaaS, terminas creyendo que todo el mundo debería tener APIs backend cliente-servidor, pero en realidad no es así
  • La capacidad de uso de computadora es muy impresionante
    • No se trata simplemente de un agente que usa la computadora como herramienta, sino de un agente de razonamiento autónomo que, si le fijas un objetivo, usa la computadora y el navegador para lograrlo
    • Podría superar a OpenAI GPT-o1
  • Es interesante el enfoque de Anthropic en la seguridad de IA. La IA tiene la capacidad de usar la computadora y el navegador para alcanzar los objetivos solicitados
  • Claude ha sido superior a ChatGPT durante los últimos 8 meses, pero tiene una base de usuarios menor
  • La diferencia entre Sonnet y Opus no está clara. En el sitio web de Anthropic, Opus aparece como el modelo más avanzado, pero en otras partes dicen que Sonnet es el modelo más rápido y avanzado
    • Según pruebas manuales, sentí que Opus daba respuestas ligeramente mejores, aunque no puedo asegurarlo
  • La demo de programación con Claude necesita más discusión
    • Es posible que pronto lleguen la verdadera programación para usuario final y la programación por parte de gerentes de producto
  • Con la nueva API ocurrieron cosas curiosas durante el entrenamiento
    • Claude detuvo una grabación de pantalla de larga duración y se perdieron todos los videos, o durante una demo de programación se puso a ver fotos del Parque Nacional Yellowstone