Anthropic lanza Claude 3.7 Sonnet
(anthropic.com)Anthropic lanzó Claude 3.7 Sonnet, su modelo más inteligente hasta la fecha. Este modelo es el primer modelo híbrido de razonamiento del mercado, es decir, puede ofrecer tanto respuestas inmediatas como un proceso de pensamiento paso a paso visible para el usuario.
Características principales:
- Muestra una gran mejora de rendimiento en programación y desarrollo web frontend
- Introduce la nueva herramienta de línea de comandos
Claude Code; los desarrolladores pueden delegar tareas de ingeniería directamente a Claude desde la terminal - Disponible en todos los planes de Claude (Free, Pro, Team, Enterprise), así como en la API de Anthropic, AWS Bedrock y Google Cloud Vertex AI
- El modo de pensamiento extendido está disponible en todas las plataformas excepto en el nivel gratuito
- El precio es el mismo que el del modelo anterior: $3 por millón de tokens de entrada y $15 por millón de tokens de salida (incluyendo tokens de razonamiento)
Mejoras de rendimiento:
- Alcanzó el mejor rendimiento en SWE-bench Verified y TAU-bench
- En pruebas iniciales de Cursor, Cognition, Vercel, Replit y Canva, demostró excelentes capacidades para manejar bases de código complejas, usar herramientas avanzadas, planificar y modificar código, y actualizar todo el stack
- Mostró generación de código a nivel de producción y reducción de errores
- Mejoras en matemáticas, física y capacidad de seguir instrucciones
Claude Code:
- Puede buscar y leer código, editar archivos, escribir y ejecutar pruebas, hacer commit y push de código en GitHub, y usar herramientas de línea de comandos
- Especialmente útil para desarrollo guiado por pruebas, depuración de problemas complejos y refactorizaciones a gran escala
- Completa de una sola vez tareas que normalmente toman más de 45 minutos, reduciendo de forma significativa el tiempo de desarrollo
- Actualmente disponible como vista previa de investigación limitada
Integración con GitHub:
- La integración con GitHub ahora está disponible en todos los planes de Claude
- Se basa en una comprensión más profunda de proyectos personales, de trabajo y de código abierto
- Actúa como un socio sólido para corrección de errores, desarrollo de funciones y redacción de documentación
- Brinda soporte en los proyectos importantes de GitHub del usuario
En cuanto a mejoras de seguridad, las respuestas de rechazo innecesarias se redujeron en un 45% frente al modelo anterior, y ahora puede distinguir con mayor precisión entre solicitudes dañinas e inofensivas.
5 comentarios
CEO de Anthropic, Dario Amodei: el modelo DeepSeek no es tan sorprendente
Parece que también lo agregaron a Perplexity.
Pero al parecer todavía no se puede usar el razonamiento..
Instalé y probé Claude Code, y le pregunté el resumen de dos proyectos como en el video.
Total cost: $0.1151
Total cost: $0.0855
Se usan unos 0.2 dólares, ¿no...?
Si el ejemplo del video fuera una tarea que toma más de 45 minutos, parece que habría resultado bastante cara.
Es carísimo, no rinde en relación calidad-precio. En uso real,
o3-minihasta parece mejor, pero si lo vas a usar para programación, como la etapa de razonamiento es corta y hay que resolver lo de los tokens intermedios, para ese propósito parece de lo mejor. El precio también...Modo de pensamiento extendido (Thinking Mode - Extended)
Parece que eligieron un enfoque distinto al de modelos de razonamiento separados como o1 de OpenAI o R1 de DeepSeek. Da la impresión de que integraron dos modos dentro de un único modelo.
Además, al preguntarle directamente al modelo por la fecha de corte de los datos de entrenamiento, responde que es a finales de octubre de 2024~!