18 puntos por humblebee 2025-02-25 | 5 comentarios | Compartir por WhatsApp

Anthropic lanzó Claude 3.7 Sonnet, su modelo más inteligente hasta la fecha. Este modelo es el primer modelo híbrido de razonamiento del mercado, es decir, puede ofrecer tanto respuestas inmediatas como un proceso de pensamiento paso a paso visible para el usuario.

Características principales:

  • Muestra una gran mejora de rendimiento en programación y desarrollo web frontend
  • Introduce la nueva herramienta de línea de comandos Claude Code; los desarrolladores pueden delegar tareas de ingeniería directamente a Claude desde la terminal
  • Disponible en todos los planes de Claude (Free, Pro, Team, Enterprise), así como en la API de Anthropic, AWS Bedrock y Google Cloud Vertex AI
  • El modo de pensamiento extendido está disponible en todas las plataformas excepto en el nivel gratuito
  • El precio es el mismo que el del modelo anterior: $3 por millón de tokens de entrada y $15 por millón de tokens de salida (incluyendo tokens de razonamiento)

Mejoras de rendimiento:

  • Alcanzó el mejor rendimiento en SWE-bench Verified y TAU-bench
  • En pruebas iniciales de Cursor, Cognition, Vercel, Replit y Canva, demostró excelentes capacidades para manejar bases de código complejas, usar herramientas avanzadas, planificar y modificar código, y actualizar todo el stack
  • Mostró generación de código a nivel de producción y reducción de errores
  • Mejoras en matemáticas, física y capacidad de seguir instrucciones

Claude Code:

  • Puede buscar y leer código, editar archivos, escribir y ejecutar pruebas, hacer commit y push de código en GitHub, y usar herramientas de línea de comandos
  • Especialmente útil para desarrollo guiado por pruebas, depuración de problemas complejos y refactorizaciones a gran escala
  • Completa de una sola vez tareas que normalmente toman más de 45 minutos, reduciendo de forma significativa el tiempo de desarrollo
  • Actualmente disponible como vista previa de investigación limitada

Integración con GitHub:

  • La integración con GitHub ahora está disponible en todos los planes de Claude
  • Se basa en una comprensión más profunda de proyectos personales, de trabajo y de código abierto
  • Actúa como un socio sólido para corrección de errores, desarrollo de funciones y redacción de documentación
  • Brinda soporte en los proyectos importantes de GitHub del usuario

En cuanto a mejoras de seguridad, las respuestas de rechazo innecesarias se redujeron en un 45% frente al modelo anterior, y ahora puede distinguir con mayor precisión entre solicitudes dañinas e inofensivas.

5 comentarios

 
yeorinhieut 2025-02-25

Parece que también lo agregaron a Perplexity.
Pero al parecer todavía no se puede usar el razonamiento..

 
bearmett 2025-02-25

Instalé y probé Claude Code, y le pregunté el resumen de dos proyectos como en el video.

Total cost: $0.1151
Total cost: $0.0855

Se usan unos 0.2 dólares, ¿no...?

Si el ejemplo del video fuera una tarea que toma más de 45 minutos, parece que habría resultado bastante cara.

 
riskatcher 2025-02-25

Es carísimo, no rinde en relación calidad-precio. En uso real, o3-mini hasta parece mejor, pero si lo vas a usar para programación, como la etapa de razonamiento es corta y hay que resolver lo de los tokens intermedios, para ese propósito parece de lo mejor. El precio también...

 
humblebee 2025-02-25

Modo de pensamiento extendido (Thinking Mode - Extended)

  • Función que permite al modelo pensar con más profundidad mediante autorreflexión antes de responder
  • Mejora del rendimiento en diversas tareas como matemáticas, física, seguimiento de instrucciones y programación
  • Los usuarios de la API pueden controlar cuánto tiempo piensa el modelo, hasta un máximo de 128K tokens
  • Ofrece flexibilidad para ajustar el equilibrio entre velocidad (costo) y calidad de la respuesta
  • Así como los humanos procesan respuestas rápidas y pensamiento profundo con el mismo cerebro, ofrece dos modos en un solo modelo sin necesidad de uno separado

Parece que eligieron un enfoque distinto al de modelos de razonamiento separados como o1 de OpenAI o R1 de DeepSeek. Da la impresión de que integraron dos modos dentro de un único modelo.

Además, al preguntarle directamente al modelo por la fecha de corte de los datos de entrenamiento, responde que es a finales de octubre de 2024~!