1 puntos por GN⁺ 2025-02-25 | 2 comentarios | Compartir por WhatsApp

Anuncio

  • Se anunciaron Claude 3.7 Sonnet y Claude Code. Claude 3.7 Sonnet es el primer modelo híbrido de razonamiento del mercado, que ofrece respuestas rápidas y pensamiento paso a paso. Los usuarios de la API pueden ajustar con precisión el tiempo de razonamiento del modelo.
  • Claude 3.7 Sonnet muestra un rendimiento especialmente sólido en programación y desarrollo web frontend. Claude Code es una herramienta de línea de comandos que permite delegar tareas de ingeniería directamente desde la terminal y se ofrece como una vista previa de investigación limitada.
  • Claude 3.7 Sonnet está disponible en todos los planes de Claude, así como en la API de Anthropic, Amazon Bedrock y Vertex AI de Google Cloud. El modo de pensamiento extendido está disponible en todas las plataformas excepto en el nivel gratuito de Claude.

Claude 3.7 Sonnet: razonamiento de vanguardia práctico

  • Claude 3.7 Sonnet fue desarrollado con una filosofía distinta a la de los modelos de razonamiento existentes. Así como los humanos usan un solo cerebro tanto para responder rápido como para reflexionar profundamente, se considera que el razonamiento debe ser una capacidad integrada.
  • Claude 3.7 Sonnet integra en uno solo un LLM general y un modelo de razonamiento, para que el usuario pueda elegir entre respuestas normales y pensamiento profundo. En el modo de pensamiento extendido, mejora el rendimiento en matemáticas, física, programación y más.
  • Al usar Claude 3.7 Sonnet a través de la API, los usuarios pueden ajustar el presupuesto destinado al razonamiento. Esto permite controlar la velocidad y la calidad de la respuesta.
  • Claude 3.7 Sonnet se enfoca en casos de uso empresariales reales más que en problemas de matemáticas y ciencias de la computación. En las pruebas iniciales mostró resultados sobresalientes en capacidad de programación.

Claude Code

  • Claude Code es una herramienta que ayuda a los desarrolladores a buscar código, editar archivos, ejecutar pruebas y hacer commit y push de código a GitHub, entre otras tareas.
  • Claude Code es especialmente útil para desarrollo guiado por pruebas, depuración de problemas complejos y refactorizaciones a gran escala. En las pruebas iniciales redujo de forma importante el tiempo de desarrollo.
  • El objetivo de Claude Code es entender cómo los desarrolladores usan Claude para reflejarlo en futuras mejoras del modelo.

Trabajar con bases de código junto con Claude

  • Se mejoró la experiencia de programación en Claude.ai. La integración con GitHub ahora está disponible en todos los planes de Claude, lo que permite a los desarrolladores conectar directamente sus repositorios de código a Claude.
  • Claude 3.7 Sonnet se convierte en un socio poderoso para corregir errores, desarrollar funciones y redactar documentación gracias a su comprensión profunda de proyectos personales, laborales y de código abierto.

Construido con responsabilidad

  • Claude 3.7 Sonnet pasó por pruebas y evaluaciones exhaustivas en colaboración con expertos externos para garantizar seguridad, protección y confiabilidad.
  • Se proporciona una system card que aborda nuevos resultados de seguridad. Incluye evaluaciones de políticas de escalamiento responsable que pueden ser aplicadas por otros laboratorios e investigadores de IA.

Hacia el futuro

  • Claude 3.7 Sonnet y Claude Code representan un paso importante hacia sistemas de IA capaces de ampliar las capacidades humanas. Expanden los logros humanos mediante razonamiento profundo, trabajo autónomo y colaboración efectiva.
  • Esperan que los usuarios exploren nuevas funciones y creen cosas nuevas, y agradecen la retroalimentación para seguir mejorando.

2 comentarios

 
GN⁺ 2025-02-25
Opiniones en Hacker News
  • Claude 3.7 Sonnet registró 60.4% en el leaderboard multilenguaje de Aider

    • Logró una puntuación alta incluso sin "thinking" y superó la marca de Sonnet 3.5
    • Aider 0.75.0 es compatible con 3.7 Sonnet
    • Pronto saldrán el soporte para thinking y los resultados del benchmark
  • Boris, del equipo de Claude Code, responderá preguntas sobre el producto

  • El benchmark de Kagi LLM fue actualizado con Sonnet 3.7 en modo de propósito general y modo thinking

    • Está evaluado como el segundo LLM de propósito general más potente, después de Gemini 2.0 pro
    • En modo thinking está a un nivel similar a o1-mini y o3-mini
    • En general, ofrece alta calidad y velocidad al mismo precio
    • Se activará en Kagi Assistant dentro de 24 horas
  • Hay una función divertida que permite analizar perfiles de HN

    • La están usando para probar el humor del nuevo modelo
  • OpenAI está enfocándose en cómo se usan los LLM en negocios reales

    • Apunta al "modelo más inteligente", pero en la práctica se usa sobre todo para apoyo al estudio, transformación de datos y escritura de código
    • Es importante equilibrar "inteligencia" y "practicidad"
  • Tiene sentido que Anthropic se enfoque en código

    • Da curiosidad ver cómo quedará el competidor de Devin
  • Actualizaron Cursor a la versión más reciente y añadieron "claude-3.7-sonnet" a la lista de modelos

    • "claude-3.7-sonnet-thinking" también funciona
    • Pronto se añadirá una función para controlar el tiempo de thinking
  • La primera interacción con Claude 3.7 Sonnet fue muy impresionante

    • Ayudó a resolver un problema con funciones de páginas de CloudFlare
    • Claude 3.7 identificó el problema con precisión y propuso una solución
  • Claude reescribió la mitad de una tesis de licenciatura en 30 segundos

    • Gemini Flash 2 falló
  • o1 pro mostró resultados sorprendentes varias veces

    • Ayudó a revisar código complejo de MCU
    • o1 pro entendió código que usaba SPI y señaló el problema
    • El modo thinking de Claude 3.7 no fue tan útil
    • o1 pro ayudó a resolver un problema de VPN IPsec
    • Lo están usando comparándolo con ChatGPT y Claude
 
riskatcher 2025-02-25

Compararlo con flash 2 es difícil porque la diferencia de precio es demasiado grande... queda justo a medio camino entre o1pro y o3-mini