Lanzan Claude 3.7 Sonnet y Claude Code

(anthropic.com)

1 puntos por GN⁺ 2025-02-25 | 2 comentarios | Compartir por WhatsApp

Anthropic presentó Claude 3.7 Sonnet como su modelo más inteligente hasta la fecha y el primer modelo híbrido de razonamiento del mercado, capaz de ofrecer respuestas inmediatas y razonamiento visible paso a paso en un solo modelo
El nuevo modelo permite elegir entre el modo estándar y el extended thinking mode, y en la API se puede controlar el presupuesto de razonamiento en unidades de N tokens hasta el límite de salida de 128K tokens
Muestra mejoras especialmente grandes en programación y desarrollo web de frontend, y en pruebas iniciales con clientes destacó por manejar codebases complejas, actualizaciones full-stack, flujos de trabajo de agentes, creación de apps web y generación de código listo para producción
Claude Code, presentado junto con el modelo, es una herramienta de programación con agentes basada en la línea de comandos y disponible como vista previa de investigación limitada; puede encargarse de explorar código, editarlo, probarlo, realizar tareas en GitHub y usar herramientas de línea de comandos
Claude 3.7 Sonnet está disponible en Free, Pro, Team, Enterprise y en las principales plataformas de desarrollo; el modo de pensamiento extendido está disponible excepto en el nivel gratuito de Claude, y el precio se mantiene en $3 por millón de tokens de entrada y $15 por millón de tokens de salida

Razonamiento híbrido en Claude 3.7 Sonnet

Claude 3.7 Sonnet es el modelo más inteligente que Anthropic ha presentado hasta ahora, capaz de generar tanto respuestas inmediatas como razonamiento extendido paso a paso
El proceso de pensamiento extendido es visible para el usuario, y quienes usan la API pueden controlar con precisión cuánto tiempo piensa el modelo
Anthropic eligió tratar el razonamiento no como un modelo aparte, sino como una capacidad integrada del modelo frontier
- En modo estándar, funciona como una versión mejorada de Claude 3.5 Sonnet
- En extended thinking mode, realiza autorreflexión antes de responder para mejorar el rendimiento en tareas como matemáticas, física, seguimiento de instrucciones y programación
- La forma de hacer prompting funciona de manera bastante similar en ambos modos
En la API se puede especificar el presupuesto de razonamiento en N tokens, y N puede configurarse hasta el límite de salida de 128K tokens
- Este control permite intercambiar velocidad y costo por calidad de respuesta

Rendimiento en programación centrado en trabajo real

Claude 3.7 Sonnet muestra mejoras especialmente grandes en programación y desarrollo web de frontend
Anthropic afirma que redujo parcialmente el énfasis en la optimización para problemas de competencia de matemáticas y ciencias de la computación, y se enfocó más en tareas donde las empresas realmente usan LLMs
En pruebas iniciales, varias empresas evaluaron el rendimiento de programación
- Cursor evaluó que Claude volvió a estar al nivel más alto en tareas reales de programación, desde manejar codebases complejas hasta usar herramientas avanzadas
- Cognition evaluó que supera ampliamente a otros modelos en planificación de cambios de código y manejo de actualizaciones full-stack
- Vercel destacó su alta precisión en flujos de trabajo complejos con agentes
- Replit señaló que, en situaciones donde otros modelos se detenían, pudo construir desde cero apps web y dashboards sofisticados con Claude
- En la evaluación de Canva, Claude generó de forma consistente código listo para producción con mejor criterio de diseño y redujo de manera importante los errores

Claude Code en vista previa de investigación limitada

Claude Code es la primera herramienta de programación con agentes de Anthropic y está disponible como vista previa de investigación limitada
Los desarrolladores pueden delegar a Claude una parte considerable del trabajo de ingeniería desde la terminal
Claude Code realiza las siguientes tareas mientras mantiene al desarrollador involucrado en el proceso
- Buscar y leer código
- Editar archivos
- Escribir y ejecutar pruebas
- Hacer commit y push de código a GitHub
- Usar herramientas de línea de comandos
Dentro de Anthropic se está usando especialmente para desarrollo guiado por pruebas, depuración de problemas complejos y refactorizaciones a gran escala
En pruebas iniciales, Claude Code completó de una sola vez tareas que normalmente tomarían más de 45 minutos de trabajo manual, reduciendo tiempo de desarrollo y sobrecarga
En las próximas semanas se planean mejoras en la estabilidad de llamadas a herramientas, soporte para comandos de larga duración, mejor renderizado dentro de la app y una comprensión más amplia por parte de Claude de sus propias capacidades
A través de la participación en la vista previa, se puede acceder a la herramienta que Anthropic usa para crear y mejorar Claude, y la retroalimentación influirá en la dirección futura de Claude Code

Integración de Claude.ai con codebases de GitHub

También mejoró la experiencia de programación en Claude.ai, y la integración con GitHub está disponible en todos los planes de Claude
Los desarrolladores pueden conectar repositorios de código directamente a Claude
Claude 3.7 Sonnet es actualmente el mejor modelo de Anthropic para programación, y puede usarse para comprender con mayor profundidad proyectos personales, de trabajo y de código abierto para corregir bugs, desarrollar funciones y redactar documentación

Disponibilidad y precios

Claude 3.7 Sonnet está disponible en todos los planes de Claude
- Free
- Pro
- Team
- Enterprise
Claude 3.7 Sonnet también está disponible en Claude Developer Platform, Amazon Bedrock, Google Cloud Vertex AI
El extended thinking mode está disponible en todos los entornos excepto en el nivel gratuito de Claude
Tanto el modo estándar como el modo de pensamiento extendido mantienen el mismo precio que el modelo anterior
- $3 por millón de tokens de entrada
- $15 por millón de tokens de salida
- El precio de salida incluye los tokens de razonamiento

Evaluación de seguridad y system card

Claude 3.7 Sonnet pasó por pruebas y evaluaciones extensas junto con expertos externos, con el objetivo de verificar que cumple los estándares de seguridad, protección y confiabilidad
Al distinguir con más detalle entre solicitudes dañinas y solicitudes legítimas, reduce en 45% los rechazos innecesarios frente al modelo anterior {p:45}
La system card incluye nuevos resultados de seguridad en varias categorías y detalles de la evaluación de Responsible Scaling Policy
La system card aborda nuevos riesgos derivados del uso de computadoras, especialmente los ataques de prompt injection
- Anthropic incluye métodos para evaluar esa vulnerabilidad y entrenar a Claude para resistirla y mitigarla
También aborda las posibles ventajas de seguridad de los modelos de razonamiento
- La posibilidad de entender cómo toma decisiones el modelo
- Si el razonamiento del modelo es realmente confiable y estable

Detalles sobre scaffolding de evaluación y SWE-bench

La puntuación de TAU-bench se obtuvo añadiendo al prompt un texto complementario que instruye mejor el uso de la planning tool en Airline Agent Policy
- Separado del thinking mode normal, se indujo al modelo a escribir sus pensamientos mientras resolvía el problema
- Debido a ese paso adicional de razonamiento, el número máximo de pasos se elevó de 30 a 100
- La mayoría de las trayectorias terminaron en menos de 30 pasos, y solo una superó los 50 pasos
- La puntuación de TAU-bench de Claude 3.5 Sonnet corresponde a una nueva ejecución sobre el dataset actualizado tras las mejoras del dataset
En SWE-bench Verified existen varias formas de resolver tareas con agentes, y Agentless usa búsqueda de archivos, localización del punto del parche y muestreo de rechazo best-of-40 basado en pruebas de regresión
La evaluación base de Claude 3.7 Sonnet y Claude 3.5 Sonnet usa un scaffolding mínimo más simple
- El modelo decide en una sola sesión qué comandos ejecutar y qué archivos editar
- Usa una herramienta bash, una herramienta de edición de archivos basada en sustitución de cadenas y la planning tool mencionada en TAU-bench
Por limitaciones de infraestructura interna, solo 489 de los 500 casos de SWE-bench Verified pudieron resolverse realmente, y los otros 11 se contaron como fallos para mantener la comparabilidad con la tabla oficial
En los resultados de high compute se usaron intentos en paralelo, descarte de parches que rompen pruebas de regresión visibles y selección final basada en un modelo de puntuación
- Ese enfoque obtuvo 70.3% en el subconjunto de 489 tareas verificadas que funcionaron en la infraestructura interna
- En ese mismo subconjunto de 489, Claude 3.7 Sonnet alcanzó 63.7% sin scaffolding

2 comentarios

GN⁺ 2025-02-25

Opiniones en Hacker News

Claude 3.7 Sonnet obtuvo 60.4% sin thinking en la tabla de clasificación multilingüe de aider
Está empatado en tercer lugar con o3-mini-high, y le quitó a Sonnet 3.5 la mejor puntuación sin razonamiento
aider 0.75.0 agregó soporte para 3.7 Sonnet, y dicen que pronto llegarán el soporte para thinking y los resultados de benchmarks
https://aider.chat/docs/leaderboards/
https://aider.chat/HISTORY.html#aider-v0750
- Si se trata de los 225 ejercicios de programación de Exercism, me pregunto si hubo algún esfuerzo por reducir la filtración de datos en el conjunto de prueba
  Parece que esos ejercicios estaban en internet desde antes de 2023, así que es muy probable que hayan entrado en los datos de entrenamiento de modelos modernos
- Si se usan hasta 32k tokens de thinking, Sonnet 3.7 marca un nuevo récord con 64.9%
  65% Sonnet 3.7, 32k thinking / 64% R1+Sonnet 3.5 / 62% o1 high / 60% Sonnet 3.7, sin thinking / 60% o3-mini high / 57% R1 / 52% Sonnet 3.5
- Es interesante que la puntuación de formato diff correcto, que era de 99.6% en Claude 3.5, bajó a 93.3% en Claude 3.7
  Por lo que he probado con claude-code, de forma constante he tenido que hacer varios intentos para obtener un diff correcto, y espero que mejore a medida que se estabilice
- He seguido el proyecto aider durante más o menos un año tratando de entender cómo se construyen agentes de ingeniería de software
  La semana pasada, en el AI Engineering Summit de Nueva York, conocí a un staff AI engineer muy senior que estaba haciendo cosas bastante increíbles con aider, y me sorprendió mucho
  Quizá no sea apropiado publicarlo en un foro público, así que, si consigo permiso, me pregunto si hay alguna forma de compartir directamente historias de este tipo sobre proyectos reales con aider
Soy Boris, del equipo de Claude Code, y junto con @eschluntz, @catherinewu, @wolffiex y @bdr intentaremos responder la mayor cantidad posible de preguntas sobre el producto durante la próxima hora
- Hay algo que realmente quisiera que arreglaran. Cuando ingreso un prompt, el modelo genera el 90% o incluso el 100% de la respuesta, pero luego el sistema muestra un error diciendo que no puede generar la respuesta por capacidad excedida y borra incluso lo que ya había salido
  Me gustaría que permitieran acceder a la respuesta ya proporcionada, aunque esté incompleta
- Mi mayor queja es que, en la UI, con solo hacer unas pocas consultas algo intensivas, sigo chocando con el límite de uso
  Puedo usar la API de la consola, pero entonces pierdo funciones como Projects
  Me pregunto si existe la posibilidad de que estos límites aumenten pronto
- Claude es mi LLM predeterminado para todo, y aunque suene trillado, en la práctica está multiplicando varias veces el alcance de lo que puedo aprender razonablemente
  Últimamente estoy leyendo textos antiguos de filosofía sin conocimientos previos relacionados, y habría abandonado varias veces si Claude no me ayudara a desentrañar frases difíciles, debatir ideas, entender el contexto histórico y por qué fueron escritas de esa manera, e incluso compararlas con ideas nuevas
  En el trabajo también lo uso varias veces al día para desarrollo, y el modo conciso se siente realmente refrescante frente a otros LLM
  Me ayuda a encontrar bugs en codebases desconocidas, explicar stacks tecnológicos y escribir scripts bash, ahorrándome decenas de horas y mucho estrés
  Sin embargo, la estabilidad del servicio es un poco peor que en otros lugares, así que a veces tengo que cambiarme a otros modelos; me pregunto si tienen planes para mejorar eso
- Estaba haciendo una refactorización bastante desordenada de código antiguo de componentes React basados en clases que no se tocaba desde hacía 6 años, y después de usar Aider durante varios días me topé con una pared
  Justo estaba revisando el código fuente de Aider en GitHub para extraer los prompts y crear mi propio pequeño script auxiliar, así que el timing de este lanzamiento fue perfecto
  Instalé Claude Code y está avanzando rápido con este trabajo; también me gusta la interfaz y las expresiones de personalidad como “Ruminating” y “Schlepping”
  En general, un gran trabajo
- Acabo de empezar a probar la herramienta de línea de comandos, y mi primera impresión tras 5 minutos es que me gustaría que claude-code también mostrara el costo por consulta y el costo total de la sesión, algo que me gustaba de aider
  He usado aider a diario con Claude 3.5, y me resultaba útil poder llevar un seguimiento natural de los costos
  También me gustaría que estuviera escrito en un lenguaje compilable como Go o Rust, aunque entiendo que el costo de reescribirlo podría ser alto
  Después de unos 10 minutos de uso, parece tener problemas importantes con parches básicos de código Go. Agregó una línea con indentación incorrecta y luego intentó corregirla tres veces con la indentación correcta, pero cada vez apareció "String to replace not found in file"
  Aider usando Claude 3.5 maneja esto muy bien, así que quizá valga la pena revisar sus prompts y formato de parches
El benchmark de LLM de Kagi se actualizó para reflejar el modo general y el modo thinking de Sonnet 3.7
https://help.kagi.com/kagi/ai/llm-benchmark.html
Entre los LLM generalistas que probé, parece quedar en segundo lugar, después de Gemini 2.0 Pro y por delante de gpt-4o
El modo thinking es menos impresionante y, con un presupuesto de thinking de 8192 tokens, está más o menos al nivel de o1-mini y o3-mini
En general, es una buena actualización: por el mismo precio obtienes un modelo de mayor calidad y más rápido; espero que se pueda activar en Kagi Assistant dentro de las próximas 24 horas
- Gracias al equipo de Kagi por permitir usar LLM nuevos tan rápido en Assistant
  Para mí, el valor de Kagi Assistant es algo que ni siquiera hace falta pensar demasiado
- Ahora sorprende que Gemini 2.0 esté en primer lugar
  Recuerdo que los modelos de Google tenían bajo rendimiento en el benchmark de Kagi
- Me da curiosidad cómo eligieron el presupuesto de thinking de 8192 tokens
  Con frecuencia he visto que DeepSeek R1 usa mucho más que eso
- Ya aparece en Kagi Assistant, y ni siquiera han pasado 24 horas. Bien
- Algo que no entiendo es que Claude 3.5 Haiku, que no es un modelo thinking, aparece en la sección sin thinking pero se muestra con presupuesto de thinking de 8192
Analizar perfiles de HN con esto es bastante gracioso :)
https://hn-wrapped.kadoa.com/
Lo estoy usando para probar el sentido del humor del nuevo modelo
- Me destrozó bien diciendo que hablé más de hacer un “detector de raga carnática” que de hacerlo, y que a este ritmo un LLM va a componer una raga antes de que mi detector pueda identificarla
  También dijo que compré un procesador 7950X pero no sé qué hacer con él, como la versión computacional de manejar un Ferrari una vez por semana para ir al súper
  Dijo que me tomé un año sabático por preocuparme por el equilibrio entre trabajo y vida, pero lo pasé comentando sobre las carreras de otros en HN
  Si alguien me busca, estaré llorando en mi cuarto
- “Tu salario es tan bajo que hasta el código legacy siente lástima por ti”
  “Eres la única persona en HN que considera 800 dólares al mes como salario, no como factura de cloud computing”
  Duele
- Me hizo pedazos por completo: “Has pasado más tiempo explicando por qué el manejo de errores de Go es malo que el que los desarrolladores de Go realmente han pasado manejando errores”
  “Tu relación con los lenguajes de programación parece un reality de citas. Les encuentras defectos a todos, pero no logras quedarte con ninguno”
  “Si el manejo de errores fuera una religión, serías su misionero más ferviente, convirtiendo una excepción unchecked a la vez”
- “Para alguien que trabajó en Reddit, pasas demasiado tiempo en HN. Es como dejar Facebook para pasarte todo el día en Twitter quejándote de las redes sociales”
  Duele por lo preciso que es
- “Te quejas de la distracción digital mientras escribes novelas en hilos de comentarios de HN. Es como criticar la comida rápida mientras esperas en la fila del drive-thru”
  “Vas a escribir un ensayo reflexivo sobre ‘minimalismo digital’, lograr que llegue a la portada de HN y, de forma irónica, terminarás pasando más tiempo respondiendo comentarios que todo el tiempo que pasaste en HN este año”
  Me está mirando a mí. No
Desde mi primera interacción con Claude 3.7 Sonnet quedé bastante impresionado
Le pedí que encontrara un problema en una base de código donde una función de Cloudflare Pages devolvía 500, errores absurdos y respuestas vacías en producción; era un problema que no había podido encontrar en todo el viernes
Era realmente frustrante porque el script moría antes de imprimir nada, así que no había forma de agregar más logging ni de conseguir visibilidad
o1, o3 y Claude 3.5 no ayudaron en absoluto, pero Claude 3.7, después de 39 segundos de thinking, encontró el problema exacto en su primera respuesta, y en el segundo prompt incluso escribió una función funcional para esquivarlo
Como conecté el repositorio de GitHub a la conversación, parece que no se puede compartir la discusión, así que lo copié en un gist: https://gist.github.com/Uninen/46df44f4307d324682dabb7aa6e10...
- Una de las respuestas muestra que Claude todavía es básicamente ignorante respecto del pensamiento real
  Sugirió mover la sanitización de HTML al frontend, pero la mantuve en la función de CF porque en el frontend es demasiado fácil de evadir y permitiría subir literalmente cualquier cosa a la DB
  Es algo que incluso un desarrollador junior entendería
Logré hacer que esto funcione en mi herramienta para LLM, y la nueva versión del plugin es llm-anthropic 0.14
En el proceso descubrí varias cosas sobre el modelo, y mis notas detalladas están aquí: https://simonwillison.net/2025/Feb/25/llm-anthropic-014/
Una de las novedades más interesantes es que el límite de salida aumentó de los 8,000 tokens del Claude 3.5 Sonnet anterior a 120,000 tokens
Este modelo parece poder aprovechar eficazmente ese límite de salida, y el resultado más largo hasta ahora tardó 27 minutos en completarse: https://gist.github.com/simonw/854474b050b630144beebf06ec4a2...
- No quiero desmerecer a Sonnet 3.7, pero decir que es muchísimo más alto que cualquier otro modelo del área no parece exacto
  o1 y o3-mini también llegan hasta 100,000 tokens de salida
  https://platform.openai.com/docs/models#o1
- Me pregunto si Simon escribió en algún lado cómo puede ser tan activo con herramientas de programación, blog y trabajo
  Me da curiosidad de dónde saca el tiempo y la energía
- Me pregunto cuánto habrá costado
Tiene sentido que Anthropic se esté enfocando más en el código
Comparado con otros modelos, el código era su punto fuerte
Pensando en las dificultades de Devin, me da curiosidad cómo resultará su producto competidor de Devin
- Es el modelo que impulsa buena parte del uso de Cursor/Windsurf y también están empujando MCP, así que creo que puede irles bien si logran clavar la experiencia de usuario
- Claramente es una fortaleza, pero a veces quisiera que el chat no tuviera tantas ganas de escribir código
  Cuando solo quiero una respuesta conceptual o de alto nivel, a menudo me tira código, así que ahora ya por costumbre le digo que no escriba código
- Pensé lo mismo, y tengo 3 problemas realmente difíciles que hasta ahora ni Claude ni ningún otro modelo han podido resolver, así que me entusiasma probarlo hoy
- Me dio un poco de risa que en el post del blog citaran a Cognition, o sea, la empresa que creó Devin
Es una buena noticia eso de que, “al desarrollar modelos de razonamiento, redujimos un poco la optimización para problemas de concursos de matemáticas y ciencias de la computación, y cambiamos el foco hacia tareas reales que reflejan mejor cómo las empresas usan realmente los LLM”
OpenAI parece apuntar al “modelo más inteligente”, pero en la práctica los LLM se usan sobre todo como tutores de aprendizaje, transformadores de datos y escritores de código
El equilibrio entre “inteligencia” y “capacidad de terminar el trabajo” parece ser el sweet spot, y parece una de las razones por las que las herramientas actuales para desarrolladores (Cursor, Windsurf, etc.) prefieren Claude 3.5 Sonnet por encima de 4o
- Todos usamos Claude a diario directamente en nuestro trabajo, y nos interesa más resolver nuestros propios dolores que los benchmarks abstractos
  Para terminar el trabajo hace falta mucho conocimiento de escritorio, pero también mucho olfato de campo para saber cuándo responder rápido y cuándo dar marcha atrás
- A veces siento que quizá se están sobreajustando a los benchmarks. DeepSeek me da esa impresión en particular
  Más allá de cuál sea su posición real en los rankings, el chat al que sigo volviendo porque subjetivamente sus respuestas se sienten mejores es Claude
- Claude 3.5 fue excelente en Windsurf, pero costaba créditos
  DeepSeek V3 ahora está disponible en Windsurf sin costo de créditos, y para la empresa fue un cambio enorme
  En cualquier caso, es bueno tener más opciones
  Recomiendo mucho probar la función Cascade de Windsurf para programación y exploración de código de estilo agente. Ahorra mucho tiempo para entender una base de código nueva y rastrear flujos de datos
La carrera de la IA avanza realmente rápido
Como desarrollador/ingeniero de software, me preocupan las perspectivas laborales, y creo que solo el tiempo dirá
También me pregunto qué pasará con la burbuja inmobiliaria de la costa oeste si desaparecen los altos sueldos de los ingenieros de software
Tal vez llegue la siguiente ola de trabajadores del conocimiento y ocupe ese lugar
- Es cierto que el mercado laboral de desarrollo de software se está sacudiendo bastante, pero hay cosas que uno puede hacer para quedar en una posición favorable
  Aprender más de todo el stack, especialmente backend y DevOps; aceptar el aumento de productividad para lanzar más productos y proyectos personales; usar el tiempo de producción de forma muy selectiva; y contar con un excelente sistema personal de gestión del conocimiento y asistentes agentes
- En realidad siento que el ritmo se está desacelerando
  El año pasado fue una locura hasta más o menos Llama 3, pero las mejoras recientes son relativamente pequeñas
  Los modelos de razonamiento también son apenas un poco mejores que lo que ya se podía hacer antes con agentes mediante planificación explícita, y se parecen más a algo bien empaquetado y ligeramente ajustado para ese propósito
  DeepSeek hizo una gran mejora en eficiencia, pero el cambio visible para el usuario no fue tan grande
  Por eso creo que la carrera reciente de la IA está entrando en una especie de meseta
- El impacto podría ser mucho más amplio que Silicon Valley o la costa oeste; de hecho, Silicon Valley quizá sea una de las pocas regiones con algo de esperanza gracias al desarrollo de IA
  Estos modelos pueden sacudir el empleo de la industria a nivel mundial
  Irónicamente, quizá los trabajos que realmente cambien sean solo la ingeniería de software y algunas áreas como la escritura y el diseño gráfico
  Que los laboratorios de IA apuntan especialmente a los ingenieros de software queda claro con solo ver el anuncio de “Claude 3.7 and Code”, y casi no se mencionan otros ámbitos
  Para quienes no están en Silicon Valley y no han experimentado salarios altos, la ingeniería de software suele ser un trabajo común, estresante y que exige aprendizaje continuo
  Por eso probablemente también tenían menos posibilidades de invertir o ahorrar con altos ingresos disponibles, así que el dolor y la ansiedad por la automatización son mayores
  Quién iba a pensar que los primeros trabajos que automatizaría la IA no serían el trabajo manual ni la conducción autónoma, sino el propio software
  Otras industrias parecen más difíciles porque chocaron contra callejones sin salida o tienen barreras como regulación y conocimiento cerrado
  Los ingenieros de software terminaron dando el ejemplo a otras industrias: no dejen entrar a la IA, o manténganla encerrada internamente todo el tiempo que puedan; es decir, sigan siendo closed source
  Visto en retrospectiva, es irónico
- En el corto y mediano plazo no me preocupa demasiado
  Siento que hay demasiados casos límite y contextos sutiles que los sistemas de IA van a pasar por alto
  Por ejemplo, los sistemas no siempre se comportan como está documentado. ¿Cómo distinguirá la IA entre un bug del servicio y un bug de su propio código? Para empezar, ¿cómo sabrá que hay un bug? ¿Cómo diferenciará un reporte de bug de un intento de intrusión de un hacker?
  El mundo es complejo, y si no hay una inteligencia artificial real, hará falta gente que guíe a la IA en esas situaciones complicadas
  Mi consejo es familiarizarse con la IA y las nuevas herramientas de IA, y entender cómo encajan en los flujos de trabajo habituales
  Creo que los buenos ingenieros de software no van a desaparecer
- Si los modelos mejoran pero no llegan a una singularidad completa, creo que incluso habrá más empleos
  Por ejemplo, si el costo de crear software baja 5 veces, como ahora la oferta está muy limitada, la demanda aumentará más de 5 veces
  Hay muchas empresas que quieren mejor software, pero el costo es demasiado alto
  Entonces se crearán más empleos
  Eso sí, habrá menos tipeo y más gestión de producto, interacción humana y pruebas de casos límite
  También creo que surgirán bastantes trabajos muy técnicos para depurar cuando los modelos fallen
  Por eso recomiendo aprender habilidades que ayuden a crear software útil para personas y negocios, desde investigación de usuarios hasta gestión de producto. La ingeniería también seguirá siendo necesaria
Claude 3.7 rehízo la mitad de mi tesis de licenciatura en menos de 30 segundos :|
https://claude.ai/share/ed8a0e55-633f-4056-ba70-772ab5f5a08b
La imagen de salida está aquí: https://i.imgur.com/0c65Xfk.png
Gemini Flash 2 fracasó estrepitosamente: https://g.co/gemini/share/10437164edd0
- La mayoría de los temas que se tratan normalmente en licenciatura están bien documentados y bien comprendidos, así que es muy probable que hayan entrado en los datos de entrenamiento de la IA.
  A partir del nivel de posgrado, el alcance del material es un poco más escaso y de nicho, pero aun así en general no es algo innovador.
  A nivel de doctorado, el objetivo es ampliar el conocimiento existente en el área y muchos temas se exploran por primera vez, así que creo que en su mayoría casi no hay cobertura.
- ¡Luego vienen la maestría y el doctorado!
- Me pregunto si esto, o algo similar, estaba disponible en materiales de acceso abierto o en algunas bibliotecas

riskatcher 2025-02-25

Compararlo con flash 2 es difícil porque la diferencia de precio es demasiado grande... queda justo a medio camino entre o1pro y o3-mini