Dario Amodei, CEO de Anthropic: los modelos de DeepSeek no son tan sorprendentes

(darioamodei.com)

16 puntos por dohyun682 2025-01-30 | 3 comentarios | Compartir por WhatsApp

Dario Amodei sostiene que la percepción sobre los modelos V3 y R1 de DeepSeek ha sido exagerada.

Las tres dinámicas del desarrollo de la IA (Three Dynamics of AI Development)

Scaling laws: si los demás factores se mantienen iguales, el rendimiento de los sistemas de IA aumenta a medida que crece la escala. Por ejemplo, un modelo de un millón de dólares acierta el 20% de las tareas de programación, uno de diez millones de dólares el 40% y uno de 100 millones de dólares el 60%.
Shifting the curve: la curva de costo-rendimiento se desplaza gracias a mejoras en la arquitectura del modelo o en la eficiencia computacional. Una innovación pequeña puede aumentar la eficiencia de costos alrededor de 1.2x, una innovación mediana 2x y una grande cerca de 10x. Sin embargo, aunque la eficiencia de costos mejore, las empresas no reducen el gasto de entrenamiento, sino que reinvierten para crear modelos de mayor rendimiento. La acumulación de estas innovaciones está impulsando un aumento de alrededor de 4x por año.
Shifting the paradigm: hasta 2023, el principal objetivo del escalado eran los pretrained models entrenados con enormes volúmenes de datos de internet. Pero desde 2024, comenzando con o1, se empezó a usar aprendizaje por refuerzo. Este método consiste en partir de un pretrained model general y luego añadir una etapa de aprendizaje por refuerzo. Desde 2024 también comenzó el escalado de esta etapa de aprendizaje por refuerzo, pero como todavía está en una fase temprana, una inversión relativamente pequeña puede generar grandes mejoras de rendimiento.

Modelos de DeepSeek

Hace un mes, DeepSeek publicó el pretrained model DeepSeek-V3 y la semana pasada presentó R1, que añade una etapa de aprendizaje por refuerzo. DeepSeek-V3 se acercó al rendimiento SOTA y mejoró mucho la eficiencia del modelo.

Sin embargo, son exagerados los rumores de que DeepSeek logró un rendimiento equivalente al de modelos de empresas estadounidenses que costaron miles de millones de dólares usando solo 6 millones de dólares. Claude Sonnet 3.5 costó decenas de millones de dólares en entrenamiento y fue entrenado hace un año.
Considerando que la eficiencia de entrenamiento aumenta alrededor de 4x por año y que el rendimiento de V3 no llega a SOTA (una diferencia equivalente a cerca de 2x en costo sobre la curva), que el modelo V3 haya sido entrenado por un costo aproximadamente 8x menor no se sale de la tendencia actual de progreso. Las empresas estadounidenses pronto alcanzarán este nivel de eficiencia por sus propios medios.
El problema es que un modelo que sigue esta tendencia apareció en China.
DeepSeek posee 50,000 chips de la generación Hopper. Si se considera que esto equivale a entre 1/2 y 1/3 del nivel de las empresas estadounidenses, la diferencia de costos con las compañías de EE. UU. no es tan grande.
Desde el punto de vista de ingeniería, R1 es menos interesante que V3. Como todavía estamos en una etapa inicial de la curva de aprendizaje por refuerzo, R1 pudo mostrar un rendimiento de nivel o1 a bajo costo. A medida que avance el escalado del aprendizaje por refuerzo, este tipo de caso será menos común.

Controles de exportación

Los laboratorios de Estados Unidos y China están invirtiendo enormes sumas de dinero para desarrollar IA poderosa, y esto continuará hasta que construyan modelos de IA superiores a casi todos los humanos en casi todos los campos. Se estima que eso ocurrirá alrededor de 2026-2027.
En ese momento, el mundo podría dividirse de forma completamente distinta según los controles de exportación.

Si China asegura millones de chips, habrá un mundo bipolar en el que Estados Unidos y China tendrán cada uno modelos de IA poderosos e impulsarán la innovación tecnológica.
Si China no logra asegurar millones de chips, habrá un mundo unipolar en el que solo Estados Unidos y sus aliados tendrán modelos poderosos. Como la IA también acelera el avance de la propia IA, esta tendencia podría mantenerse durante algún tiempo.

El logro de DeepSeek no significa que los controles de exportación hayan fracasado. Ya habían asegurado suficientes chips antes de que esos controles entraran en vigor.

Además, Amodei también negó el rumor de que 3.5 Sonnet sea una versión destilada de modelos superiores no públicos (como 3.5 Opus).

3 comentarios

iolothebard 2025-01-31

¿El problema es que el modelo apareció en China?
El problema será que es un modelo abierto…

jintak0401 2025-01-31

Me emociona y a la vez me da miedo pensar en el día en que llegue la AGI.

kbumsik 2025-01-31

Que Anthropic diga algo así... hmm
Como hace meses que no hay novedades del modelo, por ahí se empieza a escuchar de a poco qué está haciendo Anthropic.

Dario Amodei, CEO de Anthropic: los modelos de DeepSeek no son tan sorprendentes

Las tres dinámicas del desarrollo de la IA (Three Dynamics of AI Development)

Modelos de DeepSeek

Controles de exportación

Lecturas relacionadas

3 comentarios