- Ya estaban impactados por DeepSeek V3, que ya superó a Llama 4 en benchmarks
- Además, el shock fue mayor porque una "empresa china poco conocida" supuestamente gastó apenas 5.5M en costos de entrenamiento
- Los ingenieros están desarmando DeepSeek y moviéndose frenéticamente para imitar todo lo posible
- La dirección está preocupada por cómo justificar el enorme costo de la organización de IA generativa
- Uno de los "líderes" de la organización de IA generativa gana más dinero que todo el costo de entrenamiento de DeepSeek v3, y hay decenas de líderes así
- DeepSeek r1 da aún más miedo. No se puede revelar información confidencial, pero pronto será público
- Ingeniería debió haber sido una organización pequeña, pero mucha gente quiso sumarse a esta búsqueda de impacto, y el hecho de que inflaran artificialmente la contratación en la organización terminó perjudicando a todos
Comentarios
- Empleado de Google 1: Lo que está haciendo DeepSeek es realmente impresionante. No solo a Meta, también le está metiendo presión a OpenAI, Google y Anthropic. Lo bueno es que podemos ver en tiempo real lo efectiva que es la competencia abierta para impulsar la innovación.
- Empleado de Apple 1: Por esto tengo acciones de Meta. Analizar a los competidores, imitarlos y ganar está en su ADN. ¡Sigan así!
- Empleado de Meta 1: Muchos ejecutivos literalmente no saben nada sobre la tecnología subyacente (ni siquiera tienen mucho conocimiento de ingeniería), y siguen metiéndoles en la cabeza a otros ejecutivos la idea de que "más GPU = victoria". La situación se distorsionó aún más por ideas tontas como generar contenido de IA en Instagram para fomentar la participación (aunque ahora eso está retrocediendo un poco).
- Empleado de Meta 2: Simplemente compren DeepSeek
- Empleado de Samsung 1: Sam Altman es un farsante. LIANG Wenfeng, el CEO de DeepSeek, es Ilya Sutskever, DeepSeek es el OpenAI de antes, y OpenAI es ClosedAI.
- Empleado de Google 2: DeepSeek publicó un paper que describe todos los componentes del nuevo modelo basado en RL, así que empresas como Meta pueden copiarlo directamente y validarlo
- Empleado de Meta 3: ¿Cómo es posible que una organización como Meta, con "el clúster de GPU más grande del mundo", ni siquiera entre al top 10 de benchmarks? Grok pronto va a superar a DeepSeek
- Empleado de Meta 4: DeepSeek está controlado por China, no comparte datos reales y está fuertemente censurado por el Partido Comunista Chino. Si le preguntas "¿el Partido Comunista Chino está restringiendo la libertad de las personas?", ya sabes cuál será la respuesta. No importa qué le preguntes, solo repite cosas como "qué grandioso es China". Solo hace afirmaciones sin información.
- Empleado de Chime: Y lo mejor de todo es que hacen todo esto con GPU H800, que ni siquiera se acercan al rendimiento de las H100. Es realmente impresionante. Mi respeto y admiración para toda la gente de DeepSeek. El paper de Residual Network salido de China fue revolucionario: cambió por completo las redes neuronales y enseñó que se podían usar miles de millones de parámetros. ¡Respeto a los chinos que resolvieron un problema tan difícil!
- Empleado de Blizzard: Esto me da esperanza de que en la era de la inteligencia artificial no haya foso defensivo, y de que salgan modelos open source mejores, si no tanto como los modelos closed source, al menos sí bastante buenos. Cuanto más intensa sea la competencia en este campo, mejor para nosotros.
5 comentarios
Creo que competir es algo bueno 👏
Dejando de lado por un momento el tema de la ideología y la censura, el nivel de ingeniería de estos modelos de DeepSeek esta vez es realmente impresionante.
Ya me parecía genial la idea de MLA que usaron en la arquitectura V2.5, pero ahora incluso demostraron el potencial de MTP, además de replicar por completo el modelo O1 con R1; y si vemos que lograron sacar estas técnicas de entrenamiento aun con el hardware limitado por las restricciones de exportación, de verdad es algo increíble.
Si les interesa el ML, de verdad lean los DeepSeek Technical Report de V2.5, V3 y R1. No queda más que admiración. Todavía no entiendo cómo publicaron todo esto bajo licencia MIT.
En el caso de LLaMA, daba mucho la impresión de que de LLaMA 2 a 3 casi no hubo innovación en la arquitectura y que solo aumentaron la escala de entrenamiento; creo que eso fue una señal temprana.
Aunque hicieron tanta contención a China e incluso regularon las exportaciones de GPU, ver algo así resulta impresionante pero también da miedo; y viéndolo de forma positiva, creo que puede cumplir bastante bien el papel de "bagre". Al final, nadie puede negar que OpenAI sigue llevando la delantera.
De por sí, como es una publicación subida a Blind, no está claro si es verídica, pero sí parece cierto que DeepSeek está causando impacto.
Presentación del modelo DeepSeek-R1
Deepseek - el gigante silencioso que lidera la competencia de IA en China
Deepseek V3 mostró un rendimiento deficiente en benchmarks que evalúan si hay sobreajuste
Notas sobre DeepSeek v3 - "¿De verdad es mejor que GPT-4o o 3.5 Sonnet?"