41 puntos por xguru 2025-01-25 | 5 comentarios | Compartir por WhatsApp
  • Ya estaban impactados por DeepSeek V3, que ya superó a Llama 4 en benchmarks
  • Además, el shock fue mayor porque una "empresa china poco conocida" supuestamente gastó apenas 5.5M en costos de entrenamiento
  • Los ingenieros están desarmando DeepSeek y moviéndose frenéticamente para imitar todo lo posible
  • La dirección está preocupada por cómo justificar el enorme costo de la organización de IA generativa
  • Uno de los "líderes" de la organización de IA generativa gana más dinero que todo el costo de entrenamiento de DeepSeek v3, y hay decenas de líderes así
  • DeepSeek r1 da aún más miedo. No se puede revelar información confidencial, pero pronto será público
  • Ingeniería debió haber sido una organización pequeña, pero mucha gente quiso sumarse a esta búsqueda de impacto, y el hecho de que inflaran artificialmente la contratación en la organización terminó perjudicando a todos

Comentarios

  • Empleado de Google 1: Lo que está haciendo DeepSeek es realmente impresionante. No solo a Meta, también le está metiendo presión a OpenAI, Google y Anthropic. Lo bueno es que podemos ver en tiempo real lo efectiva que es la competencia abierta para impulsar la innovación.
  • Empleado de Apple 1: Por esto tengo acciones de Meta. Analizar a los competidores, imitarlos y ganar está en su ADN. ¡Sigan así!
  • Empleado de Meta 1: Muchos ejecutivos literalmente no saben nada sobre la tecnología subyacente (ni siquiera tienen mucho conocimiento de ingeniería), y siguen metiéndoles en la cabeza a otros ejecutivos la idea de que "más GPU = victoria". La situación se distorsionó aún más por ideas tontas como generar contenido de IA en Instagram para fomentar la participación (aunque ahora eso está retrocediendo un poco).
  • Empleado de Meta 2: Simplemente compren DeepSeek
  • Empleado de Samsung 1: Sam Altman es un farsante. LIANG Wenfeng, el CEO de DeepSeek, es Ilya Sutskever, DeepSeek es el OpenAI de antes, y OpenAI es ClosedAI.
  • Empleado de Google 2: DeepSeek publicó un paper que describe todos los componentes del nuevo modelo basado en RL, así que empresas como Meta pueden copiarlo directamente y validarlo
  • Empleado de Meta 3: ¿Cómo es posible que una organización como Meta, con "el clúster de GPU más grande del mundo", ni siquiera entre al top 10 de benchmarks? Grok pronto va a superar a DeepSeek
  • Empleado de Meta 4: DeepSeek está controlado por China, no comparte datos reales y está fuertemente censurado por el Partido Comunista Chino. Si le preguntas "¿el Partido Comunista Chino está restringiendo la libertad de las personas?", ya sabes cuál será la respuesta. No importa qué le preguntes, solo repite cosas como "qué grandioso es China". Solo hace afirmaciones sin información.
  • Empleado de Chime: Y lo mejor de todo es que hacen todo esto con GPU H800, que ni siquiera se acercan al rendimiento de las H100. Es realmente impresionante. Mi respeto y admiración para toda la gente de DeepSeek. El paper de Residual Network salido de China fue revolucionario: cambió por completo las redes neuronales y enseñó que se podían usar miles de millones de parámetros. ¡Respeto a los chinos que resolvieron un problema tan difícil!
  • Empleado de Blizzard: Esto me da esperanza de que en la era de la inteligencia artificial no haya foso defensivo, y de que salgan modelos open source mejores, si no tanto como los modelos closed source, al menos sí bastante buenos. Cuanto más intensa sea la competencia en este campo, mejor para nosotros.

5 comentarios

 
jhj0517 2025-01-25

Creo que competir es algo bueno 👏

 
mammal 2025-01-25

Dejando de lado por un momento el tema de la ideología y la censura, el nivel de ingeniería de estos modelos de DeepSeek esta vez es realmente impresionante.

Ya me parecía genial la idea de MLA que usaron en la arquitectura V2.5, pero ahora incluso demostraron el potencial de MTP, además de replicar por completo el modelo O1 con R1; y si vemos que lograron sacar estas técnicas de entrenamiento aun con el hardware limitado por las restricciones de exportación, de verdad es algo increíble.

Si les interesa el ML, de verdad lean los DeepSeek Technical Report de V2.5, V3 y R1. No queda más que admiración. Todavía no entiendo cómo publicaron todo esto bajo licencia MIT.

 
mammal 2025-01-25

En el caso de LLaMA, daba mucho la impresión de que de LLaMA 2 a 3 casi no hubo innovación en la arquitectura y que solo aumentaron la escala de entrenamiento; creo que eso fue una señal temprana.

 
play1204dev 2025-01-25

Aunque hicieron tanta contención a China e incluso regularon las exportaciones de GPU, ver algo así resulta impresionante pero también da miedo; y viéndolo de forma positiva, creo que puede cumplir bastante bien el papel de "bagre". Al final, nadie puede negar que OpenAI sigue llevando la delantera.