Un usuario sintió que no había nada nuevo ni útil en la presentación. Pensó que el contenido era religioso y vacío.
Valoró positivamente que Ilya comenzara la presentación con una foto de Quoc Le. Quoc Le fue el autor principal del artículo de 2012 sobre el escalado de redes neuronales, y eso fue lo que llevó a este usuario a interesarse en el aprendizaje profundo.
Consideró que las declaraciones de Ilya eran humildes y se basaban en investigaciones públicas previas, pero que al mismo tiempo está llevando a cabo un gran proyecto y muestra mucha imaginación.
Consideró importante la afirmación de Ilya de que "el razonamiento es más impredecible". Sostuvo que el razonamiento útil es inherentemente impredecible.
Planteó la pregunta de por qué el paralelismo por pipeline era una mala idea.
Sintió que gran parte de la presentación estaba llena de contenido innecesario. Se mencionaron el resumen de los últimos 10 años, los límites de las leyes de escalado, los agentes, los datos sintéticos y las mejoras en cómputo.
Destacó que Sutskever dijo que "el preentrenamiento terminará". Predijo que la forma de entrenar modelos cambiará debido a las limitaciones de los datos.
Propuso conjuntos de datos sintéticos curados como datos alternativos para entrenamiento en lugar de datos de internet. Explicó que el uso de grandes conjuntos de datos propietarios está limitado por problemas de copyright, pero que los problemas legales podrían resolverse si el propio dueño los usa directamente.
Evaluó que el pódcast de DeepMind trató temas similares a esta presentación, pero le pareció más interesante.
Valoró positivamente la comparación de los datos de internet con un recurso finito. Afirmó que es necesario reconocer los límites del recurso y actuar en consecuencia.
Mencionó que le sorprendía comparar las "neuronas" de los transformers con neuronas biológicas reales. Las neuronas reales incluyen procesos bioquímicos complejos, mientras que los transformers usan capas lineales simples y no linealidades.
Mencionó que un LLM usó Gemini Flash 8B para corregir la transcripción original de YouTube.
1 comentarios
Comentarios de Hacker News
Un usuario sintió que no había nada nuevo ni útil en la presentación. Pensó que el contenido era religioso y vacío.
Valoró positivamente que Ilya comenzara la presentación con una foto de Quoc Le. Quoc Le fue el autor principal del artículo de 2012 sobre el escalado de redes neuronales, y eso fue lo que llevó a este usuario a interesarse en el aprendizaje profundo.
Consideró que las declaraciones de Ilya eran humildes y se basaban en investigaciones públicas previas, pero que al mismo tiempo está llevando a cabo un gran proyecto y muestra mucha imaginación.
Consideró importante la afirmación de Ilya de que "el razonamiento es más impredecible". Sostuvo que el razonamiento útil es inherentemente impredecible.
Planteó la pregunta de por qué el paralelismo por pipeline era una mala idea.
Sintió que gran parte de la presentación estaba llena de contenido innecesario. Se mencionaron el resumen de los últimos 10 años, los límites de las leyes de escalado, los agentes, los datos sintéticos y las mejoras en cómputo.
Destacó que Sutskever dijo que "el preentrenamiento terminará". Predijo que la forma de entrenar modelos cambiará debido a las limitaciones de los datos.
Propuso conjuntos de datos sintéticos curados como datos alternativos para entrenamiento en lugar de datos de internet. Explicó que el uso de grandes conjuntos de datos propietarios está limitado por problemas de copyright, pero que los problemas legales podrían resolverse si el propio dueño los usa directamente.
Evaluó que el pódcast de DeepMind trató temas similares a esta presentación, pero le pareció más interesante.
Valoró positivamente la comparación de los datos de internet con un recurso finito. Afirmó que es necesario reconocer los límites del recurso y actuar en consecuencia.
Mencionó que le sorprendía comparar las "neuronas" de los transformers con neuronas biológicas reales. Las neuronas reales incluyen procesos bioquímicos complejos, mientras que los transformers usan capas lineales simples y no linealidades.
Mencionó que un LLM usó Gemini Flash 8B para corregir la transcripción original de YouTube.