- Hace unos días, alguien presentó Reflection 70B afirmando que era una versión ajustada de Llama 3.1 70B, junto con resultados de benchmark sorprendentes
- La publicación de los weights fue un desastre. Afirmaban que era un fine-tuning para 3.1, pero lanzaron un LoRA para 3.0
- Al ejecutarlo con los pesos publicados, al principio la evaluación no cumplía con las expectativas
- Al usar el endpoint alojado, la evaluación empezó a rendir a nivel SOTA
- La gente encontró una forma ingeniosa de comprobar qué modelo se estaba ejecutando en el endpoint
- Uso de tokens específicos por modelo y censura específica por modelo
- Según lo que descubrieron, afirman que no era su propio modelo ajustado, sino un wrapper sobre Sonnet 3.5
- Después de que en Twitter se publicara que parecía ser Sonnet, el contenido cambió
- Luego otro usuario afirmó haber encontrado evidencia, usando un método similar, de que el modelo alojado fue cambiado a GPT-4o
- Los resultados están mezclados y son inconsistentes, así que no está claro qué es verdad y qué es falso
- Tuit de lanzamiento del creador original: https://twitter.com/mattshumer_/status/1831767014341538166
- Hilo en Twitter que rastrea, a través de prompts, que las cosas siguen cambiando: https://x.com/RealJosephus/status/1832904398831280448
1 comentarios
Opiniones de Hacker News
Se anunció que el modelo Llama 3.1 70B tenía un rendimiento sobresaliente, pero surgieron varios problemas
Se afirma que esta publicación debería recibir más atención
La gente hace muchas cosas por fama; queda la duda de cuál era el objetivo final de Schumer
Tuit original del autor (que será eliminado pronto)
Hay una broma sobre una persona cuyo nombre rima con "odd" y empieza con la tercera letra (C*** Debussy)
Se preguntan si hubo una "confirmación" de una fuente confiable, porque es difícil confiar en publicaciones de Reddit, hilos de Twitter y capturas de pantalla de origen poco claro