La API oficial de Reflection 70B resultó ser un wrapper de Claude Sonnet 3.5

(old.reddit.com)

3 puntos por GN⁺ 2024-09-10 | 1 comentarios | Compartir por WhatsApp

Hace unos días, alguien presentó Reflection 70B afirmando que era una versión ajustada de Llama 3.1 70B, junto con resultados de benchmark sorprendentes
- La publicación de los weights fue un desastre. Afirmaban que era un fine-tuning para 3.1, pero lanzaron un LoRA para 3.0
- Al ejecutarlo con los pesos publicados, al principio la evaluación no cumplía con las expectativas
- Al usar el endpoint alojado, la evaluación empezó a rendir a nivel SOTA
La gente encontró una forma ingeniosa de comprobar qué modelo se estaba ejecutando en el endpoint
- Uso de tokens específicos por modelo y censura específica por modelo
- Según lo que descubrieron, afirman que no era su propio modelo ajustado, sino un wrapper sobre Sonnet 3.5
- Después de que en Twitter se publicara que parecía ser Sonnet, el contenido cambió
- Luego otro usuario afirmó haber encontrado evidencia, usando un método similar, de que el modelo alojado fue cambiado a GPT-4o
Los resultados están mezclados y son inconsistentes, así que no está claro qué es verdad y qué es falso
Tuit de lanzamiento del creador original: https://twitter.com/mattshumer_/status/1831767014341538166
Hilo en Twitter que rastrea, a través de prompts, que las cosas siguen cambiando: https://x.com/RealJosephus/status/1832904398831280448

1 comentarios

GN⁺ 2024-09-10

Opiniones de Hacker News

Se anunció que el modelo Llama 3.1 70B tenía un rendimiento sobresaliente, pero surgieron varios problemas
- Se distribuyeron incorrectamente los pesos de Lora for Llama 3.0
- La evaluación inicial no estuvo a la altura de lo esperado
- El endpoint alojado mostró rendimiento SOTA
- Se usaron varios métodos para verificar qué modelo era en realidad
- Se descubrió que utilizaba el modelo Sonnet 3.5
- Después se encontró evidencia de que cambiaron al modelo GPT 4o
- Esto provocó confusión y pérdida de tiempo
Se afirma que esta publicación debería recibir más atención
- La reputación de una figura conocida en grande dentro del campo de la IA quedó dañada
- Hay evidencia de filtrado de "claude", errores de etiquetas y admisiones del propio modelo de que era claude
- Lo más decisivo fue el comportamiento del modelo al responder en árabe, algo que la versión de Llama no soporta
La gente hace muchas cosas por fama; queda la duda de cuál era el objetivo final de Schumer

Tuit original del autor (que será eliminado pronto)

Me alegra anunciar Reflection 70B, el mejor modelo open source del mundo.  
Fue entrenado con Reflection-Tuning, lo que permitió que el LLM corrigiera sus propios errores.  
La próxima semana se lanzará 405B, y esperamos que sea el mejor modelo del mundo.

Hay una broma sobre una persona cuyo nombre rima con "odd" y empieza con la tercera letra (C*** Debussy)
Se preguntan si hubo una "confirmación" de una fuente confiable, porque es difícil confiar en publicaciones de Reddit, hilos de Twitter y capturas de pantalla de origen poco claro

La API oficial de Reflection 70B resultó ser un wrapper de Claude Sonnet 3.5

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News