3 puntos por GN⁺ 2024-09-10 | 1 comentarios | Compartir por WhatsApp
  • Hace unos días, alguien presentó Reflection 70B afirmando que era una versión ajustada de Llama 3.1 70B, junto con resultados de benchmark sorprendentes
    • La publicación de los weights fue un desastre. Afirmaban que era un fine-tuning para 3.1, pero lanzaron un LoRA para 3.0
    • Al ejecutarlo con los pesos publicados, al principio la evaluación no cumplía con las expectativas
    • Al usar el endpoint alojado, la evaluación empezó a rendir a nivel SOTA
  • La gente encontró una forma ingeniosa de comprobar qué modelo se estaba ejecutando en el endpoint
    • Uso de tokens específicos por modelo y censura específica por modelo
    • Según lo que descubrieron, afirman que no era su propio modelo ajustado, sino un wrapper sobre Sonnet 3.5
    • Después de que en Twitter se publicara que parecía ser Sonnet, el contenido cambió
    • Luego otro usuario afirmó haber encontrado evidencia, usando un método similar, de que el modelo alojado fue cambiado a GPT-4o
  • Los resultados están mezclados y son inconsistentes, así que no está claro qué es verdad y qué es falso
  • Tuit de lanzamiento del creador original: https://twitter.com/mattshumer_/status/1831767014341538166
  • Hilo en Twitter que rastrea, a través de prompts, que las cosas siguen cambiando: https://x.com/RealJosephus/status/1832904398831280448

1 comentarios

 
GN⁺ 2024-09-10
Opiniones de Hacker News
  • Se anunció que el modelo Llama 3.1 70B tenía un rendimiento sobresaliente, pero surgieron varios problemas

    • Se distribuyeron incorrectamente los pesos de Lora for Llama 3.0
    • La evaluación inicial no estuvo a la altura de lo esperado
    • El endpoint alojado mostró rendimiento SOTA
    • Se usaron varios métodos para verificar qué modelo era en realidad
    • Se descubrió que utilizaba el modelo Sonnet 3.5
    • Después se encontró evidencia de que cambiaron al modelo GPT 4o
    • Esto provocó confusión y pérdida de tiempo
  • Se afirma que esta publicación debería recibir más atención

    • La reputación de una figura conocida en grande dentro del campo de la IA quedó dañada
    • Hay evidencia de filtrado de "claude", errores de etiquetas y admisiones del propio modelo de que era claude
    • Lo más decisivo fue el comportamiento del modelo al responder en árabe, algo que la versión de Llama no soporta
  • La gente hace muchas cosas por fama; queda la duda de cuál era el objetivo final de Schumer

  • Tuit original del autor (que será eliminado pronto)

    Me alegra anunciar Reflection 70B, el mejor modelo open source del mundo.  
    Fue entrenado con Reflection-Tuning, lo que permitió que el LLM corrigiera sus propios errores.  
    La próxima semana se lanzará 405B, y esperamos que sea el mejor modelo del mundo.  
    
  • Hay una broma sobre una persona cuyo nombre rima con "odd" y empieza con la tercera letra (C*** Debussy)

  • Se preguntan si hubo una "confirmación" de una fuente confiable, porque es difícil confiar en publicaciones de Reddit, hilos de Twitter y capturas de pantalla de origen poco claro