11 puntos por xguru 2024-07-17 | 2 comentarios | Compartir por WhatsApp
  • Un modelo de lenguaje Mamba2 especializado en generación de código
  • A diferencia de los modelos Transformer, los modelos Mamba ofrecen inferencia en tiempo lineal y la capacidad de modelar secuencias de longitud teóricamente infinita
    • Los usuarios pueden interactuar ampliamente con el modelo gracias a sus respuestas rápidas, sin importar la longitud de la entrada
    • Esta eficiencia impacta especialmente en la productividad de código, permitiéndole ofrecer un rendimiento equivalente a los modelos SOTA basados en Transformer
  • En los resultados de benchmark, en el modelo 7B, Codestral Mamba (7B) muestra capacidades superiores o casi equivalentes frente a CodeGemma-1.1 7B, CodeLlama 7B y DeepSeek v1.5 7B, entre otros
  • Se espera que sea un excelente asistente de código local
  • Se puede desplegar mediante el SDK mistral-inference y TensorRT-LLM, y también estará disponible en llama.cpp para inferencia local
  • Es posible descargar los pesos sin procesar desde HuggingFace

2 comentarios

 
xguru 2024-07-17

Opiniones en Hacker News

  • Se necesitan pasos para ejecutarlo en VS Code

    • Incluir en la publicación un enlace a las instrucciones o un enlace de instalación con un clic para la extensión de VS Code ayudaría a su adopción
    • Es un modelo que interesará a muchos usuarios, pero el problema es que no tiene un llamado a la acción que se pueda monetizar
  • Piden recomendaciones de modelos con capacidad FIM

    • Están usando codellama-13b con una extensión de vim, pero el rendimiento no es muy bueno
    • Gemma-27b genera mejor código, pero no tiene función FIM
    • codellama-34b no hace que la inferencia funcione correctamente
  • Se debería destacar a DeepSeek en la columna de MBPP

    • DeepSeek tiene una puntuación mejor que Codestral
  • Anunciaron que el modelo está en HuggingFace, pero no dieron el enlace

  • Da gusto ver un modelo de alto perfil que use Mamba2

  • Afirman que Mamba es más rápido, pero no hay cifras de latencia

    • Quisieran saber si alguien ya lo probó y si de verdad es más rápido
  • Recomiendan una presentación del producto sobre las ventajas y desventajas de Mamba y Transformers

  • Se preguntan si hay una buena explicación de la arquitectura de Mamba

  • Piden un video o texto adecuado para alguien que entiende el concepto general de los LLM, pero que solo ha usado herramientas públicas comunes como ChatGPT, Claude, etc.

    • Quieren revisar si tienen hardware con el que puedan ejecutarlo localmente, pero no saben por dónde empezar
  • Hicieron una prueba rápida en el playground de model.box

    • La longitud de finalización es notablemente más corta que en otros modelos (e.g., gpt-4o)
    • La velocidad de respuesta cumple con lo esperado