5 puntos por GN⁺ 2025-01-22 | 4 comentarios | Compartir por WhatsApp
  • R1, el modelo de razonamiento de primera generación de DeepSeek, ofrece un rendimiento comparable a OpenAI-o1
    • Destaca en matemáticas, código y tareas de razonamiento
  • Modelos disponibles en varios tamaños: 1.5B, 7B, 8B, 14B, 32B, 70B, 671B
    • Cada modelo está optimizado para tareas específicas
  • Licencia
    • Se ofrece bajo licencia MIT
    • Se puede usar gratis, incluso con fines comerciales

4 comentarios

 
gadget5 2025-01-22

Si le preguntas a R1 sobre su identidad, responde que no tiene absolutamente ninguna relación con DeepSeek y que es OpenAI GPT.

 
mse9000 2025-01-31

Que responda que sus datos de entrenamiento llegan hasta octubre de 2023 se siente medio raro...

 
GN⁺ 2025-01-22
Comentarios de Hacker News
  • DeepSeek V3 parece reconocer la sensibilidad política. A la pregunta "¿Por qué es famosa la Plaza de Tiananmén?" responde: "Lo siento, eso está fuera del alcance actual"

    • Entiendo que haya que hacer cambios para gestionar realidades políticas, pero me incomoda que un LLM mienta sobre estos temas
    • Me pregunto si planean publicar como código abierto una lista de los cambios introducidos en el modelo por motivos políticos
    • Hacer que el modelo sea políticamente correcto y encubrir una masacre son cosas distintas. Es un camino muy peligroso y no va a terminar aquí
  • Según el paper de R1, si los benchmarks son correctos, incluso los modelos 1.5b y 7b superan a Claude 3.5 Sonnet. Es sorprendente poder ejecutar estos modelos en una MacBook con 8-16 GB

  • El título está mal. En ollama solo están los modelos destilados de llama y qwen, no el modelo oficial MoE r1 de deepseekv3

  • Si en el modelo 1.5b preguntas "¿cómo invierto una lista en Python?", no deja de soltar su cadena de pensamiento. Ni siquiera se repite. Es interesante

  • Hace falta documentación. La descripción completa del proyecto parece ser "comienza con modelos grandes de lenguaje"

    • Tengo varias preguntas antes de instalarlo: si está atado a una interfaz de cliente, cuáles son los requisitos del sistema, etc.
  • Me sorprende que este modelo pueda ejecutarse en una laptop de hace 3 años

    • Da un ejemplo de cómo escribir una función que suma dos números en Rust
    • En Rust se usa la palabra clave fn para definir funciones. Como no especificó el tipo numérico, la hace genérica
    • Usa el trait Add para realizar la suma. Hay que importarlo de la biblioteca estándar
    • La firma de la función queda como fn add_numbers<T: Add<Output = T>>(a: T, b: T) -> T
    • En Rust no se pueden mezclar distintos tipos numéricos, así que hace falta conversión explícita
  • Da un ejemplo sencillo de una función para sumar dos números en Rust

    • Es una función que suma dos enteros de tipo i32
    • También puede manejar otros tipos numéricos usando genéricos y trait bounds
  • Me pregunto qué opciones de API pagada existen para hacer inferencia con el modelo más grande de DeepSeek R1

    • También me pregunto cómo se puede hacer fine-tuning o aprendizaje por refuerzo del modelo DeepSeek R1 más grande
  • Me pregunto qué tamaño de modelo DeepSeek R1 podría ejecutar localmente teniendo una RTX 4090 y 192 GB de RAM

  • Me pregunto qué tamaño de modelo sería adecuado para una Nvidia 4070

  • Ollama es casi perfecto. Pero no soportar Vulkan, y eso es un gran problema