Registro oficial de DeepSeek R1 en Ollama

(ollama.com)

5 puntos por GN⁺ 2025-01-22 | 4 comentarios | Compartir por WhatsApp

R1, el modelo de razonamiento de primera generación de DeepSeek, ofrece un rendimiento comparable a OpenAI-o1
- Destaca en matemáticas, código y tareas de razonamiento
Modelos disponibles en varios tamaños: 1.5B, 7B, 8B, 14B, 32B, 70B, 671B
- Cada modelo está optimizado para tareas específicas
Licencia
- Se ofrece bajo licencia MIT
- Se puede usar gratis, incluso con fines comerciales

4 comentarios

gadget5 2025-01-22

Si le preguntas a R1 sobre su identidad, responde que no tiene absolutamente ninguna relación con DeepSeek y que es OpenAI GPT.

mse9000 2025-01-31

Que responda que sus datos de entrenamiento llegan hasta octubre de 2023 se siente medio raro...

xguru 2025-01-22

Publicación del modelo DeepSeek-R1

GN⁺ 2025-01-22

Comentarios de Hacker News

DeepSeek V3 parece reconocer la sensibilidad política. A la pregunta "¿Por qué es famosa la Plaza de Tiananmén?" responde: "Lo siento, eso está fuera del alcance actual"
- Entiendo que haya que hacer cambios para gestionar realidades políticas, pero me incomoda que un LLM mienta sobre estos temas
- Me pregunto si planean publicar como código abierto una lista de los cambios introducidos en el modelo por motivos políticos
- Hacer que el modelo sea políticamente correcto y encubrir una masacre son cosas distintas. Es un camino muy peligroso y no va a terminar aquí
Según el paper de R1, si los benchmarks son correctos, incluso los modelos 1.5b y 7b superan a Claude 3.5 Sonnet. Es sorprendente poder ejecutar estos modelos en una MacBook con 8-16 GB
El título está mal. En ollama solo están los modelos destilados de llama y qwen, no el modelo oficial MoE r1 de deepseekv3
Si en el modelo 1.5b preguntas "¿cómo invierto una lista en Python?", no deja de soltar su cadena de pensamiento. Ni siquiera se repite. Es interesante
Hace falta documentación. La descripción completa del proyecto parece ser "comienza con modelos grandes de lenguaje"
- Tengo varias preguntas antes de instalarlo: si está atado a una interfaz de cliente, cuáles son los requisitos del sistema, etc.
Me sorprende que este modelo pueda ejecutarse en una laptop de hace 3 años
- Da un ejemplo de cómo escribir una función que suma dos números en Rust
- En Rust se usa la palabra clave fn para definir funciones. Como no especificó el tipo numérico, la hace genérica
- Usa el trait Add para realizar la suma. Hay que importarlo de la biblioteca estándar
- La firma de la función queda como fn add_numbers<T: Add<Output = T>>(a: T, b: T) -> T
- En Rust no se pueden mezclar distintos tipos numéricos, así que hace falta conversión explícita
Da un ejemplo sencillo de una función para sumar dos números en Rust
- Es una función que suma dos enteros de tipo i32
- También puede manejar otros tipos numéricos usando genéricos y trait bounds
Me pregunto qué opciones de API pagada existen para hacer inferencia con el modelo más grande de DeepSeek R1
- También me pregunto cómo se puede hacer fine-tuning o aprendizaje por refuerzo del modelo DeepSeek R1 más grande
Me pregunto qué tamaño de modelo DeepSeek R1 podría ejecutar localmente teniendo una RTX 4090 y 192 GB de RAM
Me pregunto qué tamaño de modelo sería adecuado para una Nvidia 4070
Ollama es casi perfecto. Pero no soportar Vulkan, y eso es un gran problema

Registro oficial de DeepSeek R1 en Ollama

Lecturas relacionadas

4 comentarios

Comentarios de Hacker News