Pregunta de HN: ¿Alguien está haciendo proyectos interesantes con Tiny Language Models?
(news.ycombinator.com)- Es una discusión sobre modelos en el rango de 0.5B-3B que se pueden usar en Ollama
- Es una pregunta sobre si alguien ha construido herramientas interesantes que usen estos modelos como parte de su flujo de trabajo
1 comentarios
Opiniones de Hacker News
configuré ollama para responder a mensajes SMS de spam. Le asigné a cada número una personalidad, como un amigo millennial del gimnasio o un caballero británico del siglo XIX
usé un modelo Llama para identificar avisos de cookies en sitios web y agregar reglas de filtrado a EasyList Cookie. La mayoría de los avisos de cookies tienen HTML/CSS similar, así que se puede tomar el
innerTexty usar un LLM pequeño para filtrar falsos positivos. Un modelo de 3B muestra un rendimiento decente con suficiente prompt engineering, y uno de 7B casi no tiene falsos positivos sin costo adicional. El código y los prompts se pueden ver en GitHubuso una mini PC con CPU n100 para generar historias de varios géneros y estilos. El ventilador de la CPU no se sobrecalienta, y aunque no es productivo, es divertido
uso un pequeño script de fish para generar tres mensajes de commit basados en el git diff actual. Estoy probando varios modelos y resulta útil cuando necesito ideas. El script y los ejemplos se pueden ver en GitHub
tengo un pequeño dispositivo que intenta declarar un "ganador" durante una conversación
recomiendo la charla de Jamie Brew "Comedy Writing With Small Generative Models". Vale la pena esperar hasta que saque la guitarra y empiece a tocar
Microsoft presentó el modelo FLAME (60M parámetros). Supera a modelos mucho más grandes (más de 100B parámetros) en reparación/completado de fórmulas de Excel
Micro Wake Word es un conjunto de modelos de dispositivo y una biblioteca de activación por voz para ESPs. Hace poco se implementó en Home Assistants como una alternativa completamente local a Alexa
ajusté finamente Gemma 2B para identificar mensajes urgentes de nuevas embarazadas en una línea telefónica de asesoría de salud materna operada por el gobierno
hice un modelo de alrededor de 1m parámetros para generar cartas aleatorias de Magic the Gathering. Está basado en nanogpt de Karpathy con algunas funciones añadidas. Si tienes una Mac con Apple silicon, puedes generar el modelo directamente desde GitHub