5 puntos por GN⁺ 2023-10-25 | 1 comentarios | Compartir por WhatsApp
  • Un artículo que analiza el concepto de la técnica llamada "embeddings", que puede convertir contenido en arreglos de números de punto flotante para usarlos en diversas aplicaciones.
  • El autor, Simon Willison, dio una charla sobre embeddings en PyBay 2023, y este artículo es una versión mejorada de esa presentación.
  • Los embeddings se usan en el campo de los modelos de lenguaje grandes que impulsan tecnologías como ChatGPT, Bard y Claude.
  • El autor explica cómo usar el modelo text-embedding-ada-002 de OpenAI para crear una función de "contenido relacionado" en su blog.
  • El artículo también analiza cómo usar embeddings para código con una herramienta llamada Symbex, que puede calcular embeddings para todas las funciones de una base de código y construir un motor de búsqueda de código.
  • El autor presenta una herramienta llamada LLM (Large Language Models) que puede usarse para trabajar con embeddings y construir motores de búsqueda semántica.
  • El artículo también analiza cómo usar embeddings para imágenes con un modelo llamado CLIP, que puede incrustar texto e imágenes en el mismo espacio vectorial.
  • El autor explica cómo hacer clasificación usando embeddings, calculando la posición promedio de un grupo de embeddings y comparando nuevo contenido con esa posición para asignarle una categoría.
  • El artículo concluye con una discusión sobre Retrieval-Augmented Generation (RAG), una técnica que usa embeddings para responder preguntas basadas en documentos personales o documentos internos de una empresa.
  • El artículo incluye una sesión de preguntas y respuestas en la que el autor responde sobre LangChain, funciones de distancia distintas de la similitud coseno, procesamiento de grandes volúmenes de datos y futuras mejoras de los modelos de embeddings.

1 comentarios

 
GN⁺ 2023-10-25
Comentarios de Hacker News
  • Después de que el autor publicara el artículo, encontró material adicional para entender mejor los embeddings.
  • Los embeddings se han convertido en el método estándar para el reconocimiento de lugares en visión por computadora y algoritmos de SLAM visual.
  • Un ejemplo famoso de embeddings de palabras es King - Man + Women = Queen, pero esto no deja una impresión visual al proyectarse en dos dimensiones.
  • El autoencoding funciona bien a pesar de su simplicidad, y hay interés en buenos modelos de embeddings de documentos que puedan ejecutarse en hardware personal.
  • Fue sorprendentemente fácil agregar embeddings a una función existente de búsqueda experta en una app para tomar notas, y resultó ser más potente de lo esperado.
  • Un modelo mental para los embeddings en lenguaje es imaginar muchos puntos en varias posiciones dentro de un espacio de dimensiones extremadamente altas.
  • Hay limitaciones en los modelos comerciales de embeddings al construir para dominios específicos, y existe expectativa por mejores herramientas y bibliografía sobre cómo ajustar finamente modelos de embeddings.
  • El artículo fue útil e interesante incluso para personas con muy poca experiencia en aprendizaje automático.
  • Hay dudas sobre por qué el autor calcula el dot product usando cierto método en lugar de operaciones vectorizadas de numpy.
  • Hay confusión sobre el código de clustering usado en el artículo, en particular sobre cómo convierte cada fila de la base de datos en un arreglo de numpy y usa un modelo MiniBatchKMeans para generar etiquetas.