Guía para desarrolladores de aplicaciones LLM de nivel comercial (traducción)

ninebow · 2023-11-24T13:10:09+09:00

Este artículo fue traducido con autorización a partir de un texto escrito por Tal Peretz, desarrollador de productos de IA en Zapier. Puedes consultar el texto original aquí, y sus puntos principales son los siguientes. Ingeniería de prompts - etapa inicial El papel de la evaluación: la Estrella del Norte (criterio para navegar) Adoptar un enfoque sistemático para las evaluaciones de IA / Systematic Approach to AI Evaluations Aprovechar datasets para pruebas en profundidad / Dataset Utilization for In-depth Testing Mejorar las evaluaciones con evaluaciones hechas por IA / Refining Evaluations with AI Assessments Métricas para evaluar / Metrics to evaluate La evaluación humana como estándar de referencia / Human Evaluation as the Gold Standard RAG: información profunda y contextual cuando sea necesaria Técnicas para experimentar / Techniques to Experiment With Fine-tuning: el arte de la especialización Falta de datos de entrenamiento: el equilibrio entre cantidad y calidad / Insufficient Training Data: The Quantity-Quality Equilibrium Conjuntos de entrenamiento desbalanceados: el dilema del sesgo / Unbalanced Training Sets: The Bias Dilemma Reutilización de datos públicos: la necesidad de nuevas señales / Reusing Public Data: The New Signal Imperative Ingeniería de prompts deficiente: el mandato de la claridad / Poor Prompt Engineering: The Clarity Commandment No evaluar de forma incremental: la supervisión continua / Not Evaluating Incrementally: The Continuous Oversight Cuando se necesita todo Para cerrar

(discuss.pytorch.kr)

32 puntos por ninebow 2023-11-24 | 3 comentarios | Compartir por WhatsApp

Este artículo fue traducido con autorización a partir de un texto escrito por Tal Peretz, desarrollador de productos de IA en Zapier.
Puedes consultar el texto original aquí, y sus puntos principales son los siguientes.

Ingeniería de prompts - etapa inicial
El papel de la evaluación: la Estrella del Norte (criterio para navegar)
- Adoptar un enfoque sistemático para las evaluaciones de IA / Systematic Approach to AI Evaluations
- Aprovechar datasets para pruebas en profundidad / Dataset Utilization for In-depth Testing
- Mejorar las evaluaciones con evaluaciones hechas por IA / Refining Evaluations with AI Assessments
- Métricas para evaluar / Metrics to evaluate
- La evaluación humana como estándar de referencia / Human Evaluation as the Gold Standard
RAG: información profunda y contextual cuando sea necesaria
- Técnicas para experimentar / Techniques to Experiment With
Fine-tuning: el arte de la especialización
- Falta de datos de entrenamiento: el equilibrio entre cantidad y calidad / Insufficient Training Data: The Quantity-Quality Equilibrium
- Conjuntos de entrenamiento desbalanceados: el dilema del sesgo / Unbalanced Training Sets: The Bias Dilemma
- Reutilización de datos públicos: la necesidad de nuevas señales / Reusing Public Data: The New Signal Imperative
- Ingeniería de prompts deficiente: el mandato de la claridad / Poor Prompt Engineering: The Clarity Commandment
- No evaluar de forma incremental: la supervisión continua / Not Evaluating Incrementally: The Continuous Oversight
Cuando se necesita todo
Para cerrar

3 comentarios

cosine20 2023-11-27

Gracias por compartirlo.

apkas 2023-11-24

Parece que es casi el mismo contenido que A Survey of Techniques for Maximizing LLM Performance publicado por OpenAI, ¿no?

ninebow 2023-11-25

No había visto el video de OpenAI DevDay y recién ahora me entero de que existe la sesión que mencionaste. :)
¡Gracias por avisarme!

(+ ¡Comparto el enlace de YouTube que encontré para otras personas!)
https://www.youtube.com/watch?v=ahnGLM-RC1Y

Guía para desarrolladores de aplicaciones LLM de nivel comercial (traducción)

Lecturas relacionadas

3 comentarios