Tengo una pregunta sobre los modelos GPT: pensaba que el modelo elegía la palabra más probable, pero si elige una de las palabras "probables", ¿no haría eso que la lista de predicción de la siguiente palabra fuera mucho menos probable? Si fuera computacionalmente viable evaluar la probabilidad de "dos palabras juntas", sería más útil, y eso también podría aplicarse a 3, 4, n palabras. Me pregunto si existe algo así.
Editado después de ver el video y leer los comentarios: para controlar este problema se usan beam search y temperature.
No se me ocurre alguien mejor para enseñarle el mecanismo de atención a las masas. Parece un sueño hecho realidad.
Es un remedio sorprendente para el contenido del Día de los Inocentes de abril. Quisiera inyectármelo directamente.
En el canal de Andrej Karpathy hay algunos videos interesantes sobre redes neuronales y su funcionamiento interno, dirigidos a personas que saben programar. Lo recomiendo si te gustó esto.
El siguiente token se elige muestreando los logits de la columna final después del unembedding. Pero ¿eso no sería simplemente volver a elegir el último token? ¿O en algún paso la matriz se redimensiona a N+1?
No puedo esperar al próximo video. Siento que por fin voy a poder interiorizar y entender cómo funcionan estas cosas.
3B1B es uno de los mejores educadores de STEM en YouTube.
1 comentarios
Comentarios en Hacker News