Jeff Dean: las últimas tendencias en machine learning [Video]

(youtube.com)

25 puntos por GN⁺ 2024-02-21 | 3 comentarios | Compartir por WhatsApp

Jeff Dean (Google): tendencias interesantes del machine learning

Tendencias interesantes y expectativas en el aprendizaje automático

En los últimos años, el aprendizaje automático ha cambiado enormemente nuestras expectativas sobre lo que las computadoras pueden hacer.
En áreas como lenguaje, imágenes y procesamiento de lenguaje natural, las computadoras han adquirido la capacidad de percibir y comprender mejor el mundo.
Los avances en tecnologías que permiten a las computadoras ver y detectar han abierto muchas oportunidades en casi todos los ámbitos de la actividad humana.
Los avances en recursos de cómputo a mayor escala y en computadoras especializadas ofrecen mejores resultados y han abierto nuevas posibilidades.
Necesitamos formas más diversas de hardware que puedan funcionar con alta eficiencia, acotando de manera más eficiente el rango de tareas que las computadoras pueden realizar.

Avances en reconocimiento de voz, traducción y análisis de imágenes, y mejora en la precisión de las predicciones

La tecnología de reconocimiento de voz convierte formas de onda de audio en fragmentos significativos de habla de unos 5 segundos, y ha tenido grandes avances.
La tecnología de traducción está evolucionando como una función en la que las traducciones de un idioma a otro resultan de gran ayuda para las computadoras.
La tecnología de análisis de imágenes ha avanzado mucho en visión por computadora, hasta el punto de convertir no solo etiquetas, sino también escenas en oraciones cortas descriptivas.
Además, en los últimos años también se ha vuelto posible usar estas tecnologías en sentido inverso.
Es sorprendente que en el transcurso de 10 años se hayan logrado mejoras de desempeño que superan incluso la precisión humana.

La importancia del escalado de hardware para mejorar la calidad de los modelos de IA

El 'Word Error Rate', un benchmark representativo para medir la precisión del reconocimiento de voz, mejoró drásticamente de 13.25% a 2.5%.
Gracias a esto, la usabilidad mejoró mucho y ahora es lo suficientemente confiable como para dictar correos electrónicos o hacer dictado.
En particular, el escalado del hardware ayuda a mejorar la calidad de los modelos, y para ello se necesita hardware optimizado para machine learning.
Los modelos de redes neuronales tienen la característica de que pueden usar precisión reducida sin problemas, lo que permite un entrenamiento más eficiente.
Además, los algoritmos usados para entrenar modelos están compuestos por diversas combinaciones de operaciones de álgebra lineal, por lo que se necesitan computadoras capaces de procesar de forma eficiente operaciones de álgebra lineal de precisión reducida.

Evolución de las redes de computadoras y entusiasmo por los modelos de lenguaje

La primera generación consistía en una red simple pero de alto ancho de banda. Cada chip estaba conectado en una cuadrícula 2D, y en una grilla de 16x6 estaba unido por cables a 4 chips vecinos.
Esto evitaba tener que hacer routing en la red y, al conectar los chips a distancias cortas, permitía alto ancho de banda y conexiones baratas.
En la siguiente generación se escaló a 1024 chips en 8 racks, y en la generación posterior se usaron 64 chips en cada uno de 64 racks.
En particular, recientemente apareció la serie V5, y el modelo V5P, que usa 256 chips para inferencia distribuida, ofrece más memoria por chip, mayor ancho de banda y mayor ancho de banda de memoria.
Este modelo ofrece casi medio petaflop por chip en rendimiento de punto flotante de 16 bits, y en XOR flops puede calcularse en alrededor de 9,000 chips por chip.
Uno de los campos en los que más cambios se están produciendo en lo que las computadoras pueden hacer es el lenguaje. Ya hablamos de los avances en reconocimiento de imágenes y voz, pero en realidad el interés por los modelos de lenguaje existe desde antes de las redes NN. Por eso colaboramos con el equipo de Google Translate para investigar modelos de lenguaje.

Construcción de un sistema de traducción de alta calidad con grandes volúmenes de datos y técnicas simples

Se buscó llevar a uso real un sistema de traducción de alta calidad desarrollado para competencias científicas
Se construyó un sistema que calcula con qué frecuencia aparecen secuencias de 5 palabras en 2 billones de tokens y almacena en memoria 300 mil millones de 5-grams únicos
Al buscar datos inexistentes, se desarrolló un nuevo algoritmo llamado 'stupid backoff' que consulta los 4-grams, 3-grams, etc. anteriores
Se obtuvo la lección de que una técnica simple, al combinarse con grandes volúmenes de datos, puede producir resultados efectivos

Representar palabras como vectores de alta dimensión para acercar las que comparten contexto y alejar las de contextos distintos

En lugar de representar las palabras de forma discreta, se las representa como vectores de alta dimensión, acercando las que aparecen en contextos similares y alejando las que aparecen en contextos distintos.
Usando enormes cantidades de datos y un proceso de entrenamiento, se acercan en el espacio las palabras que aparecen en contextos parecidos y se alejan las que aparecen en otros contextos, agrupando así palabras similares.
La representación distribuida codifica mucha información en un vector de 100 dimensiones que representa una palabra, y con este método se desarrolló el modelo de traducción 'sequence to sequence learning'.
'Sequence to sequence learning' usa una red neuronal para recibir oraciones una por una, construir la oración y actualizar la representación distribuida de cada palabra para producir la traducción.

Uso de modelos para traducción de lenguaje natural y diálogos multiturno

Los datos de entrenamiento contienen oraciones en inglés y sus correspondientes oraciones en francés con el mismo significado, y con esos datos se entrena el modelo.
Se construye un modelo que, a partir de una oración de entrada en inglés, traduce una oración en francés.
Para diálogos multiturno, se entrena al modelo para generar respuestas apropiadas usando un contexto compuesto por interacciones previas.
Se usa el modelo Transformer para procesar la entrada en paralelo y concentrarse en cada parte, mejorando la precisión de la traducción.
Actualmente, gracias a los avances en algoritmos y hardware para machine learning, es posible entrenar modelos a mayor escala y generar respuestas más eficientes.

Desarrollo de un modelo conversacional multimodal capaz de procesar distintas modalidades sin distinción

Se habló del avance de modelos conversacionales neuronales como Mina de OpenAI, ChatGPT y Bard de Google.
También se mencionaron cambios en los modelos de lenguaje, así como los trabajos GPT2 de OpenAI y T5 de Google. Estos modelos están aumentando mucho en cantidad de parámetros.
Se comentó la evolución del Transformer, que sirve de base para estos trabajos.
Se habló de proyectos como GPT3 y GPT-4 de OpenAI, y Gemini de Google. El proyecto Gemini busca desarrollar un modelo que pueda procesar simultáneamente no solo texto, sino también imágenes, audio y otras modalidades.
El proyecto Gemini procesa texto, imágenes, video y audio como una sola secuencia, y entrena el modelo con base en Transformer. Con ello, puede construir representaciones consistentes para distintas modalidades.

Infraestructura de entrenamiento de TensorFlow, productos Gemini de distintos tamaños y sistema de recuperación automática

Gemini de TensorFlow se ofrece en tres tamaños: Ultra, Pro y Nano, y cada modelo es adecuado para distintos usos o entornos.
Gemini ofrece una infraestructura muy escalable para el entrenamiento de modelos, con una red de alto rendimiento y un sistema de recuperación automática.
Para minimizar los failures detectados, se ejecutan actualizaciones simultáneas en entornos multinodo, se restaura el estado de otras copias mediante una red de alta velocidad y se reduce el tiempo de recuperación a unos pocos segundos.
Se entrena el modelo con diversos tipos de datos, como documentos web, libros, código, imágenes, audio y video.
La composición final de los datos de entrenamiento se decide experimentando con modelos pequeños y evaluando el desempeño, usando distintos indicadores para encontrar la mezcla óptima de datos.

La calidad de los datos es importante y debe considerarse. Es más importante que la arquitectura del modelo.

Al final del entrenamiento, se agregan datos multilingües usando datos relacionados con el dominio.
Los datos de alta calidad marcan una gran diferencia en el rendimiento del modelo.
La capacidad de aprender automáticamente un currículo es una de las áreas de investigación del futuro.
También se está investigando cómo hacer preguntas de manera que el modelo pueda responder con mayor efectividad y cómo aprovechar al máximo sus fortalezas.
Si se usa la técnica de prompting de chain of thought, el modelo puede considerar más pasos y dar respuestas más precisas.

Conocer los resultados de la evaluación y el análisis de desempeño del modelo

Este modelo presenta como ejemplo un caso en el que un estudiante llegó a una respuesta incorrecta y señala las partes que deben corregirse.
El modelo fue evaluado en 32 benchmarks académicos, y Gemini Ultra mostró resultados que superan el desempeño esperado previamente en 30 de ellos.
Este modelo también considera el desempeño multilingüe y analiza trade-offs complejos.
Se observó que este modelo sobresale en comprensión de video y capacidades multimodales, y que logró resultados destacados en varios benchmarks.

Gemini tiene un excelente desempeño en reconocimiento de voz y capacidades multilingües, e incluso puede programar como chatbot

El modelo Gemini mostró tasas de error de primer nivel en varios estándares de reconocimiento de voz y también tiene buenas capacidades multilingües.
El equipo ya había dedicado mucho esfuerzo a evaluar el modelo y comprender en detalle sus capacidades.
Resultó muy sorprendente que Gemini también pudiera proporcionar información útil y código de programación.
Además, se explica que también tiene conocimiento sobre TPUs y que ofrece una excelente eficiencia y mejoras de rendimiento.
El modelo Gemini puede tener distintas personalidades de chatbot; entre ellas, Bard actúa como un amigo útil que ayuda con preguntas, y se sabe que este modelo obtuvo una alta puntuación ELO en el sitio LMY.

Uso de modelos de inteligencia artificial y entrenamiento por dominio

Existen varios modelos, y entre ellos hay servicios gratuitos que muestran rankings y otros servicios de pago que no.
Gemini calcula el 'número de empresas por millón de habitantes' en Inglaterra, Estados Unidos, Corea del Sur, Taiwán y Singapur, y lo presenta en forma de tabla.
La cifra más alta corresponde a Inglaterra, y luego lo interpreta, ordenando después a Estados Unidos, Corea del Sur, Taiwán y Singapur.
Cada dato se recopila a partir de distintas fuentes, y los números reales pueden variar ligeramente según la definición exacta.
Si los modelos de inteligencia artificial se entrenan por dominio, pueden obtenerse resultados especializados para problemas específicos.

Explicación rápida sobre modelos generativos que crean imágenes y video

En este video se explica brevemente qué son los modelos generativos que producen imágenes y video.
Como proyectos de investigación relacionados se mencionan 'Party' e 'Imagine', y al crear modelos que generan imágenes visuales, puede usarse entrada de texto para producir una imagen específica.
Por ejemplo, ante una entrada de texto que pide crear una imagen nueva, el modelo la interpreta y genera una imagen real.
Estos modelos generativos crean imágenes basadas en descripciones de objetos y representaciones textuales de los píxeles.
De esta forma, es posible generar imágenes basadas en el texto deseado.

Los avances en funciones de imagen ofrecen comodidad a los usuarios de smartphones

Si se entrenan varios modelos de análisis de imágenes con distintos parámetros, los resultados varían según la escala.
Las funciones de la cámara del smartphone han mejorado aún más gracias a la combinación de fotografía computacional y machine learning.
Funciones como modo foto, modo nocturno, realce de color y respuesta automática en conversaciones permiten transformación en tiempo real y extracción de texto.
Estas funciones consideran el contexto del usuario para ofrecer transformaciones y respuestas que parecen casi imposibles.
Ofrecen ventajas revolucionarias en entornos con alfabetización limitada, como transmisión de imágenes nítidas y traducción multilingüe.

Uso de técnicas de machine learning en ciencia de materiales y salud

En ciencia de materiales, el machine learning se está usando y está influyendo en diversos aspectos, como la creación de simuladores rápidos.
Existe un gran potencial para investigar materiales posibles e identificar materiales con determinadas propiedades mediante machine learning.
En el ámbito de la salud, el machine learning también se usa para el diagnóstico por imagen médica y puede detectar temprano enfermedades como la retinopatía diabética.
Mediante el análisis de imágenes médicas, es posible clasificar pacientes incluso en regiones con escasez de médicos, y los modelos de IA pueden tener una eficacia similar a la de especialistas.

Mientras el machine learning y las computadoras transforman el mundo, principios sobre su aplicación y responsabilidad

Se realizan screening rápidos con GPU y diagnósticos dermatológicos a partir de fotografías
Se anunciaron principios sobre la aplicación del machine learning, como eliminar sesgos injustos, interpretabilidad del modelo, consideración de la privacidad y beneficio social
Actualmente siguen en marcha investigaciones sobre sesgos, privacidad y seguridad
Se espera que, con los avances en machine learning y computación, sean posibles conversaciones e interacciones naturales con los usuarios, y que las computadoras puedan comprender y generar distintos tipos de información
Junto con el potencial de estas tecnologías, también se debe asumir responsabilidad hacia la sociedad

A través de las preguntas surgidas, se discute la importancia de los datos y las necesidades de los clientes

Se comparten algunas preguntas con ciertas tendencias entre las recibidas por Slido.
En el área de datos, los datos de alta calidad y la capacidad del modelo pueden mejorar su desempeño.
Pero también hay que considerar la calidad de los datos y el tamaño del modelo. Los datos de baja calidad pueden afectar negativamente, por ejemplo, la capacidad del modelo para resolver problemas matemáticos.
El entrenamiento con grandes cantidades de datos de video aún no ha ocurrido lo suficiente, y comprender el mundo a través de datos visuales y de voz, además de datos de lenguaje, será diferente a aprender solo con lenguaje.
En general, los datos aún no se han agotado y todavía existe mucho margen para avanzar.

¿Los modelos multimodales tendrán mejor desempeño que los modelos dirigidos a cada dominio?

En algunos casos, los modelos multimodales pueden tener mejor desempeño.
A medida que aumentan las modalidades, tiende a mejorar el rendimiento en otras modalidades.
Si se recopila un dataset orientado a un problema estrecho, el rendimiento sobre ese problema puede ser mayor.
Pero cuando el problema es complejo o resulta difícil recopilar datos especializados, se necesita un modelo con conocimientos diversos.
Como a las personas con pocos recursos les resulta difícil entrenar modelos grandes, en el campo del machine learning pueden explorarse diversos temas de investigación.

Investigación de modelos con GPU y énfasis en la importancia de diversas modalidades de datos

Es posible investigar temas como evaluación de calidad de datos, evaluación automática, aprendizaje de currículo en línea y métodos de optimización usando una sola GPU o unas pocas GPU.
La investigación sobre Transformer se llevó a cabo sobre 8 GPU. Los LLM y los modelos sequence-to-sequence también se investigaron con 8 GPU.
Se han planteado dudas sobre si los LLM y Transformer lo son todo, y existe reflexión sobre cuál es el papel de investigar otros modelos en el campo del machine learning.
Existe la preocupación de que otros avances valiosos no se concreten por excluir ideas menos exploradas o insuficientemente desarrolladas.
Se considera importante tratar diversas modalidades, y además de lo visual, el audio y el lenguaje, también deben considerarse otras modalidades, como datos de sensores de ritmo cardíaco en medicina.

3 comentarios

everfrost314 2024-02-21

Parece que la mitad es sobre Gemini jaja

xguru 2024-02-21

El contenido del video fue resumido por Lilys.AI.

https://lilys.ai/digest/297050/…

iyeti 2024-02-21

Gracias... como xguru ya lo había hecho, pude ver el resultado en 1 segundo... ^^

Jeff Dean: las últimas tendencias en machine learning [Video]

Lecturas relacionadas

3 comentarios