Ask HN: ¿Qué tendencias hay en ML que no queden enterradas por el ruido de los LLM?

(news.ycombinator.com)

19 puntos por GN⁺ 2024-03-29 | Aún no hay comentarios. | Compartir por WhatsApp

En el campo del aprendizaje automático (ML) y la ciencia de datos, que queda opacado por el ruido de los modelos de lenguaje grandes (LLMs), están ocurriendo varias cosas interesantes
Cynthia Rudin sigue publicando investigaciones destacadas sobre inteligencia artificial (AI) explicable
Proyectos interesantes de los últimos meses:
- Reconstrucción de escenas 3D a partir de unas cuantas imágenes: NAVER LABS Europe
- Avatares gaussianos: Gaussian Avatars
- Códec gaussiano con reiluminación: Relightable Gaussian Codec
- Seguimiento de todo: Co-Tracker, Omnimotion
- Segmentación de todo: Segment Anything by Facebook Research
- Excelentes modelos de estimación de pose humana: Yolov8, los modelos MediaPipe de Google
- TTS realista: XTTS-v2 by Coqui on Hugging Face, Bark TTS
- Excelente STT: en su mayoría basado en Whisper
- Traducción automática: por ejemplo, SeamlessM4T de Meta
- Admiración por muchos de los resultados que salen del I+D de Meta
Explicación sobre NeRFS:
- Es una forma de replantear fundamentalmente los gráficos 3D: en lugar de polígonos con textura, se colocan esferas translúcidas brillantes
- La posición y el color de las esferas se aprenden mediante una red neuronal usando tomas multicámara precisas y poses, y pueden renderizarse mediante ray tracing en la GPU
- Como las escenas se generan a partir de fotografías, son completamente realistas, pero también se pueden explorar
- En teoría se podrían animar estas escenas, pero cómo hacerlo en la práctica sigue siendo un problema de investigación
- No está claro si esto será mejor que sistemas basados en polígonos optimizados como Nanite+photogrammetry
Pregunta sobre herramientas que permitan crear una escena 3D a partir de video de una carretera grabado desde un vehículo:
- El enfoque está en el paisaje alrededor de la carretera, se puede conducir varias veces desde distintos ángulos y no importa que el procesamiento tome mucho tiempo
- La idea es crear carreteras locales para usar en un simulador de carreras
Interés en el deep learning geométrico:
- Cómo diseñar modelos de forma principista para que respeten las simetrías conocidas de los datos
- Las ConvNets son conocidas por su equivariancia traslacional, pero también hay ejemplos recientes para otros grupos de simetría
- También surge la pregunta de si es posible descubrir o identificar automáticamente ciertas simetrías específicas
Presentación del maratón de machine learning organizado por la comunidad ML+X de UW-Madison:
- Un evento de verano de unas 12 semanas que será presentado como competencia en Kaggle
- Una oportunidad para aprender y aplicar herramientas de machine learning en conjunto para encontrar soluciones innovadoras sobre datasets reales
- Hay diversos desafíos y es adecuado tanto para principiantes como para practicantes avanzados
- Participantes, asesores de proyectos y organizadores del evento se reúnen semanal o quincenalmente para compartir consejos y hacer demos/discusiones breves
- Además de la recompensa intrínseca de mejorar habilidades y construir comunidad, los equipos ganadores reciben premios en efectivo
Presentación de RT-2, un modelo Vision-Language-Action (VLA), primo de los LLMs:
- Además de datos de texto y visión, incluye datos de movimiento robótico como "otro lenguaje" y los usa como tokens que producen acciones de movimiento del robot
Opinión de que los modelos de visión por computadora de la familia SAM han vuelto en cierta medida innecesarios muchos servicios y herramientas de anotación humana:
- Es posible lograr etiquetado automático de datos visuales con una calidad relativamente alta
Experiencia compartida sobre el lanzamiento de Scholars.io para obtener investigación reciente sobre temas específicos de interés en arXiv:
- Al poder filtrar investigaciones que no interesan, se espera que ayude a otros a encontrar actividad investigadora más allá de los LLM
Pregunta sobre si sigue valiendo la pena seguir aprendiendo ML en 2024, junto con una mención de la intuición personal:
- Se comparte experiencia trabajando en proyectos paralelos usando xgboost
- Se siente que ML sigue valiendo la pena, pero no hay total certeza

Ask HN: ¿Qué tendencias hay en ML que no queden enterradas por el ruido de los LLM?

Lecturas relacionadas

Aún no hay comentarios.