Lo que la IA multimodal puede hacer además de generar imágenes
(blog.naver.com)La IA multimodal, además de generar imágenes, puede completar imágenes incompletas, predecir la siguiente intervención en un video, realizar búsquedas combinadas de texto+imagen, traducir cómics, predecir el riesgo de desarrollar cáncer y detectar discurso de odio.
- Completar imágenes incompletas
- NÜWA, desarrollada por Microsoft Research Asia y la Universidad de Pekín, mostró funciones relacionadas.
- Al recibir una imagen incompleta, la termina de rellenar y la completa.
- Si se le da un boceto, genera una imagen o un video acorde con él.
- También predice y muestra la siguiente escena de un video.
- Predecir la siguiente intervención en un video
- Un modelo desarrollado por Google Research puede predecir la siguiente intervención cuando se le dan una escena de video y la transcripción de lo dicho por el hablante.
- El video y el texto se usan como “contexto” para predecir lo que dirá el hablante.
- Búsqueda de texto+imagen
- MUM, desarrollado por Google, puede entender una imagen si el usuario sube a la barra de búsqueda una foto de botas de senderismo y escribe: “¿Podría usar estos zapatos para subir el monte Fuji?”, y relacionarla con la pregunta del usuario para responder que “las botas de senderismo deberían funcionar bien”.
- También puede mostrar blogs con listas de equipo recomendado.
- Traducción de cómics
- El “marco de traducción con reconocimiento de contexto multimodal”, presentado por investigadores de la Universidad de Tokio y la empresa japonesa de traducción automática Mantra, puede traducir cómics a otros idiomas considerando en conjunto las ilustraciones y los diálogos.
- Extrae información contextual como escenas, orden de lectura de los diálogos e información visual de imágenes de manga japonés.
- Con esa información, traduce del japonés al inglés los diálogos dentro de los globos de texto.
- Predecir el riesgo de desarrollar cáncer
- Una IA multimodal desarrollada por investigadores del Brigham and Women's Hospital y la Escuela de Medicina de Harvard puede predecir la probabilidad de desarrollar cáncer tomando como referencia fotos de tejido celular y datos genómicos basados en texto.
- Los investigadores entrenaron dos modelos individuales con fotos microscópicas de tejido celular y datos genómicos basados en texto.
- Después, ambos modelos se integran en un solo sistema para predecir si “el paciente tiene un riesgo alto o bajo de padecer varios tipos de cáncer”.
- Aprender la “imagen” de un objeto específico y reconocer los “datos 3D” o el “video” del mismo objeto
- Omnivore, presentado por Meta, pudo reconocer también un modelo 3D de una calabaza aun habiendo aprendido solo imágenes de calabazas.
- También pudo reconocer incluso videos de un yate aun habiendo aprendido solo imágenes de yates.
- Detectar discurso de odio
- La IA multimodal también puede ayudar a detectar discurso de odio en publicaciones de redes sociales tomando en cuenta tanto la imagen como el texto.
- El discurso de odio también puede presentarse en forma de memes que combinan imagen y texto.
- Meta explica que, para que “la IA reconozca si un meme es odioso o no”, debe considerar tanto la imagen del meme como su contenido textual.
- Un meme con la foto de un desierto vacío y la frase “Mira cuánta gente te quiere” es sutilmente agresivo.
- Para que la IA descubra el significado real de un meme que contiene discurso de odio, debe analizar el meme en su conjunto.
- Debe combinar imagen y texto, y entender cómo cambia el significado cuando aparecen juntos.
- Se espera que la IA multimodal pueda cumplir esta función procesando simultáneamente imagen y texto.
- Meta considera que su capacidad de comprender de forma integral el contenido de publicaciones en redes sociales para reconocer discurso de odio evolucionará con la IA multimodal.
- Meta creó y compartió el dataset ‘Hateful Memes’, que ayuda a desarrollar sistemas para identificar discurso de odio multimodal.
Aún no hay comentarios.