12 puntos por ironlung 2022-09-22 | Aún no hay comentarios. | Compartir por WhatsApp

La IA multimodal, además de generar imágenes, puede completar imágenes incompletas, predecir la siguiente intervención en un video, realizar búsquedas combinadas de texto+imagen, traducir cómics, predecir el riesgo de desarrollar cáncer y detectar discurso de odio.

  1. Completar imágenes incompletas
  • NÜWA, desarrollada por Microsoft Research Asia y la Universidad de Pekín, mostró funciones relacionadas.
  • Al recibir una imagen incompleta, la termina de rellenar y la completa.
  • Si se le da un boceto, genera una imagen o un video acorde con él.
  • También predice y muestra la siguiente escena de un video.
  1. Predecir la siguiente intervención en un video
  • Un modelo desarrollado por Google Research puede predecir la siguiente intervención cuando se le dan una escena de video y la transcripción de lo dicho por el hablante.
  • El video y el texto se usan como “contexto” para predecir lo que dirá el hablante.
  1. Búsqueda de texto+imagen
  • MUM, desarrollado por Google, puede entender una imagen si el usuario sube a la barra de búsqueda una foto de botas de senderismo y escribe: “¿Podría usar estos zapatos para subir el monte Fuji?”, y relacionarla con la pregunta del usuario para responder que “las botas de senderismo deberían funcionar bien”.
  • También puede mostrar blogs con listas de equipo recomendado.
  1. Traducción de cómics
  • El “marco de traducción con reconocimiento de contexto multimodal”, presentado por investigadores de la Universidad de Tokio y la empresa japonesa de traducción automática Mantra, puede traducir cómics a otros idiomas considerando en conjunto las ilustraciones y los diálogos.
  • Extrae información contextual como escenas, orden de lectura de los diálogos e información visual de imágenes de manga japonés.
  • Con esa información, traduce del japonés al inglés los diálogos dentro de los globos de texto.
  1. Predecir el riesgo de desarrollar cáncer
  • Una IA multimodal desarrollada por investigadores del Brigham and Women's Hospital y la Escuela de Medicina de Harvard puede predecir la probabilidad de desarrollar cáncer tomando como referencia fotos de tejido celular y datos genómicos basados en texto.
  • Los investigadores entrenaron dos modelos individuales con fotos microscópicas de tejido celular y datos genómicos basados en texto.
  • Después, ambos modelos se integran en un solo sistema para predecir si “el paciente tiene un riesgo alto o bajo de padecer varios tipos de cáncer”.
  1. Aprender la “imagen” de un objeto específico y reconocer los “datos 3D” o el “video” del mismo objeto
  • Omnivore, presentado por Meta, pudo reconocer también un modelo 3D de una calabaza aun habiendo aprendido solo imágenes de calabazas.
  • También pudo reconocer incluso videos de un yate aun habiendo aprendido solo imágenes de yates.
  1. Detectar discurso de odio
  • La IA multimodal también puede ayudar a detectar discurso de odio en publicaciones de redes sociales tomando en cuenta tanto la imagen como el texto.
  • El discurso de odio también puede presentarse en forma de memes que combinan imagen y texto.
  • Meta explica que, para que “la IA reconozca si un meme es odioso o no”, debe considerar tanto la imagen del meme como su contenido textual.
  • Un meme con la foto de un desierto vacío y la frase “Mira cuánta gente te quiere” es sutilmente agresivo.
  • Para que la IA descubra el significado real de un meme que contiene discurso de odio, debe analizar el meme en su conjunto.
  • Debe combinar imagen y texto, y entender cómo cambia el significado cuando aparecen juntos.
  • Se espera que la IA multimodal pueda cumplir esta función procesando simultáneamente imagen y texto.
  • Meta considera que su capacidad de comprender de forma integral el contenido de publicaciones en redes sociales para reconocer discurso de odio evolucionará con la IA multimodal.
  • Meta creó y compartió el dataset ‘Hateful Memes’, que ayuda a desarrollar sistemas para identificar discurso de odio multimodal.

Aún no hay comentarios.

Aún no hay comentarios.