1 puntos por GN⁺ 2023-09-29 | 1 comentarios | Compartir por WhatsApp
  • El 25 de septiembre de 2023, OpenAI anunció el lanzamiento de dos nuevas capacidades de GPT-4, su modelo avanzado
  • Estas nuevas capacidades permiten a los usuarios hacer preguntas sobre imágenes y usar la voz como entrada de consulta, convirtiendo a GPT-4 en un modelo multimodal
  • GPT-4V(ision), o GPT-4V, es un modelo multimodal que permite a los usuarios subir imágenes como entrada y hacer preguntas sobre ellas; esto se conoce como la tarea de Visual Question Answering (VQA)
  • GPT-4V fue probado en diversas tareas, como Visual Question Answering, reconocimiento óptico de caracteres (OCR), OCR matemático, detección de objetos, CAPTCHA, crucigramas y sudoku
  • El modelo tuvo buen desempeño en preguntas generales sobre imágenes y mostró reconocimiento de contexto en algunas imágenes. También pudo responder con éxito preguntas sobre películas mostradas en imágenes, incluso sin que se le indicara por texto cuál era la película
  • Sin embargo, GPT-4V tiene limitaciones. No pudo devolver con precisión cuadros delimitadores para detección de objetos, lo que indica que por ahora no es adecuado para ese uso. Además, a veces devuelve información inexacta debido a hallucinations
  • OpenAI realizó investigación ofreciendo una versión alfa del modelo de visión a un pequeño grupo de usuarios, y obtuvo retroalimentación e ideas sobre cómo funciona GPT-4V a través de prompts proporcionados por personas diversas
  • OpenAI trató de identificar, investigar y mitigar varios riesgos relacionados con el modelo. Por ejemplo, GPT-4V evita identificar a personas específicas en imágenes y no responde a prompts relacionados con símbolos de odio
  • A pesar de sus limitaciones, GPT-4V representa un movimiento notable en los campos del aprendizaje automático y el procesamiento de lenguaje natural

1 comentarios

 
GN⁺ 2023-09-29
Opinión de Hacker News
  • Artículo sobre el potencial del modelo de IA GPT-4V, con la predicción de que podría convertirse en una excelente interfaz de usuario para diversos dispositivos y aplicaciones.
  • A pesar de algunos fallos extremos, es impresionante la capacidad de la IA para comprender e interactuar con elementos de interfaz y diseños.
  • GPT-4V puede describir con precisión imágenes de cómics panel por panel, lo que demuestra capacidades avanzadas de visión por computadora.
  • La capacidad de la IA para interpretar el humor en imágenes ha mejorado mucho en la última década.
  • Algunas limitaciones de GPT-4V incluyen interpretar mal la estructura de tableros de juego o pasar por alto ciertos elementos de una imagen.
  • La IA no logra explicar con precisión un chiste sobre la estrategia de precios de las GPU de NVIDIA.
  • Las respuestas de GPT-4V pueden ser inconsistentes, especialmente al interpretar monedas dentro de un conjunto de monedas.
  • La IA a menudo duda al responder preguntas subjetivas, lo que genera quejas de algunos usuarios.
  • A pesar de sus funciones avanzadas, GPT-4V todavía tiene dificultades incluso con juegos simples como el tres en raya.