- El 25 de septiembre de 2023, OpenAI anunció el lanzamiento de dos nuevas capacidades de GPT-4, su modelo avanzado
- Estas nuevas capacidades permiten a los usuarios hacer preguntas sobre imágenes y usar la voz como entrada de consulta, convirtiendo a GPT-4 en un modelo multimodal
- GPT-4V(ision), o GPT-4V, es un modelo multimodal que permite a los usuarios subir imágenes como entrada y hacer preguntas sobre ellas; esto se conoce como la tarea de Visual Question Answering (VQA)
- GPT-4V fue probado en diversas tareas, como Visual Question Answering, reconocimiento óptico de caracteres (OCR), OCR matemático, detección de objetos, CAPTCHA, crucigramas y sudoku
- El modelo tuvo buen desempeño en preguntas generales sobre imágenes y mostró reconocimiento de contexto en algunas imágenes. También pudo responder con éxito preguntas sobre películas mostradas en imágenes, incluso sin que se le indicara por texto cuál era la película
- Sin embargo, GPT-4V tiene limitaciones. No pudo devolver con precisión cuadros delimitadores para detección de objetos, lo que indica que por ahora no es adecuado para ese uso. Además, a veces devuelve información inexacta debido a hallucinations
- OpenAI realizó investigación ofreciendo una versión alfa del modelo de visión a un pequeño grupo de usuarios, y obtuvo retroalimentación e ideas sobre cómo funciona GPT-4V a través de prompts proporcionados por personas diversas
- OpenAI trató de identificar, investigar y mitigar varios riesgos relacionados con el modelo. Por ejemplo, GPT-4V evita identificar a personas específicas en imágenes y no responde a prompts relacionados con símbolos de odio
- A pesar de sus limitaciones, GPT-4V representa un movimiento notable en los campos del aprendizaje automático y el procesamiento de lenguaje natural
1 comentarios
Opinión de Hacker News