Grok-1.5 Vision Preview: presentación del primer modelo multimodal con capacidades avanzadas de procesamiento visual

(x.ai)

5 puntos por brainer 2024-04-14 | Aún no hay comentarios. | Compartir por WhatsApp

• Grok-1.5V, el modelo multimodal de primera generación, ahora puede procesar una amplia variedad de información visual, incluidos documentos, diagramas, gráficos, capturas de pantalla y fotografías, además de sus potentes capacidades de texto.

• Grok-1.5V supera a los modelos multimodales existentes en diversas áreas, como razonamiento multidisciplinario, comprensión de documentos, diagramas científicos, gráficos, capturas de pantalla y fotografías, y demuestra una capacidad sobresaliente para comprender el mundo físico.

• Se presenta un nuevo benchmark, RealWorldQA, para evaluar las capacidades básicas de comprensión espacial del mundo real en modelos multimodales, compuesto por más de 700 imágenes con preguntas y respuestas fáciles de verificar.

• Grok-1.5V pronto estará disponible para testers tempranos y usuarios existentes de Grok, y sus capacidades multimodales se están expandiendo activamente a distintas modalidades como imágenes, audio y video.

Grok-1.5 Vision Preview: presentación del primer modelo multimodal con capacidades avanzadas de procesamiento visual

Lecturas relacionadas

Aún no hay comentarios.