• Grok-1.5V, el modelo multimodal de primera generación, ahora puede procesar una amplia variedad de información visual, incluidos documentos, diagramas, gráficos, capturas de pantalla y fotografías, además de sus potentes capacidades de texto.
• Grok-1.5V supera a los modelos multimodales existentes en diversas áreas, como razonamiento multidisciplinario, comprensión de documentos, diagramas científicos, gráficos, capturas de pantalla y fotografías, y demuestra una capacidad sobresaliente para comprender el mundo físico.
• Se presenta un nuevo benchmark, RealWorldQA, para evaluar las capacidades básicas de comprensión espacial del mundo real en modelos multimodales, compuesto por más de 700 imágenes con preguntas y respuestas fáciles de verificar.
• Grok-1.5V pronto estará disponible para testers tempranos y usuarios existentes de Grok, y sus capacidades multimodales se están expandiendo activamente a distintas modalidades como imágenes, audio y video.
Aún no hay comentarios.