6 puntos por lemonmint 2024-12-06 | Aún no hay comentarios. | Compartir por WhatsApp

Google anunció PaliGemma 2, el modelo de visión-lenguaje más reciente de la familia Gemma. PaliGemma 2 se basa en el modelo Gemma 2 existente y amplía las posibilidades de diversas aplicaciones de IA al añadir capacidades para comprender e interactuar con imágenes.

  • Rendimiento escalable: ofrece varios tamaños de modelo (3B, 10B, 28B parámetros) y resoluciones (224px, 448px, 896px) para brindar un rendimiento optimizado para distintas tareas.
  • Generación de subtítulos largos: genera subtítulos detallados y contextualizados para imágenes, y va más allá de la simple identificación de objetos para describir acciones, emociones y la historia general de la escena.
  • Expansión a nuevas áreas: muestra un rendimiento sobresaliente en diversos campos, como reconocimiento de fórmulas químicas, reconocimiento de partituras, razonamiento espacial y generación de informes de radiografías de tórax.
  • Actualización y fine-tuning sencillos: los usuarios existentes de PaliGemma pueden actualizar fácilmente y ajustar el modelo con facilidad para tareas y conjuntos de datos específicos.

Expansión del ecosistema Gemmaverse:

Desde el lanzamiento de PaliGemma, la familia Gemma ha crecido rápidamente hasta convertirse en Gemmaverse, un ecosistema activo con decenas de miles de modelos y aplicaciones. Diversos casos innovadores, como los avances de ColPali en búsqueda visual de documentos, la tecnología de fine-tuning de RoboFlow y los avances en seguimiento de objetos en tiempo real, muestran el potencial de Gemmaverse.

Aún no hay comentarios.

Aún no hay comentarios.