LLaVA 1.5 : Une alternative open source à GPT-4 Vision
L’avènement des modèles langage multimodaux (LMM) marque une nouvelle ère dans le domaine de l’intelligence artificielle générative. Cette évolution, incarnée par GPT-4 Vision d’OpenAI, prend une nouvelle dimension avec l’arrivée de LLaVA 1.5, une solution open source qui se démarque par son accessibilité et son innovation.
Le fonctionnement des LMM
Les LMM sont basés sur une architecture multicouche. Ils combinent un modèle pré-entraîné pour le traitement des éléments visuels, un grand modèle de langage (LLM) pour comprendre et répondre aux instructions de l’utilisateur, et un connecteur multimodal qui établit le lien entre vision et langage.
Leur formation se déroule en deux étapes : un premier processus d’alignement entre vision et langage, suivi d’un ajustement fin pour répondre aux requêtes visuelles. Bien que ce processus soit efficace, il nécessite souvent des ressources computationnelles importantes et une base de données riche et précise.
Les avantages de LLaVA 1.5
LLaVA 1.5 utilise le modèle CLIP pour l’encodage visuel et Vicuna pour le langage. Contrairement à LLaVA, qui utilisait les versions texte de ChatGPT et GPT-4 pour l’ajustement visuel, LLaVA 1.5 va plus loin en connectant le modèle de langage et l’encodeur visuel à l’aide d’un perceptron multicouche (MLP). Cela permet d’enrichir la base de données d’entraînement avec des questions-réponses visuelles. Grâce à cette mise à jour, LLaVA 1.5 dépasse d’autres LMM open source sur 11 des 12 benchmarks multimodaux, avec environ 600 000 exemples de formation.
L’avenir des LMM open source
LLaVA 1.5 offre des résultats prometteurs, même avec un budget limité, comme le montre sa démonstration en ligne accessible à tous. Cependant, il est important de noter que l’utilisation des données générées par ChatGPT est restreinte à des fins non commerciales.
Malgré cette limitation, LLaVA 1.5 ouvre la voie à l’avenir des LMM open source. Sa rentabilité, sa capacité à générer des données d’entraînement évolutives et son efficacité dans l’ajustement des instructions visuelles en font un prélude aux futures innovations.
LLaVA 1.5 n’est que le début d’une évolution qui accompagnera les avancées de la communauté open source. En anticipant des modèles plus performants et accessibles, nous pouvons envisager un avenir où la technologie d’IA générative sera à la portée de tous, révélant ainsi le potentiel illimité de l’intelligence artificielle.