Est-ce que l’ara d’AI2 est meilleur que le GPT-3 ?

Est-ce que l’ara d’AI2 est meilleur que le GPT-3 ?

janvier 28, 2022 0 Par brandon


Avec un orteil dans le rêve d’AGI, GPT-3 est devenu une référence pour les modèles de traitement du langage naturel. DALL E d’OpenAI, Jurassic-1 d’AI21, LaMDA de Google, Turing NLG de Microsoft et Wu Dao 2.0 de BAAI sont les successeurs de GPT-3, prétendument équivalents ou même meilleurs que le modèle populaire. De plus, AI2 vient de publier une version améliorée de son modèle de question-réponse open source, Macaw, déclarant qu’il surpasse GPT-3.

Tout sur l’ara

Macaw est un modèle d’assurance qualité basé sur une approche multi-angle qui exploite différentes combinaisons d’entrées et de sorties pour obtenir les résultats. Il a abordé avec succès divers types de questions, y compris les connaissances générales, le méta-raisonnement, l’hypothèse et la compréhension de l’histoire. S’éloignant de la dépendance traditionnelle à une base de données structurée pour trouver des réponses, Macaw se situe sur des modèles pré-formés pour une meilleure polyvalence. Inculquer au modèle différentes permutations améliore ses performances sur différentes tâches tout en le rendant plus flexible.

Macaw utilise une combinaison de ‘slots’ comme entrées et sorties. Les emplacements sont, Contexte, Question, Options à choix multiples, Réponse et Explication. Ensuite, il utilise différents « angles » ou combinaisons de ces fentes pour générer des sorties différentes et précises. L’article de Macaw l’explique comme celui qui « produit des réponses de haute qualité à des questions bien en dehors du domaine sur lequel il a été formé » et « génère des explications en tant qu’élément de sortie (ou même d’entrée) facultatif ». Bien sûr, ces explications ont tendance à être de moindre qualité que les réponses, mais il s’agit de l’un des rares modèles capables de le faire.

Ara contre GPT-3

Ara a été entraîné sur 11 milliards de paramètres. Ceci est en comparaison avec GPT-3, qui compte 175 milliards, Jurassic-1 sur 178 milliards, Pang Gu Alpha sur 200 milliards et Wu Dao 2.0 sur 1,75 billion. Pourtant, AI2 prétend malgré la plus petite ampleur des paramètres de Macaw; il a surpassé GPT-3 de plus de 10% sur une suite de 300 questions de défi.

AI2 a créé un ensemble de 300 défis pour arrêter le système et comparer ses performances aux modèles existants. Macaw a obtenu un score de 75 %, tandis que GPT-3 et Jurassic-1 ont obtenu un score de 65 %, et le T5-CBQA de Google a obtenu un score de 57 %. Quelques exemples de la façon dont GPT-3 et Macaw ont répondu aux questions sont illustrés ci-dessous (en savoir plus ici).

Comment feriez-vous un mariage plus fort?
Ara : Communiquer
GPT-3 : Je ferais en sorte d’être celui qui ait toujours raison.

Si un oiseau n’avait pas d’ailes, comment serait-il affecté ?
Ara : Il serait incapable de voler
GPT-3 : Ce serait un mauvais oiseau.

Pour Ara seul, l’équipe a prouvé ses capacités de raisonnement, de bon sens, de comparaison, de faux présupposés, de méta-raisonnement, d’hypothèses et de substitution d’entités à travers des exemples. Par exemple, il a donné des réponses correctes lorsqu’on lui a posé des questions différentes.

Q : Si ma maison n’avait pas de toit et qu’il pleuvait, qu’adviendrait-il de mon lit à l’étage ?

A : il serait mouillé

Q : Si ma maison avait un toit et qu’il pleuvait, qu’arriverait-il à mon lit à l’étage ?

A: il resterait sec

Alternativement, le modèle est faible dans les luttes de suivi des entités avec des histoires sur un état mondial en évolution. Par exemple,

Q : Ma maison est rouge. J’ai peint ma maison en blanc. De quelle couleur est ma maison maintenant ?

A : il est maintenant blanc [correct]

Q : Ma maison est bleue. J’ai peint ma maison en rouge. De quelle couleur était ma maison avant de la peindre ?

Un bleu [correct]

Q : Ma maison est rouge. La maison de mon voisin est bleue. J’ai peint ma maison en blanc. De quelle couleur est ma maison maintenant ?

A : c’est de la même couleur que la maison de mon voisin [wrong]

Q : Ma maison est rouge. J’ai peint la maison de mon voisin en blanc. De quelle couleur est ma maison maintenant ? A : moitié rouge, moitié blanc [wrong]

La plupart des modèles ont obtenu un score élevé sur les questions de connaissances générales et le plus bas sur le bon sens et les questions pièges. Le groupe a trouvé que GPT-3 et T5-CBQA produisaient des réponses impressionnantes à certaines questions, mais ont fait plus d’erreurs que Macaw. Un exemple discuté est « Quand Tom Hanks a-t-il atterri sur la lune? » GPT-3 a déclaré 1995 basé sur le film Apollo 13. Macaw a noté que Tom Hanks n’a jamais été sur la lune pour autant que nous sachions.

Disponibilité de GPT-3

Le Dr Oren Etzioni, directeur général d’AI2, a noté que Malaw n’est pas censé remplacer le GPT-3 mais constitue une nouvelle étape dans la recherche en PNL. GPT-3 est un modèle NLP remarquable, mais il est hors de portée pour de nombreuses organisations compte tenu de sa taille et de ses frais énormes. D’autre part, Macaw est destiné à la construction de systèmes d’IA capables de lire, de raisonner et d’expliquer leurs réponses.

Etzioni a expliqué à quel point GPT-3 est incroyable dans une interview avec TechCrunch, mais il n’est sorti qu’il y a 18 mois et l’accès est limité. Et bien qu’il ait des capacités remarquables, vous pouvez faire plus avec moins. « Parfois, vous devez construire quelque chose avec 175 milliards de paramètres pour dire, eh bien, peut-être que nous pouvons le faire avec 10 milliards », a-t-il déclaré.

Le coût du rêve GPT-3

Les modèles à grande échelle seront utiles, mais les modèles plus petits ont de meilleures chances d’être déployés au quotidien. Dans le récent message du conseil d’AIM, Padmashree Shagrithaya, le responsable mondial de l’analyse et de la science des données chez Capgemini, a discuté de l’impact de ces grands modèles de PNL. Elle a illustré le coût environnemental du GPT-3 à travers des exemples. « Un système de traitement du langage IA génère entre 1 400 et 78 000 livres d’émission. Cela équivaut à 125 vols aller-retour entre New York et Pékin ». De plus, « Carbontracker a suggéré que la formation GPT-3 ne nécessite qu’une seule fois la même quantité d’énergie utilisée par 126 foyers au Danemark chaque année. C’est aussi la même chose que de conduire une voiture vers la lune et retour.

« Alors que l’innovation est la base sur laquelle une société progresse, nous devons également être conscients du coût qu’une telle « innovation » entraîne. Le besoin de l’heure est de trouver un équilibre entre les deux », a-t-elle conclu. Un modèle plus petit mais tout aussi efficace comme Macaw pourrait éventuellement aider à créer cet équilibre.



Source