Le 20 décembre 2024, le système o3 d’OpenAI a obtenu un score de 85 % au test de référence ARC-AGI. Cette IA possède donc presque le même niveau intellectuel qu’un humain. Mais qu’est-ce que cela sous-entend ?
La création d’une intelligence générale artificielle (AGI) est l’objectif déclaré de tous les grands laboratoires de recherche sur l’IA. Et à première vue, celle d’OpenAI semble avoir fait un pas significatif vers cet objectif. Voici ce qu’on peut dire à ce sujet.
Une avancée incroyable
Cela peut sembler incroyable mais le moment ou l’IA pensera comme l’humain est proche. Un nouveau modèle d’intelligence artificielle (IA) vient d’obtenir des résultats de niveau humain à un test conçu pour mesurer l’intelligence générale des humains.
Il est nettement supérieur au meilleur score de l’IA qui a précédemment obtenu 55 % de réponses similaires au score humain moyen. Et il a également obtenu de bons résultats à un test de mathématiques très difficile.
L’IA apprend à partir de problèmes humains
Pour comprendre la signification du résultat donné par le système o3 d’OpenAI, il faut d’abord comprendre en quoi consiste le test ARC-AGI. En termes techniques, il s’agit d’un test de « l’efficacité de l’échantillon » d’un système d’intelligence artificielle pour s’adapter à quelque chose de nouveau.
L’IA évalue l’approche la plus adaptée à prendre à partir d’un échantillon en utilisant de petits problèmes de quadrillage. L’IA doit alors trouver le moyen de transformer la grille de gauche en grille de droite.
Chaque question donne trois exemples à partir desquels il est possible d’apprendre. Le système d’IA doit ensuite déterminer les règles qui « généralisent » les trois exemples au quatrième. Cela ressemble beaucoup aux tests de QI dont vous vous souvenez peut-être parfois à l’école.
Des capacités encore limitées
La capacité à résoudre avec précision des problèmes nouveaux à partir d’échantillons limités de données est connue sous le nom de capacité de généralisation. Elle est largement considérée comme un élément nécessaire, voire fondamental, de l’intelligence.
Le résultat est assez bon pour les tâches courantes. Il est mauvais pour les tâches peu courantes, car il dispose de moins de données (moins d’échantillons) sur ces tâches.
Une IA qui pense comme un humain, ce n’est pas encore totalement le cas ?
Tant que les systèmes d’IA ne pourront pas apprendre à partir d’un petit nombre d’exemples et s’adapter avec plus d’efficacité, ils ne seront utilisés que pour les tâches très répétitives. Et ils ne serviront qu’à faire des tâches pour lesquelles un échec occasionnel est tolérable.
En ce sens, un système d’IA comme ChatGPT (GPT-4) n’est encore pas très efficace en termes d’échantillonnage. Il a appris en lisant des millions de textes écrits par des humains, et en créant des règles sur les mots qui se combinent le mieux. Mais le cerveau humain surpasse encore celui de l’IA pour les tâches spécifiques.
Quand on dit que l’IA d’OpenAI pense maintenant comme un humain, c’est encore assez ambiguë. Presque tout ce qui concerne o3 reste inconnu. OpenAI a limité la divulgation à quelques présentations aux médias et les premiers tests à une poignée de chercheurs, de laboratoires et d’institutions de sécurité de l’IA.
- Partager l'article :