A présent, OpenAI présente officiellement Operator, un nouvel outil d’automatisation du web utilisant un modèle d’intelligence artificielle (IA) appelé Computer-Using Agent (CUA).
Cet outil permet de contrôler les ordinateurs via une interface visuelle. Il interagit avec des éléments à l’écran comme le ferait un utilisateur humain. Voici ce qu’il en est.
Operator d’OpenAI, un AI agent disponible dès maintenant
Si vous êtes trop occupé pour organiser vos dossiers qui s’amoncèlent dans votre ordinateur, Operator est là. C’est un AI agent qui est dès à présent accessible aux abonnés du plan ChatGPT Pro. Cela coûte 200 $ par mois d’accès à cette technologie.
L’entreprise qui l’a lancé propose en fait plusieurs offres et plans tarifaires. Il y a Plus, Team et Enterprise. Sinon, OpenAI envisage également d’intégrer ces fonctionnalités dans ChatGPT et de proposer CUA via une API pour les développeurs.
Fonctionnement d’Operator
L’agent d’Operator observe le contenu de l’écran pendant l’utilisation de l’ordinateur et exécute des tâches en simulant des entrées au clavier et à la souris. Il traite des captures d’écran pour comprendre l’état de l’ordinateur et prend des décisions sur les clics, la saisie et le défilement en fonction de ses observations.
Pour fonctionner, l’agent Operator d’OpenAI suit plusieurs étapes : il capture des images de l’écran, analyse ces images grâce aux capacités de vision de GPT-4o. Puis détermine les actions à entreprendre et effectue des entrées virtuelles.
Ce processus itératif lui permet de corriger ses erreurs et de gérer des tâches complexes. Pendant son fonctionnement, Operator affiche une fenêtre de navigation miniature de ses actions.

Une technologie que les grands groupes veulent développer
La création d’Operator d’OpenAI s’inscrit dans une tendance plus large. D’autres entreprises technologiques comme Google et Anthropic explorent également des systèmes d’IA agents capables d’agir pour le compte des utilisateurs.
Cependant, la technologie derrière Operator est encore en développement et présente des limites. Elle est particulièrement efficace pour des tâches web répétitives. C’est le cas par exemple de la création de listes.
Or, cet outil rencontre des difficultés avec des interfaces moins familières et des textes complexes. Quand cela arrive, il n’affiche qu’un taux de réussite de seulement 40 % pour l’édition de texte. OpenAI a rapporté un taux de réussite de 87 % sur le benchmark WebVoyager, mais ce chiffre tombe à 58,1 % sur WebArena, et à 38,1 % pour les tâches liées aux systèmes d’exploitation.
Operator doit encore être amélioré par OpenAI
En fin de compte, OpenAI espère que les abonnés du plan ChatGPT Pro utilisent Operator à bon escient et que cela permettra de recueillir des retours d’utilisateurs pour améliorer le système. L’entreprise reconnaît que CUA ne sera pas toujours fiable et prévoit d’augmenter sa performance à travers des tests utilisateurs.
Sinon, la sécurité et la vie privée sont des préoccupations majeures pour un outil capable d’observer et de contrôler un ordinateur. OpenAI a intégré des contrôles de sécurité, exigeant une confirmation de l’utilisateur avant d’effectuer des actions sensibles.
Operator est également soumis à des restrictions d’accès à certains types de sites web. Malgré ces mesures, des experts comme Simon Willison expriment des doutes quant à la sécurité de l’outil face à de potentielles menaces.
- Partager l'article :