«Bienvenue chez Google Zurich!» Ce n’est pas un robot qui accueille les visiteurs, mais Samuel, de l’équipe de communication depuis treize ans. Au pays de l’intelligence artificielle et des API (pour «interfaces de programmation d’application»), on soigne l’humain. Le cadre de travail est coloré, convivial, un barista trace des dessins sur les cappuccinos et concocte des thés matchas. Premier constat: derrière l’IA Gemini disponible en français depuis février, il y a beaucoup de cerveaux humains. Au total, 5000 employés, de 85 nationalités différentes, sont basés à Zurich, dont un tiers titulaires d’un doctorat.
Product Manager de Gemini, Deniz Binay (photo) gère une partie des équipes d’ingénieurs et celles du développement produit, de Zurich à Mountain View, en Californie, résidence de la maison mère de Google. Le Gruérien a fait ses classes à Bulle. Ingénieur des systèmes de communication de l’EPFL, il a étudié notamment à Pittsburgh et à New York. Cet explorateur de la tech a toujours rêvé grand. «J’ai postulé deux fois chez Google, se remémore-t-il. La première en 2015 à Mountain View, où j’ai travaillé jusqu’en 2019. J’étais dans l’équipe fondatrice de l’Assistant Google. On était de véritables pionniers des assistants digitaux. J’ai quitté le groupe pour lancer ma start-up à San Francisco, une plateforme pour trouver divers cours. Puis je l’ai vendue à un entrepreneur de renom qui venait d’introduire sa société en bourse.»
Après huit ans dans la baie de San Francisco, le Suisse revient au pays et postule chez Google Zurich en 2022. «L’avantage, c’est que je savais comment cela se passait: cinq entretiens en deux jours, glisse-t-il. Il n’y a pas de questions pièges, mais plutôt des tests sur des problèmes pratiques. Google cherche en général à voir comment les ingénieurs trouvent des solutions et collaborent.» Deniz Binay retrouve donc son Assistant IA qui a, entre-temps, gagné en maturité. Le modèle est désormais capable de travailler au son de la voix et est disponible dans les voitures. Des avancées qui semblent évidentes aujourd’hui.
IA multimodale
Ce n’est pourtant que le début de l’accélération. Avec Gemini – auparavant appelée Bard –, l’IA devient multimodale. Elle a été entraînée sur des images, des vidéos, du son et du texte. Elle peut décrire un visuel et y chercher des informations, un point où d’autres IA génératives telles que ChatGPT ou Mistral tâtonnent encore. La compétition est rude et terriblement évolutive.
Démonstration par l’exemple: Gemini reconnaîtra une capture d’écran du Creux-du-Van (NE). Elle proposera en sus un itinéraire avec des horaires de train et des conseils sur les accès en fauteuil roulant. Sa force est de mettre en corrélation tous les outils de Google. C’est le cas également avec Gemini for Workspace, un environnement simplifié pour les entreprises et leur gestion de contenus. A noter que les informations sont actuelles et non limitées à avant le 31 décembre 2021, comme avec d’autres intelligences artificielles.
«Personnellement, je l’utilise surtout pour être plus créatif, chercher ou tester des idées, résumer des e-mails trop longs, note le Fribourgeois. Une personne du marketing pourra générer une présentation ou du texte commercial adaptés à différentes clientèles. Pour les RH, une facture en allemand sera traduite en français en intégrant les tableaux ou en suggérant un courrier de rappel. Il faut éduquer les équipes aux possibilités de l’IA. Cela implique un changement d’habitude à tous les niveaux de la hiérarchie. Mais on ne peut l’ignorer, tout en étant conscient que l’IA a aussi ses limites.»
A propos, qu’en est-il de la fiabilité des informations? «La fonction vérification permet de surligner le contenu généré: en vert, les passages dont elle fournit les sources ou, en rouge, les informations peu fiables», explique Deniz Binay. Devant nos yeux, le Product Manager prend une photo de son cappuccino et la soumet à Gemini, qui identifie non seulement le cappuccino, mais en donne la recette et l’origine. L’exemple est anecdotique, mais illustre le début d’une nouvelle ère.
Code de conduite
«Une nouvelle version de Gemini intégrant des documents de plus de 1000 pages avec des tableaux, des images et des vidéos d’une heure est à venir, mentionne-t-il. La création d’une image IA n’est pas encore disponible en Europe, mais l’est déjà aux Etats-Unis. Quant à la reconnaissance faciale d’une personne non publique, Google a pris la décision responsable de ne pas offrir cette possibilité, même si cette technologie est prête.»
Gemini ne donne donc pas accès à tout et n’importe quoi. Google a établi, en 2018 déjà, un code de conduite en sept points pour une approche responsable de l’IA. «On ne va pas utiliser l’IA pour construire des armes et l’IA ne va pas non plus donner un avis sur un conflit armé, par exemple, confie-t-il. On travaille beaucoup sur la véracité et les biais de l’IA, cela avec des experts sociaux, des universitaires ou le législateur. Point important: on n’entraîne pas l’IA avec des données non publiques des utilisateurs sans leur autorisation.» Un élément qui répond à la question des données sensibles et de l’IA, un thème abordé dans un aide-mémoire de la Confédération pour ses employés.
Il existe par ailleurs désormais des outils (robots.txt, chatfaq.io ou Google Extended) pour exclure certains contenus, afin que l’IA ne les utilise pas, tels que des volumes de production ou d’autres données chiffrées. Certains médias les utilisent pour préserver leurs informations telles que les avis mortuaires. A l’inverse, Ringier (éditeur de PME) va utiliser l’IA pour dompter le flux d’articles. Le lecteur pourra demander au chatbot davantage de contenus sur un thème précis ou le lien pour acheter des tickets d’un concert décrit dans un article.
Outre ces précautions concernant les données sensibles et la reconnaissance faciale, le développement de l’IA questionne sur la place de l’homme face à la technologie. «J’observe une différence entre l’Europe, qui est consciente des risques, et les Etats-Unis, qui privilégient davantage les opportunités. Le souhait et la mission de nos équipe, c’est de créer un outil au service de l’humain, comme l’a été la calculatrice par exemple, estime Deniz Binay. Quant à savoir si on va devenir plus paresseux, je ne le crois pas. Au contraire, on a accès à des informations plus facilement. On peut devenir plus créatif ou commander un plat dans 40 langues différentes. C’est à nous de développer notre curiosité et d’en profiter.» On se souvient que le service de cartographie Street View avait soulevé de nombreuses craintes; il est désormais entré dans nos quotidiens.