Valoriser l’IA générative, de manière responsable et sécurisée

La rentrée scolaire s'est déroulée il y a maintenant quelques semaines, du primaire au supérieur, les marronniers profitent de la chaleur pour laisser tomber leurs fruits dans les cours de récréation, et l'IA générative approche d'une année complète de buzz. Voilà bientôt un an qu’OpenAI a dévoilé chatGPT, et crée une activité bourdonnante autour de l'IA générative.

IA consultant un dashboard virtuel dans un environnement sombre

La rentrée scolaire s'est déroulée il y a maintenant quelques semaines, du primaire au supérieur, les marronniers profitent de la chaleur pour laisser tomber leurs fruits dans les cours de récréation, et l'IA générative approche d'une année complète de buzz. Voilà bientôt un an qu’OpenAI a dévoilé chatGPT, et crée une activité bourdonnante autour de l'IA générative. Je ne dis pas qu'ils ont été les premiers ou les meilleurs, simplement que le bruit généré par chatGPT auprès du grand public a permis une prise de conscience des capacités et des risques de ce pan de la technologie IA.

J'ai des échanges réguliers avec des particuliers, des professionnels de tous horizons, des entreprises, des institutions, et tout le monde utilise ou souhaite pouvoir utiliser une IA générative de type chatGPT. Et cela, quels que soient leur métier et leur besoin :

  • Rédaction d'un devoir à la maison
  • Aide à la rédaction d'une lettre de motivation
  • Recherche assistée sur Internet
  • Aide à la programmation informatique
  • Assistance à la performance dans un jeu de société

L'UNESCO a rédigé un guide d'utilisation des IA génératives dans l'éducation, et il faut noter que le document est plutôt réaliste, et rédigé dans un délai finalement assez court pour une institution de ce genre.

Mon propos aujourd'hui n'est pas de discuter de la pertinence de l'IA générative, ni de savoir quelle est la "meilleure", ou la meilleure manière de ‘ utiliser.

Mon propos est de prendre un peu de recul sur cette vague et de se poser des questions de fond sur ces technologies et l'enthousiasme généré.

Commençons par quelques chiffres, afin de poser le décor :

  • En septembre 2023, OpenAI annonçait 180 millions d'utilisateurs pour chatGPT
  • Microsoft dans le même temps annonce 100 millions d'utilisateurs quotidiens de Bing Chat
  • Google projette 1 milliard d'utilisateurs pour Bard à 2025

Bien évidemment, ce sont des estimations à prendre avec des pincettes. Cependant, nous avons tout de même un ordre de grandeur des populations concernées.

Le cœur de ma réflexion ici est le coût environnemental et sociétal de ces outils.

Je suis un grand fan de la technologie, et je pense que celle-ci peut nous apporter beaucoup d'aides et de solutions. Mais pas à n'importe quel prix. Par exemple, nous saurions nous débarrasser des déchets nucléaires dans l'espace; mais la fiabilité des lanceurs spatiaux n'est pas suffisante pour garantir le transport en dehors de l'atmosphère sans risque de pollution majeure. Donc, exit la solution, pour le moment.

Revenons à nos moutons (électriques, pour les fans de Philippe K. Dick).

Ce qui me pose problème avec les modèles gigantesques de traitement du langage (LLM pour Large Language Model) tient en trois axes :

  • Le coût d'entraînement et d'utilisation de ces modèles
  • Les sources de données utilisées
  • La course à l'armement menée par les grands acteurs du logiciel mondiaux.

 Un coût économique et sociétal faramineux

Commençons par le plus évident, le coût. Je parle ici de coût en énergie et en matériel, sans même aller jusqu'à la traduction financière (j'en reparlerai un peu plus loin).

Les informations réelles ne sont bien évidemment pas partagées par les acteurs eux-mêmes, mais certaines estimations ont fuité, et voici ce que l'on pense savoir des besoins en puissance de calcul pour l'entraînement du modèle.

Il aura fallu, pour la dernière version de GPT (GPT 4) utiliser 25000 processeurs graphiques (GPU) Nvidia, sur une durée de 90 à 100 jours.

Heureusement, ce genre de puissance n'est rendue disponible que par des acteurs capables d'optimiser l'impact carbone d'un centre de calcul, dans ce cas Microsoft avec son offre Azure.

Pour aller jusqu'au bout, des calculs ont estimé le coût en puissance électrique à plus de 50 000 MWh. Cela représente, dans la région où les calculs ont été exécutés, un coût carbone d'environ 15 tonnes de CO2. Soit l'empreinte carbone de plus de 2 Français sur une année.

Cela peut sembler peu à l'échelle de la planète (40 milliards de tonnes), mais il faut voir que ce coût est 50 fois supérieur à celui de GPT-3. Et ce modèle n'est pas le seul à être utilisé, et il n'est pas entraîné une seule fois au cours de sa vie, mais réentraîné régulièrement (même si l'on ne sait pas exactement à quelle fréquence).

Passons à l'utilisation (ou inférence) des modèles de ce type. Ici encore, nous serons dans les estimations, mais cela donne des grandes lignes de réflexion. L'estimation partagée est que le fonctionnement de chatGPT consommerait l'équivalent de 80 à 100 cartes graphiques par utilisateur (à un instant donné). Il est difficile de savoir combien d'instances sont exécutées en parallèle, mais cela nous donne un peu le vertige malgré tout.

Des données sources peu accessibles

Passons au sujet des données sources. Ces données sont utilisées pour que le modèle puisse avoir des exemples de textes variés et ensuite générer des réponses crédibles et correctes.

Les modèles de type LLM les plus visibles utilisent des jeux de données plutôt obscurs. OpenAI (chatGPT et GPT) a indiqué utiliser : « une collecte de données de type "contenu d'internet", deux bases littéraires contenant des livres, le contenu du site Reddit, le contenu de Wikipedia. » Et d'autres choses non dévoilées… Bard indique des données plus précises, mais sans forcément s'avancer beaucoup plus.

Deux problèmes se posent, selon moi.

Le premier est connu. C'est le biais cognitif induit par les données d'entraînement. En d'autres termes, si vous entraînez un modèle LLM avec les données de l'ensemble des forums des indépendantistes corses, vous aurez un modèle qui sera indépendantiste corse.

Si vous ne sélectionnez pas les données en entrée de votre modèle, et que vous annoncez, à l'instar d'OpenAI, que vous avez entraîné votre modèle sur "le contenu d'internet", votre LLM aura le comportement d'un internaute moyen. Ce qui va entraîner un certain nombre de préjugés et de discriminations dans votre modèle. Si les données sont biaisées et discriminatoires en entrée, elles le seront aussi à la sortie.

Une anecdote à ce sujet : chatGPT a été interrogé pour lui faire passer le test de niveau de français du Projet Voltaire. Alors que beaucoup de gens pensaient qu'il réussirait haut la main, car il a toutes les clés en main pour écrire correctement, le modèle n'a obtenu qu'un score similaire à la moyenne (légèrement supérieur en réalité). Ce qui est finalement logique, si on reprend mon paragraphe ci-dessus : à entraînement moyen, résultats moyens.

L'autre problème qui se pose est sur la façon dontces données d'entraînement ont été collectées et utilisées. Il est globalement certain que la plupart des données de qualité sont protégées par le droit d'auteur ou par les conditions d'utilisation des différentes sources de données. Prenons l'exemple des bibliothèques utilisées pour OpenAI (Books1 & books2) : au moins une était une collection de fanfictions (des livres écrits par des fans, dans l'univers de leurs héros préférés). Quelle est la qualité orthographique, grammaticale et littéraire de ce contenu? Probablement moyenne.

Il aurait sûrement été mieux d'utiliser une base de données de livres reconnus, relus et vérifiés. Mais ceux-ci sont protégés.

Nous avons donc un choix cornélien : une base gratuite de taille importante, mais de qualité moyenne; ou bien une base très limitée (voire d'accès interdit sans négociations intensives et complexes), mais de bonne qualité.

Enfin, sur la collecte de ces données, il nous faut réaliser que beaucoup de nos actions en ligne sont tracées, et servent justement à ces acteurs pour l'entraînement de leurs modèles. Ce n'est pas nécessairement une mauvaise chose, mais il faut en être conscient, et décider en son âme et conscience si c'est quelque chose avec lequel nous nous sentons en accord.

Une course à l’armement

Tout cela m'amène à mon troisième problème : la course à l'armement. Nous avons pu voir que les ressources nécessaires, en termes de puissance de calcul et de volume de données, ne permettent qu'à une poignée d'acteurs de dimension mondiale, de rivaliser dans la création de modèles d'IA de ce type (LLM ou similaires). Nous avons des OpenAI (appuyées par Microsoft), des Google, des Facebook, des Baidu ou Alibaba, etc. Le CNRS a créé un modèle de la même famille (Bloom), mais admet une incapacité à suivre l'échelle de ces acteurs.

Ce qui me gêne, au-delà des questions d'indépendance et de leadership, voire de souveraineté, c'est que cette course me semble un peu stupide.

Car cette approche du problème par la puissance ne cherche pas la pertinence, la finesse ou l'économie de ressources. Elle cherche uniquement à garder une longueur d'avance. Ceux qui connaissent un peu l'histoire de la recherche nucléaire (ou qui ont vu Oppenheimer) pourront faire le parallèle avec la course vers la bombe H après la "réussite" de la bombe A. Autrement dit "youpi, nous avons de quoi exterminer la planète, cherchons comment faire pire".

Je vais dédramatiser un peu mes propos, nous ne sommes pas sur le même impact immédiat, mais les croissances d'échelles de grandeur au sujet de ces modèles sont assez inquiétantes malgré tout. Pour rappel, Google intègre Bard dans ses futurs smartphones. Nous ne sommes pas sur une utilisation ponctuelle et limitée de ces modèles, mais sur une vision omniprésente.

Quelles pistes pour résoudre ces problèmes ?

Pour résoudre tout cela, il existe des pistes existantes, utilisables dès aujourd'hui, sans évoquer des études poussées sur de nouveaux modèles plus efficaces ou des avancées en mathématiques et data science. Encore une fois, je ne fais que donner mon avis de non-spécialiste de ce domaine, je ne saurais être exhaustif sur ce sujet.

Des modèles plus ciblés

La première piste me semble la plus évidente, mais nécessite de prendre un peu de temps de réflexion avant de se lancer dans un projet de déploiement d'un modèle d'IA. Au lieu d'utiliser les modèles de type LLM généralistes fournis par les grands éditeurs, ne pourrait-on pas utiliser des modèles plus restreints, mais plus pertinents pour notre usage?

En d'autres termes, ai-je vraiment besoin d'apprendre par cœur toute l'Encyclopédie (Larousse ou Britannica, je vous laisse le choix), pour lire Petit Ours Brun? Probablement pas.

Il est tout à fait possibled'utiliser des modèles plus petits, et de les entraîner sur nos propres données afin d'obtenir des réponses pertinentes, précises, et contrôlées. Cela permet de limiter les coûts (environnementaux, financiers, etc.), l'entraînement et l'inférence. Et aussi d'avoir un modèle qui soit exécutable sur des infrastructures internes à l'entreprise, sans risque de confidentialité de données (n'oublions pas que chatGPT ne sait pas offrir de garantie valable à ce sujet, à ce jour).

 

Pour reprendre mon exemple littéraire, je pourrais comprendre Petit Ours Brun avec un jeu de données de bases assez généraliste et peu étendu. Cependant, si je souhaite comprendre Harry Potter de manière un peu avancée, j'aurais besoin de saisir des références à la culture et au système éducatif britannique. Il me faudra donc un entraînement un peu spécifique, mais encore une fois limité.

De plus des modèles de ce type sont souvent disponibles en Open source, et donc offrent une meilleure explication sur leur fonctionnement, leurs données d'entraînement, leur performance et leur utilisation. La société Hugging Face, par exemple, fournit un nombre étendu de ces modèles avec lesquels nous pouvons travailler et développer nos propres solutions.

Un matériel moins gourmand et adapté à des usages spécifiques

La seconde piste concerne plutôt la partie matérielle sous-jacente à ces modèles. Aujourd'hui, la plupart des modèles d'IA conséquents utilisent des processeurs graphiques (GPU) aussi bien pour la phase d'entraînement que pour la phase d'utilisation (inférence). Ces puces sont extrêmement performantes, mais très gourmandes en ressources (puissance électrique notamment). Et ces GPU sont aujourd'hui fournis quasi exclusivement par la société Nvidia.

Il existe des alternatives, mais encore peu utilisées et que nous devrions développer.

Tout d'abord pour des usages spécifiques, des puces dédiées sont disponibles. Celles-ci sont souvent plus efficaces et moins gourmandes.

Nous pouvons ainsi noter l'usage de processeurs de type Tensor G3 sur les derniers mobiles de la gamme Pixel chez Google. Apple intègre à ses puces pour mobiles des circuits nommés Neural Sensor, avec la même destination d'usage.

Cela peut permettre à la fois un usage plus facile de ces modèles d'IA, sans recours à des connexions à un cloud quelconque, et un usage plus raisonné, car les téléphones n'ont pas de batteries illimitées, et nous attendons une réponse rapide à des requêtes sur ceux-ci.

Cela va donc faire avancer le traitement de l'IA dans ces usages pour la rendre plus performante et plus économique (à défaut d'écologique).

Il existe aussi des alternatives aux GPU de la société Nvidia, en dehors d’appareils mobiles. Qualcomm fournit ainsi une série de puces dédiées à l'inférence (utilisation) de modèles IA, avec pour objectif de limiter l'utilisation de ressources et la consommation énergétique de ces inférences.

Des données ouvertes et partagées

Mon dernier point est relatif aux données d'entraînement. Il nous faut résoudre au moins 2 problèmes à ce sujet : la distorsion entraînée par la collecte massive de nos données par les acteurs de type GAFAM, et la qualité et/ou légalité des bases de données.

En effet, nos opérateurs favoris américains ont collecté de très nombreuses données à notre sujet, avec notre accord plus ou moins éclairé, et possèdent donc un avantage non négligeable pour entraîner des IA en se basant sur ces données. Il est difficile de contrôler cela, ou de leur demander d'ouvrir l'accès à ces bases.

De plus, ces bases sont parfois en dehors des limites de la légalité, et utilisées sans le consentement des personnes ayant généré les données (vos photos de vacances, des articles postés sur des blogs, etc.). Et, pour revenir à mon point plus haut, la qualité des données est parfois approximative.

La bonne nouvelle, c'est que la BPI a lancé une initiative pour créer des bases de données d'entraînement partagées entre les acteurs de l'IA en France, voire en Europe. Ce n'est qu'un début, mais cela reste une bonne idée.

Ne nous voilons pas la face, cela ne rattrapera pas le retard actuel, mais nous pouvons compter sur l'Europe et la France pour au moins montrer au reste du monde comment procéder de manière éclairée et humaine pour intégrer les avancées technologiques.

 

En résumé, les IA génératives ont permis de relancer les réflexions autour de l'IA, et permettent de soulever des questions de fond qui étaient présentes depuis quelques années sans avoir été prises en considération de manière concrète.

Pour finir, le seul bémol à cet engouement est que, pour beaucoup de monde, chatGPT est devenu synonyme d'IA. Plus précisément, les échanges que j'ai pu avoir autour des apports de l'IA en entreprise ces derniers mois tournent toujours autour du traitement du langage (NLP, pour Natural LanguageProcessing), et occultent de grands pans de l'IA qui sont eux aussi en pleine croissance. Il n'y a qu'à voir les projets autour de la détection et localisation précoce de départs de feux de forêt, sujet que nous portons avec notre partenaire Midgard.

 

Sources

Aide à l’optimisation d’un jeu de société par chatGPT : https://chat.openai.com/share/88cd1975-256a-47da-ad11-d60950df9d40

SCRUM, l’agilité fait (presque) tout

Lire le prochain article

Main avec doigt montrant un graphique virtuel circulaire scrum