(1/4) IA génératives et création : Quésaco ?
- Journée d'étude "IA génératives et création : quels enjeux juridiques ?"
- 2024
- 42 min 13 s
- Français
Publié le 06/10/2023
Comprendre le fonctionnement des IA génératives et de leurs enjeux techniques reste essentiel avant de se lancer dans des réflexions juridiques, éthiques et philosophiques. C'est ce que propose d'aborder Camille Salinesi, Professeur d’informatique et vice-président des relations internationales à l'université Paris 1 Panthéon-Sorbonne dans son intervention "IA génératives et création : quésaco ?" ayant ouvert la conférence "Intelligences artificielles génératives et création : quels enjeux juridiques?" organisée le 27 mars 2023 par les professeurs Célia Zolynski (Observatoire de l'Intelligence artificielle de Paris 1) et Édouard Treppoz (Institut de recherche juridique de la Sorbonne (IRJS). Il y exposera notamment les différents points suivants :
1. La diversité des IA génératives
Bien que les systèmes d’apprentissage automatique (« machine learning ») sont les plus communément discutés, particulièrement récemment sous l’angle du chatbot lancé par la société OpenAI « ChatGPT », il convient de garder à l'esprit que l'intelligence artificielle comporte de nombreux autres sous-domaines. En matière d’IA génératives, les systèmes basés sur les techniques d'apprentissage sont capables de générer entre autres des textes, des images (animées ou non), des sons, des vidéos (1). Peuvent être cités les services d’IA génératives commercialisés suivants :
- Texte : ChatGPT, Github, Copilot ;
- Images : Midjourney, DALL-E, Stable Diffusion, Firefly ;
- Musique : Flow Machines, Riffusion, MusicLM.
Les systèmes d'IA génératives permettent de nombreux usages, au premier rang desquels la création artistique. D'autres usages sont possibles, allant de la production de documents techniques, ou même de lettres de motivation personnalisées à partir de demandes spécifiques et d’informations fournies à l’IA. Il est par ailleurs possible de combiner les IA génératives. On peut par exemple générer la lecture d'un texte lui même généré, par une voix imitant une voix réelle et combinée à la vidéo d'un locuteur, créant ainsi un degré de réalisme saisissant.
2. Les enjeux relatifs à la production d’œuvres (images/ vidéos)
Malgré le travail humain fourni, la question qui se pose est celle de savoir si l’œuvre produite par ou à l’aide d’un système d’IA peut être considérée comme une production artistique originale. Se pose également la question des éléments utilisés par l’IA afin de générer cette œuvre, ceux-ci étant susceptibles d’être protégés par des mécanismes de propriété intellectuelle. Certaines œuvres générées par l’IA imitent un style préexistant alors que d’autres sont susceptibles de présenter un caractère plus original.
3. Les dangers des IA génératives
Les transcriptions, les complications, les synthèses ou les traductions générées par des IA génératives peuvent engendrer des risques en termes de reproduction (plagiat, abus, vol de marque, phishing) mais aussi de fake news, cyberattaque, influence, politique, dark marketing. Concernant les deep fakes, le degré de réalisme des images et des voix est particulièrement efficace et dangereux. Par exemple, il suffit de quelques dizaines de secondes d'enregistrement audio pour imiter la voix de quelqu’un. Pour l’instant certaines erreurs récurrentes encore présentes dans les contenus générés permettent de les repérer assez facilement. Toutefois, ces erreurs sont susceptibles d’être rapidement résolues et les deep fakes sont de plus en plus difficiles à distinguer.
4. Les méthodes d'entraînement des systèmes d’IA génératives
Les IA génératives reposent sur des dispositifs algorithmiques d'apprentissage entraînés au moyen de grandes collections de données. Il convient de distinguer deux grandes familles : les approches d'apprentissage supervisé (i), et non supervisé (ii).
- i. Intelligences artificielles de type apprentissage supervisé
Les IA supervisées fonctionnent en deux phases : la phase d'entraînement et la phase de test. Le principe est le suivant : le système est entraîné par des données d'entraînement en quantité importante associées à des labels correspondants afin qu’elles génèrent ensuite des données de sortie proches des données d’origine. Les exemples de données de sortie (output) attendues fournies à l’IA permettent de guider le système en réduisant la marge de différence entre ce qu’il génère et ce qui est attendu.
Un exemple d'entraînement de système tendant à fournir des inputs afin de générer des outputs recherchés est celui des modèles de comportement. Les données produites étant le résultat des données d'entraînement, il est possible de superviser l’IA par la mise en place de règles afin de déterminer quelle est la forme de sortie attendue et quelles actions ne sont pas autorisées.
- ii. Intelligences artificielles de type apprentissage non supervisé
Les IA non supervisées permettent de répondre à des instructions précises en exécutant des tâches sans qu’un output type ne soit fourni. Il s’agit alors de combiner un ensemble de données correspondant à des séquences, notamment des séquences de mots pour les IA de traitement de texte, afin de prévoir des probabilités de séquences et générer de nouveaux résultats. Cette analyse a pu se faire par le théorème des probabilités conditionnelles (Théorème de Bayes) permettant de prédire une probabilité en fonction de la réalisation ou non d’un événement. En principe, dans ce modèle, les hypothèses sont indépendantes les unes des autres, alors que pour le traitement de texte, l'hypothèse est différente dans la mesure où la langue suit des schémas, les séquences de phrase sont dépendantes les unes des autres puisqu’elles respectent une grammaire et une syntaxe. Aujourd’hui, les systèmes d’IA reposent généralement sur une approche probabiliste et sur des statistiques de masses de données importantes à partir de données d'entraînement qui sont analysées afin de construire un modèle de langage. Cette méthode ne nécessite pas de données de sortie « types » étiquetées.
5. Les enjeux relatifs aux méthodes d'apprentissage
Ces méthodes d’apprentissage soulèvent de nombreux enjeux et questionnements, notamment tenant aux règles d’entraînement, à leurs sources, à leur mise en place, aux types de données sélectionnées pour l'entraînement ainsi qu’à l’individu ou l’entité décidant de ces paramètres. On peut également se demander si les exemples d'entraînement définissant le modèle de comportement sont empreints d’objectifs économiques ou politiques.
Des questions se posent également au stade de la collecte des données, au regard des droits d’exploiter les données, de l’actualité de celles-ci, mais également de la protection et de la garantie de conformité des documents et contenus fournis au système d’IA dans le cas de documents confidentiels. Il est essentiel de savoir à qui les inputs entrés par l’utilisateur sont accessibles ou s’ils sont susceptibles d’être revendus ou diffusés.
Il est alors nécessaire de procéder à une analyse sémantique et générale de l’écosystème se construisant autour d’IA génératives telles que ChatGPT en envisageant les intentions des utilisateurs ainsi que les différents enjeux touchant à la fois les clients, les partenaires, les observateurs de ce type de systèmes.
6. Le poids environnemental de l’IA
Que ce soit par les enjeux environnementaux de la conservation des données ou par le modèle de l’IA lui-même, ces systèmes sont des consommateurs massifs de matériel et d’énergie. Malgré l’apport que l’IA peut avoir pour la recherche écologique (pour des domaines spécifiques tels que l’optimisation de la consommation en aviation par exemple), l’impact colossal de l’informatique sur l’environnement impose d’adopter une approche systémique qui, pour l’instant, n’est pas encore présente malgré de premières annonces d’initiatives.
(1) En matière de phonogramme notamment, certaines IA sont spécialisées dans la production musicale, d’autres systèmes d’IA génératives sont spécialisés dans la génération de textes, notamment de code informatique.