Au vu de la rapidité de l’évolution des développements de l’intelligence artificielle (IA) cette FAQ est susceptible de subir des modifications constantes. Dernière mise à jour : 11/10/2024.
Un Large Language Model (LLM) est un modèle d'apprentissage automatique entraîné sur une vaste quantité de données textuelles et capable de remplir un certain nombre de tâches telles que la traduction, la génération de texte, la synthèse de documents etc. Les Generative Pre-trained Transformers (GPT) sont une sous-catégorie de LLM qui utilise une architecture spécifique pour générer des textes créatifs. Ils sont pré-entraînés sur un grand corpus de texte avant d'être affinés pour des tâches particulières, par exemple comme agents conversationnels (chatbots).
Ces outils ont fait une percée remarquée, avec la mise à disposition du grand public de ChatGPT, logiciel développé par OpenAI et sont en mesure de générer des textes très convaincants sur une multitude de sujets en communiquant au moyen de langage naturel. De nombreux outils similaires à ChatGPT ont vu le jour depuis l’arrivée de celui-ci en novembre 2022.
Ils permettent également de générer des contenus variés, avec des outils comme MidJourney pour les images et Sora pour la vidéo.
Avec l'avènement de modèles multi-modaux tels que GPT-4o ou Gemini 1.5, les capacités de ces outils ont été considérablement étendues. Par exemple, en plus de comprendre et produire du texte, ces modèles peuvent maintenant reconnaître des éléments visuels dans des images et interagir en temps réel avec des utilisateur·rice·s. Cela inclut la capacité de répondre vocalement en quasi simultané, d'analyser des photos capturées par la caméra du téléphone et de traiter des flux vidéo en direct. Cette polyvalence ouvre la voie à des applications innovantes dans divers domaines.
Tous les grands acteurs commerciaux (Microsoft, Google, Facebook, etc.) proposent ou sont sur le point de proposer ce type d’outils. Bien que leurs coûts de mise en œuvre semblaient en restreindre le développement à des acteurs commerciaux disposant de moyens financiers importants, la recherche a avancé extrêmement rapidement sur ce front et de nombreuses alternatives open source sont apparues depuis.
Depuis 2023, de nombreuses solutions de type LLM ont été déployées par les principaux acteurs du monde de la Tech. On peut mentionner les principaux agents conversationnels actuellement disponibles comme :
Des agrégateurs comme Poe vous permettent de combiner les LLM ci-dessus via un seul abonnement : https://poe.com
Quelques plateformes comme DuckDuckGo proposent également d’intégrer certains de ces modèles sans création de compte supplémentaire avec une certaine protection active de la confidentialité : https://duckduckgo.com/aichat
Hugging Face est une plateforme open source offrant de nombreux modèles d'intelligence artificielle. Elle permet d'accéder gratuitement à une large variété de modèles, souvent sans créer de compte, pour des tâches variées au-delà des simples agents conversationnels : https://huggingface.co
Autrement, Perplexity est un moteur de recherche qui utilise l'IA pour fournir des réponses concises aux questions, en citant les sources. Il facilite l'accès à des informations fiables et bien résumées, en s'appuyant sur des API de modèles de langage avancés tels que GPT : https://www.perplexity.ai/
Il est très difficile de formuler des prédictions sur l’évolution de ces technologies, tant le paysage évolue rapidement. De nombreux agents semi-autonomes, basés sur ces Large Language model (LLM) voient le jour et permettent d’automatiser et de piloter des tâches complexes, en laissant la machine dériver et planifier automatiquement une succession de tâches nécessaires à l’atteinte d’un objectif fixé.
De plus, la simplification de l’entraînement de ces modèles permet de les spécialiser afin de les rendre plus performants dans des tâches spécifiques, en se basant sur des modèles open source pré-entrainés. Ceci élimine la barrière d’entrée liée aux coûts d’entraînement et permet une compétition qui ne limite plus les développements aux grands acteurs commerciaux.
Quelles que soient les futures percées dans ce domaine, il est cependant certain que ces technologies issues de l’intelligence artificielle vont avoir un impact important dans le futur, similaire à celui que des technologies de rupture similaires ont eu par le passé.
Oui, à la condition que les principes en matière de protection des données et de confidentialité soient respectés en toute situation : les utilisateur·trice·s doivent éviter de diffuser à travers ce type d’outils des données personnelles, sensibles ou soumises au secret de fonction. Cette FAQ fournit les règles que les collaborateur·trice·s, étudiant·e·s, enseignant·e·s et chercheur·e·s doivent respecter dans leur pratique.
De nombreux membres de l’UNIL utilisent déjà activement ChatGPT ou d’autres outils analogues dans leur quotidien. Ces outils permettent d’automatiser un nombre important de tâches, de faciliter l’accès à l’information, d’accélérer des tâches telles que la rédaction de textes, la traduction, la création de résumés ou la production de code informatique simple.
Ces mêmes fonctionnalités sont également introduites graduellement et de manière plus ou moins transparente et évidente dans les logiciels utilisés au quotidien, qu’ils soient commerciaux ou non. Ainsi les systèmes d’exploitation, les outils rédactionnels et d’analyse, les assistants, les outils de planification, etc., sont de plus en plus nourris de ces technologies, afin d’améliorer l’expérience des utilisateur·trice·s.
Il est raisonnable de penser qu’avec le temps, cette tendance continuera à se renforcer et que le recours – direct ou indirect – à ces outils ne fera qu’augmenter.
Les membres de la communauté désirant utiliser des outils d’IA, y compris le développement interne d’applications IA, peuvent le faire, pour autant qu’ils respectent les principes de base évoqués dans cette FAQ, en utilisant les outils à disposition gratuitement ou en souscrivant, si besoin, à des abonnements individuels. Le Centre informatique maintient une veille active sur l’utilisation faite de ces outils à l’échelle de l’institution et peut être sollicité pour mettre en place des solutions plus larges sur demande explicite d’une entité (faculté, service, etc.).
Depuis mai 2024, le Centre informatique a mis en place la solution Microsoft Copilot qui est actuellement incluse dans notre abonnement.
Vous pouvez vous rendre sur ce site https://copilot.microsoft.com/ et vous connecter avec vos identifiants UNIL. Vous aurez alors accès à la solution Copilot et à son chatbot, qui travaille via des API Microsoft Azure intégrant des modèles GPT, hébergés sur des serveurs européens répondant aux normes régionales de sécurité et de protection des données.
ATTENTION ! Les usages potentiels de cette solution dans l’enseignement et de la recherche sont définis par les cadres mis en place par les facultés et écoles. L’UNIL vous invite à vous y tenir le plus strictement.
Malgré la mention du badge « Protégé », aucun outil d’IA en ligne ne garantit à 100% la confidentialité des données qui y sont introduites. De ce fait, vous ne devez pas rentrer dans cet agent conversationnel toute information sensible, personnelle ou liée au secret de fonction (lien vers la note du DPO sur le niveau de protection des données).
Enfin, même si cette solution est mise à votre disposition dans le cadre des accords qui lient Microsoft et notre institution, l’UNIL ne peut pas garantir son maintien à long terme.
Lien vers l’accès au service et instructions du Centre informatique : Assistant virtuel IA
Outre ses applications pour la recherche et l'enseignement, l'intelligence artificielle propose une variété d'outils puissants qui peuvent simplifier de nombreuses tâches courantes. Voici quelques exemples d'utilisation académique :
Outre ces usages plus récents et diversifiés, l'intelligence artificielle continue de jouer un rôle central dans la gestion des ressources et des processus traditionnels. Voici quelques exemples concrets :
Les outils d’IA, des boîtes noires ?
Oui, ChatGPT, Microsoft Copilot, Google Gemini et autres outils disponibles en libre-service sont à ce jour des « boîtes noires ». Si on peut présupposer ce que sont certains des éléments qui ont été utilisés pour les entraîner, leur fonctionnement et leur architecture ne sont pas publics. Il est dès lors impossible d’auditer leur fonctionnement ce qui contraint les utilisateur·trice·s à garder un regard critique sur leur utilisation. La plupart de ces outils ne fournissant pas un accès aux sources conduisant aux réponses qu’ils génèrent, les utilisateur·trice·s sont donc contraint·e·s de vérifier la fiabilité de la production de celles-ci.
Protection des données et confidentialité
L'utilisation des outils d'IA nécessite une très grande vigilance en matière de protection des données et de confidentialité. Dans le contexte de l’UNIL, les utilisateur·trice·s doivent éviter de diffuser à travers ce type d’outils des données personnelles, sensibles, ou soumises au secret de fonction. Il s’agit ici d’appliquer le même jugement et regard critique que lors d’utilisation d’outils internet, et de garder à l’esprit que toute information mise à disposition sur un site web peut faire l’objet d’une collecte dont le but ultime est très éloigné de ce qu’on peut en penser. Une vigilance particulière est de mise avec l’utilisation de ces outils dont la facilité d’interaction tend à faire oublier à l’utilisateur·trice qu’il·elle est face aux mêmes problématiques rencontrées lorsqu’il·elle utilise un moteur de recherche de type Google ou un outil de traduction comme DeepL (voir section Protection et confidentialité des données).
Biais, hallucinations et informations erronées
Ces modèles, formés sur des données Internet vastes et diverses, reproduisent des biais sociétaux présents dans ces données. En outre, ils peuvent générer des "hallucinations" et fournir des informations qui semblent parfaitement plausibles mais qui sont en fait inexactes ou n'existent pas dans les données d'entraînement. Parfois, ils peuvent également fournir des informations erronées en raison de limitations de leur compréhension ou du contexte dans lequel ils opèrent. Il est crucial pour les utilisateur·trice·s de comprendre ces limites.
L'utilisation des outils d'intelligence artificielle a un impact environnemental notable en raison de leur consommation énergétique. Par exemple, les interactions avec des modèles d'IA pour des requêtes de type questions-réponses consomment 10 à 15 fois plus d'énergie qu'une recherche classique sur Google. Les tâches plus complexes, comme la reconnaissance vocale ou la génération d'images, nécessitent davantage de ressources, augmentant ainsi leur empreinte écologique.
Il est important de considérer non seulement l'énergie consommée lors de l'utilisation de ces outils, mais aussi celle dépensée pendant leur développement. En effet, le processus d'entraînement des modèles d'IA avancés tels que GPT, Gemini ou ceux de Meta, y compris les modèles open source, est particulièrement énergivore. La seule phase d'entraînement peut consommer autant d'énergie que plusieurs milliers de foyers en une année. Cette consommation résulte du traitement de vastes ensembles de données nécessaires pour optimiser les performances du modèle.
Une étude publiée dans la revue Nature en 2024 fournit des estimations détaillées de la consommation énergétique de divers modèles open source : https://www.nature.com/articles/d41586-024-02680-3. Ces données soulignent l'importance de prendre en compte l'impact environnemental lors du développement et de l'utilisation des outils d'IA.
Note du DPO sur la conformité et les usages de l'IA à l'UNIL, couvrant la gestion des données sensibles, personnelles et professionnelles ainsi que les bonnes pratiques d'utilisation.
Malgré les efforts déployés par les grandes compagnies en proposant des options de protection des données, aucun outil d’IA en ligne n'est actuellement en mesure de garantir à 100% la confidentialité des données qui y sont introduites. Lorsque l’on nourrit une IA avec des informations, ces dernières sont transférées d’un point A (l’ordinateur de la personne) vers un point B (les serveurs sur lesquels est basée l’IA qui traite l’information). Si l’utilisateur·rice alimente une IA avec des données personnelles (par exemple en lui demandant d’analyser des extraits d’entretiens ou un fichier contenant des données socio-démographiques), il y a généralement communication de données personnelles à l’étranger.
À titre d’exemple, OpenAI, dont le siège est aux États-Unis, stipule clairement que par défaut les discussions avec ChatGPT (y compris la version payante ChatGPT Plus) sont stockées sur leurs serveurs aux États-Unis et pourraient servir à entraîner leurs modèles. Or, les USA ne sont pas considérés par les autorités suisses et européennes de protection des données comme un pays offrant un niveau de protection des données équivalent aux leurs (pays non-adéquat au sens de la loi). Il est donc pour le moment illégal en Suisse et en Europe de nourrir des IA avec des données personnelles et a fortiori sensibles (données de santé, opinions politiques, etc.). L’adoption récente d’un nouvel accord UE/USA en matière de protection des données – le Data Privacy Framework – est un pas encourageant dans la régularisation des transferts de données personnelles outre-Atlantique. La Suisse pourrait adhérer à ce mécanisme prochainement. L’UNIL reste la responsable de la légalité de ces transferts et doit notamment s’assurer que les sous-traitants sont bien parties au Data Privacy Framework.
En outre, lorsqu’un système IA traite un ensemble de données, il s’initie aux motifs et configurations présents dans ces données. Cela induit qu'il est susceptible de mémoriser et de restituer des éléments issus de ces données dans ses sorties. Ceci créé d’importants problèmes si l'IA est calibrée sur des données personnelles, sensibles ou confidentielles. Par exemple, si le logiciel traite des données médicales, des informations financières, ou toute autre donnée personnelle, il pourrait divulguer, dans les contenus qu’il produit, des détails relatifs à celles-ci, même de manière indirecte ou déguisée. Dans la configuration actuelle de ces outils, la protection et la confidentialité des données n’est donc pas respectée.
Les personnes manipulant ces outils doivent donc faire preuve d’une extrême vigilance afin d’assurer la protection et la confidentialité des données. Cela peut requérir des réflexes simples tels que l’information aux participant·e·s, l'anonymisation, la pseudonymisation, l'adoption de données agrégées, etc.
En conclusion, alors que les algorithmes d’IA offrent des capacités d'analyse et de synthèse puissantes, il est impératif que leur utilisation soit réalisée en conformité avec la loi. La garantie de la protection des données personnelles et de la confidentialité des données en général est non seulement une question d'éthique, mais aussi une obligation légale.
C'est la raison pour laquelle les membres de la communauté UNIL doivent s’informer des risques éventuels et mettre en place toutes les précautions nécessaires lors de la manipulation de ces outils.
Non. Il faut éviter pour l’instant d'associer votre adresse email UNIL ou votre dossier OneDrive UNIL à des outils d'intelligence artificielle tels que ChatGPT. Le seul outil où vous pouvez associer votre adresse email UNIL est Microsoft Copilot.
Comme mentionné précédemment, ces technologies utilisent souvent les données pour entraîner leurs modèles, ce qui peut causer des risques importants comme la violation de la confidentialité des données personnelles, la divulgation d'informations sensibles et le non-respect des obligations liées au secret de fonction. Le Centre informatique attend d'avoir des garanties solides de la part des outils IA concernant leur sécurité et leur respect de la confidentialité avant de pouvoir envisager leur association avec un compte UNIL.