Apprentissage machine, archives et collections spéciales : un tour d’horizon à haut niveau

Article tiré du journal Flash, n°38. Membres de l’ICA, pour lire l’intégralité du dossier consacré à l’intelligence artificielle, suivez ce lien. Si vous n’êtes pas membre, vous pouvez le devenir en suivant ce lien.

Des prédictions extravagantes sont faites pour ce que les médias populaires appellent « l’intelligence artificielle ». Cela éliminera des millions d’emplois, donnera naissance à des voitures autonomes, prendra en charge le diagnostic médical et la prescription des traitements, ainsi que les décisions des entreprises et des gouvernements. On a l’impression que cela fera quelque chose – c’est habituellement mal défini – pour transformer le travail et la gestion des connaissances et les activités des institutions de mémoire culturelle. Ce bref article tente de donner une idée raisonnablement sobre et concrète des changements réels et pertinents qui pourraient se produire au cours de la prochaine décennie, sans entrer dans les détails techniques, et de ce que ces changements pourraient impliquer pour les pratiques des archives et des collections spéciales, ou des institutions de mémoire culturelle en général.

Le Dr. Clifford A. Lynch, directeur exécutif de la Coalition for Networked Information (CNI) à la conférence Jisc/CNI de 2018, avec l’aimable autorisation du Jisc

Des progrès remarquables ont été réalisés ces dernières années, principalement dans la sous-discipline spécifique et limitée de l’apprentissage machine. En résumé, l’apprentissage automatique utilise des collections d’exemples pour former les logiciels à reconnaître des modèles et à agir sur cette reconnaissance. Par exemple, il a permis à un programme informatique de devenir le champion mondial du jeu de Go, qui est généralement considéré comme beaucoup plus complexe que les échecs, et aussi de permettre aux ordinateurs d’apprendre comment exceller dans divers jeux vidéo. Les logiciels égalent maintenant la performance humaine dans le dépistage de divers types d’imagerie médicale afin d’identifier certaines maladies. Bon nombre des percées les plus célèbres associent l’apprentissage machine à diverses formes de robotique et de « vision par ordinateur » (en fait, une vaste gamme d’outils d’imagerie et d’autres capteurs environnementaux), plus particulièrement dans des applications telles que les voitures autonomes, les camions, les navires, les drones ou les dispositifs militaires.

Trois facteurs conduisent à l’introduction de l’apprentissage machine : réduire les coûts en éliminant les humains (véhicules autonomes), surpasser les capacités humaines (jeux), faire des choses qui ne peuvent être accomplies aujourd’hui à l’échelle souhaitée avec des coûts acceptables (surveillance ubiquiste). C’est ce dernier facteur qui offre aussi des possibilités aux institutions de mémoire.

Parmi les applications où l’apprentissage automatique a mené à des percées très pertinentes pour les institutions de mémoire, mentionnons la traduction d’une langue à une autre, la transcription d’un texte imprimé ou manuscrit en représentation informatique (parfois appelée reconnaissance optique de caractères), la conversion des mots parlés en texte, la classification des images selon leur contenu (par exemple, trouver des images contenant des chiens ou énumérer tous les objets que le logiciel peut reconnaître dans une image) et, comme cas particulier et important de reconnaissance faciale humaine, l’identification des images. Les progrès dans tous ces domaines sont dirigés et guidés par le gouvernement ou les secteurs commerciaux, qui sont infiniment mieux financés que la mémoire culturelle ; par exemple, de nombreux états-nations et grandes entreprises sont très intéressés par la reconnaissance faciale. La stratégie clé pour le secteur de la mémoire culturelle sera d’exploiter ces avantages, en adaptant et en ajustant les technologies en périphérie pour ses propres besoins.

Il est important de noter que lorsqu’on parle d’investissement technologique dans l’apprentissage machine, cet investissement se présente sous plusieurs formes. Il y a un investissement dans les logiciels et les algorithmes de calcul qui sous-tendent les logiciels. Il y a également un investissement crucial dans les corpus de données de formation : des données qui peuvent être utilisées pour former et valider des modèles d’apprentissage automatique ; il s’agit généralement de vastes collections de cas qui ont été évalués par les meilleurs experts humains – par exemple, des images radiologiques avec des annotations sur l’existence d’une tumeur ; des résumés du contenu des photographies ; des images de visages avec les noms associés à ces derniers. Rassembler ces corpus de données de formation peut s’avérer très difficile et implique souvent la réutilisation d’autres données – des images faciales et des noms recueillis pour les permis de conduire ou les passeports par les gouvernements, par exemple. Le secteur de la mémoire culturelle doit réfléchir très attentivement aux ensembles de données qui existent et qui peuvent être réorientés ou adaptés de la même façon (peut-être par la production participative) à ses propres fins de formation.

L’un des grands défis, encore largement inexplorés, pour les institutions de mémoire culturelle est la mesure dans laquelle il est avantageux de « personnaliser » ou de former spécifiquement l’apprentissage automatique sur des collections individuelles – l’écriture manuscrite d’un individu, par opposition à celle du style d’écriture victorienne en général, ou celle des membres d’une même famille susceptible de figurer sur une collection de photos. La création de ces ensembles de formation sera onéreuse, et les compromis en matière de coûts et de flux de travail seront déterminants.

Dans les prochaines décennies, les technologies d’apprentissage automatique dans les institutions de mémoire culturelle ne s’appliqueront qu’au matériel déjà sur support numérique ; il faudra numériser les collections ou qu’elles soient nées numériques et donc acquises sous cette forme. Ce point est essentiel, car il limite la portée de l’application de ces technologies parce que, dans certaines institutions, peu de documents sont numériques ; mais il faut aussi reconnaître que, de plus en plus de nouveaux documents entrant dans les archives et les collections spéciales arrivent sous forme numérique. Je ne crois pourtant pas que nous verrons bientôt beaucoup d’érudits, d’archivistes et de conservateurs robots parcourir nos collections physiques pour sélectionner, examiner et analyser des documents.

Pensez aux obstacles au déploiement de véhicules autonomes : même si cela permettrait d’économiser de l’argent, le coût des conducteurs humains est actuellement intégré à l’économie ; pour justifier la capture de ces économies, il faut prouver de façon concluante que ces véhicules autonomes sont sensiblement plus sûrs que les conducteurs humains actuels. En revanche, l’état actuel de l’accès aux collections est médiocre en raison du manque de ressources pour embaucher du personnel ; si l’apprentissage machine est utilisé pour améliorer cet accès, le risque d’erreurs est généralement faible comparativement à la pratique actuelle. Pensez à une collection spéciale contenant beaucoup de photos de personnes. Il s’agit d’un environnement relativement peu risqué pour le déploiement de la reconnaissance faciale. La plupart du temps, il n’y a pas d’indexation des personnes sur les photos aujourd’hui, de sorte que même une reconnaissance modérément bonne constituera une amélioration substantielle. De plus, le coût de l’erreur est faible ; le fait de ne pas identifier une personne sur une photo ne créera pas un risque pour la sécurité nationale, et une fausse identification ne conduira pas une personne innocente à être détenue et interrogée, ou pire. En effet, le plus grand défi pour les responsables de la collection indexée par un logiciel de reconnaissance faciale imparfait sera d’amener un groupe d’utilisateurs déjà reconnaissants à comprendre que le logiciel est en fait imparfait et à prendre en compte le sens de taux d’échecs positifs et négatifs et les scénarios de défaillance les plus courants. 

Permettez-moi de conclure sur trois points. Les flux de travail, l’organisation et la structuration appropriées des données seront essentiels au progrès. Dans de nombreuses applications d’apprentissage machine et d’analyse aujourd’hui, la grande majorité du temps est consacrée à la collecte et au nettoyage des données et à la mise en place des flux de travail, plutôt qu’à l’apprentissage machine de base. Les institutions de mémoire seront confrontées à ces défis, et elles risquent vraisemblablement de nuire gravement au progrès. De plus, l’apprentissage machine est parfois exigeant en calcul et donc coûteux à former et à utiliser par la suite.

Deuxièmement, l’amélioration de l’accès mènera à de nombreux débats sur la protection de la vie privée et les pratiques exemplaires. La reconnaissance faciale sera un élément déterminant. Il suffit de penser à l’expérience de nombreuses universités qui ont numérisé d’anciens annuaires scolaires. Ceux-ci peuvent alimenter des bases de données pour former à la reconnaissance faciale dans d’autres contextes (ils contiennent des images avec des noms associés), mais aussi, une fois indexés, ils peuvent fournir des images très embarrassantes ou fâcheuses liées aux personnes qui sont peut-être devenues publiques plusieurs années après. La pertinence de l’application de l’indexation basée sur la reconnaissance faciale fera l’objet d’un débat majeur dans les années à venir ; c’est déjà une question très réelle dans le contexte des médias sociaux, et elle va s’étendre aux archives et aux collections spéciales.

Enfin, examinons un scénario supplémentaire pour l’apprentissage machine dans les institutions de mémoire, celui qui tire parti des investissements des secteurs du renseignement, de l’application de la loi et de la science médico-légale dans l’apprentissage machine. De plus en plus souvent, lors de dons de « documents personnels », la place appareils de stockage numériques – ordinateurs portables, disques durs externes, et autres périphériques de ce type – est prépondérante. Après avoir mis en sécurité les octets sur des supports de stockage modernes, la réaction générale à ces acquisitions est le désespoir : le personnel responsable de la conservation ne rattrapera jamais son retard dans l’évaluation et la description de ces documents. Imaginez une application d’apprentissage automatique qui pourrait au moins effectuer le tri et la classification de ces documents numériques de premier niveau. Je crois que cela sera certainement possible au cours des prochaines années.

Ce scénario illustre ce que je crois être les effets globaux à court terme des applications d’apprentissage machine, dans la mesure où les institutions de mémoire peuvent développer les compétences et les flux de travail pour les appliquer : l’apprentissage machine améliorera considérablement la capacité à traiter et donner accès aux collections numériques, qui a toujours été fortement limitée par une pénurie de main-d’œuvre humaine spécialisée. Mais il faudra pour cela accepter une qualité et une uniformité souvent inférieures à ce que les experts humains ont été en mesure d’offrir lorsque possible.

Je remercie Cecilia Preston, Mary Lee Kennedy, Joan Lippincott et Diane Goldenberg-Hart pour leurs commentaires utiles sur les épreuves de cet essai.

Clifford A. Lynch

Directeur exécutif de la Coalition for Networked Information (CNI)

Traduction réalisée bénévolement par M. Yves Lapointe, Directeur et Archiviste, Service des archives et de la gestion des documents de l’Université McGill, Canada

publié sous licence Creative Commons CC BY-NC-SA