Chez DPC, en matière de conservation numérique, la question qui nous est le plus souvent posée concerne les premiers pas. L’inquiétude porte en général sur les moyens financiers importants et les abondantes connaissances techniques qu’exigera la conservation numérique et qui risquent de manquer cruellement.
La conservation numérique est certes loin d’être simple et il n’existe pas de solution miracle. En effet, presque toutes les réponses que l’on peut faire aux questions concernant la conservation numérique commencent par les mots « Cela dépend… », car tout est toujours tributaire du contexte. Si vous en êtes à vos débuts, ou ne disposez que de ressources modestes, il existe toutefois quelques démarches simples à votre portée pour vous permettre d’entamer la sécurisation de vos contenus numériques. Dans ce billet de blog, je vais donc les passer en revue (tout en vous indiquant des ressources utiles). Pour de plus amples renseignements, je vous invite à consulter le Manuel de conservation numérique (en anglais uniquement) sur notre site web : https://www.dpconline.org/handbook
Mieux connaître votre organisation et vos données
Création d’un inventaire des ressources numériques
Il importe de bien appréhender la nature et la taille de vos fonds numériques. Pour collecter des informations à ce sujet, vous pourrez utiliser un document que l’on peut appeler « Inventaire des ressources numériques ». Il s’agit d’un document qui peut s’avérer extrêmement utile pour l’évaluation du volume et de la portée de vos fonds numériques, pour le recensement des priorités et des risques et pour la planification des mesures de conservation numérique. Il vaut mieux commencer par une évaluation globale des contenus numériques avant de procéder ensuite à la réalisation d’une cartographie plus précise, une évaluation complète et détaillée pouvant être chronophage. Donc, mon premier conseil : au départ, contentez-vous d’un inventaire simple. Posez-vous les questions suivantes :
- Quels sont les thèmes abordés dans les fonds concernés ?
- D’où viennent les fonds et quelles en sont les finalités ?
- Où sont conservés les contenus numériques correspondants et quels sont les supports utilisés ?
- Pourquoi les fonds sont-ils conservés ?
- Qui est responsable des fonds ? Qui en sont les utilisateurs ? Qui fait l’objet des données ?
- Comment accède-t-on aux contenus numériques ?
- Quelles sont les évolutions quantitatives et qualitatives que sont susceptibles de connaître les contenus numériques dans un proche avenir ?
Le cadre relatif aux ressources numériques (http://www.dcc.ac.uk/resources/tools/data-asset-framework, en anglais uniquement) propose un canevas plus structuré pour la réalisation d’une évaluation.
Évaluation des capacités actuelles de votre organisation
Il y a lieu non seulement de bien appréhender les contenus numériques qu’aura à gérer votre organisation, mais encore de connaître ses capacités actuelles en matière de conservation numérique. C’est ainsi que vous pourrez jeter les bases d’une évolution future et que vous serez en mesure de plaider, le cas échéant, en faveur de l’attribution de moyens supplémentaires. Un outil utile à cette fin est celui du modèle de maturité. Il existe un certain nombre de modèles de maturité pour la conservation numérique et il conviendra de réfléchir à celui qui vous conviendra le mieux. Parmi les modèles disponibles, citons les suivants (tous disponibles uniquement en anglais)
- Le modèle pour la gestion de la conservation numérique (Digital Preservation Management Model) : modèle de base qui pourra vous être utile lors de vos première démarches, car il vous permettra de saisir les aspects essentiels de la conservation numérique. https://dpworkshop.org/dpm-eng
- Les niveaux de conservation de la National Digital Stewardship Alliance (NDSA Levels of Preservation) : modèle spécifiquement axé sur les enjeux liés aux technologies et aux processus. https://ndsa.org/publications/levels-of-digital-preservation/
- Le modèle de maturité relatif aux capacités de conservation numérique (Digital Preservation Capability Maturity Model) : modèle d’une envergure plus importante, largement calqué sur la norme OAIS (Système ouvert d’archivage d’information). http://www.securelyrooted.com/dpcmm
- Le modèle d’évaluation rapide (Rapid Assessment Model) de DPC : autre modèle de grande portée générale mais suffisamment souple pour s’adapter à des organisations de tailles et de secteurs différents. Ce modèle présente aussi l’avantage d’être neutre par rapport aux stratégies et aux solutions. https://www.dpconline.org/our-work/dpc-ram
Sécurisation des flux binaires
De toute évidence, il y a également des gestes techniques que nous devons réaliser pour garantir l’accès pérenne à nos contenus numériques. Dans le domaine de la conservation numérique, nous avons l’habitude de parler de « conservation des flux binaires » (Bitstream Preservation), qui vise la conservation des « uns » et des « zéros » composant tous les contenus numériques. Pour la sécurisation de ces flux, certaines actions s’imposent :
- Sans plus tarder, dupliquer les contenus numériques conservés sur des supports anciens et/ou amovibles (CD ou clés USB) sur des supports de stockage plus fiables.
- Créer un « manifeste vérifiable de fichiers » (Verifiable File Manifest). Il s’agira au minimum d’une liste des fichiers, de leurs lieux de stockage ainsi que d’une somme de contrôle (checksum en anglais, aussi appelée « empreinte ») pour chacun des fichiers (une somme de contrôle est une chaîne de caractères alphanumériques générée par un logiciel pour représenter la structure d’un fichier ; je reviendrai sur cet aspect dans un instant). Il existe de nombreux outils gratuits de calcul d’empreinte vous permettant de générer ces informations, notamment DROID, développé par les Archives nationales du Royaume-Uni. https://www.nationalarchives.gov.uk/information-management/manage-information/policy-process/digital-continuity/file-profiling-tool-droid
- Dupliquer vos contenus numériques au cas où il arriverait un pépin (car il en arrive souvent). Une solution serait de conserver :
- Une copie locale sur disque dur pour un accès rapide et pratique.
- Une deuxième copie sur bande magnétique (éventuellement conservée dans un lieu physique différent pour minimiser les risques en cas de catastrophe naturelle). On obtient ainsi une bonne résilience à moindre coût.
- Une troisième copie dans le nuage, qui vous procurera une sécurité supplémentaire, également pour un prix modique. Certains prestataires de services d’informatique en nuage pratiquent de faibles tarifs pour l’écriture de données et des tarifs élevés pour la lecture. Cette troisième copie pourrait constituer un stockage de dernier recours, autrement dit une ressource dont l’accès et la lecture n’interviendraient qu’en cas de perte ou d’altération des autres copies.
- Effectuer régulièrement des contrôles d’intégrité. Il s’agit d’utiliser les sommes de contrôle pour vérifier que vos contenus numériques n’ont pas subi d’altération dans le temps, ce qui sera aussi l’occasion de repérer d’éventuelles erreurs et de s’assurer de leur authenticité. En sauvegardant une somme de contrôle pour chacun des fichiers dans un document tel qu’un manifeste vérifiable de fichiers, il sera possible à n’importe quel moment dans le futur de générer une autre somme de contrôle à partir du fichier et, si les deux sommes sont identiques, d’avoir la certitude qu’il n’y a pas eu d’altération. Si elles ne sont pas concordantes, il faudra intervenir, par exemple en récupérant une copie d’un autre lieu de conservation. Dans l’idéal, il faudrait effectuer des contrôles d’intégrité à intervalles réguliers (tous les 6 mois par exemple) et à chaque déplacement de fichier. Pour les contrôles d’intégrité, plusieurs outils existent, dont Fixity d’AVP https://www.weareavp.com/products/fixity/
Pour d’autres aides à la création de flux de travail pour la conservation numérique, consultez le lien suivant des Archives nationales du Royaume-Uni, qui vous donnera d’excellentes explications sur ce thème (en anglais uniquement) : https://nationalarchives.gov.uk/archives-sector/projects-and-programmes/plugged-in-powered-up/digital-preservation-workflows/
Autres ressources
Avant de conclure, je propose quelques autres ressources pour les personnes qui débutent dans la conservation numérique. Voici une petite liste de mes ressources favorites (en anglais uniquement) :
- COPTR : inventaire d’outils pour la conservation numérique – https://coptr.digipres.org/Main_Page
- Critères pour la sauvegarde de contenus numériques – https://osf.io/sjc6u/
- Cadre de compétences DigCurV – https://www.digcurv.gla.ac.uk/
- Contenus de la formation sur les fondamentaux de la conservation numérique (« Digital Preservation Essentials ») proposée par Australasia Preserves – https://www.australasiapreserves.org/p/digital-preservation-essentials.html
- Blog de la section des archives électroniques de la Société des archivistes américains – https://saaers.wordpress.com/?s=erd
Ainsi que d’autres produits proposés par DPC (en anglais uniquement) :
- Manuel de la conservation numérique – https://www.dpconline.org/handbook
- Textes publiés sur la veille technologique – https://www.dpconline.org/knowledge-base/tech-watch-reports
- Ressources relatives à la sensibilisation – https://www.dpconline.org/knowledge-base/advocacy
- Le blog de DPC – https://www.dpconline.org/blog
Sharon McMeekin, Cheffe du service Évolution du Personnel, Digital Preservation Coalition
@SharonMcMeekin