Mots-clefs

L’internet est un espace constitué de sources diffuses, qui pourraient être mieux organisées. Il est marqué par l’ « infobésité » (surcharge informationnelle) qui est l’un des facteurs qui cause le bruit dans les recherches d’informations. L ‘internaute peut facilement s’y perdre en ne trouvant pas exactement les informations dont il a besoin. Et sachant que tout ce qu’il souhaite, c’est de trouver, identifier, sélectionner, obtenir, bref accéder à du contenu (œuvres, personnes, événements, lieux, notions et objets) qui pourrait satisfaire son besoin d’information, les bibliothèques se sont mises alors sur son chemin pour lui montrer la route qui mène vers des réponses pertinentes.

web-de-donnees

         Les bibliothécaires sont alors devenus des « super librarians » qui se placent entre l’usager et les ressources sur le web. Elles ont transformé leurs catalogues en s’appuyant sur les standards du web, en s’inscrivant dans le web de données et selon les normes établies par le consortium W3C, en se conformant aux nouveaux modèles établis par l’IFLA (FRBR), et en réfléchissant sur l’adoption de nouveaux codes de catalogage tels que la RDA.

            Dans un web marqué l’avènement du « big data » (avec ses trois V : Volume, Vitesse et Variété, (Stefan Schmidt, 2012)), le crowdsourcing (production participative), et l’Open data (ouverture des données), le rôle des bibliothèques ne peut être que décisif, c’est-à-dire de créer une offre meilleure que celle du Web en y joignant une valeur ajoutée qui consisterait non seulement à relier les données mais à les indexer en constituant un corpus de métadonnées. Ces dernières permettraient à l’internaute de retrouver facilement l’information dont il a besoin.

           L’on sait bien que les missions traditionnelles des bibliothèques restent le fait de collecter, signaler, valoriser, communiquer et sauvegarder (conserver) les documents physiques ou numériques. Or pour continuer d’exister, pour parfaire son offre, avec la levée des frontières informationnelles, les bibliothèques doivent se constituer ou constituer en silos de données et les structurer. Ceci leur permettrait d’être un réseau global d’informations car les données structurées sur le Web sont reliées entre elles (Web de données).

            La première initiative en ce sens, est celle du Consortium W3C (Consortium World Wide Web) qui visait à favoriser la publication de données structurées sur le Web sous forme de silos. Ce système s’appuie sur les standards du Web, tels que HTTP (HyperText Transfert Protocol) et URI (Uniform Resource Identifier, traduit littéralement comme Identifiant Uniforme de Ressource, chaîne de caractères identifiant des ressources sur un réseau).

           Selon le W3C, « le Web sémantique fournit un modèle qui permet aux données d’être partagées et réutilisées entre plusieurs applications, entreprises et groupes d’utilisateurs ». Le terme a été utilisé pour la première fois par Tim Berners-Lee, qui le définit comme « un web de données qui peuvent être traitées directement et indirectement par des machines pour aider leurs utilisateurs à créer de nouvelles connaissances ».

Nous allons voir comment rendre visible les données sur le web, interopérable, fiable et souple pour la réutilisation par des tiers.

 La visibilité et le référencement des données sur le web

La création de contenu sur le web est un exercice qui n’est pas  vraiment aisé car elle demande un certain engagement de la part de l’auteur.

        Un bon site est caractérisé par un contenu mis à jour régulièrement et un bon référencement. Ce dernier concerne l’optimisation des contenus et des pages web pour les moteurs de recherche. La visibilité et le référencement du web passe obligatoirement par la définition de mots-clés ou descripteurs qui serviront à localiser les pages. C’est ce référencement qui permet aux moteurs de recherche de pouvoir localiser les données.

          On voit alors que le choix de bons descripteurs reste obligatoire car c’est à partir de ceux-ci que l’usager parviendra à trouver la bonne donnée.

            Il faut régulièrement ajouter du contenu au site web car sinon, sa position descendra dans les SERP de Google (Search Engine results Page, page des résultats). Le langage utilisé est HTML pour structurer les données.

Aussi, est-il  à signaler que le site web qui comporte le plus de liens vers d’autres pages peut être souvent plus visible que d’autres. Ces liens aussi  (ou backlinks) participeront à élever le pagerank du site.

Ce sont ces éléments qui rendent les données visibles .

L’interopérabilité des données

Le web est un univers riche en informations (silos massifs et dispersés). Pour trouver la bonne information, il faut savoir la chercher. D’où l’importance du référencement qui permet de relier la donnée avec l’usager par l’intermédiaire des mots-clés.

               Pour pouvoir percer le web invisible, il est obligatoire de mettre les bons mots-clés, une tâche que se sont assignées les bibliothèques par la création et la réutilisation des métadonnées (création de données validées et contextualisées).

              Aussi, les bibliothécaires ont su développer des compétences en récupération de données, création de liens entre elles et des listes d’autorités. Ce qui améliore l’interopérabilité entre les systèmes d’informations documentaires en facilitant considérablement le partage ou le transport des notices bibliographiques en utilisant des formats universels et les mêmes protocoles. Ce fait participe également à l’enrichissement des catalogues. L’exemple le plus patent est les portails avec l’utilisation des protocoles OAI-PMH utilisé  par Europeana.

Cette interopérabilité créée par le web sémantique permet, non seulement, de structurer les silos de données mais également facilite la recherche de l’usager qui n’a plus besoin de passer par les pages d’accueil des sites, du moment que toutes les données sont reliées. Il a juste besoin de suivre les liens qui lui sont proposés pour accéder à l’information dont il a besoin.

La fiabilité des données

Il faut savoir que l’internet est devenu un espace d’interaction, constitué par toutes sortes de  terminaux, qui communiquent par des protocoles et interprètent des langages traduits dans des formats. Pour que cette interaction soit bien faite, il faudrait que les internautes puissent se comprendre et pour cela, le format et le langage usités doivent être les mêmes.             Aussi, le fait que ces données communiquées soient contrôlées et structurées par les bibliothèques donne plus de fiabilité à l’information dont l’internaute a besoin.

             L’implication des bibliothécaires dans le processus de création du web de données rend ces données plus fiables dans la mesure  où elles sont contrôlées, vérifiées et leurs sources sont localisables avec les URI qui participent considérablement à la pérennité de ces données.

web-de-donnees-2

 

La souplesse de réutilisation des données

Selon Wikipedia,  « le but principal du Web sémantique est d’orienter l’évolution du Web pour permettre aux utilisateurs sans intermédiaires de trouver, partager et combiner l’information plus facilement ».  L’objectif  du web sémantique est alors de permettre à l’usager de pouvoir trouver l’information dans un univers totalement diffus. Il est alors nécessaire de  structurer, de classer, d’indexer les informations pour lui permettre de gagner du temps. Les bibliothèques jouent carrément ce rôle en essayant de regrouper ces données en corpus, en créant des métadonnées qu’elles se partagent entre elles.

             L’objectif  du web sémantique est de créer un seul web où la création de données serait une affaire de tous, l’essentiel est que ces données soient structurées et fiables afin que l’internaute puisse les  parcourir et trouver la bonne information.

          Le web sémantique s’appuie sur des choses qui sont au cœur de notre métier, structurer et échanger des données entre des structures qui ne sont pas forcément des bibliothèques (ex : Gallica et Musées).

            Un moteur de recherche clique de lien en lien mais il est souvent bloqué par les catalogues, c’est pour remédier à ce problème que les métadonnées sont partagées (moissonnage) entre les différentes bibliothèques qui s’investissent dans l’organisation des masses de données.

             Les bibliothèques récupèrent les métadonnées pour gagner du temps et par la même occasion homogénéisent le catalogage. Les données sont désormais reliées et structurées, ce qui participe favorablement à la rapidité de réponses des recherches opérées par les internautes.

Pour aller plus loin :

Le web de données ou web de documents

Le thésaurus W et le Web de données

Web sémantique et web de données

Le web de données

Publicités