Persée dans le web de données

Persee_logoAu départ, Persée est un portail web donnant accès à des collections de publications scientifiques (revues, livres, actes de congrès…) spécialisées dans le domaine des sciences humaines et sociales. Récemment, l’offre Persée s’est enrichie d’un triplestore. Objectifs poursuivis : s’inscrire résolument dans le web de données et favoriser le data mining.

Qu’est-ce qu’un triplestore ?

Un triplestore est une forme de base de données conçue pour gérer, récupérer et stocker des triplets RDF (Resource Description Framework). Le standard RDF est, selon la définition de la BNF, « un modèle de description des données dans lequel toute ressource est identifiée par une URI (Uniform Resource Identifier), et où l’on peut faire des assertions ou déclarations sur ces ressources sous la forme d’un triplet sujet – prédicat – objet ». A noter que, dans un triplet, le sujet et le prédicat sont toujours exprimés par des URI. L’objet, quant à lui, peut être exprimé sous la forme d’une URI ou d’une chaîne de caractères.

RDF est donc la grammaire de base sur laquelle s’appuie le web de données. Il s’agit d’un cadre permettant d’organiser logiquement l’information et de représenter formellement la nature de la relation entre différentes ressources. Cette relation est alors exprimée sous la forme d’une phrase descriptive simple. Chaque membre d’un triplet est une ressource qui peut également être le sujet ou l’objet d’autres déclarations.

Exemples de triplets exprimés en langage naturel :

Pierre Bourdieu (sujet) a écrit (prédicat) La domination masculine (objet)

Pierre Bourdieu est né en 1930

La domination masculine a pour date de publication 1990

La domination masculine est issue des Actes de la recherche en sciences sociales

Les Actes de la recherche en sciences sociales ont pour e-ISSN 1955-2564

Pierre Bourdieu est mort en 2002

Toutes les informations concernant les contenus de la base de données Persée sont des métadonnées, c’est-à-dire des données servant à décrire ou à définir d’autres données.  Ainsi, en liant ces données, on obtient un ensemble de graphes formalisant schématiquement l’ensemble des relations entre les différents « objets » de la base. Pour mieux comprendre l’architecture générale du triplestore, les schémas d’organisation des données ont même été communiqués sur le portail sous la forme de cartes heuristiques.
Par ailleurs, un outil comme Lodlive permet de visualiser, à partir de l’URI d’une ressource, l’ensemble des relations et des propriétés qu’elle entretient avec d’autres entités. A titre d’exemple, voici une partie du réseau de relations que l’on obtient à partir de l’URI correspondant à Pierre Bourdieu :
 relations_uri_bourdieu1-e1488273062387

Quels sont les vocabulaires utilisés dans Data Persée ?

Pour définir en RDF les données contenues dans le triplestore de Persée et qualifier leurs relations, plusieurs vocabulaires et modèles déjà formalisés et largement répandus dans le domaine du web de données ont été utilisés. Un des objectifs est alors de s’appuyer sur des référentiels structurés d’éléments descriptifs capables d’être exploités et interprétés par des machines. Ces vocabulaires affectent des URI aux classes (personnes, documents…) et aux propriétés (a pour nom, a pour titre…) qu’ils définissent.

Pour chaque vocabulaire, j’insère un lien vers une ressource le présentant de manière simple.

  • Pour décrire des documents : Dublin Core
  • Pour décrire les personnes : FOAF (Friend Of A Friend)
  • Pour exprimer des concepts : SKOS (Simple Knowledge Organisation System)
  • Pour décrire la nature des documents : BIBO (Bibliographic Ontology)
  • Pour décrire les liens entre documents (citations, comptes rendus…) : CITO (Citation Typing Ontology)
  • Pour décrire les relations entre différentes entités documentaires : FRBR (Functional Requirements for Bibliographic Records)

Pourquoi Data Persée ?

L’ouverture de ce triplestore vise à favoriser l’exploration et la réutilisation des métadonnées de Persée. En d’autres termes, il s’agit de faciliter les opérations de data mining mais également de répondre aux besoins exprimés par les chercheurs de constitution de corpus complexes en leur permettant d’appréhender les documents selon des critères spécifiques (année, auteur, collection…) et leur contexte de production scientifique. A noter que Data Persée permet aussi d’interroger les données  proposées par d’autres partenaires (IdRef, DBpedia, data.bnf, GBIF, VIAF…).

Comment explorer les données de Data Persée ?

Donc, si l’on récapitule, l’objectif de ce nouveau service est d’exposer sur le web les données de Persée structurées au moyen des technologies du web sémantique et d’en faciliter l’exploration, notamment au profit de la recherche scientifique. La recherche et l’accès aux données s’effectue via un espace fonctionnant avec le langage de requête SPARQL (SPARQL Protocol and RDF Query Language). Mais pas de panique ! Pour les utilisateurs qui ne maitrisent pas le langage SPARQL, un outil spécifique, Sparklis, a été développé permettant d’interroger le triplestore en langage naturel. L’interface de requête de Sparklis guide pas à pas l’utilisateur dans le processus de formulation de l’équation de recherche. Ce qui signifie que chaque utilisateur peut se plonger presque immédiatement dans l’exploration de Data Persée. Sans aucun prérequis nécessaire en matière de langage de requête. Et ça, c’est une bonne nouvelle !

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s