Dédoublonnage ou Dedup
Primo peut dédoublonner des notices en provenance de sources distinctes. L’algorithme de dédoublonnage s’appuie sur des clefs définies dans chaque notice PNX.
Did you mean ?
Lorsqu’une requête renvoie moins de 50 (paramètre configurable) résultats hors résultats de Primo Central, Primo va proposer une correction orthographique.
La correction orthographique s’appuie sur le principe mathématique de la Distance de Levenshtein. Ce principe permet de calculer le coût minimal pour transformer un terme en un autre en effectuant des traitements élémentaires sur les chaînes de caractères (substitution, insertion ou suppression d’un caractère). Ainsi, lorsqu’une requête retourne moins de 50 résultats, Primo va comparer les termes de la requête avec les entrées d’un dictionnaire et calcule pour chaque comparaison la distance de Levenshtein. Il proposera le terme du dictionnaire le plus proche (ie ayant un coût de transformation le plus faible) du terme saisi.
Enrichissement
L’enrichissement est le processus par lequel Primo peut ajouter des données à des notices via un service tiers. Par exemple, c’est à cette étape de traitement que nous pourrons ajouter les résumés obtenus depuis le service Zebris.
FRBRisation
Le processus de FRBRisation dans Primo est basé sur les principes des Fonctionnalités requises des notices bibliographiques arrêtés par le groupe du même nom à l’IFLA.
Sur la base d’éléments précis présents dans les notices en entrée et stockées dans le bloc frbr de la notice PNX, le système construit des groupes, qui représentent une œuvre. Les notices qui décrivent les différentes expressions et manifestations d’une même œuvre sont donc rassemblées dans un même groupe. A l’affichage, l’utilisateur ne verra qu’une seule notice. Cette notice peut être la notice préférée du groupement FRBR (celle qui a eu le score le plus élevé lors du processus de regroupement) (fig.A) ou une notice générée à partir des éléments communs à toutes les notices (fig. B). Dans ce deuxième cas, la disponibilité du document et les services d’ajout de la notice au panier ne seront pas affichés.
Fig. A
Fig. B
Moissonnage
Le Moissonnage est l’étape de traitement durant laquelle Primo va récupérer les notices fournies par une source externe. Ces notices peuvent être mises à disposition via un entrepôt OAI-PMH ou par un dépôt de fichiers sur un serveur FTP (File Transfer Protocol). La source signale à Primo les notices créées, modifiées ou supprimées depuis le dernier chargement.
Normalisation
Le processus de normalisation est le traitement par lequel Primo transforme des notices dans leur format d’origine en format PNX. Des règles standards de normalisation sont définies pour chaque source moissonnée. A titre d’exemple voici les règles de normalisation types appliquées par Ex Libris à des notices au format Unimarc.
Ces règles sont entièrement configurables pour exposer au mieux nos données :
- Pour l’affichage
- Pour les rebonds proposés
- Pour l’indexation et particulièrement les facettes
- Pour l’enrichissement des données
- Pour la recherche
- Pour le tri
- Pour dédoublonner et ‘frbriser’
- Pour les données de contrôle et l’accès au document
Pipes
Un pipe est la série de traitements qui permettent de charger des notices dans Primo à partir d’une source externe (SIGB, Bibliothèque numérique, AOI, Plateforme d’apprentissage virtuelle, …). Un pipe comporte 4 étapes de traitement :
- Le moissonnage
- La normalisation
- L’enrichissement
- Le chargement
PNX
Format xml standard d’enregistrement des notices bibliographiques dans Primo. La notice PNX est divisée en plusieurs blocs.
- Le bloc <control> comprend tous les identifiants de la notice
- Le bloc <display> comprend toutes les informations disponibles pour l’affichage
- Le bloc <links> comprend tous les rebonds proposés
- Le bloc <search> comprend tous les champs indexés
- Le bloc <sort> comprend tous les champs utilisés pour le tri des résultats
- Le bloc <facets> comprend toutes les facettes proposées pour la notice
- Le bloc <dedup> comprend toutes les clefs utilisables par l’algorithme de dédoublonnage
- Le bloc <frbr> comprend toutes les clefs utilisables pour la frbérisation
- Le bloc <delivery> comprend toutes les informations nécessaires au calcul de la disponibilité
- Le bloc <ranking> comprend les boosters affectés à la notice pour impacter son rang d’affichage dans le tri par pertinence.
- Le bloc <addata> comprend les données utilisées par des services de Primo non présentes dans d’autres blocs. Les données renvoyées par les fonctions d’export bibliographiques (RIS, BIBTEXT,…) sont généralement tirées de cette section.
- Le bloc <browse> comprend les entrées proposées pour la recherche parcourir.
La notice PNX permet de voir comment les données sont traitées dans Primo. Toutes ces données sont construites lors du processus de normalisation.
Lire l’article suivant au sujet des personnalisations réseau des champs PNX.
Les ressources locales
Les ressources locales sont toutes les sources moissonnées par le Primo de l’institution et dont les données sont indexées et stockées sur le serveur de l’institution. Elles sont matérialisées en vert sur le diagramme ci-dessous.
Les scopes
Les scopes sont un regroupement de ressources. Primo distingue 3 types de scopes.
Les scopes de recherche (search scopes)
Il s’agit de l’ensemble des ressources proposées dans un contexte de recherche. Une vue peut proposer plusieurs contextes de recherche. Ces derniers sont alors proposés à l’utilisateur de la manière suivante.
Un scope peut regrouper des ressources locales et des ressources distantes (Primo central index ou EBSCO API (Apllication Programming interface)). Au niveau des ressources locales, il est possible de proposer l’accès à l’ensemble des ressources indexées pour l’institution ou de restreindre le scope :
- En fonction de la source des données (par exemple nous pouvons proposer un scope “Bibliothèque numérique” qui limiterait la recherche aux seuls notices en provenance de Babordnum et 1886).
- En fonction d’une ou plusieurs collection Alma : dans Alma il est possible de réaliser des regroupements de notices bibliographiques sous forme de collection.
- En fonction de critères plus fin : par exemple nous pourrions proposer un scope de recherche centré sur les travaux universitaires en incluant toutes les notices en provenance d’Alma dont les postions 4, 5, 6 ou 7 de la zone 105$a sont égales à “m” et ajouter toutes les thèses d’exercice moissonnées depuis Dumas.
Les scopes de recherche restreints
Il est possible d’exposer à la recherche un groupe de notices à des utilisateurs spécifiques.
Les scopes de disponibilités restreintes (Restricted delivery scopes)
Il s’agit dans ce cas de groupes de ressources qui seront affichées comme disponibles en fonction du type d’utilisateur ou de son contexte de consultation du catalogue.
Les vues
La vue est l’interface utilisateurs. Chaque institution peut disposer de plusieurs vues auxquelles elle peut lier différents scopes. Chaque vue dispose de ses propres fichiers de configuration graphique (css, javascript), ses propres contenus html et ses propres fichiers de traductions des éléments de l’interface.
Date de publication
Mis à jour le
Attention ! Certains établissements utilisent parfois de procédures complémentaires