Les notices Primo VE sont groupées selon les principes des Functional Requirements for Bibliographic Records (FRBR). Chaque enregistrement reçoit un vecteur contenant une ou plusieurs clés identifiant le groupe auquel il appartient. Les enregistrements avec des clés correspondantes sont ajoutés à un groupe FRBR et reçoivent un ID FRBR.
Les processus Dedup et FRBR sont similaires mais utilisent des clés différentes. Le système recherche d’abord les doublons, puis les groupes FRBR. Un enregistrement dédupliqué peut être également « FRBRisé ».
Dans le réseau, le FRBR est utilisé pour regrouper plusieurs éditions d’un même document sur le même support. Les notices décrivant des documents de la même édition sur supports différents sont quant à elles fusionnées.
Flux de Traitement du FRBR
1. Calcul des clés :
Le système extrait des champs de la notice Alma (comme l’auteur, le titre, l’ISBN, etc.) et crée des clés en combinant et normalisant ces données. Ces clés sont utilisées pour identifier les enregistrements semblables.
2. Recherche des clés existantes :
Le système compare les clés nouvellement calculées avec celles déjà présentes dans la base de données. Si une correspondance est trouvée, cela signifie que la notice en cours de traitement pourrait avoir une correspondance. Le système associe donc à la clef nouvellement créée l’identifiant du groupe déjà présent dans Alma.
En cas de correspondances multiples, le système sélectionne l’identifiant de groupe associé à la clé de priorité la plus élevée. On ne connait malheureusement pas le niveau de priorité affecté à chaque clef.
Si plusieurs clés ont la même priorité, l’identifiant de groupe est choisi de manière aléatoire.
En l’absence de clé existante, le système utilise la clé de priorité la plus élevée pour créer un nouvel identifiant de groupe et l’associé à la notice.
3. Stockage de l’identifiant de Groupe :
Une fois l’identifiant de groupe sélectionné, il est stocké pour toutes les clés calculées à l’étape 1.
Calcul des clés
Type de Clé
Chaque clé dans le système Primo VE possède un type qui indique au système quelles définitions de clé utiliser pour une notice donnée. Ce type est crucial pour déterminer comment les enregistrements sont traités dans les processus de déduplication.
Le Champ frbr/t
définit le type de clé pour le processus FRBR.
- Valeur
99
: Indique que l’enregistrement a été supprimé à l’aide de la tâche « Prevent FRBR and/or Dedup in Discovery » sur la page « Run a Job » (Admin> Manage Jobs and Sets > Run a Job). Cela signifie que l’enregistrement ne sera pas inclus dans les groupes FRBR.
- Valeur
1
: Indique que l’enregistrement n’a pas été supprimé et qu’il doit être « FRBRisé », c’est-à-dire inclus dans le processus de regroupement FRBR.
Mapping des champs Alma en clés FRBR
Champs prédéfinis
ID du champ | Contenu du champ | Champ MARC 21 | Champ DC | Champ UNIMARC | Champ BIBFRAME |
T | Toujours 1 | t=1 | t=1 | t=1 | t=1 |
K1 | Auteur | 100 a, b, c, q, 110 a, b, c, q, 111 a, b, c, n, q | dc.creator, dcterms.creator | 700 a-d,f,p, 701 a-d,f,p, 710 a-h,p, 711 a-h,p, 720 a,f, 721 a,f, 702 a-d,f,g, 712 a-h,p, 722 a,f | bf:PrimaryContribution |
K2 | Titre uniforme | 130 a, d, m, n, p, r | dcterms.alternative | 500 a,h-n,q-s | bf:expressionOf |
K3 | Titre | 245 a, b, e, f, g, n, p, 240 a, d, m, n, p, r, 242 a, b, f, g, n, p, 246 a, b, f, g, n, p, 247 a, b, f, g, n, p, 740 a, b, f, g, n, p | dc.title, dcterms.title | 200 a,c,e,h,i, 510 a,e, 512 a,e, 513 a,e,h,i, 514 a,e, 515 a,e, 516 a,e, 517 a,e, 520 a,e,h,i, 541 a,e,h,i | bf:title – bf:Title |
K4 | Langue | 041 a, d, e | dc.language, dcterms.language | 101 a | bf:language – bf:Language |
K5 | Numéro de contrôle | 001 | N/A | 001 | 001 |
K50* | URI de l’œuvre | N/A | N/A | N/A | work URI |
K51* | URI ExpressionOf | N/A | N/A | N/A | expression of URI |
Champs locaux
Id Du champ | Contenu du champ | Source | Description |
L6 | FRBR | Unimarc 904$a | Empêche la FRBRISATION Ajoute FRBR à la combinaison TITRE + Auteur. La combinaison n’est pas créée si le champ n’existe pas. L’absence du 994$a empêche donc la construction de la clef est donc toute correspondance FRBR pour la notice. Le champ 994$a est généré à l’enregistrement de la notice bibliographique. Par défaut seles les notices de périodiques n’ont pas de 994$a. |
Création des clefs
Les champs de données sont ensuite normalisés et combinés pour créer les clés de Dedup.
Concaténation des Champs
La concaténation des champs permet de créer des clés en combinant plusieurs champs de données. Si un champ a plusieurs entrées, le système crée plusieurs clés en combinant toutes les entrées possibles des champs.
Explication pour la définition de la Clé : match/f1 + match/f7
- f1 : Contient les entrées :
a
,b
- f7 : Contient les entrées :
c
,d
- Clés Créées :
ac
,ad
,bc
,bd
Méthodes de Normalisation
Les méthodes de normalisation sont appliquées aux valeurs des champs pour standardiser les données et améliorer la correspondance des enregistrements. Voici les méthodes utiisés :
- FUZZY_STRING : Utilise les cinq premiers mots de la valeur du champ. Cela aide à ignorer les petites différences dans les titres ou descriptions.
- ROUND_NUMBER : Arrondit le dernier chiffre de la valeur du champ à 0.
- Exemples :
11
devient10
199
devient190
- Exemples :
- REMOVE_COMMON_WORDS : Supprime certains mots courants qui peuvent ne pas être pertinents pour la correspondance, tels que « annual report », « bulletin », « proceedings », etc.
- SPLIT : Lorsqu’un enregistrement a plusieurs identifiants (comme ISSN/ISBN), cette méthode crée des clés séparées pour chaque identifiant. Cela permet de faire correspondre des enregistrements qui partagent au moins un identifiant commun.
Champs Optionnels
- Définition : Lors de la création d’une clé à partir de plusieurs champs, certains champs peuvent être optionnels. Ils sont indiqués par des crochets ([]).
- Exemple :
match/f1 + [match/f7]
signifie quematch/f7
n’est pas obligatoire pour créer la clé.
Priorité des Clés
- Niveaux de Priorité : Chaque clé a une priorité qui peut être haute, moyenne, basse ou aucune.
- Impact sur l’Algorithme : La priorité influence l’algorithme de correspondance. Les clés de haute priorité sont préférées lors de la sélection des groupes d’enregistrements.
Définitions des clefs FRBR
Clé complète | Type | Description | Priorité |
match/group | 1 | Clé Dedup | ÉLEVÉE |
frbr/k2 | 1 | Titre uniforme uniquement | MOYENNE |
frbr/k1 + frbr/k3 + L6 | 1 | Auteur + titre | AUCUNE |
match/group | 99 | Clé Dedup | ÉLEVÉE |
Date de publication
Mis à jour le
Attention ! Certains établissements utilisent parfois de procédures complémentaires