Configuration du profil d’import « BabordNum »
Ce profil d’import est géré depuis l’instance Réseau. Il est accessible sous Découverte > Chargement des sources de données externes >Découverte – Profils d’import
Voici les principaux éléments de configuration
- Data Source Code : BABORDNUM
- Data source Label : Babord Num
- URL de moissonnage des données : https://www.babordnum.fr/oai-pmh-repository/request
- Format Métadonnées (OAI) : oai_dc
- ListRecords : https://www.babordnum.fr/oai-pmh-repository/request?verb=ListRecords&metadataPrefix=oai_dc
- GetRecord : https://www.babordnum.fr/oai-pmh-repository/request?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:www.babordnum.fr:766
- Règles de normalisation : BabordNum-xml
- Format métadonnées (RN) : xml
- Processus de normalisation : Dumas
- Profil d’import : Mémoires DUMAS UB
- Fréquence d’exécution de l’import : Tous les jours à 03h
Mapping des données
Voici un tableau documentant les règles de transformation des données définies dans le fichier BabordNum-xml.drl :
Nom de la règle | Condition (when) | Action (then) |
---|---|---|
Types de doc : other pour absent | not exist "//*[local-name()='type']" | Définit "other" dans discovery.resourceType . |
Types de doc : autres cas | exist "//*[local-name()='type']" | Transforme la valeur de type en fonction de correspondances spécifiques (ex. « Affiche » → « images ») et la définit dans discovery.resourceType . |
Affichage Auteurs Brief Display | exist "//*[local-name()='creator']" | Copie la valeur de creator dans discovery.local1 . Champ local dédié à l’affichage abrégé de la notice |
Affichage Editeur Brief Display | exist "//*[local-name()='publisher']" | Ajoute un suffixe : à la valeur de publisher et la définit dans discovery.local2 . Champ local dédié à l’affichage abrégé de la notice |
Copy title | exist "//*[local-name()='title']" | Copie la valeur de title dans dc.title après avoir remplacé & par & . |
Copy creator | exist "//*[local-name()='creator']" | Copie la valeur de creator dans dc.creator . |
Copy contributor | exist "//*[local-name()='contributor']" | Copie la valeur de contributor dans dc.contributor . |
Copy description | exist "//*[local-name()='description']" | Copie la valeur de description dans dc.description après avoir remplacé les entités HTML (< → < , > → > ). |
Copy publisher | exist "//*[local-name()='publisher']" | Copie la valeur de publisher dans dc.publisher . |
Copy subject | exist "//*[local-name()='subject']" | Copie la valeur de subject dans dc.subject . |
Copy date | exist "//*[local-name()='date']" | Copie la valeur de date dans dc.date . |
Copy language | exist "//*[local-name()='language']" | Copie la valeur de language dans dc.language . |
Copy coverage | exist "//*[local-name()='coverage']" | Copie la valeur de coverage dans dc.coverage . |
Copy relation | exist "//*[local-name()='relation']" | Copie les valeurs de relation commençant par https dans dc.relation . |
Copy rights | exist "//*[local-name()='rights']" | Copie la valeur de rights dans dc.rights . |
Copy source to identifier : cas du PPN avec PPN Balises html interprétées | exist "//*[local-name()='source']//*[local-name()='a'][contains(@href, 'sudoc')] | Le PPN est encadré d’une balise htm <a> dont le href est l’url de la notice dans le SUDOC. Si le href contient SUDOC, alors on extrait le PPN de l’URL et on ajoute le préfixe "Identifiant du Sudoc : " . |
Copy source to identifier : cas du PPN avec PPN Balises html non interprétées | exist "//*[local-name()='source'][contains(., 'sudoc')] | Dans certains cas la balise html n’est pas correctement interprétée. Si dc.source = « sudoc » alors on extrait le PPN de l’URL. |
Copy identifier Cote du document original | exist "//*[local-name()='identifier']" | Ajoute le préfixe "Cote du document original : " à la valeur de identifier commençant par "Université" et la définit dans dc.identifier . |
Copy identifier URI | exist "//*[local-name()='identifier']" | Ajoute le préfixe "URI : " à la valeur de identifier commençant par "http" et la définit dans dc.identifier . |
PPN en clef de fusion Balises html interprétées | exist "//*[local-name()='source']//*[local-name()='a'][contains(@href, 'sudoc')] | Le PPN est encadré d’une balise htm <a> dont le href est l’url de la notice dans le SUDOC. Si le href contient SUDOC, alors on extrait le PPN de l’URL pour construire un champ « discovery ».« local3 » |
PPN en clef de fusion Balises html non interprétées | exist "//*[local-name()='source'][contains(., 'sudoc')] | Dans certains cas la balise html n’est pas correctement interprétée. Si dc.source = « sudoc » alors on extrait le PPN de l’URL pour alimenter le champ « discovery ».« local3 » |
Traitement des types de documents
Les données dans le dc.type sont parfois multivaluées et très hétérogènes, car elles ne sont pas normalisées dans Babord Num.
Pour faciliter le traitement, les espaces sont supprimés avant d’appliquer la table de correspondance suivante. Pour les données multivaluées, seule la première occurrence du dc.type est traitée.
Type d’origine | Type transformé |
---|---|
Affiche | images |
Documentcartographique | maps |
Gravé | images |
Gravure | images |
Herbier | other |
Imagefixe | images |
Objet | other |
Photographies | images |
Photographie | images |
TextDomainepublic | books |
TextDessin | images |
TextPartitionmusicale | scores |
TextText | books |
texteimprimé | books |
Textemanuscritreprographié | manuscripts |
Textemanuscrit | manuscripts |
Text | books |
Partitionmusicale | scores |
Fusion des notices
Dans certains cas, le document signalé dans Babord Num est aussi signalé dans le Sudoc pour la version imprimée et la version électronique. Dans le cas de ce double signalement, le PPN de la notice imprimée est ajouté sous la notice BabordNum dans un champ dc.source.
Nous extrayons le PNN de ce champ (cf. table de maping) pour construire un champ « discovery ».« local3 ». Ce champ sert à la création d’une clef de fusion (clef L5). En parallèle, une clef (L3) est construite sur la base des PPN présent en 035, 035, 452, 455 et 456 des notices Unimarc. Ce dispositif permet la fusion de la notice dublin core avec la notice signalant le document imprimé et la notice de la version numérisée.
cdf. Détection des doublons (Dedup)(Primo VE)
Date de publication
Mis à jour le
Attention ! Certains établissements utilisent parfois de procédures complémentaires