Projet Microformat eFlore - !BROUILLON!

Projet de récupération des textes des principales flores françaises tombées dans le domaine public et mises à disposition sur le site archive.org.
Les objectifs sont :
  • de collecter les textes originaux des descriptions de plante et des clĂ©s
  • de pouvoir facilement et automatiquement mettre Ă  disposition les textes dans eFlore.
  • d'ajouter des mĂ©ta-donnĂ©es aux textes via le principe des micro-formats

Étapes
Principale
  • Trouver un description ou une clĂ© dans un document tombĂ© dans le domaine public sur le site archive.org
  • CrĂ©er une nouvelle page dans le Wikini avec un nom conforme au format dĂ©finit ci-dessous pour indiquer la rĂ©fĂ©rence bibliographique de la publication. (Ex. : BibCoste1937)
  • Indiquer la rĂ©fĂ©rence bibliographique conformĂ©ment au recommandation dĂ©crite dans la page Convention bibliographique de Wikipedia
  • CrĂ©er une nouvelle page dans le Wikini avec un nom conforme au format dĂ©finit ci-dessous pour coller le texte de la Description ou de la ClĂ©. (Ex. : DscCoste1937T01P0034Clematis ou CleCoste1937T01P0034Clematis)
  • Trouver le texte du document s'il a dĂ©jĂ  Ă©tĂ© passĂ© Ă  l'OCR ou utiliser Tesseract pour le rĂ©cupĂ©rer depuis l'image.
  • Copier le texte original dans la page du Wikini (A VOIR : entre deux balise div portant la classe txt-original)
  • Ajouter un lien vers la page contenant l'image du texte. (A VOIR : La balise a doit porter l'attribut rel="source".)
  • Corriger les erreurs de la reconnaissance de caractère

Secondaire
  • Mettre en forme conformĂ©ment au texte d'origine en utilisant la syntaxe :
    • //italique//, **gras**, <span class="petite-majuscule">petite majuscule</span>
    • Caractères spĂ©ciaux : —
  • Comparer le texte avec le document d'origine pour rechercher d'Ă©ventuelles erreurs.

Tertiaire
  • Ajouter les mĂ©ta-donnĂ©es via les micro-formats

Format de création des noms de pages dans ce wikini
Pour les pages faisant référence à un référentiel, il faut pouvoir principalement indiquer la référence au nom mais aussi éventuellement au taxon. Actuellement, le principe est "Code projet" en majuscule, suivi de "nn" en minuscule et du numéro nomenclatural pour les noms ou de "nt" en minuscule suivi du numéro taxonomique. Par exemple :
  • BDNFFnn18235 : sommaire de l'ensemble des informations pour le nom 18235 du projet BDNFF.
  • BDNFFnt1325 : sommaire de l'ensemble des informations sur le taxon 1325 du projet BDNFF.
Cela pourrait être remplacé par :
  • RefBDNFFnn18235 : sommaire de l'ensemble des informations pour le nom 18235 du rĂ©fĂ©rentiel BDNFF.
  • RefBDNFFnt1325 : sommaire de l'ensemble des informations sur le taxon 1325 du rĂ©fĂ©rentiel BDNFF.

Pour les textes provenant de documents scannés en ligne, nous rencontrons le plus souvent deux types de document les clés et les descriptions. Nous pourrions utiliser la syntaxe suivante :
  • DscCoste1937T01P0034Clematis : Description du genre Clematis situĂ© Ă  la page 34 du tome 01 de la publication de 1937 de Coste.
  • CleCoste1937T01P0034Clematis : ClĂ© du genre Clematis situĂ© Ă  la page 34 du tome 01 de la publication de 1937 de Coste.

Pour indiquer les références bibliographique d'une publication, nous pourrions créer des pages avec la syntaxe suivante :
  • BibCoste1937 : contient la rĂ©fĂ©rence bibliographique d'une publication. Ici celle d'une publication de Coste en 1937.
  • BibCoste1937a : si un auteur Ă  publier plusieurs document la mĂŞme annĂ©e, faire suivre l'annĂ©e par une lettre en minuscule.

Pour lister toutes les pages liées aux référentiels :
  • liĂ©es Ă  des rĂ©fĂ©rentiels : tag = "Ref%"
  • d'un rĂ©fĂ©rentiel particulier : tag = "RefBDNFF%"
  • concernant les noms d'un rĂ©fĂ©rentiel particulier : tag = "RefBDNFF%nn%"
  • concernant les taxons d'un rĂ©fĂ©rentiel particulier : tag = "RefBDNFF%nn%"

Pour lister toutes les pages liées aux ouvrages numérisées :
  • concernant les textes d'un ouvrage numĂ©risĂ© : tag = "%Coste1937%"
  • concernant les descriptions de taxons d'un ouvrage numĂ©risĂ© : tag = "DscCoste1937%"
  • concernant les clĂ©s d'un ouvrage numĂ©risĂ© : tag = "CleCoste1937%"
  • contenant des rĂ©fĂ©rences bibliographiques : tag = "Bib%"
  • concernant le nom "Clematis vitalba" : tag = "%ClematisVitalba"

Pour récupérer l'ensemble des données des ouvrages numérisés par l'entrée "nn" d'un référentiel, il suffit de lister tous les liens de la page RefBDNFFv5sv00nn86188 et de rechercher ceux qui pointent vers des pages débutant par "Cle..." ou "Dsc...".

Problèmes rencontrés
  • Certaines clĂ©s sont imbriquĂ©s dans la flore avec la description des espèces. Exemple : Grenier & Godron, 1848. Comment indiquer ce genre de clĂ© en respectant le format d'origine et l'ajout d'information dans le wikini?

Micro-formats d'eFlore

Références microformats & ontologies
Nom de taxon
Citations de publication
Description de taxon

Références autres

Test sur descriptions et clés pour le genre Clematis

Quelques éditeurs WYSIWYG qui pourraient servir à l'édition des métadonnées

Feuille de style
La feuille de style ci-dessous permet de facilement visualiser les méta-données liées aux éléments.
*[lang]:after {
	content:" ("attr(lang)")";
	color:#888;
	background-color:inherit;
	font-style:italic;
	size:80%;}
strong[class]:hover,em[class]:hover,abr[class]:hover,span:hover{
	background-color:white;
	display:block-inline;
	cursor:crosshair;
	font-style:normal !important;}
strong[class]:hover:before,em[class]:hover:before,abr[class]:hover:before,span:hover:before{
	content:"[";
	font-weight:bold;}
strong[class]:hover:after,em[class]:hover:after,abr[class]:hover:after,span:hover:after{
	content:"]->"attr(class);
	font-weight:bold;
	font-style:normal !important;
	color:black;}

/* Mise en forme similaire au texte d'origine */
.petite-majuscule{
	font-variant:small-caps;}

/* Zones d'informations générales */
.txt-original{
	width:350px;
	text-align:justify;
	white-space:pre-wrap;
	line-height:1.6em;
	font-size:1em;}
.txt-original:before{
	content:"Texte original : ";}
.source:before{
	content:"Source : ";}


/* TODO : trouver des correspondances avec les ontologies du TDWG */
.nn{
	font-weight:bold;}
.nom-vernaculaire{
	background-color:#d9ffb2;
	border:0.1em solid #d9ffb2;}
.utilisation{
	background-color:#d9b2ff;
	border:0.1em solid #d9b2ff;}
.floraison{
	background-color:#b2e3ff;
	border:0.1em solid #b2e3ff;}


/* TaxonName Ontologie TDWG */
.taxonName{
	background-color:#ffecb2;
	border:0.1em solid #ffecb2;}
.uninomial, .genusPart, .infragenericEpithet, .specificEpithet, .infraspecificEpithet {
	font-style:italic;}
.taxonName .publicationCitation{
	border:0.1em dotted #ffecb2;}

/* SPMInfoItems Ontologie TDWG */
.description{
	background-color:#ffcfb2;
	border:0.1em solid #ffcfb2;}
.habitat{
	background-color:#f5b2ff;
	border:0.1em solid #f5b2ff;}
.distribution{
	background-color:#ccf;
	border:0.1em solid #ccf;}

/* PublicationCitation Ontologie TDWG */
.publicationCitation{
	background-color:#f6ffb2;
	border:0.1em solid #f6ffb2;}
/* PublicationCitation : autorship */
.publicationCitation .authorship{
	}
/* PublicationCitation : short title */
.publicationCitation .shortTitle{
	font-style:italic;}
/* PublicationCitation : pages */
.publicationCitation .pages{
}