Depots de lexiques
Un article de Loria Wiki.
Dans cette section, nous regroupons les informations relatives à la gestion d'un depot commun pour le developpement de ressources linguistiques utilisees dans le cadre de developpement d'outils et d'evaluations.
L'idee est de tester les outils sur des ressources valides (ie ressources pertinentes et correctes, ie corrigees si bugs decouverts).
Le but etant :
a) d'avoir un depot ou sont classees les ressources a disposition,
b) de savoir quelle est (ou sont) la ressource de reference (pour eviter de tester sur des ressources obsoletes).
Remarque: la constitution de ces depots ne remplace pas la maintenance de depots locaux, utilises pour le developpement de ces ressources. A la difference des depots locaux, ces nouveaux depots sont censes recevoir des versions stables (ie utilisables pour d'autres developpements, tests) des ressources.
Sommaire |
Architecture
Un depot contenant 3 repertoires principaux:
- TSNLP-Benoit (la metagrammaire utilisee pour l'evaluation, date de juin 2005, repertoire statique)
- TSNLP-syntaxe (issue de la metagrammaire ci-dessus, integrant de legeres modifications pour utilisation avec DyALog -ie probleme d'etiquettes de noeuds, etc-)
- TSNLP-semantique (metagrammaire developpee par Claire, inspiree par celle de Benoit, et integrant la semantique)
Chacun de ces depots contient 3 sous-repertoires:
- grammar
- lexicon
- suite
N.B. Dans l'optique de pouvoir integrer les modifications d'un repertoire sur les autres si necessaire, il faudrait gerer l'historique de ces metagrammaires (et autres lexiques).
Origine des resources
- TSNLP-Benoit:
/local/led/data/gram-eval/grammar/METAGRAMMARS/FrenchTAG
(c'est un depot CVS dont nous pouvons recuperer l'historique)
- Non, le depot CVS, c'est sur Sourcesup... ce repretoire n'est que un checkout de depot CVS + modifs
/local/led/data/gram-eval/lexicon/lemmas.syn
(fichier texte integrant le lexique de lemmes)
/local/led/data/gram-eval/lexicon/morph
(fichier texte integrant le lexique morphologique au format multext)
/local/led/data/gram-eval/source/
(les test-suites dans des sous-repertoires)
- TSNLP-syntaxe:
les memes donnees que ci-dessus modulo les modifications liees a des erreurs de marquage de noeud (voir /Changes metagrammaire Benoit).
N.B Le lexique de lemmes a ete converti en format .lex via un script perl pour pouvoir utiliser ce lexique dans l'outil SemConst (wrapper pour DyALog pour faire l'analyse et a terme la construction semantique).
- TSNLP-semantique:
ressources issues de
/users/led/gardent/synch/grammars/geni/tsnlp
Etat des ressources (modifications, etc)
Grammaire utilisée pour la parsing (depot TSNLP-syntax-dyalog)
voir http://wiki.loria.fr/wiki/Depots_de_lexiques/Changes_metagrammaire_Benoit
Grammaire à portée sémantique (TSNLP-unification-semantics)
Attention
Cette grammaire comporte des catégories dont la valeur est une disjonction atomique, ce que ne semble pas supporter DyALog. Actuellement, le script XSLT de conversion de la grammaire en format tagml remplace cette disjonction atomique par la première des valeurs qu'elle contient.
A discuter et corriger.
Transformation des ressources en depots darcs
Notes
Hebergement
Ces ressources sont hébergés sur un serveur (puddle.loria.fr). Ils ne sont que disponibles en interne pour l'instant.
L'historique des versions sera conserve via un systeme de versionnage, dans notre cas darcs. En outre les donnees devront etre sauvegardees (a placer sur une partition avec mirroir).
Des que le serveur sera installe, les chemins de ces depots seront donnes ici.
Utilisation
Pour...
- Recuperer les depots pour la premier fois, faire darcs get:
darcs get semfrag@trac.loria.fr:privateDarcs/TSNLP-syntax darcs get semfrag@trac.loria.fr:privateDarcs/TSNLP-syntax-dyalog darcs get semfrag@trac.loria.fr:privateDarcs/TSNLP-unification-semantics
- Sauvgarder vos changements en local (sur votre copie de depot), faire: darcs record
- ... Ensuite les propager sur le depot de référence, faire: darcs push
- Récuperer les changements des autres: darcs pull
N.B.
- Pour acceder aux depots il faut avoir donné sa clef publique ssh à Eric.
- Pour un bon usage du systeme de versionnage darcs en tandem avec un systeme de synchronisation de partition tel que unison, merci de consulter la page http://www.darcs.net/DarcsWiki/unison.
LEX-TOOLS
En parallèle aux dépôts de lexiques, se trouve un ensemble d'outils opérant sur ces lexiques. Cette section est dediée à la gestion de ces outils, qui sont à present centralisés.
Pour importer ces outils:
darcs get http://trac.loria.fr/darcs/semfrag/LEX-TOOLS
LEX2ALL (aka lexConverter)
Dernière mise à jour: 31 jan. 2006
contact: parmenti @ loria.fr
See LEX2ALL and Common_grammar_manifesto/Lexical_macros
Programme haskell permettant de traduire des lexiques du format lex vers les formats suivants:
- geni
- llp2
- dyalog
Installation :
cd LEX2ALL/
make
make install
Usage: lexConverter [OPTION...] files...
-v --verbose verbose output on stdin
-H, -h --help show help
-L --lemmas Converting mode -> lemmas
-M --morph Converting mode -> morphological items
-d --dyalog Output format: dyalog
-l --llp2 Output format: llp2
-g --geni Output format: geni
-o [FILE] --output[=FILE] output FILE (default: stdout)
-i [FILE] --input[=FILE] input FILE (default: stdin)
lemmas2lex.pl
Dernière mise à jour: 24 jan. 2006
contact: parmenti @ loria.fr
Script perl permettant de convertir un fichier de lexique au format utilisé par Benoit pour le TSNLP en un format .lex plus verbeux.
Usage: perl lemmas2lex.pl lemmas.in lemmas.lex
lemmas2sem.pl
Dernière mise à jour: 11 Dec. 2005
contact: parmenti @ loria.fr
Script perl permettant d'intégrer des informations sémantiques à un fichier de lexique au format utilisé par Benoit pour le TSNLP. La sémantique provient de la métagrammaire (option -s de XMG).
Usage: perl lemmas2sem.pl -i lemmas.in -m sem.mac -s sem.lin -o lemmas.out
lemmas.in est le fichier d'entrée, sem.mac le fichier d'extension .mac produit par XMG, sem.lin est produit par XMG, et lemmas.out est le fichier contenant le résultat. Vous pouvez tester avec les fichiers contenus dans le répertoire test.
sematiser
Dernière mise à jour: 8 Dec. 2005
contact: kow @ loria.fr
- runtt - fait tourner le tree-tagger sur une liste de phrases (il faut avoir Tree Tagger français sur son système -- aussi dispo sur /local/led/linux, mais faut mettre /local/led/linux/cmd dans son $PATH)
./runtt < file > file.tt
- sematiser - prend une lexique sémantique + des phrases tree-taggés, et donne un test suite GenI
./sematiser fichier-semlex < file.tt > file.genisuite
corpus2val.pl
Dernière mise à jour: 15 Nov. 2005
contact: parmenti @ loria.fr
Script perl permettant de construire un fichier de valuations pour XMG à partir d'un corpus et de lexiques.
N.B.: ce script construit un fichier de values, mais ne produit pas d'entête (i.e. pas d'include).
Usage: perl corpus2val.pl corpus lemmas morphs valuation.mg

