Depots de lexiques

Un article de Loria Wiki.

Dans cette section, nous regroupons les informations relatives à la gestion d'un depot commun pour le developpement de ressources linguistiques utilisees dans le cadre de developpement d'outils et d'evaluations.

L'idee est de tester les outils sur des ressources valides (ie ressources pertinentes et correctes, ie corrigees si bugs decouverts).
Le but etant :

a) d'avoir un depot ou sont classees les ressources a disposition,

b) de savoir quelle est (ou sont) la ressource de reference (pour eviter de tester sur des ressources obsoletes).

Remarque: la constitution de ces depots ne remplace pas la maintenance de depots locaux, utilises pour le developpement de ces ressources. A la difference des depots locaux, ces nouveaux depots sont censes recevoir des versions stables (ie utilisables pour d'autres developpements, tests) des ressources.

Sommaire

Architecture

Un depot contenant 3 repertoires principaux:

  • TSNLP-Benoit (la metagrammaire utilisee pour l'evaluation, date de juin 2005, repertoire statique)
  • TSNLP-syntaxe (issue de la metagrammaire ci-dessus, integrant de legeres modifications pour utilisation avec DyALog -ie probleme d'etiquettes de noeuds, etc-)
  • TSNLP-semantique (metagrammaire developpee par Claire, inspiree par celle de Benoit, et integrant la semantique)

Chacun de ces depots contient 3 sous-repertoires:

       - grammar
       - lexicon
       - suite

N.B. Dans l'optique de pouvoir integrer les modifications d'un repertoire sur les autres si necessaire, il faudrait gerer l'historique de ces metagrammaires (et autres lexiques).

Origine des resources

  • TSNLP-Benoit:
/local/led/data/gram-eval/grammar/METAGRAMMARS/FrenchTAG

(c'est un depot CVS dont nous pouvons recuperer l'historique)

Non, le depot CVS, c'est sur Sourcesup... ce repretoire n'est que un checkout de depot CVS + modifs
/local/led/data/gram-eval/lexicon/lemmas.syn

(fichier texte integrant le lexique de lemmes)

/local/led/data/gram-eval/lexicon/morph

(fichier texte integrant le lexique morphologique au format multext)

/local/led/data/gram-eval/source/

(les test-suites dans des sous-repertoires)

  • TSNLP-syntaxe:

les memes donnees que ci-dessus modulo les modifications liees a des erreurs de marquage de noeud (voir /Changes metagrammaire Benoit).

N.B Le lexique de lemmes a ete converti en format .lex via un script perl pour pouvoir utiliser ce lexique dans l'outil SemConst (wrapper pour DyALog pour faire l'analyse et a terme la construction semantique).

  • TSNLP-semantique:

ressources issues de

/users/led/gardent/synch/grammars/geni/tsnlp

Etat des ressources (modifications, etc)

Grammaire utilisée pour la parsing (depot TSNLP-syntax-dyalog)

voir http://wiki.loria.fr/wiki/Depots_de_lexiques/Changes_metagrammaire_Benoit


Grammaire à portée sémantique (TSNLP-unification-semantics)

Attention

Cette grammaire comporte des catégories dont la valeur est une disjonction atomique, ce que ne semble pas supporter DyALog. Actuellement, le script XSLT de conversion de la grammaire en format tagml remplace cette disjonction atomique par la première des valeurs qu'elle contient.

A discuter et corriger.

Transformation des ressources en depots darcs

Image:semfragCVS.png

Notes

Hebergement

Ces ressources sont hébergés sur un serveur (puddle.loria.fr). Ils ne sont que disponibles en interne pour l'instant.

L'historique des versions sera conserve via un systeme de versionnage, dans notre cas darcs. En outre les donnees devront etre sauvegardees (a placer sur une partition avec mirroir).
Des que le serveur sera installe, les chemins de ces depots seront donnes ici.

Utilisation

Pour...

  • Recuperer les depots pour la premier fois, faire darcs get:
 darcs get semfrag@trac.loria.fr:privateDarcs/TSNLP-syntax
 darcs get semfrag@trac.loria.fr:privateDarcs/TSNLP-syntax-dyalog
 darcs get semfrag@trac.loria.fr:privateDarcs/TSNLP-unification-semantics
  • Sauvgarder vos changements en local (sur votre copie de depot), faire: darcs record
  • ... Ensuite les propager sur le depot de référence, faire: darcs push
  • Récuperer les changements des autres: darcs pull

N.B.

  1. Pour acceder aux depots il faut avoir donné sa clef publique ssh à Eric.
  2. Pour un bon usage du systeme de versionnage darcs en tandem avec un systeme de synchronisation de partition tel que unison, merci de consulter la page http://www.darcs.net/DarcsWiki/unison.

LEX-TOOLS

En parallèle aux dépôts de lexiques, se trouve un ensemble d'outils opérant sur ces lexiques. Cette section est dediée à la gestion de ces outils, qui sont à present centralisés.

Pour importer ces outils:

darcs get http://trac.loria.fr/darcs/semfrag/LEX-TOOLS

LEX2ALL (aka lexConverter)

Dernière mise à jour: 31 jan. 2006
contact: parmenti @ loria.fr
See LEX2ALL and Common_grammar_manifesto/Lexical_macros

Programme haskell permettant de traduire des lexiques du format lex vers les formats suivants:

  • geni
  • llp2
  • dyalog
Installation :
       cd LEX2ALL/
       make
       make install
Usage: lexConverter [OPTION...] files...
       -v        --verbose        verbose output on stdin
       -H, -h    --help           show help
       -L        --lemmas         Converting mode -> lemmas
       -M        --morph          Converting mode -> morphological items
       -d        --dyalog         Output format: dyalog
       -l        --llp2           Output format: llp2
       -g        --geni           Output format: geni
       -o [FILE] --output[=FILE]  output FILE (default: stdout)
       -i [FILE] --input[=FILE]   input FILE (default: stdin)

lemmas2lex.pl

Dernière mise à jour: 24 jan. 2006
contact: parmenti @ loria.fr

Script perl permettant de convertir un fichier de lexique au format utilisé par Benoit pour le TSNLP en un format .lex plus verbeux.

Usage: perl lemmas2lex.pl lemmas.in lemmas.lex

lemmas2sem.pl

Dernière mise à jour: 11 Dec. 2005
contact: parmenti @ loria.fr

Script perl permettant d'intégrer des informations sémantiques à un fichier de lexique au format utilisé par Benoit pour le TSNLP. La sémantique provient de la métagrammaire (option -s de XMG).

Usage: perl lemmas2sem.pl -i lemmas.in -m sem.mac -s sem.lin -o lemmas.out

lemmas.in est le fichier d'entrée, sem.mac le fichier d'extension .mac produit par XMG, sem.lin est produit par XMG, et lemmas.out est le fichier contenant le résultat. Vous pouvez tester avec les fichiers contenus dans le répertoire test.

sematiser

Dernière mise à jour: 8 Dec. 2005
contact: kow @ loria.fr

  • runtt - fait tourner le tree-tagger sur une liste de phrases (il faut avoir Tree Tagger français sur son système -- aussi dispo sur /local/led/linux, mais faut mettre /local/led/linux/cmd dans son $PATH)
   ./runtt < file > file.tt
  • sematiser - prend une lexique sémantique + des phrases tree-taggés, et donne un test suite GenI
   ./sematiser fichier-semlex < file.tt > file.genisuite

corpus2val.pl

Dernière mise à jour: 15 Nov. 2005
contact: parmenti @ loria.fr

Script perl permettant de construire un fichier de valuations pour XMG à partir d'un corpus et de lexiques.
N.B.: ce script construit un fichier de values, mais ne produit pas d'entête (i.e. pas d'include).

Usage: perl corpus2val.pl corpus lemmas morphs valuation.mg
Outils personels