Dokumentace

V současnosti MorphCon umožňuje konverzi mezi dvěma nejužívanějšími českými morfologickými tagsety: pražským pozičním systémem (J. Hajič) - dále PT - a brněnským atributivním systémem (K. Osolsobě - K. Pala - R. Sedláček) - dále BT. PT užívá již řada aplikací pro (polo)automatickou lingvistickou anotaci češtiny: Feature-based Tager, HMM Tagger a Morče (nástroje ÚFAL MFF UK). BT užívají programy Lemma a Ajka (nástroje NLP FI MU). Nově byl do aktuální verze MorphConu v0.2alpha přidán český tagset projektu MULTEXT-EAST (V. Petkevič), jímž je morfologicky označkován např. korpus ORWELL (verze "orwe-mte") v ČNK.

Princip konverze a I/O formát

Konverze mezi tagsety neprobíhá přímo, tj. např. PT <-> BT, ale prostřednictvím převodní, univerzální sady Interset: PT <-> IT <-> BT. Zásadní je rovněž Input/Output (I/O) formát. MorphCon nabízí tři typy I/O formátu (WPL-Format ve dvou variantách):

  • SimpleTag-Conversion: např. tagset PT <-> interset <-> BT tagset
  • WPL-Format: word - lemma - tag nebo word - tag - lemma
  • KWIC/tag-Format: kontext | KWIC/tag | kontext

Více informací naleznete zde v jednotlivých sekcích.