MorphCon je nový softwarový nástroj pro automatickou konverzi českých morfologických taggovacích sad (tagsetů). Je vyvíjen ve spolupráci tří univerzitních pracovišť od r. 2008, jimiž jsou:

  • Katedra bohemistiky FF UP Olomouc
  • Fakulta informatiky Univerzity Bonn (Německo)
  • Ústav formální a aplikované lingvistiky MFF UK Praha

Autorský tým: Petr Pořízka - Marek Schäfer - Daniel Zeman (© 2008-2009).

 

Vývoj aplikace byl motivován současnou situací české korpusové lingvistiky v souvislosti s morfologickou anotací jazykových korpusů. Existuje již několik morfologických značkovacích sad, z nichž nejdominantnější a nejužívanější je doposud systém navržený J. Hajičem (dále pražský tagset) a užitý např. v psané složce Českého národního korpusu (ČNK) nebo v Pražském závislostním korpusu. Neméně důležitý je i brněnský systém morfologických značek, se kterým pracuje morfologický analyzátor (tagger) AJKA (© R. Sedláček & NLP FI MU Brno), užívaný v korpusech NLP FI MU Brno. Dále existuje morfologický tagset V. Petkeviče užitý v mezinárodním projektu MULTEXT-EAST (korpus Orwell 1984) nebo nejnověji tzv. kódovník, jímž byl nedávno označkován Pražský mluvený korpus. 
Program MorphCon umožňuje zkonvertovat již anotovaný korpus jedním tagsetem do tagsetu jiného. Pro první fázi této aplikace byla zvolena konverze mezi pražským a brněnským tagsetem. Pražský systém je poziční (je dáno 15 pozic, z nichž každé je přiřazena konkrétní lingvistická kategorie, jež je reprezentována zvolenou subsadou značek), brněnský systém je atributivní (jde o kombinaci digramů, kdy první znak znamená gramatickou kategorii, druhý její konkrétní hodnotu pro dané slovo). Software je ovšem stále ve vývoji, doplňován o další tagsety (např. tagset multext-east pro češtinu), moduly a rysy (více v sekci Dokumentace).
MorphCon je vyvíjen v programovacím jazyku Perl (v5.10.0) a koncipován na základě konverzních tabulek tagsetů. S ohledem na potenciální uživatele-lingvisty je pamatováno na grafické uživatelské rozhraní, tzv. GUI (Graphical User Interface)


 

MorphCon

konvertor českých morfologických tagsetů

  • aktuální verze: 0.2alpha 
  • aktualizace: 08/07/2009

Anketa

Přivítali byste rozšíření programu MorphCon o další tagsety a funkce?

Ano (13)
81%

Ne (3)
19%

Celkový počet hlasů: 16