Pokazki za ekspertowe pytanje
Teksty, ako su se pśigótowali za komfortne pytanje, su se z pomocu IMS Open Corpus Workbench (CWB) indicěrowali a za pśepytanje zepśigótowali. Gaž aktiwěrujo se w pytańskich nastajenjach ekspertowe pytanje, mógu se toś teke nałožowaś wótpšašowanja w rěcy CQL a regularne wuraze. W nowem korpusu za komfortne pytanje su se wužywali slědujuce tokenowe atributy:
word- Forma tokena, tak ako w teksće wustupujo.
lemma- Lematizěrowana forma tokena. Pla skrotconkow, licbow a wósebnych znamuškow jo toś ta forma identiska z atributom
word. Za interpunkciske tokeny njejo atributlemmadefiněrowany. Lematizěrowana forma jo pśezceło zapisana z wjelikimi pismikami. Wóna njejo powšyknje disambiguěrowana. Wšykne potencielne homonymy se nalice źělone z pomocu znamuška|. norm- Do źinsajšnego pšawopisa pśewjeźona (normalizěrowana) forma tokena. Za licby, wósebne znamuška a za interpunkciske tokeny njejo atribut
normdefiněrowany. Normalizěrowana forma njejo powšyknje disambiguěrowana. Wšykne potencielne homonymy se nalice źělone z pomocu znamuška|. name- Swójske mě.
- Móžnej gódnośe stej
;,;1;,;za apelatiwa a;,;0;,;za propria (konkretnej formje stej techniski zawinowanej). toktype- Typ tokena.
- Móžnej gódnośe stej
;,;w;,;za słowny token a;,;pc;,;za interpunkciski token (konkretnej formje stej techniski zawinowanej). type- Dalšne informacije wó typje tokena.
- Móžnej gódnośe stej
numberza licby asymbolza wósebne znamuška, howacej njedefiněrowane. foreign- Njedolnoserbske słowo.
- Móžnej gódnośe stej
;,;0;,;za dolnoserbske słowo a;,;1;,;za njedolnoserbske słowo (konkretnej formje stej techniski zawinowanej).