Literumaj cerbumoj



Multaj legantoj certe legis la reklamon por la Esperanta tekstoprilaborilo Ĉapelilo, kiu ekfuroras en nia mondeto. Tiu produkto entenas tre imponan literumilon specialigitan pri Esperanto. Kiu havas jam nur iom da sperto pri nacilingvaj literumiloj, tiun la Ĉapelila literumilo vere balaos el la seĝo. Ĝi fakte pintas. Eksklude por la revuo Monato, jen ĝiaj plej internaj sekretoj.

Kontroli la literumadon de iu teksto per komputilbaza tekstprilaborila programo hodiaŭ ne plu estas tiom malofta afero, minimume ne tiam, kiam temas pri iu vaste uzata nacia okcidenta lingvo kiel la Angla, Franca, Hispana aŭ Germana. Ĉe malmulte popoliĝintaj lingvoj la afero tamen iom alie aspektas kaj literumiloj por iu planlingvo kiel ekzemple Esperanto en formo de aĉetebla produkto praktike ne ekzistas. Des pli sensacia estas taksinda la Ĉapelila literumilo, kiu rilate al Esperanto per sia kapableco transpasas la plej bonajn nacilingvajn produktojn de ege eminentaj kaj dolarmiliarde pezaj entreprenoj. Apenaŭ kredeble, tiun pintan rangon fakte atingis la firmao Professional Consulting ene de sia produkto Ĉapelilo danke al la relativa reguleco de la planlingvo Esperanto.

La bazo de ĉiu literumilo ne tre surprize estas granda vortaro. Tiu plej konvene entenu ĉiujn vortojn de la celata lingvo. Ĉar vortoj de jaro al jaro naskiĝas kaj samtempe aliaj vortoj formortas, kompreneble estas tia kompleta vortaro principe ne difinebla. Aldone multaj lingvoj permesas kombini radikojn al novaj vortoj kaj, bedaŭrinde por ĉiu literumilprograma vortaristo, tiaj kombinaĵoj povas praktike ekesti ĉe ĉiu uzanto kvazaŭ spontanee. Pro tio literumilaj vortaroj plej ofte nur entenas la pli ofte uzatajn vortojn kaj vortkombinojn de specifa lingvo.

Tute specialspeca problemo ekestas en lingvoj fleksiaj. Tiaj lingvoj kutime modifas iun parton de baza vorto por signi ĝiajn diversajn gramatikajn rolojn ene de propozicio aŭ montri kelkajn aliajn vortrilatajn konceptojn. Tiaj fleksiaĵoj estas ofte tre frapaj. Ilustre jen kelkaj interesaj pluraloj:

Apfel -> Äpfel (Germane)
animal -> animaux (France)
ox -> oxen (Angle)

Ĉar tiaj fleksioj ne estas sufiĉe regulaj oni fakte devas enmeti ĉiujn fleksiitajn formojn de ĉiu registrinda vorto en la vortaron. Tio evidente enorme grandigas ĝin kaj fakte por registri 1000 terminojn, oni pro fleksioj eble devos envortarigi 5000 ĝis 8000 formojn, evidente iom depende de la lingvo celata. Se la lingvo havas ampleksan kazan sistemon aŭ komplike konjugacias siajn verbojn, evidente la fleksiaĵoj rekte abundas kaj la vortaro vere eksplodos, kvankam estas metodoj tre efike enstokigi vicon da similaĵoj.

La reduktado per analizo

La situacio ĉe Esperanto estas ege pli favora. Kvankam Esperanto aspektas kiel tipa Latinida fleksia lingvo, ĝi fakte estas pro sia reguleco preskaŭ pure aglutina. Ĉiuj finaĵoj estas en vero regule aplikataj gramatikaj brikoj. Kontraste al etne libere evoluintaj lingvoj la eblaj Esperantaj finaĵoj ekzemple ĉe substantivo estas senescepte regulaj. Ni pritraktu la substantivon "kanto":

kanto ->
kanton,
kantoj,
kantojn,
kant'.

Tia reguleco troviĝas same ĉe la parenca adjektivo "kanta":

kanta ->
kantan,
kantaj,
kantajn,
kante.

Ankaŭ la simplaj verbaj formoj de "kanti" estas ne malpli regulaj:

kanti ->
kantu,
kantas,
kantis,
kantos,
kantus.

Pro tio la konstruantoj de Ĉapelilo, celante ja Esperanton, povis rezigni entute registri tiujn regule deriveblajn formojn en la Ĉapelila vortaro. Fakte ĝi nur entenas rilate al la supraj ekzemploj tri enregistraĵojn, nome:

kantakanti
kanto

Per tiuj 3 enregistraĵoj Ĉapelilo kapablas kontroli tamen ĉiujn16 malsamajn formojn ene de la teksto de la uzanto. Nome:

kanto,
kanton,
kantoj,
kantojn,
kant', 
kanta,
kantan,
kantaj,
kantajn,
kante, 
kanti,
kantu,
kantas,
kantis,
kantos,
kantus

Tiukaze temas evidente pri levila efiko laŭ 16:3. Mankas ekkoneble ankoraŭ la participoj de la verbo "kanti". Tiujn tamen Ĉapelilo pritraktas kiel normalajn adjektivojn - kio ene de Ĉapelilo koncepte inkludas adverbon - aŭ taŭgkaze kiel substantivojn.

En la literumila praktiko por kontroli propozicion Ĉapelilo, antaŭ ol konsulti la vortaron, analizas la kontrolotan tekston kaj reduktas unuaŝtupe ĉiun vorton al ĝia vortare norma formo.

El:

Tri nigraj katoj gratis la malpure blankan hundon.

iĝas:

tri nigra kato grati la malpura blanka hundo

Substantivoj, adjektivoj, e-specaj adverboj kaj verboj ĉiuj normiĝas. Kiel oni facile tamen ekkonas, devas aldone ekzisti speciala klaso por vortoj kiel "tri" kaj "la". Nome "tri" ne estas verbo malgraŭ la finaĵo "-i" kaj same "la" ne estas adjektivo malgraŭ la finaĵo "-a". Al tiu klaso por strangaĵoj apartenas ankaŭ multaj tre ofte bazaj adverboj finiĝantaj per "-aŭ" kaj ĉiuj prepozicioj, konjunkcioj kaj numeraloj. Cetere, pro tio, ke akuzativigeblaj adverboj - ekz. "hejmen", "supren" - estas relative maloftaj kaj ne ĉiam senchave fareblaj, ankaŭ tiuj apartenas al tiu kvara Ĉapelila klaso. Simile, multaj formoj de la tiel nomataj tabelvortoj - ekzemple "tiu", "kies", "neniam" - troviĝas en tiu klaso. [plu]

[retro] La vortara bazo

Fakte estas tiel, ke la priskribata literumila sistemo ne iun tagon senaverte kaj donace ekfalis el la stratosfero. Ĝi estas en realo la rezulto de trijara ŝvitpela pli aŭ malpli hobia evoluigo. En tiu antaŭ-Ĉapelila epoko la aŭtoro de tiu artikolo evidente jam havis pratipan literumilon. Komence ties vortaro estis evidente tute malplena. Ĉiu vorto, kiun lia prasistemo ne konis, estis post sufiĉe diligenta kontrolo enigata. La iom post iom vortaregen kreskantan vortaron oni regule aldone kontrolis por elsarki tiun kaj tiun eraran formon. Ekzemple iu afabla longkola "girafo" devis morti lokdone al malpli lingvaĵe tordita "ĝirafo".

Por nun doni al Ĉapelilo sufiĉe ampleksan vortaran bazon la programista skipo ĉerpis el du fontoj. Unue oni prenis ĉiujn vortojn, kiujn la aŭtoro estas iam ajn uzinta ene de siaj skribitaĵoj. Ĵus antaŭ la lanĉo de la Ĉapelila projekto, tiu kvazaŭ unupersona vortaro entenis jam 60 mil terminojn kun multe da derivaĵoj.

Kiel dua fonto servis komputiligita listo de ĉiuj kapvortoj el la fama PIV-o. Tiu listo estas disponebla per la komputila reto Interreto kaj rezultas el la ne tute perfekta mana entajpado de mallongigita versio de la paperforma PIV-a rubrikaro iam en Budapeŝto. En la debuta versio de Ĉapelilo troviĝis ĉiuj precipaj kapvortoj el tiu listo, tamen sen la propraj nomoj, ĉar ĝuste tiuj bedaŭrinde enlistiĝis kun multe da tajperaroj.

Ĉapelilo mem entenas konate 200-teman Vindoztipecan helpsistemon. Evidente tia tekstego entenas multe da komputilfakaj vortoj kaj sufiĉe da terminoj rilatantaj al la ĝenerala tekstprilaborado. Tiun helptekstegon oni fakte skribis per la unuaj provaj versioj de Ĉapelilo - iom danĝera afero. Tamen tiel oni interalie povis bone testi la programon kaj sufiĉe frufaze okupiĝi pri ties "cimoj". Dum tiu operacio la Ĉapelila vortaro evidente ensuĉis abundon da ĝis tiam ne registritaj fakterminoj.

La mira multobliĝo

La vera sekreto de la Ĉapelila vortstoko kuŝas tamen tute aliloke. Ĉiun fojon kiam la literumilo, kontrolante tekston, ekhaltas, la uzanto havas elekton. Tiu, la homo, nun devas decidi, ĉu la ĝenanta vorto estas erara kaj tial permane tuj korektenda, aŭ, ĉu temas pri vorto valida, kiu evidente ankoraŭ mankas en la Ĉapelila literumila vortaro. Se fakte temas pri ĝustaĵo, la uzanto povas per simpla permusa alklako registri ĝin.

Kio nun okazas, tio ne plu estas tiom simpla afero. Ĉapelilo unue normigas la vorton, ĉar evidente nur tiaĵoj registriĝu en la literumila vortaro. Post tio Ĉapelilo analizas la vorton, klopodante ekkoni pri kiu speco de vorto fakte temas. Ekzemple, se la literumilo estas ekhaltinta ĉe la vorto "beleco" - kion ĝi evidente ne faras - kaj la uzanto decidas, ke temas pri valida vorto kaj pro tio ĝi estas registrinda, Ĉapelilo ne nur registros "beleco". Fakte, ekkoninte la Esperantan sufikson "-ec-", ĝi registros:

bela
belaĵa
belaĵo
beleca
beleco

Simile el "malbelulino" iĝas

belula
belulina
belulino
belulo
malbelula
malbelulina
malbelulino
malbelulo

Ĉe simpla verbo Ĉapelilo provizore supozas, unue ke ĝi estas netransira kaj due ke ne ekzistas ulecaj substantivaj participoj. Aŭtomate aldoniĝas tamen du aspektoj. El simpla "ludas" iĝas:

ekluda
ekludanta
ekludi
ekludinta
ekludo
ekludonta
luda
ludanta
ludi
ludinta
ludo
ludonta
ludada
ludadanta
ludadi
ludadinta
ludado
ludadonta

Por ne misagi ĉe tia analizo evidente ekzistas interne sufiĉe da listoj pri esceptoj. Ĉe la difino de tiuj listoj, eble iom surprize, ege rolis la fama Parnasa Gvidlibro - jen vere ne ĉiutaga kunulo al profesia programisto. La pinto de la aŭtomata vortmultobliĝo atingiĝas ĉe la ekkono de transira verbo truke kaŝanta sin malantaŭ la sufikso "-ebla". Fakte enregistriĝas tiukaze pli ol 70 formoj.

Esperantistoj ĉepinte

Estas evidente, ke nur planlingvo kiel Esperanto permesas tiom inĝenian kaj efikan procedon. Tiun planitecon la Ĉapelila literumilo vere ĝis la ekstremo ankaŭ eluzas, laŭpove multobligante ĉiun novan enregistraĵon de la uzanto. Ĉe la debuta livero la precipa vortaro - oni povas fakte paralele uzi plurajn - danke al tiu inteligenta teĥnologio jam entenis pli ol 130.000 enregistraĵojn. Per tiuj oni povas kontroli la kvinoblan nombron da vortoj pro la jam komence priskibita redukta analizo.

Pro ĉio ĉi la literumilo, male al iu kaj iu nacilingva kolego, apenaŭ mishaltas. Se fakte vorto vere mankas, kaŭzante mishalton, la uzanto, registrante, mem grandigos la jam sufiĉe ampleksan vortostokon per ĉiu sia aldono. Tion li eĉ faras, kvazaŭ ekipite per sepmejlpaŝaj botoj.

Planita estas por proksima versio de Ĉapelilo la aldona enregistro de ĉiuj PIV-e enlistigitaj derivaĵoj. Post tiu lasta kulminiga ĉenero la Esperantistoj verŝajne posedos mondvaste la algoritme plej inteligentan kaj funkcie plej potencan komerce disponeblan literumilon ajnege iam ekzistintan.

PEJNO Simono