Bevezető Kereső Forrásjegyzék Morfoszintaktikai címkék Útmutató a kereséshez Jelmagyarázat A találatok értelmezése Kapcsolat About the project
.

A kereső lehetővé teszi, hogy mondaton, tagmondaton, vagy adott metaadatokkal megjelölt tulajdonságú szövegen belül keressünk, illetve akár több mondatos egységek is lekérdezhetők. A kereső által megjelenített találati egység a mondat. Az eredményül kapott mondatok soronként, tagmondatokra, illetve szavakra bontva jelennek meg. A tagmondatok határát piros pont, illetve nagyobb térköz jelzi, a szavak határát pedig az azokat határoló dobozok kerete. Ezekbe a keretekbe csoportosítva egymás alatt jelenik meg az eredeti szóalak, annak a normalizált változata, a normalizált alakból származtatott szótő, illetve a hozzá tartozó egyértelműsített morfológiai elemzés. Tehát egy szó reprezentációja:

eredeti alak normalizált alak szótő elemzés

A tagmondatok lehetnek folytonosak és nem folytonosak. Ez utóbbi az alárendelő szerkezetek esetén gyakran előfordul, de olykor a főmondat vagy egy mellérendelő szerkezet valamelyik eleme ékelődik be. Az alábbi példa olyan találati mondatot mutat be, amelyben több megszakított tagmondat is szerepel. A megszakított tagmondatot a szürke háttér, míg a beékelődött tagmondat határát a < és > jelek jelölik.

A lekérdezés során megfogalmazott kifejezésre illeszkedő, a találatot eredményező szó, illetve szavak (fókusz) félkövérrel jelennek meg a mondaton belül, és szögletes zárójel határolja őket. A fókusz a lekérdezésben tovább szűkíthető (l. alább).

A találati mondatok fölött a mondat azonosítója, illetve származási helyére és idejére vonatkozó metaadatok láthatók. A megjelenített adatok sorrendje: találat sorszáma, forrás kötetazonosítója, a köteten belüli azonosító, perek esetén a forrás származási helye, keletkezés ideje, leveleknél szerző, címzett, viszonyuk. A korpuszban elérhető és kereshető forrásokat lásd a forrásjegyzékben.

A találat feletti metaadatokra kattintva új böngészőablakban a teljes dokumentum megjelenik. Ezen belül a fókusz ugyanúgy félkövérrel kiemelve és szögletes zárójelbe zárva jelenik meg, mint az eredeti egymondatos találatban. (A böngészőben a "[" karakterre keresve könnyen megtalálhatóak a szövegen belül a találatok.)

A lekérdező mezők

Az összetett keresésre alkalmas keresőfelület több mezőt tartalmaz.

A lekérdezések megfogalmazása

A keresőrendszer által használt korpuszadatbázis az Emdros korpuszkezelőn alapul (Petersen 2004, [2]). A középmagyar korpusz lekérdezésére használható keresőben az Emdros eredeti lekérdezőszintaxisának (MQL) megfelelően megfogalmazott kérdések mellett egy az MQL-nél jóval tömörebb lekérdezőnyelv is használható. Az utóbbi formában megfogalmazott keresőkérdéseket a rendszer automatikusan MQL-re fordítja.

A keresőmezőben az egyes szavakra illeszkedő minták Perl Compatible Regular Expression (PCRE) formátumú reguláris kifejezések formájában adhatók meg (egy alább kifejtett eltéréssel a szokásos PCRE kifejezésektől). Ezek a reguláris kifejezések a konkrétan megjelenő felszíni karakterek mellett olyan szimbólumokat is tartalmazhatnak, melyek a keresendő mintázatokat írják le. Például, amennyiben minden olyan szóalakra szeretnénk keresni, amely a -bAn morféma bármely felszíni megjelenését tartalmazza, azt leírhatjuk az erre illeszkedő mintával, azaz: b[ae]n. Ebben az esetben a szögletes zárójelben felsorolt karakterek közül bármelyikre való illeszkedés találat lesz. A reguláris kifejezésekben használható legfontosabb szimbólumokat és azok használati módját az alábbi táblázat foglalja össze:

Szimbólum Jelentés Példa Lehetséges illeszkedések
* Az ezt megelőző karakter nulla, vagy többszöri előfordulása vo*lt vlt; volt; voolt; ...
? Az ezt megelőző karakter nulla, vagy egyszeri előfordulása vo?lt vlt; volt
+ Az ezt megelőző karakter egy vagy többszöri előfordulása vo+lt volt; voolt; ...
. Bármilyen karakter állhat az adott helyen b.n bán; bún; bűn; ...
| Diszjunkció, vagylagosság b(a|e)n ban; ben
() A kifejezés egyes részeinek csoportosítása b(a|e)n ban; ben
[] Karaktercsoportok megadása. Ezen belül a többi speciális jelentésű karakter is saját magát jelenti b[ae]n ban; ben
\ Speciális jelentésű karakterek feloldása \. . (tehát a "." itt nem bármilyen karakterre, hanem csak önmagára illeszkedik)
^ A karaktercsoportban felsorolt ezt követő karakter kizárása. b[^i]ka béka; baka;... (tehát minden olyan szó, ahol nem é szerepel a megadott karakterek között a második helyen)

A keresőfelületen beírt kifejezések értelmezése a PCRE reguláris kifejezések megszokott használatától az alábbiakban tér el:

A lekérdezés során nem csak egy szót írhatunk le, hanem több szóból álló kifejezéseket is, amennyiben az egyes szavakra vonatkozó keresőkifejezést szóközzel elválasztva adjuk meg. Néhány, reguláris kifejezések használatával leírt példa:

Kereső kifejezés Jelentés Lehetséges illeszkedés
egyszer volt Kétszavas kifejezés, a két szó ilyen formában, egymás után való megjelenésére illeszkedik egyszer volt

A keresés a fenti példákban az alapértelmezett beállításnak megfelelően a szövegek normalizált alakjában történik. Lehetőség van azonban az eredeti alakban, a szótőben és a morfoszintaktikai annotációban való keresésre is.

Az eredeti alakban való keresés

Az eredeti alakban való kereséshez a kifejezés elejére az O~ szimbólumokat kell megadni, ahol az O az "original", azaz eredeti alakot jelenti. Például az O~v(o|ó)l* lekérdezés esetén az összes olyan mondatot kapjuk eredményül, ahol annak eredeti alakjában vol vagy vól kezdetű szavak szerepelnek. Tehát a volt, vólt, volna, vólna alakok.

Amennyiben több szóból áll a kifejezés, akkor minden szó elején felül kell bírálni azt, hogy alapesetben a normalizált alakokban keressen. Ezt meg lehet adni szavanként (az O~ szimbólummal), vagy a kifejezésen belül bárhol át lehet állítani alapértelmezetté, az O~~ szimbólumokkal. Tehát az O~~nem v(o|ó)l* kifejezés mindkét szó illeszkedését az eredeti szövegben keresi, míg ha csak az első szóra állítanánk át az eredeti alakban való keresést a O~nem v(o|ó)l* kifejezéssel, akkor a második szót már a normalizált alakok között keresné.

Szótőben való keresés

Az eredeti alakban való keresésnek megfelelő szabályok szerint, az O~ és O~~ helyett az L~ és L~~ (lemma) szimbólum használatával.

A morfoszintaktikai címkében való keresés

Az eredeti alakban való keresésnek megfelelő szabályok szerint, az O~ és O~~ helyett az C~ és C~~ (category label/címke) szimbólum használatával. A kategóriák jelöléséhez használt rövidítéseket a morfoszintaktikai címkék jegyzéke tartalmazza.

Összetett keresés

Egy szóra annak egyszerre több tulajdonságára (eredeti alak, normalizált alak, szótő, elemzés) vonatkozó megszorításokat is leírhatunk egy kifejezéssel. Ebben az esetben a különböző tulajdonságokra való megszorításokat a @ szimbólummal kell elválasztani. Az előző példát folytatva, Ha a volt, vólt, volna, vólna eredeti előfordulásai közül csak azokra vagyunk kíváncsiak, ahol ezek szófaji kategóriája nem ige, akkor ezt a következő kifejezéssel írhatjuk le: O~v(o|ó)l*@C!~V*. Ennek jelentése tehát az eredeti szövegben található vol, vól kezdetű szavak, melyek kategóriacímkéje nem V-vel kezdődik, tehát nem igei szófajt jelöl.

A keresendő kifejezés hatóköre

A keresendő kifejezés hatóköre alapvetően egy tagmondat. Tehát amennyiben több szót tartalmazó keresőkifejezést adunk meg, akkor az eredményben azok a mondatok jelennek meg találatként, ahol a keresett kifejezés minden tagja ugyanabban a tagmondatban van. Lehetséges azonban a keresés hatókörének felülírása is. Ennek azonban elsősorban akkor van jelentősége, ha nem csak egymás mellett előforduló szavakra keresünk. Az illeszteni kívánt szavak közötti több szó megengedését a  ..  szimbólumokkal adhatjuk meg. Tehát olyan mondatok keresésére, melyben a volt, vólt, volna, vólna szavak után valahol az is szó előfordulását is garantálni szeretnénk az eredeti alakban, így írhatjuk le a keresőkifejezést: O~~v(o|ó)l* .. is. Ennek eredményeképpen az is szó nem kell, hogy közvetlenül kövesse a volt, vólt, volna, vólna adott előfordulását, hanem az adott tagmondaton belül akárhány szó távolságra lehet attól.

Ennek a távolságnak az egész mondatra való kiterjesztéséhez a keresendő kifejezés hatókörét paraméterezett zárójelezéssel adhatjuk meg a következő módon: [s O~~v(o|ó)l* .. is ] . Ebben az esetben az is a mondatban bárhol követheti a volt, vólt, volna, vólna előfordulását. Hasonlóan bekezdésre is kiterjeszthető a keresés, ebben az esetben a zárójel paramétere p, tehát a keresőkifejezés [p O~~v(o|ó)l* .. is ] alakban írható le.

Példák

A fenti szabályok tetszőlegesen kombinálhatóak, az alábbi táblázat néhány ilyen összetett keresésre mutat példát.

Kereső kifejezés Jelentés Lehetséges illeszkedés
C~~Vfin .. VPfx A szófajcímke alapján szerepeljen a mondatban egy ragozott ige, utána pedig a tagmondaton belül egy igekötő. ... hogy nem mas, hanem Bekéné rontotta volna meg
C~~Adj Q N* A szófajcímke alapján szerepeljen a mondatban egy ragozatlan melléknév, számnév, majd egy (opcionálisan ragozott) főnév. mint az előtte való két tanú.
!(való|levő)@C~~Adj Q N* Ragozatlan melléknév, számnév, majd egy (opcionálisan ragozott) főnév. A melléknév normalizát alakja ne való vagy levő legyen. Azon csanádi két asszony azt is mondta ...
C~Det*$ A tagmondat végén determináns. Remélhetőleg nincs találat.
^C~PP A tagmondat névutóval kezdődik. Remélhetőleg nincs találat.
C~~Det* Vfin Determinánst finit (személyragozott) igealak követ. Remélhetőleg nincs találat.
notexist C~~VfinAdv *PartPrf* Nincs finit ige vagy határozói igenév a tagmondatban, de van benne befejezett melléknévi igenév. ... ki is édesfia megírt Balogh Ilonának.
C~~Vfin .. Vfin Két finit ige egy tagmondatban. azonnal a fatens észrevette s érezte...
C~~Vfin !C*{0-} Vfin Két finit ige egy tagmondatban, köztük csak olyan szavak lehetnek, amik nem kötőszók. ... a többit összetörte, rontotta úgy, ...
F:!*,@C~~Vfin !C*{0-} F:Vfin U. a., mint az előző, de fókusz csak az igéken, az első ige végén nem lehet vessző hogy beadná a tekintetes magisztrátusnak beadja.
C~~Vpfx .. Vfin or Vfin .. VPfx Elváló igekötő. Vallja meg a fatens ...
C!~~C *Rel* Vonatkozó névmás a tagmondat besejében, nem kötőszó mögött: ebben az esztendőben amit hallott
*Px.*Acc Birtokos tárgy van a mondatban. ... a fatens feleségét ...
*V\.(?=.*[SP]\d)(?!.*Def)* Indefinit finit igealak (van benne V. és S1...P3, nincs benne Def), figyelem, rengeteg találat jön ki, ezt a keresést inkább ne indítsa el kért a fatens ...
notexist C~~*(?:PartAdv|Inf)*
[ F:*V\.(?=.*[SP]\d)(?!.*Def)* .. F:*Px.*Acc
or F:*Px.*Acc .. F:*V\.(?=.*[SP]\d)(?!.*Def)* ]
Birtokos tárgy mellett indefinit finit igealak. Ezek mellett határozói igenév vagy infinitívusz nem lehet a tagmondatban. Fókusz az igén és a tárgyon. kért a fatens feleségét ...
A korpusz létrehozását a következő két pályázat támogatta, illetve támogatja: OTKA K 81189 és NKFI–OTKA K 116217.