Bevezető Kereső Forrásjegyzék Morfoszintaktikai címkék Útmutató a kereséshez Jelmagyarázat A találatok értelmezése Kapcsolat About the project
.

A kereső lehetővé teszi, hogy mondaton, tagmondaton, vagy adott metaadatokkal megjelölt tulajdonságú szövegen belül keressünk, illetve akár több mondatos egységek is lekérdezhetők. A kereső által megjelenített találati egység alapesetben a mondat. Az eredményül kapott mondatok soronként, tagmondatokra, illetve szavakra bontva jelennek meg. A tagmondatok határát piros pont, illetve nagyobb térköz jelzi, a szavak határát pedig az azokat határoló dobozok kerete. Ezekbe a keretekbe csoportosítva egymás alatt jelenik meg az eredeti szóalak, annak a normalizált változata, a normalizált alakból származtatott szótő, illetve a hozzá tartozó egyértelműsített morfológiai elemzés. Tehát egy szó reprezentációja:

eredeti alak normalizált alak szótő elemzés




A tagmondatok lehetnek folytonosak és nem folytonosak. Ez utóbbi az alárendelő szerkezetek esetén gyakran előfordul, de olykor a főmondat vagy egy mellérendelő szerkezet valamelyik eleme ékelődik be. Az alábbi példa olyan találati mondatot mutat be, amelyben több megszakított tagmondat is szerepel. A megszakított tagmondatot a szürke háttér, míg a beékelődött tagmondat határát a < és > jelek jelölik.

A lekérdezés során megfogalmazott kifejezésre illeszkedő, a találatot eredményező szó, illetve szavak (fókusz) félkövérrel jelennek meg a mondaton belül, és szögletes zárójel határolja őket. A fókusz a lekérdezésben tovább szűkíthető (l. alább).

A találati mondatok fölött a mondat azonosítója, illetve származási helyére és idejére vonatkozó metaadatok láthatók. A megjelenített adatok sorrendje: találat sorszáma, forrás kötetazonosítója, a köteten belüli azonosító, perek esetén a forrás származási helye, keletkezés ideje, leveleknél szerző, címzett, viszonyuk. A korpuszban elérhető és kereshető forrásokat lásd a forrásjegyzékben.

A találati lista elején szerepel, hogy hány különböző mondatban szerepelt a keresőkifejezésre illeszkedő adat. A tényleges találatok számát a lista végén jeleníti meg a kereső.

A találat feletti metaadatokra kattintva új böngészőablakban a teljes dokumentum megjelenik. Ezen belül a fókusz ugyanúgy félkövérrel kiemelve és szögletes zárójelbe zárva jelenik meg, mint az eredeti egymondatos találatban. (A böngészőben a "[" karakterre keresve könnyen megtalálhatóak a szövegen belül a találatok.)

A fent leírt alapesetben megjelenített formátum (Teljes annotáció) mellett az alább a lekérdező mezők-ről szóló részben leírt Megjelenítés legördülő menüből egyéb kimeneti formátumok is választhatók:

A lekérdező mezők

Az összetett keresésre alkalmas keresőfelület több mezőt tartalmaz.

A lekérdezések megfogalmazása

A keresőrendszer által használt korpuszadatbázis az Emdros korpuszkezelőn alapul (Petersen 2004 ). A középmagyar korpusz lekérdezésére használható keresőben az Emdros eredeti lekérdezőszintaxisának (MQL) megfelelően megfogalmazott kérdések mellett egy az MQL-nél jóval tömörebb lekérdezőnyelv is használható. Az utóbbi formában megfogalmazott keresőkérdéseket a rendszer automatikusan MQL-re fordítja. A lekérdezéseket a bennük szereplő szavakra vonatkozó megszorítások megfogalmazását megkönnyítő, a Szerkesztő ∇ gomb megnyomásával kinytható elemek segítségével is megfogalmazhatjuk. Ennek leírását l. alább.

A keresőmezőben az egyes szavakra illeszkedő minták Perl Compatible Regular Expression (PCRE) formátumú reguláris kifejezések formájában adhatók meg (egy alább kifejtett eltéréssel a szokásos PCRE kifejezésektől). Ezek a reguláris kifejezések a konkrétan megjelenő felszíni karakterek mellett olyan szimbólumokat is tartalmazhatnak, melyek a keresendő mintázatokat írják le. Például, amennyiben minden olyan szóalakra szeretnénk keresni, amely a -bAn morféma bármely felszíni megjelenését tartalmazza, azt leírhatjuk az erre illeszkedő mintával, azaz: b[ae]n. Ebben az esetben a szögletes zárójelben felsorolt karakterek közül bármelyikre való illeszkedés találat lesz. A reguláris kifejezésekben használható legfontosabb szimbólumokat és azok használati módját az alábbi táblázat foglalja össze:

Szimbólum Jelentés Példa Lehetséges illeszkedések
* Az ezt megelőző karakter nulla, vagy többszöri előfordulása vo*lt vlt; volt; voolt; ...
? Az ezt megelőző karakter nulla, vagy egyszeri előfordulása vo?lt vlt; volt
+ Az ezt megelőző karakter egy vagy többszöri előfordulása vo+lt volt; voolt; ...
. Bármilyen karakter állhat az adott helyen b.n bán; bún; bűn; ...
| Diszjunkció, vagylagosság b(a|e)n ban; ben
() A kifejezés egyes részeinek csoportosítása (t.r)?b(á|ű)n bán; bűn; turbán; torbűn stb.
[] Karaktercsoportok megadása. Ezen belül a többi speciális jelentésű karakter is saját magát jelenti b[ae]n ban; ben
\ Speciális jelentésű karakterek feloldása \. . (tehát a "." itt nem bármilyen karakterre, hanem csak önmagára illeszkedik)
^ A karaktercsoportban felsorolt ezt követő karakter kizárása. b[^i]ka béka; baka;... (tehát minden olyan szó, ahol nem i szerepel a megadott karakterek között a második helyen)

A keresőfelületen beírt kifejezések értelmezése a PCRE reguláris kifejezések megszokott használatától az alábbiakban tér el:

A lekérdezés során nem csak egy szót írhatunk le, hanem több szóból álló kifejezéseket is, amennyiben az egyes szavakra vonatkozó keresőkifejezést szóközzel elválasztva adjuk meg. Néhány, reguláris kifejezések használatával leírt példa:

Kereső kifejezés Jelentés Lehetséges illeszkedés
egyszer volt Kétszavas kifejezés, a két szó ilyen formában, egymás után való megjelenésére illeszkedik egyszer volt

A keresés a fenti példákban az alapértelmezett beállításnak megfelelően a szövegek normalizált alakjában történik. Lehetőség van azonban az eredeti alakban, a szótőben és a morfoszintaktikai annotációban való keresésre is.

Az eredeti alakban való keresés

Az eredeti alakban való kereséshez a kifejezés elejére az O~ szimbólumokat kell megadni, ahol az O az "original", azaz eredeti alakot jelenti. Például az O~v(o|ó)l* lekérdezés esetén az összes olyan mondatot kapjuk eredményül, ahol annak eredeti alakjában vol vagy vól kezdetű szavak szerepelnek. Tehát a volt, vólt, volna, vólna alakok.

Amennyiben több szóból áll a kifejezés, akkor minden szó elején felül kell bírálni azt, hogy alapesetben a normalizált alakokban keressen. Ezt meg lehet adni szavanként (az O~ szimbólummal), vagy a kifejezésen belül bárhol át lehet állítani alapértelmezetté, az O~~ szimbólumokkal. Tehát az O~~nem v(o|ó)l* kifejezés mindkét szó illeszkedését az eredeti szövegben keresi, míg ha csak az első szóra állítanánk át az eredeti alakban való keresést a O~nem v(o|ó)l* kifejezéssel, akkor a második szót már a normalizált alakok között keresné.

Szótőben való keresés

Az eredeti alakban való keresésnek megfelelő szabályok szerint, az O~ és O~~ helyett az L~ és L~~ (lemma) szimbólum használatával.

A morfoszintaktikai címkében való keresés

Az eredeti alakban való keresésnek megfelelő szabályok szerint, az O~ és O~~ helyett az C~ és C~~ (category label/címke) szimbólum használatával. A kategóriák jelöléséhez használt rövidítéseket a morfoszintaktikai címkék jegyzéke tartalmazza. Ügyelni kell azonban arra, hogy a címkékben egyébként előforduló karakterek (különösen a | és a .) speciális jelentéssel bírnak a reguláris kifejezésekben (vagylagosság, illetve tetszőleges karakter), ezért ezeket nem lehet egy az egyben átmásolni a keresőkifejezésbe, hanem \ karaktert kell eléjük írni. A morfoszintaktikai megszorításokat tartalmazó lekérdezések összeállításához kifejezetten ajánljuk a Szerkesztő ∇ gomb megnyomásával kinyitható kifejezésszerkesztő használalát. A morfoszintaktikai címkék jegyzékében szereplő címkéken kívül az alábbi speciális címkék használhatóak, amelyek makróként egy egyébként viszonylag bonyolult formában megfogalmazható szófajcímkecsoportot fednek le:

Szófajcímke-makró Jelentés
NAQ névszó jellegű szó: főnév, melléknév, számnév, határozószó, egyeztetett deiktikus determináns, névszói kategóriájú névmás vagy igenév
Vfin finit (ragozott) igealak (nem infinitívusz vagy határozói igenév)
VfinAdv finit (ragozott) igealak vagy határozói igenév (nem infinitívusz)
Nom nominatívusz (testes esetragot nem tartalmazó névszó): ez azért különleges eset, mert Nom címke egyébként nincs az annotációban

Összetett keresés

Egy szóra annak egyszerre több tulajdonságára (eredeti alak, normalizált alak, szótő, elemzés) vonatkozó megszorításokat is leírhatunk egy kifejezéssel. Ebben az esetben a különböző tulajdonságokra való megszorításokat a @ szimbólummal kell elválasztani. Az előző példát folytatva, Ha a volt, vólt, volna, vólna eredeti előfordulásai közül csak azokra vagyunk kíváncsiak, ahol ezek szófaji kategóriája nem ige, akkor ezt a következő kifejezéssel írhatjuk le: O~v(o|ó)l*@C!~V*. Ennek jelentése tehát az eredeti szövegben található vol, vól kezdetű szavak, melyek kategóriacímkéje nem V-vel kezdődik, tehát nem igei szófajt jelöl.

A keresendő kifejezés hatóköre

A keresendő kifejezés hatóköre alapvetően egy tagmondat. Tehát amennyiben több szót tartalmazó keresőkifejezést adunk meg, akkor az eredményben azok a mondatok jelennek meg találatként, ahol a keresett kifejezés minden tagja ugyanabban a tagmondatban van. Lehetséges azonban a keresés hatókörének felülírása is. Ennek azonban elsősorban akkor van jelentősége, ha nem csak egymás mellett előforduló szavakra keresünk. Az illeszteni kívánt szavak közötti több szó megengedését a  ..  szimbólumokkal adhatjuk meg. Tehát olyan mondatok keresésére, melyben a volt, vólt, volna, vólna szavak után valahol az is szó előfordulását is garantálni szeretnénk az eredeti alakban, így írhatjuk le a keresőkifejezést: O~~v(o|ó)l* .. is. Ennek eredményeképpen az is szó nem kell, hogy közvetlenül kövesse a volt, vólt, volna, vólna adott előfordulását, hanem az adott tagmondaton belül akárhány szó távolságra lehet attól.

Ennek a távolságnak az egész mondatra való kiterjesztéséhez a keresendő kifejezés hatókörét paraméterezett zárójelezéssel adhatjuk meg a következő módon: [s O~~v(o|ó)l* .. is ] . Ebben az esetben az is a mondatban bárhol követheti a volt, vólt, volna, vólna előfordulását. Hasonlóan bekezdésre is kiterjeszthető a keresés, ebben az esetben a zárójel paramétere p, tehát a keresőkifejezés [p O~~v(o|ó)l* .. is ] alakban írható le.

A keresőkifejezés-szerkesztő használata

A Szerkesztő ∇ gomb megnyomásával kinyitható kifejezésszerkesztő a keresésben szereplő egyes szavakra vonatkozó megszorítások megfogalmazását könnyíti meg. Az eredeti (O) és a normalizált (N) alakra, illetve a lemmára (L) vonatkozó megszorítások itt egy-egy külön dobozban adhatók meg a korábbiakban leírt reguláris kifejezések formájában. Az egyes mezőkbe írandó tartalom jellegére rövid példák emlékeztetnek az egyes dobozokban: eredeti (pl. aszt, *czé*, *ttya), normalizált (pl. azt, *cé*, *tja), szótő (pl. az, *cé*, *lát). Az egyes mezők előtt álló kapcsolókkal negálhatjuk az adott megszorítást: ilyenkor azok a szavak lesznek a találatok, amelyekre nem illeszkedik az adott kifejezés.

A szófajra (C) vonatkozó megszorítások megfogalmazására szolgáló legördülő menüből első körben a fő szófajt kell kiválasztani. Ennek tartalma alapesetben: szófaj: tetsz. (tetszőleges szófaj). Az első szinten választható fő szófajok: névszó jellegű ...; névelő; névutó; ige/inf/hat. igenév ...; igekötő; kötőszó; indulatszó/mondatszó; elöljárószó; is. A névszói csoport fejével számban és esetben egyeztetett mutató névmási determinánsok – bár névelő jellegűek – nem a névelő, hanem a névszó jellegű főkategória alatt szerepelnek. Ugyancsak itt szerepelnek a névszói ragozású, illetve jelzői szerepben megjelenő igenevek.

A névszó jellegű, illetve az ige/inf/hat. igenév fő szófajkategóriát választva új, az adott szófajcsoportra jellemző morfológiai jegyek kiválasztását lehetővé tevő mezők jelennek meg, illetve ezek egyes elemeinél az alapesetben ott álló tetszőleges értéket megengedő beállítástól különböző érték kiválasztása dinamikusan újabb mezők megjelenését válthatja ki (pl. ha kiválasztjuk, hogy van birtokos végződés, ennek számára és/vagy személyére a megjelenő lenyíló dobozokban megszorítást tehetünk). Az egyes mezők tartalmának kitöltésével, illetve kiválasztásával a szerkesztő alján szereplő mezőben dinamikusan felépül az adott szóra vonatkozó megszorításokat leíró kifejezés, amelyet a Hozzáad a lekérdezéshez gomb megnyomásával adhatunk hozzá a Lekérdezés mező tartalmához. A Törlés gomb megnyomására törlődik a Lekérdezés mező tartalma, és alaphelyzetbe áll a keresőkifejezés-szerkesztő is.

A szófajfüggő, alapvetően inflexiós jellegű morfológiai jegyek mellett (ideértve most tágabb értelemben az igenévképzőket is) bizonyos képzőket tartalmazó szóalakokra vonatkozó keresések összeállítására egy külön legördülő mező ad lehetőséget, melynek segítségével az alábbi képzők közül választhatunk: -beli; -AdikA; -An, -Ul, -t (hogyan?); -An (hányan?); -szOr; -Odik v. -Od (sorszámnév); -(V)tta.

Az alábbi példa a -ba/be alakban írt inesszívusz ragos névszói alakokat tartalmazó adatok lekérésére hivatott lekérdezés (N~*'@C~NAQ.*\.Ine) összeállítását mutatja (a normalizált alak '-ra végződik, a fő szófaj névszó (főnév, melléknév, számnév, egyeztetett deiktikus determináns, illetve ilyen kategóriájú névmás, határozószó vagy igenév: a különleges NAQ szófajkód ezt a szófajcsoportot lefedő ún. makró), az esetrag inesszívusz).

Példák

A fenti szabályok tetszőlegesen kombinálhatóak, az alábbi táblázat néhány ilyen összetett keresésre mutat példát.

Kereső kifejezés Jelentés Lehetséges illeszkedés
C~~Vfin .. VPfx A szófajcímke alapján szerepeljen a mondatban egy ragozott ige, utána pedig a tagmondaton belül egy igekötő. ... hogy nem mas, hanem Bekéné rontotta volna meg
C~~Adj Q N* A szófajcímke alapján szerepeljen a mondatban egy ragozatlan melléknév, számnév, majd egy (opcionálisan ragozott) főnév. mint az előtte való két tanú.
!(való|levő)@C~~Adj Q N* Ragozatlan melléknév, számnév, majd egy (opcionálisan ragozott) főnév. A melléknév normalizát alakja ne való vagy levő legyen. Azon csanádi két asszony azt is mondta ...
C~Det*$ A tagmondat végén determináns. Remélhetőleg nincs találat.
^C~PP A tagmondat névutóval kezdődik. Remélhetőleg nincs találat.
C~~Det* Vfin Determinánst finit (személyragozott) igealak követ. Remélhetőleg nincs találat.
notexist C~~VfinAdv *PartPrf* Nincs finit ige vagy határozói igenév a tagmondatban, de van benne befejezett melléknévi igenév. ... ki is édesfia megírt Balogh Ilonának.
C~~Vfin .. Vfin Két finit ige egy tagmondatban. a Kegyelmedén elmehettem és viszajöhettem volna
C~~Vfin !C*{0-} Vfin Két finit ige egy tagmondatban, köztük csak olyan szavak lehetnek, amik nem kötőszók. ... a többit összetörte, rontotta úgy, ...
F:!*,@C~~Vfin !C*{0-} F:Vfin U. a., mint az előző, de fókusz csak az igéken, az első ige végén nem lehet vessző hogy beadná a tekintetes magisztrátusnak beadja.
C~~Vpfx .. Vfin or Vfin .. VPfx Elváló igekötő. Vallja meg a fatens ...
C!~~C *Rel* Vonatkozó névmás a tagmondat belsejében, nem kötőszó mögött: ebben az esztendőben amit hallott
*Px.*Acc Birtokos tárgy van a mondatban. ... a fatens feleségét ...
*V\.(?=.*[SP]\d)(?!.*Def)* Indefinit finit igealak (van benne V. és S1...P3, nincs benne Def), figyelem, rengeteg találat jön ki, ezt a keresést inkább ne indítsa el kért a fatens ...
notexist C~~*(?:PartAdv|Inf)*
[ F:*V\.(?=.*[SP]\d)(?!.*Def)* .. F:*Px.*Acc
or F:*Px.*Acc .. F:*V\.(?=.*[SP]\d)(?!.*Def)* ]
Birtokos tárgy mellett indefinit finit igealak. Ezek mellett határozói igenév vagy infinitívusz nem lehet a tagmondatban. Fókusz az igén és a tárgyon. kért a fatens feleségét ...
A korpusz létrehozását a következő két pályázat támogatta, illetve támogatja: OTKA K 81189 és NKFI–OTKA K 116217.