A kereső lehetővé teszi, hogy mondaton, tagmondaton, vagy adott metaadatokkal megjelölt tulajdonságú szövegen belül keressünk, illetve akár több mondatos egységek is lekérdezhetők. A kereső által megjelenített találati egység alapesetben a mondat. Az eredményül kapott mondatok soronként, tagmondatokra, illetve szavakra bontva jelennek meg. A tagmondatok határát piros pont, illetve nagyobb térköz jelzi, a szavak határát pedig az azokat határoló dobozok kerete. Ezekbe a keretekbe csoportosítva egymás alatt jelenik meg az eredeti szóalak, annak a normalizált változata, a normalizált alakból származtatott szótő, illetve a hozzá tartozó egyértelműsített morfológiai elemzés. Tehát egy szó reprezentációja:
A tagmondatok lehetnek folytonosak és nem folytonosak. Ez utóbbi az alárendelő szerkezetek esetén gyakran előfordul, de olykor a főmondat vagy egy mellérendelő szerkezet valamelyik eleme ékelődik be. Az alábbi példa olyan találati mondatot mutat be, amelyben több megszakított tagmondat is szerepel. A megszakított tagmondatot a szürke háttér, míg a beékelődött tagmondat határát a < és > jelek jelölik.
A lekérdezés során megfogalmazott kifejezésre illeszkedő, a találatot eredményező szó, illetve szavak (fókusz) félkövérrel jelennek meg a mondaton belül, és szögletes zárójel határolja őket. A fókusz a lekérdezésben tovább szűkíthető (l. alább).
A találati mondatok fölött a mondat azonosítója, illetve származási helyére és idejére vonatkozó metaadatok láthatók. A megjelenített adatok sorrendje: találat sorszáma, forrás kötetazonosítója, a köteten belüli azonosító, perek esetén a forrás származási helye, keletkezés ideje, leveleknél szerző, címzett, viszonyuk. A korpuszban elérhető és kereshető forrásokat lásd a forrásjegyzékben.
A találati lista elején szerepel, hogy hány különböző mondatban szerepelt a keresőkifejezésre illeszkedő adat. A tényleges találatok számát a lista végén jeleníti meg a kereső.
A találat feletti metaadatokra kattintva új böngészőablakban a teljes dokumentum megjelenik. Ezen belül a fókusz ugyanúgy félkövérrel kiemelve és szögletes zárójelbe zárva jelenik meg, mint az eredeti egymondatos találatban. (A böngészőben a "[" karakterre keresve könnyen megtalálhatóak a szövegen belül a találatok.)
A fent leírt alapesetben megjelenített formátum (Teljes annotáció) mellett az alább a lekérdező mezők-ről szóló részben leírt Megjelenítés legördülő menüből egyéb kimeneti formátumok is választhatók:
Az összetett keresésre alkalmas keresőfelület több mezőt tartalmaz.
A keresőrendszer által használt korpuszadatbázis az Emdros korpuszkezelőn alapul (Petersen 2004 ). A középmagyar korpusz lekérdezésére használható keresőben az Emdros eredeti lekérdezőszintaxisának (MQL) megfelelően megfogalmazott kérdések mellett egy az MQL-nél jóval tömörebb lekérdezőnyelv is használható. Az utóbbi formában megfogalmazott keresőkérdéseket a rendszer automatikusan MQL-re fordítja. A lekérdezéseket a bennük szereplő szavakra vonatkozó megszorítások megfogalmazását megkönnyítő, a Szerkesztő ∇ gomb megnyomásával kinytható elemek segítségével is megfogalmazhatjuk. Ennek leírását l. alább.
A keresőmezőben az egyes szavakra illeszkedő minták Perl Compatible Regular Expression (PCRE) formátumú reguláris kifejezések formájában adhatók meg (egy alább kifejtett eltéréssel a szokásos PCRE kifejezésektől). Ezek a reguláris kifejezések a konkrétan megjelenő felszíni karakterek mellett olyan szimbólumokat is tartalmazhatnak, melyek a keresendő mintázatokat írják le. Például, amennyiben minden olyan szóalakra szeretnénk keresni, amely a -bAn morféma bármely felszíni megjelenését tartalmazza, azt leírhatjuk az erre illeszkedő mintával, azaz: b[ae]n. Ebben az esetben a szögletes zárójelben felsorolt karakterek közül bármelyikre való illeszkedés találat lesz. A reguláris kifejezésekben használható legfontosabb szimbólumokat és azok használati módját az alábbi táblázat foglalja össze:
Szimbólum | Jelentés | Példa | Lehetséges illeszkedések |
---|---|---|---|
* | Az ezt megelőző karakter nulla, vagy többszöri előfordulása | vo*lt | vlt; volt; voolt; ... |
? | Az ezt megelőző karakter nulla, vagy egyszeri előfordulása | vo?lt | vlt; volt |
+ | Az ezt megelőző karakter egy vagy többszöri előfordulása | vo+lt | volt; voolt; ... |
. | Bármilyen karakter állhat az adott helyen | b.n | bán; bún; bűn; ... |
| | Diszjunkció, vagylagosság | b(a|e)n | ban; ben |
() | A kifejezés egyes részeinek csoportosítása | (t.r)?b(á|ű)n | bán; bűn; turbán; torbűn stb. |
[] | Karaktercsoportok megadása. Ezen belül a többi speciális jelentésű karakter is saját magát jelenti | b[ae]n | ban; ben |
\ | Speciális jelentésű karakterek feloldása | \. | . (tehát a "." itt nem bármilyen karakterre, hanem csak önmagára illeszkedik) |
^ | A karaktercsoportban felsorolt ezt követő karakter kizárása. | b[^i]ka | béka; baka;... (tehát minden olyan szó, ahol nem i szerepel a megadott karakterek között a második helyen) |
A keresőfelületen beírt kifejezések értelmezése a PCRE reguláris kifejezések megszokott használatától az alábbiakban tér el:
A lekérdezés során nem csak egy szót írhatunk le, hanem több szóból álló kifejezéseket is, amennyiben az egyes szavakra vonatkozó keresőkifejezést szóközzel elválasztva adjuk meg. Néhány, reguláris kifejezések használatával leírt példa:
Kereső kifejezés | Jelentés | Lehetséges illeszkedés |
---|---|---|
Kétszavas kifejezés, a két szó ilyen formában, egymás után való megjelenésére illeszkedik | egyszer volt |
A keresés a fenti példákban az alapértelmezett beállításnak megfelelően a szövegek normalizált alakjában történik. Lehetőség van azonban az eredeti alakban, a szótőben és a morfoszintaktikai annotációban való keresésre is.
Az eredeti alakban való kereséshez a kifejezés elejére az
Amennyiben több szóból áll a kifejezés, akkor minden szó elején felül kell bírálni azt, hogy alapesetben a normalizált alakokban keressen. Ezt meg lehet adni szavanként (az
Az eredeti alakban való keresésnek megfelelő szabályok szerint, az
Az eredeti alakban való keresésnek megfelelő szabályok szerint, az
Szófajcímke-makró | Jelentés |
---|---|
NAQ | névszó jellegű szó: főnév, melléknév, számnév, határozószó, egyeztetett deiktikus determináns, névszói kategóriájú névmás vagy igenév |
Vfin | finit (ragozott) igealak (nem infinitívusz vagy határozói igenév) |
VfinAdv | finit (ragozott) igealak vagy határozói igenév (nem infinitívusz) |
Nom | nominatívusz (testes esetragot nem tartalmazó névszó): ez azért különleges eset, mert Nom címke egyébként nincs az annotációban |
Egy szóra annak egyszerre több tulajdonságára (eredeti alak, normalizált alak, szótő, elemzés) vonatkozó megszorításokat is leírhatunk egy kifejezéssel. Ebben az esetben a különböző tulajdonságokra való megszorításokat a
A keresendő kifejezés hatóköre alapvetően egy tagmondat. Tehát amennyiben több szót tartalmazó keresőkifejezést adunk meg, akkor az eredményben azok a mondatok jelennek meg találatként, ahol a keresett kifejezés minden tagja ugyanabban a tagmondatban van. Lehetséges azonban a keresés hatókörének felülírása is. Ennek azonban elsősorban akkor van jelentősége, ha nem csak egymás mellett előforduló szavakra keresünk. Az illeszteni kívánt szavak közötti több szó megengedését a
Ennek a távolságnak az egész mondatra való kiterjesztéséhez a keresendő kifejezés hatókörét paraméterezett zárójelezéssel adhatjuk meg a következő módon:
A Szerkesztő ∇ gomb megnyomásával kinyitható kifejezésszerkesztő a keresésben szereplő egyes szavakra vonatkozó megszorítások megfogalmazását könnyíti meg. Az eredeti (O) és a normalizált (N) alakra, illetve a lemmára (L) vonatkozó megszorítások itt egy-egy külön dobozban adhatók meg a korábbiakban leírt reguláris kifejezések formájában. Az egyes mezőkbe írandó tartalom jellegére rövid példák emlékeztetnek az egyes dobozokban: eredeti (pl. aszt, *czé*, *ttya), normalizált (pl. azt, *cé*, *tja), szótő (pl. az, *cé*, *lát). Az egyes mezők előtt álló kapcsolókkal negálhatjuk az adott megszorítást: ilyenkor azok a szavak lesznek a találatok, amelyekre nem illeszkedik az adott kifejezés.
A szófajra (C) vonatkozó megszorítások megfogalmazására szolgáló legördülő menüből első körben a fő szófajt kell kiválasztani. Ennek tartalma alapesetben: szófaj: tetsz. (tetszőleges szófaj). Az első szinten választható fő szófajok: névszó jellegű ...; névelő; névutó; ige/inf/hat. igenév ...; igekötő; kötőszó; indulatszó/mondatszó; elöljárószó; is. A névszói csoport fejével számban és esetben egyeztetett mutató névmási determinánsok – bár névelő jellegűek – nem a névelő, hanem a névszó jellegű főkategória alatt szerepelnek. Ugyancsak itt szerepelnek a névszói ragozású, illetve jelzői szerepben megjelenő igenevek.
A névszó jellegű, illetve az ige/inf/hat. igenév fő szófajkategóriát választva új, az adott szófajcsoportra jellemző morfológiai jegyek kiválasztását lehetővé tevő mezők jelennek meg, illetve ezek egyes elemeinél az alapesetben ott álló tetszőleges értéket megengedő beállítástól különböző érték kiválasztása dinamikusan újabb mezők megjelenését válthatja ki (pl. ha kiválasztjuk, hogy van birtokos végződés, ennek számára és/vagy személyére a megjelenő lenyíló dobozokban megszorítást tehetünk). Az egyes mezők tartalmának kitöltésével, illetve kiválasztásával a szerkesztő alján szereplő mezőben dinamikusan felépül az adott szóra vonatkozó megszorításokat leíró kifejezés, amelyet a Hozzáad a lekérdezéshez gomb megnyomásával adhatunk hozzá a Lekérdezés mező tartalmához. A Törlés gomb megnyomására törlődik a Lekérdezés mező tartalma, és alaphelyzetbe áll a keresőkifejezés-szerkesztő is.
A szófajfüggő, alapvetően inflexiós jellegű morfológiai jegyek mellett (ideértve most tágabb értelemben az igenévképzőket is) bizonyos képzőket tartalmazó szóalakokra vonatkozó keresések összeállítására egy külön legördülő mező ad lehetőséget, melynek segítségével az alábbi képzők közül választhatunk: -beli; -AdikA; -An, -Ul, -t (hogyan?); -An (hányan?); -szOr; -Odik v. -Od (sorszámnév); -(V)tta.
Az alábbi példa a -ba/be alakban írt inesszívusz ragos névszói alakokat tartalmazó adatok lekérésére hivatott lekérdezés (N~*'@C~NAQ.*\.Ine) összeállítását mutatja (a normalizált alak '-ra végződik, a fő szófaj névszó (főnév, melléknév, számnév, egyeztetett deiktikus determináns, illetve ilyen kategóriájú névmás, határozószó vagy igenév: a különleges NAQ szófajkód ezt a szófajcsoportot lefedő ún. makró), az esetrag inesszívusz).
A fenti szabályok tetszőlegesen kombinálhatóak, az alábbi táblázat néhány ilyen összetett keresésre mutat példát.
Kereső kifejezés | Jelentés | Lehetséges illeszkedés |
---|---|---|
A szófajcímke alapján szerepeljen a mondatban egy ragozott ige, utána pedig a tagmondaton belül egy igekötő. | ... hogy nem mas, hanem Bekéné rontotta volna meg | |
A szófajcímke alapján szerepeljen a mondatban egy ragozatlan melléknév, számnév, majd egy (opcionálisan ragozott) főnév. | mint az előtte való két tanú. | |
Ragozatlan melléknév, számnév, majd egy (opcionálisan ragozott) főnév. A melléknév normalizát alakja ne való vagy levő legyen. | Azon csanádi két asszony azt is mondta ... | |
A tagmondat végén determináns. | Remélhetőleg nincs találat. | |
A tagmondat névutóval kezdődik. | Remélhetőleg nincs találat. | |
Determinánst finit (személyragozott) igealak követ. | Remélhetőleg nincs találat. | |
Nincs finit ige vagy határozói igenév a tagmondatban, de van benne befejezett melléknévi igenév. | ... ki is édesfia megírt Balogh Ilonának. | |
Két finit ige egy tagmondatban. | a Kegyelmedén elmehettem és viszajöhettem volna | |
Két finit ige egy tagmondatban, köztük csak olyan szavak lehetnek, amik nem kötőszók. | ... a többit összetörte, rontotta úgy, ... | |
U. a., mint az előző, de fókusz csak az igéken, az első ige végén nem lehet vessző | hogy beadná a tekintetes magisztrátusnak beadja. | |
Elváló igekötő. | Vallja meg a fatens ... | |
Vonatkozó névmás a tagmondat belsejében, nem kötőszó mögött: | ebben az esztendőben amit hallott | |
Birtokos tárgy van a mondatban. | ... a fatens feleségét ... | |
Indefinit finit igealak (van benne V. és S1...P3, nincs benne Def), figyelem, rengeteg találat jön ki, ezt a keresést inkább ne indítsa el | kért a fatens ... | |
[ F:*V\.(?=.*[SP]\d)(?!.*Def)* .. F:*Px.*Acc or F:*Px.*Acc .. F:*V\.(?=.*[SP]\d)(?!.*Def)* ] |
Birtokos tárgy mellett indefinit finit igealak. Ezek mellett határozói igenév vagy infinitívusz nem lehet a tagmondatban. Fókusz az igén és a tárgyon. | kért a fatens feleségét ... |