A TMK Történeti Magánéleti Korpusz
lekérdezőfelületének használata

Bevezetés

A középmagyar korpusz elkészítésekor a célkitűzés az élő nyelvhez sokkal közelebb álló források összeválogatása volt. Így ezt a korpuszt perszövegek – közöttük boszorkányperek jegyzőkönyvei – és misszilisek, azaz ténylegesen elküldött főúri és jobbágylevelek alkotják.

A korpuszokat alkotó szövegek eredetileg kéziratos formában maradtak fenn, azonban minden esetben nyomtatott szövegkiadásokból dolgoztunk. A szövegek nagy részének az esetében viszont nem állt rendelkezésre digitalizált szövegváltozat. Így az első feladat a szövegek digitalizálása volt, amelyet az esetek többségében OCR alkalmazásával végeztünk el. Az automatikusan felismertetett szövegben azonban így is számos hiba maradt, munkatársainknak tehát minden szöveget végig kellett olvasni. Az eredeti, kinyomtatott szöveget és a digitalizált változatot össze kellett hasonlítani és a beviteli hibákat kézzel javítani.

Normalizálás

A szövegek rendkívül változatos írásképe, az előforduló sokféle dialektus, illetve az átfogott hosszú időszak folyamán bekövetkezett nagymérvű nyelvtörténeti (elsősorban fonológiai) változások miatt az automatikus elemzés egyik feltétele a szövegek írásképi és fonológiai szempontból egységes formára hozása, azaz normalizálása volt. Ez nagyrészt kézzel történt, és a folyamat során a szövegeket tagmondatokra is bontottuk. A projektben nem volt célunk, hogy olyan elemzőt hozzunk létre, amely a korpuszt alkotó eredeti szövegek teljes fonológiai dialektális változatosságát kezeli. Így a normalizálás során az ilyen jellegű különbségeket – például az ö-zést – eltüntettük.

Fontos szempont volt azonban az, hogy morfémák a normalizálás folyamán ne tűnjenek el vagy alakuljanak át más morfémákká: például az elbeszélő múltban álló alakokat nem alakítottuk egyszerű múlt időkké stb. A morfémahűség helyes megvalósításához általában alaposan mérlegelnünk kellett az adott korszak ortográfiájának jellegzetességeit. Törekedtünk rá, hogy a korabeli helyesírás bizonytalanságaiból adódó inherens és ténylegesen feloldhatatlan többértelműségeket lehetőleg ne tüntessük el a normalizálás során.

Az egyik jellegzetes többértelműség a korai szövegek magánhangzóhosszúság-jelölésének hiányából, illetve bizonytalanságából és abból a tényből adódott, hogy a határozott tárgyas igeragozás használatának szabályszerűségei az adott időszakban részben különböztek attól, amit a szöveget normalizáló nyelvészek anyanyelvi intuíciója esetleg sugallna. A szövegek egy részében például egyértelműen megfigyelhető, hogy egyenes idézés esetén – ellentétben a mai köznyelvben szokásostól – a mond ige határozatlan ragozással is használatos volt.

Az elbeszélő múltban azonban a monda igealak ebben a helyzetben magánhangzóhosszúság-jelölésének bizonytalansága miatt éppoly kevéssé rekonstruálható módon utal az igeragozás határozott vagy határozatlan voltára (monda ~ mondá), mint a mondtam alak. A bizonytalanság forrása itt a rag magánhangzója hosszúságának bizonytalanságából fakad, amelyet a normalizált szövegben ilyen esetben a magánhangzó után írt ékezettel jelölünk.

Hasonlóan bizonytalan az igeragozás határozott volta abban az esetben, ha a tárgy birtokos szerkezet, de nincs definit determinánsa. Ebben az esetben a határozott vagy határozatlan igeragozás használata dialektusfüggő. (Az alábbi példákban a nyavalyáját determinánsa a szintén dialektusfüggő definitségű mely, a többi birtokos tárgy pedig determináns nélküli). A szöveget normalizáló vagy annotáló személy ilyenkor nem vetítheti a saját intuícióját az adott szövegre. Alább az első két példa agrammatikus, mert a birtokos szerkezet tárgy mellett mindenképp definit igeragozást használnánk. Azonban mivel tudjuk, hogy más dialektusokban ez nem feltétlenül van így, az elbeszélő múltat tartalmazó harmadik szerkezetet inherensen többértelműnek kell tartanunk, nem tudván, hogy melyik dialektusból származik.

Hasonló rendszeres többértelműségek jelentkeznek az elöl képzett tövek i-ző birto-kos alakjai esetében, ha egyéb rag is van a szó végén (pl. cselekedetinek). Ezekben az esetekben még a szövegkörnyezet alapján sem mindig lehet egyértelműen eldönteni, hogy egyes számú vagy többes számú alakról van szó (cselekedetének vs. cselekedeteinek). Ilyenkor a normalizálás során meghagyjuk az i-ző birtokos alakot, az elemzőt pedig képessé tettük arra, hogy ezeket a szóalakokat úgy is tudja elemezni hogy a számot bizonytalannak jelöli:

A -bAn/bA probléma

A normalizálás és a különösen a morfémahűség megítélése szempontjából speciális problémát jelentett a bAn, illetve bA ragos szóalakok kezelése. A korpusz szövegeinek vizsgálata egyértelműen azt jelzi, hogy a két ragnak a beszélt nyelvben jelenleg sem éles szétválása sok száz éve stabilan fennálló állapot (Németh 2008, [1]) (nevezetesen, hogy a bA változat szóban minden további nélkül használható a bAn funkciójában is, miközben az utóbbi változat is létezik és használatos), amely a leírt szövegekben általában meglehetősen zavaros képhez vezetett. A korpusz szövegei egyértelműen jelentősen különböznek abból a szempontból, hogy a feltételezhetően inesszívusz, illetve illatívusz funkciójú elemek jelölésére mennyire következetesen melyik ragalakot írták le. A bAn/ bA elemeket tartalmazó szóalakok ortográfiája szempontjából merőben különböző megoldásokat találunk a korpuszban, még két egymással apa–fia relációban álló személy (Nádasdy Tamás és Nádasdy Ferenc) esetében is (az előbbi szinte kizárólag a bA alakot, az utóbbi szinte kizárólag a –bAn-t használja minden funkcióban).

Azért, hogy biztosan ne essünk se abba a hibába, hogy egy merőben ortográfiai ügyet grammatikainak hiszünk, és így hibás elemzések tömkelegét állítjuk elő, se abba, hogy visszakövethetetlen módon mindent átírunk a saját kompetenciánknak megfelelő alakra, azt a megoldást választottuk, hogy a bAn/ bA elemeket tartalmazó szóalakok normalizálása során explicite jelöltük azokat az eseteket, ahol mindent a lehető leggondosabban mérlegelve úgy ítéltük, hogy a leírt alak nem felel meg a szándékolt grammatikai funkciónak, illetve az általunk használt ortográfiai normának, így a normalizált alak és az elemzés alapján visszakereshetők és kvantifikálhatók az egyes szövegek a bAn/ bA-jellemzői.

A keresőrendszer

A megjelenítés

A kereső lehetővé teszi, hogy mondaton, tagmondaton, vagy adott metaadatokkal megjelölt tulajdonságú szövegen belül keressünk, illetve akár több mondatos egységek is lekérdezhetők. A kereső által megjelenített találati egység a mondat. Az eredményül kapott mondatok soronként, tagmondatokra, illetve szavakra bontva jelennek meg. A tagmondatok határát piros pont, illetve nagyobb térköz jelzi, a szavak határát pedig az azokat határoló dobozok kerete. Ezekbe a keretekbe csoportosítva egymás alatt jelenik meg az eredeti szóalak, annak a normalizált változata, a normalizált alakból származtatott szótő, illetve a hozzá tartozó egyértelműsített morfológiai elemzés. Tehát egy szó reprezentációja:

eredeti alak normalizált alak szótő elemzés

A tagmondatok lehetnek folytonosak és nem folytonosak. Ez utóbbi az alárendelő szerkezetek esetén gyakran előfordul, de olykor a főmondat vagy egy mellérendelő szerkezet valamelyik eleme ékelődik be. Az alábbi példa olyan találati mondatot mutat be, amelyben több megszakított tagmondat is szerepel. A megszakított tagmondatot a szürke háttér, míg a beékelődött tagmondat határát a < és > jelek jelölik.

A lekérdezés során megfogalmazott kifejezésre illeszkedő, a találatot eredményező szó, illetve szavak félkövérrel jelennek meg a mondaton belül (fókusz). A fókusz a lekérdezésben tovább szűkíthető (l. alább).

A találati mondatok fölött a mondat azonosítója, illetve származási helyére és idejére vonatkozó metaadatok láthatók. A megjelenített adatok sorrendje: találat sorszáma, forrás kötetazonosítója, a köteten belüli azonosító, perek esetén a forrás származási helye, keletkezés ideje, leveleknél szerző, címzett, viszonyuk. A korpuszban elérhető és kereshető forrásokat lásd a hivatkozásoknál.

A lekérdező mezők

Az összetett keresésre alkalmas keresőfelület több mezőt tartalmaz.

  • Lekérdezés Itt fogalmazhatóak meg a keresési kritériumok. Ennek módját részletesen a következő fejezet írja le.
  • Megjegyzés A kereséshez megjegyzés fűzhető
  • Szövegjellemzők A találatok metaadatokkal való szűkítéséhez itt adható meg keresőkifejezés (fejlesztés alatt).

A lekérdezések megfogalmazása

A keresőrendszer által használt korpuszadatbázis az Emdros korpuszkezelőn alapul (Petersen 2004, [2]). A középmagyar korpusz lekérdezésére használható keresőben az Emdros eredeti lekérdezőszintaxisának (MQL) megfelelően megfogalmazott kérdések mellett egy az MQL-nél jóval tömörebb lekérdezőnyelv is használható. Az utóbbi formában megfogalmazott keresőkérdéseket a rendszer automatikusan MQL-re fordítja.

A keresőmezőben az egyes szavakra illeszkedő minták Perl Compatible Regular Expression (PCRE) formátumú reguláris kifejezések formájában adhatók meg (egy alább kifejtett eltéréssel a szokásos PCRE kifejezésektől). Ezek a reguláris kifejezések a konkrétan megjelenő felszíni karakterek mellett olyan szimbólumokat is tartalmazhatnak, melyek a keresendő mintázatokat írják le. Például, amennyiben minden olyan szóalakra szeretnénk keresni, amely a -bAn morféma bármely felszíni megjelenését tartalmazza, azt leírhatjuk az erre illeszkedő mintával, azaz: b[ae]n. Ebben az esetben a szögletes zárójelben felsorolt karakterek közül bármelyikre való illeszkedés találat lesz. A reguláris kifejezésekben használható legfontosabb szimbólumokat és azok használati módját az alábbi táblázat foglalja össze:

Szimbólum Jelentés Példa Lehetséges illeszkedések
* Az ezt megelőző karakter nulla, vagy többszöri előfordulása vo*lt vlt; volt; voolt; ...
? Az ezt megelőző karakter nulla, vagy egyszeri előfordulása vo?lt vlt; volt
+ Az ezt megelőző karakter egy vagy többszöri előfordulása vo+lt volt; voolt; ...
. Bármilyen karakter állhat az adott helyen b.n bán; bún; bűn; ...
| Diszjunkció, vagylagosság b(a|e)n ban; ben
() A kifejezés egyes részeinek csoportosítása b(a|e)n ban; ben
[] Karaktercsoportok megadása. Ezen belül a többi speciális jelentésű karakter is saját magát jelenti b[ae]n ban; ben
\ Speciális jelentésű karakterek feloldása \. . (tehát a "." itt nem bármilyen karakterre, hanem csak önmagára illeszkedik)
^ A karaktercsoportban felsorolt ezt követő karakter kizárása. b[^i]ka béka; baka;... (tehát minden olyan szó, ahol nem é szerepel a megadott karakterek között a második helyen)

A keresőfelületen beírt kifejezések értelmezése a PCRE reguláris kifejezések megszokott használatától az alábbiakban tér el:

  • A beírt kifejezés alapesetben automatikusan a szó egészére illeszkedik, tehát pl. fa kifejezés nem illeszkedik sem a tréfa, sem a fakír szavakra (ez a működés a ^fa$ PCRE kifejezésnek felel meg). A * karaktert a keresendő kifejezés elejére, illetve végére írva, az adott végen a szó széléhez illeszkedés követelménye megszűnik, így lehet tehát szórészletre keresni. Például a vol.* kifejezés rövidített alakja így vol*, a keresés eredménye pedig minden olyan szóalak, ami vol-lal kezdődik (volt, volna, stb.)
  • A szó elejére írt ^, illetve a végére írt $ szimbólum jelentése a szokásos reguláris kifejezésektől eltérően az, hogy az adott szónak az azt befoglaló tartomány (alapesetben tagmondat) első, illetve utolsó szavának kell lennie.
  • Az Emdrosban használt PCRE csomag sajátosságai miatt ékezetes betűk (pontosabban nem ASCII karakterek) karaktercsoportokban nem használhatóak, így ezeket csak a vagylagosságot kifejező | karakterrel elválasztva írhatjuk le. Tehát példul a -bÓl morfémára való illeszkedést a *b[óő]l alak helyett *b(ó|ő)l módon kell megadni.

A lekérdezés során nem csak egy szót írhatunk le, hanem több szóból álló kifejezéseket is, amennyiben az egyes szavakra vonatkozó keresőkifejezést szóközzel elválasztva adjuk meg. Néhány, reguláris kifejezések használatával leírt példa:

Kereső kifejezés Jelentés Lehetséges illeszkedés
egyszer volt Kétszavas kifejezés, a két szó ilyen formában, egymás után való megjelenésére illeszkedik egyszer volt

A keresés a fenti példákban az alapértelmezett beállításnak megfelelően a szövegek normalizált alakjában történik. Lehetőség van azonban az eredeti alakban, a szótőben és a morfoszintaktikai annotációban való keresésre is.

Az eredeti alakban való keresés

Az eredeti alakban való kereséshez a kifejezés elejére az O~ szimbólumokat kell megadni, ahol az O az "original", azaz eredeti alakot jelenti. Például az O~v(o|ó)l* lekérdezés esetén az összes olyan mondatot kapjuk eredményül, ahol annak eredeti alakjában vol vagy vól kezdetű szavak szerepelnek. Tehát a volt, vólt, volna, vólna alakok.

Amennyiben több szóból áll a kifejezés, akkor minden szó elején felül kell bírálni azt, hogy alapesetben a normalizált alakokban keressen. Ezt meg lehet adni szavanként (az O~ szimbólummal), vagy a kifejezésen belül bárhol át lehet állítani alapértelmezetté, az O~~ szimbólumokkal. Tehát az O~~nem v(o|ó)l* kifejezés mindkét szó illeszkedését az eredeti szövegben keresi, míg ha csak az első szóra állítanánk át az eredeti alakban való keresést a O~nem v(o|ó)l* kifejezéssel, akkor a második szót már a normalizált alakok között keresné.

Szótőben való keresés

Az eredeti alakban való keresésnek megfelelő szabályok szerint, az O~ és O~~ helyett az L~ és L~~ (lemma) szimbólum használatával.

A morfoszintaktikai címkében való keresés

Az eredeti alakban való keresésnek megfelelő szabályok szerint, az O~ és O~~ helyett az C~ és C~~ (category label/címke) szimbólum használatával. A kategóriák jelöléséhez használt rövidítéseket a morfoszintaktikai címkék jegyzéke tartalmazza.

A morfoszintaktikai címkék jegyzéke

Szófajcímkék
Adjmelléknév
Adj|colszínnév
Adj|natnép/nyelvnév
Adj|Ordsorszámnév
Adj|Promelléknévi névmás
Advhatározószó
Adv|(Abl) Adv|(Ins) Adv|(Sup) ...Abl, Ins, Sup stb. vonzatú határozószó (tkp. vonzatos névutó), pl. -tÓl fogva, -vAl együtt, -n kívül
Adv|Prohatározószói névmás
Ckötőszó
Clit_isaz is elem (bármely funkciójában)
Detdetermináns
Det|Pronévmási determináns, pl. azt a kutyát szerkezetben ragozva is
Inj/Uttindulatszó/mondatszó
Nfőnév
N|matanyagnév
N|Pronévszói csoport kategóriájú névmás
N|Pro|(PP)névutó előtt álló mutató névmás (pl. a mellett)
PPnévutó
Prepelöljárószó (pl. mint képviselő)
Qkvantor/számnév
Romanrómai szám
Vige
VPfxigekötő
…|Pro|Relvonatkozó névmás
…|Pro|Intkérdő névmás
Partikulák
QPtl kérdőpartikula (-e)
Makrók (címkecsoportra illeszkednek)
Vfin finit igealak
VfinAdv finit igealak v. hat. igenév
Nom nominatívuszban álló névszó
Igei inflexió
Abil -hAtÓ
Cond feltételes mód
Def definit (határozott tárgyas) alak
Def? kérdéses definitségű alak (láta~látá, láttam)
Fact faktitív (műveltető) -At/-tAt
Fut jövő idő (-And)
Inf infinitivus
Ipf elbeszélő múlt (-A)
Mod modális (-hAt)
Obj2 második személyű tárgy (-lAk)
P1 többes szám első személy
P2 többes szám második személy
P3 többes szám harmadik személy
Past múlt idő
S1 egyes szám első személy
S2 egyes szám második személy
S3 egyes szám harmadik személy
Subj kötőmód/felszólító mód
PartAdv határozói igenév (-vA)
PartAdv=AttA határozói igenév (-AttA), pl. fekette
PartAdv=vÁn befejezett határozói igenév (-vÁn)
PartAdv=vÁst határozói igenév (-vÁst) pl. sietvést
_PartAdv=ttOn határozói igenév (-ttOn) pl. nőttön nőtt
PartFut “beálló” melléknév igenév (-AndÓ)
PartPrf befejezett melléknév igenév (-tt)
PartPrs folyamatos melléknév igenév (-Ó)
Pass passzív (szenvedő) (-Atik, -tAtik)
Past múlt idő (-t)
_Nact=tA (alanyegyeztetett) nomen actionis (-tA), e.g. estemben
Névszói inflexió
Abl ablativus (-tÓl)
Acc accusativus (-Vt)
Ade adessivus (-nÁl)
_Adj_beli -beli melléknévképző
All allativus (-hOz)
APos anaforikus birtokjel (-é)
Cau causalis (-ért)
Cmp középfok (felsőfokban is része az annotációnak, a -bb végződés jele)
Dat dativus (-nAk), birtokos szerkezetekben is
Datum -AdikA
Del delativus (-rÓl)
Ela elativus (-bÓl)
Ess essivus (-Ul)
Essmod essivus modalis (-An, -Ul stb.)
Essmod=t essivus modalis -t pl. bizonyost
Essnum essivus modalis (-An) számneveknél
Fac transzlativus/faktivus (-vÁ)
Fam familiaris többes szám (-ék)
For formalis (-ként)
For_kepp, For_keppen -képp(en) formalis
Ill illativus (-bA)
Ine inessivus (-bAn)
Inl -t helyhat.rag és változatai (Kolozsvárt, -ott stb.)
Ins instrumentalis (-vAl)
Mul multiplikatív (-szOr)
Ord sorszámnévképző (-Odik)
Ord=Vd sorszámnévképző -Od változata
P1–3 többes szám 1–3. személy (személyes névmások és ragozott/névutós alakjaik száma/személye)
Pl többes szám (többes számú birtok is)
Pl? kérdéses többes számú birtok (i-s birtokos alakok)
=i az i-ző birotokos alakokban (pl. lányit PxP3.Pl=i, fejivel PxS3=i)
PxP1–3 többes szám 1–3. személyű birtokos
PxS1–3 egyes szám 1–3. személyű birtokos
S1–3 egyes szám 1–3. személy (személyes névmások és ragozott/névutós alakjaik száma/személye, ill. a visszható névmáséi)
Soc sociativus (-stUl)
Sub sublativus (-rA)
Sup superessivus (-On)
Supl felsőfok (a leg- jele)
Tem temporalis (-kor(on))
Tem=koron temporalis, a -koron változat
Ter terminativus (-ig)
Ter=iglAn terminativus, az -iglAn változat
Tmp_ante temp. anterior, 20 esztendeje, 3 napja stb.
Tmp_inl spec. időhatározói alakok: este, reggel, éjjel, ősszel, másnap, ma, holnap, tegnap, tavaly -- (be/ki/vissza…)jövet, (be/ki…)menet stb.

Összetett keresés

Egy szóra annak egyszerre több tulajdonságára (eredeti alak, normalizált alak, szótő, elemzés) vonatkozó megszorításokat is leírhatunk egy kifejezéssel. Ebben az esetben a különböző tulajdonságokra való megszorításokat a @ szimbólummal kell elválasztani. Az előző példát folytatva, Ha a volt, vólt, volna, vólna eredeti előfordulásai közül csak azokra vagyunk kíváncsiak, ahol ezek szófaji kategóriája nem ige, akkor ezt a következő kifejezéssel írhatjuk le: O~v(o|ó)l*@C!~V*. Ennek jelentése tehát az eredeti szövegben található vol, vól kezdetű szavak, melyek kategóriacímkéje nem V-vel kezdődik, tehát nem igei szófajt jelöl.

A keresendő kifejezés hatóköre

A keresendő kifejezés hatóköre alapvetően egy tagmondat. Tehát amennyiben több szót tartalmazó keresőkifejezést adunk meg, akkor az eredményben azok a mondatok jelennek meg találatként, ahol a keresett kifejezés minden tagja ugyanabban a tagmondatban van. Lehetséges azonban a keresés hatókörének felülírása is. Ennek azonban elsősorban akkor van jelentősége, ha nem csak egymás mellett előforduló szavakra keresünk. Az illeszteni kívánt szavak közötti több szó megengedését a  ..  szimbólumokkal adhatjuk meg. Tehát olyan mondatok keresésére, melyben a volt, vólt, volna, vólna szavak után valahol az is szó előfordulását is garantálni szeretnénk az eredeti alakban, így írhatjuk le a keresőkifejezést: O~~v(o|ó)l* .. is. Ennek eredményeképpen az is szó nem kell, hogy közvetlenül kövesse a volt, vólt, volna, vólna adott előfordulását, hanem az adott tagmondaton belül akárhány szó távolságra lehet attól.

Ennek a távolságnak az egész mondatra való kiterjesztéséhez a keresendő kifejezés hatókörét paraméterezett zárójelezéssel adhatjuk meg a következő módon: [s O~~v(o|ó)l* .. is ] . Ebben az esetben az is a mondatban bárhol követheti a volt, vólt, volna, vólna előfordulását. Hasonlóan bekezdésre is kiterjeszthető a keresés, ebben az esetben a zárójel paramétere p, tehát a keresőkifejezés [p O~~v(o|ó)l* .. is ] alakban írható le.

Példák

A fenti szabályok tetszőlegesen kombinálhatóak, az alábbi táblázat néhány ilyen összetett keresésre mutat példát.

Kereső kifejezés Jelentés Lehetséges illeszkedés
C~~Vfin .. VPfx A szófajcímke alapján szerepeljen a mondatban egy ragozott ige, utána pedig a tagmondaton belül egy igekötő. ... hogy nem mas, hanem Bekéné rontotta volna meg
C~~Adj Q N* A szófajcímke alapján szerepeljen a mondatban egy ragozatlan melléknév, számnév, majd egy (opcionálisan ragozott) főnév. mint az előtte való két tanú.
!(való|levő)@C~~Adj Q N* Ragozatlan melléknév, számnév, majd egy (opcionálisan ragozott) főnév. A melléknév normalizát alakja ne való vagy levő legyen. Azon csanádi két asszony azt is mondta ...
C~Det*$ A tagmondat végén determináns. Remélhetőleg nincs találat.
^C~PP A tagmondat névutóval kezdődik. Remélhetőleg nincs találat.
C~~Det* Vfin Determinánst finit (személyragozott) igealak követ. Remélhetőleg nincs találat.
notexist C~~VfinAdv *PartPrf* Nincs finit ige vagy határozói igenév a tagmondatban, de van benne befejezett melléknévi igenév. ... ki is édesfia megírt Balogh Ilonának.
C~~Vfin .. Vfin Két finit ige egy tagmondatban. azonnal a fatens észrevette s érezte...
C~~Vfin !C*{0-} Vfin Két finit ige egy tagmondatban, köztük csak olyan szavak lehetnek, amik nem kötőszók. ... a többit összetörte, rontotta úgy, ...
F:!*,@C~~Vfin !C*{0-} F:Vfin U. a., mint az előző, de fókusz csak az igéken, az első ige végén nem lehet vessző hogy beadná a tekintetes magisztrátusnak beadja.
C~~Vpfx .. Vfin or Vfin .. VPfx Elváló igekötő. Vallja meg a fatens ...
C!~~C *Rel* Vonatkozó névmás a tagmondat besejében, nem kötőszó mögött: ebben az esztendőben amit hallott
*Px.*Acc Birtokos tárgy van a mondatban. ... a fatens feleségét ...
*V\.(?=.*[SP]\d)(?!.*Def)* Indefinit finit igealak (van benne V. és S1...P3, nincs benne Def), figyelem, rengeteg találat jön ki, ezt a keresést inkább ne indítsa el kért a fatens ...
notexist C~~*(?:PartAdv|Inf)*
[ F:*V\.(?=.*[SP]\d)(?!.*Def)* .. F:*Px.*Acc
or F:*Px.*Acc .. F:*V\.(?=.*[SP]\d)(?!.*Def)* ]
Birtokos tárgy mellett indefinit finit igealak. Ezek mellett határozói igenév vagy infinitívusz nem lehet a tagmondatban. Fókusz az igén és a tárgyon. kért a fatens feleségét ...

További lehetőségek

Hivatkozások

  1. Németh Miklós. Nyelvi változás és váltakozás a műveltségi tényezők tükrében. Nyelvi változók a XVIII. században. Szegedi Tudományegyetem. Szeged. 2008.
  2. Petersen, Ulrik. "Emdros – A Text Database Engine for Analyzed or Annotated Text". In: ACL, COLING 2004 Geneva, 20th International Conference on Computational Linguistics, August 23rd to 27th, 2004. Volume II. Proceedings, pp. 1190–1193, 2004

A korpuszban található gyűjtemények

Rövidítés Gyűjtemény
Bosz. Schram Ferenc kiad.: Magyarországi boszorkányperek I–II. 1529–1768. Akadémiai Kiadó, Budapest, 1970.
Peregr. Hoffmann Gizella szerk.: Peregrinuslevelek 1711–1750. Külföldön tanuló diákok levelei Teleki Sándornak. József Attila Tudományegyetem, Szeged, 1980.
Nád. Károlyi Árpád és Szalay József szerk.: Nádasdy Tamás nádor családi levelezése. Akadémiai Kiadó, Budapest, 1882.
LobkPopp. Kincses Katalin kiad.: „Im küttem én orvosságot”. Lobkowitz Poppel Éva levelezése 1622–1640. ELTE Középkori és Koraújkori Tanszék, Budapest, 1993.
Tel. Eckhardt Sándor: Két vitéz nemes úr. Telegdy Pál és János levelezése a XVI. század végéről. Királyi Magyar Pázmány Péter Tudományegyetem, Budapest, 1944.
Kár. Kovács Ágnes szerk. / Csobó Péter [et al.] közread.: Károlyi Sándor levelei feleségéhez, 1704–1724. Kossuth Lajos Tudományegyetem, Debrecen, 1994.
JLev. Szabó T. Attila kiadásai: Jobbágylevelek. Magyar Nyelv, 32., 50–53. évf. (passim)
Zr. Iványi Béla kiad.: A két Zrínyi Miklós körmendi levelei. Királyi Magyar Pázmány Péter Tudományegyetem, Budapest, 1943.