Český národní korpus – základní informace

 

Český národní korpus je název projektu, který je v historii české lingvistiky průlomem v pohledu na jazykové zkoumání. Popis jazyka zakládá na dosud největším objemu jazykových dat – řádově stamilionech slovních tvarů, jejichž výskyty může vyhodnotit pomocí různých matematických a statistických metod.

Co znamená slovo korpus? Původem je toto slovo z lat. corpus s významy

1. tělo, těleso, hmota

2. tělo, postava

3. uspořádané těleso, celek, kmen, soubor, sbor

V lingvistice ho užíváme ve výše uvedeném třetím významu jako ‚soubor dokladů autentického užití přirozeného jazyka‘, z angličtiny jsme přejali význam ‚

 rozsáhlý soubor elektronických textů, cíleně shromážděný jako referenční zdroj pro vědecké studium jazyka‘.

Ve světě se budují různé typy elektronických korpusů podle zaměření lingvistického zkoumání:

- jednojazyčné x vícejazyčné (paralelní)

- synchronní x diachronní x historické

- všeobecné x specializované

- psaného jazyka x mluveného jazyka

- tzv. learners‘ corpora

Projekt Českého národního korpusu doposud ze synchronních korpusů zahrnuje

- synchronní korpus psaných textů o rozsahu 100 mil. slovních tvarů SYN2000,

- korpus PUBLIC, který je s rozsahem 20 mil. slovních tvarů pětinou tohoto korpusu

- korpusy na CD ROM

            - korpus SYNEK, který je rozsahem 10 mil. slovních tvarů desetinou korpusu SYN2000

            - korpus LITERA s cca 3 mil. slovních tvarů sestavený pouze z literárních děl

korpusy mluveného jazyka

            - Pražský mluvený korpus (PMK) s cca 800 000 slovních tvarů

            - Brněnský mluvený korpus (BMK) s cca 600 000 slovních tvarů

V letošním roce vznikne nový stomilionový korpus SYN2005. Vedle synchronních korpusů se pracuje i na korpusu diachronním DIAKORP o rozsahu 0.5 mil. slovních tvarů.

            Zájemci o užívání korpusu získají na základě vyplněného prohlášení uživatelské jméno a heslo na přístup ke korpusům SYN2000, PMK, BMK, ORWELL (korpus Orwellova románu „1984“), a korpus FSC2000 - korpus vytvořený k „Frekvenčnímu slovníku češtiny“ (2004). Veškeré informace zájemce najde na internetových stránkách Ústavu českého národního korpusu http://ucnk.ff.cuni.cz.

Korpus je vzorkem skutečného užití jazyka, tj. distribuce textových typů,  hlavním kritériem je recepce neboli čtenost textů.

Největším reprezentativním korpusem současné češtiny je korpus SYN2000 – obsahuje 60% textů publicistických, 25% textů odborných a 15% beletrie. V tomto korpusu lze vyhledávat jazykové doklady pomocí korpusového manažeru Bonito. Pro práci s tímto programem je třeba se seznámit s následujícími pojmy:

konkordance = bezprostřední kontext hledané lexikální jednotky, jeden řádek v seznamu konkordancí

lemma = slovo v základním tvaru, které je přiřazeno všem jeho dílčím tvarům, např. kočka, kočky, kočce… = kočka

tag = značka, která je přidávána ke slovnímu tvaru a charakterizuje slovo gramaticky a stylisticky

V korpusu SYN2000 lze vyhledávat

- jeden slovní tvar, např. díky

Příklad z korpusu:       

Tato kniha povídek mohla vyjít jen <díky> pochopení sponzorů.

 -

více slovních tvarů, např. k mání

Příklad z korpusu:        …

 

stínítko toho druhu, které si přál, prostě nebylo <k mání>.

- lemma, např. [lemma=„zájem"]

 

 

Příklady z korpusu:      Mám <zájem> jen o prvotřídní zboží.

Ostražitost a zodpovědnost v <zájmu> ještě otevřenější vlády.

- slovní druh, např. adjektivum, [tag="A.*"]

motorku schovával u <lesního> dělníka ve stodole…

…Sanders letmo políbil <opálenou> tvář, kterou mu nastavila…

…parafrázovala secesi v kolekci <zadumaných> aktů. 

- kombinace slovního druhu a lemmatu, např.

[tag="A.*"] [lemma=„zájem"]

 

 Příklady z korpusu:     To je ovšem <profesionální zájem>, ne osobní.

                                   … jak si s <předstíraným zájmem> prohlíží vystavené zboží .

těžit z činností konaných ve <veřejném zájmu> . 

Možností vyhledávaní je však mnohem více, záleží na typu jazykového jevu, který chceme zkoumat.

            Jazyková data, která nám textový korpus poskytuje, jsou

a) typická, ukazují, co je centrální a co okrajové

b) aktuální, synchronní a věrná

c) neselektivní – neprocházejí žádným filtrem, např. excerptora

 

d) objektivní a relistická – odrážejí texty skutečně zapsané

e) dostatečná, tj. dostatečně rozsáhlá pro poznání a popis daného jevu.

Jazykové jevy lze na základě korpusu zkoumat a popisovat z hlediska

- frekvence, srov. např. frekvence některých slov v korpusu SYN2000

otec 20090x, matka 17987x,

nůžky 935x, lopatka 756x

laškovat 38x. špásovat 8x

- spojitelnosti s jinými slovy (tj. kolokabilita slov), srov. např. spojitelnost slov lopatka a nůžky v korpusu SYN2000

 

vysedlá, rozváděcí, turbínová, rotující, zahradnická, oběžná lopatka

x  

plotové, cenzorské, pákové, zahradnické, tabulové, krejčovské nůžky

Je možné zkoumat oblast víceslovných jednotek, ať už frazeologie, např. zjišťovat, se kterými slovesy se objevuje kombinace slov na holičkách - nechat někoho na holičkách a zůstat na holičkách, nebo terminologie, např. udělat si seznam nejfrekventovaněji v jazyce citovaných kyselin – kyselina sírová 132x,

kyselina dusičná 68x,

kyselina močová 61x,

kyselina acetylsalicylová 50x,

kyselina listová 48x,

kyselina citronová 45x,

kyselina solná 40x atd.

Další možností je vyhledat jen část slova (lemmatu) a vytvořit si seznam odvozených slov, z nichž některá ještě nemusejí být zachycena v dosavadních českých slovnících, srov. např. odvozeniny od slovního základu nos-: nosáč, nosák, nosál, nosánek, nosatcovitý, nosatčík, nosatec, nosatý, nosejček, nosíček, nosík, nosní, nosočistoplena,

nosohltan, nosohltanový, nosohrtanový, nosolícní, nosoprška, nosoretní, nosorožčí, nosorožec, nosoroží, nosorožík,

nosově, nosovka, nosovost, nosový.

            Zanedbatelné nejsou ani výhody zkoumání slovesné valence, např. sloveso stydět se

např. stydět se

1) Hum (před Ihum) (za Aabstr)

 

Tehdy jsem se  před  nimi začala <stydět>  za relativní přepych…

 

2) Hum (před Ihum) (za Ahum)

 

<Styděl> jsem se před kamarádama za svého otce.

3) Inf.

 "Že se <nestydíte> říct něco takového!" vybuchl.

            V morfologii lze sledovat výskyt variant, a to jak v oblasti kolísání rodu, srov. např. substantivum rukojmí, spojení (kolokace) dva rukojmí se v korpusu SYN2000 vyskytuje 7x, dvě rukojmí 4x, tak v oblasti zařazení k deklinačním vzorům, srov. idejemi 102x, ideami 19x.

            Při výuce cizinců je možné zadávat nejrůznější úkoly založené na korpusu. Velmi osvědčeným úkolem je vynechání hledaného slova. Student češtiny je má zjistit na základě kontextů – srov. např.

Úkol 1

Poznáte, jaké zde bylo vynecháno slovo?

 

 

že Darryl hrál jako robot, na <..........> neohrabaně , za to bez chyby,

vypůjčit? Veronika si vyměnila <..........> s Percym. Můžete si je vzít ,

 na mě rádoby opravdu ustaraný <..........> . " Jak to, Dicku?" "To nebyly

 mě zprvu zoufale, potom její <..........> nabýval poznenáhlu výrazu překvapení

nedostala, jak by se ti na první <..........> zdálo, od nějaký pacientky,

zmíněných problémech. Zdůraznil, že <..........> na ekologii musí být komplexní

finále Turnaje mistrů . Pošlu mu <..........> k Vánocům, když mi slíbí, že

 Francie a Německo mají shodný <..........> na strategii, podobu vojenských

 pocitově, i když to na první <..........> vypadalo nesmyslně, vznikly ty

Jiří Winter - Neprakta: Úsměvný <..........> na historii - výstava kresleného

Další typ úkolu:

Úkol 2

 

Do  čeho všeho se dá vlastně investovat

a tedy jaký je vlastně dnešní význam tohoto slova?

 

 

 

 

 

 

 

 

 

Tento úkol předpokládá, že student bude pracovat s kontexty vyhledanými v korpusu SYN2000 a že k řešení dojde prostřednictvím nejfrekventovaněji se vyskytujících substantiv v okolí tohoto slovesa, kterými jsou rozvoj, technologie, modernizace, projekty, opravy, výstavba, výroba, rekonstrukce, vzdělání, obnova, stavba, zařízení, výzkum, infrastruktura, kampaň, reklama.

 

Inspirací může být rovněž nedávno vydaná příručka „Jak využívat Český národní korpus“ (viz níže).

 

Literatura:

Čermák, F.: Podstata valence z hlediska lexikologického, In: Walencja czasownika a problemy leksykografii dwujezycznej, ed. D. Rytel-Kuc, Wydawnictwo polskiej akademii nauk, Wroclaw-Warszawawa-Krakow, 1991, str. 15-40

Čermák, F.: Jazykový korpus, prostředek a zdroj poznání. In: Studie z korpusové lingvistiky, str. 15-38.

Čermák, F.: Informace, korpusy a lingvistika. In: Vesmír 80, 2001/1, str. 648

Čermák, F. et al.: Jak využívat Český národní korpus. NLN 2005

Čermák, F. – Kubíček, P.: Jazykový korpus a škola. In: Český jazyk a literatura, 48, 1997, str.84-92

Čermák, F. – Klímová, J. – Petkevič, V.(eds.): Studie z korpusové lingvistiky. Praha, Karolinum 2000

Čermák, F. – Křen, M. (eds.) Frekvenční slovník češtiny. Praha, NLN 2004

Český národní korpus. Příručka uživatele. Praha, ÚČNK 2000