Навіщо потрібен національний корпус

Як розвивається Національний корпус?

Національний корпус української мови охоплює перш за все період від середини XVIII до початку XXI століття: цей період представляє як мову попередніх епох, так і сучасний, в різних соціолінгвістичних варіантах - літературному, розмовному, просторічному, почасти диалектном. У корпус включаються оригінальні (непереказні) твори художньої літератури (проза і драматургія, в подальшому також поезія), що мають культурну значимість, а також представляють інтерес з точки зору мови. Але Національний корпус ні в якій мірі не є тільки корпусом мови художньої літератури. Крім художніх текстів, в корпус у великій кількості включаються і інші зразки письмового (а для сучасного етапу - і усного) мови: мемуари, есеїстика, публіцистика, науково-популярна та наукова література, публічні виступи, приватне листування, щоденники, документи і т. п.

Національний корпус української мови в даний час включає наступні подкорпуса:

глибоко анотований корпус. в якому для кожної пропозиції побудована повна морфологічна і синтаксична структура (дерево залежностей);

паралельний російсько-англійський корпус текстів. в якому можна знайти все переклади для певного українського або англійського слова або словосполучення;

корпус діалектних текстів. що включає запис діалектної мови різних регіоновУкаіни зі збереженням їх граматичної специфіки; передбачений спеціальний пошук з урахуванням діалектної морфології;

корпус поетичних текстів. в якому можливий пошук не тільки по лексичним і граматичним, а й за специфічними для вірша ознаками (пошук певного поєднання в сонетах, в епіграмах, в віршах, написаних амфібрахієм, з певним типом римування і т. п.);

навчальний корпус української мови - корпус зі знятою омонімією, розмітка якого орієнтована на шкільну програму української мови;

Кожному слову і кожного тексту в Корпусі приписана лінгвістична анотація на основі спеціального стандарту, розробленого за участю провідних українських фахівців.

На думку члена-кореспондента РАН А.М. Молдована, директора Інституту української мови ім. В. В. Виноградова РАН, «створення Національного корпусу української мови є завданням воістину національного значення, оскільки більшість великих мов світу вже мають у своєму розпорядженні своїми національними корпусами текстів. Вирішення цього завдання заповнює лакуну у вітчизняному мовознавстві і переводить вивчення і викладання української мови в якісно нові умови. Без перебільшення можна сказати, що з появою Корпуси ми вперше отримуємо матеріальну базу для об'єктивних і достовірних суджень про сучасний стан та шляхи розвитку української мови ».

Корпус призначений для всіх, хто цікавиться питаннями, пов'язаними з українською мовою: професійних лінгвістів, викладачів мови, школярів і студентів, іноземців, які вивчають українську мову.

«Ми із задоволенням прийняли участь в цьому проекті, - каже Ілля Сегалович, технічний директор Яндекса. - Граматичні анотований корпус є не тільки спосіб вивчення мови, а й важливий загальнодоступний інструмент для створення і налаштування програмних засобів, що працюють з українськими текстами ».

Розміщений на даному сайті Національний корпус української літературної мови задуманий як універсальний інструмент, що забезпечує більш ефективну роботу всіх, хто пов'язаний з родом своєї діяльності з сучасною українською літературною мовою або просто цікавиться станом і функціонуванням цієї мови. Корпус має влитися в сім'ю вже існуючих національних корпусів інших мов - таких, як British National Corpus, National American Corpus, Tresor de la langue francaise і ін.

Корпус мови - це зібрання певним чином відібраних (з опорою на філологічну експертизу) текстів цією мовою, які введені в комп'ютер і зберігаються в електронному вигляді, придатні для пошуку в них лексичних, граматичних, стилістичних одиниць і явищ, що цікавлять користувача.

Національний корпус - це корпус, який забезпечує максимально повне відображення лексики і граматики мови. Справжній Національний корпус української літературної мови відображає вживання слів, словоформ, граматичних конструкцій, словосполучень української літературної мови, починаючи з середини 20 ст. і до теперішнього часу. Повнота корпусу досягається тоді, коли відсутність в ньому слова, словоформи, граматичної конструкції, більш-менш стійкого словосполучення означає, що ці одиниці або явища:

є помилкою, ненормативних вживанням;

є анахронізмом, явно застарілим слововживання;

не є асимільованим (тобто ще не ввійшли в українську мову)

Цілі і завдання Корпуси:

служити надійним джерелом фактичного матеріалу для складання словників, граматик, підручників, довідкових посібників;

забезпечувати можливість перевірки лінгвістичних гіпотез на максимально представницькому матеріалі;

виконувати функції довідкового посібника для з'ясування питань про сучасній російській літературній слововживанні, тобто служити ефективним помічником для всіх, що працюють зі словом (лінгвісти, літературознавці, журналісти, письменники, перекладачі, викладачі української мови та ін.);

служити базою для комп'ютерного моделювання мовної діяльності.

Пошук в Національному корпусі української літературної мови забезпечується спеціальною програмою, яка дає можливість:

виявити будь-який заданий слово (словоформу) у всіх або спеціально обумовлених текстах;

при необхідності дати статистику вживання слова (словоформи) взагалі або в певних текстах, контекстах і т.д .;

встановлювати конкорданси - слова і словосполучення, що вживаються спільно з заданим словом (словоформи, словосполученням);

з'ясовувати будь-які статистичні характеристики лексики і граматики мови (наприклад, встановлювати, скільки разів в текстах Льва Толстого, які увійшли до складу Корпусу, зустрічається слово жінка в знахідному відмінку);

На базі Корпусу створений (частотний) словник словоформ української мови. Всі без винятку словоформи як Корпуси, так і словника забезпечені набором морфологічних дескрипторів, що створюють морфологічну розмітку словника і тексту.

Морфологічний дескриптор - це посліду при словоформи тексту або словника, яка вказує на відповідну граматичну (морфологічну) характеристику словоформи, наприклад, sg. тобто "однина". Все морфологічні дескриптори мають вигляд 2-4-буквених скорочень, вироблених від відповідних термінів англійської мови. Для словоформ, що належать до даної частини мови, набір дескрипторів, які використовуються для характеристики словоформи, являє собою безліч постійного складу. Наприклад, хоча дієслова в теперішньому / майбутньому часі не володіють формою роду, при них ставиться посліду «0» у відповідній позиції описателя, а для дієслів в минулому часі "0" ставиться в позиції послід «обличчя». Послідовність вживання символів, відповідних дескрипторів, також завжди одна і та ж. Якщо дескриптор не сумісний з даної словоформи, його позиція в лінійному списку дескрипторів заміщається «нулем».

Морфологічна розмітка являє собою приписування кожному слову (кожної словоформи) як в словнику, так і в тексті набору морфологічних дескрипторів. Морфологічно ідентичні словоформи володіють ідентичними наборами морфологічних дескрипторів. У перспективі передбачається введення синтаксичного розмітки.

Синтаксична розмітка - це відображення синтаксичної структури пропозиції в текстах шляхом, наприклад, приписування кожній словоформи або словосполученню їх синтаксичної функції в термінах обраної синтаксичної теорії (наприклад, 1-й актант, 2-й актант і т.д. для іменних словоформ і конструкцій) .

Ранг частотності словоформи - це спеціальний індекс, який проставляється в словнику при кожній словоформи, вказуючи на частоту вживання даної словоформи в текстах Корпусу.

Національний корпус української літературної мови задуманий як представлений в електронній формі масив морфологічно анотованих текстів російською літературною мовою.

Наявність Національного корпусу літературної української мови - необхідна передумова для створення нової академічної граматики і академічного словника української мови, які послужили б базою для розробки сімейства граматик і словників різної орієнтації, в тому числі шкільних, а також самих різних посібників і довідників. Національний корпус української літературної мови може служити посібником для дослідників, що працюють в області граматики, лексикографії, прикладної лінгвістики, типології з включенням української мови як об'єкт дослідження. Корпус буде також цінним джерелом інформації для працівників ЗМІ та тих, чия професійна діяльність потребує «мовної підтримки».

Схожі статті