Частотний словник - це

Частотний словник (або частотний список) - набір слів даної мови (або підмови) разом з інформацією про частоту їх зустрічальності. Словник може бути відсортований по частоті, по алфавіту (тоді для кожного слова буде вказана його частота), по групах слів (наприклад, перша тисяча найбільш частотних слів, за нею друга і т. П.), По типовості (слова, частотні для більшості текстів), і т. д. Частотні списки використовуються для викладання мови, створення нових словників, додатків комп'ютерної лінгвістики, досліджень в області лінгвістичної типології, і т. д.

Побудова частотних списків

Проблеми при створенні частотних списків полягають в:

Всі ці проблеми пов'язані з тим, що зі статистичної точки зору мова являє собою велику кількість рідкісних подій (Закон Ціпфа), в результаті чого невелику кількість слів зустрічається дуже часто, а переважна більшість слів мають дуже невисоку частоту. Частота слова і (самого частотного слова російської мови) приблизно в 10 разів вище частоти слова о. яке в свою чергу зустрічається в 100 разів частіше таких звичайних слів як подорож, старість або мода.

Для опису сплесків частоти можна використовувати метафору хоббіта (Адам Кілгарріфф спочатку використовував відносно рідкісне англійське слово whelk, вид морського молюска. Англ. Welk): якщо кілька текстів в корпусі про хоббітів, то це слово буде вживатися майже в кожному реченні. В результаті його частота в цих текстах буде порівнянна з частотою службових слів, а й в частотному списку великого корпусу, в який входять такі тексти, це слово буде мати неправдоподібно високий ранг. Такі сплески частоти можна оцінювати за допомогою коефіцієнта варіації. відносини стандартного відхилення до середньої частоті.

порівняння корпусів

Частотні словники забезпечують можливість порівняти два корпуси, щоб визначити слова, найбільш характерні для кожного з них. У зв'язку з тим, що розміри корпусів можуть бути різні, більш надійна оцінка частоти слів грунтується на приведення їх до ЧМС (частота на мільйон словоформ, англ. Ipm, instances per million words). Слово і має частоту близько 30000 ЧМС, слово старість - близько 30.

Для визначення набору ключових слів, що відрізняють один корпус від іншого можна використовувати різні статистичні заходи: хі-квадрат. відношення правдоподібності (англ. Likelihood-ratio test) і т. п.

Дивитися що таке "Частотний словник" в інших словниках:

ЧАСТОТНИЙ СЛОВАРЬ - вид словника, в якому наводяться числові характеристики вживаності слів (словоформ, словосполучень) будь-якого мови, в т. Ч. Мови письменника, якого або твори і т. П. Зазвичай в якості характеристики вживаності ... ... Великий Енциклопедичний словник

Частотний словник - вид словника (Див. Словник) (зазвичай одномовного), в якому лексичні одиниці характеризуються з точки зору ступеня їх вживаності в сукупності текстів, представницьких або для мови в цілому, або для окремого ... ... Велика радянська енциклопедія

частотний словник - Rus: частотний словник Deu: Häufigkeitswörterbuch Eng: frequency vocabulary Мовний словник, що містить перелік слів, розташованих за ступенем їх вживання в мові. ГОСТ 7.60 [3.2.4.3.5.2.2.6] ... Словник з інформації, бібліотечної та видавничої справи

частотний словник - вид словника, в якому наводяться числові характеристики вживаності слів (словоформ, словосполучень) будь-якого мови, в тому числі мови письменника, будь-яких творів і т. п. Зазвичай в якості характеристики вживаності ... ... Енциклопедичний словник

частотний словник - 1. Конкретна вероятностно статистична модель досліджуваного под'язика на лексичному (або відповідно будь-якому іншому) рівні. 2. Модель істинного розподілу істинних ймовірностей (граматичних очікувань, частоти слів, граматичних форм і т ... Тлумачний перекладознавчий словник

частотний словник - см. словник лінгвістичний ... Словник лінгвістичних термінів

ЧАСТОТНИЙ СЛОВАРЬ - лінгвістичний словник, в якому відібрані найбільш уживані в мові слова (зазвичай в межах декількох тисяч). Слова зазвичай наводяться в двох списках: в порядку спадання частотності вживання і в алфавітному порядку, із зазначенням ... ... Професійна освіта. словник

Частотний словник як філософська картина світу - (frequency of words as a philosophical world picture) Частотний словник мови показує, які смисли і відносини найбільш необхідні людям для вираження думок і, отже, містить в собі систему логічних і епістемологічних ... ... Проективні філософський словник

Схожі статті