НОВОСТИ

Создана программа, отслеживающая изменения в употреблении слов

Ученые Мурманского арктического университета (МАУ) создали компьютерную программу, позволяющую отслеживать устаревание и появление новых слов в языке. Благодаря предложенной методике выяснилось, что доля часто используемых слов в современном русском языке возрастает, а приток новых слов сокращается.

Раньше лингвисты выявляли новые и устаревшие слова, вручную перебирая «тонны» текстов в газетах, книгах или интернете. Этот процесс был крайне трудоемким, субъективным и не позволял работать с действительно большими данными. Новый метод, запатентованный мурманскими учеными, позволяет создать своего рода «цифровое сито»: программа просеивает гигантские массивы текстов, автоматически подсчитывая, как меняется частота употребления каждого слова с течением времени.

Алгоритм не просто находит слова, а лемматизирует их (приводит к начальной форме, например, «бежал», «бежит», «бежать» → «бежать»), подсчитывает все словоформы и сравнивает частоту употребления каждой леммы между периодами.

Метод уже успешно апробировали на уникальном материале — диахронических (разновременных) корпусах Национального корпуса русского языка (НКРЯ) общим объемом более 250 миллионов слов. Программа проанализировала три ключевых периода: досоветский (1700–1916 гг.), советский (1918–1991 гг.) и постсоветский (1992–2016 гг.).

Результат — наглядные таблицы, где видно, популярность каких слов взлетела на тысячи процентов, а какие постепенно сходят на нет. Так, например, такие слова, как псевдогаллюцинация, благоприятель, самодовольствие, дьяконица, вредительный, маслообразный, транссубъективный, ангельчик, трансформизм, малолётный и другие, существовавшие еще недавно, поколение назад, практически исчезли из современных письменных текстов. С другой стороны, после 1991 года появились новые слова, например, транслит, лизинговый, офисный, мембранозный, инвестирование, ликвидность, внедорожник и другие.

Оказалось, что, вопреки распространенному мнению, количество новых слов в языке не растет, а уменьшается, зато активный словарный запас становится больше, то есть доля часто используемых в повседневной жизни слов возрастает. Кроме того, выяснилось, что в текстах увеличивается доля цифр, что говорит о том, что мы живем в цифровую эпоху.
Это важный шаг в развитии инструментов изучения динамики языка. Метод позволяет работать с такими объемами данных, которые были недоступны при ручном анализе, и выявлять глубинные, объективные тенденции. Для нас это начало большого пути
отмечает автор идеи, научный руководителем проекта, преподаватель кафедры филологии, межкультурной коммуникации и журналистики МАУ, доцент Татьяна Рычкова.

По мнению авторов, в перспективе на основе накопленных данных можно будет строить более точные прогнозы языкового развития и даже обучать искусственный интеллект понимать и моделировать тенденции развития лексики.
образование и наука исследования