Поэтика и алгебра языка: выпадение предлогов, роль глаголов и зачем филологу нейросеть

Фото: iStock / alxpin
Фото: iStock / alxpin

Новые исследования в лингвистике вызывают необходимость применять междисциплинарные методы анализа синтаксиса, словообразования и других уровней языка. Применение компонентов точных наук в лингвистике становится неотъемлемой частью современной науки. Школа лингвистики факультета гуманитарных наук НИУ ВШЭ провела в Независимом математическом университете конференцию «Конкорт-2024». В ней приняли участие 23 ученых и студента из 6 университетов и научно-исследовательских центров России и Израиля.

Руководитель Школы лингвистики ФГН НИУ ВШЭ Екатерина Рахилина отметила, что конференция важна для развития исследований по корпусным технологиям. А по мнению члена оргкомитета конференции, старшего преподавателя Школы лингвистики Ильи Макарчука, конференция необходима для продолжения творческого обмена, взаимного обогащения исследователей новыми знаниями и идеями и общения с коллегами. 

Когда предлоги выпадают

Стажер-исследователь Международной лаборатории языковой конвергенции Анна Гришанова представила доклад «Выпадение предлогов в речи русско-чувашских билингвов». Она отметила: выпадение предлогов — феномен, часто наблюдаемый в контактных разновидностях русского языка. Исследование выполнено на глубинных интервью с респондентами в возрасте 56–83 лет, говорящими на верхнем диалекте чувашского языка (родной язык) и активно использующими русский язык как второй. Было отобрано более 2500 примеров использования или выпадения предлогов. Например, респонденты используют разные варианты одного и того же словосочетания: «в Чебоксарах», «в Чебоксары» и без предлогов.

Анна Гришанова

Докладчица стремилась выяснить факторы, влияющие на соотношение стандартных и нестандартных вариантов произношения и контексты выпадения предлога, а также ситуации с одновременным выпадением предлога и употреблением нестандартных падежей.

Исследование показало: предлоги выпадают примерно в одном случае из семи, треть выпадений приходится на «в» и «о», также в речи часто «исчезают» предлоги «на» и «с». При выпадении предлогов «о» и «из» респонденты практически всегда употребляют нестандартные падежи.

Чаще всего информанты нестандартно использовали номинатив: «коровы держат», «на коровы живут». Другие примеры — с выпадением предлога «из»: «сметаны мы сами масло делали», «Чебоксары у нас здесь многие» (вместо «из Чебоксар»).

Больше всего контекстов выпадения предлогов вызвано обозначением локации (особенно «в», а также «из»)

Важным фактором стало также фонетическое окружение: чаще всего предлог «в» выпадает рядом со звуками «п», «д» и «т».

Анна Гришанова обратила внимание, что информанты с высшим образованием значительно реже других используют конструкции с выпавшим предлогом, год рождения играет несущественную роль.

Некоторые случаи одновременного выпадения предлога и употребления нестандартного падежа, по мнению докладчицы, объясняются языковой интерференцией. Она складывается при языковых контактах либо при индивидуальном освоении неродного языка, выражается в отклонениях от нормы и системы второго языка под влиянием родного, проявляется как иноязычный акцент в речи человека, владеющего двумя языками, и особенно заметна в фонетике. Примененный автором регрессионный анализ показывает, что категория числа не является существенным фактором, влияющим на утрату предлога.

Екатерина Рахилина в ходе обсуждения доклада отметила, что утеря предлога в словосочетании встречается и внутри языка. Она обратила внимание на влияние образования, семантики, грамматических и фонетических контекстов на описанное докладчицей явление.

В секции также были представлены доклады старшего научного сотрудника отдела прикладной лингвистики Института языкознания РАН Александры Евдокимовой «Жестовые и языковые коды в импровизации фламенко для коммуникации артистов», выпускницы Школы лингвистики НИУ ВШЭ Марии Суворовой «Комитативные конструкции в русском жестовом языке», Анны Гришановой и студентки 3-го курса бакалавриата образовательной программы «Фундаментальная и компьютерная лингвистика» НИУ ВШЭ Марины Смолкиной «Функционирование указательных местоимений ближнего и дальнего дейксиса в говоре Хиславичского района Смоленской области».

Модератором секции выступила аспирантка, ассистент Института филологии, иностранных языков и медиакоммуникации Иркутского государственного университета Мария Лошанина.

Глагольная лексика и понимание классики

Во второй секции аспирант, ассистент Школы лингвистики НИУ ВШЭ Игорь Дмитриев представил доклад «Микродиахронические изменения в глагольной лексике: сравнение употреблений XIX и XXI вв.». Он пояснил: проблема употребления глагола поднимает важный вопрос: хорошо ли современные читатели понимают классику. Личный опыт преподавания в школе показывает: многие простые на первый взгляд выражения в классических литературных текстах могут быть неправильно понятыми даже самыми продвинутыми учениками. Речь идет не об историзмах (камзол, треуголка), а о словах, которые имели несколько иное значение, нежели современное.

Игорь Дмитриев

В Школе лингвистики формируется корпус текстов XIX века, выделяющий особыми пометами отдельные слова, остающиеся нераспознанными. Существует проект создания корпуса художественных произведения XIX века, где подобные непонятные места были бы объяснены. Сейчас создается лингвистический комментарий к роману Михаила Лермонтова «Герой нашего времени». Его цель — помочь широкой аудитории более полно и глубоко понимать текст писателя XIX века. Читатель может выделить курсором словосочетание и получить комментарий. Лингвисты решили начать именно с Лермонтова, поскольку он был новатором языка: ни до, ни после него так не писали, тексты его младших современников выглядят на его фоне архаичными. Оказалось, что до 20% словесных конструкций в тексте романа следует комментировать для современного читателя.

Он привел пример абстрактных глаголов. Например, в «Фаталисте» есть фраза лирического героя «Подобно Вуличу я вздумал испытать судьбу». В древние времена глагол «вздумать» был синонимом слов «подумать», «надумать», в XVIII веке — «вспомнить», «придумать», «решить», но к XIX веку эти значения ушли. Слово «вздумать» обозначало исключительно ментальное действие: например, «вздумал записывать рассказ Максима Максимыча о Бэле». В последующее время, особенно в XX и XXI веках, слово «вздумать» приобрело неодобрительную коннотацию и стало означать «решить сделать что-то необдуманное». Причина этого, по мнению докладчика, приставка «вз-», переставшая сочетаться с прежними корнями, например в слове «вздремать». Теперь она употребляется только в значении интенсивного начала действия («взыграть», «взреветь», «взбудоражить»).

Второй глагол — «покориться» (синонимы «подчиниться» и «сдаться»). Он употребляется в сцене со взбунтовавшимся казаком. В настоящее время этот глагол необязательно применяется в отношении одушевленного субъекта в значении «подчиниться чьей-то воле». Сейчас можно встретить конструкцию «вершина покорилась Пете». Отчасти из-за этого ослабла возвышенная окраска слова и словосочетаний на его основе.

Синонимы — «подчиняться» и «сдаться» — имеют зарубежное происхождение. Например, поэт XVII века Симеон Полоцкий использовал «подчиняться» в значении «повиноваться», что обнаруживает южнославянский и церковнославянский след. В XIX веке чаще стало употребляться слово «покориться». Слово «сдаться» имеет отчасти милитаристский контекст, но в XVII веке оно проникло в русский язык из западнославянских и имело значение, близкое к современному слову «поддаться».

В секции также были представлены пленарный доклад доцента Школы лингвистики НИУ ВШЭ Радославы Трнавац «Конструкция “adverb-ly adjective” в английском языке: значения, распространение и дискурсивные функции» и доклад аспирантки и ассистента Института филологии, иностранных языков и медиакоммуникации Иркутского госуниверситета Марии Лошаниной «“Все-таки” в полимаркерных контекстах: анализ семантики». Председателем секции выступила Марина Смолкина.

Нейросеть поможет идентифицировать ошибки

В третьей секции студентка 3-го курса бакалавриата ОП «Фундаментальная и компьютерная лингвистика» Дарья Харламова представила доклад «Идентификация ошибок под влиянием интерференции с родным русским языком в учебных текстах на английском языке с помощью нейросети: методы детекции и аугментации данных».

Дарья Харламова

Докладчица пояснила: интерференция — феномен, когда люди, владеющие несколькими языками, говоря на одном языке, отходят от его конвенциональных норм из-за структуры другого языка. Такие ошибки могут быть лексическими, фонетическими, грамматическими и другими.

Однако их нередко сложно выделять из-за нестандартных форм, уникальности отдельных ошибок, что вызывает необходимость ручной разметки обучающего корпуса, причем разметчик должен хорошо знать оба языка. Нейросеть нужна, чтобы автоматически искать интересующие исследователей ошибки и обрабатывать большие объемы данных. В случае успеха можно будет использовать ее для других языков и масштабировать.

Для работы Дарья Харламова использовала корпус эссе студентов 2-го и 3-го курсов, состоящий из 12 000 предложений. В ходе разметки и переразметки 700 первых предложений разметчики чаще всего отмечали перенос грамматической категории из русского в английский, например changing вместо change, неправильное использование английского грамматического времени, использование английских слов, отражающих только одно из значений его русского соответствия, и, наконец, пословный перевод определенного выражения с русского на английский.

Важно было аугментировать (увеличить выборку) данных. Наиболее результативным оказался подход, при котором правильные предложения заменяли правильное на неправильное и расширяли датасет. На нем дообучили модель, используя трансформеры для каждого тега. Результаты улучшились, тем не менее существенная часть ошибок пропускалась.

Возможно, результаты улучшатся, когда в модель будет включен поиск мотивированных ошибок и когда ее будут тренировать на реальных, а затем на расширенных данных. Также следует расширять датасет реальными данными, расширить их за счет аугментации новыми методиками и изменить разметку, применяя копирование и генерацию данных.

Фото: iStock

По мнению Дарьи Харламовой, следует дообучить нейросеть за счет использования distilGPT2 — такая модель умеет продолжать предложения с ошибками и генерировать типы ошибок.

В перспективе докладчик предполагает улучшить качество за счет генерации данных и создания более логичных инструкций.

В третьей сессии также были представлены доклады профессора, заместителя декана факультета математики Василия Горбунова «Применение математических методов в лингвистике», студенток 3-го курса бакалавриата ОП «Фундаментальная и компьютерная лингвистика» Марии Годуновой, Алены Сергеевой и Алины Аванесян «Скалярные импликатуры с точки зрения восприятия их языковыми моделями» и Марии Годуновой «Обучение языковых моделей идиоматичным конструкциям на основе RAG-техники».

В обсуждении докладов активное участие приняли Екатерина Рахилина, профессор Школы лингвистики НИУ ВШЭ Александр Летучий, Илья Макарчук, студенты и аспиранты Школы лингвистики. Председателем секции выступила Анна Гришанова.

Работа конференции продолжилась в секциях и воркшопах.

Дата публикации: 23.05.2024

Автор: Павел Аптекарь

Будь всегда в курсе !
Подпишись на наши новости: