Тексты пишут не только люди, но и нейросети. Чем более совершенными становятся последние, тем сложнее отличить их произведения от творчества человека. Филологи Международной лаборатории языковой конвергенции НИУ ВШЭ на онлайн-семинаре «Естественное мышление vs искусственный интеллект через призму исследований больших языковых данных» проанализировали тайны языка и моделей, обучающихся на данных, полных различных речевых проявлений. Как подходят ученые к работе с новыми вызовами — в материале HSE Daily.
Анализ текстов, собранных машинным способом, и поиск методов их выявления и сравнения с произведениями, написанными живыми людьми, начались не вчера. Как напомнил доцент Школы лингвистики факультета гуманитарных наук НИУ ВШЭ Борис Орехов, еще в 2009 году коллектив математиков во главе с Евгением Гречниковым разработал алгоритм для различения естественного текста и машинного копипаста. Метод они изложили в статье «Поиск неестественных текстов» («Яндекс», Лаборатория комбинаторных и вероятностных методов RCDL, 2009). Он основан на статистическом отслеживании частоты встречаемости пар соседних слов в одном тексте.
Почти 15 лет назад метод работал да и тексты порой можно было отличить на глаз, однако сегодня подход Гречникова уже не так эффективен в силу использования LLM — моделей больших языков, которые, поддерживая наши цифровые чаты и понимая запутанные фразы, способны генерировать тексты, имитирующие естественный стиль человеческой речи. «Уже не так просто отличить тексты неестественного происхождения на глаз, но в специфических ситуациях это все равно нужно», — подчеркивает Борис Орехов.
«Мера естественности разная для текстов разных доменов. Если тексты должны быть похожи на человеческие, то какие люди имеются в виду? А иногда и не должны быть похожи?» — добавил он.
К примеру, стихи. Как оценивать эту форму художественной речи? Можно ли сказать, что стихи — это бред? Философ Карл Ясперс отмечал, что бред — это ложное убеждение, непроницаемое для опыта и убедительных контраргументов, его содержание невозможно.
Борис Орехов предлагает посмотреть для примера на одно из произведений русского поэта Юрия Карабчиевского «Идущие мимо»:
Что ни башка, то образина. Несут, урча и лопоча, кто — два плеча из абразива, кто — два зажатых кирпича.
Они зачаты от испуга и рождены из тьмы во тьму. И так опасны друг для друга, что ходят врозь, по одному.
Нельзя коснуться, не поранясь. По бровке — как по краю рва. И странно вдруг, что, иностранец, ты понимаешь их слова...
«С точки зрения физики нашего мира как минимум два из приведенных здесь утверждений невозможны, а попытка переубедить поэта в сказанном будет выглядеть глупо», — отмечает Борис Орехов. Юрий Карабчиевский искусно использует синтаксис, но, чтобы распутать строку, нужно время, и из-за этого уничтожается естественность восприятия при чтении.
Похожую картину можно наблюдать и при анализе других стихотворений. Например, Юрия Поплавского:
Был красивый полон удивленья
Что заснул в болоте утопая
Страшно близко к лучшим временам
И проснулся на высоком месте
Только горы преграждали взоры
Но понятно было то что скоро
Облака поднимутся к лазури
Поцелуют небо наяву
Что мы видим здесь? Есть какой-то непонятный «он», имя которого не названо. У автора он красивый, засыпает, пока тонет в болоте. Странное и сбивающее с толку сочетание действий и ситуаций.
Таким образом, несмотря на то, что люди могут установить определенные критерии для оценки ситуации, на практике часто бывает сложно найти простые ответы на сложные вопросы, подчеркивает спикер. Более того, в то время, когда человек совершает ошибки и строит бредовые рассуждения, искусственный интеллект может быть более точным и надежным информатором.
Один день с диктофоном на шее
Доцент, заведующая Лабораторией языковой конвергенции Санкт-Петербургской школы гуманитарных наук и искусств НИУ ВШЭ Татьяна Шерстинова поделилась особенностями работы с полевыми звукозаписями языка (сырые данные, записанные в естественной среде, которые превращаются в тот или иной звуковой опыт) и рассказала об их предназначении. Подобные звукозаписи используются для изучения языка повседневного общения, лексики, грамматики и прагматики устной речи; формирования «звучащей памяти» о нашем времени и звукового портрета эпохи; моделирования речевого общения в разных коммуникативных ситуациях (для обучения людей и роботов); настройки и тестирования максимально приближенных к реальности систем синтеза и распознавания речи.
«Наши исследования показывают, что все учебники и представления о языке, как правило, базируются на письменных текстах. Их всегда было много, они всегда записывались, а слово — как воробей. Только с появлением звукозаписывающих устройств стала возможной запись речи. Слушая ее, можно попасть в другой мир, в котором бы в обычной ситуации мы не оказались», — говорит Татьяна Шерстинова. Так, например, она, которая работает лингвистом всю свою жизнь, не сразу смогла понять, о чем говорят между собой курсанты военного училища, когда однажды получила звукозаписи из казарм. Что характерно: если те же курсанты начнут говорить не между собой, а с иными людьми, то это будет уже совсем другая речь, более понятная.
В 2007 году сотрудниками филологического факультета Санкт-Петербургского госуниверситета при поддержке РГНФ была начата работа над звуковым корпусом «Один речевой день» (другое название — «Один день с диктофоном на шее»). Идеей послужило создание такой модели устной речи, которая позволила бы общаться с компьютером на понятном машине языке. Задача корпуса — использование методики 24-часовой записи, что позволяет получить на выходе максимально естественную речь человека в условиях повседневного общения.
Лаборатория языковой конвергенции Санкт-Петербургской школы гуманитарных наук и искусств НИУ ВШЭ весной 2023 года начала записывать корпус устной речи молодежи и теперь обладает собранием звучащих текстов, снабженных орфографической и акустико-фонетической транскрипцией. Потребность в таком корпусе возникла в связи с исследованиями процессов восприятия речи носителями языка. Как это работает? Звукозаписи делаются волонтерами. А затем на одну минуту звукозаписи уходит один час расшифровки, так как этот процесс осуществляется вручную, посредством многоразового прослушивания аудиоматериалов экспертом. Сейчас большое количество часов записи лежит в архивах, так как нуждается в автоматических средствах распознавания — транскрибации (метод, при котором для распознавания речи в аудиофайле применяются специальные программы или сервисы, использующие алгоритмы машинного обучения. — Ред.).
Татьяна Шерстинова представила результаты одного из исследований. Его целью было сопоставление лексического состава экспертных расшифровок (вручную) и автоматически полученных расшифровок (NTR и OpenAI/Whisper). В основу работы легли 195 макроэпизодов повседневного речевого общения, чьими авторами были 104 участника.
Записи были сделаны в самых разных условиях, например дома, на рабочем месте, в университете, медицинском учреждении, магазине, кафе и открытых общественных местах.
Для получения экспертной расшифровки несколько специалистов слушали одну и ту же фразу несколько раз. Производительность моделей распознавания речи NTR и OpenAI/Whisper оценивалась на основе коэффициента ошибок в словах (WER). Исследование показало, что в 195 речевых эпизодах акустическая модель NTR дала средний показатель WER 65%, а Whisper — 49%.
«Потенциал есть, но грязных расшифровок очень много», — отметила спикер. На лексическом уровне системы плохо распознают определенные группы слов (дискурсивные слова, междометия и разговорные формы литературных слов) — в расшифровках отсутствуют специфические нюансы разговорной речи. «При автоматическом распознавании модели ошиблись один раз и начинают фантазировать», — добавила исследователь. При этом на выходе получается текст без знаков препинания, чего нельзя сказать о полученных от экспертов текстах. Лабораторией было принято решение сначала транскрибировать запись автоматически, а затем использовать ручную коррекцию (эксперты уточняют личность спикера и исправляют конкретные слова).
Интроспективные ощущения информантов
Профессор Санкт-Петербургской школы гуманитарных наук и искусств НИУ ВШЭ Анастасия Колмогорова рассказала об исследовании и выпускной квалификационной работе своей студентки Анастасии Марголиной «RuGPT3 в роли кинокритика: исследование методов контролируемой генерации кинорецензий с выбранной тональностью на русском языке».
В своем исследовании студентка сравнивала три различных метода генерации (автоматические метрики) текста: Fine-tune (выдает максимально возможную точность при конкретной природе данных, на которых обучался), P-tune (хорошее качество на малых объемах данных, время обучения — часы) и обучение с подкреплением для трансформеров (TRL, применяется для решения различных задач, включая управление роботами). С использованием датасета из 198 тысяч русских рецензий на фильмы эти методы были точно настроены и оценены для определения их эффективности в генерации текста с выбранной тональностью.
Исследование показало, что при наличии у каждого метода уникальных достоинств существуют и ограничения. Так, у Fine-tune естественность шла в паре с неточным определением сентимента, у P-tune все было наоборот. TRL продемонстрировал компромисс между двумя другими методами.
Анастасия Марголина в своей работе использовала и субъективную человеческую оценку, чтобы получить многогранную валидацию эффективности каждого метода. Был проведен тест с участием более 100 человек, перед которыми стояла задача определить, кто написал текст — ИИ или человек. Из 456 текстов только 147 были оценены правильно.
«Люди склонны преувеличивать свою индивидуальность, люди склонны преувеличивать свою естественность?» — задала вопрос спикер. И затем привела несколько примеров интроспективных ощущений информантов. По их мнению, для текстов от ИИ характерны следующие признаки:
- парцелляции (дробление связного текста на несколько пунктуационно и интонационно самостоятельных отрезков) или два коротких простых предложения рядом, которые могли бы быть объединены в одно;
- длинные цепочки однородных членов предложения;
- предложения типа «Х — это...»;
- слишком типичные, клишированные фразы и выражения;
- отсутствие стилистической игры на семантике слов (литоты, яркие метафоры, оксюмороны);
- обилие фактов и деталей и т.д.
А для написанных людьми текстов они выбрали следующие позиции:
- длинные и сложные предложения с подчинительной и сочинительной связью;
- немотивированные повторы;
- пунктуационные ошибки;
- использование разговорной, обсценной, просторечной лексики, уменьшительно-ласкательных форм;
- ирония, сарказм, языковая игра;
- отсылки к личному опыту;
- доминирование эмоций и оценок над фактами и деталями и т.д.
«Естественность — субъективная категория, которая строится на предвосхищении своих собственных ожиданий от других людей. Следует различать естественность объективную и естественность субъективную как суждение — результат вероятностного прогнозирования сходства текста с предвосхищаемыми ожиданиями от “человека”. Представляется, что оценить объективную естественность могут только поведенческие тесты и лингвистический анализ», — подытожила Анастасия Колмогорова.