3 января родился один из самых популярных писателей прошлого века Джон Рональд Руэл Толкин. Исследователи из НИУ ВШЭ, AIRI и МИСИC использовали машинное обучение для исследования социальных связей между персонажами его вселенной Средиземья. Алгоритм сумел сформировать точное представление о социальных структурах и динамике отношений персонажей, предоставив уникальную карту взаимодействий в эпическом мире. Ученые считают, что этот подход найдет применение во многих сферах за пределами литературы. Результаты работы опубликованы в IEEE Xplore.
Анализ литературных произведений — это сложный и трудоемкий процесс. При чтении каждого текста исследователю нужно улавливать многочисленные нюансы и особенности — от стиля автора и выбора слов до взаимоотношений между персонажами и их роли в сюжете. Чаще всего такая работа проделывается литературоведами вручную. Старший научный сотрудник департамента анализа данных и искусственного интеллекта факультета компьютерных наук НИУ ВШЭ, руководитель группы «ИИ в промышленности» Института искусственного интеллекта (AIRI) Илья Макаров и выпускница НИУ ВШЭ Анастасия Ященко применили инструменты компьютерной лингвистики и машинного обучения к серии книг Джона Рональда Руэла Толкина о Средиземье. ИИ «прочитал» книги, вычленяя ключевые элементы: героев произведения, их принадлежность к той или иной расе и социальные связи. Он продемонстрировал результаты в форме графа, что позволило не только проследить взаимоотношения между персонажами, но и более наглядно увидеть структуру их социальной сети.
«Мы выбрали мир Средиземья в качестве основы для анализа по ряду ключевых причин. Во-первых, тексты Дж. Р. Р. Толкина широко известны и любимы читателями по всему миру, что обеспечивает универсальность и глобальность исследования. Во-вторых, система персонажей в произведениях Толкина является очень богатой и разнообразной, что создает оптимальные условия для проведения такого анализа. Наконец, благодаря длительной истории изучения мира Толкина доступен большой набор метаданных, включая подробные описания персонажей и их расовую принадлежность, что облегчает процесс автоматической кластеризации и проверки результатов», — говорит Илья Макаров.
Основной целью было создание программы, которая могла бы «понять» человеческий язык, проанализировать литературные тексты, выявить героев произведения и определить их взаимоотношения. В основе работы лежит концепция социальных сетей. Это подход, широко используемый в социологии, психологии и в последнее время в области компьютерных наук. В контексте анализа литературы каждый персонаж рассматривается как узел, а взаимодействия между ними — это ребра, связывающие эти узлы. Когда два персонажа взаимодействуют друг с другом в тексте, между их узлами устанавливается соединение, или ребро. Чем больше взаимодействий между персонажами, тем сильнее это ребро.
Использование алгоритмов машинного обучения позволило автоматически анализировать тексты и выявлять такие взаимодействия между героями, превращая литературные произведения в моделируемые социальные сети. Основным инструментом для этого стало извлечение именованных сущностей, или Named Entity Recognition (NER), — технология обработки естественного языка, позволяющая автоматически идентифицировать и классифицировать сущности в тексте, такие как имена, места и организации.
Используя эту технологию, ученые смогли создать список всех уникальных персонажей, упомянутых в произведениях. Дальнейший семантический анализ позволил определить расу каждого персонажа. Он проводился путем анализа контекста и привязывания каждого персонажа к определенной расе на основе слов и фраз, которые сопровождают его упоминание. Например, если персонаж часто упоминается в контексте со словами «эльф» или «эльфийский», алгоритм классифицирует его как эльфа. Из-за большого объема метаданных персонажей Дж. Р. Р. Толкина (расы, связанные отношения, принадлежность к определенному королевству и т.д.) для удобства интерпретации сообществ была выбрана именно расовая характеристика — каждый персонаж вселенной имеет ее.
Помимо этого, использование именованных сущностей и семантический анализ текста позволили исследователям определить не только степень связи между персонажами, но и характер этих отношений — дружба, вражда или нейтральные отношения. Искусственный интеллект смог выявить сложные социальные взаимосвязи между персонажами и разделить героев по группам.
Особенно важно, что использованный подход не ограничивается только «Властелином колец» и может быть применен к любому тексту, открывая новые возможности для автоматизированного исследования в литературе.
«Наше исследование содержит последовательность шагов, которые могут быть использованы для извлечения именованных сущностей и их отношений на основе других текстов. Например, для выявления взаимосвязи между мотивами произведений разных авторов или для анализа сложных юридических документов», — резюмирует Илья Макаров.