Оцифровка рукописей: месяцы поиска могут превратиться в часы и даже минуты

Российский научный фонд поддержал проект «Культурное наследие России: интеллектуальный анализ и тематическое моделирование корпуса рукописных текстов». Его задачей является разработка методики автоматизированного анализа информации, содержащейся в рукописях, минуя обработку источника вручную. HSE Daily побеседовало с руководителем проекта — заведующей Лабораторией региональной истории России факультета гуманитарных наук НИУ ВШЭ профессором Екатериной Болтуновой.

Проект «Культурное наследие России: интеллектуальный анализ и тематическое моделирование корпуса рукописных текстов» подготовлен сотрудниками школы филологических наук и Лабораторией региональной истории России факультета гуманитарных наук НИУ ВШЭ совместно с группой математиков факультета вычислительной математики и кибернетики МГУ им. М.В. Ломоносова. В проекте также участвует Томский государственный университет.

— Когда возник замысел проекта?

— Во многом этим проектом мы обязаны идее филолога Любови Хачатурян, предложившей рассмотреть возможность обработки рукописного наследия русских писателей с помощью математических методов. Вместе с профессором Еленой Пенской, которая приняла большое участие в разработке замысла, коллеги провели две конференции, посвященные этой теме, — «Текст как DATA: рукопись в цифровом пространстве» в 2019 и 2020 годах. И открыли сайт «Автограф. XX век», разместив на нем рукописи классиков русской литературы XX столетия. В 2016 году к работе с коллекцией растровых изображений рукописных автографов подключилась группа математиков под руководством профессора Леонида Местецкого, что позволило начать совместные междисциплинарные разработки по разбору некоторых рукописных текстов.

Екатерина Болтунова, фото: Высшая школа экономики

Мне тематика, связанная с внедрением новых практик в исследования рукописных текстов, всегда представлялась исключительно интересной. Для нас в лаборатории работа с архивными документами, прежде всего рукописными, абсолютный приоритет: мы объездили архивы целого ряда городов и регионов — от Саратова до Мурманска, от Смоленска до Владивостока.

Сейчас для реализации этого гранта у нас сложилась интересная команда, в которую входят гуманитарии, филологи и историки из ВШЭ и Томского государственного университета и математики, представляющие факультет вычислительной математики и кибернетики МГУ.

— Какое влияние на вашу работу оказала реализация проектов «Память народа» и «Подвиг народа», позволившая опубликовать громадные массивы документов истории Великой Отечественной войны?

— Проекты, которые вы упомянули, имеют огромное социальное значение. Я помню, какое сильнейшее впечатление произвела на моего отца возможность найти на одном из этих ресурсов информацию о своем дяде, пропавшем без вести в первые месяцы войны, — десятилетиями в семье ничего не могли узнать о его судьбе. Уверена: изучающие данный период историки будут обращаться к этим материалам снова и снова.

Большой массив оцифрованных данных, открытых для публичного доступа, — я имею в виду документы, которые вы можете прочесть с вашего личного компьютера, — всегда вызывает у исследователей огромный интерес. Достаточно вспомнить, какое внимание привлекла довольно давняя история открытия в Сети «Личного фонда И.В. Сталина» и материалов Политбюро ЦК КПСС, на оцифровку которых у Росархива ушло около пяти лет. Но сейчас нам бы хотелось, чтобы эти процессы затронули и материалы, созданные в период Российской империи и раннего СССР.

— В проекте говорится об обработке рукописных документов. Речь идет о материалах только личного происхождения или также о делопроизводственных источниках?

— Мы планируем работать прежде всего с источниками личного происхождения — мемуарами, дневниками и письмами. Это поле, которое объединяет историков и филологов, открывает возможности для взаимодействия. В перспективе, без сомнения, мы перейдем и к разбору делопроизводственных документов.

— Какой период времени вы планируете охватить?

— Проект охватывает период с конца XVIII по середину XX века. Приоритетным для нас в первые годы работы будет XIX — начало XX столетия, то есть время, на которое приходится формирование большого массива рукописных текстов разных типов, жанров и характеров.

— Какие программы и иные инструменты распознавания документов предполагаете использовать?

— Нашей задачей является разработка методики анализа информации, содержащейся непосредственно в рукописных текстах, минуя обработку источника вручную с привлечением посредника для расшифровки. Речь идет о создании автоматизированной системы навигации по рукописному тексту, которая позволит исследователю отобрать из огромного массива данных материалы, необходимые для работы, что резко сократит затраты времени на разбор текстов.

Алгоритмы поиска в предлагаемой системе будут созданы при помощи методов распознавания рукописного текста по восстановленной траектории пера на основе графемной сегментации и идентификации непрерывных морфологических моделей, а также с использованием машинного обучения.

— Что планируется сделать ключами для обработки: определенные слова, их комбинации, фамилии или названия событий?

— В первую очередь речь идет о ключевых словах, а также о возможности идентифицировать в рукописном тексте комбинации из нескольких слов, о поиске дат, локаций.

— Какие архивы и библиотеки предполагается обработать, каковы приоритеты проекта?

— В первые два года проекта наибольшее значение для нас будут иметь архивы, в которых хранится рукописное наследие XIX столетия. Это Государственный архив Российской Федерации, Российский государственный исторический архив и Российский государственный архив литературы и искусства. Мы планируем также привлекать материалы из российских региональных архивов.

— Какую роль будут играть математики факультета ВМК МГУ им. М.В. Ломоносова и партнеры проекта из Томского государственного университета?

— Уверена, что очень и очень значимую. Прежде всего отмечу, что возглавляющий в проекте группу математиков профессор Леонид Местецкий — один из крупнейших специалистов по работе с системами искусственного интеллекта, графической навигации и тематическому корпусному моделированию, а также распознаванию растровых образов. В рамках проекта Местецкий и его ученики будут разрабатывать систему автоматизированной навигации по нерасшифрованным рукописям, их поиском и отбором займутся историки и филологи.

Наши коллеги из Томского государственного университета во главе с профессором Виталием Киселевым присоединятся к проекту в работе с материалами поэта Василия Жуковского, в том числе с его эпистолярным наследием. Как известно, помимо литературной деятельности, он вел активную публикаторскую и редакторскую работу, был воспитателем наследника престола Александра Николаевича, будущего царя Александра II. Его наследие дает нам большой массив разных по содержанию и почерку материалов, необходимых для анализа нашей группе. А коллег-филологов, в свою очередь, интересует возможность атрибуции документов и разбор уникальной переписки Жуковского с цензором Александром Никитенко.

— Ставите ли вы перед собой задачу создать базу документов? Сколько статей и монографий планируется написать?

— Главным итогом нашей работы станет разработка программы по работе с неструктурированными массивами данных. Что касается создания баз данных, эту задачу мы решаем в рамках других проектов. Я уже упоминала продолжающийся проект по созданию сайта «Автограф. XX век» под руководством профессора Елены Пенской. Сейчас на сайте можно увидеть оригинальные рукописи Михаила Булгакова, Александра Блока, Андрея Платонова и многих других авторов. У Лаборатории региональной истории России есть отдельный проект, реализуемый при поддержке Фонда Михаила Прохорова, — формирование ресурсного портала «Регионы России в исторической перспективе». К настоящему моменту на портале размещен архив известного сибирского общественного деятеля Николая Ядринцева из фондов Научной библиотеки Томского государственного университета. До конца года мы выложим на портал оцифрованные источники из фондов Российского государственного архива Дальнего Востока, Государственного архива Владимирской области, а также частный архив историка Анатолия Ремнева.

Сотрудники, участвующие в проекте РНФ 2022–2025 годов, планируют опубликовать 30 научных статей, где представят результаты исследования, а также связанные с ними вопросы интеллектуального анализа рукописных источников.

— Будете ли вы привлекать студентов и аспирантов для работы над проектом?

— Да, в нашем проекте задействованы аспиранты, причем как со стороны математиков, так и со стороны гуманитариев.

— Насколько, по вашему мнению, обработка материалов архивов, музеев и библиотек облегчит работу профессиональных исследователей и любителей истории?

— Я думаю, это открытие оцифрованных материалов в сочетании с возможностями поиска прямо по рукописному тексту совершенно меняет ситуацию. Речь идет об ускорении на порядок — месяцы поиска могут превратиться в часы или даже минуты. Это будет по-настоящему качественный скачок.

— Не приведет ли создание оцифрованных массивов документов к тому, что историка в перспективе заменит искусственный интеллект?

— Конечно, за последние годы возможности искусственного интеллекта колоссально расширились, он все больше проникает в разные области жизни, что порой сопровождается апокалиптическими прогнозами. Но как историк я хочу напомнить, что это далеко не первое технологическое открытие, которое наблюдает современный человек. Вспомните, сколько страхов и опасений породило появление персональных компьютеров. Но, слава богу, все мы живы и ментально здоровы, продолжаем свои исследования и на многое еще надеемся.