Эксперты НИУ ВШЭ разработали новый формат общей семантической карты для системы анализа больших данных iFORA. Новация дает возможность анализировать источники на трех языках и уже опробована при изучении трендов телемедицины. На чем базируется новый функционал и какие преимущества он дает при определении технологических трендов, рассказала сотрудница отдела информационно-аналитических систем ИСИЭЗ НИУ ВШЭ Мария Анташева.
iFORA (Intelligent Foresight Analytics) — система анализа больших данных, разрабатываемая в ИСИЭЗ.
К возможностям системы относятся:
- извлечение узкоспециализированных сведений из обширных библиотек разнородных документов;
- быстрая систематизация разрозненных данных в едином удобном представлении;
- определение трендов, рынков, технологий, событий, организаций, ключевых лиц, неявных связей и закономерностей;
- информационная поддержка стратегической аналитики и принятия решений с использованием современных инструментов визуализации данных.
ИСИЭЗ в рамках НЦМУ «Центр междисциплинарных исследований человеческого потенциала» регулярно проводит открытые лекции об использовании анализа больших данных в своей исследовательской деятельности и новых возможностях системы iFORA. Очередная серия вебинаров стартовала в НИУ ВШЭ 13 октября 2023 года.
«Универсальность заключается в том, что система iFORA основана на модульном подходе и позволяет комбинировать специализированные модули для конкретных задач», — подчеркивает Мария Анташева.
iFORA позволяет работать с большим объемом текстовых данных. База системы ежедневно пополняется на 30 тысяч документов. В настоящее время iFORA поддерживает русский, английский и китайский языки, что делает ее действительно универсальной.
Семантическая карта для iFORA
Семантическая карта — это компактное визуальное представление, которое позволяет судить о ключевых трендах в рассматриваемой области. Благодаря мультиязычным моделям обработки текстов, разработанным и усовершенствованным iFORA, теперь можно создавать семантические карты на трех языках одновременно. Это позволяет объединить ключевые термины в одну визуализацию с кластерами.
При работе с семантической картой аналитик прежде всего обращает внимание на круговые значки — отдельные направления, их расположение, показывающее взаимосвязь направлений, а также на тематические кластеры — объединения близких по смыслу направлений.
Для проверки эффективности работы модели ИСИЭЗ предложил три методики. Первая методика — UMAP — основана на аппроксимации и проекциях данных в 2D-пространство. Она является одним из наиболее популярных подходов в машинном обучении для снижения размерности и описания взаимодействия между элементами графа.
Вторая методика — РСА — основывается на статистической процедуре уменьшения размерности. Она использует анализ главных компонент для нахождения линейно некоррелированных переменных, которые затем используются для иерархической кластеризации.
Третья методика — T-SNE — является одним из самых продвинутых инструментов стохастического вложения соседей (имеется в виду алгоритм нелинейного снижения размерности, стохастическое моделирование используется для анализа и прогнозирования случайных событий). Она позволяет снизить размерность данных и визуализировать их в пространстве меньшей размерности.
Все эти методики позволяют эффективно анализировать и визуализировать мультиязычные семантические карты, отображая связи между терминами и кластерами на разных языках. Методики, отмечает Мария Анташева, не влияют на принадлежность термина к кластеру, а только позволяют регулировать размерность — чисто визуальную составляющую.
В итоге специалисты ИСИЭЗ для работы модели выбрали подход PCA.
Кейс: телемедицина
Кейсом для семантической карты на трех языках была выбрана тематика телемедицины, которая является одной из наиболее динамично развивающихся научно-практических областей с применением технологических новшеств.
Благодаря семантической карте, представленной с помощью трех языков, Мария Анташева выделила, что для всех трех повесток (культурно-языковых пластов) актуально создание специализированных информационных платформ для координации оказания телемедицинских услуг и публикации соответствующей информации, а также что пандемия COVID-19 оказала сильное влияние на каждую из рассматриваемых повесток (но в особенности китайскую).
Фото: iStock
Но также есть и различия в актуальностях. Например, создание специализированных приложений для видеосвязи пациентов и медицинского персонала актуально для русскоязычной и англоязычной повесток, а для китайской повестки особенно актуальна тема регулирования телемедицины.
Спикер делает акцент на том, что «система IFORA работает с большим количеством разных визуализаций, это не только семантические карты, но и, например, тренд-карты».
«Тренд-карты используются для выявления и классификации трендов. Визуализации позволяют определить зрелые и зарождающиеся тренды и проследить динамику развития технологического направления, — пояснила Мария Анташева. — Карты формируются при помощи расчетов индикаторов значимости и динамичности и предусматривают группировку тематик по четырем квадрантам».
Тренд-карты необходимо рассматривать вместе с семантическими картами, так как построение осуществляется на основе общего массива данных, то есть одного набора тематик.
«В перспективе мы планируем, что на трех языках будут строиться и тренд-карты, пока что на трех языках строятся только семантические карты», — добавила эксперт.