«iFORA: олицетворение инноваций в интеллектуальном анализе больших данных»

Фото: iStock
Фото: iStock

Эксперты НИУ ВШЭ разработали новый формат общей семантической карты для системы анализа больших данных iFORA. Новация дает возможность анализировать источники на трех языках и уже опробована при изучении трендов телемедицины. На чем базируется новый функционал и какие преимущества он дает при определении технологических трендов, рассказала сотрудница отдела информационно-аналитических систем ИСИЭЗ НИУ ВШЭ Мария Анташева.

iFORA (Intelligent Foresight Analytics) — система анализа больших данных, разрабатываемая в ИСИЭЗ.

К возможностям системы относятся:
- извлечение узкоспециализированных сведений из обширных библиотек разнородных документов;
- быстрая систематизация разрозненных данных в едином удобном представлении;
- определение трендов, рынков, технологий, событий, организаций, ключевых лиц, неявных связей и закономерностей;
- информационная поддержка стратегической аналитики и принятия решений с использованием современных инструментов визуализации данных.

ИСИЭЗ в рамках НЦМУ «Центр междисциплинарных исследований человеческого потенциала» регулярно проводит открытые лекции об использовании анализа больших данных в своей исследовательской деятельности и новых возможностях системы iFORA. Очередная серия вебинаров стартовала в НИУ ВШЭ 13 октября 2023 года.

Мария Анташева

«Универсальность заключается в том, что система iFORA основана на модульном подходе и позволяет комбинировать специализированные модули для конкретных задач», — подчеркивает Мария Анташева.

iFORA позволяет работать с большим объемом текстовых данных. База системы ежедневно пополняется на 30 тысяч документов. В настоящее время iFORA поддерживает русский, английский и китайский языки, что делает ее действительно универсальной.

Семантическая карта для iFORA

Семантическая карта — это компактное визуальное представление, которое позволяет судить о ключевых трендах в рассматриваемой области. Благодаря мультиязычным моделям обработки текстов, разработанным и усовершенствованным iFORA, теперь можно создавать семантические карты на трех языках одновременно. Это позволяет объединить ключевые термины в одну визуализацию с кластерами.

При работе с семантической картой аналитик прежде всего обращает внимание на круговые значки — отдельные направления, их расположение, показывающее взаимосвязь направлений, а также на тематические кластеры — объединения близких по смыслу направлений.

Для проверки эффективности работы модели ИСИЭЗ предложил три методики. Первая методика — UMAP — основана на аппроксимации и проекциях данных в 2D-пространство. Она является одним из наиболее популярных подходов в машинном обучении для снижения размерности и описания взаимодействия между элементами графа.

Вторая методика — РСА — основывается на статистической процедуре уменьшения размерности. Она использует анализ главных компонент для нахождения линейно некоррелированных переменных, которые затем используются для иерархической кластеризации.

Третья методика — T-SNE — является одним из самых продвинутых инструментов стохастического вложения соседей (имеется в виду алгоритм нелинейного снижения размерности, стохастическое моделирование используется для анализа и прогнозирования случайных событий). Она позволяет снизить размерность данных и визуализировать их в пространстве меньшей размерности.

Все эти методики позволяют эффективно анализировать и визуализировать мультиязычные семантические карты, отображая связи между терминами и кластерами на разных языках. Методики, отмечает Мария Анташева, не влияют на принадлежность термина к кластеру, а только позволяют регулировать размерность — чисто визуальную составляющую.

В итоге специалисты ИСИЭЗ для работы модели выбрали подход PCA.

Кейс: телемедицина

Кейсом для семантической карты на трех языках была выбрана тематика телемедицины, которая является одной из наиболее динамично развивающихся научно-практических областей с применением технологических новшеств.

Благодаря семантической карте, представленной с помощью трех языков, Мария Анташева выделила, что для всех трех повесток (культурно-языковых пластов) актуально создание специализированных информационных платформ для координации оказания телемедицинских услуг и публикации соответствующей информации, а также что пандемия COVID-19 оказала сильное влияние на каждую из рассматриваемых повесток (но в особенности китайскую).

Фото: iStock

Но также есть и различия в актуальностях. Например, создание специализированных приложений для видеосвязи пациентов и медицинского персонала актуально для русскоязычной и англоязычной повесток, а для китайской повестки особенно актуальна тема регулирования телемедицины.

Спикер делает акцент на том, что «система IFORA работает с большим количеством разных визуализаций, это не только семантические карты, но и, например, тренд-карты».

«Тренд-карты используются для выявления и классификации трендов. Визуализации позволяют определить зрелые и зарождающиеся тренды и проследить динамику развития технологического направления, — пояснила Мария Анташева. — Карты формируются при помощи расчетов индикаторов значимости и динамичности и предусматривают группировку тематик по четырем квадрантам».

Тренд-карты необходимо рассматривать вместе с семантическими картами, так как построение осуществляется на основе общего массива данных, то есть одного набора тематик.

«В перспективе мы планируем, что на трех языках будут строиться и тренд-карты, пока что на трех языках строятся только семантические карты», — добавила эксперт.

Дата публикации: 30.10.2023

Автор: стажер-исследователь Проектно-учебной лаборатории экономической журналистики НИУ ВШЭ Александра Гуркина

Будь всегда в курсе !
Подпишись на наши новости: