Анализ китайских СМИ и социальных сетей требует специального подхода: ряд особенностей устройства китайского сегмента интернета усложняет извлечение больших массивов данных. Эксперты Института статистических исследований и экономики знаний (ИСИЭЗ) ВШЭ, используя систему iFORA, провели сентимент-анализ публикаций, касавшихся вопросов развития инфраструктуры и инвестиций в образование. Результаты исследования были представлены на вебинаре, организованном Научным центром мирового уровня «Центр междисциплинарных исследований человеческого потенциала».
Авторы исследования назвали свой доклад «Сентимент-анализ как метод исследования человеческого капитала (на примере КНР)». На вебинаре его представили соавторы — эксперт Центра стратегической аналитики и больших данных ИСИЭЗ Юлия Исаева и стажер-исследователь института Мария Анташева, которые сделали акцент на исследовании соцсетей в китайском сегменте.
Юлия Исаева отметила, что система интеллектуального анализа iFORA позволяет ежедневно извлекать более 30 000 документов из интернета на русском, английском, других европейских и азиатских языках, основанных на разных типах алфавитов. Извлеченные таким образом материалы проходят экспертное подтверждение, отсеивающее необъективные источники.
Сентимент-анализ, то есть исследование эмоций и мнений в текстах, признано эффективным инструментом выявления тенденций общественных настроений. Он облегчает определение ключевых проблем, помогает прогнозировать их возникновение и обозначать вероятные траектории решения, рассказывает эксперт.
Сентимент-анализ текстовых материалов на китайском языке имеет свои особенности. Китайский сегмент интернета действует несколько обособленно. Социальные сети и видеохостинги, к которым привыкли мы, в Китае не используются, там работает иная экосистема, она ориентирована на внутреннее потребление. Китайский сегмент занимает baidu.com и другие гиганты, ряд национальных приложений хороши для анализа ситуации в стране, сформировать объективную картину по российским соцсетям не получится.
Например, из системы WeChat, которая объединяет элементы мессенджера, социальной сети, сервиса доставки еды, трудно брать данные, с информацией из открытых новостных источников также немало проблем. Практики, которые есть в масштабных англоязычных и русскоязычных источниках, невозможно применить при работе с китайскими. В частности, у них нет инструкций для бота, собирающего новости, о том, как правильно собирать и обрабатывать данные ресурса. Приходится искать обходные пути, чтобы находить адреса новостей.
Фото: iStock
Юлия Исаева пояснила, что графические особенности китайского языка не всегда отрицательно влияют на качество анализа, но их надо учитывать при обработке текста: стандартные библиотеки плохо работают с азиатскими языками из-за иероглифов. Слова не разделяются пробелами, но есть фиксированный порядок слов в предложении, что облегчает обработку по сравнению с русским языком. Еще одна проблема: при написании заимствованных слов иероглифы пишутся по произношению, а не по смыслу, а это затрудняет обработку, как и отсутствие склонений и спряжений, а также большое количество грамматических маркеров времени.
Среди других сложностей она назвала отсутствие пагинации (порядковой нумерации страниц) на веб-сайтах.
Авторы рассчитывали соотношение между положительными и отрицательными высказываниями по разным темам, делая выборку отрицательных, положительных и нейтральных записей.
Мария Анташева уточнила, что авторы отработали СМИ из базы iFORA, например people.com. По ее мнению, для исследования был бы хорош ресурс weibo.com (китайский микроблог, похожий на Twitter), но у него нет карты сайта, что затрудняет работу. Поэтому они остановились на Zhihu — сервисе вопросов и ответов, где в ответ на запрос одного пользователя другие пишут ответы и где заметно ярко выраженное собственное мнение по специфическим предметам. Другие пользователи могут комментировать развернутые ответы и писать свои.
Аудитория этой сети в 2018 году составила 150 млн человек, сейчас она могла расшириться, в основном ее пользователи — люди младше 35 лет, пояснила Мария Анташева. «Получилось интереснейшее исследование, мы смогли поработать со словами, интонациями и голосом жителей КНР», — отметила она.
Авторы исследовали три крупных тематических блока: образование, транспорт и инфраструктуру, используя слова и для первичного, и для расширенного запроса.
С помощью обучающей модели были выделены сентименты от –1 до +1 именно для извлечения из китайского языка. Результаты сентимент-анализа СМИ и социальных сетей существенно различались. Например, по запросам «инвестиции в транспорт» и «городской транспорт» сентимент в СМИ в течение двух лет (с февраля 2020-го по март 2022 года) был преимущественно положительным, колебался от 0,3 до 0,8 и лишь дважды был отрицательным. В социальной сети сентимент по направлению «городской транспорт» часто переходил из отрицательной в положительную зону, несколько чаще находился в первой и колебался от –0,4 до 0,6. По направлению «инвестиции в транспорт» сентимент существенно чаще находился в отрицательной зоне и колебался от –0,4 до 0,2. Отвечая на вопрос HSE Daily, есть ли связь перебоев в работе транспорта и аварий с индексом сентиментов, Юлия Исаева ответила утвердительно.
Такая же ситуация сложилась и при сентимент-анализе по направлению «инвестиции в образование». В СМИ подавляющее большинство публикаций были положительными, в большинстве случаев средний индекс превышал 0,4, а в некоторые месяцы — 0,7. Напротив, в социальных сетях преобладали негативные отзывы, но отрицательный сентимент, как правило, не превышал 0,3, а положительные показатели отмечались лишь трижды и не превысили 0,2.
Эксперт подчеркнула, что публикации в социальных сетях — это личные соображения и мнения авторов записей, поэтому следует учитывать, что люди пользуются ими как клапаном для сброса негативной энергии. Нужно принимать в расчет особенности психологии человека: в соцсетях недовольство высказывается чаще, чем удовлетворение.
Профессор департамента анализа данных, принятия решений и финансовых технологий Финансового университета при Правительстве Российской Федерации Александр Иванус поинтересовался, не мешала ли в исследовании неоднозначность понимания терминов. Оба автора считают, что детальная настройка модели позволяет избежать ошибок.