Открытые данные отличаются от любой другой статистики, которую публикуют компании, тем, что они в первую очередь должны рассказывать о процессах, происходящих в стране, а не в компании. Эта информация крайне важна для широкого круга экономистов, а также для инвесторов, принимающих решения с учетом анализа отраслевых трендов. С какими трудностями сталкиваются аналитики и как их решают, когда работают с данными, рассказал старший управляющий директор — директор Центра финансовой аналитики Сбербанка Михаил Матовников в рамках онлайн-митапа «“СберИндекс”: опыт оценки экономической динамики по оперативным данным банка» Банковского института НИУ ВШЭ.
Отгадайте загадку: «Прибыли не убавляет и не прибавляет, но экономистам помогает». Правильный ответ — «СберИндекс». В январе 2020 года Сбер выделил проект открытых данных в рамках специальной лаборатории, сначала она называлась «СберДанные», позже название изменили на «СберИндекс». «Лаборатория в Сбербанке — это такое подразделение, которое не должно приносить прибыль и производить услугу для клиентов. Оно работает либо на общественное благо, либо на какие-то НИОКР (научно-исследовательские и опытно-конструкторские работы), от которых не ожидается немедленных финансовых результатов, но при этом лаборатория создает наработки, которые в будущем помогут банку в создании новых сервисов или совершенствовании собственных процессов», — поясняет Матовников.
«СберИндексу» повезло: сразу же началась пандемия, и всем вокруг стало интересно, что происходит в экономике страны — не в прошлом, а прямо сейчас. «Запрос был чуть ли не ежедневным», — говорит Матовников. Одновременно выяснилось, что государству требуются крайне оперативные данные, которые на тот момент было взять негде, а решения принимались очень ответственные. «Принять решение закрыть все магазины, торговые центры, оставить работать только продуктовые магазины. Вот каковы будут последствия от этого для экономики? Совершенно же непонятно. Какие последствия для занятости, как обвалится заработная плата? Росстат про это все расскажет, но к моменту, когда расскажет Росстат, возможно, ущерб для бизнеса может оказаться критическим. И наоборот: меры господдержки могут быть направлены не столь уж пострадавшим отраслям, а какие-то проблемные сектора забыты», — вспоминает Матовников.
Именно поэтому данные Сбербанка в тот момент оказались критически важны всем: и правительству, и Банку России, и бизнесу, не говоря уже об экономических аналитиках. Успех Сбера попытались повторить другие банки. И в тот период это было не столь трудно: все сильно падало, поэтому какая разница — упало что-то на 80% или на 90%? И то и другое говорит о больших проблемах. Но на самом деле это огромная разница. Задачей было не просто опубликовать какие-то данные, основанные на статистике Сбербанка, а сделать все, чтобы очистить эти данные от влияния бизнес-фактора — изменения доли рынка Сбера, роста доли безналичных расчетов, изменения методов платежа и т.п. Поэтому, когда прошел горячий период, выяснилось, что данные Сбербанка наилучшим образом отражали реальные тренды в экономике.
Михаил Матовников отмечает, что работа «СберИндекса» была бы невозможна без цифровой трансформации Сбербанка. «Нашим большим активом является весь Сбербанк, который эти данные производит, есть специальные подразделения, которые эти сырые данные из систем, обслуживающих клиентов в реальном времени, превращают в данные, с которыми могут работать аналитики, — отмечает спикер. — Это колоссальная опора, потому что иметь данные, подходящие для анализа, — это не то же самое, что иметь любые данные».
Банк генерирует данные в «боевых системах» — на них обслуживаются карточки, и к таким системам предъявляются высочайшие требования бесперебойности. «Никто не даст вам обрабатывать данные из этой системы. А давайте-ка я сделаю туда запрос, а потом зависнет эта база данных, и все карточки в стране отключатся, — так не работает», — говорит спикер. По его словам, данные в свободное от нагрузки время, по ночам, по выходным, перекачиваются в отдельные базы, которые потом становятся доступны аналитикам. Однако и эти данные получаются сырыми и «необогащенными»: в базе, например, есть только карточки, а еще хотелось бы объединить эти данные с данными о клиентах, например о регионе проживания, социально-демографических разрезах. И целая команда занимается тем, что эти данные между собой связывает, одновременно данные деперсонализируются, то есть из них исчезают личные данные клиентов.
Фото: iStock
Другой вопрос — любые данные нужно еще правильно понимать, поэтому важным процессом является так называемое исследование данных. Например, есть задача выяснить, как меняется стоимость жилья: заходишь в базу данных, делишь цену квартиры на квадратные метры. «И вот приходит аналитик, показывает презентацию — вроде все правильно. Но есть несколько непонятных вопросов. Например, в Сочи цены падают. Может быть, там, думаем, жилье под снос падает в цене, там же его принудительно сносят, — рассказывает Матовников. — Вот математика отработала, взяли поле, поделили на поле, получили цифры, рассчитали, получили ряд данных, а после этого ты смотришь на эти данные и включаешь мозг. В момент, когда мы посмотрели на цены по недвижимости в Сочи, я сказал: не верю. Отправились искать в источнике данных: нет, никакая ошибка не закралась, но есть один нюанс». В базе, которая бралась за источник, были данные о стоимости квартиры, а еще данные о стоимости ипотеки, о сумме первоначального взноса. И сумма ипотеки и первоначального взноса стабильно процентов на 10–15 больше стоимости квартиры. «Почему? Потому что люди продают по цене ЕГРН и не платят налоги. Особенно это характерно для вторичного рынка. Цена квартиры из базы данных оказалась ценой договора купли-продажи», — пояснил Матовников. По его словам, она на тот момент была в среднем по стране на 10–12% ниже истинных цен.
Данные Сбербанка много что говорят про страну в целом, но важно вовремя понять, когда результаты указывают не на общероссийскую тенденцию, а на бизнес-фактор самого банка, добавляет эксперт. Например, если рассматривать данные по карточным транзакциям, то объем их оборота может расти как от доходов населения, так и от роста доли безналичных расчетов и даже от увеличения доли банка.
«Исследовали мы тут рынок бензина. Надо было взять и посчитать, что творится с совокупным объемом продаж нефтепродуктов. И мы получили падение объемов продаж в сентябре 2022 года», — отмечает Матовников. В этот момент падение продаж в стране было вполне возможно, специалисты даже позвонили аналитикам профильных компаний, те подтвердили сокращение. А потом выяснилось, что они падают в реальном выражении — в литрах, а продажи в деньгах у них выросли. В чем проблема? Оказывается, аналитик «СберИндекса» взял данные из базы по эквайрингу, но в этой базе отражены только транзакции по Visa и Mastercard и не отражены оплаты картами МИР. Также отдельно учитываются иные, не эквайринговые технологии платежей вроде SberPay. В результате получилось, что падение объемов продаж означало на самом деле снижение в обороте карт зарубежных платежных систем, которые замещались картами МИР и альтернативными методами платежа. «Аналитик взял одну базу, а надо было взять еще три», — резюмирует Михаил Матовников.
Даже после того, как найдены и корректно посчитаны верные данные, предстоит большой путь, чтобы эти данные стали данными о тенденциях в экономике страны, а не в отдельно взятом Сбербанке. Первые методики, наскоро разработанные в период пандемии, сейчас кажутся очень наивными, но и они работали очень неплохо, отмечает Матовников. Сейчас же в основе методологии «СберИндекса» огромный арсенал статистических моделей, дата-сайенс-алгоритмов, процесс постоянной верификации и совершенствования методов работы. Подобного рода методы просто необходимы при повышении детализации анализа, когда оцениваются тренды уже не просто во всей стране, но и в отдельных регионах и даже городах, в отдельных отраслях и сегментах рынка, подытожил эксперт.
Запись встречи доступна по ссылке.