Андрей Комиссаров: «В образовании у кого данные, тот и молодец»

Чтобы рекомендовать ребенку направление профессионального развития, нужно понять его потенциал. А для этого, в свою очередь, нужны данные, собранные на основе цифрового следа ученика. Насколько эффективна «методология доказательного обучения», как привить культуру принятия решений на основе данных, в интервью HSE Daily рассказал Андрей Комиссаров, руководитель направления цифровых продуктов образовательной экосистемы «Самолетум» (входит в ГК «Самолет»), представитель Альянса в сфере искусственного интеллекта.

— Сегодня каждый человек с детства погружен в цифровую среду, у него формируется свой цифровой след. Как он может помочь в обучении и формировании профессионального трека школьника?

Ученые Института статистических исследований и экономики знаний НИУ ВШЭ активно изучают перспективы и направления развития цифровых технологий. В рамках исследовательских проектов они беседуют с участниками рынка — ведущими ИТ-разработчиками. HSE Daily представляет серию таких экспертных интервью.

— Надо понимать, зачем вообще собирается цифровой след. В данном случае это цель, связанная с профессиональным самоопределением учащегося. Мы должны посмотреть, как можно картировать потенциал ребенка, для того чтобы ему рекомендовать направления профессионального развития, траектории, когда он придет в старшую школу. Либо это траектории, связанные с СПО, либо это траектории, связанные с вузами.

Одно из заблуждений современных школ — они полагают, что отвечают только за то, что происходит в стенах школы. Но не должно быть так, что ребенок по окончании школы не может принять ни одного самостоятельного решения, распланировать собственный карьерный путь, не понимает, в каком направлении ему двигаться, не может сдать профессиональных экзаменов. Цифровой след может собираться в школе для того, чтобы решать эту задачу — «ставить» ребенку профессиональное самоопределение, смотреть, как реализуется его потенциал, развиваются сопутствующие софт-скилы.

В России хорошие закон об образовании и ФГОСы (федеральные государственные образовательные стандарты. — Ред.), там обозначены метапредметные, личностные результаты, но, к сожалению, правоприменительная практика пока хромает. В частности, нет четких рекомендаций, как именно эти показатели измерять.

Соответственно, еще одна задача, кроме профессионального самоопределения, — это доказательное обучение, то есть подтверждение на данных того, какие именно образовательные результаты ребенком реально достигнуты. Плюс к этому — повышение прозрачности. В большинстве школ классы очень большие, но не всегда понятно, что именно происходит на уроках с каждым конкретным учащимся. Да и учителю опросить за 45 минут весь класс, чтобы понять, кто что понимает и может, не всегда возможно. У большей части тех, кого не опрашивают, падают мотивация, вовлеченность и сфокусированность, постепенно растет педагогическая запущенность. Группа тех детей, которые совсем не успевают по многим предметам, увеличивается.

И когда мы собираем домашнюю работу в виде зафиксированного на бумаге результата, то в этом результате не всегда видим рассуждения ребенка, не видим, почему он пришел к какому-то мнению. Проблема может быть решена, если мы сможем мониторить ситуацию с помощью цифрового следа и применять искусственный интеллект.

— Какую цифровую активность учеников можно интерпретировать как цифровой след?

— Представим школу как гибридное пространство: часть — офлайн, часть — онлайн. Так, в онлайне мы сможем создавать дополнительные сообщества по интересам. Например, вокруг внеурочной клубной деятельности, вокруг проектной деятельности, вокруг игровой деятельности, вокруг театральной деятельности и так далее. В школе есть много возможностей создать дополнительные планы деятельности, в которых обучение и взаимодействие будут идти не только в самой школе в моменте, в классе, но еще, скажем, во «ВКонтакте». Соответственно, если у нас есть сообщество, у него есть чат, если есть чат, есть и чат-логи, а это прекрасный цифровой след.

Фото: iStock

Основной цифровой след — это аудио, записанное на уроке. Оно позволяет, например, анализировать качество речи детей и давать им рекомендации, как развивать собственную речь.

Есть еще цифровой след групповой деятельности, когда дети работают в группах. Например, они решают STEM-задачи, или проектные задачи, или игровые задачи. В этом случае мы можем отследить роли, которые дети играют, мы можем отследить, кто более активен, кто менее активен, кто более сфокусирован, кто менее сфокусирован, и так далее.

Таким образом, расширяются возможности оценки по пятибалльной шкале.

Важным цифровым следом является рефлексия. Такой подход можно начинать внедрять в работе с детьми лет с одиннадцати, хотя нормальная рефлексивность у ребенка развивается где-то к тринадцати годам. Такой способ сбора данных, с одной стороны, развивает осознанность ребенка, то есть вы заставляете его думать, а с другой стороны, вы получаете много данных о том, как ребенок видит урок.

Таким образом, мы получаем рефлексию учеников как один вид данных. Второй вид данных мы можем получить от учителей. Это критериальное и ролевое, формирующее оценивание. Ролевое оценивание — это когда у вас есть список ролей, учителя осведомлены, что эти роли значат. То есть когда ребенок вот так себя ведет, это значит, что он в такой-то роли сейчас. Критериальное оценивание — это кнопочное, то есть я выбираю класс, я выбираю ребенка, я выбираю урок, я говорю, что я заметил, что он был в такой-то роли, о’кей.

Еще у нас дети ставят, так скажем, лайки. Это такой простой цифровой след и детям понятный — лайки, дизлайки отдельным педагогам и предметам. Мы также просим детей указывать, что им интересно.

— Многое реализовано из того, что вы рассказали?

— В группе компаний «Самолет» я работаю с начала августа, то есть физически в полном объеме реализовать то, что я описал выше, мы бы не успели. В моей лаборатории многие эксперименты давно велись, и мы это в принципе умеем делать. Пока же мы запустили по пилотным школам «Самолета» чат-бот для учителей, он называется «Штурман». В нем собирается критериальное, формируемое оценивание и ролевое оценивание как голосом, так и текстом. Он же выдает цифровой ученический профиль, но это профиль ровно по тому оцениванию, которое мы собрали, то есть что собрали, то и показываем.

— А как это у вас сейчас происходит?

— На данный момент мы в R&D-стадии. А чтобы валидировать что-то данными, используется подход триангуляции, когда у вас есть феномен, есть три разных источника данных, друг от друга независимых, и все эти три источника данных подтверждают, что феномен был.

Пока мы проводим сбор данных в трех школах.

Например, в одной из школ мы собираем то, что мы называем аудиоатмосферой, для чего ставим в классе микрофон. Голоса детей в этом случае, как правило, не идентифицируем. Аудиоатмосфера нужна для того, чтобы собирать общее семантическое ядро. Вообще при работе с данными в основном идет работа с семантическими ядрами, то есть в цифровом следе пытаемся выявить, как строится мысль, речь и на каких терминах, на каких связках. Работа с семантическими ядрами очень много дает. Она показывает нам, насколько учащиеся воспринимают и используют язык учителей, какие термины и связки применяют.

— Этот результат измеряется в процентах?

— Нам нужен не процент, нам нужна специфика этого семантического ядра, то есть нужно посмотреть, какие конкретно вещи у него не совпадают с учителем. Потому что, когда мы семантические ядра сравниваем, можем увидеть, что знания и понимания нет или оно ложное, и с этим тоже надо работать. Это будет индивидуальная специфика, которую мы прорабатываем.

— В идеале это может заменить оценочную систему в школе, то есть оценивать успеваемость степенью усвояемости, степенью вовлеченности, уровнем сфокусированности на уроке?

— Не заменить — дополнить.

— Это методологический прием или это все-таки оценочный инструмент?

— Это методология доказательного обучения. Здесь самое главное — понимать, зачем мы все это делаем. То есть во главе угла — культура принятия решений на основе данных в школе, в которой собираются данные. Если там такая культура есть, значит, мы можем в первую очередь посмотреть, что у ребенка с потенциалом, куда он развивается, дать ему рекомендации. Если такой культуры нет, то собранные данные просто положат «в коробочку».

— И через сколько-то лет, когда потребуется цифровой след конкретного ученика, у вас по нему будут размеченные данные?

— Как правило, если данные применяются, то они применяются в горизонте одного-двух лет, а потом все «закатывается в асфальт». То есть данные плохо хранятся в образовательных учреждениях, просто из-за того, что инфраструктура стоит денег. Вы архивируете данные, то есть закидываете их в дальний чулан.

— Вы используете какие-либо облачные вычисления, чтобы собирать и копить данные? Или у вас свои серверные ресурсы?

— «Самолет» только начал эту деятельность. Конечно, мы используем облачные вычисления, в основном это карты на графических процессорах. Работа с нейросетками требует много высокопроизводительных вычислений, это в основном GPU Nvidia (пример графических процессоров. — Ред.).

— А данные вы сами собираете или где-то покупаете готовые датасеты?

— Разумеется, собираем свои, в этом их ценность. Как правило, в образовании у кого данные, тот и молодец. Но все зависит от того, какую исследовательскую гипотезу вы принимаете. Поэтому, если мы берем что-то извне, это предобученные и заранее зафайнтюненные (Fine-Tune — классификация текста. — Ред.) большие языковые модели.

— Получается, весь «буст» в этом датацентричном образовании идет от больших языковых моделей?

— Нет, большие языковые модели — это всего лишь еще одно средство, которое мы можем использовать для того, чтобы организовать общение с ребенком. По сути, большую языковую модель лучше всего использовать как диалоговый симулятор, диалоговый тренажер. Вся прелесть большой языковой модели в том, что ты можешь с помощью prompt-инженерии и с помощью zero-кодинга ее дополнительно настраивать на определенные функции. Например, чтобы не дети задавали вопрос большой языковой модели, а чтобы она им задавала вопросы, заставляла их мыслить.

Фото: iStock

Но в целом применение искусственного интеллекта в образовании не сводится сейчас к большим языковым моделям. Самый часто применяемый в образовании искусственный интеллект — это, конечно же, распознавание текста, семантический анализ. Например, нейросетка BERT.

— Внедрение ИИ проходит через несколько этапов: это сбор и обработка данных, обучение модели, инжиниринг, установка, интеграция, техподдержка и переобучение. На каких этапах вы встречаете наибольшие сложности?

— В обработке вообще нет барьеров. В сборе есть барьеры юридического плана, когда приходят родители и говорят: «Никакого цифрового концлагеря для моего ребенка мы не допустим!» Многие даже не пытаются понять, какие данные собираются и зачем, в то время как мы пытаемся картировать потенциал ребенка, чтобы ему помочь нормально учиться.

— Если они напишут отказ от сбора персональных данных, ребенок выпадет из общей системы?

— Да, часть его данных выпадает из общей системы. А потом, когда у всех появились цифровые профили, а у этого ребенка не появился, возникает вопрос, почему. Мы понимаем, что родители отказываются импульсивно. Им кажется, когда ребенок вырастет, кто-то скажет: «Вот смотри, он себя плохо вел в школе, вот данные». Мне на конференциях очень часто задают вопрос: «А если я потом буду баллотироваться на государственно значимые посты, а у вас содержится цифровой след моей школьной активности, и вы меня будете компрометировать этим цифровым следом?» Это что ж такого надо сделать в школе, чтобы тебя можно было скомпрометировать на государственном посту? Такие опасения «лечатся» очень просто. По достижении 18 лет ребенок — сам ребенок, а не родители! — может подписать бумагу о том, чтобы его данные были анонимизированы. Удалить их он не может, он может попросить их анонимизировать.

— А есть какой-то период забвения, допустим, автоматически через пять лет данные исчезают либо погружаются в такую цифровую бездну, откуда их не извлечь?

— Да, есть период забвения, все происходит автоматически. Никому не интересно хранить привязку к персональным данным, ведь для этого нужны дополнительные серверные мощности и дополнительное хранение, и тратить деньги на это никто не хочет. Кто эти деньги сейчас тратит? Если мы берем частные школы, то эти деньги тратят учредители школы.

— То есть человек выпустился — данные слились?

— Данные не слились, данные анонимизировались. То есть они хранятся без привязки. Данные нельзя сливать, потому что они могут пригодиться для исследования.

— При записи аудио и видео остается голос и изображение, возможна идентификация. Как с этим быть?

— Идентификация голосовая — да. Если мы говорим про данные аудио, это совсем другой формат, потому что голос и показатели голоса являются персональными данными. Там все сложнее, с датасетами аудио идет совершенно другая работа, так же, как и с датасетами видео, потому что можно идентифицировать по лицам. Но мы-то с вами в первую очередь говорим про массивы данных.

Важно, если вы, например, собираете данные, связанные с голосом, изначально предлагать подписывать всем пользователям документ, хотя бы в формате открытой оферты. Например, пользовательское соглашение и соглашение об использовании персональных данных, такие два документа обязательно должны быть.

— Каковы, на ваш взгляд, перспективы создания рынка данных? Как его можно регулировать?

— У нас есть рынок данных, в принципе. Я не считаю, что он должен быть государственно регулируемым, скорее всего, это может убить прогресс в области искусственного интеллекта.

— У государства вопрос цифровой безопасности находится в числе приоритетов.

— У нас есть закон о персональных данных. Согласно этому закону, продавать персданные без согласия их владельца — это преступление. Никому не выгодно иметь дело с персональными данными. Мы убираем имена детей, название школы, ее адрес. Остается пол, возраст, класс, предмет и показатели критериального и формирующего оценивания. Как вы это привяжете к конкретному ребенку?

При этом анонимизированные датасеты продаются и покупаются, и, более того, их выкладывают на ресурсы, где все могут ими пользоваться, — прогресс движется только тогда, когда данными делятся.

Беседовал Сергей Сычев, ведущий эксперт ИСИЭЗ НИУ ВШЭ