Александр Диденко: «Эффективной работе языковых моделей мешает отсутствие эмоций»

Александр Диденко, фото из личного архива
Александр Диденко, фото из личного архива

Взрывное развитие искусственного интеллекта выходит на новый уровень: большие языковые модели уже научились думать, но по-настоящему полезными им не стать без навыков распознавания человеческих эмоций. Это важно, так как смысл наших слов сильно меняется в зависимости от контекста, и, чтобы корректно выстроить речевое поведение, машина должна понимать состояние своего собеседника. Руководитель лаборатории управленческих нейронаук Института бизнеса и делового администрирования (ИБДА) РАНХиГС, специалист по анализу данных Бюро цифровых решений SELF Александр Диденко рассказал, можно ли научить ИИ эмпатии.

Ученые Института статистических исследований и экономики знаний НИУ ВШЭ активно изучают перспективы и направления развития цифровых технологий. В рамках исследовательских проектов они беседуют с участниками рынка — ведущими ИТ-разработчиками. HSE Daily представляет серию таких экспертных интервью.

— Александр, вы специалист по теории принятия решений и раньше занимались алгоритмическим трейдингом, а сейчас в качестве руководителя лаборатории вдруг занялись эмоциями. Какова цель вашей работы?

— Прежде всего я data scientist, специалист по анализу данных. Например, сейчас для Бюро цифровых решений SELF я разрабатываю алгоритмы, которые предсказывали бы доходность коллекционной живописи для инвестирования в нее. В ИБДА изучаю динамику продуктивности малых групп. В частности, работаю над созданием машинного представления о состоянии малой группы в виде мультимодальных эмбеддингов, то есть таких эмбеддингов, которые включали бы в себя модальность ЭЭГ, экспрессируемой мимики, а также модальность слов. На практике это выглядит так: с помощью различной аппаратуры мы фиксируем кожно-гальваническую реакцию, электроэнцефалограмму, мимику и речь у 2–6 человек, которые находятся в имитации переговоров, обсуждения чего-либо. С помощью различных алгоритмов мы их расшифровываем и анализируем, а затем создаем тренажеры, которые показывают, как вести себя более продуктивно — например, какую лексику использовать.

— Большие языковые модели (Large language Model, LLM. — Ред.) могут придать какой-то новый импульс тому, чем вы занимаетесь, или это еще один инструмент, который обогатит ваши подходы?

— Мне представляется, что мультимодальность приобретает новое значение в контексте языковых моделей. Объясню. Люди очень хорошо умеют использовать эмоции для того, что сделать коммуникацию более эффективной. Мы считываем эмоциональное состояние собеседника, часто даже не осознавая этого, по-разному реагируем на него и пытаемся использовать.

Это же неправда, что эмоции мешают принятию решений. На самом деле эмоции — неотъемлемая часть когнитивных процессов, в том числе высших, типа принятия решений. В машинном обучении есть такое направление, как Smart Conversational Agents, то есть умные разговорные агенты. На сегодняшний день у ИИ, грубо говоря, нет органа, с помощью которого языковая модель может распознать интонации, понять состояние собеседника и проявить эмпатию. Мне представляется, что этот недостаток мешает эффективной работе LLM — делает их менее человечными и в этом смысле менее полезными.Фото

Фото: iStock

Если мы хотим сделать искусственный интеллект человекоподобным, нам нужно обучить его распознавать эмоции, и мультимодальные эмбеддинги — именно та технология, которая позволит это сделать. Точно так же, как сейчас унимодальные эмбеддинги позволяют ему получить представление о слове в контексте, мультимодальный эмбеддинг позволит увидеть контексты, связанные с эмоциями, чтобы машина понимала состояние своего собеседника и исходя из этого выстраивала свое речевое поведение.

— То есть это, по сути, мультимодальный сентимент-анализ?

— Да. При этом очень важно понимать, что эмоция как таковая — довольно сложный конструкт, связанный с социальными и национальными аспектами: в определенных ситуациях нам предписывается иметь определенные чувства и выражать их определенным образом, и в разных обществах эта система работает по-разному. С другой стороны, нейрофизиология едина и никак не зависит от общества. Это сложное сочетание социально-символического и нейрофизиологического, как мне кажется, может быть учтено только таким инструментом, как мультимодальный эмбеддинг, потому что он включает в себя все возможные модальности, по крайней мере те, до которых мы можем дотянуться: активность центральной нервной системы, периферическая активность, экспрессируемая вербальная и невербальная мимика.

— Получается, что вашей работой является вклад в создание искусственной личности, которая, как и человеческая личность, способна улавливать смысл по всем каналам восприятия?

— Нужно различать личность и эмпатию, и одно из другого с необходимостью вовсе не следует. Есть личности как некоторые нарративы, которые субъекты рассказывают сами о себе: «я кто-то», «я сегодня такой же, как вчера». Это представление о некотором самоподобии, которое развивается во времени, в психологии его и называют личностью. При этом есть личности, которые не обладают эмпатией, например психопаты. Если быть точнее, мы стремимся сделать вклад в создание искусственного интеллекта с эмпатией, но необязательно с личностью.

— Какое у этого может быть практическое применение?

— Например, это может быть суперкастомизированный собеседник или модератор дискуссии, который считывает флюиды группового взаимодействия и воздействует на него нужным образом. Такой скрам-мастер, который управляет командой в сложных ситуациях, начиная от анонимных алкоголиков и заканчивая модерацией правительственных заседаний.

— Похоже, что вы готовите софт для нейроинтерфейса, для обмена информацией между мозгом человека и электронным устройством. Так?

— Так далеко я пока не заглядываю, но давайте порассуждаем. На сегодня обсуждаются два варианта развития событий — инвазивные и неинвазивные нейроинтерфейсы, и это во многом зависит от того, как общество примет эту технологию. Первые очень недешевы и выглядят довольно опасными для большинства. Вторые пока не обладают датчиками достаточной степени чувствительности для получения большого объема характеристик, и их потенциал неясен.

Но, может быть, человечество пойдет по третьему пути, по пути создания мультимодальной сети, которая обучена на людях и способна восстановить нейромодальность по остальным модальностям — точно так же, как современная сеть восстанавливает звуки журчания по изображению реки. Для этого нужно просто набрать достаточное количество образцов. Тогда мы сможем вообще отказаться от всяких нейроинтерфейсов. То есть мы будем плотно окружены цифровым миром, который в момент прямого взаимодействия с нами сможет сразу же получать всю доступную информацию, самостоятельно достраивая необходимое.

— Как вы считаете, станут ли большие языковые модели еще одним инструментом или они поглотят все остальные модальности?

— С одной стороны, LLM можно сравнить с появлением интернета или созданием первого поисковика. С другой — интернет и поисковик не заменили собой все.

Я недавно прочел статью о создании большой языковой модели, которая была обучена на гигантском количестве экономических, финансовых, биологических и прочих временных рядов и теперь делает предсказания, используя все возможные взаимосвязи.

Но во многих ситуациях можно обойтись намного более простым решением и вместо 70 миллиардов математических операций сделать двухфакторную регрессию. Эта LLM отнюдь не впитала в себя годы искусства дата-инженеров и дата-аналитиков, которые умеют строить модели временных рядов. Она просто умеет предсказывать следующий токен в тексте, и точка.

Другое дело, что мы можем ее надстроить чем-то, и таких конструктов в ближайшее время, я думаю, появится много. Например, совместить LLM со знаниевым графом и еще какой-нибудь векторной базой данных. В конечном счете она станет массовым инструментом, который найдет свое повседневное полезное применение. Задача мне видится в том, чтобы продуктивно встраивать LLM и делать поверх нее нужные приложения. Это время придет, и мы увидим не только голосовых помощников с LLM, но и автопилотов и т.п.

— Глобальные перспективы. А что насчет рисков?

— Есть серьезное отличие LLM от существующих технологий и инструментов. Пока ни одному из них не удалось создать такую идеальную экосреду, которая бы полностью замыкалась на себя. Например, поисковик ведет пользователя на сайт с нужным контентом, а LLM не выпускает его из себя, и вся пользовательская активность концентрируется в ней самой. Это может быть потенциальной угрозой. LLM уже сейчас замыкает на себя очень многие активности, которые раньше распределялись по всей сети. Если Google сделал интернет общим, то LLM, наоборот, все атомизирует, при этом делает так, что создатели контента получают в итоге не читателей, а некоторую непроходимую стену. Это и угроза, и потенциальная точка борьбы. Если у LLM уже есть все для работы, все датасеты сформированы, то нет стимула для создания нового контента.

— Какие на сегодняшний день существуют барьеры для развития искусственного интеллекта?

— Существуют алгоритмы машинного обучения с учителем и без учителя, с самообучением. Большие языковые модели тоже обучаются, при этом используется комбинация различных методов. Если мы с вами говорим про искусственный интеллект, «под капотом» которого алгоритмы обучения с учителем, то неизбежно есть ограничение, связанное с набором данных. Он никогда не обобщится на что-то большее, чем то, что уже присутствует в его размеченном датасете.

Фото: iStock

Алгоритмы с самообучением ограничены отсутствием такой категории, как смысл. У LLM все в режиме автокорреляции: нейронной сетке абсолютно все равно, что посчитать — расходы на оружие и смертность или количество произведенных яиц и выращенных кур. Семантика вне поля их зрения.

Есть и чисто человеческие барьеры, связанные с принятием технологии, ожидаемой от нее пользой, социальным давлением. Но их все меньше: теперь у искусственного интеллекта появился самый простой и доступный интерфейс под названием «обычный человеческий язык», и оказалось, что его легко использовать. При этом нужен особый навык. Теперь, чтобы усилить проникновение технологии, «Яндексу», может быть, придется запустить олимпиаду по промпт-инжинирингу. Соревнования все любят.

— Если говорить о данных как о ресурсе, то сейчас есть избыток или недостаток? В том числе в вашем проекте.

— Данные — это самая главная проблема машинного обучения. Сбор, обработка, очистка, аугментация, ошибки в метках, разметка данных человеческими разметчиками — это все сложно и очень трудоемко. Данных много, но хороших среди них мало. Работа по выявлению закономерностей будет хороша настолько же, насколько хороши загруженные в нее данные. Мусор на входе — мусор на выходе.

То же самое в нашем случае с мультимодальными эмбеддингами. Если мы соберем хороший датасет, у нас все получится. Но нам нужно, чтобы аудио-, видео- и нейроданные были синхронизированными с точностью до миллисекунды. Где взять такой датасет? А если данные бесполезны, то незачем даже присваивать им статус существования.

Есть очень важное направление — датацентричный анализ данных, — которое занимается автоматизацией процедур, связанных с улучшением качества данных. И нам позарез нужны алгоритмы, которые улучшают качество данных.

— Как вы думаете, сможет ли искусственный интеллект играть более важную роль в образовании?

— Расскажу недавнюю историю. Мы недавно с коллегами были в Тюмени, в замечательном liberal university — School of Advanced Studies, который на самом деле часть ТюмГУ, где студенты первые два года только читают Платона, Аристотеля, Деррида и пишут эссе по этим великим книгам. Многие педагоги и даже некоторые студенты ругают почем зря ChatGPT, с помощью которого теперь пишутся эти эссе. Мы вместе с преподавателями School of Advanced Studies сидели и гадали, как полностью перепридумать liberal university в мире, в котором существует искусственный интеллект. В итоге первый курс, который сейчас называется “Academical Writing”, решили назвать “Academical Prompting”. Я не знаю, конечно, хватит ли смелости реализовать эту идею, но думаю, что в будущем вместо эссе по Платону все будут сдавать профессорам свои промпты (prompt — запрос, который формирует пользователь для нейросети. — Ред.) и обсуждать мы будем промпты. Ведь в тех промптах, которые студент способен задать искусственному интеллекту про Платона, будет отражаться весь его персональный опыт прочтения Платона: если ты классно читал Платона, ты будешь писать и классные промпты.

Вот примерно такая история — мир полностью изменится. Вы будете жить в мире, в котором умение использовать ChatGPT будет не только преимуществом, но и абсолютно обязательным навыком. В этом следующем новом мире ChatGPT будет обыденным инструментом, а значит, придется учиться — и учить — продуктивно работать с ним.

Беседовал Сергей Сычев, ведущий эксперт ИСИЭЗ НИУ ВШЭ

Дата публикации: 26.01.2024

Будь всегда в курсе !
Подпишись на наши новости: