Иван Тараскин: «Настоящее и будущее ИИ — все книжки будут прочитаны уже к 2025–2026 году»

Иван Тараскин, фото из личного архива
Иван Тараскин, фото из личного архива

ChatGPT произвел революцию и поделил наш мир на до и после. Пока даже экспертам сложно представить, какое применение найдет эта технология в экономике и какие продукты будут созданы на ее основе, но уже точно ясно: навыки промпт-инжиниринга станут мастхэвом в ближайшие 5–10 лет. Откуда их взять и как использовать, рассказал главный эксперт Школы искусственного интеллекта Иван Тараскин.

Ученые Института статистических исследований и экономики знаний НИУ ВШЭ активно изучают перспективы и направления развития цифровых технологий. В рамках исследовательских проектов они беседуют с участниками рынка — ведущими ИТ-разработчиками. HSE Daily представляет серию таких экспертных интервью.

— Вы занимаетесь образованием в сфере искусственного интеллекта, учите бизнес практическому использованию ИИ для решения задач компании. Расскажите, какие продукты сейчас наиболее востребованы?

— Конечно, на первом месте ChatGPT, текстовая большая языковая модель. Не так давно появилась версия ChatGPT-4 Vision, которая позволяет в том числе работать с изображениями. Модель очень умная и произведет настоящую революцию в индустрии, которая занимается разработкой узких моделей видеоаналитики.

Также я занимаюсь популяризацией Midjourney и модели DALL-E от OpenAI, которые генерируют картинки по тексту. Если говорить про российские продукты, то это «Шедеврум» от «Яндекса» и Kandinsky от Сбера — очень хорошие аналоги генеративных моделей по изображениям, а в части генерации текста — GigaChat от Сбера и YandexGPT. Обе компании активно развивают свои продукты, и каждая новая версия заметно лучше предыдущей.

— Российские языковые модели сильно отстают от западных?

— Отстают с точки зрения объема данных и вычислительных ресурсов. Около 80% всех данных в интернете — на английском языке, а идея состоит в том, чтобы сделать обучающий датасет по большей части из русскоязычных данных. Теоретически можно надеяться, что модель «Яндекса» или Сбера, обученная на архитектуре GPT-3.5, будет понимать русский язык лучше, но из-за небольшого количества русскоязычных данных для обучения модели качество продукта проигрывает.

Это касается текстов, а с генерацией изображений мы чувствуем себя достаточно уверенно. На мой субъективный взгляд, качество сопоставимо. Но чтобы обучать модели, требуются большие вычислительные ресурсы, а пока мощные суперкомпьютеры в России могут себе позволить только «Яндекс» и Сбер. Но это все равно меньше, чем работает у Microsoft.

То есть обучить можно, но это займет много времени. Сейчас эта сфера очень быстро и динамично развивается, и объем ресурсов имеет большое значение. Пока мы отстаем примерно на полгода-год с точки зрения развития технологий. Пока еще не настало то время, когда мы сможем разрабатывать собственные архитектуры и создавать продукты в других направлениях.

Но при этом важно понимать, что в мире всего порядка 30 команд, которые способны взять архитектуру OpenAI в части GPT и повторить ее. Такие команды есть не во всех странах, а в России их несколько.

Фото: iStock

— Есть ли экспортный потенциал у того, что делают российские разработчики?

— Безусловно. Например, модель Kandinsky известна во всем мире, это глобальная история.

Что касается более прикладных продуктов, то, как в случае с OpenAI, это вопрос времени. Сначала нужно набрать аудиторию, потом включать монетизацию. Midjourney тоже сначала была бесплатной. Механизм понятен, и в долгосрочной перспективе ничего бесплатного не останется. Если разработка обучения ChatGPT стоила 500 миллионов долларов, то, наверное, ожидается, что эти затраты будут компенсированы.

— Какие сценарии развития генеративного искусственного интеллекта сейчас наиболее вероятны?

— Я постоянно изучаю различные отчеты и исследования в этой области и могу сказать, что сейчас эксперты видят два пути развития ИИ: вширь, то есть в сторону универсальности, и вглубь, то есть в сторону специализации ИИ для конкретного домена знаний — медицина, ритейл, банки или что-то еще. Пока нет понимания, какой путь в приоритете, так как технологическая революция в этой сфере произошла совсем недавно.

Думаю, ответ на вопрос во многом зависит от горизонта планирования, ведь пока готовых продуктов еще не слишком много. На сегодня есть технология и первые публичные массовые мультимодальные модели, которые работают на стыке текста и изображений. Фокус на мультимодальность — это главный тренд: сейчас у нас есть текст и изображение, потом будет видео, аудио, что-то еще — все возможные модальности. В ближайшие два-три года это направление станет ведущим.

Стратегия OpenAI заключается в разработке сверхсильного искусственного интеллекта. Для этого обучают модель, которая имеет четыре модальности плюс код, и это уже очень сильно похоже на концепцию сверхсильного искусственного интеллекта общего назначения.

Но есть проблема: потенциал текстовых данных, на которых можно обучать большие языковые модели, скорее всего, будет исчерпан к 2025–2026 году — все книжки будут прочитаны, и все модели на них будут обучены. Чтобы двигать прогресс, нужно переходить к трудноизвлекаемым данным.

Наш анализ рынка ИИ, проведенный в прошлом году, показал, что только 5–10% данных разработчики получают из открытых источников. Все остальные данные получены от источников из внутреннего контура — из управленческих систем и так называемых анонимизированных клиентских данных.

Большие языковые модели — это большая печка, которая постоянно требует большого количества данных, и придется либо повышать качество датасетов, либо менять алгоритмы.

— При этом вы не исключаете, что развитие может пойти по пути специализации?

— Мне кажется, что в ближайшие годы на базе универсальных технологий будут появляться узкоспециализированные продукты. С появлением ChatGPT исчезло очень много продуктов, например узкоспециализированные модели, которые занимались рерайтингом, делали краткое изложение текста или создавали заголовки для статей. В них просто больше нет потребности, потому что большая языковая модель решает эту задачу лучше.

С появлением ChatGPT Vision то же самое может произойти с видеоаналитикой. На стыке текста и изображения вообще нереальное количество возможных сценариев. Например, понимание контекста происходящего на изображении: не просто найти людей и посчитать их, а понять, во что они одеты, какие у них эмоции, и даже предсказывать, что произойдет дальше. Сценарии настолько глубокие, что кажутся фантастичными, и пока непонятно, как это будет применяться.

Уже в этом году многие существующие продукты будут закрываться, исчезать либо делать радикальную смену вектора своего развития. Все будет зависеть от потребностей рынка, от востребованности тех или иных механизмов.

С точки зрения создателя продукта, это просто некое удешевление технологии: не нужно разрабатывать индивидуальные модули, берешь универсальную технологию и разрабатываешь продуктовые сценарии. А для клиента это повышение качества аналитики и расширение сценариев. Но нужно время, чтобы люди осознали, что качественная аналитика приведет к новым результатам в бизнесе.

— Помимо больших языковых моделей, какие еще события 2023 года стали, на ваш взгляд, ключевыми в этой сфере?

— Создание продуктов, связанных с генерацией кода. Например, Copilot, который встроен в GitHub. Это самый успешный в мире коммерческий продукт, связанный с генеративным AI. Он сейчас вышел на выручку в 100 миллионов долларов в год. Я читал, что на сегодня 50% всего кода на GitHub сгенерировано с помощью Copilot, что говорит об определенном качестве кода.

— На ваш взгляд, попытки ограничить развитие ИИ вопросами этики и толерантности — это перспективное направление или такое вмешательство только затормозит процесс и не даст ожидаемого эффекта?

— Сейчас территория искусственного интеллекта — это территория свободы. Нет никаких формальных, нормативных, регулятивных ограничений по применению технологии. Никто не вмешивается в процесс. Возможно, потому, что алгоритмы трудно объяснить, особенно когда речь идет о генерации кодов.

В том году CEO OpenAI Сэм Альтман потратил целых полгода, чтобы проехать по миру и убедить мировых лидеров в том, что технология, которую они разрабатывают, безопасна. Очевидно, что этот вопрос тревожит многих. Известны проблемы утечки данных, загруженных в модель, но сейчас есть возможность стирать историю, чтобы модель не обучалась на конкретных данных. Также ввели правило, что при работе с ChatGPT API модель априори не обучается на данных пользователя. То есть проблема постепенно решается.

Фото: iStock

Введение цензуры будет очень сильно сдерживать прогресс, поэтому сейчас стараются не ввводить избыточных правил, которые ограничивают выдачу. При этом мы видим правила, связанные с потенциальным нарушением закона, со взломом кода, с порнографией и т.п. В целом я считаю, что сейчас не перегибают палку. Рано или поздно, когда технология станет зрелой, скорее всего, мы вернемся к вопросам безопасности.

— Текущий уровень развития искусственного интеллекта уже соответствует задачам, которые стоят перед экономикой?

— На сегодняшний день есть только волна оптимизма, но еще нет истории успеха. Исследования показывают, что полномасштабное внедрение технологии искусственного интеллекта во всех сферах экономики России даст совсем небольшой прирост ВВП, на уровне 1–1,5%.

Исследование МФТИ оценивает объем российского рынка ИИ в 2022 году в 650 миллиардов рублей. Половину этого рынка занимают «Яндекс» и VK, которые делают основную выручку на интернет-рекламе, а технологии машинного обучения используют как инструмент для повышения эффективности и функциональности продукта.

Если говорить о западных исследованиях, то самый оптимистичный прогноз — у Bloomberg: через 10 лет глобальный рынок генеративного AI достигнет 300 миллиардов долларов. Сейчас есть OpenAI со своим ChatGPT API, который в этом году даст выручку 200 миллионов, а в следующем году — 1 миллиард долларов. То есть должно появиться 300 таких же инструментов, как ChatGPT, либо продуктов на базе ChatGPT, и в принципе это кажется реалистичным.

— В России создают продукты на основе этой платформы?

— Сейчас работа по разработке и созданию продуктов только начинается. Создание продуктов — это очень тяжелая история, и главная проблема не в генерации идеи, а в разработке и продвижении. С продуктами вероятность успеха мала, а стоимость высокая.

Кроме того, напрямую легально использовать ChatGPT API сейчас нельзя, потому что он официально с Россией не работает. Можно это обходить через VPN, но это тяжело. Поэтому все увидели, что большие языковые модели — это классная технология, но, чтобы не платить за API, берут модель open source и обучают ее для себя, чтобы развернуть в своем контуре.

Методология создания продуктов универсальна, и все зависит от того, кто быстрее найдет платежеспособный спрос. Продуктовых гипотез может быть масса, а вот проверять их очень дорого. Кто это сделает, тот и победит. Скорее всего, потребителями продуктов на базе AI-технологий будут те же самые компании, которые сейчас потребляют продукты на базе технологий машинного обучения: ритейл, банки, страховые компании.

— Какие трудности при внедрении ИИ-технологий самые значительные?

— До недавнего времени начало проектов чаще всего блокировало отсутствие данных: либо их недостаточно, либо они вообще никогда не собирались, либо их качество хромает.

Сейчас, с появлением генеративного AI, основная сложность заключается в осведомленности и умении пользоваться инструментом, то есть в образовательном барьере. Я это очень остро чувствую. Компании, которые никогда ранее не занимались внедрением AI-решений, хотят в экспресс-режиме разобраться, что это такое и как это можно использовать. Поэтому сейчас так высок запрос в стратегических сессиях на семинары по внедрению искусственного интеллекта в бизнес.

— На ваш взгляд, промпт-инжиниринг — это важная компетенция? Ей надо дополнительно обучаться или она просто сейчас на волне?

— Это самый главный практический аспект внедрения AI-инструментов в бизнес. Навык использования этих моделей — это как раз навык промпт-инжиниринга. Отсутствие промпт-компетенций — сейчас главный блокер на пути внедрения LLM-инструментов в бизнес.

Я полагаю, что на горизонте 5–10 лет при устройстве на работу это будет такой же обязательный навык, как аттестат о среднем образовании или знание алфавита и таблицы умножения.

Возможно, в будущем промпт-инжиниринг будет включен в контур LLM, чтобы машина переводила на свой язык то, что говорит человек, и сама пыталась его понять. Но до этого еще далеко, поэтому осваивать промпт-инжиниринг однозначно нужно.

Беседовал Сергей Сычев, ведущий эксперт ИСИЭЗ НИУ ВШЭ

Дата публикации: 21.02.2024

Будь всегда в курсе !
Подпишись на наши новости: