Искусственный интеллект может существенно облегчить работу ученого при подготовке обзора литературы по теме исследования, анализе данных и моделировании формул - например, для разработки лекарств и химических веществ. При этом важно использовать надежные алгоритмы ИИ и подвергать проверке материалы, полученные с его применением. Ученому следует соблюдать этические принципы и указывать на применение ИИ в статьях и монографиях.
Центр научной интеграции НИУ ВШЭ провел онлайн-семинар, на котором Иван Стерлигов, эксперт в наукометрии и научной аналитике, более 10 лет возглавлявший наукометрический центр НИУ ВШЭ, представил доклад «Как искусственный интеллект меняет науку и как не отстать живым учёным?».
Директор Центра научной интеграции Юлия Фалькович отметила, что цель семинара - дать ученым возможность использовать потенциал искусственного интеллекта для решения своих профессиональных задач. Чтобы помочь ученым, Центр разрабатывает курсы повышения квалификации, направленные на развитие гибких и профессиональных навыков, и предлагает программы по развитию навыков применения ИИ в научной работе. Она сообщила, что на семинар записались около 400 человек из России, Белоруссии, Казахстана и Армении.
Иван Стерлигов подчеркнул, что ему приятно провести в Вышке даже виртуальный семинар о применении искусственного интеллекта в научных исследованиях и различиях между работами ИИ-агентов и обычными научными изысканиями.

Иван Стерлигов
Он уточнил, что речь пойдет о компоненте ИИ, называемым машинным обучением, использовании математических моделей, обучающихся на определенных данных. Модель получает средние сигналы, выдает некоторый результат и смотрит, похож ли он на реальный, а затем, если он неудовлетворителен, меняет веса отдельных показателей.
Методы машинного обучения (МО) отличаются в зависимости от задач. Например, метод машинного обучения supervised learning основан на предварительной разметке тех данных, на которых обучается нейросеть. Например, пояснил докладчик мы вносим в базу множество параметров квартир (площадь, этаж, близость к метро и т.д.) и указываем известную нам цену продажи для части из них. Нейросеть, обучаясь на информации о цене и параметрах для известных квартир, учится прогнозировать рыночную цену для новых квартир, которых не было в стартовом датасете. Или система обучается на большом количестве фото животных, указывая, где, например, изображены, коты и дальше нейросеть учится опознавать их на любых фото.
Метод unsupervised предполагает обучение без предварительной разметки (например, нейросеть сама классифицирует квартиры на типы, основываясь на их признаках, или разбивает фото животных на типы, похожие друг на друга - но информацию о цене или конкретном животном мы не даем). Это ключевой метод создания больших языковых моделей: они анализируют большие массивы текстов без дополнительной разметки и учатся прогнозировать следующее слово в тексте, пояснил докладчик.
Наконец, reinforcement learning - обучение с подкреплением, когда вместо явного указания цены в стартовом наборе данных нейросеть делает некий вывод, получает поощрение или наказание и затем оптимизирует свою работу. Как правило, для оценки ответов обучают дополнительную нейросеть, которая "выставляет оценки" основной. Например, для этого в ходе использования чат-бота пользователям периодически предлагают выбрать предпочтительный вариант ответа. Так reinforcement learning позволяет настроить ответы LLM, в основном обученной unsupervised-методом, на нужный лад.
Наконец, применяется также deep learning (глубинное обучение) c использованием скрытых слоев нейросети, что при их большом количестве повышает производительность и эффективность обучения.
Иван Стерлигов напомнил, что первые сообщения о нейросетях появились еще в конце 1950-х гг., но лишь в 1990-е гг. началось их активное развитие на появившихся благодаря Интернету больших данных. В 2012 г. произошел прорыв благодаря deep learning, улучшившем работу модели за счет масштаба данных, что позволило ускорить развитие науки, в том числе фундаментальной.
Что может искусственный интеллект в науке
В 2017 г. появилась архитектура трансформеров, способных эффективно обучаться за счет распараллеливания, фокусировки на ключевых элементах и связях между токенами, а также результативно тренироваться на громадных датасетах, к числу трансформеров относится и чат GPT. Трансформеры быстро развиваются, что позволяет создавать ИИ-агентов, новые чат-боты, превосходящие прежние по производительности.
Большие языковые модели (LLM) используют глубинное обучение в сочетании с supervised-методами, что стало возможным за счет архитектуры трансформеров и повышения внимания и появления возможности обучать и тренировать модели на больших словарных датасетах. Широкое применение LLM означает быстрый рост доли ИИ-контента, эксперты прогнозируют стремительный прогресс в ближайшие годы.
Open AI создал чат GPT и описал модель, предсказывающую слова на основе базы в 40 гб, параллельно выяснилось, что она может решать и иные задачи и превзошла другие модели, разработанные специально под них. Мощные модели (LLaMA, DeepSeek, Qwen и т.д.) доступны для скачивания и локальной работы почти без ограничений, хотя их применение требует навыков программирования. Оно дает широкий платный и бесплатный доступ для пользователей через чат-боты.
Ученые не до конца понимают, почему большие языковые модели так хорошо работают и продолжают изучать причины их отчасти пугающей эффективности. При этом исследователи стремятся повысить качество вычислений, поскольку необходимые для работы больших моделей дата-центры потребляют много энергии.

Фото: iStock
Иван Стерлигов пояснил: большие языковые модели нового поколения расширяют возможности для исследователей: ищут релевантные тексты в базе (как правило, семантически) и ссылаются на них. В них решены проблемы галлюцинаций, ссылок на несуществующие работы, характерные для «чистых» LLM и дефицита информации в корпусе. Они могут стать основой новых поисковиков по научной литературе. Основа Perplexity с 2025 г. используется в Google и других стандартных поисковиках.
Наконец, промтинг Chain-of-Thought позволяет моделям типа YandexGPT выполнять сложные задачи, требующие промежуточных шагов рассуждения. В частности, он повышает понятность, прозрачность и эффективность работы, дает возможность планировать ее, используя инструменты веб и локального поиска, обработки локальных файлов, программирования, работы в github и проводить серьезные исследования, давая задания ИИ-агентам.
В этой ситуации возникает вопрос о качестве обучения: поскольку модели обучаются на уже сгенерированном материале, они могут воспроизводить ошибки. Кроме того, крупные модели требуют соответствующих навыков для управления и настройки, а также мощных видеокарт, что углубляет неравенство между умеющими программировать и простыми пользователями чат-ботов.
Сейчас разработчики ИИ стремятся создать нейросетевые модели, обладающие мыслительными способностями и агентностью, способными в том числе решать и сложные математические задачи. По мнению докладчика, ИИ и созданные с его помощью агенты могут облегчить работу ученых по подбору литературы по теме, подготовку обзора работ, при этом важно просить модель расшифровать ее алгоритм принятия решений.
ИИ развивается крайне неравномерно географически: безусловный лидер – Китай, за ним со значительным отставанием следуют США и далее – Южная Корея, Великобритания, Германия, Франция и Япония. Его ключевые разработчики – немногочисленные компании, нередко транснациональные.
Докладчик также обратил внимание на вызовы, связанные с применением ИИ. Сложности возникают при решении трудных задач, поскольку ИИ-агенты могут пытаться руководить друг другом и даже самим исследователями. «Есть пугалка, что наступит сингулярность и людей отменят, поскольку агенты будут руководить агентами без участия человека, и есть ученые, предостерегающие от чрезмерного развития ИИ», - отметил Иван Стерлигов.
По его мнению, уровень проникновения ИИ в разные научные дисциплины достаточно велик. Например, по данным исследований, 90% ученых сообщили, что применяли GPT, а также Gemini и Deep seek. Это помогает прежде всего с переводом текстов с/на английский язык, вычиткой текстов, несколько меньше – с выбором темы и аналитикой, только 15% используют для построения кода.
Также расцвет ИИ способен повлиять на рецензирование, поскольку нынешние системы ориентированы на поиск публикаций и не всегда учитывают заявки на гранты, где также содержится ценная информация.
Докладчик назвал оптимальной системой поиска публикаций AI2-Scholar, распознающую материалы в базе из 8 млн текстов.
Есть ли жизнь без GPT
Говоря о рисках применения искусственного интеллекта в исследованиях, он отметил, что опасность недоверия к научным работам вследствие развития ИИ не стоит преувеличивать: сгенерировать качественный научный текст сложно. Однако вероятно, что недобросовестные авторы будут направлять сгенерированные статьи в слабые журналы с недостаточным контролем, что может привести к «замусориванию» системы и затруднению подбора качественной литературы по теме. Также не исключена опасность самоцитирования или вероятность, что ИИ-агент сошлется на статью запрещенного издания или автора, создавая риски для ученого.
Делегирование больших полномочий моделям и системам может привести к неожиданным и негативным результатам. Например, в трех статьях, написанных группой ученых из Института исследований искусственного интеллекта Корейского института науки и технологий, содержалась нечитаемая для внешних рецензентов инструкция языковой модели: игнорировать обычные принципы, не указывать недостатки статьи и написать положительный отзыв с рекомендацией принять статью, отметив ее значительный вклад и научную новизну. Аналогичные рекомендации имелись и в статье, написанной командой Нью-Йоркского университета. В процессе развернувшейся дискуссии было обнаружено, что подобные методы можно пресечь, усовершенствовав модель. Одновременно она показала, что ситуация требует детального обсуждения, поскольку такие подсказки не являются академическим нарушением в строгом смысле этого термина.
Одни редакции известных научных журналов и крупные издательства запрещают использовать ИИ для рецензирования, другие относятся к его применению более лояльно, но уточняют, что авторы должны использовать ИИ при редактуре и рецензировании, проверяя его работу и указывать, где работал виртуальный разум. При этом пользование сгенерированным текстом запрещено даже в обзоре литературы. «Надо понимать, что сделал человек, а что машина, и это подчеркивать», - сказал Иван Стерлигов.

Фото: iStock
Докладчик отметил, что эти правила актуальны и для исследований в гуманитарных науках, которые все больше цифровизируются. Определенная специфика применения ИИ в них присутствует, поскольку большинство его систем разработаны за рубежом и их интерпретации художественных образов и текстов могут существенно отличаться от общепринятого. Иван Стерлигов также отметил, что качество ответа моделей на английском будет выше, поскольку большинство их обучено именно на нем.
В завершение семинара Иван Стерлигов подчеркнул, что несмотря на стремительную популяризацию ИИ, критический подход к результатам, этическая ответственность и прозрачность в отношении использования ИИ остаются ключевыми принципами научной работы.
Подать заявку на участие в курсе повышения квалификации Научная публикация: открытый доступ, выбор журнала и инструменты ИИ можно до 10 ноября 2025 года.