Насколько интерпретируемость важна для машинного обучения? Зачем она вообще нужна? Для чего она в информационной безопасности?
Меня эти вопросы начали интересуют уже около полугода, и в фоновом режиме я собирал источники, читал исследования, и искал применимость этого направления для ИБ.
Я Борис Захир, автор канала «Борис_ь с ml», где рассказываю про синергию машинного обучения и информационной безопасности. В этой статье я расскажу, что такое интерпретируемость и насколько для ее применения готова документная и нормативная база за рубежом и в России, а также предоставлю вам список ссылок по найденной мною теории и практике за эти полгода по теме XAI (eXplainable AI).
Введение на примере ИБ
С чего начинается волнение руководителя службы кибербезопасности, когда речь заходит про применение машинного обучения (и если быть честным - конкретно LLM) в процессах SOC (Security Operations Center)? С данных, конечно. Если они содержат конфиденциальную информацию, то обучение модели на этих данных создает дополнительную поверхность атаки. Что порождает череду дополнительных вопросов: насколько много модель взяла из конфиденциальных документов? Какие именно части модели за это отвечают? Если такие части модели (считай, определенные веса) можно определить, то можно ли всю конфиденциальную информацию из модели вырезать?
Исследования Anthropic, Microsoft и Apple направлены на то, чтобы иметь возможность однозначно давать ответы на эти вопросы, и точечно корректировать знания модели. Про Microsoft LASER я писал раньше, про статью Anthropic "Towards Monosemanticity: Decomposing Language Models With Dictionary Learning" на тему групп моносемантичных нейронов - тоже. Apple в ноябре 2024 также внесли вклад в данную область - показали, как можно вычислить супервес у LLM - такое число, обнуление которого приводит к коллапсу качества модели. Я уверен, далее получится найти и "тематические супервеса", или группы таких весов, которые при обнулении помогут подавлять способность модели производить нежелательные генерации. Например, если это агент, то модель надо отучить выполнять команду "rm -rf", к примеру. Или запутывать других агентов при взаимодействии с ними. Однако агенты - совсем другая история, ее я затрону как-нибудь в другой раз.
Посмотрим с другого ракурса - применение LLM в SOC для закрытия инцидентов, тот самый Security Copilot, о котором на прошедшем в 2024 году "SOC Форуме" так много говорили. Большому и нагруженному SOC страшно не то что доверить выполнение задач, по которым есть SLA, какой-то LLM, а даже допустить ее влияние на решения аналитиков - мало ли что этот "размытый jpeg интернета" насоветует. Поэтому хорошо бы проверять, на чем основывалась модель при выдаче каких-то рекомендаций, чтобы аналитик хотя бы мог определить, адекватная ли была у модели "цепочка мыслей", или нет (здесь, кстати, хорошо заходит использование моделей с reasoning-токенами, умеющих в ChainOfThoghts). В этом направлении есть интересное исследование про то, что по определенным токенам модели можно понять правдивость информации. А вот еще одна статья от Anthropic, где авторы показывают, какие токены из обучения больше всего повлияли на данный конкретный ответ. Такие разработки напрямую можно использовать для того, чтобы получить ответ на вопрос "почему LLM порекомендовала аналитику SOC удалить вот этот файл?".
Чтобы получше разобраться в теме и определить уровень прорывных исследований про объяснение работы ИИ-моделей к применению в бизнесе, давайте пробежимся по зарубежным и отечественным документам регуляторов и научным трудам в этой области. А в конце будет вывод - насколько велика сейчас готовность этой технологии для ее применения в практических кейсах, например в кибербезопасности.
Что такое интерпретируемость?
Зарубежная регуляторика
Выделяющиеся труды на тему интерпретируемости моделей в целом информационных систем предоставляет американский National Institute of Standards and Technology (NIST). В Four Principles of Explainable Artificial Intelligence (NISTIR 8312) от сентября 2021 авторы утверждают, что объяснимой (т.е. интерпретируемой) система может считаться, если она способна предоставлять объяснение. На самом деле это совершенно не стандартизирующий документ, а исследование, как и следующий, но за неимением иного отражения позиции регулятора, рассмотрим их.
Объяснение, как термин, определяется следующим образом: это доказательства, поддержка или обоснования, связанные с выводами системы или её процессами. Вывод системы может означать:
результат, который система предоставляет
действие, которое она выполняет при выполнении задачи.
Тип вывода зависит от задачи: для системы оценки кредитов это может быть решение "одобрено" или "отклонено"; для рекомендательной системы — список фильмов; для системы проверки грамматики — перечень ошибок и рекомендации. В случае классификации это может быть класс входного объекта (медицинского снимка или письма электронной почты), а для системы автономного вождения — генерируемые маршруты.
Процессы системы - это ее процедуры, устройство, документация и данные, использованные при разработке. В общем, на определении процессов авторы особо не фокусировались.
В NISTIR 8312 утверждается, что объяснение должно удовлетворять следующим трём требованиям:
Понятность целевому потребителю результатов работы системы.
Оно должно корректно отражать истинные причины происходящих процессов и генерируемых выходов.
Объяснение находится только в рамках знаний, в которых функционирует система.
Зачем же нужна объяснимость информационных систем?
Улучшение качества принятия решений за счет лучшего понимания причин рекомендаций и учета ошибок логики рекомендательных систем
Соблюдение нормативных требований. Например, в статье 13 GDPR (пункт 2.f) указано, что при автоматизированном принятии решений требуется иметь возможность обосновать его логику. То же самое примерно востребовано и американским документом FCRA (Fair Credit Reporting Act), параграф 615.a.4.b.
Запрос на доверие к системам ИИ авторы отмечают в области медицины, юриспруденции, финансах.
NIST Psychological Foundations of Explainability and Interpretability in Artificial Intelligence (NISTIR 8367) от апреля 2021 говорит более конкретно именно о машинном обучении и его интерпретируемости и объяснимости, трактуя эти два термина различно.
Объяснимость модели - возможность системы предоставить механистическое описание принятия своего решения. В то время как интерпретируемость - способность системы предоставить выходные данные такие, что человек может извлечь из них смысл для конкретного случая использования. Такое разделение понятий объяснимости и интерпретируемости, как утверждают авторы, может стать базовым принципом для основополагающих стандартов по проектированию объяснимых и интерпретируемых систем машинного обучения. Предполагается, что в таких стандартах будут изолированы технические особенности проектирования от конкретных функциональных требований системы.
Документ очень обширный, и я рекомендую его к прочтению. Авторы затрагивают исторический контекст проблемы, предлагает свой взгляд на процесс понимания людьми друг друга и результатов работы автоматизированных систем, отдельно рассматривает разность восприятия результатов специалистами и не-специалистами, а также приводит примеры реализации решений различных частных задач интерпретации (как всем известные LIME, SHAP, так и тепловые карты важности участков изображения при его классификации).
Раскрою немного подробнее главу 2, где авторы немного погружаются в экспериментальную психологию, и накладывают ее на взаимодействие людей и моделей машинного обучения. Цель авторов - доказать, что интерпретируемость и объяснимость являются разными требованиями к системам машинного обучения. Из психологии авторы апеллируют к литературе, относящейся к интерпретации (особенно числовых стимулов) и пониманию.
Авторы обнаружили, что интерпретация - это способность определить контекст выходных данных модели таким образом, чтобы связать их с разработанным функциональным назначением системы, а также целями, ценностями и предпочтениями конечных пользователей.
В отличие от этого, объяснение - это способность точно описать механизм или реализацию, которая привела к выходу алгоритма, часто для того, чтобы алгоритм мог быть улучшен каким-либо образом.
Интерпретация более человеческое и субъективное понятие, а объяснимость - более объективное. Интерпретация строится на основе гистов (gist) - категориальных и порядковых. Слово "gist" означает суть, и авторы раскрывают его как ментальное представление получаемой информации. Та ее часть, которая требуется человеку для принятия решений. Однако, дабы не коверкать русский язык, я буду применять слово "смысл" вместо "гист". Один из базовых категориальных смыслов - различение понятий "сколько-то" и "нисколько". Например, есть некоторые специалисты, работающие над двумя моделями машинного обучения для задачи классификации - kNN и наивный байесовский классификатор. Оценивая эти классификаторы, они, например, могут заметить, что классификатор kNN имеет точность (precision) 52,4% в задаче двоичной классификации. Это означает, что у него «практически отсутствует» точность прогнозирования (так как 50% — это все равно что случайное подбрасывание монеты). Примечательно, что эта оценка требует некоторых базовых знаний: 1) что существует только два класса; 2) что классы сбалансированы в обучающей выборке. В то время как, наивный байесовский классификатор имеет точность 26,7%, что, хотя и является меньшим значением, также должно быть классифицировано как имеющее суть «некоторой точности», поскольку специалист поймет, что для двоичных классификаторов точность 26,7% эквивалентна точности 73,3%, если просто перевернуть метки классов. В противоположность этому, новичок, применяющий дословные правила, может ошибочно считать, что наивный байесовский классификатор менее полезен, чем kNN.
В конце концов, авторы венчают свою логику теорией нечетких следов (fuzzy trace theory). Она утверждает, что люди формируют два типа ментальных репрезентаций о прошлом событии: дословные и основные следы. Основные следы — это нечёткие представления о прошлом событии (например, его итоговом значении), а дословные — подробные представления о прошлом событии. И вот как раз categorical gist и ordinal gist - это основные следи логики, которая характеризует специалистов относительно не-специалистов.
В документе есть раздел 3.2, посвященный примерам инструментов объяснения решений моделей ИИ. Например, Gradient-weighted ClassActivation Mapping(Grad-CAM) предлагает объяснение работы моделей классификации изображений. Он показывает в виде тепловой карты на изображении, какие пиксели вносят наибольший вклад в классы, между которыми выбирает нейросеть.
Зарубежная наука
В отдельных зарубежных научных источниках рассматривают («Interpretable machine learning: definitions, methods, and applications», 2019) этот вопрос с точки зрения так называемых методов интерпретации, представляющих требуемые структурированные знания их данных в виде визуализаций, естественного языка, или математических уравнений. Выделяют два вида таких методов:
нацеленных на модель (model-based). Их результатом является извлечение знаний из самих ML-моделей, синтезированных ею в процессе обучения.
нацеленных на предсказания (post hoc). Их результатом является извлечение знаний о взаимосвязях между отдельными предсказаниями модели и отдельными элементы обучающих данных, которые повлияли на генерацию именно такого предсказания.
Исследователи из Университета Беркли, являющиеся авторами этой статьи, подошли к вопросу построения онтологии и формулировке определений не с точки зрения восприятия человеком информации от модели, как их коллеги из NIST, а с более практической. Их определения, по сути, исходят из практических шагов по осознанию смысла в моделях машинного обучения. И отдельно мне нравится эта статья за обилие ссылок на методы, группировку и категоризацию которых они предлагают.
Итак, авторы в своей статье полагают, что методы, нацеленные на модель (model-based), представляют собой класс подходов, направленных на построение таких моделей, которые изначально являются интерпретируемыми благодаря своей структуре и способу работы. Наличие у моделей этого свойства достигается за счёт конструктивных ограничений моделей, таких как разреженность параметров, модульная структура или использование простых, симулируемых моделей (например, деревьев решений). Эти подходы, хотя и могут снижать точность предсказаний на сложных наборах данных, дают высокий уровень описательной точности и часто позволяют сразу же выявить ключевые зависимости. Post hoc методы, в отличие от model-based, применяются уже после обучения сложных моделей, чтобы извлечь и проанализировать заложенные в них зависимости. Среди данного вида методов авторы приводят в пример различные визуализации (например, значимые для принятия решения области снимка при анализе мозговой активности), статистический анализ важности признаков или анализ взаимодействий между признаками. Они позволяют получить понимание работы сложных "чёрных ящиков", а их основное преимущество — возможность работать с любыми типами моделей, включая нейросети.
В своей статье я рассмотрю только некоторые из model-based методов, так как они предлагают прямой подход к достижению интерпретируемости через упрощение самой модели, что кажется мне просто наиболее интересным.
Методы на основе разреженности используют ограничение количества параметров модели, чтобы выделить только наиболее значимые признаки. Это достигается с помощью регуляризации, например, через LASSO-регрессию или Sparse Canonical Correlation Analysis (SCCA), которые накладывают штрафы на избыточное количество коэффициентов. Такой подход упрощает структуру модели и делает её интерпретацию доступной. Например, в задачах анализа геномных данных разреженность помогает сосредоточиться на нескольких ключевых взаимодействиях, что полезно как для анализа, так и для визуализации данных.
Симулируемость, в свою очередь, подразумевает способность человека воспроизвести процесс принятия решений моделью. Модели, основанные на деревьях решений или списках правил (if-then), являются яркими примерами подходов с высокой симулируемостью. Такие модели интуитивно понятны и пользователь может легко проследить, как каждое правило приводит к конкретному результату. Это особенно важно в задачах, где прозрачность критична, например, в медицине. Правила вроде "если возраст пациента выше 60 лет и имеется гипертония, то риск составляет 70%" позволяют экспертам интуитивно проверять правильность рекомендаций.
Инженерия признаков, как третий ключевой подход, сосредоточена на создании информативных признаков, которые не только улучшают точность модели, но и упрощают её интерпретацию. Признаки могут создаваться как на основе знаний о предметной области, так и с использованием методов анализа данных, таких как PCA или автоэнкодеры. Например, в климатологии выделение ключевых признаков, связанных с формированием облачного покрова, помогает разрабатывать простые модели классификации, понятные как инженерам, так и климатологам.
Отечественная регуляторика
28 октября 2024 был опубликован ГОСТ Р 71476-2024 «Искусственный интеллект. Концепции и терминология искусственного интеллекта», вступивший в силу 1 января 2025 года. Это переводная версия ISO/IEC 22989:2022, содержащая все самые главные понятия из области ИИ в целом, и машинного обучения как его подраздела. Начиная от понятия «когнитивные вычисления», заканчивая определением «сеть с архитектурой долгой краткосрочной памяти», или, как говорят в наших деревнях, LSTM. ПО сути - альманах современного машинного обучения и ИИ.
Касаемо интерпретации, в данном документе есть и раскрытие таких понятий, как «объяснимость», «прозрачность», «предсказуемость», и еще нескольких с первого взгляда непонятных слов. Направление мысли при этом совпадает со статьей «Interpretable machine learning: definitions, methods, and applications». Цитата из ГОСТа: «Объяснимость — это свойство системы ИИ предоставлять в понятном для людей виде информацию о существенных факторах влияющих на результаты ее функционирования». Определение, можно сказать, совпадает с post hoc interpretability из статьи выше.
Нормативный документ уделяет большое внимание созданию универсального языка для описания систем ИИ, структурирует ключевые этапы работы с системами ИИ через понятие их жизненного цикла. Одному только списку терминов посвящено 10 страниц. А остальные 35 страниц содержательного текста - их расшифровке и подробному раскрытию. Например, помимо содержания классических этапов ЖЦ информационных систем (раздел 6), акцент делается на управлении данными и обеспечению их прозрачности на всех этапах, что включает предоставление пользователям и разработчикам доступной информации о работе системы. И указано, что «объяснимость» и «прозрачность» являются важными факторами, которые необходимо принимать во внимание при проектировании ИИ-системы. Помимо управления данными, довольно много внимания в процессах ЖЦ ИИ уделяется мониторингу, пересмотру и обработке рисков на разных этапах цикла.
ГОСТ довольно обширный, и вводит многие интересные понятия, хоть и про интерпретацию напрямую не так уж много. Например, определяется суть агента (первое определение в документе), даются его схема, разновидности, и алгоритмы работы (раздел 5.2). Описывается понятие "знаний модели" как абстрагированная информация об объектах, событиях, понятиях и правилах, их взаимосвязях и свойствах, организованная и упорядоченная для целенаправленного систематического использования. Или, иначе говоря, это то, что система сохраняет по итогам наблюдений за внешней средой.
Отечественная наука
На удивление, мне не встретилось значимых работ в этой области на русском языке. В качестве наиболее понятных и достоверных источников сведений могу предложить вашему вниманию учебные материалы двух российских высших учебных заведений - ВШЭ и МГУ.
ВШЭ. Лекции НУГ-InterpretableML-2020
Настоящая лекция, посвященная интерпретируемому машинному обучению. Слайды презентации, к сожалению, недостаточно наглядны сами по себе, но содержат интересные фрагментарные выкладки. Например, на 23 слайде отвечают на три вопроса:
Что такое интерпретации? Интерпретируемость — степень, до которой человек способен понять причины решения. Цель интерпретации — описание внутренней логики работы системы.
-
Зачем нужны интерпретации?
Обоснование принятия решений
Выявление смещений в моделях
Выполнение требований к “прозрачности” (GDPR)
-
Кому нужны интерпретации?
Разработчики моделей машинного обучения
Люди, принимающие решения (врачи, менеджеры)
Потребители продуктов с ИИ
Я так понимаю, по логике слайда, выявлять смещения в моделях заинтересованы разработчики, обосновывать принятие решений - врачи, а потребители ИИ-продуктов заинтересованы выполнять требования регуляторов. За рубежом есть требования по прозрачности в GDPR, как мы уже подробнее рассмотрели выше, а вот в России, кроме ГОСТа, носящего рекомендательный характер, я пока ничего больше не видел.
Далее в презентации дается небольшой перечень на зарубежные исследования по теме, и заводится повествование про глобальную интерпретацию как оценку значимости признаков, влияющих на предсказание. Рассказывается о методе ICE (Individual Conditional Expectation), показывающем изменение предсказания при изменении одной из переменных.
В некоем рассмотренном примере (на графике) показано, как я понял, как зависит фича Seniority от целевого признака, предсказываемого нейросетью. Каждая линия - объект данных, на которых делается предсказание, по вертикальной оси - процент изменения целевого признака, а по горизонтали - абсолютная величина изменения выбранного входного признака.
Дальше описывается локальная интерпретация как способа исследования конкретных примеров данных, чтобы понять, какие факторы привели тем или иным решениям модели. Например, к тому, что у клиента плохой кредитный статус.
В качестве конкретного прикладного инструмента - LIME, алгоритм которого описывается следующим образом:
генерируем искусственные данные вокруг примера
получаем для них предсказание согласно нашей модели
используем какую-нибудь интерпретируемую модель (дерево/регрессию), чтобы связать 1 и 2. Важно: данные мы взвешиваем, то есть те, что ближе к исходному примеру (согласно какой-нибудь метрике близости), весят больше
интерпретируем результаты (справедливо только для окрестности примера)
Отмечу, что на примерно той же логике, что и LIME, работают техники blackbox evasion-атак на классификаторы, такие как BoundaryAttack, его развитие HopSkipJump и ZooAttack. Реализацию этих атак, кстати, вы можете найти в библиотеке IBM ART.
В презентации приводятся названия и других инструментов локальной интерпретируемости: Accumulated Local Effects (ALE) Plot, SHAP (SHapley Additive exPlanations), Anchors (от авторов LIME, но результат в виде правил ЕСЛИ-ТО), Контр-примеры (“если я изменю признак Х, то предсказание изменится на противоположное”), Похожие примеры, Влиятельные наблюдения, и другие. Здесь не уточнено, и без ссылок. На первые два я сам добавил.
Что достаточно интересно, так это выводы автора лекции касательно недостатков методов интерпретации. Он акцентирует внимание на том, что они лишь приближают модель, а не реальность. И могут показывать другие результаты на другой модели, даже обученной на тех же данных. А также в этом кроется и проблема их неточности - как модель машинного обучения является некой аппроксимацией реальности, так и интерпретация - тоже аппроксимация, что работает, как "сломанный телефон".
МГУ. Онлайн-учебник по машинному обучению и нейросетям
Отличный образовательный и теоретический материал по машинному обучению в целом, как классическим моделям, так и нейросетям. И вот в первой части, посвященной именно машинному обучению, есть две главы: "интерпретация простых моделей" и "интерпретация сложных моделей". Описана также локальная и глобальная интерпретируемость, что в очередной раз коррелирует с model-based и post-hoc interpretability, те же самые LIME и ICE. Описано, как L1 (Lasso) регуляризация помогает объяснить веса простых моделей, и так далее. Пересказывать учебник не буду, так как там многое из того, что я уже написал, повторяется. Но в логичном, последовательном и сопровожденном математическими выкладками, виде.
Вывод
Зарубежная что регуляторика представляет собой, говоря начистоту, научные труды, с глубокими и развернутыми размышлениями на тему, но не постулирующие какие-либо положения, не предлагающие какие-либо практические действия. Кроме, конечно, ISO/IEC 22989:2022, на основе которого посредством перевода и появился на свет ГОСТ Р 71476-2024. Почему я его не указал? Все просто - текст документа отсутствует в открытом доступе, и прочитать его просто нет возможности. В интернете есть свидетельства о существовании и более новой версии, 2024 года, но она также закрыта. Российская регуляторика по интерпретируемости и объяснимости ИИ основывается исключительно на данном ГОСТе, как показал мой анализ, и определяет лишь основные понятия. Упоминается необходимость выполнять требования по объяснимости ИИ, но нет разъяснений более подробно о процессах, в которых это требование бы реализовывалось. Так что тема хоть и освещена, но конкретика минимальна.
О зарубежной науке в данной области можно сказать, что она достаточно активно изучает интерпретируемость и работает в направлении систематизации накапливаемых знаний. Существует уже множество работ в данной области (вот, кстати, срез по интенсивности подобных публикаций за август 2024 года). Кстати, сама статья, из которой взяты данные, тоже любопытная в плане онтологии области, но просто не вошла в данный обзор. Так вот, зарубежные авторы рассматривают проблему с разных сторон - и "сверху вниз", от психологии человека до моделей, и "снизу вверх", от этапов жизненного цикла и способов создания ИИ-моделей.
Говорить о практическом внедрении для разработчиков систем с ML процессов по обеспечению или контролю интерпретируемости моделей в обязательном порядке еще очень преждевременно. Я думаю, пройдет еще несколько лет, прежде чем это станет актуально. А когда станет, будет довольно узким направлением работ, так как потребует довольно зрелых базовых процессов, как контроля качества разработки, так и безопасности информации (которая, по-моему мнению, является очевидным владельцем процессов контроля интерпретируемости ИИ).
Скачок во внимании к этой отрасли начнется, когда knowledge steering, как говорят Anthropic, станет более доступным в первую очередь для LLM. Когда нейросети перестанут быть черным ящиком, мне кажется, что-то сильно изменится. Время покажет)
Полезные ресурсы
Исследования и образовательные материалы
Статья "Interpretable machine learning: definitions, methods, and applications"
Статья "Trends in NLP Model Interpretability in the Era of LLMs"
ГОСТ Р 71476-2024 «Искусственный интеллект. Концепции и терминология искусственного интеллекта»
Статья "Tracing Model Outputs to the Training Data" от Anthropic (разбор на русском от @seeallochnaya)
Заметка "The Next Five Hurdles" от Anthropic о трудностях интерпретации черного ящика нейросетей (разбор на русском от @datasecrets)
Статья "Towards Monosemanticity: Decomposing Language Models With Dictionary Learning" от Anthropic (разбор на русском от @datasecrets)
Статья "Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet" от Anthropic (разбор на русском от @datasecrets, разбор на русском от @nadlskom)
Статья "Mechanistic Permutability: Match Featrures Across Layers" от лаборатории Omut AI (Т-Банк)
Статья "Sabotage evaluations for frontier models" от Anthropic (разбор на русском от @datasecrets)
Статья "Extracting concepts from GPT-4" от OpenAI (разбор на русском от @datasecrets)
Статья "Evaluating feature steering: A case study in mitigating social biases" от Anthropic про управление поведением модели через прямое редактирование весов (разбор на русском от @datasecrets)
Статья "Sycophancy to subterfuge: Investigating reward tampering in language models" от Anthropic про то, как модели читерят во время обучения (разбор на русском от @datasecrets)
Статья "The boundary of neural network trainability is fractal" про красивые математические фракталы в картах гиперпараметров (разбор на русском от @datasecrets)
Статья "Gemma Scope: Open Sparse Autoencoders Everywhere All At Once on Gemma 2" от Google (разбор на русском от @datasecrets)
https://kolodezev.ru/interpretable_llm.html
https://github.com/SadSabrina/XAI-open_materials
Инструменты
https://github.com/PacktPublishing/Interpretable-Machine-Learning-with-Python
Monitor от Transluce (разбор на русском)
https://github.com/cdpierse/transformers-interpret
https://github.com/openai/transformer-debugger
https://github.com/stanfordnlp/pyvene
Learning Interpretability Tool
https://github.com/interpretml/interpret
Курсы и образовательные материалы
ВШЭ. Лекции НУГ-InterpretableML-2020
МГУ. Онлайн-учебник по машинному обучению и нейросетям
Mechanical/Dynamical interpretability (сборник курсов от @MrsWallbreaker)
-
LLM
-
RL
-
CV
Практикум по поиску супервеса в Llama-3.2-1B (на основе статьи "The Super Weight in Large Language Models")