При чтении статей в области explainable AI, нередко можно встретить интерпретируемость (Interpretability) и объяснимость (explainability) как взаимозаменяемые сущности. Между этими понятиями существует путаница, которая вызывает трудности, особенно масштабные при отслеживании и анализе литературы [1].
В этом посте разобрана разница между explainable AI и interpreted AI, приведены примеры и небольшой монолог на тему: "что всё-таки важнее".
Прошу к чтению =)
Почему важно разделять понятия?
Выше я уже затронула, что путаница мешает отслеживанию и анализу литературы. Однако не наукой единой. Понимать отличие двух понятий важно в том числе для:
Поиска практической информации, для закрытия цели сделать модель более “открытой” конечному заказчику;
использования алгоримов ИИ в критических отраслях — здесь необходимо достигать максимума как в Interpretability, так и в explainability;
собственных теоретических выкладок — согласованность определений упростит поиск и структуризацию литературы для ваших читателей;
расширения кругозора — корректное разделение Interpretability и explainability — это как знать, что Чебышёв, а не ЧЕбышев.
В чем состоит разница?
Интерпретируемость — преследует цель создания или использования изначально понятной модели.
Объяснимость — преследует цель рассмотрения взаимосвязи между input’ом и выходами модели.
Пример:
Простая линейная регрессия обучается на основе метода наименьших квадратов — мы хотим найти оптимальную функцию, выходы которой от наших эталонным объектов (обучающей выборки) отличались бы наименьшим образом. Эта задача решаема формально, например через поиск псевдообратной матрицы или сингулярное разложение [2]. Так что линейная регрессия пример интерпретируемой модели.
Аналогично базовым примером интерпретируемой модели является дерево решений — на каждом шаге мы выбираем наиболее информативный для разбиения признак [3].
Примерами же объяснимых моделей являются большинство state-of-the-art архитектур нейронных сетей. И хотя здесь мы тоже пониманием, каким методом модель обучается и что минимизирует, в случае глубоких моделей нет полного понимания цикла преобразований между input-ом и выходным значением — это, ещё раз, главное отличие.
Как ещё можно разграничить интерпретируемость и объяснимость?
Здесь приведу две наглядные цитаты:
"The first relates to transparency, i.e., how does the model work? The second consists of post-hoc explanations, i.e., what else can the model tell me? [4]"
"Первый связан с прозрачностью, то есть с тем, как работает модель? Второй состоит из пост-специальных объяснений, т.е. что еще может сказать мне модель?[4]"
"…trying to explain black box models, rather than creating models that are interpretable in the first place…[5]"
"..пытаются объяснить модели черного ящика, вместо того чтобы создавать модели, которые в первую очередь поддаются интерпретации…[5]"
Мне нужна интерпретируемая или объяснимая?
Наверное к этому моменту вам стало интересно — где и что использовать. И это открытый вопрос.
С одной стороны может показаться, что на интерпретируемых моделях далеко не уедешь, но это не так.
Поскольку задача создания интерпретируемых глубоких моделей существует и решается, интерпретируемость не всегда равно линейной регрессии или дереву решений. Кроме того, существуют случаи, когда модели, спроектированные интерпретируемыми не отличаются в производительности от моделей, являющихся объяснимыми [6].
С другой же стороны, создание более производительных архитектур ранее никогда не было сконцентрировано на задаче интерпретируемости, и остановка этого процесса вряд ли будет логичным действием. Поскольку нейронные сети так и хочется сравнить с мозгом, здесь также уместным мне кажется подход одного из психологов Б.Ф.Скиннера — основателя бихевиоризма (подхода к изучению поведения людей и животных, основанного на предположении, что всё поведение состоит из рефлексов, реакций, подкрепления и наказаний и контролирующих стимулов [7]) .
"The use of the black box model in psychology can be traced to B.F. Skinner, father of the school of behaviorism. Skinner argued that psychologists should study the brain's responses, not its processes. [8]"
Хотя исследователи в [5] считают, что бОльшее внимание объяснимым, а не интерпретируемым моделям — путь, который “..потенциально может нанести катастрофический вред обществу..”.
На этом у меня всё. Буду рада видеть вас на моем телеграмм канале (там я просто прохожу свой дата-путь), и не прощаюсь.
И как всегда я уже по привычке подписываюсь:
Ваш дата-автор =)
Комментарии (11)
Wakeonlan
29.06.2023 15:32Два политолога:- Слушай, ты можешь понять, что вообще происходит?
- Тебе объяснить?
- Да нет, объяснить я и сам могу. Ты понять можешь?
Ka_Wabanga
29.06.2023 15:32Соглашусь с «критикой» предыдущих комментаторов - тема очень интересная и «богатая», но само объяснение хромает.
Я зашёл в канал и посмотрел, о чем пишет автор - мне понравилась фраза «должно быть зафиксировано в статье» - жаль, что это самоцель (написать статью) - лучше бы было «должно быть зафиксировано в мозгу», но, к сожалению, в статье нет ничего, что в мозгу останется после прочтения.
Ka_Wabanga
29.06.2023 15:32“Разница должна быть зафиксирована текстом» - точная цитата (время редактирования прошло)
IamSVP
29.06.2023 15:32После прочтения задумался, на какие вопросы автор ответил? По сути приведены просто определения, приведенные утверждения предлагается принимать на веру, нет подтверждений даже на примерах. Если стоит проблема путаницы терминов, то нет даже примеров последствий этой путаницы. Кажется, что эта статья ни о чем, это просто реклама собственного телеграм канала
sad__sabrina Автор
29.06.2023 15:32+1Жаль, что мне не удалось идеально написать для каждого, но я проанализирую слабые места и постараюсь улучшить свое изложение! Спасибо всем за обратную связь!)
S_A
29.06.2023 15:32+1Да нормально написали, если кто варится в теме - не сказать что новое, но заострили внимание хорошо.
Интерпретируемость - это когда дизайн модели позволяет объяснить влияние изменений во входах на изменение выходов. На 1% больше одного из входов - выход меняется на X%. Есть и глобальная (на все данные) и локальная (для сэмпла) интерпретация. Проще говоря - как модель прогнозирует в принципе.
Объяснимость - это когда локально только. BERT выдаст на "я пошел в магазин и купил..." [хлеб] потому что "магазин" и "купил" важны (наиболее влияют на вероятность) в предикте. Локальная интерпретация, причем не полная. То есть объяснение - это что привело модель к прогнозу в конкретном случае.
Всем нужна интерпретируемость, но в случае Страшно Больших Сеток - это как геном расшифровать. Удовлетворяются объяснениями, как тестами из KDL ("на генетическом уровне у этого человека непереносимости глютена нет").
berng
29.06.2023 15:32Отличный пример!
Во-первых, в BERTe очень много слоев и как-бы это сказать, нейронов (хотя какие нейроны в трансформере, многоголовое внимание сплошное), и ваше объяснение упрется в проблему проверки множественных гипотез, а при таком объеме возможных вариантов это все не объяснение: даже точного метода корректировки на множественность нет, даже мощные FDR выдают свою долю ошибок, не говоря уже об интерпретации трансформера. Поэтому вы не сможете провести связь между входом и выходом, боюсь, даже вероятностную.
Во-вторых, BERT офигенно конеткстен, да еще и с позиционным эмбеддингом, да еще и с эмбеддингом предложений, да еще с эмбеддингом частей слов: это-же не word2vec, и предсказывать, что "купил" и "магазин" повлияли на ответ, это опять-же не объяснение: нет там прямой связи вход-выход, она контекстна, а не локальна, и влияет сразу все, одновременно.
Боюсь, что никто не сможет объяснить, почему BERT сказала "хлеб", и даже указать метод, которым это можно определить. Поэтому говорить об объяснимости BERT, даже 'локальной' - обманывать себя, как мне кажется.
sad__sabrina Автор
29.06.2023 15:32Спасибо и отдельное спасибо за вашу информативность! Ваши примеры более наглядны, чем абстрактные формулировки в тексте у меня. Надеюсь, они помогут заинтересовавшимся понять лучше)
berng
Сдается мне, вы что-то путаете. Приведите пример интерпретируемого, но необъяснимого искусственного интеллекта. Посмотрим, что за штука.
sad__sabrina Автор
А я и не пишу, что понятия взаимоисключающие. Просто разные. Объяснение может проводится и post-hoc, в том числе для интерпретируемого алгоритма.
berng
Увы, это - слова. Приведите пример.