Хотели представить перевод интересной статьи про обучение с помощью нейронных сетей на табличных данных. Вторая часть здесь.

Кратко

Предлагается TabNet – новая высокопроизводительная каноническая архитектура глубокого обучения на основе табличных данных. TabNet использует последовательные оценки выбора функций, которые следует использовать на каждом этапе принятия решения. Это обеспечивает интерпретируемость и эффективность процесса обучения, поскольку способность к обучению определяется более релевантными функциями (наиболее адекватными, согласно рассматриваемым оценкам выбора решения). Показано, что TabNet превосходит другие варианты архитектуры нейронной сети и дерева решений по широкому диапазону табличных наборов скалярных данных при интерпретации атрибутов их влияния на производительность, что ведет к пониманию поведения общей модели. Наконец, впервые, насколько нам известно, мы демонстрируем самоконтролируемое обучение для табличных данных при значительном повышении темпа обучения и наличии достаточно большой исходной выборки данных.

1. Введение

Глубокие нейронные сети (ГНС) показали свою успешность при работе с изображениями [21, 50], текстом [9, 34] и звуком [1, 56]. Для этих типов данных основным фактором развития является наличие канонических архитектур, позволяющих эффективно кодировать исходные последовательности в обучающие, обеспечивать высокую производительность на новых наборах данных и решаемых с их помощью задач при минимальных ресурсах. Например, в интерпретации изображений варианты остаточных сверточных сетей (в частности, ResNet [21]) должны обеспечивать достаточно хорошую производительность при работе с новыми наборами данных для изображений или смежными проблемами визуального распознавания (например, классификации, таксономии). Единственный тип данных, на которых еще не была достигнута успешность канонической архитектуры ГНС – это табличные данные. Несмотря на то, что это наиболее распространенный тип данных в реализациях ИИ [8], глубокое обучение для табличных данных остается недостаточно изученным, а варианты ансамблевых деревьев решений по-прежнему доминируют в большинстве приложений [28]. Почему это так? Во-первых, потому что древовидные подходы имеют определенные преимущества, которые делают их популярными: (i) они достаточно репрезентативны (и поэтому часто высокоэффективны) для многообразий решений с нечеткими гиперплоскостными границами распределения табличных данных; (ii) они хорошо интерпретируемы (например, путем отслеживания узловых решений) и существуют эффективные методы апостериорного объяснения формы их ансамбля, что является [36] важной задачей во многих реальных приложениях (например, в сфере финансовых услуг, где доверие к действиям с высоким риском имеет решающее значение); (iii) они быстро обучаются. Во-вторых, ранее предложенные архитектуры ГНС не адаптивны к табличным данным: обычные ГНС на сверточных слоях или многослойных персептронах (МСП) часто сильно параметризованные (по числу параметров и по сложности их идентификации) - отсутствие соответствующего индуктивного смещения приводит к тому, что они не могут найти оптимального решения для многообразия табличных решений [17]. Почему стоит изучить глубокое обучение для табличных данных? Одна очевидная причина – в том, что, как и в других областях, можно ожидать повышения производительности за счет архитектур на основе ГНС, особенно для больших наборов данных [22]. Кроме того, в отличие от древовидного (иерархического) обучения, которое не использует обратного распространения ошибок данных для управления эффективным обучением от ошибочных сигналов, ГНС обеспечивают сквозное обучение на основе градиентного спуска по стратегиям для табличных данных, имеющее множество преимуществ, продемонстрированных во многих различных областях, позволяя: (i) эффективно кодировать множество типов данных, таких как изображения в форме табличных данных; (ii) облегчать или устранять необходимость в разработке функций, что в настоящее время является ключевым аспектом древовидных методов обучения с использованием табличных данных; (iii) обучать на потоковых данных - обучение на древовидной структуре требует глобальной статистики для выбора узловых точек, а простые модификации, как в [4], обычно дают более низкую точность по сравнению с обучением для всей выборки данных; ГНС, напротив, демонстрируют больший потенциал непрерывного обучения [44]; (iv) изучать в сквозных моделях представления, позволяющие использовать ценные новые сценарии новых применений, включая адаптацию к областям эффективного использования данных [17], генеративного моделирования [46] и обучение с частичным привлечением учителя [11].

Очевидно, что есть значительные преимущества как у древовидных, так и у методов на основе ГНС. Можно ли разработать метод, сочетающий их наиболее полезные аспекты? В этой статье мы предлагаем новую каноническую архитектуру ГНС для табличных данных - TabNet, которая предназначена для отображения «дерева решений» с целью унаследовать ценные преимущества методов на основе дерева (интерпретируемость и разреженный выбор признаков) и ключевые преимущества методов на основе ГНС (пошаговое и сквозное обучение). В частности, в проекте TabNet рассматриваются две ключевые потребности: высокая производительность и интерпретируемость. Как уже упоминалось, одной высокой производительности часто недостаточно - ГНС должны интерпретировать, чтобы заменить древовидные методы. В целом, мы вносим следующий вклад в разработку нашего метода: (1) в отличие от древовидных методов, TabNet использует необработанные табличные данные без предварительной обработки и обучается с использованием оптимизации на основе методов градиентного спуска для изучения гибких представлений и обеспечения гибкой интеграции в сквозном обучении; (2) TabNet использует последовательные итерации, чтобы выбрать, какие особенности следует обосновать на каждом этапе принятия решения, обеспечивая интерпретируемость и лучшее обучение, поскольку способность обучения используется для наиболее значимых признаков (см. рис. 1); этот выбор признаков индивидуален, например, он может быть различен для каждого ввода, в отличие от других методов выбора признаков, таких как [6] или [61], причем Tab-Net использует единую архитектуру глубокого обучения со сквозным обучением.

Рисунок 1. Разреженный выбор признаков TabNet послужил примером для прогнозирования доходов взрослых при переписи населения [14]. Разреженный выбор признаков обеспечивает интерпретируемость и лучшее обучение, поскольку весь потенциал используется для наиболее заметных признаков. TabNet использует несколько блоков принятия решений, которые фокусируются на обработке подмножества входных признаков в процессе обоснования. Выбор функции основан на обратной связи с предыдущим шагом принятия решения. Два блока принятия решений показаны в качестве примеров особенностей процесса, которые связаны с профессиональной деятельностью и инвестициями, соответственно, с целью прогнозирования уровня дохода.
Рисунок 1. Разреженный выбор признаков TabNet послужил примером для прогнозирования доходов взрослых при переписи населения [14]. Разреженный выбор признаков обеспечивает интерпретируемость и лучшее обучение, поскольку весь потенциал используется для наиболее заметных признаков. TabNet использует несколько блоков принятия решений, которые фокусируются на обработке подмножества входных признаков в процессе обоснования. Выбор функции основан на обратной связи с предыдущим шагом принятия решения. Два блока принятия решений показаны в качестве примеров особенностей процесса, которые связаны с профессиональной деятельностью и инвестициями, соответственно, с целью прогнозирования уровня дохода.

(3) мы показываем, что вышеупомянутый выбор метода приводит к двум ценным свойствам: (a) TabNet превосходит или находится на одном уровне с другими табличными моделями обучения на различных наборах данных для задач классификации и регрессии из разных областей; (b) TabNet позволяет использовать два вида интерпретируемости: локальную, которая визуализирует важность входных функций и как они согласованы в предсказании, и глобальную, которая определяет вклад каждой входной функции в обучение модели.

Рисунок 2. Самостоятельное табличное обучение. Реальные табличные наборы данных имеют взаимозависимые столбцы признаков, например, уровень образования можно узнать по профессии, или пол можно предсказать по браку. Обучение без учителя с привлечением маскируемого обучения с учителем приводит к созданию улучшенной модели для задачи обучения с учителем.
Рисунок 2. Самостоятельное табличное обучение. Реальные табличные наборы данных имеют взаимозависимые столбцы признаков, например, уровень образования можно узнать по профессии, или пол можно предсказать по браку. Обучение без учителя с привлечением маскируемого обучения с учителем приводит к созданию улучшенной модели для задачи обучения с учителем.

(4) Наконец, мы показываем, что наша каноническая конструкция ГНС достигает значительных улучшений производительности за счет использования неуправляемого предварительного обучения для прогнозирования маскированных функций (см. рис. 2).

Наша работа является первой демонстрацией самообучения на табличных данных.

2. Подобные работы

Выбор функций: выбор функций в машинном обучении, в широком смысле, означает разумный выбор подмножества функций сходства (близости) на основе их полезности для прогнозирования. Широко используемые методы, такие как прямой отбор и регуляризация LASSO [20], характеризуются важностью признаков, основанных на всем наборе обучающих данных, они называются глобальными методами. Выбор функции для конкретного экземпляра определяется особенностями каждого входа, изученным в [6] путем обучения описательной модели для максимизации обобщающей способности по обратным связям выбранной функции и переменной отклика, а в [61] с использованием структуры «субъект-критик» для имитации многообразия опорных векторов при оптимизации выбора функции. В отличие от них, TabNet использует другой набор функций, с контролируемой разреженностью (предикативностью) в сквозном обучении и единой моделью сопоставления выходных данных, которые обеспечивают в результате превосходную производительность при компактном представлении данных.

Обучение на основе деревьев: модели на основе деревьев являются наиболее распространенным подходом к изучению на табличных данных. Важной и сильной стороной древовидных моделей является их эффективность в выборе глобальных характеристик с наибольшим статистическим объемом информации [18]. Чтобы улучшить производительность стандартных древовидных моделей за счет уменьшения остаточной дисперсии модели, одним из распространенных подходов является ансамблевый (агрегирование). Среди методов агрегирования – случайные леса [23], использующие случайные подмножества данных со случайно выбранными объектами для генерации и эволюции деревьев. XGBoost [7] и LightGBM [30] - два недавних подхода к дереву решений ансамбля, которые доминируют в использовании и исследовании в науке о данных (Data Science). Наши экспериментальные результаты для различных наборов данных показывают, что эффективность древовидных моделей может быть превзойдена, если улучшить способность к глубокому обучению при сохранении свойств функции, предсказательной способности.

Интеграция DNN в деревья решений: представление деревьев решений с помощью канонических элементов ГНС, как в [26], приводит к избыточности представления и неэффективному обучению. Предлагаются гибкие (нейронные) деревья решений [33, 58] с дифференцируемыми функциями принятия решений вместо не дифференцируемых. Однако при отказе от деревьев теряется их способность автоматического выбора функций, что важно для табличных данных. В [60] функцией мягкого связывания предлагается моделировать деревья решений в ГНС, но она при перечислении всевозможных решений является неэффективной. В [31] предлагается ГНС-архитектура, явно использующая объясняющие способности комбинаций функций, но обучение основано на передаче знаний с помощью дерева решений с градиентным бустингом, есть ограничения по улучшению производительности. В [53] предлагается ГНС-архитектура адаптивного роста от базовой системы «примитивов обучения» (вершин, ребер), с помощью функций маршрутизации до конечных узлов дерева решений. TabNet отличается от этих методов тем, что включает в себя гибкую функцию возможности выбора с контролируемой разреженностью за счет последовательных переоценок.

Модели преобразования таблиц в тексты: таблично-текстовые модели извлекают текстовую информацию из табличных данных, для чего в последних работах [3, 35] предлагается последовательный механизм контроля внимания на уровне полей. В отличие от них, мы демонстрируем применение обучения с учителем или самообучения вместо сопоставления табличных данных с другим типом данных.

Самообучение: обучение без учителя показывает, что полезно для самообучения, особенно на небольших выборках данных [47]. Недавняя работа с данными по языку [13] и изображению [55] показала значительные достижения - особенно важен тщательный выбор цели обучения без учителя и архитектуры глубокого обучения без учителя.

Рисунок 3. Иллюстрация древовидной классификации решений с использованием обычных блоков ГНС (слева) и соответствующего многообразия решений (справа). Соответствующие объекты выбираются с помощью мультипликативных разреженных масок на входных данных. Выбранные объекты линейно преобразуются, и после добавления смещения (для представления, учета границ) ReLU выполняет выбор области путем обнуления областей, находящихся на отрицательной стороне градиента границы. Агрегация нескольких кластеров основана по аддитивному принципу. По мере увеличения C1 и C2, граница решения становится более резкой из-за функции Softmax (значения классифицирующей логистической функции).
Рисунок 3. Иллюстрация древовидной классификации решений с использованием обычных блоков ГНС (слева) и соответствующего многообразия решений (справа). Соответствующие объекты выбираются с помощью мультипликативных разреженных масок на входных данных. Выбранные объекты линейно преобразуются, и после добавления смещения (для представления, учета границ) ReLU выполняет выбор области путем обнуления областей, находящихся на отрицательной стороне градиента границы. Агрегация нескольких кластеров основана по аддитивному принципу. По мере увеличения C1 и C2, граница решения становится более резкой из-за функции Softmax (значения классифицирующей логистической функции).

3. TABNET для обучения с помощью таблиц

Деревья решений успешно используются для обучения на основе реальных табличных наборов данных. Однако даже обычные исходные элементы ГНС могут быть использованы для реализации древовидного выходного множества решений (см. рис. 3 в качестве примера). В такой конструкции индивидуальный выбор признаков является ключевым для идентификации границ принятия решений в гиперплоскостной форме. Эта идея может быть обобщена для линейной комбинации признаков, где составляющие коэффициенты определяют долю (вклад) каждого признака. TabNet -основано на такой древовидной функциональности. Мы покажем, что он превосходит деревья решений, учитывая многие из их преимуществ благодаря тщательности проектирования, которое:

(i) использует разреженный выбор объектов по экземплярам, полученный на основе обучающего набора данных; (ii) создает последовательную многоступенчатую архитектуру, в которой каждый шаг принятия решения может внести свой вклад в ту часть решения, которая основана на выбранных функциях; (iii) улучшает способность к обучению путем нелинейных преобразований выбранных функций; (iv) имитирует ансамбль с помощью более точных измерений и большего количества шагов улучшения решения.

Рисунок 4. а) Кодер TabNet для классификации или регрессии, состоящий из преобразователя признаков, механизма внимания и маскировки признаков на каждом этапе принятия решения. Разделенный блок делит обработанное представление на два, которые будут использоваться тщательным преобразователем последующего шага, а также для построения общего выходного сигнала. На каждом этапе принятия решения маска выбора объекта может предоставить интерпретируемую информацию о функциональных возможностях модели, а сами маски агрегируемы для получения интегральной функции. (b) Декодер TabNet, состоящий из функционального преобразователя на каждом шаге. (c) Показан пример функционального преобразователя – 4-слойная сеть, где 2 блока являются общими для всех шагов принятия решений и 2 зависят от конкретного шага принятия решений. Каждый уровень состоит из полносвязного (ПС, Fully-Connected) слоя с пакетной нормализацией (Batch Normalization) и закрытым линейным блоком (Gted Linear Unit). (d) Пример тщательного трансформационного блока – однослойное отображение моделируется с помощью предварительной масштабной информации, которая агрегируема, насколько каждый объект был использован до текущего шага принятия решения. Нормализация коэффициентов выполняется с помощью sparsemax [37] для выбора наиболее важных функций на каждом этапе принятия решения.
Рисунок 4. а) Кодер TabNet для классификации или регрессии, состоящий из преобразователя признаков, механизма внимания и маскировки признаков на каждом этапе принятия решения. Разделенный блок делит обработанное представление на два, которые будут использоваться тщательным преобразователем последующего шага, а также для построения общего выходного сигнала. На каждом этапе принятия решения маска выбора объекта может предоставить интерпретируемую информацию о функциональных возможностях модели, а сами маски агрегируемы для получения интегральной функции. (b) Декодер TabNet, состоящий из функционального преобразователя на каждом шаге. (c) Показан пример функционального преобразователя – 4-слойная сеть, где 2 блока являются общими для всех шагов принятия решений и 2 зависят от конкретного шага принятия решений. Каждый уровень состоит из полносвязного (ПС, Fully-Connected) слоя с пакетной нормализацией (Batch Normalization) и закрытым линейным блоком (Gted Linear Unit). (d) Пример тщательного трансформационного блока – однослойное отображение моделируется с помощью предварительной масштабной информации, которая агрегируема, насколько каждый объект был использован до текущего шага принятия решения. Нормализация коэффициентов выполняется с помощью sparsemax [37] для выбора наиболее важных функций на каждом этапе принятия решения.

На рис. 4 показана архитектура TabNet для кодирования табличных данных. Табличные данные состоят из числовых и категориальных признаков. Мы используем необработанные числовые признаки и рассматриваем соответствие категориальных признаков обучаемым вложениями. Мы не рассматриваем никаких глобальных функций нормализации, а просто применяем пакетную нормализацию (ПН). Мы передаем одни и те же D-мерные объекты

f \in R ^{(B?D)}

на каждом шаге принятия решения, где B-размер пакета. Кодирование TabNet основано на последовательной многоступенчатой обработке с N шагами принятия решений.

При этом на i-м шаге используется обработанная на (i - 1)-м шаге информация, чтобы определить используемые функции и выводит окончательное функциональное представление, которое необходимо интегрировать в общее решение. Идея нисходящего внимания в последовательной форме возникла из приложений обработки визуальных и языковых данных (например, визуального ответа на вопросы [25]) и обучения с помощью учителя [40] при поиске небольшого подмножества релевантной информации в многомерных входных данных.

Абляционные исследования в Приложении посвящены влиянию различных вариантов конструкции, которые объясняются ниже. Исследования абляции (последовательного удаления данных) в приложении акцентированы на влияние различных вариантов реализации, которые объясняются далее. Рекомендации по выбору важных гиперпараметров также приведены в приложении.

Выбор характеристик: Мы используем обучаемую маску

M[i] ? R^{(B?D) }

для мягкого выбора характерных признаков. Благодаря разряженному отбору наиболее заметных признаков обучающая способность на шаге принятия решения не тратится впустую на нерелевантные признаки, и, таким образом, модель становится более эффективной параметрически. Маскировка задается мультипликативно, M[i] · f. Мы используем дискретный преобразователь (см. Рис. 4) чтобы получить маски, используя обработанные объекты предыдущего шага, a[i ? 1]:

  M[i] = sparsemax(P[i ? 1] · h_i (a[i ? 1])) \ (1)

Нормализация Sparsemax [37] улучшает разреженность путем отображения Евклидовой проекции на вероятностный симплекс, который считается превосходящим по производительности и согласуемым с целью выбора разреженной системы признаков для большинства реальных наборов данных.

Обратите внимание, что формула 1 задает

\sum_{j=1}^{D} M[i]_b,_j = 1

где h[i] - обучаемая функция, показанная на Рис. 4., использующая слой FC, за которым следует BN, P[i] - корректирующий показатель предыдущего масштаба, обозначающий, насколько тот или иной признак был использован ранее:

P[i]= \prod_{j=1}^{i=1}  (\gamma - M [j]),     \ (2)

где ? - параметр свободы: когда ? = 1, функция принудительно используется для использования только на одном шаге принятия решения и по мере увеличения ?, обеспечивается большая гибкость для использования функции на нескольких шагах принятия решения. P[0] инициализируется как единицы,

  1^{B?D}

без каких-либо предварительных условий для маскируемых объектов. Если некоторые функции не используются (как в самообучении), соответствующие P[0] элементы обнуляются, чтобы помочь модели обучиться. Для дальнейшего контроля разреженности выбранных признаков мы предлагаем регуляризацию разреженности в виде энтропии [19]:

L_{sparse} = \sum_{i=1}^{N_{steps}} \sum_{b=1}^{B} \sum_{j=1}^{D} \frac{-M_{b,j}[i]} {N_{steps}*B} log(M_{b,j}{[i]}+\epsilon)

где ?-небольшое число для вычислительной устойчивости. Мы корректируем регуляризацию разреженности по общим потерям с коэффициентом ? разреженности. Разреженность может обеспечить благоприятное индуктивное смещение для сходимости с более высокой точностью для наборов данных, где большинство объектов избыточны.

Обработка функций: Мы обрабатываем отфильтрованные объекты с помощью преобразователя (см. Рис. 4) а затем разделим выход для шага принятия решения и для последующего шага,

[d[i], a[i]] = fi(M[i]·f), где  \ d[i] ? R ^{B?N_d} \ и \  a[i] ? R ^ {B?N_a}.

Для эффективного и надежного обучения с высокой производительностью преобразователь признаков должен опираться на слои, которые совместно используются на всех этапах принятия решения (поскольку одни и те же функции вводятся на различных этапах принятия решения), а также слои, зависящие от шага принятия решения.

На рис. 4 показана реализация в виде конкатенации двух общих слоев и двух зависящих от принятого на шаге решения слоев. За каждым слоем FC следует BN и закрытый линейный блок (GLU) [12], в конечном итоге связанная с нормализованным остатком нормализацией. Нормализация с v0.5 помогает стабилизировать обучение, гарантируя, что дисперсия по всей сети не изменится кардинально [15]. Для более быстрого обучения мы стремимся к большим размерам обучающих серий. Для повышения производительности при увеличении серий все операции BN, за исключением той, которая применяется к входным функциям, реализуются в форме ложного BN [24] с виртуальным размером серии BV и импульсом mB. Для входных признаков мы наблюдаем преимущество усреднения с низкой дисперсией и, следовательно, избегаем ложный BN. Наконец, применяя агрегацию, подобно дереву решений на Рис. 3, мы строим полное решение как

d_{out} = \sum_{i=1}^{N_{steps}} ReLU(d[i])

Мы применяем линейное отображение:

 W_{final} d_{out}

чтобы получить выходное соответствие. Для дискретных выходов мы дополнительно используем softmax во время обучения (и критерий argmax во время вывода).

Во второй части будет описано применение алгоритма TABNet.

Перевод, коррекция, редактирование Гилязов Айрат, Шигапова Фирюза.

Ссылки

Ссылки

[1] Dario Amodei, Rishita Anubhai, Eric Battenberg, Carl Case, Jared Casper, et al. 2015. Deep Speech 2: End-to-End Speech Recognition in English and Mandarin. arXiv:1512.02595 (2015).

[2] AutoML. 2019. AutoML Tables – Google Cloud. https://cloud.google.com/automl-tables/

[3] J. Bao, D. Tang, N. Duan, Z. Yan, M. Zhou, and T. Zhao. 2019. Text Generation From Tables. IEEE Trans Audio, Speech, and Language Processing 27, 2 (Feb 2019), 311–320.

[4] Yael Ben-Haim and Elad Tom-Tov. 2010. A Streaming Parallel Decision Tree Algorithm. JMLR 11 (March 2010), 849–872.

[5] Catboost. 2019. Benchmarks. https://github.com/catboost/benchmarks. Accessed: 2019-11-10.

[6] Jianbo Chen, Le Song, Martin J. Wainwright, and Michael I. Jordan. 2018. Learning to Explain: An Information-Theoretic Perspective on Model Interpretation. arXiv:1802.07814 (2018).

[7] Tianqi Chen and Carlos Guestrin. 2016. XGBoost: A Scalable Tree Boosting System. In KDD.

[8] Michael Chui, James Manyika, Mehdi Miremadi, Nicolaus Henke, Rita Chung, et al. 2018. Notes from the AI Frontier. McKinsey Global Institute (4 2018).

[9] Alexis Conneau, Holger Schwenk, Lo??c Barrault, and Yann LeCun. 2016. Very Deep Convolutional Networks for Natural Language Processing. arXiv:1606.01781 (2016).

[10] Corinna Cortes, Xavi Gonzalvo, Vitaly Kuznetsov, Mehryar Mohri, and Scott Yang. 2016. AdaNet: Adaptive Structural Learning of Artificial Neural Networks. arXiv:1607.01097 (2016).

[11] Zihang Dai, Zhilin Yang, Fan Yang, William W. Cohen, and Ruslan Salakhutdinov. 2017. Good Semi-supervised Learning that Requires a Bad GAN. arxiv:1705.09783 (2017).

[12] Yann N. Dauphin, Angela Fan, Michael Auli, and David Grangier. 2016. Language Modeling with Gated Convolutional Networks. arXiv:1612.08083 (2016).

[13] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805 (2018).

[14] Dheeru Dua and Casey Graff. 2017. UCI Machine Learning Repository. http: //archive.ics.uci.edu/ml

[15] Jonas Gehring, Michael Auli, David Grangier, Denis Yarats, and Yann N. Dauphin. 2017. Convolutional Sequence to Sequence Learning. arXiv:1705.03122 (2017).

[16] Pierre Geurts, Damien Ernst, and Louis Wehenkel. 2006. Extremely randomized trees. Machine Learning 63, 1 (01 Apr 2006), 3–42.

[17] Ian Goodfellow, Yoshua Bengio, and Aaron Courville. 2016. Deep Learning. MIT Press.

[18] K. Grabczewski and N. Jankowski. 2005. Feature selection with decision tree criterion. In HIS.

[19] Yves Grandvalet and Yoshua Bengio. 2004. Semi-supervised Learning by Entropy Minimization. In NIPS.

[20] Isabelle Guyon and Andre Elisseeff. 2003. An Introduction to Variable and Feature ? Selection. JMLR 3 (March 2003), 1157–1182.

[21] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2015. Deep Residual Learning for Image Recognition. arXiv:1512.03385 (2015).

[22] Joel Hestness, Sharan Narang, Newsha Ardalani, Gregory F. Diamos, Heewoo Jun, Hassan Kianinejad, Md. Mostofa Ali Patwary, Yang Yang, and Yanqi Zhou. 2017. Deep Learning Scaling is Predictable, Empirically. arXiv:1712.00409 (2017).

[23] Tin Kam Ho. 1998. The random subspace method for constructing decision forests. PAMI 20, 8 (Aug 1998), 832–844.

[24] Elad Hoffer, Itay Hubara, and Daniel Soudry. 2017. Train longer, generalize better: closing the generalization gap in large batch training of neural networks. arXiv:1705.08741 (2017).

[25] Drew A. Hudson and Christopher D. Manning. 2018. Compositional Attention Networks for Machine Reasoning. arXiv:1803.03067 (2018).

[26] K. D. Humbird, J. L. Peterson, and R. G. McClarren. 2018. Deep Neural Network Initialization With Decision Trees. IEEE Trans Neural Networks and Learning Systems (2018).

[27] Mark Ibrahim, Melissa Louie, Ceena Modarres, and John W. Paisley. 2019. Global Explanations of Neural Networks: Mapping the Landscape of Predictions. arxiv:1902.02384 (2019).

[28] Kaggle. 2019. Historical Data Science Trends on Kaggle. https://www.kaggle. com/shivamb/data-science-trends-on-kaggle. Accessed: 2019-04-20.

[29] Kaggle. 2019. Rossmann Store Sales. https://www.kaggle.com/c/ rossmann-store-sales. Accessed: 2019-11-10.

[30] Guolin Ke, Qi Meng, Thomas Finley, Taifeng Wang, Wei Chen, et al. 2017. LightGBM: A Highly Effcient Gradient Boosting Decision Tree. In NIPS.

[31] Guolin Ke, Jia Zhang, Zhenhui Xu, Jiang Bian, and Tie-Yan Liu. 2019. TabNN: A Universal Neural Network Solution for Tabular Data. https://openreview.net/forum?id=r1eJssCqY7

[32] Diederik P. Kingma and Jimmy Ba. 2014. Adam: A Method for Stochastic Optimization. In ICLR.

[33] P. Kontschieder, M. Fiterau, A. Criminisi, and S. R. Bul. 2015. Deep Neural Decision Forests. In ICCV.

[34] Siwei Lai, Liheng Xu, Kang Liu, and Jun Zhao. 2015. Recurrent Convolutional Neural Networks for Text Classification. In AAAI.

[35] Tianyu Liu, Kexiang Wang, Lei Sha, Baobao Chang, and Zhifang Sui. 2017. Table-to-text Generation by Structure-aware Seq2seq Learning. arXiv:1711.09724 (2017).

[36] Scott M. Lundberg, Gabriel G. Erion, and Su-In Lee. 2018. Consistent Individualized Feature Attribution for Tree Ensembles. arXiv:1802.03888 (2018).

[37] Andre F. T. Martins and Ram ? on Fern ? andez Astudillo. 2016. From Softmax ? to Sparsemax: A Sparse Model of Attention and Multi-Label Classification. arXiv:1602.02068 (2016).

[38] Rory Mitchell, Andrey Adinets, Thejaswi Rao, and Eibe Frank. 2018. XGBoost: Scalable GPU Accelerated Learning. arXiv:1806.11248 (2018).

[39] Decebal Mocanu, Elena Mocanu, Peter Stone, Phuong Nguyen, Madeleine Gibescu, and Antonio Liotta. 2018. Scalable training of artificial neural networks with adaptive sparse connectivity inspired by network science. Nature Communications 9 (12 2018).

[40] Alex Mott, Daniel Zoran, Mike Chrzanowski, Daan Wierstra, and Danilo J. Rezende. 2019. S3TA: A Soft, Spatial, Sequential, Top-Down Attention Model. https://openreview.net/forum?id=B1gJOoRcYQ

[41] Sharan Narang, Gregory F. Diamos, Shubho Sengupta, and Erich Elsen. 2017. Exploring Sparsity in Recurrent Neural Networks. arXiv:1704.05119 (2017).

[42] Nbviewer. 2019. Notebook on Nbviewer. https://nbviewer.jupyter.org/github/ dipanjanS/data science for all/blob/master/tds model interpretation xai/ Human-interpretableMachineLearning-DS.ipynb#

[43] N. C. Oza. 2005. Online bagging and boosting. In IEEE Trans Conference on Systems, Man and Cybernetics.

[44] German Ignacio Parisi, Ronald Kemker, Jose L. Part, Christopher Kanan, and Stefan Wermter. 2018. Continual Lifelong Learning with Neural Networks: A Review. arXiv:1802.07569 (2018).

[45] Liudmila Prokhorenkova, Gleb Gusev, Aleksandr Vorobev, Anna Veronika Dorogush, and Andrey Gulin. 2018. CatBoost: unbiased boosting with categorical features. In NIPS.

[46] Alec Radford, Luke Metz, and Soumith Chintala. 2015. Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks. arXiv:1511.06434 (2015).

[47] Rajat Raina, Alexis Battle, Honglak Lee, Benjamin Packer, and Andrew Y. Ng. 2007. Self-Taught Learning: Transfer Learning from Unlabeled Data. In ICML.

[48] Marco Ribeiro, Sameer Singh, and Carlos Guestrin. 2016. fiWhy Should I Trust You?fi: Explaining the Predictions of Any Classifier. In KDD.

[49] Avanti Shrikumar, Peyton Greenside, and Anshul Kundaje. 2017. Learning Important Features Through Propagating Activation Differences. arXiv:1704.02685 (2017).

[50] Karen Simonyan and Andrew Zisserman. 2014. Very Deep Convolutional Networks for Large-Scale Image Recognition. arXiv:1409.1556 (2014).

[51] Weiping Song, Chence Shi, Zhiping Xiao, Zhijian Duan, Yewen Xu, Ming Zhang, and Jian Tang. 2018. AutoInt: Automatic Feature Interaction Learning via SelfAttentive Neural Networks. arxiv:1810.11921 (2018).

[52] Mukund Sundararajan, Ankur Taly, and Qiqi Yan. 2017. Axiomatic Attribution for Deep Networks. arXiv:1703.01365 (2017).

[53] Ryutaro Tanno, Kai Arulkumaran, Daniel C. Alexander, Antonio Criminisi, and Aditya V. Nori. 2018. Adaptive Neural Trees. arXiv:1807.06699 (2018).

[54] Tensorflow. 2019. Classifying Higgs boson processes in the HIGGS Data Set. https://github.com/tensorflow/models/tree/master/offcial/boosted trees

[55] Trieu H. Trinh, Minh-Thang Luong, and Quoc V. Le. 2019. Selfie: Self-supervised Pretraining for Image Embedding. arXiv:1906.02940 (2019).

[56] Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol ? Vinyals, et al. 2016. WaveNet: A Generative Model for Raw Audio. arXiv:1609.03499 (2016).

[57] Sethu Vijayakumar and Stefan Schaal. 2000. Locally Weighted Projection Regression: An O(n) Algorithm for Incremental Real Time Learning in High Dimensional Space. In ICML.

[58] Suhang Wang, Charu Aggarwal, and Huan Liu. 2017. Using a random forest to inspire a neural network and improving on it. In SDM.

[59] Wei Wen, Chunpeng Wu, Yandan Wang, Yiran Chen, and Hai Li. 2016. Learning Structured Sparsity in Deep Neural Networks. arXiv:1608.03665 (2016).

[60] Yongxin Yang, Irene Garcia Morillo, and Timothy M. Hospedales. 2018. Deep Neural Decision Trees. arXiv:1806.06988 (2018).

[61] Jinsung Yoon, James Jordon, and Mihaela van der Schaar. 2019. INVASE: Instancewise Variable Selection using Neural Networks. In ICLR.