Тензоры для C#. И матрицы, и векторы, и кастомный тип, и сравнительно быстро / forpes.ru

Главная
Тензоры для C#. И матрицы, и векторы, и кастомный тип, и сравнительно быстро

Тензоры для C#. И матрицы, и векторы, и кастомный тип, и сравнительно быстро +12

04.08.2020 05:31

WhiteBlackGoose 15 2800 Источник

Привет!

Понадобились мне как-то тензоры (расширения матриц) для моего проектика. Погуглил, нашел целый ряд всяких библиотек, все вокруг да около, а чего нужно — нет. Пришлось реализовать пятидневку и имплементировать то, что надо. Короткая заметка о работе с тензорами и трюках оптимизации.

Итак, что же нам нужно?

N-мерные матрицы (тензоры)
Имплементация базового набора методов работы с тензором как со структурой данных
Имплементация базового набора математических функций (для матриц и векторов)
Типы Generic, то есть любые. И кастомные операторы

А что уже написано до нас?

Так, в Towel имплементированы матрицы, но есть несколько существенных недостатков:

Не тензоры, а только матрицы
Transpose — это «активная» операция, работающая за O(V), где V — объем «фигуры». То есть поменять местами оси вам будет стоить перемещения элементов по всей матрице
В принципе библиотека будет работать с любыми типами, но при работе с ними она будет обращаться в том числе к их операторам. Поэтому если вам вдруг понадобилась работа с типом, у которого нет операторов, придется писать собственную обертку, которая явно не бесплатная по времени. На самом деле можно перезаписывать вызываемые делегаты вручную, хотя это и неочевидно (и еще не так быстро, об этом ниже)

System.Numerics.Tensor скажете вы. Жаль, у этого типа очень мало методов определено, а главное, он не поддерживает кастомные типы. И, похоже, их подвела собственная технология.

Конечно еще есть всякие MathSharp, NumSharp, Torch.Net, TensorFlow, но это все игровые/ML-овские, ни о каких кастомных типах речи нет.

Хранение элементов, транспонирование, подтензор

Элементы будут храниться в одномерном массиве. Чтобы из набора индексов получить элемент, мы будем умножать индексы на определенные коэффициенты и складывать. А именно, положим, у нас есть тензор [3 x 4 x 5]. Тогда нам нужно сформировать массив из трех элементов — блоков (сам название придумал). Тогда последний элемент равен 1, предпоследний равен 5, а первый элемент — 5 * 4 = 20. То есть blocks = [20, 5, 1]. Например, при обращении по индексу [1, 0, 4] индекс в массиве будет выглядеть как 20 * 1 + 5 * 0 + 4 * 1 = 24. Пока все ясно

Транспонирование

… то есть изменение порядка осей. Тупой и простой способ — создать новый массив и загнать туда элементы в новом порядке. Но часто бывает удобно транспонировать, работать с нужным порядком осей, а затем менять порядок осей обратно. Конечно, в этом случае нельзя менять сам линейный массив (ЛМ), а при обращении к определенным индексам, мы будем просто подменять порядок.

Рассмотрим функцию:

private int GetFlattenedIndexSilent(int[] indices)
{
    var res = 0;
    for (int i = 0; i < indices.Length; i++)
        res += indices[i] * blocks[i];
    return res + LinOffset;
}

Как видим, если поменять blocks местами, то создастся видимость свапнутых осей. Поэтому так и запишем:

public void Transpose(int axis1, int axis2)
{
    (blocks[axis1], blocks[axis2]) = (blocks[axis2], blocks[axis1]);
    (Shape[axis1], Shape[axis2]) = (Shape[axis2], Shape[axis1]);
}

Просто меняем номера и длины осей местами.

Подтензор

Подтензор N-мерного тензора это M-мерный тензор (M < N), который является частью исходного. Например, нулевой элемент тензора формы [2 x 3 x 4] это тензор формы [3 x 4]. Его мы получим просто сдвигом.

Представим, что мы получаем подтензор по индексу n. Тогда его первый элемент это n * blocks[0] + 0 * blocks[1] + 0 * blocks[2] + .... То есть сдвиг равен n * blocks[0]. Соответственно, не копируя исходный тензор, мы запоминаем сдвиг, создаем новый тензор со ссылкой на наши данные, но уже со сдвигом. А еще нужно будет выкинуть элемент из blocks, а именно элемент blocks[0], ведь это первая ось, к ней обращений не будет.

Другие операции с композицией

Все остальные уже следуют из этих.

SetSubtensor форвардит элементы в нужный подтензор
Concat создает новый тензор, и туда форвардит элементы из двух (при этом длина первой оси — сумма длин осей двух тензоров)
Stack группирует некоторое число тензоров в один с дополнительной осью (например, stack([3 x 4], [3 x 4]) -> [2 x 3 x 4])
Slice возвращает Stack от определенных подтензоров

Все операции с композицией, которые я определил, можно найти здесь.

Математические операции

Тут уже все просто.

1) Поточечные операции (то есть для двух тензоров операции производятся над парой соответствующих элементов (то есть с одинаковыми координатами)). Реализация тут (объяснение почему такой некрасивый код ниже).

2) Операции над матрицами. Произведение, инверсия, и другие простые операции, мне кажется, объяснения не требуют. Хотя есть что рассказать о детерминанте.

Сказ о детерминанте

Дело в том, что способов посчитать детерминант не один. Есть классический способ — метод Лапласа, рекурсивный, работает за O(N!). При работе с матрицами больше 3x3 метод Лапласа начинает проигрывать методу Гаусса (приведение матрицы к треугольной и перемножение элементов диагонали).

Но у метода Гаусса есть недостаток для нас, программистов. Для разных типов данных он выразится по-разному: для float это будет существенная потеря точности, а для int это будет просто неверный ответ.

Реализации в интернете отличаются друг от друга, одни требуют модуль числа, а другие используют деление. Мы же почти избежим и того, и другого.

Чтобы избежать ошибок деления, мы заведем тип дробь. Так, любые арифметические операции, включая деление, будут работать с дробью, а в конце функции мы в итоге поделим числитель на знаменатель. Реализацию можно найти тут. SafeDivisionWrapper это как раз та самая дробь.

Хотя у этого метода тоже есть недостаток: переполнение. Ведь если скапливать в числителе и знаменателе параллельно, то вместо одного небольшого числа у нас получится дробь с огромными знаменателем и числителем. Поэтому я оставил и не SafeDivision версию (для типов с большой точностью, или нечисленных типов его хватит).

3) Операции над веторами (dot и cross product).

Оптимизация

Темплейты?

В C# нет темплейтов. Поэтому приходится использовать костыли. Некоторые люди придумали динамическую компиляцию в делегат, например так у него реализована сумма двух типов.

Однако хотелось кастома, поэтому я завел интерфейс, от которого пользователю нужно унаследовать структуру. При этом в самом линейном массиве хранится примитив, а функции сложения, разности, и другие вызываются как

var c = default(TWrapper).Addition(a, b);

Что инлайнится до вашего метода. Пример имплементации такой структуры.

Индексация

Далее, хотя кажется, что логично в индексаторе использовать params, то есть как-то так:

public T this[params int[] indices]

На самом деле при каждом обращении будет создаваться массив, поэтому приходится создавать множество перегрузок. Аналогично происходит с другими функциями, работающими с индексами.

Исключения

Еще я загнал все исключения и проверки в блок #if ALLOW_EXCEPTIONS на случай, если точно нужно быстро, а проблем с индексами точно нет. Небольшой прирост по производительности есть.

На самом деле это не просто так микрооптимизация, которая много чего будет стоить в плане безопасности. Например, в ваш тензор идет запрос, в котором вы и так уже по своим соображениям сделали проверку на корректность данных. Тогда зачем вам еще одна проверка? А они не бесплатные, особенно, если мы экономим даже лишние арифметические операции с целыми числами.

Многопоточность

Спасибо Билли, это оказалось очень просто и реализуется через Parallel.For.

Хотя многопоточность это не панацея, и включать ее надо аккуратно. Я провел бенчмарк для поточечного сложения тензоров на i7-7700HQ:

Где Y-ось показывает время (в микросекундах) на выполнение одной операции с двумя целочисленными тензорами определенного размера (размер по оси X).

То есть есть определенный порог, начиная с которого многопоток имеет смысл. Чтобы не надо было думать, сделал флажок Threading.Auto и тупо захардкодил константы, начиная с объема равного которым можно включать многопоток (есть более умный автоматический метод?).

При этом библиотека все равно никак не быстрее игровых матриц, или тем более тех, что подсчитываются на CUDA. А зачем? Те уже написаны, а у нас главное — кастомный тип.

Вот так вот

Вот такая коротенькая заметка, спасибо за прочтение. Ссылка на гитхаб проекта здесь. А главный его пользователь — библиотека символической алгебры AngouriMath.

Немного про наши тензоры в AngouriMath

Для нее эти тензоры полезны нечисленностью, ведь в AM-е тип элемента это Entity, кастомный класс. К примеру,

var t = MathS.Matrices.Matrix(3, 3,
              "A", "B", "C",   // Эти буквы парсятся как символьные переменные, тут могло быть и "A * 3", и "sqrt(sin(x) + 5)"
              "D", "E", "F",
              "G", "H", "J");
Console.WriteLine(t.Determinant().Simplify());

Вернет в ответ

A * (E * J - F * H) + C * (D * H - E * G) - B * (D * J - F * G)

Комментарии (15)

WhiteBlackGoose Автор
04.08.2020 09:26
#21920478
Приходилось несколько раз переписывать статью, потому что находил еще какую-нибудь "ну точно последнюю" микрооптимизацию.

В итоге большая часть функционала работает быстрее, чем у ближайшего "конкурента", хотя имплементация сего чуда заняла буквально несколько дней (+ допиливание)

lz961
04.08.2020 09:38
#21920520
Извиняюсь за откровенно профанский вопрос, что дает применение C# для математических задач? Или нужно было вставить в математику в проект, который средствами не С# делать было бы не целесообразно?
1. WhiteBlackGoose Автор
  04.08.2020 09:41
  #21920534
  Была задача сделать generic-тензоры для C#, и да, они используются в другом проекте, который тоже на C#.
  
  Числовые тензоры наверное лучше делать на всяких cpp, cuda и вот это все (хотя и такие делают на шарпе). Но здесь именно для кастомного типа, для generic, так что по-другому бы не получилось
  1. build_your_web
    04.08.2020 10:05
    #21920614
    F#
    
    lz961
    05.08.2020 19:28
    #21926598
    Что с производительностью? Если не ошибаюсь, F# подобно C# и java транслируется в байт-код, а значит следует ожидать падения производительности в 2-5 раз по сравнению c С/С++. Кроме того F# является скорее функциональным языком, а появление массивов, матриц, тензоров в задаче во многих случаях связано с реализацией итеративных процедур. Может ли программист быть уверен, что функциональная запись таких процедур будут эффективно транслирована в исполняемый код? И будет ли удобна такая запись?
    
    WhiteBlackGoose Автор
    05.08.2020 20:09
    #21926730
    2-5 раз это очень абстрактное утверждение, если честно. Может быть вы правы, я не уверен на 100%.
    
    Я думаю на C# можно писать не менее производительный код, как на C++, но это нужно очень, очень хорошо знать низкоуровневый C#, тот, что человек изучает в C++ как нормальный. Тут есть тебе и стековая аллокация (кроме классов), и указатели, и simd, и даже общение с управлением памяти и байт-кодом, который транслируется в ассемблер до того, как начинает исполняться.
    
    А про F# не знаю, к сожалению.
    
    build_your_web
    05.08.2020 23:32
    #21927378
    Эти операции отлично ложатся на функциональные языки.
    Если сравнивать с C#, то производительность программы может быть лучше или хуже, чем в итеративных вариантах — зависит от конкретного алгоритма. К тому же, F# позволяет писать в итеративном стиле, также как и С# позволяет писать в функциональном.
    Если сравнивать с хорошо написанной программой на C/C++, то, конечно, производительность программы будет ниже, но при этом производительность программиста в скорости реализации задач будет в разы (а может и на порядок) выше, чем при написании на C/C++, т.к. программисту не нужно тратить время на низкоуровневые проблемы.
    
    lz961
    06.08.2020 00:05
    #21927444
    Спасибо всем ответившим
    
    leoniso
    06.08.2020 17:28
    #21930076
    Всегда несколько смущали заявления в стиле
    
    производительность программиста в скорости реализации задач будет в разы выше
    Особенно часто слышу это для питона.
    
    При этом Вы выше говорите о
    
    хорошо написанную программу
    На мой взгляд, человек, хорошо знающий плюсы будет писать не менее быстро, чем человек знающий питон. Другое дело, что, действительно, первый человек куда более редкий и, вдобавок, таким сложнее стать. Однако это другой вопрос, как мне кажется.
    
    Что касается
    
    программисту не нужно тратить время на низкоуровневые проблемы.
    С этим не могу согласиться. Послушайте интревью Страуструпа Фридману, он, в том числе, об этом там говорит: проблема в том, что люди считают, что низкоуровневые вставки сделают их код быстрее, но это не так. Такие случаи есть, но как правило люди не хотят тратить время на изучение стандартной библиотеки и пихают макросы и прочии сишности без разбора. Сам Страуструп говорит, что он против такого и за встроенные механизмы абстракции языка плюс стандартную библиотеку.
    
    Я писал ниже про то, что использую фреймворк для анализа данных от церна root. И довольно много провел времени за изучением его исходников. Так вот там очень хорошо видно, что низкоуровневые вставки скорее от незнания stdlib, а в некоторых случаях от того, что stdlib просто не было когда root начинали писать.
    
    Однако в целом я согласен с тем, что по производительности c# в умелых руках весьма хорош. Опять же писал ниже про примеры в геймдеве и в приложениях.
    
    lz961
    06.08.2020 20:32
    #21930594
    … Однако это другой вопрос, как мне кажется.
    В реалиях этот вопрос оказывается ключевым. Вы, похоже, очень хорошо разбираетесь как в программировании, так и в предметной области для которой пишете программы сами либо посредством продуктивного взаимодействия с другими программистами. Проблема в том, что таких как вы мало, и ваши труд стоит очень дорого. Поэтому приходится прибегать к менее продуктивным инструментам с богатыми возможностями, либо использовать продуктивные инструменты непродуктивным образом.
    
    … Особенно часто слышу это для питона.
    
    Дак потому что почти все уже украдено, простите, написано до нас и остается только связать между собой готовые процедуры, что Питон позволяет сделать с особой легкостью и внутренним цинизмом. Проблемы начинаются, когда этих процедур не хватает. Простите за банальности.
  1. leoniso
    04.08.2020 14:45
    #21921716
    +1
    Добрый день.
    
    Спасибо за статью.
    
    Честно говоря, все пока не прочитал, хотя интересно. Несколько коробит отождествление тензора и нмерной матрицы. Все таки тензор хоть и описывает матрицу, но тоже транспонирование, выражающиеся для тензора в замене ковариантности на контрвариантность делается через метрический тензор и не совпадает с транспонированием в смысле матрицы. Однако это лишь мои жалкие знания из использования тензоров в электродинамике и сто, возможно в тензорном анализе действительно есть более общие ситуации.
    
    Я хотел бы касательно комментария по поводу применимости Шарпа к мат вычислениям добавить:
    
    На самом деле, хотя и есть некоторые соображения в пользу относительной закрытости .net в прошлом, я не очень понимаю, почему его не используют. Так случилось, что я разрабатываю на шарпе и параллельно занимаюсь анализом данных. Так, например, церновский рут, а точнее новый интерфейс rdataframe становится сильно похож на linq, а для параллельных вычислений у них есть Task… Безусловно gc вносит вклад, и используя linq легко получить множественные вызовы gc и дикую просадку по производительности. При этом тот же гейм дев вроде бы нормально существует на шарпе(хотя насколько я знаю с табу на linq), xamarin.
    
    В целом я с большой надеждой смотрю на .net core,ml.net, Microsoft.Data.Analysis и f#…
    
    WhiteBlackGoose Автор
    05.08.2020 06:47
    #21924172
    Спасибо за хороший комментарий. Транспонирование в значении изменение порядка осей я взял из других библиотек, к примеру, так делают NumPy и PyTorch. Кажется, что это все равно будет самым частым использованием и пониманием, опять же, для тех, кто знаком с NumPy.
    
    С другой стороны, с математической точки зрения возможно стоит это дело переименовать, не знаю.
    
    По поводу анализа данных, наверное, без GPU тут не обойтись, разве нет? В моем случае поддержки GPU и SIMD никогда не будет именно потому, что я поддерживаю произвольный тип.
    
    Гейм-дев… насколько я знаю, Unity нехило помогает GC в управлении памяти, хотя могу ошибаться
    
    alex_zzzz
    08.08.2020 17:52
    #21937176
    В Unity используется очень простой Boehm GC, в котором нет даже деления на поколения. Что больше всего помогает GC в управлении памятью в Unity ? это не генерировать тонны мусора в каждом кадре.
    
    С версии Unity 2019 сборщику мусора добавили incremental-режим, чтобы не тормозить мир надолго, а размазывать одну относительно большую паузу по нескольким соседним кадрам.
    
    https://blogs.unity3d.com/2018/11/26/feature-preview-incremental-garbage-collection/

BkmzSpb
04.08.2020 13:56
#21921544
var c = default(TWrapper).Addition(a, b);
Не очень понятен смысл этой жуткой конструкции. Вы хотите обобщенную арифметику? Я писал об этом кривую статью некоторое время назад.
После советов с более опытными разработчиками выяснилось, что JIT отлично соптимизирует код вида
if(typeof(T) == typeof(int)) return Unsafe.As<int, T> (Unsafe.As<T, int>(a) + Unsafe.As<T, int>(b));
Или что-то типа этого (у вас в ссылках есть касты через object). По скорости чуть-чуть отстает от прямого использования +, который превращается в три IL инструкции.

Теперь, в 2к20, можно вообще не выпендр"иваться и вооружиться source generators, которые за вас весь бойлерплейт на каждый тип и сгенерят. Ну или упороться с IL с помощью чудесного InlineIL.Fody.

Далее, хотя кажется, что логично в индексаторе использовать params, то есть как-то так:
Зачем вам params когда можно создать свой собственный тип? Есть же Index/Range для линейного индексирования, заведите свой TensorIndex. Можно ручками прописать множество конструкторов/или операторов преобразования, можно добавить поддержку кортежей (tuples, генератор исходников в помощь). Можно даже пропихнуть System.Runtime.CompilerServices.ITuple в качестве аргумента аксессора this, что позволит писать код вида var x = tensor[(5, 6, 7)], разумеется, ценой боксинга (вряд ли сильно лучше массива).
Попробуйте принимать ReadOnySpan<uint> в качестве индекса, и тогда вам будет доступен код вида var y = tensor[stackalloc uint[] {5, 6, 7}], что конечно чуть длиннее, зато allocation-free (вот пример).

P.S.: Я честно считал что в Math.NET есть тензоры, но их там не оказалось. Я видел ссылки на System.Numerics.Tensors от MS ради поддержки ML-задач, но эти тензоры вроде должны были стать частью BCL, но
похоже испарились.
1. WhiteBlackGoose Автор
  04.08.2020 14:51
  #21921750
  if(typeof(T) == typeof(int))
  Я уже очень много раз сказал, что должен быть кастомный тип. Это значит не пять встроенных типов, а любой.
  
  касты через object
  В моем коде не должно быть такого ужаса
  
  вооружиться source generators, которые за вас весь бойлерплейт на каждый тип и сгенерят.
  Ага, чтобы вместо скачивания через NuGet пользователю пришлось билдить под себя. Это уже слово из трех букв: c++.
  
  Ну а про tuple на стеке — в принципе да, хотя я не уверен, что оно столько же времени будет работать, но вероятно. С другой стороны, есть цикл, и придется безусловно итерироваться по длине этого tuple-а, это может быть чуть дороже, чем хотелось
  
  А еще я получается жертвую удобством пользователя библиотеки ради удобства себя любимого

Тензоры для C#. И матрицы, и векторы, и кастомный тип, и сравнительно быстро +12

Хранение элементов, транспонирование, подтензор

Транспонирование

Подтензор

Другие операции с композицией

Математические операции

Оптимизация

Темплейты?

Индексация

Исключения

Многопоточность

Вот так вот

Комментарии (15)

WhiteBlackGoose Автор

WhiteBlackGoose Автор

WhiteBlackGoose Автор

WhiteBlackGoose Автор

WhiteBlackGoose Автор