std.ndslice так же как и Numpy предназначен для работы с многомерными массивами. Однако в отличие от Numpy ndslice имет крайне низкий оверхэд так как базируется на ranges (диапазонах), которые используются в штатной библиотеке повсеместно. Ranges позволяют избежать лишние процедуры копирования, а так же позволяют красиво организовать ленивые вычисления.
В этой статье мне хотелось бы рассказать о том какие преимущества std.ndslice дает по сравнению с Numpy.
Почему программисты Python должны посмотреть в сторону D?
Потому что D позволяет писать практически такой же простой и понятный код как Python, при этом этот код будет работать значительно быстрее чем код на Python.
Следующий пример создает диапазон чисел от 0 до 999 используя функцию
iota
(аналог в Python называется xrange
) и возвращает массив размерностью 5x5x40.import std.range : iota;
import std.experimental.ndslice;
void main() {
auto slice = sliced(iota(1000), 5, 5, 40);
}
Хотя D статически типизируемый язык, и явное указание типа повышает читаемость кода, чтобы программистам на Python было проще мы воспользуемся автоматической типизацией с использованием ключевого слова
auto
.Функций
sliced
возвращает многомерный срез. На входе она может принимать как простые массивы так и ranges
. В итоге у нас получился куб размером 5x5x40 состоящий из чисел от 0 до 999.Пару слов о том что такое Ranges. На русский язык их правильнее переводить как диапазоны. Ranges позволяют описать правила перебора данных любого типа данных, будь то класс или структура. Для этого достаточно чтобы вы реализовали функцию:
front
, возвращающую первый элемент диапазона, popFront
, переходящий к следующему элементу и empty
возвращающую булевое значение показывающую, что перебираемая последовательность пуста. Ranges
позволяют выполнять ленивый перебор обращаясь к данным по мере их необходимости. Более подробно концепция Ranges освещена тут.Обратите внимание, что никаких пустых аллокаций памяти! Это происходит потому что
iota
так же позволяет генерировать ленивые диапазоны, а sliced
в ленивом режиме так же принимает данные из iota
и обрабатывает их по мере поступления. Как вы видите std.ndslice работает несколько иначе чем Numpy. Numpy создает собственный тип для данных, тогда как std.ndslice представляет способ манипуляции с уже существующими данными. Это позволяет вам во всей вашей программе использовать одни и те же данные не тратя ресурсы на бесполезный мемори аллокейшен! Не сложно догадаться, что это крайне серьезно сказывается на производительности ваших решений.
Давайте посмотрим на следующий пример. В нем мы будем получать данные из
stdin
, фильтровать только уникальные строки, сортировать их, и затем возвращать в stdout
.import std.stdio;
import std.array;
import std.algorithm;
void main() {
stdin
// get stdin as a range
.byLine(KeepTerminator.yes)
.uniq
// stdin is immutable, so we need a copy
.map!(a => a.idup)
.array
.sort
// stdout.lockingTextWriter() is an output range, meaning values can be
// inserted into to it, which in this case will be sent to stdout
.copy(stdout.lockingTextWriter());
}
Желающим более подробно разобраться с ленивой генерацией диапазонов рекомендую почитать эту статью.
Так как
slice
имеет три измерения это диапазон который возвращает диапазон диапазонов (ranges of ranges). Это хорошо видно на следующем примере:import std.range : iota;
import std.stdio : writeln;
import std.experimental.ndslice;
void main() {
auto slice = sliced(iota(1000), 5, 5, 40);
foreach (item; slice) {
writeln(item);
}
}
Результат его работы будет следующим (троеточия для краткости):
[[0, 1, ... 38, 39], [40, 41, ... 78, 79], [80, 81, ... 118, 119], [120, 121, ... 158, 159], [160, 161, ... 198, 199]]
...
[[800, 801, ... 838, 839], [840, 841, ... 878, 879], [880, 881, ... 918, 919], [920, 921, ... 958, 959], [960, 961, ... 998, 999]]
Цикл
foreach
работает почти так же как for
в Python. Однако в D вы можете его использовать так в стиле Cи, так и на манер циклов в Python, но без мороки с enumerate
или xrange
. Используя UFCS (Uniform Function Call Syntax) вы можете переписать код на следующий манер:
import std.range : iota;
import std.experimental.ndslice;
void main() {
auto slice = 1000.iota.sliced(5, 5, 40);
}
UFCS позволяет записывать вызов методов по цепочке и писать:
a.func(b)
вместо:
func(a, b)
Давайте теперь сгенирируем пустой проект при помощи менеджера пакетов dub. Командой
dub init
и в файле \source\app.d
напишем:import std.experimental.ndslice;
void main() {
}
В настоящий момент
std.experimental.ndslice;
находится в секции std.experimental
. Это не значит, что он сырой. Это значит, что ему нужно настояться.Теперь соберем проект командой:
dub
Модуль D ndslice весьма похож на Numpy:
a = numpy.arange(1000).reshape((5, 5, 40))
b = a[2:-1, 1, 10:20]
Равнозначно:
auto a = 1000.iota.sliced(5, 5, 40);
auto b = a[2 .. $, 1, 10 .. 20];
Теперь давайте создадим двухмерный массив и получим середину каждой его колонки.
Python:
import numpy
data = numpy.arange(100000).reshape((100, 1000))
means = numpy.mean(data, axis=0)
D:
import std.range;
import std.algorithm.iteration;
import std.experimental.ndslice;
import std.array : array;
void main() {
auto means = 100_000.iota
.sliced(100, 1000)
.transposed
.map!(r => sum(r) / r.length)
.array;
}
Для того, чтобы данный код не работал в ленивом режиме мне пришлось вызывать метод
array
. Однако в реальном приложении результат не будет рассчитан, пока он используется в другой части программы. В настоящий момент в Phobos нет встроенных модулей работы со статистикой. Поэтому в примере используется простая лямбда для нахождения среднего значения. Функция
map!
имеет в конце восклицательный знак. Это значит, что это шаблонная функция. Она позволяет на этапе компиляции генерировать код основанный на выражении указанном в ее теле. Вот хорошая статья о том как работают сами шаблоны в D.Хотя код на D и получился чуть более многословным, чем на Python, но благодаря
map!
код будет работать с любыми входными данными являющимися диапазоном (range). В то время как код на Python будет работать только со специальными массивами из Numpy.Тут нужно сказать, что после проведения этого теста оказалось, что Python проиграл D в разы и после долгих дисскусий на Hacker News, я понял что допустил ошибку и сравнение оказалось не совсем корректным.
iota
динамически создает данные которые принимает функция sliced
. И соответственно мы не трогаем память до момента последней ее релокации. Так же D возвращает массив с типом данных long
в то время как Numpy из double
. В итоге переписал код и довел значение массива до 1000 000 вместо 10 000. Вот что получилось:import std.range : iota;
import std.array : array;
import std.algorithm;
import std.datetime;
import std.conv : to;
import std.stdio;
import std.experimental.ndslice;
enum test_count = 10_000;
double[] means;
int[] data;
void f0() {
means = data
.sliced(100, 10000)
.transposed
.map!(r => sum(r, 0L) / cast(double) r.length)
.array;
}
void main() {
data = 1_000_000.iota.array;
auto r = benchmark!(f0)(test_count);
auto f0Result = to!Duration(r[0] / test_count);
f0Result.writeln;
}
Тесты проводил на 2015 MacBook Pro with a 2.9 GHz Intel Core Broadwell i5. В Python для замера скорости использовал функцию
%timeit
в D std.datetime.benchmark
. Компилировал все при помощи LDC v0.17 со следующими ключами: ldmd2 -release -inline -boundscheck=off -O
. Или если вы используете dub то аналогом этих ключей будут опции dub --build=release-nobounds --compiler=ldmd2
.Вот результаты первого теста:
Python: 145 µs
LDC: 5 µs
D is 29x faster
Вот теста исправленной версии:
Python: 1.43 msec
LDC: 628 ?s
D is 2.27x faster
Согласитесь весьма не плохая разница учитывая то что Numpy написан на С, а в D все ругают сборщик мусора.
Как D позволяет избежать проблем Numpy?
Да Numpy быстр, но быстр он лишь в сравнении с простыми масисвами Python. Но проблема в том, что он с этими простыми массивами совместим лишь частично.
Библиотека Numpy находится где то сбоку от остального Python. Она живет своей жизнью. В ней используются свои функции, она работает со своими типами. К примеру если нам потребуется использовать массив созданный в Python в NumPy нам нужно будет использовать
np.asarray
который скопирует его в новую переменную. Беглый поиск по github показал что тысячи проектов используют этот костыль. В то время как данные могли бы быть просто переданы из одной функции в другую без этих пустых копирований.import numpy as np
a = [[0.2,0.5,0.3], [0.2,0.5,0.3]]
p = np.asarray(a)
y = np.asarray([0,1])
Эту проблему пытаются решить переписав часть стандартной библиотеки Python на использование типов Numpy. Однако это все равно не полноценное решение, которое приводит к замечательным приколам, когда написав:
sum(a)
вместо:
a.sum()
мы получаем 10x кратное падение в скорости.
У D таких проблем просто нет by design. Это компилируемый, статически типизируемый язык. Во время генерации кода известны все типы переменных. В самом std.ndslice вы получаете полный доступ ко всем функциям библиотеки Phobos к примеру к таким замечательным вещам как std.algorithm и std.range. Ах да, при этом вы сможете использовать шаблоны D позволяющие генерировать код прямо на этапе компиляции.
Вот пример:
import std.range : iota;
import std.algorithm.iteration : sum;
import std.experimental.ndslice;
void main() {
auto slice = 1000.iota.sliced(5, 5, 40);
auto result = slice
// sum expects an input range of numerical values, so to get one
// we call std.experimental.ndslice.byElement to get the unwound
// range
.byElement
.sum;
}
Вы берете и просто используете функцию
sum
и она просто берет и работает, ровно как и любая другая функция из базовой библиотеки.В самом Python для того чтобы получить список опреленной длинны инициализированный определенным значением нам нужно написать:
a = [0] * 1000
В Numpy уже будет совсем по-другому:
a = numpy.zeros((1000))
И если вы не вспользуетесь Numpy то ваш код будет в 4 раза медленне не считая лишней операции копирования съедающей память. В D нам на помощь приходят range, который позволяют сделать эту же операцию быстро и без пустых операций копирования:
auto a = repeat(0, 1000).array;
И если нужно мы можем тут же вызвать ndslice:
auto a = repeat(0, 1000).array.sliced(5, 5, 40);
Главное преимущество Numpy в настоящее время это его распространенность. Сейчас он используется реально очень широко от банковских систем до машинного обучения. По нему очень много книг, примеров и статей. Однако математические возможности в D очевидно будут уже очень скоро расширены. Так автор ndslice заявил, что сейчас ведет работы над BLAS (Basic Linear Algebra Subprograms) для Phobos, который так же будет полностью интегрирован с ndslice и со стандартной библиотекой.
Мощная математическая подсистема позволит очень эффективно решать ряд задач где необходима работы с большими данными. К примеру системы компьютерного видения. Прототип одной из таких систем уже разрабатывается и называется DCV.
Обработка изображений на D
Следующий пример покажет как работает медианный фильтр позволяющий ликвидировать шумы на изображении. Функция
movingWindowByChannel
может быть использована так же в других фильтрах где требуется использование скользящее окно. movingWindowByChannel
позволяет перемещаться по изображению используя скользящее окно. Каждое такое окно передается в фильтр, который рассчитывает значения пикселей на основании выбранной зоны. Эта функция не обрабатывает зоны с частичным перекрытием. Однако с ее помощью можно вычеслить значения в них тоже. Для этого нужно создать увеличенное изображение с краями отражающими границы оригинального изображения и затем обработать его.
/**
Params:
filter = unary function. Dimension window 2D is the argument.
image = image dimensions `(h, w, c)`,
where с is the number of channels in the image
nr = number of rows in the window
nс = number of columns in the window
Returns:
image dimensions `(h - nr + 1, w - nc + 1, c)`,
where с is the number of channels in the image.
Dense data layout is guaranteed.
*/
Slice!(3, C*) movingWindowByChannel(alias filter, C)
(Slice!(3, C*) image, size_t nr, size_t nc)
{
// local imports in D work much like Python's local imports,
// meaning if your code never runs this function, these will
// never be imported because this function wasn't compiled
import std.algorithm.iteration: map;
import std.array: array;
// 0. 3D
// The last dimension represents the color channel.
auto wnds = image
// 1. 2D composed of 1D
// Packs the last dimension.
.pack!1
// 2. 2D composed of 2D composed of 1D
// Splits image into overlapping windows.
.windows(nr, nc)
// 3. 5D
// Unpacks the windows.
.unpack
// 4. 5D
// Brings the color channel dimension to the third position.
.transposed!(0, 1, 4)
// 5. 3D Composed of 2D
// Packs the last two dimensions.
.pack!2;
return wnds
// 6. Range composed of 2D
// Gathers all windows in the range.
.byElement
// 7. Range composed of pixels
// 2D to pixel lazy conversion.
.map!filter
// 8. `C[]`
// The only memory allocation in this function.
.array
// 9. 3D
// Returns slice with corresponding shape.
.sliced(wnds.shape);
}
Следующая функция пример того как можно рассчитать медиану у объекта. Функция сильно упрощена в целях повышения читаемости.
/**
Params:
r = input range
buf = buffer with length no less than the number of elements in `r`
Returns:
median value over the range `r`
*/
T median(Range, T)(Range r, T[] buf)
{
import std.algorithm.sorting: sort;
size_t n;
foreach (e; r) {
buf[n++] = e;
}
buf[0 .. n].sort();
immutable m = n >> 1;
return n & 1 ? buf[m] : cast(T)((buf[m - 1] + buf[m]) / 2);
}
Ну а теперь собственно сам Main:
void main(string[] args)
{
import std.conv: to;
import std.getopt: getopt, defaultGetoptPrinter;
import std.path: stripExtension;
// In D, getopt is part of the standard library
uint nr, nc, def = 3;
auto helpInformation = args.getopt(
"nr", "number of rows in window, default value is " ~ def.to!string, &nr,
"nc", "number of columns in window, default value is equal to nr", &nc);
if (helpInformation.helpWanted)
{
defaultGetoptPrinter(
"Usage: median-filter [<options...>] [<file_names...>]\noptions:",
helpInformation.options);
return;
}
if (!nr) nr = def;
if (!nc) nc = nr;
auto buf = new ubyte[nr * nc];
foreach (name; args[1 .. $])
{
import imageformats; // can be found at code.dlang.org
IFImage image = read_image(name);
auto ret = image.pixels
.sliced(cast(size_t)image.h, cast(size_t)image.w, cast(size_t)image.c)
.movingWindowByChannel
!(window => median(window.byElement, buf))
(nr, nc);
write_image(
name.stripExtension ~ "_filtered.png",
ret.length!1,
ret.length!0,
(&ret[0, 0, 0])[0 .. ret.elementsCount]);
}
}
Если не все примеры показались вам понятными рекомендую вам прочитать бесплатную версию замечательной книги Programming in D.
P.S. Если знаете как данную публикацию перевести в статус "переводы", то напишите в приват.
Комментарии (24)
eugenero
22.02.2016 15:56-5Господи, какой геморрой. Ещё и конпелять надо.
код на Python будет работать только со специальными массивами из Numpy.
Когда пользуешься NumPy, не-массивы как правило не нужны. Наоборот, часто возникает проблема, как автоматически привести скаляр к одноэлементному массиву, для проверки, например, граничных условий.
beduin01
22.02.2016 16:49+11>Господи, какой геморрой. Ещё и конпелять надо.
Согласен. Гораздо интереснее ошибки ловить сразу во время работы приложения…eugenero
23.02.2016 19:57Компиляция избавляет от ошибок времени выполнения? Скорее публикуйте своё открытие!
Optik
23.02.2016 23:41Снижает их в N раз, где N зависит от "ума" компилятора. Обратная сторона — дополнительный бойлерплейт при написании кода. Кто-то ищет баланс, кто-то живёт в крайностях. Каждый выбирает более приятный ему путь.
ffriend
22.02.2016 16:58+3Думаю, начинать сравнение D/Phobos и Python/NumPy нужно не со скорости, а с вариантов использования. В отличие от D, Python — язык динамический и поддерживающий полностью интерактивную разработку в REPL. В Python вы можете визуализировать свои данные, попробовать статистическую модель или протестировать новый визуальный фильтр прямо на лету, не закрывая сессию и не пересоздавая данные, что практически невозможно в компилируемом языке без интерактивной консоли. Кроме того, большинство исследователей, на которых во многом ориентирован NumPy, привыкли к динамическим языкам (Matlab, R, Python, etc.), так что вряд ли многие из них захотят копаться в ошибках компиляции в отдалённом куске кода, который в данный момент не собирается и не используется.
Если хотите что-то похожее на Python, но быстрее, посмотрите на Julia. Вот пример вашего кода выше для подсчёта среднего по двумерному массиву:
julia> data = reshape(1:100*10_000, 100, 10_000); julia> @time mean(data, 1) 0.000580 seconds (17 allocations: 78.813 KB) julia> @time for i=1:1000 mean(data, 1); end 0.584253 seconds (13.00 k allocations: 76.813 MB, 0.50% gc time) # 584 nanoseconds per iteration
snizovtsev
22.02.2016 17:37+1Но если сильно захотеть… Вот разработчики из CERN запилили C++ REPL с графиками, да еще и в веб: https://root.cern.ch/notebooks/rootbinder.html (компилируют выражения в рантайме через Clang).
iroln
23.02.2016 14:04Всё же поддержка web — это не их заслуга, а Jupyter Notebook. Их заслуга в том, что они C++ kernel сделали для Jupyter.
ffriend
26.02.2016 21:46Сегодня случайно наткнулся на ещё один REPL для C++. Что интересно, реализован он на Julia, которая сама, опять же, на Clang.
beduin01
22.02.2016 18:27На счет исследователей тут интересная штука. С одной стороны динамическая типизация позволяет писать код куда быстрее и закрывать глаза на кучу потенциальных ошибок, с другой поддерживать его гораздо сложнее т.к. не ясно какие типы данных в какой переменной. Отсюда сложно делать умный автокомплит и тд.
Да и в новомодных BigData разница в расчете в 2 раза это уже слишком много.
На счет Julia согласен. Реально крутой язык. Там кстати можно бинарики собирать уже без внешних зависимостей?
Кстати, вот REPL для D https://github.com/callumenator/dabble правда я сам им не пользовался.saluev
22.02.2016 20:01+2Когда исследователи, работающие с многомерными массивами, переходят от проб и ошибок к написанию реальных быстрых расчётных программ, им, как правило, уже не нужны ленивые вычисления. Там начинаются пляски с кэшем, параллельностью и прочие оптимизации, где крайне важно знать, что, где и когда реально выполняется. Многие вообще пишут на Фортране и радуются, как он умно оптимизирует циклы. (Ну а качество кода, к сожалению, редко интересует их в эти моменты.)
ffriend
23.02.2016 00:33Там кстати можно бинарики собирать уже без внешних зависимостей?
Можно (см., например, BuildExectable.jl), равно как и можно подключать в качестве динамической библиотеки. Правда я до сих пор не понимаю, чем хороши бинарники без внешних зависимостей. Поделитесь, если не секрет.
Кстати, вот REPL для D github.com/callumenator/dabble правда я сам им не пользовался.
Честно говоря, после Scala и Rust я довольно скептически отношусь к REPL-ам в статически-типизированных языках. В Scala, например, невозможно перезагрузить класс из пакета (в то время как в Clojure, который на той же платформе, но динамический, это делается супер гибко). Хотя возможно, что мне просто не везёт и кто-нибудь меня переубедить.
eugenero
23.02.2016 20:03В грамотно построенных вычислительных библиотеках ядро написано на C/Fortran. Пример — блок линейной алгебры в Nympy. Был написан давно и качественно.
не ясно какие типы данных в какой переменной
Прошу пример реальной вычислительной задачи, где тип параметра может быть неопределён (если это не абстрактная алгебра — для неё есть свои выч. пакеты).ffriend
23.02.2016 22:16В грамотно построенных вычислительных библиотеках ядро написано на C/Fortran.
Всё хорошо, пока вы пользуетесь готовыми библиотеками. А вот когда дело доходит до написания своих и приходиться лезть в этот самый C (про Fortran молчу), начинаешь задумываться о скорости своего основного языка :)eugenero
24.02.2016 11:36О какой переносимости вычислительного кода вы говорите? Переносимости куда, на ардуино?
Если не использовать архитектурно неинвариантных решений (например, сишных объединений), то нет никакой разницы, компилируемый язык или нет. Да и вообще, это редкий случай, когда нужно таскать код на разные архитектуры. В моём опыте такое ровно однажды пришлось запускать код на разных архитектурах, точнее, с разным порядком следования байт. Код был на c99. Вычисления были в double, всё остальное — в int и строках char*. Компилировалось icc и gcc вместе с mpich. Работало, хотя это можно считать удачей. В серьёзных вычислительных проектах незападло писать под конкретное железо.
runnig
22.02.2016 21:38Сразу вопрос: есть ли в D аналог pandas?
beduin01
22.02.2016 22:22+1Поясните что оно делать должно? Я погулил вот только такой топик всплывает http://forum.dlang.org/thread/m9u2mu$1rjd$1@digitalmars.com?page=5
myxo
23.02.2016 01:05+2pandas — большая библиотека в питоне, предназначенная для статистических вычислений. Ну то есть она реально большая.
bfDeveloper
22.02.2016 22:57я понял что допустил ошибку и сравнение оказалось не совсем корректным. iota динамически создает данные которые принимает функция sliced. И соответственно мы не трогаем память до момента последней ее релокации.
Я не совсем понимаю, почему это ошибка. В реальном коде тоже будут места, которые так оптимизируются, диапазоны для того и нужны. Если задача была протестировать поиск среднего, то iota вообще не должно было быть в бенчмарке. А так это одно из основных преимуществ диапазонов. Ленивость это фича. Не нужно считать, хранить, выделять память под сущности, которые эффективно генерируются на лету. Не так давно на С++ сталкивался с ситуацией, когда ленивый диапазон выигрывал у конкатенации строк просто за счёт ухода от аллокации. А ведь на нём как и на строке работают все алгоритмы стандартной библиотеки.
Хороший пример для обработки изображений был http://habrahabr.ru/post/218429/ Это конечно не ndslice, но хорошо раскрывает потенциал диапазонов как таковых. Особенно восхищает ситуация, когда несколько поворотов изображения дают 360 градусов, компилятор это понимает и выкидывает код вообще. Это же не просто частный случай, это демонстрация просторов для оптимизмции.
myxo
Если вас зовут не Jack Stouffer, то вам нужно указать, что это перевод.
Wedmer
Раньше в Recovery нельзя было указывать перевод.
encyclopedist
Но всегда можно написать абзац "от переводчика" с указанием автора и со ссылкой на оригинальный текст.