В Python 3.12 появилась поддержка perf profiling. В этой статье рассмотрим, как это помогает сократить время выполнения Python-скрипта с 36 секунд до 0,8. Мы рассмотрим Linux-инструмент perf
, а также графики Flame Graph (добавить пояснение: способ визуализации процессорного времени, потраченного на функции), посмотрим на дизассемблированный код и займемся поиском ошибок. Код из статьи можно посмотреть здесь.
Загляните на соответствующую страницу официальной документации Python и в список изменений. Для этой статьи из документов по ссылкам выше важно следующее:
Профилировщик perf для Linux является мощным инструментом, который позволяет профилировать и получать информацию о производительности приложения. У perf богатая экосистема инструментов, которые помогают с анализом данных, которые он производит.
Основная проблема при использовании профилировщика perf с приложениями Python состоит в том, что perf позволяет получить информацию только о нативных символах, то есть об именах функций и процедур, написанных на C. Это значит, что имена и названия файлов функций Python в вашем коде в выводе perf не появятся.
Начиная с Python 3.12, интерпретатор может работать в специальном режиме, который позволяет функциям Python появляться в выводе профилировщика perf. При включенном режиме интерпретатор вставляет небольшой фрагмент кода, скомпилированный на лету, перед выполнением каждой функции Python и обучает perf взаимосвязи между этим фрагментом кода и связанной с ним функцией Python с помощью файлов perf map.
Написание «плохой» программы
Давайте приступим. Для начала создадим Python-скрипт для профилирования. Я делаю это до установки Python 3.12, поскольку хочу визуализировать и сравнить с помощью Flame Graph то, как этот процесс выглядит в версиях 3.10 и 3.12. Вот скрипт, который выполняет поиск в большом списке:
import time
def run_dummy(numbers):
for findme in range(100000):
if findme in numbers:
print("found", findme)
else:
print("missed", findme)
if __name__ == "__main__":
# создать входные данные большого размера, чтобы продемонстрировать
неэффективность
numbers = [i for i in range(20000000)]
start_time = time.time() # текущее время [начало]
run_dummy(numbers) # запустить наш неэффективный метод
end_time = time.time() # текущее время [конец]
duration = end_time - start_time # вычислить продолжительность
print(f"Duration: {duration} seconds") # вывести продолжительность на экран
Запуск скрипта дает следующий результат:
python3.10 assets/dummy/perf_py_proj/before.py
...
found 99992
found 99993
found 99994
found 99995
found 99996
found 99997
found 99998
found 99999
Duration: 36.06884431838989 seconds
36 секунд недостаточно для того, чтобы собрать необходимое количество сэмплов.
Flame Graph
Теперь создадим Flame Graph:
# запись профиля производительности в файл "perf.data" (вывод по умолчанию)
perf record -F 99 -g -- python3.10 assets/dummy/perf_py_proj/before.py
# прочтение perf.data (созданного выше) и отображение вывода трассировки
perf script > out.perf
# сложим стеки в одну линию
# здесь я ссылаюсь на ~/FlameGraph/ - лежит по адресу https://github.com/brendangregg/FlameGraph
~/FlameGraph/stackcollapse-perf.pl out.perf > out.folded
# генерация flamegraph
~/FlameGraph/flamegraph.pl out.folded > ./assets/perf_example_python3.10.svg
Получаем красивый SVG с визуализацией данных:
Я вижу, что большая часть времени была потрачена на «new_keys_object.lto_priv.0», но это не несет смысла в контексте кода.
Настало время для Python 3.12
Для начала установим. Шаги установки различаются в зависимости от ОС. Следуйте инструкциям по сборке для вашей среды.
# для ubuntu:22.04
# убедимся, что я установил python3-dbg
sudo apt-get install python3-dbg
# сборка python
export CFLAGS="-fno-omit-frame-pointer -mno-omit-leaf-frame-pointer"
./configure --enable-optimizations
make
make test
sudo make install
unset CFLAGS
# после этого я сбросил символьную ссылку python3 на 3.10, так как 3.12 еще не стабилен
# для тестирования python3.12 я буду называть «python3.12» вместо «python3»
ln -sf /usr/local/bin/python3.10 /usr/local/bin/python3
После установки нужно включить поддержку perf. В документации предлагается три возможных варианта: 1) переменная среды, 2) параметр -X или 3) динамическое использование sys
. Я выберу подход с переменной среды, поскольку я за то, чтобы все было профилировано с помощью небольшого скрипта:
export PYTHONPERFSUPPORT=1
Теперь мы просто повторяем описанный выше процесс, используя вместо этого собранный python3.12
:
# записать профиль производительности в файл "perf.data" (вывод по умолчанию)
perf record -F 99 -g -- python3.12 assets/dummy/perf_py_proj/before.py
# прочитать perf.data (созданный выше) и отобразить вывод трассировки
perf script > out.perf
# сложим стеки в одну линию
# здесь я ссылаюсь на ~/FlameGraph/ - который можно найти по адресу https://github.com/brendangregg/FlameGraph
~/FlameGraph/stackcollapse-perf.pl out.perf > out.folded
# генерация flamegraph
~/FlameGraph/flamegraph.pl out.folded > ./assets/perf_example_python3.12.before.svg
Взглянем на отчет с помощью perf report -g -i perf.data
.
Отлично, мы видим имена функций Python и имена скриптов.
Давайте посмотрим на обновленный SVG, который визуализирует трассировки с Python 3.12:
Это уже выглядит гораздо полезнее. Отсюда мы узнали, что большая часть времени уходит на сравнения и на метод list_contains
. Также видим конкретный файл before.py и вызывающий его метод run_dummy
.
Время расследования / исправление
Теперь, когда мы знаем, где в нашем коде проблема, давайте посмотрим на исходный код на CPython, чтобы понять, почему метод list_contains
работает так медленно.
Примечание: если нет доступа к исходному коду, можно просмотреть дизассемблированный код непосредственно в результатах perf. Ближе к концу статьи я добавлю краткое описание того, как это выглядит.
// Я нашел это, зайдя на https://github.com/python/cpython/ и выполнив поиск "list_contains"
static int
list_contains(PyListObject *a, PyObject *el)
{
PyObject *item;
Py_ssize_t i;
int cmp;
for (i = 0, cmp = 0 ; cmp == 0 && i < Py_SIZE(a); ++i) {
item = PyList_GET_ITEM(a, i);
Py_INCREF(item);
cmp = PyObject_RichCompareBool(item, el, Py_EQ);
Py_DECREF(item);
}
return cmp;
}
Отвратительно… Каждый раз при вызове этого кода выполняется итерация по массиву и сравнение с каждым элементом. Это не лучший вариант для нашей ситуации, поэтому давайте вернемся к написанному коду на Python. Flame Graph показывает, что проблема кроется в методе run_dummy
:
def run_dummy(numbers):
for findme in range(100000):
if findme in numbers: # <- это запускает list_contains
print("found", findme)
else:
print("missed", findme)
Эту строку мы изменить не можем, так как она делает то, что нам нужно — определяет, является ли integer числом. Возможно, мы можем изменить тип данных чисел на более подходящий для поиска. В нашем коде есть:
numbers = [i for i in range(20000000)]
start_time = time.time() # получить текущее время [начало]
run_dummy(numbers) # запустить наш неэффективный метод
Здесь мы использовали тип данных LIST для наших «чисел», которые под капотом (в CPython) реализованы в виде массивов с динамическим размером и, как таковые, далеко не так эффективны (O (N)), как Hashtable для поиска вверх по элементу (это O (1)). С другой стороны, SET (другой тип данных Python) реализован как Hashtable и даст нам быстрый поиск, который как раз нам и нужен. Давайте изменим тип данных в коде на Python и посмотрим, на что это повлияет:
# мы просто изменим эту строку, приведя числа к набору перед запуском run_dummy
run_dummy(set(numbers)) # передача set() для быстрого поиска
Теперь мы можем повторить шаги, описанные выше, чтобы сгенерировать новый Flame Graph:
# запись профиля производительности в файл "perf.data" (вывод по умолчанию)
perf record -F 99 -g -- python3.12 assets/dummy/perf_py_proj/after.py
...
found 99998
found 99999
Duration: 0.8350753784179688 seconds
[ perf record: Woken up 1 times to write data ]
[ perf record: Captured and wrote 0.039 MB perf.data (134 samples) ]
Ситуация значительно улучшилась. Если раньше выполнение скрипта занимало 36 секунд, то теперь всего 0,8 секунды. Давайте создадим Flame Graph для нового улучшенного кода:
# читать perf.data (создан выше) и отображать вывод трассировки
perf script > out.perf
# сложим стеки в одну линию
# здесь я ссылаюсь на ~/FlameGraph/ - который можно найти по адресу https://github.com/brendangregg/FlameGraph
~/FlameGraph/stackcollapse-perf.pl out.perf > out.folded
# генерация flamegraph
~/FlameGraph/flamegraph.pl out.folded > ./assets/perf_example_python3.12.after.svg
Вот это гораздо более здоровый вид Flame Graph, и в результате приложение теперь работает намного быстрее. Поддержка профилирования производительности в Python 3.12 представляет собой чрезвычайно полезный инструмент для разработчиков программного обеспечения, которые хотят создавать быстрые программы.
Бонусный раунд: что делать, если у вас нет доступа к исходному коду?
Иногда к базовому коду может не быть доступа, что затрудняет понимание происходящего. К счастью, perf report
позволяет просматривать дизассемблированный код, что помогает обрисовать картину того, что на самом деле делает машина. Я предпочитаю исходный код, если его можно заполучить, поскольку он позволяет мне просмотреть связанные коммиты и пул-реквесты. Для просмотра нужно сделать следующее:
Открываем отчет о производительности и выбираем интересующую нас строку:
# это предполагает, что мы уже запустили «запись производительности» для создания perf.data...
perf report -g -i perf.data
Нажмите Enter и выберите вариант аннотации:
Здесь мы можем видеть как код на C, так и машинные инструкции. Супер удобно! Можно сравнить скриншот ниже с интересующим нас фрагментом кода.
Надеюсь, эта статья дала представление об управлении производительностью, для дальнейшего же изучения темы я могу порекомендовать вот эту книгу о производительности систем.
Приглашаем всех желающих на открытый урок, на котором познакомимся с Декораторами в Python, узнаем, как они работают, а также научимся создавать их самостоятельно. Записаться можно здесь.
Комментарии (4)
funca
24.01.2023 20:14+2Интересно, получится данные из этого perf вывести в Chrome DevTools, чтобы не мучаться с SVG?
victor-homyakov
25.01.2023 02:29https://www.speedscope.app/ должен поддерживать формат perf. И там сразу есть сортировка и слияние одинаковых стектрейсов (то, что делает
FlameGraph/stackcollapse-perf.pl
).
kin4stat
Управление производительностью с Python 3.12 или Как с помощью профилировщика имитировать бурную деятельность в поисках проблемного участка кода