Когда выходит очередная версия Python, все внимание достается новым фичам языка: моржовому оператору, слиянию словарей, паттерн-матчингу. Еще много пишут об изменениях в асинхронной работе (модуль asyncio
) и типизации (модуль typing
) — эти модули на виду и бурно развиваются.
Остальным модулям стандартной библиотеки достается незаслуженно мало внимания. Хочу это исправить и рассказать, что интересного появилось в версиях 3.8–3.10.
Конечно, это не исчерпывающий список. Пишу только о тех изменениях, которые заинтересовали лично меня. Но поскольку я не слишком сильно отличаюсь от «среднего» бэкенд-разработчика на питоне — вполне вероятно, что вас они тоже заинтересуют. Если что-то пропустил — дополняйте в комментариях.
Модули идут в алфавитном порядке, так что если заскучаете на первых (малоизвестных) представителях, не унывайте — дальше будет интереснее.
array • base64 • bisect • builtins • dataclasses • datetime • fractions • functools • glob • graphlib • itertools • math • random • shlex • shutil • statistics • zoneinfo
Все примеры рабочие. Выполнять можно в песочнице (ссылки под примерами), либо локально. Если локально у вас старый Python — запускайте через Docker:
$ docker run -it --rm python:3.10-alpine
array
Модуль array
предоставляет компактные однотипные числовые массивы. Используется намного реже, чем знаменитый собрат list
.
Метод array.index()
находит значение в массиве и возвращает индекс найденного элемента. Теперь он поддерживает необязательные параметры start
и stop
, которые задают интервал поиска (3.10+):
from array import array
arr = array("i", [7, 11, 19, 42])
idx = arr.index(11)
# idx == 1
idx = arr.index(11, 2)
# ValueError: array.index(x): x not in array
Разработчики: Anders Lorentsen • Zackery Spytz
base64
Модуль base64
кодирует бинарные данные в ASCII-строки по алгоритмам Base16, Base32 и Base64.
Он обзавелся парой новых функций b32hexencode()
и b32hexdecode()
, которые используют расширенный 32-символьный алфавит согласно RFC 4648 (3.10+):
import base64
bytes = b"python is awesome"
base64.b32encode(bytes)
# b'OB4XI2DPNYQGS4ZAMF3WK43PNVSQ===='
base64.b32hexencode(bytes)
# b'E1SN8Q3FDOG6ISP0C5RMASRFDLIG===='
Разработчик: Filipe Laíns
bisect
Модуль bisect
работает с отсортированными списками методом бинарного поиска. Основные функции:
import bisect
lst = [7, 11, 19, 42]
idx = bisect.bisect(lst, 12)
# idx == 2
bisect.insort(lst, 12)
# [7, 11, 12, 19, 42]
С версии 3.10 все функции модуля поддерживают необязательный параметр key
. Это функция, которая возвращает значение элемента списка. Удобно использовать, если элементы напрямую несравнимы:
import bisect
import operator
p1 = {"id": 11, "name": "Diane"}
p2 = {"id": 12, "name": "Bob"}
p3 = {"id": 13, "name": "Emma"}
key = operator.itemgetter("name")
people = sorted([p1, p2, p3], key=key)
# Bob, Diane, Emma
idx = bisect.bisect(people, "Dan")
# TypeError: '<' not supported between instances of 'str' and 'dict'
idx = bisect.bisect(people, "Dan", key=key)
# idx == 1
Разработчик: Raymond Hettinger
builtins
Модуль builtins
содержит все «встроенные» функции и классы, которые программисты используют без всяких импортов: int
, list
, len()
, open()
и тому подобное.
import builtins
list is builtins.list
# True
len is builtins.len
# True
У строки появились методы str.removeprefix()
и str.removesuffix()
, которые отрезают голову и хвост соответственно (3.9+):
s = "Python is awesome"
s.removeprefix("Python is ")
# 'awesome'
s.removesuffix(" is awesome")
# 'Python'
У целого числа добавился метод int.bit_count()
, который возвращает количество единиц в бинарном представлении числа (3.10+):
n = 42
bin(n)
# '0b101010'
n.bit_count()
# 3
Методы словаря dict.keys()
, dict.values()
и dict.items()
возвращают объекты-представления (view objects), которые не дублируют данные словаря, а ссылаются на них. Раньше из этих объектов нельзя было получить обратную ссылку на словарь, а теперь можно — через атрибут .mapping
(3.10+):
people = {
"Diane": 70,
"Bob": 78,
"Emma": 84
}
keys = people.keys()
# dict_keys(['Diane', 'Bob', 'Emma'])
keys.mapping["Bob"]
# 78
Функция объединения коллекций zip()
получила параметр strict
. Он проверяет, что последовательности одинаковой длины (3.10+):
keys = ["Diane", "Bob", "Emma"]
vals = [70, 78, 84, 42]
pairs = zip(keys, vals)
list(pairs)
# [('Diane', 70), ('Bob', 78), ('Emma', 84)]
pairs = zip(keys, vals, strict=True)
list(pairs)
# ValueError: zip() argument 2 is longer than argument 1
Разработчики: Dennis Sweeney • Niklas Fiekas • Brandt Bucher
dataclasses
Модуль dataclasses
генерит классы по спецификации.
Датаклассы теперь могут использовать слоты
(slots) для компактных объектов с фиксированным набором свойств (3.10+).
Обычный датакласс:
from dataclasses import dataclass
@dataclass
class Person:
id: int
name: str
diane = Person(id=11, name="Diane")
diane.__dict__
# {'id': 11, 'name': 'Diane'}
diane.salary = 70
# ok
Со слотами:
from dataclasses import dataclass
@dataclass(slots=True)
class SlotPerson:
id: int
name: str
bob = SlotPerson(id=12, name="Bob")
bob.__dict__
# AttributeError: 'SlotPerson' object has no attribute '__dict__'
bob.__slots__
# ('id', 'name')
bob.salary = 78
# AttributeError: 'SlotPerson' object has no attribute 'salary'
Кроме того, датакласс теперь можно заставить принимать только словарные (keyword-only) параметры при создании объекта (3.10+):
from dataclasses import dataclass
@dataclass(kw_only=True)
class KeywordPerson:
id: int
name: str
diane = KeywordPerson(id=11, name="Diane")
# ok
diane = KeywordPerson(11, "Diane")
# TypeError: KeywordPerson.__init__() takes 1 positional argument but 3 were given
Разработчики: Yurii Karabas • Eric V. Smith
datetime
Модуль datetime
работает с датой и временем.
Добавились конструкторы date.fromisocalendar()
и datetime.fromisocalendar()
, которые создают дату из троицы (год, неделя, день_недели)
(3.8+):
import datetime as dt
day = dt.date(2022, 9, 13)
day.isocalendar()
# datetime.IsoCalendarDate(year=2022, week=37, weekday=2)
year, week, day = day.isocalendar()
next_day = dt.date.fromisocalendar(year, week, day+1)
# datetime.date(2022, 9, 14)
Кроме того, метод .isocalendar()
теперь возвращает не обычный кортеж, а именованный IsoCalendarDate
(3.9+). Это видно в примере выше.
Разработчики: Paul Ganssle • Dong-hee Na
fractions
Модуль fractions
работает с рациональными числами.
Он получил метод Fraction.as_integer_ratio()
и научился возвращать дробь как пару (числитель, знаменатель)
, тем самым исправив вековой позор обычного float
(3.8+):
(0.25).as_integer_ratio()
# (1, 4)
(0.5).as_integer_ratio()
# (1, 2)
(0.2).as_integer_ratio()
# (3602879701896397, 18014398509481984)
# oopsie
from fractions import Fraction
Fraction("0.2").as_integer_ratio()
# (1, 5)
# so much better
Справедливости ради, decimal.Decimal
научился так делать еще в 3.6. Но все равно приятно.
Разработчики: Lisa Roach • Raymond Hettinger
functools
Модуль functools
— сборник вспомогательных функций высшего порядка. Одна из них — lru_cache()
, которая кеширует дорогие вычисления:
import functools
import time
@functools.lru_cache(maxsize=256)
def find_user(name):
# imitating slow search
time.sleep(1)
user = {"id": 11, "name": "Diane"}
return user
find_user("Diane")
# kinda slow
find_user("Diane")
# blazingly fast
Раньше у нее всегда нужно было указывать размер кеша. А теперь можно указать @lru_cache
без аргументов, и будет использоваться умолчательный размер 128
(3.8+).
Кроме того, можно узнать параметры кеша (3.9+):
find_user.cache_parameters()
# {'maxsize': 256, 'typed': False}
Если памяти вам не жалко, вместо @lru_cache
можно использовать @cache
— он безразмерный (3.9+).
Новый декоратор @cached_property
кеширует вычисляемое свойство объекта (3.8+):
import functools
import statistics
class Dataset:
def __init__(self, seq):
self._data = tuple(seq)
@functools.cached_property
def stdev(self):
return statistics.stdev(self._data)
dataset = Dataset(range(1_000_000))
dataset.stdev
# kinda slow
dataset.stdev
# blazingly fast
А @singledispatchmethod
перегружает работу метода в зависимости от типа параметра (3.8+):
import functools
class Divider:
@functools.singledispatchmethod
def divide(self, dividend, divisor):
raise NotImplementedError("Do not know how to divide those")
@divide.register
def _(self, dividend: int, divisor: int):
return dividend // divisor
@divide.register
def _(self, dividend: str, divisor: int):
# this is really stupid, I know
newlen = len(dividend) // divisor
return dividend[:newlen]
divider = Divider()
divider.divide(10, 2)
# 5
divider.divide("hello world", 2)
# 'hello'
Чувствуете, джавой потянуло?
Разработчики: Raymond Hettinger • Carl Meyer • Ethan Smith
glob
Модуль glob
находит файлы и каталоги, подходящие под шаблон.
Теперь благодаря параметру root_dir
в glob()
и iglob()
можно указать корневую директорию поиска (3.10+):
import glob
import os
os.getcwd()
# '/'
glob.glob("*", root_dir="/usr")
# ['local', 'share', 'bin', 'lib', 'sbin', 'src']
Пустячок, а приятно.
Разработчик: Serhiy Storchaka
graphlib
Модуль graphlib
работает с графами. И знаете что? Это абсолютно новый модуль! (3.9+)
Пока у него только одна возможность — топологическая сортировка графов (такой порядок вершин, что для любых u → v
, вершина u
идет перед v
):
from graphlib import TopologicalSorter
graph = {"Diane": {"Bob", "Cindy"}, "Cindy": {"Alice"}, "Bob": {"Alice"}}
# Alice → Bob → Diane
# ↳ Cindy ↗
sorter = TopologicalSorter(graph)
list(sorter.static_order())
# ['Alice', 'Cindy', 'Bob', 'Diane']
Разработчики: Pablo Galindo • Tim Peters • Larry Hastings
itertools
Модуль itertools
предоставляет разнообразные итераторы для эффективной работы с коллекциями (эффективной с точки зрения использования памяти).
Одна из функций — accumulate()
— рассчитывает скользящий агрегат. Теперь у нее появился параметр initial
, который задает начальное значение (3.8+):
import itertools
seq = [7, 11, 19, 42]
accumulator = itertools.accumulate(seq)
list(accumulator)
# [7, 18, 37, 79]
accumulator = itertools.accumulate(seq, initial=100)
list(accumulator)
# [100, 107, 118, 137, 179]
А новая замечательная функция pairwise()
проходит по коллекции и возвращает пары последовательных элементов (3.10+):
import itertools
seq = [7, 11, 19, 42]
pairer = itertools.pairwise(seq)
list(pairer)
# [(7, 11), (11, 19), (19, 42)]
Разработчики: Lisa Roach • Raymond Hettinger
math
Модуль math
включает вагон и маленькую тележку математических функций.
Тут много нового:
-
dist()
считает евклидово расстояние между точками (3.8+); -
perm()
иcomb()
считают перестановки и сочетания (3.8+); -
lcm()
находит наименьшее общее кратное (3.9+); -
gcd()
теперь считает наибольший общий делитель для произвольного количества аргументов (3.9+).
import math
math.dist((1,1), (4, 5))
# 5.0
math.perm(5, 2)
# 20
math.comb(5, 2)
# 10
math.lcm(9, 27, 60)
# 540
math.gcd(9, 27, 60)
# 3
А prod()
перемножает элементы последовательности (3.8+):
import math
seq = range(3, 9)
math.prod(seq)
# 20160
Разработчики: Raymond Hettinger • Yash Aggarwal • Keller Fuchs • Serhiy Storchaka • Mark Dickinson • Ananthakrishnan • Pablo Galindo
random
Модуль random
работает со случайными числами.
Новый метод randbytes()
генерит случайную байтовую строку (3.9+):
import random
random.randbytes(4)
# b'\x8b\xd4\x8f\xc9'
Разработчик: Victor Stinner
shlex
Модуль shlex
бьет строку на токены по правилам командной строки Unix.
А теперь не только бьет, но и обратно объединяет — благодаря функции join()
(3.8+):
import shlex
tokens = ["echo", "-n", "Python is awesome"]
shlex.join(tokens)
# "echo -n 'Python is awesome'"
Разработчик: Bo Bayles
shutil
Модуль shutil
работает с файлами и каталогами: копирует, переносит, удаляет.
И копировать каталоги теперь стало немного удобнее — благодаря параметру dirs_exist_ok
в функции copytree()
(3.8+). С ним функция не сломается, даже если целевой каталог уже существует:
from pathlib import Path
import shutil
tmp = Path("/tmp")
src = tmp.joinpath("src")
src.mkdir()
src.joinpath("src.txt").touch()
# /tmp/src
# /tmp/src/src.txt
dst = tmp.joinpath("dst")
dst.mkdir()
# /tmp/dst
shutil.copytree(src, dst)
# FileExistsError: [Errno 17] File exists: '/tmp/dst'
shutil.copytree(src, dst, dirs_exist_ok=True)
# PosixPath('/tmp/dst')
Разработчик: Josh Bronson
statistics
Модуль statistics
работает с математической статистикой. Как и math
, он заметно развился в последних версиях. Это еще не scipy
, но уже и не тот детский сад, что был в 3.4.
Судите сами:
-
fmean()
считает среднее арифметическое какmean()
, только быстрее (3.8+); -
geometric_mean()
считает геометрическое среднее (3.8+); -
multimode()
возвращает моды (самые частые значения в датасете), даже если их несколько (в отличие отmode()
) (3.8+); -
quantiles()
разбивает датасет на квантили (3.8+).
import statistics
seq = list(range(1, 10))
statistics.fmean(seq)
# 5.0
statistics.geometric_mean(seq)
# 4.147166274396913
statistics.multimode(seq)
# [1, 2, 3, 4, 5, 6, 7, 8, 9]
statistics.multimode("python is awesome")
# ['o', ' ', 's', 'e']
statistics.quantiles(seq)
# [2.5, 5.0, 7.5]
NormalDist
описывает нормальное распределение случайной величины (3.8+):
from statistics import NormalDist
birth_weights = NormalDist.from_samples([2.5, 3.1, 2.1, 2.4, 2.7, 3.5])
drug_effects = NormalDist(0.4, 0.15)
combined = birth_weights + drug_effects
round(combined.mean, 1)
# 3.1
round(combined.stdev, 1)
# 0.5
Появились корреляция Пирсона correlation()
и ковариация covariance()
(3.10+):
import statistics
x = [1, 2, 3, 4, 5, 6, 7, 8, 9]
y = [9, 8, 7, 6, 5, 4, 3, 2, 1]
statistics.correlation(x, x)
# 1.0
statistics.correlation(x, y)
# -1.0
statistics.covariance(x, x)
# 7.5
statistics.covariance(x, y)
# -7.5
И даже линейная регрессия linear_regression()
(3.10+):
import statistics
movies_by_year = {
2000: 371,
2003: 507,
2006: 608,
2009: 520,
2012: 669,
2015: 708,
2018: 873,
2021: 403,
}
x = movies_by_year.keys()
y = movies_by_year.values()
slope, intercept = statistics.linear_regression(x, y)
year_2022 = round(slope * 2022 + intercept)
# 697
Кстати, модуль statistics
славится еще и шикарной документацией. Рекомендую.
Разработчики: Raymond Hettinger • Steven D’Aprano • Timothy Wolodzko
zoneinfo
Модуль zoneinfo
предоставляет информацию о часовых поясах по всему миру. Еще один новый модуль! (3.9+)
До появления zoneinfo
питон щеголял единственным часовым поясом timezone.utc
, удивляя разработчиков из других языков. Теперь это исправили:
import datetime as dt
from zoneinfo import ZoneInfo
utc = dt.datetime(2022, 9, 13, hour=21, tzinfo=dt.timezone.utc)
# 2022-09-13 21:00:00+00:00
paris = utc.astimezone(ZoneInfo("Europe/Paris"))
# 2022-09-13 23:00:00+02:00
tokyo = utc.astimezone(ZoneInfo("Asia/Tokyo"))
# 2022-09-14 06:00:00+09:00
sydney = utc.astimezone(ZoneInfo("Australia/Sydney"))
# 2022-09-14 07:00:00+10:00
Разработчик: Paul Ganssle
Итого
Мы рассмотрели аж 17 модулей от 27 разработчиков — и это без учета asyncio
, typing
и великого множества прочих, более низкоуровневых. Как видите, стандартная библиотека активно развивается. И фичи, на мой взгляд, добавляют весьма разумно. Буду рад, если что-то из новшеств пригодится вам в работе!
А если хотите узнать больше о стандартной библиотеке Python — подписывайтесь на мой канал @ohmypy
Комментарии (11)
Un_ka
11.05.2022 16:05А что с производительностью реализаций данных функций? Если раньше их заменял другими конструкциями, то новые быстрее будут работать?
Может у каких-то функций вообще за последние выпуски реализацию в пользу производительности пересмотрели. Это тоже хотелось бы узнать в сравнительных тестах.
nalgeon Автор
11.05.2022 16:19Зависит от реализации. Если новая функция написана на C — будет работать быстрее, чем ваша самописная на Python. Если нет — возможны варианты.
Tanner
11.05.2022 22:36+1Ещё бы выбросили logging и unittest, вообще супер было бы.
Mingun
11.05.2022 23:10А что с ними не так? В смысле, зачем их выкидывать?
Tanner
11.05.2022 23:19+2Разве неочевидно? Они же омерзительно непитоничны. Судя по всему, их скопипастили в своё время с C++ или Java только потому, что надо было что-то такое иметь в стандартной либе как можно скорее. Теперь, когда есть нормальные альтернативы (loguru и pytest), поддерживать их там нет никакого смысла.
felix0id
12.05.2022 14:01+3оно ведь как. Как в stdlib попадёте - так и приходите
При прочих равных, я буду использовать то, что гарантированно будет на хосте, а не то, что можно привезти. Мы же не в npm, в конце концов
Tanner
12.05.2022 15:28А какой смысл в этих гарантиях? Можно же обеспечить себе то, что нужно, а не довольствоваться тем, что завезли.
squaremirrow
13.05.2022 22:50-1Интересно, зачем тратятся усилия на модули, которые никто никогда не будет использовать, типа graphlib и statistics?
KEugene
14.05.2022 06:42Новинки в модуле math (нод и нок) могут привлечь школьников нчать изучать Python :)
nalgeon Автор
Вообще я планировал небольшую заметку, но не преуспел: получилась здоровенная статья. Старался выбрать только самое интересное, но все равно в обзор попало три десятка доработок. Питон, он такой ツ