Python collections: когда обычных списков и словарей мало / forpes.ru

Главная
Python collections: когда обычных списков и словарей мало

Python collections: когда обычных списков и словарей мало +10

04.01.2026 12:01

enamored_poc 0 7500 Источник

Введение: Почему встроенных типов мало?

Python часто хвалят за его «входящий в комплект» набор мощных структур данных. Списки (list), словари (dict), кортежи (tuple) и множества (set) — это фундамент, на котором строятся 90% приложений. Кажется, что этого набора достаточно для решения любой задачи. Но по мере роста проекта и сложности логики многие разработчики начинают сталкиваться с одними и теми же «симптомами»:

Бойлерплейт (избыточный код). Вы ловите себя на том, что в десятый раз пишете проверку if key not in my_dict: my_dict[key] = [] перед тем, как добавить элемент в список внутри словаря.
Магические индексы. Код вида user[3] или task[0] заставляет коллег (и вас через неделю) гадать, что именно лежит под этим индексом — ID, статус или дата рождения.
Просадки производительности. Когда ваш список становится очередью и вы начинаете часто делать list.pop(0), приложение внезапно замедляется, потому что обычный список не предназначен для эффективного удаления элементов из начала.
Сложная агрегация. Когда нужно быстро посчитать частоту сотен элементов или объединить несколько конфигураций в одну, стандартные циклы и методы update() делают код громоздким и трудночитаемым.

Модуль collections — это «швейцарский нож» в стандартной библиотеке Python, который был создан именно для таких случаев. Он не заменяет встроенные типы, а расширяет их, предлагая специализированные структуры данных для конкретных задач.

Использование collections — это один из признаков перехода от уровня «просто пишу на Python» к уровню «пишу идиоматичный и эффективный код» (Pythonic way). В этой статье мы разберем, какие инструменты модуля помогут вам избавиться от лишних строк кода, ускорить работу программ и сделать структуру данных понятной без лишних комментариев.

2. namedtuple: Структура данных без лишнего веса

Представьте, что вы работаете с координатами или записями из базы данных. Обычный кортеж (tuple) отлично справляется с хранением данных, но он абсолютно неинформативен:

# Что здесь что?
user = ('Иван', 'Иванов', 28, 'Python-разработчик')

print(user[2])  # 28. Но чтобы это понять, нужно помнить структуру кортежа.

Если через месяц вы решите добавить в кортеж «отчество», все ваши user[2] и user[3] в коде превратятся в тыкву и станут источником багов.

Решение: Именованные кортежи

namedtuple позволяет создавать объекты, которые ведут себя как кортежи, но при этом имеют именованные поля. Это делает код самодокументированным.

from collections import namedtuple

# Создаем "шаблон" для пользователя
User = namedtuple('User', ['name', 'surname', 'age', 'position'])

# Создаем экземпляр
user = User(name='Иван', surname='Иванов', age=28, position='Python-разработчик')

print(user.age)       # 28 — теперь всё понятно!
print(user[0])        # 'Иван' — обычная индексация всё еще работает

В чем магия?

Память: namedtuple потребляет ровно столько же памяти, сколько обычный кортеж. Он не создает словарь __dict__ для каждого экземпляра, в отличие от обычных классов.
Неизменяемость (Immutability): Как и обычный кортеж, namedtuple нельзя изменить после создания. Это делает его идеальным для передачи данных между слоями приложения — вы уверены, что никто случайно не поменяет user.age внутри какой-нибудь функции.
Обратная совместимость: Его можно использовать везде, где ожидается обычный tuple (например, распаковка name, *rest = user).

Modern Python: typing.NamedTuple

Начиная с Python 3.6, у нас есть еще более элегантный способ записи через аннотации типов. Это выглядит как класс, но под капотом остается всё тем же эффективным кортежем:

from typing import NamedTuple

class User(NamedTuple):
    name: str
    surname: str
    age: int
    position: str

user = User('Анна', 'Петрова', 25, 'Data Scientist')

Когда использовать?

Вам нужно вернуть из функции несколько значений, и вы не хотите запутаться в их порядке.
Вы храните тысячи/миллионы мелких объектов и хотите сэкономить память (по сравнению с обычными классами или словарями).
Но: если вам нужно менять данные в объекте, лучше посмотрите в сторону dataclasses.

3. defaultdict и Counter: Умная агрегация

Работа со словарями часто превращается в бесконечную борьбу с отсутствующими ключами. Мы пишем проверки, используем .get() или .setdefault(), что раздувает код и делает его менее читаемым.

defaultdict: Забываем про KeyError

Представьте задачу: сгруппировать список городов по странам. Обычный словарь заставит вас проверять, создана ли уже корзина для этой страны:

data = [('Russia', 'Moscow'), ('Russia', 'Spb'), ('France', 'Paris')]

# Обычный dict
groups = {}
for country, city in data:
    if country not in groups:
        groups[country] = []
    groups[country].append(city)

С defaultdict мы просто указываем тип пустой корзины (фабрику) при инициализации. Если ключа нет, словарь сам создаст его «на лету», вызвав конструктор типа (в данном случае list()):

from collections import defaultdict

groups = defaultdict(list)
for country, city in data:
    groups[country].append(city)  # Ключ создастся автоматически при первом обращении

Популярные сценарии:

defaultdict(list) — для группировки элементов.
defaultdict(int) — для простых счетчиков (начинает с 0).
defaultdict(lambda: "Unknown") — если нужно дефолтное значение-строка.

Counter: Считаем всё за одну строку

Подсчет частоты элементов — задача настолько частая, что для нее выделили отдельный класс. Counter — это фактически словарь, где ключи — это объекты, а значения — их количество.

Допустим, вам нужно найти самые часто встречающиеся слова в тексте:

from collections import Counter

text = "apple banana apple orange banana apple"
words = text.split()

counts = Counter(words)
print(counts)  # Counter({'apple': 3, 'banana': 2, 'orange': 1})

# Самые популярные элементы (Топ-2)
print(counts.most_common(2))  # [('apple', 3), ('banana', 2)]

«Магия» Counter

Counter — это не просто словарь с парой методов. Это полноценный мультисет (мультимножество), с которым можно проводить математические операции:

c1 = Counter(apples=4, oranges=2)
c2 = Counter(apples=1, oranges=5)

# Сложение: объединяем запасы
total = c1 + c2  # Counter({'oranges': 7, 'apples': 5})

# Вычитание: сколько осталось после того, как мы что-то забрали
diff = c1 - c2   # Counter({'apples': 3}) — отрицательные значения отбрасываются

Где это полезно:

Анализ логов (подсчет IP-адресов или кодов ошибок).
Сравнение двух наборов данных (например, поиск лишних символов в строке).
Быстрое нахождение уникальных элементов и их частотности.

Что выбрать?

Если вам нужно просто считать объекты — берите Counter. Если же вы строите сложную структуру данных, где по умолчанию должен лежать пустой список или другой объект — ваш выбор defaultdict.

4. deque: Оптимизируем очереди

Многие разработчики используют обычный список (list) там, где нужна очередь. Это классическая ловушка производительности. Если добавление в конец списка (append) работает быстро, то удаление первого элемента (pop(0)) или вставка в начало (insert(0, x)) — это катастрофа для больших данных.

Проблема: Почему list — это плохая очередь?

Список в Python — это динамический массив. Когда вы удаляете первый элемент, Python вынужден сдвинуть все остальные элементы на одну позицию влево.

Если в списке 10 элементов — это незаметно.
Если в списке 1 000 000 элементов — каждая такая операция заставляет процессор совершать миллион перемещений. Сложность — .

Решение: Double-Ended Queue (deque)

deque (произносится как «дек») реализована как двусвязный список блоков. Это позволяет добавлять и удалять элементы с обоих концов за константное время .

from collections import deque

queue = deque(['order_1', 'order_2', 'order_3'])

# Добавляем в конец
queue.append('order_4')

# Быстро забираем из начала
first_task = queue.popleft() 
print(first_task)  # 'order_1'

# Можно так же быстро работать и с левым краем
queue.appendleft('priority_order')

Киллер-фича: Ограничение максимальной длины (maxlen)

У deque есть потрясающий параметр maxlen. Если его задать, очередь превращается в «кольцевой буфер». Когда очередь заполняется, при добавлении нового элемента старый удаляется автоматически с противоположной стороны.

Пример: Хранение последних 5 строк лога или истории действий:

history = deque(maxlen=5)

for i in range(10):
    history.append(f"Action {i}")
    print(list(history))

# В итоге в history останутся только последние 5 действий:
# ['Action 5', 'Action 6', 'Action 7', 'Action 8', 'Action 9']

Это идеально подходит для задач типа «скользящее окно» (sliding window) или для алгоритмов обхода в ширину (BFS), где нужно эффективно управлять очередью посещенных узлов.

Когда использовать?

Вам нужна классическая очередь (FIFO: первым пришел — первым ушел).
Вам нужно хранить только последние элементов чего-либо.
Вы реализуете алгоритмы на графах.
Но: если вам нужен частый доступ к элементам по случайному индексу в середине (например, data[500]), обычный list справится лучше.

5. ChainMap и UserDict: Продвинутая логика

Иногда стандартного поведения словаря недостаточно, и нам нужно либо объединить несколько источников данных в один, либо полностью переопределить правила работы контейнера.

ChainMap: Поиск по слоям

Представьте, что вы пишете приложение, у которого есть три источника настроек:

Аргументы командной строки (самый высокий приоритет).
Переменные окружения.
Дефолтные значения в коде.

Обычный подход — создать один словарь и последовательно обновлять его через .update(). Но это создает копии данных и затирает оригиналы. ChainMap работает иначе: он группирует несколько словарей в один список и ищет ключ по очереди в каждом.

from collections import ChainMap

defaults = {'theme': 'light', 'language': 'en', 'show_hints': True}
env_vars = {'theme': 'dark'}  # Пользователь установил темную тему в системе
cli_args = {'show_hints': False} # Пользователь выключил подсказки через консоль

# Создаем иерархию поиска
config = ChainMap(cli_args, env_vars, defaults)

print(config['theme'])      # 'dark' (взято из env_vars)
print(config['show_hints']) # False (взято из cli_args)
print(config['language'])   # 'en' (взято из defaults)

Почему это круто?

Производительность: ChainMap не копирует данные, а просто хранит ссылки на оригинальные словари.
Динамичность: если вы измените значение в исходном словаре env_vars, оно тут же «отразится» в config.
Область видимости: Новые ключи (запись) всегда добавляются только в первый словарь в цепочке, что позволяет легко реализовывать вложенные области видимости (scopes).

UserDict: Когда нужно создать свой словарь

Частая ошибка — наследоваться напрямую от встроенного dict, если вы хотите создать свою версию словаря (например, который всегда переводит ключи в нижний регистр).

Проблема прямого наследования от dict:
Методы встроенного dict написаны на C и оптимизированы. Они часто игнорируют ваши переопределенные методы в подклассах. Например, ваш __setitem__ может сработать при d['key'] = value, но будет проигнорирован при вызове update().

Решение: UserDict
Это обертка вокруг обычного словаря, специально созданная для наследования. Все операции в ней проходят через стандартные методы Python, которые вы можете безопасно переопределять.

from collections import UserDict

class LowercaseDict(UserDict):
    def __setitem__(self, key, value):
        # Всегда приводим строковый ключ к нижнему регистру
        key = key.lower() if isinstance(key, str) else key
        super().__setitem__(key, value)

d = LowercaseDict()
d['Username'] = 'admin'
print(d['username'])  # 'admin' (ключ автоматически стал строчным)

Аналогично существуют UserList и UserString. Их стоит использовать каждый раз, когда вам нужно кастомизировать базовое поведение стандартных контейнеров, не рискуя наткнуться на странное поведение методов, реализованных на C.

Когда это использовать?

ChainMap: Идеален для конфигов, контекстов шаблонизаторов и управления областями видимости переменных.
UserDict: Когда вам нужно добавить словарям бизнес-логику (валидацию, автоматическое форматирование ключей/значений или логирование обращений).

6. Итоги и Benchmarks: Что и когда выбирать

Выбор правильного инструмента — это всегда баланс между читаемостью кода, скоростью его написания и производительностью. Давайте посмотрим, как collections проявляет себя в реальных цифрах.

Бенчмарк 1: list vs deque

Самый наглядный пример — удаление первого элемента из большой очереди (100 000 элементов).

import timeit
from collections import deque

# Тестируем list.pop(0)
list_test = "while l: l.pop(0)"
list_setup = "l = list(range(100000))"

# Тестируем deque.popleft()
deque_test = "while d: d.popleft()"
deque_setup = "from collections import deque; d = deque(range(100000))"

# Результаты (примерные)
# list.pop(0):  ~1.85 сек
# deque.popleft(): ~0.006 сек

Вывод: deque быстрее в 300+ раз на операциях с началом списка. Если ваша очередь растет — list станет «бутылочным горлышком».

Бенчмарк 2: Память (dict vs namedtuple)

Если вам нужно хранить 1 000 000 записей о пользователях:

Обычный dict для каждой записи: ~150-200 МБ (из-за накладных расходов на хэш-таблицу для каждого объекта).
namedtuple: ~60-80 МБ.
Обычный класс: ~150 МБ (если не использовать __slots__).

Шпаргалка: Что выбрать?

Чтобы не запоминать всё сразу, используйте эту простую таблицу:

Если вам нужно...	Используйте	Почему?
Считать количество объектов	`Counter`	Есть встроенный метод `most_common` и мат. операции.
Группировать данные по ключу	`defaultdict`	Избавляет от проверок `if key not in d`.
Очередь (FIFO) или история	`deque`	Вставка и удаление за , есть `maxlen`.
Хранить данные без изменений	`namedtuple`	Читаемость как у объекта, память как у кортежа.
Слоистые настройки / конфиги	`ChainMap`	Не копирует данные, сохраняет приоритеты.
Свой тип словаря или списка	`UserDict` / `UserList`	Безопасное наследование без капризов C-реализации.

Заключение

Модуль collections — это не просто набор «синтаксического сахара». Это способ писать код, который:

Быстрее (в случае с deque).
Экономнее (в случае с namedtuple).
Чище (в случае с defaultdict и Counter).

В современном Python (3.12+) границы немного размываются: обычные словари стали упорядоченными, появились dataclasses. Но collections остается золотым стандартом стандартной библиотеки. Прежде чем писать сложный алгоритм или создавать кастомный класс, загляните в этот модуль — скорее всего, там уже есть идеальный инструмент для вашей задачи.

Анонсы новых статей, полезные материалы, а так же если в процессе у вас возникнут сложности, обсудить их или задать вопрос по этой статье можно в моём Telegram-сообществе. Смело заходите, если что-то пойдет не так, — постараемся разобраться вместе.

Python collections: когда обычных списков и словарей мало +10

Введение: Почему встроенных типов мало?

2. namedtuple: Структура данных без лишнего веса

Решение: Именованные кортежи

В чем магия?

Modern Python: typing.NamedTuple

Когда использовать?

3. defaultdict и Counter: Умная агрегация

defaultdict: Забываем про KeyError

Counter: Считаем всё за одну строку

«Магия» Counter

Что выбрать?

4. deque: Оптимизируем очереди

Проблема: Почему list — это плохая очередь?

Решение: Double-Ended Queue (deque)

Киллер-фича: Ограничение максимальной длины (maxlen)

Когда использовать?

5. ChainMap и UserDict: Продвинутая логика

ChainMap: Поиск по слоям

UserDict: Когда нужно создать свой словарь

Когда это использовать?

6. Итоги и Benchmarks: Что и когда выбирать

Бенчмарк 1: list vs deque

Бенчмарк 2: Память (dict vs namedtuple)

Шпаргалка: Что выбрать?

Заключение

Комментарии (0)