Как переписать SQL-запросы на Python с помощью Pandas / forpes.ru

Главная
Как переписать SQL-запросы на Python с помощью Pandas

Как переписать SQL-запросы на Python с помощью Pandas +7

31.07.2020 13:50

Plarium 14 3500 Источник

В этой статье June Tao Ching рассказал, как с помощью Pandas добиться на Python такого же результата, как в SQL-запросах. Перед вами — перевод, а оригинал вы можете найти в блоге towardsdatascience.com.

Фото с сайта Unsplash. Автор: Hitesh Choudhary

Получение такого же результата на Python, как и при SQL-запросе

Часто при работе над одним проектом нам приходится переключаться между SQL и Python. При этом некоторые из нас знакомы с управлением данными в SQL-запросах, но не на Python, что мешает нашей эффективности и производительности. На самом деле, используя Pandas, можно добиться на Python такого же результата, как в SQL-запросах.

Начало работы

Нужно установить пакет Pandas, если его нет.

conda install pandas

Мы будем использовать знаменитый Датасет Титаник от Kaggle.

После установки пакета и загрузки данных нам необходимо импортировать их в наше окружение Python.

Для хранения данных мы будем использовать DataFrame. Управлять этой структурой данных нам помогут различные функции Pandas.

SELECT, DISTINCT, COUNT, LIMIT

Начнем с простых SQL-запросов, которые мы часто используем.

titanic_df["age"].unique() вернет массив уникальных значений, поэтому нам придется использовать len(), чтобы посчитать их количество.

SELECT, WHERE, OR, AND, IN (SELECT с условиями)

После первой части вы узнали, как простыми способами исследовать DataFrame. Теперь попробуем сделать это с некоторыми условиями (это оператор WHERE в SQL).

Если мы хотим выбрать только определенные столбцы из DataFrame, мы можем сделать это с помощью дополнительной пары квадратных скобок.

Примечание: если вы выбираете несколько столбцов, вам нужно поместить массив ["name","age"] внутри квадратных скобок.

isin() работает точно так же, как IN в SQL-запросах. Чтобы использовать NOT IN, на Python нам нужно использовать отрицание (~).

GROUP BY, ORDER BY, COUNT

GROUP BY и ORDER BY также являются популярными SQL-операторами при исследовании данных. А теперь давайте попробуем использовать их на Python.

Если мы хотим отсортировать только один столбец COUNT, то можем просто передать булево значение в метод sort_values. Если мы собираемся сортировать несколько столбцов, то должны передать массив булевых значений в метод sort_values.

Метод sum() выдаст суммы для каждого из столбцов в DataFrame, которые могут быть численно агрегированы. Если нам нужен только определенный столбец, то нужно указать имя столбца, используя квадратные скобки.

MIN, MAX, MEAN, MEDIAN

И наконец, давайте попробуем некоторые стандартные статистические функции, которые важны при исследовании данных.

SQL не содержит операторов, возвращающих медианное значение, поэтому для получения медианного значения столбца с информацией о возрасте мы используем BigQuery APPROX_QUANTILES

В Pandas метод агрегации .agg() также поддерживает другие функции, например sum.

Теперь вы научились переписывать SQL-запросы на Python с помощью Pandas. Надеюсь, эта статья будет вам полезна.

Весь код можно найти в моем репозитории Github.

Спасибо за внимание!

Комментарии (14)

arrakisfremen
31.07.2020 17:01
#21910734
Что-то среднее между LINQ и языком запросов в MongoDB

unfilled
31.07.2020 18:30
#21911018
Код скриншотами — здорово придумано. С телефона так вообще самое то.
1. edo1h
  02.08.2020 01:25
  #21914098
  а как удобно копировать чтобы попробовать у себя

anonymous
31.07.2020 18:54
#21911064
По идее можно написать утилиту (или онлайн сервис/pycharm/vs code plugin) которая принимет на вход sql, pandas dataframe/csv и генерирует исходники. Думаю многим пригодилось бы.
1. gonchik
  01.08.2020 00:56
  #21911890
  отличная идея
1. wadik69
  01.08.2020 01:04
  #21911902
  Что Вы имеете ввиду под исходниками? Данные, которые подаются на вход?
  1. anonymous
    03.08.2020 16:46
    #21918798
    Я имею в виду что выделяем в pycharm текст
    
    SELECT pclass, gender, SUM( fare) FROM titanic_test_data GROUP BY 1,2
    
    а в буфере обмена у нас оказывается
    
    titanic_test_data.groupby([«pclass”,»gender"]).size()
    
    По идее для простых sql запросов такое создать достаточно просто.
    
    wadik69
    04.08.2020 11:44
    #21920962
    Ну да, хорошая идея!

maslyaev
31.07.2020 18:56
#21911068
А что с джойнами? Особенно интересует full outer
1. bladeser
  01.08.2020 21:49
  #21911452
  И с джойнами тоже все хорошо.
  
  titanic_df.join(some_df, on='some_column', how='outer')
  
  Это если у some_df индекс совпадает с каким либо столбцом, или
  
  titanic_df.merge(some_df, left_on='some_columnin_table1', right_on='some_columnin_table2' how='outer')
  
  если это не так.

j_e_s_t_e_r
03.08.2020 09:23
#21916608
Использую в основном pandas для анализа логов интеграции, за пару недель, когда много данных ему плоховато становится, там уж лучше идти в сторону dask. А так, да, мне с pandas проще работать, чем с SQL, сразу можно и картинку данных увидеть и данные почистить, мне нравится.

DenisSDK
03.08.2020 16:19
#21918686
Теперь вы научились переписывать SQL-запросы на Python с помощью Pandas.

Что будет со скоростью обработки запросов? А таблицы миллионники?

HemulGM
03.08.2020 16:19
#21918688
Зачем очередной синтаксис? Зачем из простого делать сложное?
Зачем из понятной конституции "выбрать поле из таблица" делать — таблица(~таблица.поле)[@#?&&?#34#&&@24]? Зачем?

art_app_mih
03.08.2020 16:19
#21918690
Спасибо, давно искал!