Бутстрап в PySpark +7 09.10.2024 09:49 ilia_chernikov 2 Python Big Data Статистика в IT Data Engineering Блог компании X5 Tech
Оптимизируем Shuffle в Spark 21.08.2024 10:24 sergei_smirnov 4 Big Data IT-компании Data Engineering Блог компании X5 Tech
Как упаковать бэкенд-код на Go для аналитики на базе Spark 28.06.2024 08:34 akhlestin 0 Go Big Data Hadoop Data Engineering Блог компании AvitoTech
Как маскировка данных спасает вашу приватность 10.06.2024 07:10 neoflex 0 Python SQL Big Data Data Engineering Блог компании Neoflex Neoflex corporate blog
Spark. План запросов на примерах 15.04.2024 06:12 val6789 4 Хранение данных SQL Big Data Apache Data Engineering
Как перезапускать PySpark-приложение и зачем это может понадобиться 04.04.2024 08:46 Sber 10 Python Высокая производительность Apache Блог компании Сбер High performance Сбер corporate blog
Подбираем параметры сессии в Apache Spark, чтобы не стоять в очереди +12 07.11.2023 10:53 vladislav_shevchenko 7 Big Data Apache DevOps Блог компании Альфа-Банк Data Engineering
Apache Spark и PySpark для аналитика. Учимся читать и понимать план запроса в SparkUI +8 06.10.2023 09:00 aledovskiy 0 Python Data Mining Big Data Блог компании AvitoTech
Feature engineering и кластерный анализ клиентов на PySpark -1 04.10.2023 05:43 NewTechAudit 3 Big Data Машинное обучение
Пять подходов к созданию ad-hoc-датафреймов в PySpark +10 13.09.2023 12:35 NigrumKross 0 Облачные вычисления Apache DevOps Kubernetes Data Engineering Блог компании VK
Деревья решений в pySpark: от семечка до параметрической оптимизации случайного леса 12.09.2023 09:45 NewTechAudit 0 Python Машинное обучение
Стайлгайд PySpark: как сделать код элегантным +10 12.09.2023 08:06 NigrumKross 1 Python Облачные вычисления Apache DevOps Kubernetes Блог компании VK
Стайлгайд PySpark: как сделать код элегантным +11 08.09.2023 10:16 waltherman 1 Облачные вычисления Apache DevOps Kubernetes Блог компании VK Cloud computing VK corporate blog
Обработка больших и очень больших графов: Pregel +3 15.08.2023 03:06 neshkeev 2 Алгоритмы Apache Распределённые системы Algorithms Distributed systems
PySpark для аналитика. Как выгружать данные с помощью toPandas и его альтернатив +3 09.06.2023 07:19 aledovskiy 12 Python Анализ и проектирование систем Data Mining Big Data Аналитика мобильных приложений Блог компании AvitoTech