Платформа данных в Леруа Мерлен — как мы победили масштабирование +9 08.02.2023 08:08 alextokarev 17 Хранение данных Big Data Блог компании Леруа Мерлен Data Engineering
Знакомство с Fugue — уменьшаем шероховатости при работе с PySpark +2 12.01.2023 22:27 rufous86 1 Python Big Data Машинное обучение Hadoop Data Engineering
Pyspark. Анализ больших данных, когда Pandas не достаточно +4 29.12.2022 15:27 rufous86 3 Python Big Data Hadoop
Количество партиций в Spark DataFrame, DataSet на основе Relational Data Base table +1 07.12.2022 13:03 GolovinDS 0 Data Engineering Блог компании OTUS
2003–2023: Краткая история Big Data +55 04.12.2022 13:00 Bright_Translate 7 Big Data Блог компании RUVDS.com Хранилища данных История IT Data Engineering
Совместный доступ к Spark-датасетам из разных приложений — Redis нам в помощь +1 02.12.2022 14:25 MaxRokatansky 0 Хранение данных Блог компании OTUS
Автоматический подбор параметров для Spark-приложений на примере spark.executor.memory +3 24.11.2022 11:41 oneFactor 2 Scala Блог компании Конференции Олега Бунина (Онтико) IT-компании IT-инфраструктура Блог компании oneFactor
Извилистый путь через «скалу» в Spark: как одинэсник стал дата-инженером и полюбил строго типизированные языки +4 22.11.2022 10:00 Tituch 3 Программирование Scala Карьера в IT-индустрии Data Engineering Блог компании Криптонит
Apache Spark на Kubernetes: какие уроки можно извлечь из запуска миллионов исполнителей Spark +3 18.11.2022 13:11 Olga_Mokshina 0 Big Data DevOps Kubernetes Блог компании VK
Автоматический подбор параметров для Spark-приложений +5 27.10.2022 11:12 oneFactor 7 Big Data Машинное обучение Scala IT-инфраструктура Блог компании oneFactor
Realtime-матчинг: находим матчи за считанные минуты вместо 24 часов +35 14.10.2022 12:08 alex_golubev13 3 Обработка изображений Python Машинное обучение Natural Language Processing Блог компании Ozon Tech
Подводные камни Spark: что делать с перезаписью и дополнением в таблицах +7 12.10.2022 11:05 yrepear 0 Администрирование баз данных Хранение данных Big Data Хранилища данных Блог компании VK
Потери данных при репликации в аналитическое хранилище — автоматические сверки и мониторинг качества данных +15 22.09.2022 15:01 gladkikhtutu 19 Администрирование баз данных Хранение данных Big Data Блог компании Туту.ру
Заметки дата-инженера: интеграция Kafka и PySpark -1 05.09.2022 13:07 neoflex 3 Программирование Python Big Data Блог компании Neoflex
Количество партиций в Spark при инициализации Data API: DataFrame, RDD, DataSet +6 02.09.2022 18:17 MaxRokatansky 0 API Блог компании OTUS