Искусство ETL. Пишем собственный движок SQL на Spark [часть 1 из 5] +15 12.09.2023 13:40 PastorGL 10 Open source Big Data JAVA Hadoop Data Engineering
Data больше не Big: как данные перестали быть большими и почему это полезно для бизнеса +34 05.09.2023 09:43 ItsPavel 8 Open source Big Data Блог компании ITSumma Data Engineering ITSumma corporate blog
Apache Spark для Data Engineering -1 30.08.2023 06:00 alitenicole 2 Big Data Блог компании Southbridge Data Engineering
Обработка больших и очень больших графов: Pregel +3 15.08.2023 03:06 neshkeev 2 Алгоритмы Apache Распределённые системы Algorithms Distributed systems
Apache Spark 3.4 для Databricks Runtime 13.0 +3 14.08.2023 12:16 alitenicole 0 Big Data Apache IT-инфраструктура Блог компании Southbridge Data Engineering
Обработка больших и очень больших графов +11 10.08.2023 23:07 neshkeev 2 Алгоритмы Распределённые системы Algorithms Distributed systems
Data Engineering: концепции, процессы и инструменты 24.07.2023 09:57 kucev 0 Анализ и проектирование систем Хранение данных Data Mining Машинное обучение Data Engineering
Градиентный бустинг: как подобрать гиперпараметры модели в 5 раз быстрее, чем обычно? +3 13.07.2023 11:55 rvishnevsky 1 Data Mining Big Data Apache Блог компании Росбанк Data Engineering
PySpark для аналитика. Как выгружать данные с помощью toPandas и его альтернатив +3 09.06.2023 07:19 aledovskiy 12 Python Анализ и проектирование систем Data Mining Big Data Аналитика мобильных приложений Блог компании AvitoTech
PySpark для аналитика. Как правильно просить ресурсы и как понять, сколько нужно брать +10 04.05.2023 10:36 aledovskiy 14 Python Data Mining Big Data Блог компании AvitoTech
Pyspark. Анализ больших данных, когда Pandas не достаточно +4 29.12.2022 15:27 rufous86 3 Python Big Data Hadoop
Автоматический подбор параметров для Spark-приложений на примере spark.executor.memory +3 24.11.2022 11:41 oneFactor 2 Scala Блог компании Конференции Олега Бунина (Онтико) IT-компании IT-инфраструктура Блог компании oneFactor
Рецепт собственной системы контроля качества данных +1 21.11.2022 13:55 neoflex 1 Data Engineering Блог компании Neoflex
Обзор End-to-End Exactly-Once семантики в Apache Flink (с Apache Kafka!) +5 16.11.2022 21:32 MaxRokatansky 0 Apache Блог компании OTUS
Машинное обучение с Apache Cassandra и Apache Spark +5 12.10.2022 13:04 MaxRokatansky 0 NoSQL Машинное обучение Apache Блог компании OTUS