Пререквизиты: MacOs
1. Открыть Terminal
2. Install Homebrew
Выполнить команду:/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
Как итог после установки необходимо выполнить две команды, предварительно изменив директорию на свою:
Здесь заменяем /Users/admin
на свою (проверив через команду pwd
)echo 'eval ")"' >> /Users/admin/.zprofileeval "" class="formula inline">(/opt/homebrew/bin/brew shellenv)"
и вторая команда:
eval "$(/opt/homebrew/bin/brew shellenv)"
3. Install Java Development Kit (JDK)
Java является необходимым условием для запуска PySpark, поскольку она предоставляет среду выполнения, необходимую для выполнения приложений Spark. Когда PySpark инициализирован, он запускает процесс JVM (Java Virtual Machine) для запуска среды выполнения Spark, которая включает библиотеки Spark Core, SQL, Streaming, MLlib и GraphX. Этот процесс JVM выполняет код Spark.
Java от Oracle не имеет открытого исходного кода, поэтому я буду использовать Java от openjdk и установлю его с помощью brew. Следующая команда установит Java/JDK 11 версии из openjdk.
brew install openjdk@11
4. Install Python
Последовательно выполняем следующие команды:
brew install pyenv # Install pyenv
pyenv install 3.11.5 # Install Python version
Установка без виртуального окружения:
brew install python
5. Install Apache Spark
Устанавливаем Spark:brew install apache-spark
Как результат Spark установлен и запущен:
6. Start Spark UI
Копируем выделенный url на предыдущем скрине и открываем в браузере Spark UI:
Все! На все ушло менее 10 минут!
Создадим первый объект - dataframe:
dataset2 = [('apple', '100', '23'), ('peach', '1020','12'), ('tomato', '3200', '0’)]
dfs = spark.createDataFrame(dataset2, schema = ['c1','c2','c3’])
dfs.show()
Получаем:
Завершить спарк сессию: spark.stop()
Выйти: quit()
Комментарии (4)
Ninil
24.07.2024 14:53Просто зависимость/библиотека в проекте IntelliJ / PyCharm? Не, не слышал...
Ну и не понятно, зачем на Хабре плодить инструкцию, котораю ищется за 5 сек в любом поисковике?
ivankudryavtsev
docker run -it apache/spark /opt/spark/bin/spark-shell