Пререквизиты: MacOs
1. Открыть Terminal

2. Install Homebrew
Выполнить команду:/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)" 

Как итог после установки необходимо выполнить две команды, предварительно изменив директорию на свою:
Здесь заменяем /Users/admin на свою (проверив через команду pwd)echo 'eval ")"' >> /Users/admin/.zprofileeval "" class="formula inline">(/opt/homebrew/bin/brew shellenv)" 

и вторая команда:
eval "$(/opt/homebrew/bin/brew shellenv)"
3. Install Java Development Kit (JDK)
Java является необходимым условием для запуска PySpark, поскольку она предоставляет среду выполнения, необходимую для выполнения приложений Spark. Когда PySpark инициализирован, он запускает процесс JVM (Java Virtual Machine) для запуска среды выполнения Spark, которая включает библиотеки Spark Core, SQL, Streaming, MLlib и GraphX. Этот процесс JVM выполняет код Spark.
Java от Oracle не имеет открытого исходного кода, поэтому я буду использовать Java от openjdk и установлю его с помощью brew. Следующая команда установит Java/JDK 11 версии из openjdk.
brew install openjdk@11

4. Install Python
Последовательно выполняем следующие команды:
brew install pyenv # Install pyenv
pyenv install 3.11.5 # Install Python version 
Установка без виртуального окружения:
brew install python
5. Install Apache Spark
Устанавливаем Spark:brew install apache-spark 
Как результат Spark установлен и запущен:

6. Start Spark UI
Копируем выделенный url на предыдущем скрине и открываем в браузере Spark UI:

Все! На все ушло менее 10 минут!
Создадим первый объект - dataframe:
dataset2 = [('apple', '100', '23'), ('peach', '1020','12'), ('tomato', '3200', '0’)]
dfs = spark.createDataFrame(dataset2, schema = ['c1','c2','c3’])
dfs.show()
Получаем:

Завершить спарк сессию: spark.stop()
Выйти: quit()
Комментарии (4)
 - Ninil24.07.2024 14:53- Просто зависимость/библиотека в проекте IntelliJ / PyCharm? Не, не слышал... 
 Ну и не понятно, зачем на Хабре плодить инструкцию, котораю ищется за 5 сек в любом поисковике?
 
           
 

ivankudryavtsev
docker run -it apache/spark /opt/spark/bin/spark-shell