Пререквизиты: MacOs

1. Открыть Terminal

2. Install Homebrew

Выполнить команду:

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

Как итог после установки необходимо выполнить две команды, предварительно изменив директорию на свою:
Здесь заменяем /Users/admin на свою (проверив через команду pwd)

echo 'eval ")"' >> /Users/admin/.zprofileeval "" class="formula inline">(/opt/homebrew/bin/brew shellenv)"

и вторая команда:

eval "$(/opt/homebrew/bin/brew shellenv)"

3. Install Java Development Kit (JDK)

Java является необходимым условием для запуска PySpark, поскольку она предоставляет среду выполнения, необходимую для выполнения приложений Spark. Когда PySpark инициализирован, он запускает процесс JVM (Java Virtual Machine) для запуска среды выполнения Spark, которая включает библиотеки Spark Core, SQL, Streaming, MLlib и GraphX. Этот процесс JVM выполняет код Spark.

Java от Oracle не имеет открытого исходного кода, поэтому я буду использовать Java от openjdk и установлю его с помощью brew. Следующая команда установит Java/JDK 11 версии из openjdk.

brew install openjdk@11

начало установки JDK
начало установки JDK

4. Install Python
Последовательно выполняем следующие команды:

brew install pyenv # Install pyenv pyenv install 3.11.5 # Install Python version

Установка без виртуального окружения:

brew install python

5. Install Apache Spark 

Устанавливаем Spark:
brew install apache-spark

Как результат Spark установлен и запущен:

Копируем выделенный url
Копируем выделенный url

6. Start Spark UI

Копируем выделенный url на предыдущем скрине и открываем в браузере Spark UI:

Все! На все ушло менее 10 минут!

Создадим первый объект - dataframe:

dataset2 = [('apple', '100', '23'), ('peach', '1020','12'), ('tomato', '3200', '0’)]

dfs = spark.createDataFrame(dataset2, schema = ['c1','c2','c3’])

dfs.show()

Получаем:

Завершить спарк сессию: spark.stop()
Выйти: quit()

Комментарии (4)


  1. ivankudryavtsev
    24.07.2024 14:53

    docker run -it apache/spark /opt/spark/bin/spark-shell


  1. Falcon_eye Автор
    24.07.2024 14:53

    Иван, это через терминал Mac ?


  1. eigrad
    24.07.2024 14:53

    Как-то долго. А, голая макось... Ну норм, но зачем..?


  1. Ninil
    24.07.2024 14:53

    Просто зависимость/библиотека в проекте IntelliJ / PyCharm? Не, не слышал...
    Ну и не понятно, зачем на Хабре плодить инструкцию, котораю ищется за 5 сек в любом поисковике?