1. Введение
Одним из основных компонентов Apache Spark является Spark ML , библиотека для построения моделей и конвейеров машинного обучения, построенная на базе движка Apache Spark. На веб-сайте он содержит такие инструменты, как:
- Алгоритмы машинного обучения: общие алгоритмы обучения, такие как классификация, регрессия, кластеризация и совместная фильтрация.
- Фичеризация: извлечение признаков, преобразование, уменьшение размерности и выбор.
- Конвейеры: инструменты для построения, оценки и настройки конвейеров машинного обучения.
- Персистентность: сохранение и загрузка алгоритмов, моделей и конвейеров.
- Утилиты: линейная алгебра, статистика, обработка данных и т. д.
В этой лаборатории кода вы узнаете, как создать модель Spark ML с помощью блокнота.
2. Включите API
Для этой лаборатории кода необходимо включить следующие API:
Нажмите эту ссылку , чтобы включить эти API в свой проект. При появлении запроса подтвердите, что API будут включены в правильном проекте.
3. Создайте экземпляр Vertex AI Workbench и подключитесь к нему.
В этом разделе вы создадите экземпляр Vertex AI Workbench. Затем вы подключитесь к нему, клонируете репозиторий Github и запустите блокнот.
Чтобы создать экземпляр Vertex AI Workbench, вы можете следовать инструкциям или следовать инструкциям ниже.
- Перейдите на страницу консоли «Управляемые блокноты» .
- Нажмите НОВЫЙ НОУТБУК.
- Укажите имя и выберите регион , например us-central1 (Iowa) . В идеале это должно соответствовать региону, выбранному ранее в кодовой лаборатории, хотя это не обязательно.
- В разделе «Разрешение» выберите «Только один пользователь».
- Откройте раскрывающийся список «Дополнительные настройки» .
- В разделе «Безопасность» выберите «Включить nbconvert» и «Включить терминал».
- Нажмите СОЗДАТЬ.
Экземпляр должен быть подготовлен в течение примерно пяти минут. Когда экземпляр будет готов, рядом с именем блокнота появится зеленая галочка.
Когда экземпляр будет готов, нажмите OPEN JUPYTERLAB . Пройдите аутентификацию при появлении соответствующего запроса и включите все разрешения.
4. Создавайте модели с помощью Spark ML из блокнота.
После загрузки экземпляра JupyterLab вы попадаете на вкладку «Панель запуска» . На этой вкладке в разделе «Другое» нажмите «Терминал» , чтобы открыть новый терминал.
В терминале клонируйте репозиторий Vertex AI Samples .
git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git
На вкладке «Обозреватель файлов» перейдите к vertex-ai-samples/notebooks/official/workbench/spark . Откройте блокнот spark_ml.ipynb, дважды щелкнув по нему. Когда будет предложено выбрать ядро, выберите Python (локальный) .
Пройдитесь по шагам блокнота, выполняя каждую ячейку по ходу дела. Следуйте инструкциям в ячейках.
5. Очистите ресурсы
Чтобы избежать ненужных расходов на вашу учетную запись GCP после завершения этой лаборатории кода:
- Удалите экземпляр Workbench. В консоли установите флажок рядом с вашим экземпляром и нажмите УДАЛИТЬ.
Если вы создали проект только для этой лаборатории кода, вы также можете при желании удалить проект:
- В консоли GCP перейдите на страницу «Проекты» .
- В списке проектов выберите проект, который хотите удалить, и нажмите «Удалить».
- В поле введите идентификатор проекта и нажмите «Завершить работу», чтобы удалить проект.