Лабораторная работаПрограммированиеГод: 2024ВИВТ: Воронежский институт высоких технологий
👁 12💼 0

Готовая лабораторная: Запуск MapReduce на Hadoop с Python

Загружена: 23.02.2026 16:12

Практическое освоение запуска примеров MapReduce в окружении Hadoop на Ubuntu. Описаны распаковка Hadoop, настройка переменных окружения, создание и запуск mapper.py и reducer.py, проверка output. Полезно для начальной практики обработки больших объёмов и подготовки скриптов на Python.

Содержание

Лабораторная работа №1

Тема: Запуск примеров MapReduce. Python & Hadoop

Часть 1

Лабораторная работа выполняется на операционной системе Ubuntu.

Задания:

Скачать и распаковать Hadoop:

text
tar -xzf hadoop-3.4.0.tar.gz
Создать переменные окружения Hadoop, для этого в файле ~/.bashrc дописать строки:

export PATH="/usr/local/bin:$PATH"

export HADOOP_HOME=/home/met/hadoop

export PATH=$PATH:$HADOOP_HOME/bin

export JAVA_HOME=/usr/lib/jvm/java-17-openjdk-amd64

export PATH=$JAVA_HOME/bin:$PATH

Просмотреть список примеров mapreduce.

Создать входной каталог и добавить в него файлы.

Запустить процесс Hadoop по подсчету слов.

Проверить каталог output.

Часть 2. Python & Hadoop

Задания:

Создать файлы mapper.py и reducer.py, используя nano, и сделать их исполняемыми командами:

text
chmod +x mapper.py
chmod +x reducer.py
Написать код для mapper.py.

Написать код для reducer.py.

Запустить и проверить результат работы файла mapper.py.

Запустить и проверить результат работы файла reducer.py.

Заключение

В отчете необходимо описать, что было изучено и какие навыки приобретены в ходе выполнения лабораторной работы.

Подробное описание

📘 О чем эта работа

Лабораторная посвящена практическому запуску примеров MapReduce в среде Hadoop на Ubuntu с использованием Python-скриптов. Объектом является локальная установка Hadoop и интеграция с Python-скриптами (mapper.py и reducer.py); предмет — последовательность действий от распаковки дистрибутива до проверки каталога output.

📚 Что внутри

Документ пошагово описывает подготовку среды и запуск простых MapReduce-задач:

  • Распаковка дистрибутива: команда 'tar -xzf hadoop-3.4.0.tar.gz' и размещение Hadoop в домашней директории.
  • Настройка переменных окружения в файле '~/.bashrc' с конкретными строками: 'export PATH="/usr/local/bin:$PATH"', 'export HADOOP_HOME=/home/met/hadoop', 'export PATH=$PATH:$HADOOP_HOME/bin', 'export JAVA_HOME=/usr/lib/jvm/java-17-openjdk-amd64', 'export PATH=$JAVA_HOME/bin:$PATH'.
  • Работа с примерами MapReduce: просмотр списка примеров, предупреждение о необходимости создания входного и выходного каталогов в HDFS.
  • Пошаговый сценарий запуска: Шаг 1 — создание входного каталога и добавление файлов в HDFS; Шаг 2 — запуск Hadoop job по подсчету слов; Шаг 3 — проверка каталога output и получение результатов.
  • Создание пользовательских Python-скриптов: инструкции по созданию 'mapper.py' и 'reducer.py' (редактор nano) и приданию прав выполнения через 'chmod +x mapper.py' и 'chmod +x reducer.py'.
  • Примеры вывода: указано место в работе, где приведены результаты выполнения mapper.py и reducer.py, а также краткое заключение по итогам практики.

📊 Для кого подходит

Лабораторная полезна студентам IT-специальностей, курсам по распределённой обработке данных и любым практикам, связанным с Hadoop и MapReduce. Подходит для курсов по обработке больших данных, прикладной информатике и лабораторных занятий по системному администрированию Hadoop.

✨ Особенности

В работе представлены конкретные команды и конфигурации, которые можно сразу применить в локальной среде Ubuntu: от распаковки hadoop-3.4.0 до export-переменных и прав на исполнение Python-скриптов. Наглядно показан стандартный сценарий: подготовка HDFS-каталогов, запуск примера подсчёта слов, проверка выходных результатов. Такие инструкции экономят время при настройке и тестировании собственных MapReduce-задач.

❓ Частые вопросы

Подойдет ли для моего ВУЗа?
Структура лабораторной соответствует типичным требованиям: цель, этапы выполнения и вывод, поэтому легко принимается в большинстве кафедр.

Можно адаптировать?
Да. Скрипты mapper.py и reducer.py можно расширить под конкретную задачу, а шаги по настройке окружения — адаптировать под другой путь установки Hadoop или версию Java.

Практические замечания

  • Перед запуском убедитесь, что переменные окружения прописаны корректно и применены (перезапустите терминал или выполните 'source ~/.bashrc').
  • Создавайте отдельные HDFS-каталоги для input и output и очищайте output перед повторным запуском, чтобы избежать ошибок.
  • Для отладки выводов mapper.py и reducer.py удобно сначала запускать скрипты локально через стандартный ввод/вывод, затем интегрировать в Hadoop-пайплайн.

Итог

В заключении автор отмечает, что лабораторная работа дала представление о принципах MapReduce и интеграции Python с Hadoop, освоены запуск готовых примеров и базовые навыки создания собственных скриптов для типовых задач обработки текста (подсчёт слов). Эти навыки являются фундаментом для дальнейшей работы с распределёнными вычислениями и большими объёмами информации.