📘 О чем эта работа
В руководстве систематизированы основные понятия и практики работы с большими данными: модель 5V (Volume, Velocity, Variety, Veracity, Value), архитектуры хранения и обработки, инструменты (Hadoop, Spark, Kafka, ClickHouse, NoSQL) и практические сценарии применения. Объект — инфраструктуры обработки Big Data; предмет — технологии, SQL-примеры и прикладные кейсы для аналитики и персонализации.
📚 Что внутри
Материал содержит детальные ответы на типовые вопросы по Big Data и готовые примеры для практики:
- Теория: определение больших данных, модель 5V, сравнение OLTP/OLAP, модели согласованности в распределённых системах.
- Технологии: описание Hadoop (HDFS, MapReduce, YARN), Apache Spark (in-memory, MLlib, Structured Streaming), Apache Kafka, Flink, ClickHouse, HBase, Cassandra, MongoDB, Redis, Elasticsearch, Airflow.
- Архитектура: уровни системы (источники, сбор — Kafka/Flume, хранение — Data Lake/HDFS/ClickHouse/NoSQL, обработка — Spark, витрины для BI).
- Практические SQL-примеры: SELECT DISTINCT OS FROM metrica.hits; агрегаты по RegionID; выборки по IsMobile/JavaEnable; работа с таблицей stock.stock (AVG(price), MAX/MIN по регионам).
- ETL/ELT: пошаговый процесс Extract→Transform→Load, слоёвость raw→cleaned→mart, мониторинг качества и data lineage.
- Кейсы: подробные сценарии 'НордСтар' (оптимизация трафика и мерчандайзинга), 'Глобус' (персонализация и Next Best Offer), банковские боты и интеграция NLP, геоаналитика и логистика, автоматизация маркетинга и управление ассортиментом.
- Метрики и KPI: конверсии воронки (Visit→Payment), AOV, ROMI, LTV, retention, FCR и CSAT для сервисов поддержки.
- Примеры структур данных: для воронки e-commerce — client_id, event_time, event_name, order_id, channel, device_os; для метрик — поля таблицы metrica.hits (UserID, EventTime, LocalEventTime, IsMobile, OS, CounterClass).
- Рекомендации по безопасности: шифрование, RBAC, аудит, GDPR/ФЗ-152, резервирование и защита в облаке.
📊 Для кого подходит
Материал полезен студентам и практикам по прикладной информатике, аналитике и информационным системам: для подготовки курсовых заданий, лабораторных упражнений, настройки ETL‑пайплайнов и разработки MVP аналитических витрин.
✨ Особенности
Содержит готовые SQL‑запросы и шаблоны дашбордов (KPI‑карточки, воронка, тепловые карты), конкретные рекомендации по выбору технологий в зависимости от сценария (реальное время vs batch, OLAP vs OLTP) и практически проверённые KPI для оценки эффекта (до/после, A/B тесты, uplift).
❓ Частые вопросы
Подойдет ли для моего ВУЗа?
Структура охватывает теорию и практику: определения, архитектуры, SQL-примеры и выводы — легко адаптируется под требования большинства дисциплин по Big Data и аналитике.
Можно адаптировать?
Да. SQL-примеры подставляются под схемы metrica.hits и stock.stock, ETL-пайплайн и кейсы можно локализовать под конкретный бизнес (ритейл, банк, логистика).