Ви переглядаєте архівну версію офіційного сайту НУЛП (2005-2020р.р.). Актуальна версія: https://lpnu.ua
Методи опрацювання великих даних
Спеціальність: Інформаційні системи та технології (освітньо-наукова програма)
Код дисципліни: 7.126.00.O.3
Кількість кредитів: 7
Кафедра: Інформаційні системи та мережі
Лектор: д.т.н., професор Берко Андрій Юліанович
Семестр: 1 семестр
Форма навчання: денна
Результати навчання:
• володіння знаннями і розумінням наукових засад створення ресурсів Великих даних;
• здатність формувати теоретичні та практичні рішення із створення та наповнення ресурсів Великих даних;
• здатність використовувати знання та навички при написанні сценаріїв опрацювання ресурсів Великих даних;
• практичне застосовування знань при опрацюванні ресурсів Великих даних із використанням класифікації, кластеризацї, предиктивного аналізу, статистичного моделювання, прогнозування.
• здатність формувати теоретичні та практичні рішення із створення та наповнення ресурсів Великих даних;
• здатність використовувати знання та навички при написанні сценаріїв опрацювання ресурсів Великих даних;
• практичне застосовування знань при опрацюванні ресурсів Великих даних із використанням класифікації, кластеризацї, предиктивного аналізу, статистичного моделювання, прогнозування.
Необхідні обов'язкові попередні та супутні навчальні дисципліни:
• Технології розподілених систем та паралельних обчислень
• Інтелектуальний аналіз даних
• Методи та засоби інженерії даних та знань
• Технології проектування систем бізнес-логіки
• Інтелектуальний аналіз даних
• Методи та засоби інженерії даних та знань
• Технології проектування систем бізнес-логіки
Короткий зміст навчальної програми:
1. Концепція Великих даних
Поняття та визначення Великих даних. Властивості Великих даних. Вимоги до Великих даних. Специфіка Великих даних. Класифікація великих даних. Структуровані дані. Джерела великих структурованих даних. Реляційні бази даних у великих даних. Неструктуровані дані. Джерела неструктурованих даних. Роль CMS в управлінні великими даними. Управління різнорідними даними. Інтеграція різних типів даних у середовище великих даних.
2. Еволюція Великих даних.
Еволюція управління даними.
Етап 1: Створення керованих структур даних
Етап 2: Керування веб-сайтами та контентом
Етап 3: Управління великими даними
Опрацювання великих обсягів даних на MainFrame. Передумови та чинники виникнення напряму Великих даних. Становлення та розвиток технологій Великих даних. Предметні області застосування великих даних. Сучасний стан та перспективи розвитку Великих даних.
3. Методики аналізу Великих даних.
A/B тестування. Класифікація. Кластерний аналіз. Краудсорсинг (відбір даних). Зміщування та інтеграція даних. Data mining. Визначення узгоджень(гармонійності) даних. Генетичні алгоритми. Машинне навчання. Опрацювання природної мови. Мережевий аналіз. Оптимізація. Розпізнавання шаблонів. Прогнозне моделювання. Регресійний аналіз. Опрацювання сигналів. Просторовий аналіз даних. Статистика. Імітаційне моделювання (Симуляція). Аналіз часових послідовностей. Вивчення асоціативних в'язків. Вивчення функціональних зав'язків. Вивчення прихованих в'язків.
4. Технології управління Великих даних
Операційні бази даних. Реляційні СУБД у середовищі великих даних (реляційна база даних - SQL).
Нереляційні СУБД (Бази даних ключ-значення. Бази даних документів. Стовпчикові бази даних. Графічні бази даних. Просторові бази даних ) .
Спеціалізовані сховища Великих даних.
Потокові дані.
5. Модель обчислень MapReduce
Парадигма MapReduce. Походження MapReduce.
Принципи функції Map. Принципи функції Reduce. Поєднання функцій Map і Reduce.
Оптимізація задач MapReduce. Обладнання / мережева топологія. Синхронізація даних
Файлова система MapReduce.
6. Засоби опрацювання Великих даних
Система опрацювання великих даних Hadoop. Принципи роботи Hadoop. Розподілена файлова система Hadoop (HDFS). Вершини імен HDFS. Подання даних HDFS. Hadoop і MapReduce. Екосистема Hadoop . Створення ресурсу великих даних з екосистемою Hadoop
Засіб управління ресурсами та додатками Hadoop YARN. Засіб зберігання великих даних HBase. Дослідження великих даних Hive.
7. Аналітика великих даних
Визначення аналізу великих даних. Використання великих даних для отримання результатів.
Основна аналітика. Розширені аналітики. Оперативна аналітика. Описова (дескриптивна) аналітика. Прогнозна (предиктивна) аналітика. Рекомендаційна (прескриптивна) аналітика. Монетизація аналітики
8. Застосування Великих даних у предметних областях.
Екологічний моніторинг. Соціальні процеси. Державне управління. Маркетинг. Торгівля. Е-комерція. Медицина. Біржова діяльність. Політика.
Рекомендована література:
1. White, Tom // Hadoop: The Definitive Guide // O'Reilly Media, 2009.
2. Hadoop. Apache Software Foundation // http://hadoop.apache.org/
3. Finley, Klint // Steve Ballmer on Microsoft's Big Data Future and More in This Week's Business Intelligence Roundup // ReadWriteWeb, 2011.
4. Fay Chang, Jeffrey Dean, Sanjay Ghemawat & etc. // Bigtable: A Distributed Storage System for Structured Data // Google Lab, 2006.
5. Сухорослов, O. // Новые технологии распределенного хранения и обработки больших массивов данных // Институт системного анализа РАН, 2008.
6. Jeffrey Dean, Sanjay Ghemawat // MapReduce: Simplified Data Processing on Large Clusters // Google Inc., 2004.
7. Judy Qiu // Cloud Technologies and Their Applications // Indiana University Bloomington, 2010
8. The Hadoop Distributed File System: Architecture and Design // http://hadoop.apache.org/common/docs/r0.17.2/hdfs_design.html
9. Созыкин, А. // Параллельное программирование в Hadoop // http://www.asozykin.ru/courses/hadoop
10. Ralf Lammel // Google’s MapReduce Programming Model — Revisited // Microsoft Corp.
2. Hadoop. Apache Software Foundation // http://hadoop.apache.org/
3. Finley, Klint // Steve Ballmer on Microsoft's Big Data Future and More in This Week's Business Intelligence Roundup // ReadWriteWeb, 2011.
4. Fay Chang, Jeffrey Dean, Sanjay Ghemawat & etc. // Bigtable: A Distributed Storage System for Structured Data // Google Lab, 2006.
5. Сухорослов, O. // Новые технологии распределенного хранения и обработки больших массивов данных // Институт системного анализа РАН, 2008.
6. Jeffrey Dean, Sanjay Ghemawat // MapReduce: Simplified Data Processing on Large Clusters // Google Inc., 2004.
7. Judy Qiu // Cloud Technologies and Their Applications // Indiana University Bloomington, 2010
8. The Hadoop Distributed File System: Architecture and Design // http://hadoop.apache.org/common/docs/r0.17.2/hdfs_design.html
9. Созыкин, А. // Параллельное программирование в Hadoop // http://www.asozykin.ru/courses/hadoop
10. Ralf Lammel // Google’s MapReduce Programming Model — Revisited // Microsoft Corp.
Методи і критерії оцінювання:
• Поточний контроль (40%): письмові звіти з лабораторних робіт, реферат, усне опитування
• Підсумковий контроль (60%, екзамен): письмово-усна форма.
• Підсумковий контроль (60%, екзамен): письмово-усна форма.