Ви переглядаєте архівну версію офіційного сайту НУЛП (2005-2020р.р.). Актуальна версія: https://lpnu.ua

Інтелектуальний аналіз даних

Спеціальність: Інженерія програмного забезпечення
Код дисципліни: 7.121.01.E.22
Кількість кредитів: 5
Кафедра: Програмне забезпечення
Лектор: д.т.н., професор Грицюк Ю.І.
Семестр: 2 семестр
Форма навчання: заочна
Результати навчання:
Внаслідок вивчення дисципліни фахівець має знати:
-відмінності Data Mining від класичних статистичних методів аналізу і OLAP-систем;
-типи закономірностей Data Mining (асоціація, класифікація, послідовність, кластеризація, прогнозування);
-сферу застосування Data Mining;
-методи Data Mining: нейронні мережі, дерева рішень, методи обмеженого перебору, генетичні алгоритми, еволюційне програмування, кластерні моделі, комбіновані методи.
Підготовлений фахівець має вміти:
1) розв'язувати практичні задачі за допомогою інструментального засобу, що використовує технологію Data Mining;
2) реалізувати процес аналізу даних за допомогою технології Data Mining, включно з усіма етапами цього процесу.
Необхідні обов'язкові попередні та супутні навчальні дисципліни:
Бази даних
Сховища даних
Структури даних
Основи штучного інтелекту
Короткий зміст навчальної програми:
Поняття Data Mining. Виникнення, перспективи, проблеми Data Mining. Погляд на технологію Data Mining як на частину ринку інформаційних технологій. Стадії Data Mining і дії, які виконуються в рамках цих стадій. Класифікації методів Data Mining. Порівняльна характеристика деяких методів, які базуються на їх властивостях. Завдання Data Mining. Суть завдань Data Mining і їх класифікація. Поняття "інформація", "знання", зіставлення і порівняння цих понять. Задачі класифікація і кластеризація. Суть задач, процес розв'язання, методи розв'язання, застосування. Порівняння розглянутих задач. Суть завдання прогнозування. Поняття тимчасового ряду, його компоненти, параметри прогнозування, види прогнозів. Завдання візуалізації даних. Основи аналізу даних. Основні характеристики описової статистики, суть кореляційного і регресійного аналізу. Приклади розв'язання задач в Microsoft Excel. Застосовування технології Data Mining. Поняття Web Mining, Text Mining, Call Mining. Методи класифікації та прогнозування. Метод дерев рішень. Елементи дерева рішення, процес його побудови. Приклади дерев, що вирішують завдання класифікації. Алгоритми конструювання дерев рішень CART і С4.5. Метод опорних векторів, метод "найближчого сусіда" і байєсівський методи класифікації. Переваги і недоліки цих методів. Метод нейронних мереж. Елементи і архітектура, процес навчання і явище перенавчання нейронної мережі. Модель нейронної мережі – персептрон. Приклад розв'язання задачі за допомогою апарату нейронних мереж. Опис роботи з нейронними мережами, класифікація нейронних мереж. Процес підготовки даних для навчання. Карти Кохонена, що самоорганізовуються, приклад розв'язання задачі. Основи кластерного аналізу, математичні характеристики кластера. Дві групи ієрархічного кластерного аналізу: агломеративні й дивізімні методи. Приклад ієрархічного кластерного аналізу в SPSS. Ітеративні методи на прикладі алгоритму к-середніх. Основи факторного аналізу і ітеративна кластеризація в SPSS. Процес кластерного аналізу. Порівняльний аналіз ієрархічних і неієрархічних методів і деякі нові алгоритми. Методи пошуку асоціативних правил. Суть завдання пошуку асоціативних правил. Алгоритм Apriori. Суть деяких інших алгоритмів. Приклад розв'язання задачі в аналітичному пакеті Deductor. Способи візуального представлення даних. Методи візуалізації. Методи і засоби візуального представлення інформації. Способи представлення інформації в одно-, дво-, тримірному вимірах, способи відображення інформації в більш ніж трьох вимірах. Принципи якісної візуалізації. Основні тенденції в області візуалізації. Комплексний підхід до впровадження Data Mining, OLAP і сховищ даних в СППР. Інформаційні системи виду СППР, їх типи і компоненти. Основні ідеї OLAP-технології, архітектура OLAP-серверів, інтеграції Data Mining і OLAP. Технологія сховищ даних і переваги їх використовування, зокрема, для процесу Data Mining. Початкові етапи процесу Data Mining. Процес підготовки даних, поняття якості даних, брудних даних, етапи очищення даних. Дві класифікації інструментів очищення і редагування даних, основні функції інструментів очищення даних, класифікація помилок в даних, які виникають внаслідок використання засобів очищення даних. Етапи процесу Data Mining, пов'язані з побудовою, перевіркою, оцінкою, вибором і корекцією моделей. Поняття "модель" і "моделювання". Організаційні й людські чинники в Data Mining. Стандарти Data Mining. Процес Data Mining з погляду організаційних чинників, а також відповідно до відомих методологій CRISP і SEMMA. Стандарти, що мають пряме і опосередковане відношення до Data Mining. Ринок інструментів Data Mining, його розвиток, постачальники інструментів, класифікація інструментів. Критерії, за якими можна порівнювати і вибирати інструмент Data Mining. Інструменти Data Mining, SAS Enterprise Miner. Пакет SAS Enterprise Miner 5.1. Огляд програмного продукту, основні характеристики і технічні вимоги пакету. Підхід SAS до створення інформаційно-аналітичних систем. Система PolyAnalyst. Архітектура, аналітичний інструментарій, коротка характеристика математичних алгоритмів PolyAnalyst. Характеристика система Web Analyst. Програмні продукти Cognos і система STATISTICA Data Miner. Комплекс програмних засобів компанії Cognos; особливості методології моделювання в системі. Інструмент STATISTICA Data Miner, засоби аналізу і схема роботи. Інструменти Oracle Data Mining і Deductor. Різниця Data Mining від Oracle і Deductor. Характеристика Oracle Data Mining, реалізовані алгоритми і функціональні можливості. Аналітична платформа Deductor, архітектура її системи і аналітичні алгоритми. Інструмент KXEN. Програмне забезпечення KXEN. Відмінності підходу KXEN від традиційного підходу Data Mining. Передумови створення системи KXEN і її технічні характеристики. Ключові компоненти системи KXEN. Технологія IOLAP. Data Mining консалтинг. Поняття Data Mining-консалтингу, завдання послуг з ефективного упровадження цієї технології. Переваги цього варіанту. Процедура роботи консалтингової компанії SnowCactus з клієнтом.
Рекомендована література:
1. Література до теоретичного курсу
1. Барсегян А.А. Методы и модели анализа данных: OLAP и Data Mining : учебн. пособ. / А.А. Барсегян, М.С. Куприянов, В.В. Степаненко, И.И. Холод. – 2-е изд., перераб. и доп. – СПб. : Изд-во БХВ-Петербург, 2004. – (+ CD-ROM). – 336 с.
2. Барсегян А.А. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP : учебн. пособ. / А.А. Барсегян, М.С. Куприянов, В.В. Степаненко, И.И. Холод. – 2-е изд., перераб. и доп. – СПб. : Изд-во БХВ-Петербург, 2007. – (+ CD-ROM). – 384 с.
3. Барсегян А.А. Анализ данных и процессов : учебн. пособ. / А.А. Барсегян, М.С. Куприянов, И.И. Холод, М.Д. Тесс, С.И. Елизаров. – 3-е изд., перераб. и доп. – СПб. : Изд-во БХВ-Петербург, 2009. – (+ CD-ROM). – 512 с.
4. CRISP-DM 1.0. Step-by-step Data Mining guide. SPSS, 2000.
5. Artificial Intelligence – A Guide to Intelligent Systems, Michael Negnivitsky, Addi-son- wesley, Pearson Education Limited? 2002.
6. ЛюгерД. Искусственный интеллект. – М. : Изд-во "Мир", 2003. 690 с.
7. Гаврилова Т. А., Хорошевский В. Ф. Базы знаний интеллектуальных систем. СПб: Питер, 2001. 384 с.
8. Winston Р. Н. Artificial Intelligence (3rd Edition). Addison-Wesley Pub Co; 3rd edi-tion, 1992. 691 p.
9. Stuart J. Russell, Peter Norvig. Artificial Intelligence: A Modem Approach (2nd Edi-tion). Prentice Hall; 2nd edition, 2002. 1132 p.
10. Искусственный интеллект, справочник в 3-х томах. – М. : Изд-во " Радио и связь", 1990, под ред. Захарова В. Н. и Хорошевского В. Ф.
11. Нильсон Н. Принципы искусственного интеллекта. – М. : Изд-во "Мир", 1985.374 с.
12. Поспелов Д. А. Из истории искусственного интеллекта: история искусственного интеллекта до середины 80-х годов. Новости искусственного интеллекта, 1994, №4. – С. 70-90.
2. Література до лабораторних занять
1. XELOPES Library Documentation. Version 1.1. prudsys AG. Germany. Chemnitz May 26, 2003. – 126 с.
Методи і критерії оцінювання:
Лабораторні заняття
50
Участь у семінарах
10
Реферати
10
Презентації
10
КР
20
Разом балів
100