Разработка программы для решения задач кластерного анализа

В ходе выполнения выпускной квалификационной (дипломной) работы было проанализировано применение кластерного анализа в различных отраслях, проведено сравнение создаваемой программы с существующими аналогами, так же был выбрать средства и среды для разработки приложения, разработан графический интерфейс программы и в конечном итоге проведено тестирование получившейся программы. Кластерный анализ сопровождает нас в каждом аспекте нынешней эпохи интернета. Он помогает нам во всех задачах начиная от выбора техники по нужной нам цене и заканчивая создание искусственного интеллекта Правильный выбор типа кластеризации и верно подобранные библиотеки способны с легкостью распределить данные по тем направлениям, которые требуются для вашей задачи.
Author image
Radik
Тип
Дипломная работа
Дата загрузки
28.09.2022
Объем файла
2818 Кб
Количество страниц
24
Уникальность
Неизвестно
Стоимость работы:
2000 руб.
2500 руб.
Заказать написание работы может стоить дешевле

Введение

В наше время вместе со стремительно идущим развитием технологий увеличивается и количество информации. Вместе с ней происходит развитие старых возможностей ее получения, а также появляются новые. Эта тенденция приводит к огромному накоплению данных, которые нужно правильно хранить и хранить в необходимом формате, для извлечения информации из них. В связи с этим отрасль хранения, обработки и представления данных стала очень актуальной в наше время. В данной работе представлена информация об одном из видов обработки данных, а точнее об одном из самых популярных в наше время анализе данных - кластеризации.
Целью выпускной квалификационной работы является разработка программы для решения задач кластерного анализа несколькими методами кластеризации.
Для достижения поставленной цели в работе решаются следующие задачи:
проанализировать применение кластерного анализа в различных отраслях;
 

Оглавление

Введение 2

1.Анализ предметной области 3

1.1Анализ применения кластерного анализа в различных отраслях 3

1.2 Виды кластерного анализа 8

1.3Выбор метода кластерной реализации 20

2.Разработка программного средства 26

2.1 Выбор средств разработки 26

2.2Структура работы программы 33

2.3 Описание дизайна программы 34

2.4 Тестирование 40

Заключение 53

Список литературы 54

Список литературы

1. Краковецкий Александр. кластеризация: алгоритмы k-means и c-means [Электрон.ресурс]-URL:<https://habr.com/ru/post/67078/> (Дата обращения 17.12.2021)

2. Реализация K-Means ++ в Python и Spark [Электрон.ресурс]-URL: <https://www.machinelearningmastery.ru/k-means-implementation-in-python-and-spark-856e7eb5fe9b/> (Дата обращения 17.12.2021)

3. Кластеризация K-средних: алгоритм, приложения, методы оценки и недостатки[Электрон.ресурс]-URL: <https://www.machinelearningmastery.ru/k-means-clustering-algorithm-applications-evaluation-methods-and-drawbacks-aa03e644b48a/> (Дата обращения 17.12.2021)

4. [сайтURL: <https://jupyter.org>  (Дата обращения 17.12.2021)

5. Часовских А. (2010).  Обзор алгоритмов кластеризации данных [сайт] -URL: <https://habrahabr.ru/post/101338/> (Дата обращения 17.12.2021)

6. Краковецкий А. (2009).  Кластеризация: алгоритмы k-means и c-means. [сайт]-URL: <https://habrahabr.ru/post/67078/> (Дата обращения 17.12.2021)

7. Алгоритмы K-ближайших соседей и K-средних на Python[сайт]-URL: <https://pythonru.com/uroki/sklearn-kmeans-i-knn> (Дата обращения 17.12.2021)

8. Андрей Часовских. Обзор алгоритмов кластеризации данных [сайт] -URL: <https://habr.com/ru/post/101338/> (Дата обращения 17.12.2021)

9. [сайт]-URL: <https://scikit-learn.ru/clustering/> (Дата обращения 17.12.2021)

10. [Электрон.ресурс]-URL: <https://cs.hse.ru/data/2017/11/28/1161805189/Slides-IntroToAI-HSE-2017-08-1-Panov.pdf> (Дата обращения 17.12.2021)

11. In Depth: k-Means Clustering [сайт]URL: <https://jakevdp.github.io/PythonDataScienceHandbook/05.11-k-means.html> (Дата обращения 17.12.2021)

12. Дюк В., Самойленко А. Data mining. Учебный курс. СПб.: Питер, 2001. 368 с. 

13. Чубукова И. А. Data mining. М.: Бином, 2008. 384 с. 

14. Технологии анализа данных: DataMining, VisualMining, TextMining, OLAP / Барсегян, Куприянов, Степаненко, Холод, Под ред. Барсегяна А. А. 2 изд. СПб.: БХВ-Петербург, 2007. 336 с. 

15. Башмаков А. И., Дудко Я. В. Алгоритм обнаружения и анализа нештатных ситуаций // Информатика, вычислительная техника и управление. Ижевск: Системная инженерия. Научно-теоретический журнал, 2015. С. 100-104. 

16. Гитис Л. Х. Кластерный анализ в задачах классификации, оптимизации и прогнозирования. М.: МГГУ, 2001. 103 с. 

17. Hand D., Mannila H. and Smyth P., 2001. Principles of Data Mining. London: MIT Press. Pp: 197-201

18. Афанасьева С.В. Технология интеллектуального анализа данных: учеб. пособие – М.:Нац. исслед. ун-т «Высшая школа экономики», 2013

19. А. А. Барсегян, М. С. Куприянов, В. В. Степаненко, И. И. Холод. Технологии анализа данных. Data Mining, Visual Mining, Text Mining, OLAP – СПб: БХВ-Петербург, 2007 г.

20. Информационный сайт с основными понятия Data Mining [Электронный ресурс] URL: https://www.sites.google.com/site/upravlenieznaniami/tehnologii-upravleniaznaniami/data-mining(Дата обращения 17.12.2021)

21. Кластерный анализ: оценка качества кластеризации [Электронный ресурс] URL: https://rpubs.com/AllaT/clust3

22. Кластерный анализ [Электронный ресурс] URL: https://studref.com/615556/ekonomika/klasternyy_analiz

23. Кластерный анализ: основы метода и его применение в биомедицине [Электронный ресурс] URL http://www.biometrica.tomsk.ru/cluster_3.htm 

24. Кластерный анализ на Forex [Электронный ресурс] URL https://tlap.com/klasternyiy-analiz-forex/

25. Кластерный анализ [Электронный ресурс] URL https://www.hmong.press/wiki/Cluster_Analysis

26. Что такое кластерный анализ криптовалют [Электронный ресурс] URL https://crypto.ru/klasternyy-analiz-kriptovalyut/

27. Кластерный анализ криптовалют [Электронный ресурс] URL https://blockchain24.pro/klasternyj-analiz-kriptovalyut

28. Поэтапный процесс кластерного анализа данных на основе алгоритма кластеризации K-means [Электронный ресурс] URL https://moluch.ru/archive/93/20759/

29. Сравнительный анализ методов кластерного анализа в решении [Электронный ресурс] URL https://www.bibliofond.ru/view.aspx?id=897416

30. Анализ данных Python: кластерный анализ [Электронный ресурс] URL https://russianblogs.com/article/5038309749/

31. Кластерный анализ – Cluster analysis [Электронный ресурс] URL

https://wiki5.ru/wiki/Cluster_analysis

32. Иерархический кластерный анализ [Электронный ресурс] URL https://www.datuapstrade.lv/rus/spss/section_20/2/

33. Кластерный анализ методом к-средних [Электронный ресурс] URL

https://www.datuapstrade.lv/rus/spss/section_20/9/

34. SPSS Statistics [Электронный ресурс] URL https://spssstatistics.ru

Это вариация k-means метода кластеризации, где для определения центроида кластера вместо среднего вычисляется медиана. Это соответствует минимизации ошибки по всем кластерам в метрике с 1-нормой, вместо метрики с 2-нормой для kmeans.

Соответствующая проблема k-median состоит в поиске таких k центров, что сформированные по ним кластеры будут наиболее компактными. Формально, при заданных точках данных x, k центров ci должны быть выбраны так, чтобы минимизировать сумму расстояний от каждой x до ближайшего ci. 

K-medians иногда работает лучше чем k-means, где минимизируется сумма квадратов расстояний. Критерий суммы расстояний широко используется для транспортных задач

2) PAM (k-means + k-medoids)

Метод по своей сути является модификацией К-средних с применением К-медианы. Работа алгоритма аналогична K-means, только объекты в нём распределяются не относительно центра кластера, а релятивно его медианы. Алгоритм лучше своего основоположника противостоит выбросам и шумам, поскольку медиана менее подвержена этим явлениям. К сожалению, алгоритм не преобразовался настолько, чтобы применяться для больших объёмов данных.