Сегментирование Интернет-пользователей на основе алгоритмов машинного обучения для выбора стратегии позиционирования товара

Скачать дипломную работу, в которой исследуются сегментирование Интернет-пользователей на основе алгоритмов машинного обучения для выбора стратегии позиционирования товара
Author image
Timur
Тип
Дипломная работа
Дата загрузки
13.11.2023
Объем файла
1782 Кб
Количество страниц
66
Уникальность
Неизвестно
Стоимость работы:
2160 руб.
2700 руб.
Заказать написание работы может стоить дешевле

Введение
В современном мире существует множество компаний в сфере информационных технологий на российском и международном рынках, которые предоставляют свои услуги обществу. Одним из видов информационных технологий являются телекоммуникационные услуги. В работе будет рассмотрен сегмент телекоммуникационных компаний, который в 2021 году принес более 1,2% от годового ВВП России, при этом доля отрасли в российской экономике составляет 1,4%. Известно, что трендом в сфере телекоммуникационных услуг сегодня является переход компаний от предоставления традиционных услуг к цифровым сервисам. Чтобы услуги были более качественные и нацеленные на аудиторию, компании собирают огромные массивы данных для их изучения. Таким образом, объединяя всю имеющуюся информацию о пользователе, исследуя ее и собирая воедино, изучая интересы и особенности, создается единый профиль клиента.  На текущий момент в мире насчитывается 4,39 млрд уникальных пользователей интернета, что на 9% больше, чем в 2021 году. В России услугами Интернета пользуется 109,6 млн чел, что составляет 76% от всего населения. Компании каждый день получают невероятно большие потоки данных со всех устройств по всему миру об активностях пользователей.

 

Оглавление

Введение 3

1. Особенности решения задачи сегментирования Интернет-пользователей в сфере услуг 5

1.1. Основные подходы к сегментированию целевой аудитории потребителей услуг 5

1.2 Анализ рынка информационных технологий в сфере телекоммуникационных услуг и его тренды 10

1.3 Анализ интернет-аудитории 17

1.4 Анализ инструментов и методик сегментирования Интернет-пользователей 26

2. Выбор метода моделирования finger-print систем в сфере сегментирования профилей пользователей 37

2.1. Введение в машинное обучение и первичная обработка обучающей выборки 37

2.2. Метод решающих деревьев и выбор алгоритма и критерия ветвления для задачи построения сегментации пользователей. 47

2.3. Алгоритм построения модели сегментирования пользователей и оценка трудозатрат. 59

3. Сегментирования пользователей на основе их интересов с помощью машинного обучения 59

3.1 Подготовка обучающей выборки, первичный анализ 59

3.2 Построение дерева решений на реальных данных методом C4.5 66

3.3 Оценка результата и проверка достоверности модели …. 72

Заключение 74

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 75

Приложения 78

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

Законодательные и нормативные акты

1. Закон Российской Федерации "Федеральный закон от 18.03.2019 N 34-ФЗ "О внесении изменений в части первую, вторую и статью 1124 части третьей Гражданского кодекса Российской Федерации"" от 18 марта 2019 г. Собрание законодательства Российской Федерации. 2019 г.

Учебная и научная литература

2. Бланк С., Дорф Б. Стартап. Настольная книга основателя = The Startup Owner's Manual. — М.: Альпина Паблишер, 2014. — 616 с.

3. Гроулмунд, Уикем. Язык R в задачах науки о данных: импорт, подготовка, обработка, визуализация и моделирование данных = R for Data Science: Visualize, Model, Transform, Tidy, and Import Data. — Вильямс, 2017. — 592 с

4. Кабаков Р. R в действии = R in Action. — ДМК-Пресс, 2014. — 588 с.

5. Коршунов. Математические основы кибернетики. М. Энергоатомиздат, 1987

6. Куликов Л. М. Основы социологии и политологии. — М.: Финансы и статистика, 2011. — 336 с

7. Паклин Н.Б., Орешков В.И. Глава 9. // Бизнес-аналитика: от данных к знаниям: Учебное пособие. 2-е изд.. — СПб: Питер, 2013. — С. 444-459

8. Сильвер Н. Сигнал и Шум. Почему одни прогнозы сбываются, а другие ― нет. Азбука-Аттикус, КоЛибри, 2015

9. Флах П. Машинное обучение. — М.: ДМК Пресс, 2015. — 400 с. — ISBN 978-5-97060-273-7

10. Шеннон. Работы по теории информации и кибернетике. М. Иностранная литература, 1963

11. Bari, Chaouchi, Jung Predictive Analytics For Dummies. 2-е изд. For Dummies, 2016

12. Davidson-Pilon Bayesian Methods for Hackers. Probabilistic Programming and Bayesian Inference изд. Addison-Wesley Data & Analytics, 2015

13. Hastie, Tibshirani, Friedman The elements of statistical learning, 2009

14. Horváth, Tamás; Yamamoto, Akihiro, eds. (2003). Inductive Logic Programming. Lecture Notes in Computer Science

15. Principles of Data Mining. 2007

16. Quinlan J. R. C4.5: Programs for Machine Learning. — San Mateo: Morgan Kaufmann Publishers Inc., 1993(англ.)

17. Quinlan. C4.5: Programs for Machine learning. Morgan Kaufmann Publishers 1993.

18. Wang, Cheng, Zhao. Machine Learning for Human Motion Analysis. — IGI Global, 2009

1. Интернет-документы

19. Алгоритм C4.5 // Data Scientist URL: http://datascientist.one/algorithm-c4-5/ (дата обращения: 31.03.2022)

20. Бинарные деревья решений // RAnalytics URL: https://ranalytics.github.io/data-mining/052-Binary-Decision-Trees.html (дата обращения: 1.04.2022)

21. Википедия URL: https://ru.wikipedia.org/ (дата обращения: 10.04.2022)

22. Деревья принятия решений с примерами на R // Algorithmist URL: http://www.algorithmist.ru/2012/05/decision-trees-in-r.html (дата обращения: 1.02.2022)

23. Деревья решений — C4.5 математический аппарат. Часть 1 // Basegroup URL: https://basegroup.ru/community/articles/math-c45-part1 (дата обращения: 15.04.2022)

24. Интерактивное телевидение: от возможностей технологии до алгоритма подключения и настройки Оригинал статьи: https://www.kp.ru/guide/interaktivnoe-televidenie.html // Комсомольская правда URL: https://www.kp.ru/guide/interaktivnoe-televidenie.html (дата обращения: 15.04.2022)

25. Модели классификации для нескольких классов // RAnalytics URL: https://ranalytics.github.io/data-mining/071-Multiclass-Classification.html (дата обращения: 21.04.2022)

26. Обзор: Телеком 2018 // CNews URL: http://www.cnews.ru/reviews/telekom_2018/review_table/ec071ac8d579ae811934fc9db9afebf92ecf84a0 (дата обращения: 2.03.2022)

27. Подробно о генераторах случайных и псевдослучайных чисел // Хабр URL: https://habr.com/ru/post/151187/ (дата обращения: 1.02.2022)

28. ПРОНИКНОВЕНИЕ ИНТЕРНЕТА В РОССИИ: ИТОГИ 2021 ГОДА // GFK URL: https://www.gfk.com/fileadmin/user_upload/dyna_content/RU/Documents/Reports/2021/GfK_Rus_Internet_Penetration_in_Russia_2020-2021.pdf (дата обращения: 21.04.2022)

29. Рейтинг телекоммуникационных компаний мира // Golos URL: https://golos.io/ru--biznes/@alexey2954/reiting-telekommunikacionnykh-kompanii-mira (дата обращения: 21.04.2022)

30. Рейтинги // Mediascope URL: https://mediascope.net/services/media/media-audience/tv/thematic/description/ (дата обращения: 1.05.2022)

31. Решающие деревья // НИУ ВШЭ URL: https://www.hse.ru/mirror/pubs/share/215285956 (дата обращения: 20.03.2022)

32. Скользящий контроль // Machinelearning URL: http://www.machinelearning.ru/wiki/index.php?title=CV (дата обращения: 20.04.2022)

33. Телекоммуникационная компания // Экономические опрделения URL: http://economic-definition.com/Communications/Telekommunikacionnaya_kompaniya_Telecommunication_company__eto.html (дата обращения: 8.03.2022)

34. ЧТО ТАКОЕ ИНТЕРАКТИВНОЕ ТВ ОТ РОСТЕЛЕКОМ // Дом связи URL: https://domsvyazi.ru/informatsiya/chto-takoe-interaktivnoe-tv-ot-rostelekom.html (дата обращения: 5.04.2022)

35. Экономика Рунета 2018 // РАЭК URL: https://raec.ru/live/raec-news/10946/ (дата обращения: 21.03.2022)

36. CART (алгоритм) // Википедия URL: https://ru.wikipedia.org/wiki/CART_(%D0%B0%D0%BB%D0%B3%D0%BE%D1%80%D0%B8%D1%82%D0%BC) (дата обращения: 20.03.2022) 

37. Cross-Validation Essentials in R // STHDA URL: http://www.sthda.com/english/articles/38-regression-model-validation/157-cross-validation-essentials-in-r/ (дата обращения: 15.04.2022)

38. Deductor Руководство аналитика Версия 5.3 // Basegroup URL: https://basegroup.ru/system/files/documentation/guide_analyst_5.3.0.pdf (дата обращения: 2.03.2022)

39. Digitalisation – An Unstoppable Mega Trend // Institute for digital transformation URL: https://www.institutefordigitaltransformation.org/digitalisation-an-unstoppable-mega-trend/ (дата обращения: 21.03.2022)

40. ID3 Classification using data.tree // IPub URL: https://ipub.com/id3-with-data-tree/ (дата обращения: 2.04.2022)

41. ID3 Classification using data.tree // R-bloggers URL: https://www.r-bloggers.com/id3-classification-using-data-tree/ (дата обращения: 21.04.2022)

42. Internet citizen // Mozilla URL: https://blog.mozilla.org/internetcitizen/ (дата обращения: 5.03.2022)

Видно, что восстановленная зависимость, красная кривая, — очень плохая. Да, она даёт идеальные ответы на всех объектах обучающей выборки, она проходит через все серые точки. Но при этом в любой другой точке ответ совершенно неподходящий. Эти ответы никак не соответствуют истинной зелёной зависимости. Это является переобучением. Алгоритм слишком сильно подогнался под обучающую выборку ценой того, что он будет давать плохие ответы на новых точках. Итак, недообучение — это проблема, в которой алгоритм имеет плохое качество и на обучающей выборке, и на новых данных. А переобучение — это проблема, при которой алгоритм имеет хорошее качественное обучение, но плохое качество на новых данных. При недообучении нужно усложнять семейство алгоритмов, брать более сложные алгоритмы, например, многочлены высокой степени вместо линейных. С переобучением всё сложнее. Дело в том, что хороший алгоритм, который хорошо обобщает информацию, будет иметь хорошее качественное обучение. Переобученный алгоритм тоже будет иметь хорошее качество на обучающей выборке. Отличаются они только по качеству на новых данных. Хороший алгоритм будет хорошо работать в новых данных, а переобученный — плохо. Получается, что, имея лишь обучающую выборку, а имеется лишь она в момент настройки алгоритма, невозможно понять, переобучился он или нет. Нужна какая-либо дополнительная информация или дополнительные данные, чтобы выявить переобучение.