Прогнозирование оттока клиентов банка методами машинного обучения

Скачать хорошую дипломную работу на тему: Прогнозирование оттока клиентов банка методами машинного обучения. В работе рассматривается анализ клиентов банка для оценки оттока клиентов и его прогнозирование с помощью машинного обучения.
Author image
Fadis
Тип
Дипломная работа
Дата загрузки
20.08.2024
Объем файла
4978 Кб
Количество страниц
70
Уникальность
Неизвестно
Стоимость работы:
1840 руб.
2300 руб.
Заказать написание работы может стоить дешевле

ВВЕДЕНИЕ

С начала развития цифровых технологий информация несет важную роль в жизни любого человека, а в следствие чего и общества. В современном мире наблюдается увеличение потока цифровых данных и для принятия оптимально-эффективных решений необходимо уметь правильно работать с этими данными, это приводит к использованию системного анализа, структуризации и исследованию процессов для нахождения взаимосвязей, поиска закономерностей. Обработанные данные позволяют получить результаты, которые могут принести выгоду бизнесу и не только, а также быстрое реагирование на изменение тенденций в данных повышает конкурентно-способность. Технология Big Data подразумевает под собой хранение и анализ большого массива данных, основной целью использования данной технологии в бизнесе является принятие решений на основе правильно-собранной информации, прогнозирования и анализа наборов данных. Несмотря на такие преимущества технологии как скорость обработки и принятия решений, выявление закономерностей

СОДЕРЖАНИЕ
ПЕРЕЧЕНЬ ПРИНЯТЫХ СОКРАЩЕНИЙ И УСЛОВНЫХ ОБОЗНАЧЕНИЙ6
ВВЕДЕНИЕ7
1Анализ предметной области10
1.1Определение понятия оттока клиентов10
1.1.1 Причины оттока клиентов10
1.2Большие данные11
1.2.1 Понятие Big Data11
1.2.2 Технологии Big Data12
1.3 Анализ данных и основные этапы13
1.3.1 Наборы данных16
1.3.2 Сбор, подготовка и обработка17
1.3.3 Исследовательский анализ18
1.4 Машинное обучение23
1.4.1 Понятие машинного обучения23
1.4.2 Виды машинного обучения24
1.4.3 Баланс классов27
1.4.4 Метрики28
1.5 Актуальность выпускной квалификационной работы32
1.6 Цель и постановка задачи выпускной квалификационной работы33
2Реализация прогнозирования оттока клиентов35
2.1 Выбор и описание программного средства и среды разработки35
2.2 Обучение с учителем36
2.2.1 Случайный лес40
2.2.2 Решающее дерево41
2.2.3 Логистическая регрессия43
2.3 Сегментация клиентов путем кластеризации44
3Обработка данных и построение моделей46
3.1Методы для разработки моделей прогнозирования46
3.2Описание наборов данных47
3.3Подготовка и обработка данных48
3.4Исследовательский анализ данных53
3.4.1Расчет средних значений для групп клиентов с оттоком и без53
3.4.2Построение графиков с учетом оттока клиентов54
3.4.3Анализ распределения клиентов по странам с учетом оттока56
3.4.4Анализ распределения клиентов по количеству продуктов с учетом оттока60
3.4.5Определение признаков, влияющих на отток при помощи матрицы корреляций63
3.5Выбор и обучение моделей64
3.5.1Обучение моделей без подбора гиперпараметров и без учета дисбаланса классов64
3.5.2Обучение моделей с подбором гиперпараметров и учетом дисбаланса классов66
3.5.3Борьба с дисбалансом: обучение моделей с параметром автоматической регулировки весов67
3.5.4Борьба с дисбалансом: обучение моделей с применением функции Downsampling70
3.5.5Борьба с дисбалансом: обучение моделей с применением функции Upsampling71
 

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

1.Shalev-Shwartz S., Ben-David S. Understanding Machine Learning: From Theory to Algorithms. 1st ed. Cambridge University Press, 2014.
2.Митрохин В.В. Технологии Big Data в банковской деятельности // Вестник Чебоксарского Филиала Российской Академии Народного Хозяйства И Государственной Службы При Президенте Российской Федерации. 2021. № 3 (26).
3.Орлов Г.А., Красов А.В., Гельфанд А.М. Применение Big Data при анализе больших данных в компьютерных сетях // Наукоемкие Технологии В Космических Исследованиях Земли. 2020. Vol. 12, № 4.
4.Паскова А.А. Технологии Big Data В Автоматизации Технологических И Бизнес-Процессов // Научное Обозрение. Технические Науки. 2018. № 4.
5.Татарникова Т.М. Анализ данных. Санкт-Петербургский государственный экономический университет.
6.Коломыцева А.О., Лутфуллаева М.Ж. Анализ Проблем И Подходов К Анализу Больших Данных В Современных Бизнес-Системах // Новое В Экономической Кибернетике. 2017. № 2.
7.Welcome to Python.org [Electronic resource] // Python.org. 2023. URL: https://www.python.org/ (accessed: 18.05.2023).
8.pandas - Python Data Analysis Library [Electronic resource]. URL: https://pandas.pydata.org/ (accessed: 18.05.2023).
9.Matplotlib — Visualization with Python [Electronic resource]. URL: https://matplotlib.org/ (accessed: 18.05.2023).
10.seaborn: statistical data visualization — seaborn 0.12.2 documentation [Electronic resource]. URL: https://seaborn.pydata.org/ (accessed: 18.05.2023).
11.Plotly: Low-Code Data App Development [Electronic resource]. URL: https://plotly.com/ (accessed: 18.05.2023).
12.Business Intelligence and Analytics Software [Electronic resource]. URL: https://www.tableau.com/ (accessed: 18.05.2023).
13.Визуализация данных | Microsoft Power BI [Electronic resource]. URL: https://powerbi.microsoft.com/ru-ru/ (accessed: 18.05.2023).
14.QlikView – Powerful Interactive Analytics & Dashboards | Qlik [Electronic resource]. URL: https://www.q

Она рассчитывается как отношение числа правильно классифицированных примеров к общему числу примеров в тестовом наборе.
Precision (Точность) – метрика, которая показывает, как много из предсказанных классов являются истинно положительными. Используется для оценки того, насколько точно классификатор идентифицирует положительные примеры. Она рассчитывается как отношение числа верно классифицированных положительных примеров к общему числу примеров, которые классификатор отметил как положительные.
Recall (Полнота) – метрика, которая показывает, как много из реальных положительных классов было предсказано как положительные. Измеряет долю положительных примеров, которые были правильно идентифицированы классификатором. Она рассчитывается как отношение числа верно классифицированных положительных примеров к общему числу положительных примеров в тестовом наборе.