Разработка математических методов и алгоритмов машинного обучения для обработки и анализа больших объемов слабоструктурированных текстовых данных в научных рекомендательных системах
ВВЕДЕНИЕ
Данная работа направлена на решение научно-технической задачи создания, применения и исследования эффективности методов и алгоритмов машинного обучения для обработки слабоструктурированных текстовых данных в научных рекомендательных системах.
Актуальность исследования. Переход от бумажных носителей информации к цифровым, вызванный повсеместным использованием информационных и телекоммуникационных технологий, открывает перспективы для работы с постоянно возрастающим объемом информации и возможностью извлечения знаний из слабоструктурированного массива данных. Несмотря на относительно небольшой срок активного применения в промышленности цифровых носителей, объем данных на них растет год от года в геометрической прогрессии, что является следствием преобразования и перевода данных из различных областей жизнедеятельности человека в цифровой вид.
К 2020 году накопленное количество данных оценивалось в 16 зеттабайт, но по прогнозам аналитической компании IDC
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ4
Глава 1. Анализ рекомендательных систем и место алгоритмов машинного9
Существующие виды рекомендательных систем9
Особенности научных рекомендательных систем19
Пертинентность информации21
Место задачи классификации при обработке данных на основе машинного обучения25
Сравнительный анализ методов классификации27
Постановка задачи диссертационного исследования35
Выводы по первой главе37
Глава 2. Метод обогащения признакового пространства с помощью выявления вида научного результата38
Особенности научных «Больших данных»38
Расширение онтологии научной деятельности для научной рекомендательной системы 40
Разработка метода выявления вида научных результатов на основе параметрического подхода42
Разработка алгоритма выявления вида научного результата48
Экспериментальные результаты применения алгоритма выявления вида научного результата50
Выводы по второй главе55
Глава 3. Ансамбль алгоритмов классификации для слабоструктурированных текстовых научных данных56
Существующие подходы к формированию ансамблей алгоритмов56
Предлагаемый ансамблевый метод классификации на основе энтропии с использованием базовых алгоритмов машинного обучения61
Результаты экспериментального исследования ансамблевого метода классификации на основе энтропии64
Выводы по третьей главе76
Заключение 78
Список использованных источников 79
Список использованных источников
David Reinsel, John Gantz, John Rydning. Data Age 2025: The Evolution of Data to Life- Critical. [Электронный ресурс]. – Режим доступа: URL: https://www.seagate.com/www- content/our-story/trends/files/Seagate-WP-DataAge2025-March-2017.pdf.
de Gemmis M., Lops P., Musto C., Narducci F., Semeraro G. Semantics-Aware Content- Based Recommender Systems. In: Ricci F., Rokach L., Shapira B. (eds) Recommender Systems Handbook. Springer, Boston, MA. 2015. pp. 119-159.
Nicolenko С. Recommender Systems. [Электронный ресурс]. – Режим доступа: URL: http://www.compsciclub.ru/csclub/sites/default/files/slides/20111202_machine_learning_nikolenko_le cture07.pdf (25.11.2014).
Воронцов К.В. Лекции по алгоритмическим композициям // Электронные лекции, 7 октября 2012 г. [Электронный ресурс]: http://www.machinelearning.ru/wiki/images/0/0d/Voron- ML-Compositions.pdf (дата обращения 17.10.2018).
Янина А.О., Воронцов К.В. Мультимодальные тематические модели для разведочного поиска в коллективном блоге // Машинное обучение и анализ данных, 2016. Т. 2, №2. С. 173- 186.
Дьяконов А.Г. Прогноз поведения клиентов супермаркетов с помощью весовых схем оценок вероятностей и плотностей // Бизнес-информатика, 2014. Т. 1, № 27. С. 68-77.
Grigorios Tsoumakas, Apostolos Papadopoulos, Weining Qian, Stavros Vologiannidis, Al- exander D'yakonov, Antti Puurula, Jesse Read, Jan Svec, Stanislav Semenov. WISE 2014 Challenge: Multi-label Classification of Print Media Articles to Topics // Lecture Notes in Computer Science. 2014, № 8787, pp. 541-548
Учет качества разбиения при использовании модифицированного алгоритма нечеткой кластеризации исследуемых данных и методика ее построения/ Пылькин А.Н., Майков К.А., Крошилин А.В., Белицкий А.М.// Вестник Рязанского государственного радиотехнического университета, 2016. № 58. С.57-63.
Support of decision-making in the conditions of uncertainty of different types/Doan Ha.D., Pylkin A.N., Kroshilin A.V., Kroshili
Деревья решений
Дерево решений – представляет собой иерархическую структуру правил, которая состоит из «узлов», соединенных с помощью ребер. Начальный узел называется «корнем» и не имеет входного ребра. Атрибут корневого узла определяется из того, на сколько хорошо он в одиночку может разделять на классы имеющийся набор данных. Узел с исходящим ребром называется «внутренним узлом», где для атрибута в соответствии с его значением создается ребро. Процесс выполняется рекурсивно по каждому атрибуту. Все остальные узлы, которые имеют только по одному входящему ребру, называются «листьями» и являются конечным узлом дерева, содержащим целевую переменную определяющую класс объекта [16]. Однако нерелевантные параметры набора данных могут негативно сказаться на построенном дереве решений. В свою очередь, немного измененные или дополненные данные могут привести к весьма серьезному