Плюсы сценарного подхода в реализации DM проектов
Введение
Аннотация: В статье анализируется проблема проектирования аналитического компонента DM. Дается подробная характеристика процессно-ориентированного и сценарного подхода для реализации аналитического компонента DM. Представлены основные критерии для сравнения. В таблице указаны плюсы сценарного подхода. В заключение делаются выводы об эффективности сценарного подхода для внедрения DM компонентов на всех уровнях аналитических проектов.
Список литературы
Барсегян А.А., Куприянов М.С., Холод И.И., Тесс М.Д., Елизаров С.И Анализ данных и процессов 3-е изд. перераб. и доп. СПб. : БХВ-Петербург, 2009. - 512 с.
Nikhil R. Pal, Lakhmi Jain Advanced Techniques in Knowledge Discovery and Data Mining. London.: Springer-Verlag Limited, 2005. - p. 254.
Паклин Н.Б., Орешков В.И Бизнес-аналитика от данных к знаниям – СПб.: Питер ISBN, 2016. – 706 с.
Data Mining Using Enterprise Miner Software: A Case Study Approach, First Edition, Cary, NC: SAS Institute Inc., 2000. - p . 128.
Так как современный объем данных постоянно продолжает расти, то это приводит к тому, что анализ становится все сложнее. Поэтому необходим постоянный поиск новых, доступных и понятных методов для анализа данных. Одним из таких методов является Data mining (интеллектуальная добыча данных). «Добыча» данных является сложной, многоуровневой задачей. Одной из главных проблем при проектировании систем интеллектуальной обработки данных является создание определенного аналитического компонента. Данный компонент должен предоставлять продуктивную работу пользователя: избавить пользователя от знания используемых при анализе математических алгоритмов и методов. Также данный компонент должен минимизировать объем «ручной» обработки данныхРассмотрим, как реализован аналитический компонент в распространённых инструментах интеллектуальной обработки данных.В приложениях SAS Enterprise Miner, Rapid Miner, WEKA используется процессно-ориентированный или поточно-ориентированный подход [4,с.45]. Например, в Rapid Miner используется процесс, а поток используется в WEKA. Процесс или поток - это последовательность операций, которую должны пройти данные в процессе их аналитической обработки.Операторы выбираются из библиотек и размещаются в рабочей области, называемой Knowledge Flow Environment (KFE) (среда потока знаний). Потоки представлены в виде направленных графов, в узлах которых размещены значки операторов.