Поиск и прогнозирование аномалий при обработке потоковых данных в реальном времени на цифровых банковских платформах
Введение
Аннотация: Целью настоящей работы является решение задач обнаружения аномалий и прогнозирования временных рядов в реальном времени. На данный момент для решения приведенных задач преимущественно используются модели, обучаемые на подготовленной тренировочной выборке, которая была получена из общего объема данных. Такой подход влечет за собой потенциальные проблемы, связанные с изменением статистических характеристик поступающих данных. В представленном исследовании рассматриваются подходы, позволяющие решить проблему дообучения моделей на потоковых данных в реальном времени.
СПИСОК ЛИТЕРАТУРЫ
[1] Brockwell P.J., Davis R.A. Introduction to time series and forecasting. New York, Springer, 2016. DOI: https://doi.org/10.1007/978-1-4757-2526-1
[2] Aldweesh A., Derhab A., Emam A. Deep learning approaches for anomaly-based intrusion detection systems: a survey, taxonomy, and open issues. Knowledge-Based Systems, 2019, vol. 189, art. no. 105124. DOI: https://doi.org/10.1016/j.knosys.2019.105124
[3] Cinar Y., Mirisaee H., Goswami P., Gaussier E., Ait-Bachir A., Strijov V. Time series forecasting using RNNs: anextended attention mechanism to model periods and handle missing values. ArXiv, 2017, arXiv:1703.10089v1 [cs.LG]. DOI: https://doi.org/10.48550/arXiv.1703.10089
[4] Sarvani A., Venugopal B., Devarakonda N. Anomaly Detection Using K-means Approach and Outliers Detection Technique. Proceedings of Soft Computing: Theories and Applications. Advances in Intelligent Systems and Computing. Singapore, Springer, 2017, vol. 742. DOI: https://doi.org/10.1007/978-981-13-0589-4_35
[5] Lemaire, V., Ismaili, O.A., Cornuéjols, A., Gay, D. Predictive K-means with local models. Trends and Applications in Knowledge Discovery and Data Mining. PAKDD 2020. Lecture Notes in Computer Science. Singapore, Springer, Cham, 2020, vol. 12237, pp. 91–103. DOI: https://doi.org/10.1007/978-3-030-60470-7_10
[6] Tsigkritis T., Groumas G., Schneider M. On the Use of k-NN in anomaly detection. Journal of Information Security, 2018, vol. 9, pp. 70–84. DOI: https://doi.org/10.4236/jis.2018.91006
[7] Unified engine for large-scale data analytics. Apache Spark. URL: https://spark.apache.org/ (дата обращения 01.10.2021)
[8] Apache Hadoop. URL: https://hadoop.apache.org/ (дата обращения 01.10.2021)
[9] Shumway R.H., Stoffer D.S. Time Series Analysis and Its Applications: With R Examples. 3rd ed. Springer, 2011, 596 p.
[10] Fawcett T. An introduction to ROC analysis. Pattern Recogn Letters, 2006, vol. 27, iss. 8, pp. 861–74. DOI: https://doi.org/10.1016
В наши дни, крупные IT-компании работают с десятками или даже сотнями сервисов, функционирующих одновременно.Для поддержки корректной работы приложений необходимо отслеживать его состояние. Логи, собираемые с запущенных сервисов, являются отличным источником информации, которая может помочь в решении задачи контроля работоспособности приложения. Данная информация представляет собой наборы метрик, являющиеся временными рядами (time series) значений. По значениям метрик логов с помощью методов Machine learning можно отслеживать различные сбои работы сервисов, попытки вмешательства в работу приложения, акты мошенничества, классифицировать аномалии поведения сервисов и прогнозировать значения метрик логов на ближайший отрезок времени. Эти знания помогают в управлении рисками и при принятии решений на крупных цифровых платформах, где вручную отследить такие процессы является невозможным.