Контент-анализ методами машинного обучения
ВВЕДЕНИЕ
Мы живем в эпоху, где информация стала одним из самых ценных ресурсов. В современном мире цифровизация и глобализация открыли широкие возможности для обмена информацией, обучения, работы и общения. Однако, эти возможности пришли с новыми угрозами и вызовами для информационной безопасности. Среди них, одним из наиболее распространенных и зловредных методов атаки является фишинг.
Фишинг – это форма киберпреступления, при котором злоумышленники, маскируясь под доверенные источники, пытаются обмануть пользователей и заставить их раскрыть свои конфиденциальные данные [1]. Со временем тактики фишинга стали все более изощренными и сложными для обнаружения. Эта проблема усугубилась во время пандемии COVID-19, когда использование онлайн-платформ и интернет-активность в целом значительно увеличились [2].
СОДЕРЖАНИЕ
ВВЕДЕНИЕ2
1. Изучение предметной области и ее описание4
1.1. Описание предметной области4
1.2. Цели и задачи6
1.3. Машинного обучения6
1.3.1. Подразделы машинного обучения7
1.3.2. Обработка естественного языка10
2. Исследование существующих методов обнаружения фишинга14
2.1. Методы машинного обучение14
2.2. Методы NLP для определения фишингового письма.16
2.2.1. Классификация текста16
2.2.2 Обучение с учителем и без учителя18
2.2.3. Анализ семантики18
2.2.4. Синтаксический анализ19
2.2.5. Использование эмбеддингов слов21
2.2.6. Трансформеры и предобученные модели22
2.2.7. Комбинация методов23
3. Сбор и обработка данных25
4. Разработка и обучение модели27
ЗАКЛЮЧЕНИЕ29
Библиографический список30
Библиографический список
1. Phishing // Wikipedia. 2023.
2. Who is most vulnerable to cybercrime: new report reveals surprising insights [Electronic resource] // Cybernews. 2021. URL: https://cybernews.com/security/who-is-most-vulnerable-to-cybercrime-new-report-reveals-surprising-insights/ (accessed: 13.06.2023).
3. Основы Natural Language Processing для текста [Electronic resource] // Хабр. 2019. URL: https://habr.com/ru/companies/Voximplant/articles/446738/ (accessed: 13.06.2023).
4. Полное руководство по фишинговым атакам / Хабр [Electronic resource]. URL: https://habr.com/ru/companies/varonis/articles/544140/ (accessed: 13.06.2023).
5. Что такое машинное обучение? | Определение, типы и примеры | SAP Insights [Electronic resource] // SAP. URL: https://www.sap.com/cis/products/artificial-intelligence/what-is-machine-learning.html (accessed: 13.06.2023).
6. Искусственный интеллект: преимущества и сомнения [Electronic resource] // Хабр. 2021. URL: https://habr.com/ru/companies/ipmatika/articles/566690/ (accessed: 13.06.2023).
7. Машинное обучение // Википедия. 2023.
8. Гаврилов от А. Машинное обучение: что это, для чего оно нужно и как его применять [Electronic resource] // Checkroi. 2021. URL: https://checkroi.ru/blog/mashinnoe-obuchenie-chto-eto-takoe/ (accessed: 13.06.2023).
9. GeekBrains Р. сайта. Машинное обучение: типы, краткая история и принцип работы [Electronic resource] // GeekBrains. 2021. URL: https://gb.ru/blog/maschinnoe-obuchenie/ (accessed: 13.06.2023).
10. Vaswani A. et al. Attention Is All You Need: arXiv:1706.03762. arXiv, 2017.
11. Лысенко А.В. et al. Применение машинного обучения для обнаружения сетевых аномалий: 128 // Молодой ученый. Россия Казань: Издательство Молодой ученый, 2016. № 128. P. 19–21.
12. Vrbančič G., Fister Jr. I., Podgorelec V. Datasets for Phishing Websites Detection: Svelte. 2023.
13. Spam Assassin: JavaScript. stdlib, 2023.
14. Обучение и оценка модели с Keras [Electronic resource] // Хабр. 2020. URL: https://habr.com/ru/articles/485890/ (accessed: 14.06.2023).
15. ROC-кривая — Машинное Обучение — DATA SCIENCE [Electronic resource]. URL: https://datascience.eu/ru/%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5-%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5/%D0%BF%D0%BE%D0%BD%D0%B8%D0%BC%D0%B0%D0%BD%D0%B8%D0%B5-auc-roc-%D0%BA%D1%80%D0%B8%D0%B2%D0%B0%D1%8F/ (accessed: 14.05.2023).
16. Метрики классификации и регрессии [Electronic resource]. URL: http://academy.yandex.ru/handbook/ml/article/metriki-klassifikacii-i-regressii (accessed: 14.05.2023).
17. NLTK :: Natural Language Toolkit [Electronic resource]. URL: https://www.nltk.org/ (accessed: 1.04.2023).
18. Zhel D.V. Применение методов машинного обучения для решения задачи nlp классификации текста на основе анализа семантики естественного языка // Вестник Алтайской академии экономики и права. 2020. Vol. 2, № №6 2020. P. 229–235.
Вычисление и использование эмбеддингов слов требует значительных вычислительных ресурсов и времени.
Нестабильность
Эмбеддинги слов могут быть нестабильными, то есть небольшие изменения в обучающих данных могут привести к значительным изменениям в эмбеддингах слов.
Сложность интерпретации
Хотя эмбеддинги слов могут быть эффективными в обнаружении фишинга, они могут быть сложными для интерпретации, что затрудняет понимание того, почему конкретное сообщение было классифицировано как фишинговое.
Предвзятость в данных
Если обучающие данные содержат предвзятость, эмбеддинги слов могут воспроизвести и усилить эту предвзятость.
2.2.6. Трансформеры и предобученные моделиСовременные модели NLP, такие как BERT, GPT или RoBERTa, могут быть дообучены на конкретных задачах обнаружения фишинга. Они могут использоваться для анализа текста и классификации электронных писем или веб-страниц как фишинговых.