Методы исследования защищённости криминогенного текста от кибератак

Скачать магистерскую диссертацию на тему: "Методы исследования защищённости криминогенного текста от кибератак". В которой рассматривается применение словарного метода в задаче классификации текстов на естественном языке для класса «криминогенный». Вручную создан криминогенный словарь из 274 слов, который затем автоматически увеличен с помощью методов машинного обучения до 2286 семантически близких к исходным слов.
Author image
Denis
Тип
Магистерская диссертация
Дата загрузки
14.12.2025
Объем файла
930 Кб
Количество страниц
41
Уникальность
Неизвестно
Стоимость работы:
Бесплатно
Заказать написание авторской работы с гарантией

Введение

Актуальность темы исследования. В современных условиях системы противодействия кибератакам являются одними из основных средств защиты информации сетевых ресурсов информационных систем. Хотя используются такие системы уже не одно десятилетие, их разработкой занимается много высококвалифицированных специалистов, а созданию соответствующей научно-методической базы посвящено большое количество работ, однако практический опыт указывают на наличие в системах противодействия сетевым кибератакам ряда существенных недостатков. Основным из них является недостаточная точность распознавания всей номенклатуры сетевых кибератак.
В условиях стремительного развития информационных технологий, пресса играет роль средств массовой информации (mass media) в нашем обществе, которые средства массовой информации в мире и вокруг нас оказывают большое влияние на то, как общество живет и думает. Огромное и быстрорастущее количество новостных материалов делает невозможным их анализ вручную. Своевременн

Оглавление

Введение 3

1 Концептуальная  модель  обеспечения  эффективности защищённости криминогенного текста 5

1.1 Сбор данных для информационных систем 5

1.2 Разработка криминогенного словаря 12

1.3 Определение семантической близости текстов 14

1.4 Понятие и аспекты изучения явления киберпреступности 15

1.5 Классификация киберпреступлений 17

1.6 Сходство новостных текстов и исходного криминогенного словаря 19

1.6.1 Сходство новостных текстов и увеличенного криминогенного словаря 22

1.6.2. Сходство новостных текстов и увеличенного-очищенного криминогенного словаря 26

1.7 Эксперименты по оценке криминогенных классов 27

1.8 Эксперимент с тысячей текстов 31

1.8.1 Общие понятия токенизация 37

1.8.2 Общие понятия лемматизации 39

2. Развитие методологической базы противодействия кибератакам информационных систем 41

2.1 Концептуальная модель обеспечения эффективности классификации 41

2.2 Практическая задача противодействия кибератакам на сетевые ресурсы 45

2.3 Анализ процесса противодействия сетевым кибератакам 48

3 Метрики оценки качества классификации криминогенности 51

3.1 Процент криминогенности 51

3.2 Метрики оценки качества классификации 54

3.3 Теория социальной дезорганизации 57

Заключение 59

Список использованных источников 62

Список использованных источников

1. Кондратьев М. Е. Анализ методов кластеризации новостного потока //Тр. Восьмой Всерос. науч. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL’2006). —Ярославль. – 2006. – С. 108-114.

2. Полищук Ю. И. О негативном влиянии средств массовой информации на психическое здоровье //Независимый психиатрический журнал. – 2003. – Т. 1. – С. 62-65.

3. Phillips D. P. The impact of fictional television stories on US adult fatalities: New evidence on the effect of the mass media on violence //American journal of sociology. – 1982. – Т. 87. – №. 6. – С. 1340-1359.

4. Phillips D. P. The impact of mass media violence on US homicides //American Sociological Review. – 1983. – С. 560-568.

5. Padilla-Walker L. M., Coyne S. M., Collier K. M. Longitudinal relations between parental media monitoring and adolescent aggression, prosocial behavior, and externalizing problems //Journal of adolescence. – 2016. – Т. 46. – С. 86-97.

6. Часовских А. Обзор алгоритмов кластеризации данных //[Электронный ресурс]. URL: https://habrahabr.ru/post/101338. – 2010.

7. Tannam E. What are the benefits of white-box models in machine learning?

8. //[Электронный ресурс]. URL: https://www.siliconrepublic.com/enterprise/white- box-machine-learning. – 2019.

9. Guidotti R. et al. A survey of methods for explaining black box models //ACM computing surveys (CSUR). – 2018. – Т. 51. – №. 5. – С. 1-42.

10. Tengrinews. Новостной портал Tengrinews. //[Электронный ресурс]. URL: https://tengrinews.kz/. – 2020.

11. Piedeleu R. et al. Open system categorical quantum semantics in natural language processing //arXiv preprint arXiv:1502.00831. – 2015.

12. Straka M. Ufal.UDpipe //[Электронный ресурс]. URL: https://pypi.org/project/ufal.udpipe/. – 2020.

13. Straka M., Hajic J., Straková J. UDPipe: trainable pipeline for processing CoNLL-U files performing tokenization, morphological analysis, pos tagging and parsing //Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16). 

Таким образом, схожими словами со словом “Преступление” будут слова, представленные на рисунке 8, где также можно увидеть числовые значения косинусной близости.
Рисунок 8. Десять схожих по контексту слов к слову “Преступление”
Как видно на рисунке 8, представленные моделью слова действительно находятся в одном контексте со словом “Преступление”.
В результате оригинальный уголовный словарь был расширен, чтобы включить модель WORD2VEC, которая была обучена в Википедии и государственном корпусе русского языка, и получила 30 дополнительных слов для каждого слова в оригинальном словаре, после чего словарь неоднократно удалялся из word. В результате объем уголовного словаря увеличился с 274 до 3764 слов.
При повторении эксперимента из раздела 2.1 с расширенным словарем и порогом 0,0025 в класс генерации преступлений было включено 1223 текста, что значительно выше, чем 779 текстов из оригинального словаря. Как видно на р