Автоматическая классификация текстов: нейронные сети

Курсовая работа рассматривает автоматическую классификацию текстов-нейронные сети
Author image
Timur
Тип
Курсовая работа
Дата загрузки
30.07.2022
Объем файла
2865 Кб
Количество страниц
21
Уникальность
Неизвестно
Стоимость работы:
600 руб.
750 руб.
Заказать написание работы может стоить дешевле

Ведение
В данной работе будут затронуты современные методы классификации анализа текстов для применения их в коммерческих целях.
Классификация текстов входит сразу в две группы разных областей науки таких как: информационный поиск и машинное обучение. Их  сходство проглядывается в способах представления документов и их оценки. На сегодняшний день существует большое множество различных методов классификации текстов, каждый из которых имеет свои преимущества и недостатки.
Особую важность имеет скорость обработки текстов в реальном времени, потому, что некоторые тексты не могут долго находиться в потоке. Увидеть этот класс очень сложная задача, и обработка таких текстов становится почти невозможной.
Сравнение разных методов классификации довольно сложная задача, каждый из методов имеет свои вводные данные, из-за которых на выходе получаются разные результаты обработки. Поэтому необходимо тестировать различные методы классификации на одинаковых документах, для выявление наиболее правильного и быстрого результата.
В самом общем виде задачу машинного обучения можно описать так. Имеется некоторое множество, называемое традиционно множеством объектов. Каждому объекту по какой-то системе приписывается признак из множества, именуемого множеством ответов. Систему, по которой объекту приписывается ответ, называют целевой функцией. В некоторых задачах она представляет собой «черный ящик» - для каждого конкретного объекта можно сказать, какой именно ответ дает целевая функция, но сам принцип описать либо очень трудно, либо вовсе невозможно. 
Пример такого черного ящика - распознавание части речи слов. Здесь объектами будут слова, ответами - соответствующие части речи, а целевой функцией - принцип, по которому определяется часть речи для всякого слова. Хотя в большинстве случаев носитель языка без труда определит часть речи, но описать во всей полноте принцип, по которому человек делает выбор, едва ли возможно. Словаря с указанием частей речи для каждого слова недостаточно. Ведь в естественном языке нередки случаи лексической неоднозначности, так например слово «были» может быть как глаголом, так и существительным в зависимости от контекста. Значит, необходимо, как минимум, учесть синтаксический контекст. Но даже если описать все возможные правила русского языка, в языке найдутся спорные случаи. Рассмотрим предложение: «Рядовые были забыты своим командиром». С точки зрения синтаксиса части речи слов «рядовые были» однозначно определить нельзя, хотя носитель языка без труда выберет верный вариант. 
Итак, задача МО — подобрать такую функцию, которая с одной стороны наиболее близка к целевой, то есть почти всегда дает «правильные» ответы, а с другой стороны реализуема на компьютере, универсальна и не требует значительных человеческих «жертв». Например, составление всеобъемлющего частеречного словаря этим параметрам не отвечает: потребуется огромное количество человеко-часов для разметки, а полученные данные нельзя будет применять в других задачах. 
Функция, имитирующая целевую, подбирается из некоторого ограниченного множества. Выбор этой функции и подбор ее параметров и осуществляется одним из алгоритмов машинного обучения. 
Чтобы понять, насколько полученная функция близка к целевой, требуется сначала определить, что значит «близкая» функция. Это не такой очевидный вопрос. Ведь если функция, определяющая рост человека, ошиблась на 2-3 сантиметра, можно сказать, что он «почти» угадан, но если неверно определен пол человека, сказать, что он «почти» угадан, уже нельзя. За оценку близости отвечает функционал качества. Поскольку проверить на всем множестве объектов невозможно, проводят статистическую оценку на контрольной выборке.

 

Оглавление

Ведение 2

Постановка задачи классификации текстов 5

Методы классификации и машинного обучения. 7

Метрические методы классификации. 8

Метод ближайших соседей 9

Метод k ближайших соседей 9

Метод парзеновского окна 10

Срез выбросов 10

Статистические методы классификации 11

Наивный байесовский классификатор 11

Логистические методы классификации 13

Линейные методы классификации 14

Метод опорных векторов 14

Регрессионные методы 15

Линейная регрессия 15

Искусственные нейронные сети 15

Обучение нейронных сетей 16

Оценка качества классификации 17

Вывод 19

Список литературы 20

Список литературы
Дьяконов А. Г. Анализ данных, обучение по прецедентам, логистические игры, системы WEKA, RapidMiner и MatLab. М.: МАКСПресс, 210. 278c.
Мерков А. Б. Распознавание образов. Введение в методы статистического обучения. М.: URSS, 2011. 256 с.
Han J., Kamber M., Pei J. Data Mining: Concepts and Techniques, 3nd ed. Elsevier 2012. 703 c.
Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning, 2nd ed. Springer, 2009. 533 c.
James G., Written D., Hastie T., Tibshirani R. An Introduction to Statistical Learning with Applications in R. Springer, 2013. 426 c .

 

Для составления модели текстового документа используют индексацию, этот процесс упрощает текст для более удобной обработки.
Следом идет процесс удаления семантически нейтральных слов: союзов, предлогов и так далее. Одновременно с этим производится токенизация всего документа. Потом происходит разметка документа по частям речи, на выходе получаем все значимые слова текста.
Чтобы представить текстовый документ в виде векторов слов используется метод Bag of word. Он отображает каждый документ в виде векторов в координатном пространстве, где у каждого текста есть свои координаты.
Word2vec представляет слова в виде вектора, где содержится информация о контекстных словах.
Для создания модели индексации на последовательности соседних символов использую n-граммы.
Метрические методы классификации.