Цифровые методы защиты информации в изображении
ВВЕДЕНИЕ
Семантический анализ – важная подзадача обработки естественного языка (Natural language processing, NLP), этап в последовательности действий алгоритма автоматического понимания текстов, заключающийся в выделении семантических отношений, формировании семантического представления текстов[]. В общем случае семантическое представление является графом, семантической сетью, отражающей бинарные отношения между двумя узлами - смысловыми единицами текста.[] Семантический анализ применяется, например, для создания чат-ботов, поисковых систем и в задачах анализа тональности текста.[] В ходе семантического анализа с помощью векторного представления слов также может осуществляться поиск смысловых опций как между отдельными предложениями, так и между текстами. Крупные компании во всем мире создают собственные сервисы анализа текста, развивают собственные экосистемы.[] Целью данного проекта является создание, разработка и внедрение подсистемы синтаксического преобразования текста для последующего использования в программах семантического количественного анализа.
Для достижения поставленной цели были поставлены следующие задачи: анализ предметной области; анализ уже разработанных систем; формирование требований к разрабатываемым подсистемам; программная реализация Программного модуля; ИСПЫТАНИЕ разработанного Программного модуля. Объектом исследования является процесс обработки данных на естественном языке.
СОДЕРЖАНИЕ 4
ВВЕДЕНИЕ 6
1. АНАЛИЗ ТРЕБОВАНИЙ 7
1.1. Обзор предметной области 7
1.1.1. Обработка естественного языка 7
1.1.2. Семантический анализ 7
1.2. Обзор программ-аналогов 8
1.1.1. Морфологический анализатор pymorphy2 10
1.1.2. udpipe 13
1.1.3. Вывод по аналогам 15
1.3. Функциональные требования 16
1.4. Функциональная модель разрабатываемой системы 17
1.5. Выводы 18
2. Экономический анализ 20
3. РАЗРАБОТКА ПРОГРАММНОГО ПРОДУКТА 21
3.1. Архитектура программного обеспечения 21
3.2. Выбор среды разработки 22
3.3. Параграф «модель данных» 23
3.4. Низкоуровневое проектирование 26
3.5. Руководства пользователя 26
4. ЭКСПЕРИМЕНТАЛЬНАЯ ЧАСТЬ 27
4.1. План испытаний 27
4.2. Проверка функциональных требований 27
5. ОРГАНИЗАЦИОННАЯ ЧАСТЬ 28
ЗАКЛЮЧЕНИЕ 30
Список литературы не найден
Метод токенизация ‒ процесс сегментации текста на слова или предложения. Электронный текст представляет собой линейную последовательность символов (символов, слов или фраз). Естественно, прежде чем приступить к реальной обработке текста, текст должен быть разделен на лингвистические единицы, такие как слова, знаки препинания, числа, цифры и т. д. Этот процесс называется токенизация. В английском языке слова часто отделены друг от друга пробелами (пробелами), но не все пробелы равны. Токенизация ‒ это своего рода предварительная обработка; идентификация базовых единиц, подлежащих обработке. Без этих четко разделенных базовых единиц, невозможно провести какой-либо анализ или генерацию. Идентификация единиц, которые не нуждаются в дальнейшей декомпозиции для последующей обработки, является чрезвычайно важной. Ошибки, сделанные на этом этапе, вызовут больше ошибок на более поздних этапах обработки текста.
морфологический и синтаксический анализ
Термин морфология заимствовано от греческого языка (morphe — форма, logos —наука), дает понятие «науки как о грамматической форме». Итак, раздел морфологии исследует и изучает форму слов, словообразование и, составленную через форму слов, грамматическое значение [1]. Морфология изучает систему слов, части речи и их категории.