Автоматическое определение тональности и тематики для данных из социальной сети
Введение
Анализ тональности представляет собой обработку текста с целью определения эмоциональной окраски высказываний по некоторой шкале, например, на положительные, отрицательные и нейтральные.Еще до появления интернета общественное мнение имело большое влияние, сейчас современные социальные сети – это мощный инструмент воздействия на мнение и поведение пользователей. С помощью анализа тональности компании могут получить ценную информацию о том, как их продукты или услуги воспринимаются на рынке, а также какую реакцию вызывает их маркетинговая кампания. Это позволяет улучшить качество продуктов или услуг, увеличить продажи, создать позитивный имидж компании и найти нужный подход к обслуживанию клиента.Следует учитывать, что в социальных сетях пользователи показывают только то, что они хотят, чтобы видело их окружение. Тем не менее, можно провести общее исследование настроения городских жителей, проанализировав их социальные сети. На основе информации, размещенной в социальных сетях, можно выявить несколько факторов, влияющих на настроение людей в городе, основываясь на информации, которую они публикуют в социальных сетях. Некоторые из этих факторов включают погодные условия и события в стране или городе.
Введение. 4
1 Анализ тональности текстов в социальных медиа. 6
1.1 Описание предметной области. 6
1.2 Подходы в анализе тональности. 7
1.3 Проблемы анализа тональности. 8
1.4 Составление набора данных и предобработка. 9
1.5 Предобработка и анализ данных для обучения. 12
1.6 Вывод по главе. 13
2. Программная реализация моделей. 14
2.1 Выбор модели для анализа тональности. 14
2.2 Подбор гиперпараметров для модели анализа тональности. 15
2.3 Оценка качества модели анализа тональности. 16
2.4 Тестирование полученной модели. 17
2.5 Выбор модели для тематического моделирования. 19
2.6 Подбор гиперпараметров и оценка для тематического моделирования. 20
2.7 Экспериментальное исследование для групп. 24
2.8 Экспериментальное исследование для групп города Киров. 26
2.8.1 Экспериментальное исследование тональности для групп города Киров. 26
2.8.2 Тематическое моделирование для групп города Киров. 32
2.9 Экспериментальное исследование для ВятГУ.. 33
2.9.1 Экспериментальное исследование тональности для группы «Подслушано ВятГУ» 34
2.9.2 Экспериментальное исследование тем для группы «Подслушано ВятГУ» 39
2.10 Примеры определения тональности. 40
2.11 Примеры определения темы.. 43
2.12 Выводы по главе. 45
Заключение. 47
Библиографический список. 48
Приложения
Список литературы
1. Asif M., Ishtiaq A., Ahmad H., Aljuaid H., Shah J. Sentiment analysis of extremism in social media from textual information // Telematics and Informatics. 2020. Vol. 48. 101345.
2. Bing Liu, Minqing Hu и Junsheng Cheng в журнале AAAI Technical Report WS-02-08. Источник: https://www.aaai.org/Papers/Workshops/2002/WS-02-08/WS02-08-001.pdf
3. Blei D.M., Ng A.Y., Jordan M.I., “Latent dirichlet allocation”, Journal of machine Learning research, 3: Jan (2003), 993–1022.
4. Chen L.C., Lee C.M., Chen M.Y. Exploration of social media for sentiment analysis using deep learning // Soft Computing. 2021. Vol. 24. P. 8187–8197.
5. Dirk Hovy, Marc-André Kaufmann, Malvina Nissim. Exploring the Space of Topic Coherence Measures. https://arxiv.org/abs/1912.04985
6. Jelodar, H., Wang, Y., Yuan, C. et al. Latent Dirichlet allocation (LDA) and topic modeling: models, applications, a survey. Multimed Tools Appl 78, 15169–15211 (2019). https://doi.org/10.1007/s11042-018-6894-4
7. Kelleher, J. D., Tierney, B., & Loschiavo, C. (2018). "Data Science An Introduction". Chapter 6.6 Confusion Matrices.
8. Kotelnikov, Evgeny. (2021). Current Landscape of the Russian Sentiment Corpora.
9. Koyama S., Ueha R., Kondo K. Loss of smell and taste in patients with suspected COVID-19: analyses of patients’ reports on social media //Journal of Medical Internet Research. – 2021. – Т. 23. – №. 4. – С. e26459.
10. LinisCrowd – Режим доступа: https://linis-crowd.org/ Дата обращения: 23.12.2022.
11. Liu, B. (2012). Sentiment analysis and opinion mining. Synthesis lectures on human language technologies, 5(1), 1-167.
12. Mathew, L., Bindu, V. (2022). Efficient Classification Techniques in Sentiment Analysis Using Transformers. In: Khanna, A., Gupta, D., Bhattacharyya, S., Hassanien, A.E., Anand, S., Jaiswal, A. (eds) International Conference on Innovative Computing and Communications. Advances in Intelligent Systems and Computing, vol 1387. Springer, Singapore. https://doi.org/10.1007/978-981-16-2594-7_69
Первые попытки разработки методов анализа тональности текста были предприняты еще в 1960-x годах. Однако первой работой была статья по этой теме, которая опубликована в 2002 году [2].Л. Немеш и А. Кисс [15] в своей работе классифицировали высказывания на четыре группы (слабо позитивные/негативные, сильно позитивные/негативные) с помощью рекуррентной нейросети. Данные были взяты из социального медиа Twitterс. Большинство сообщений было отнесено к негативным тональностям, т.к. статья сосредоточена на актуальной теме коронавируса.Немаловажным является определение тональности для многоязычных текстов. Именно на этом М. Асиф и др. сфокусировали внимание. В работе была выявлена интенсивность экстремистских настроений. В отличие от первой статьи они использовали мультиномиальный наивный байесовский классификатор и метод опорных векторов. С помощью такого подхода была получена точность 82% [1].Большой проблемой является наличие словаря настроений для классификации. Это стало целью исследования Л. Ченома и др. [4]. Ими был разработан словарь на основе социальной сети, с помощью построения структуры анализа настроений для социальных сетей.
Тема анализа тональности всегда привлекала внимание. В зависимости от цели и задач, специалистами (лингвистами, компьютерными ученым, маркетологами и др.) проведены исследования, относящиеся к анализу настроений высказываний из социальных сетей. Некоторые из них описаны ниже.