Этнические пейоративы на базе данных дневников «прожито»
ВВЕДЕНИЕЦель магистерской диссертации — на материале дневников корпуса «Прожито» с помощью методов автоматической обработки текста на языке программирования Python выявить этнические пейоративы, проанализировать их характер и контекст употребления. Под этническими пейоративами я буду понимать слова или словосочетания, выражающие негативную оценку человека по признаку принадлежности к этнической группе, национальному или расовому признаку.
Материалом исследования послужили дневники из базы данных Прожито. Проект основан историком Михаилом Мельниченко в 2015 году; в настоящее время он возглавляет Центр изучения эго-документов «Прожито» в Европейском университете в Санкт-Петербурге. Часть дневников находится во внутреннем пользовании и доступна только с разрешения руководителя центра.
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ 3
ГЛАВА 1. ДНЕВНИКИ В КОРПУСЕ «ПРОЖИТО»: СТАТИСТИЧЕСКИЙ АНАЛИЗ И РАБОТА С ДАННЫМИ 6
1.1. ОПИСАНИЕ КОРПУСА 6
1.2. РАБОТА С ДАННЫМИ 11
ГЛАВА 2. МОДЕРАЦИЯ СООБЩЕНИЙ И ИНТЕРНЕТ-ЦЕНЗУРА 15
ГЛАВА 3. ЭТНОНИМЫ В ДНЕВНИКАХ 19
3.1. СЛОВАРЬ ЭТНОНИМОВ 19
3.2. ВЕКТОРНОЕ ПРЕДСТАВЛЕНИЕ СЛОВ 22
3.3. АНАЛИЗ ТОНАЛЬНОСТИ С ПОМОЩЬЮ БИБЛИОТЕКИ DOSTOEVSKY. ПЕЙОРАТИВНЫЕ ЭТНОНИМЫ В ДНЕВНИКАХ 26
3.4.1. ДНЕВНИК Ф. В. ВИНБЕРГА (1868–1927) 26
3.4.2. ДНЕВНИК Л. В. ШАПОРИНОЙ (1879–1967) 29
3.4.3. «ДНЕВНИК СОВЕТСКОГО ЧЕЛОВЕКА» Н. Н. КОЗАКОВА (1932–2005) 33
3.4.4. «НЕГРЫ» В ЗАПИСЯХ 1957–1962 ГОДОВ 37
ЗАКЛЮЧЕНИЕ 40
СПИСОК ЛИТЕРАТУРЫ 45
ПРИЛОЖЕНИЕ 1. КОД ДЛЯ ЛЕММАТИЗАЦИИ ЗАПИСЕЙ ПЕРВЫМ СПОСОБОМ 49
ПРИЛОЖЕНИЕ 2. КОД ДЛЯ ЛЕММАТИЗАЦИИ ЗАПИСЕЙ ВТОРЫМ СПОСОБОМ 51
ПРИЛОЖЕНИЕ 3. ПОИСК ЭТНОНИМОВ 52
- Абашин, С. Советское = колониальное? (За и против) // Понятия о советском в Центральной Азии: Альманах Штаба № 2: Центральноазиатское художественно-теоретическое издание / Сост. и ред. Г. Мамедов, О. Шаталова. Бишкек: Штаб-Press, 2016. — С. 28–50
- Андерсон Б. Воображаемые сообщества = Imagined communities: размышления об истоках и распространении национализма. — М.: Кучково поле, 2016. — С. 18
- «Аффтар жжот»: лингвисты Вышки обсудили проблемы сетевой лексики и сетевых коммуникаций. URL: https://www.hse.ru/news/expertise/484648116.html (дата обращения 17.05.23)
- Брубейкер, Р. Этничность без групп [Текст] /пер. с англ. И. Борисовой; Нац. исслед. ун-т «Высшая школа экономики». — М.: Изд. дом Высшей школы экономики, 2012.
- Винберг, Ф. В. В плену у «обезьян». (Записки «контрреволюционера»). Киев: тип. губернского правления, 1918.
- Деколониальность: настоящее и будущее. Сборник статей / Отв. ред., сост. Е. Я. Джаббарова. М.: Горизонталь, 2022. — 154 с.
- Дневники подростков. Дополнительная статистика по корпусу. URL: http://projects.pandan.eusp.org/feelings/stat (дата обращения 04.05.2023)
- Как китайский Wechat цензурировал пандемию коронавируса. URL: https://processer.media/ru/wechat-cens/ (дата обращения: 06.05.2023)
- Кислов, А. В., Колпачкова Е. Н. Влияние Интернета на современный китайский язык [Электронный ресурс] // Компьютерная лингвистика и вычислительные онтологии. 2017. Вып. 1. С. 72–86.
- Кочеткова, Н. А., Обухов Л. А. «Большой террор»: гендерный аспект (по материалам Прикамья) // Вестн. Перм. ун-та. Сер. История. 2007. №3 (8). URL: https://cyberleninka.ru/article/n/bolshoy-terror-gendernyy-aspekt-po-materialam-prikamya (дата обращения: 06.05.2023).
- Курилла И. И. Битва за прошлое: как политика меняет историю. — М.: Альпина Паблишер, 2022
- Ленин, В. И. К вопросу о национальностях или об «автономизации» (Продолжение). Полное собрание сочинений / Ин-т марксизма-ленинизма при ЦК КПСС. - 5-е изд. — М.: Госполитиздат, 1958–1965. Т. 45: Март 1922 - март 1923. Т. 45. – 1964.
- Лескина, С. В. Категория пейоративности в русском и английском языках (на материале фразеологических единиц): дисс. … д. филол. н. Челябинск, 2010.
- Лямина, Е. Своими словами: что такое эго-документы и как они помогают изучать историю. Зачем ученые читают чужие дневники и письма // Постнаука [Электронный ресурс] URL: https://postnauka.ru/longreads/156363 (дата обращения 04.05.2023).
Махмудов Х. А. Пейоративы как качественная характеристика человека в аварском языке с позиции когнитивной семантики (в сравнении с русским) // Филологические науки. Вопросы теории и практики. 2013. № 12. Ч. 2.С. 122–126.
В результате поиска этнонимов в лемматизированном тексте сначала всего корпуса «Прожито», а затем — выборки, определился итоговый состав словаря, включающий 321 этноним и их лемматизированный вариант.
3.2. ВЕКТОРНОЕ ПРЕДСТАВЛЕНИЕ СЛОВДля поиска семантически близких слов использовался метод дистрибутивного анализа, который в настоящее время активно применяется для анализа лексической системы языка. В своей работе я пользовалась библиотекой Gensim и ее моделью word2vec позволяющей представить каждое слово в корпусе как вектор, при этом для поиска семантически близких с искомым слов не важен их порядок и очередность встречаемости в предложении. Я обучила отдельные модели для записей женщин и мужчин соответственно из датасета, очищенного библиотекой Stanza.