Метод ближайших соседей
ВВЕДЕНИЕ
В наше время очень актуальна тема машинного обучения. Для правильного обучения модели нужно провести большое количество операций.Одна из операций – решение задач классификации объектов. Существует множество алгоритмов для классификации, и у каждого есть свои преимущества и недостатки. Одним из наиболее популярных алгоритмов является метод ближайших соседей.Таким образом, целью работы является разбор этого метода, задач, для которых он подходит больше всего, и рассмотрение его достоинств и недостатков.
Оглавление
ВВЕДЕНИЕ
ПОНЯТИЕ МЕТОДА БЛИЖАЙШИХ СОСЕДЕЙ И ЕГО ЗАДАЧИ
1. МЕТОДЫ БЛИЖАЙШИХ СОСЕДЕЙ – ОСНОВНЫЕ ПОНЯТИЯ
2. ЗАДАЧИ МЕТОДА БЛИЖАЙШИХ СОСЕДЕЙ
МЕТОД БЛИЖАЙШИХ СОСЕДЕЙ
1. ПРЕИМУЩЕСТВА И НЕДОСТАТКИ
2. ПРОБЛЕМЫ
3. НОРМАЛИЗАЦИЯ
4. МЕТРИКИ РАССТОЯНИЯ
ЗАКЛЮЧЕНИЕ
ЛИТЕРАТУРА
1. Метрический классификатор и метод ближайших соседей — Викиконспекты // https://neerc.ifmo.ru/wiki/index.php?title=Метрический_классификатор_и_метод_ближайших_соседей
2. Метод ближайших соседей // http://www.machinelearning.ru/wiki/index.php?title=Метод_ближайшего_соседа
3. Задача поиска ближайшего соседа — Википедия // https://ru.wikipedia.org/wiki/Задача_поиска_ближайшего_соседа
4. Метод k-ближайших соседей — Википедия // https://ru.wikipedia.org/wiki/Метод_k-ближайших_соседей
5. Выборка // http://www.machinelearning.ru/wiki/index.php?title=Обучающая_выборка
6. Метод k-ближайших соседей (K-nearest neighbor) · Loginom Wiki // https://wiki.loginom.ru/articles/k-nearest-neighbor.html
7. Метод k-ближайших соседей (k-nearest neighbour) // https://proglib.io/p/metod-k-blizhayshih-sosedey-k-nearest-neighbour-2021-07-19
8. Нормализация данных (Data normalization) · Loginom Wiki // https://wiki.loginom.ru/articles/data-normalization.html
9. Нормализация (Normalization) // https://www.helenkapatsa.ru/normalizatsiia
10. Z-оценка — Википедия // https://ru.wikipedia.org/wiki/Z-оценка
При использовании данного метода нужно всегда быть готовым к возникновению ряда проблем. Вот некоторые из них:• Проблема выбора числа соседей k: при k = 1 алгоритм «ближайшего соседа» неустойчив к шумовым выбросам: он дает неверные классификации не только самим объектам-выбросам, но и ближайшим элементам других классов. При k = m (где m — количество объектов в выборке) алгоритм чрезвычайно устойчив и вырождается в константу. Поэтому крайние значения k не приветствуются.Способы решения проблемы: значение k определяют по критерию скользящего контроля, методом исключения объектов по одному.• Проблема отсева шума (проблема шумовых выбросов): как правило, предметы изучения не равнозначны. Среди них могут быть типичные представители классов - эталонов. Если предмет, подлежащий классификации, подобен эталону, он, вероятно, принадлежит к тому же классу. Другая категория объектов не является информационной или периферийной. Они хорошо окружены другими элементами того же класса. Если их убрать из выборки, то это практически не повлияет на качество классификации. Наконец, в выборку можно включить шумовые выбросы — объекты, находящиеся «в чаще» другого класса, чем их собственный.• Способы решения проблемы: зачастую, их удаление только улучшает качество выборки. Удаление шумовых элементов из выборки имеет ряд преимуществ: снижение качества фильтрации, уменьшение объема хранимой информации, сокращение времен, затрачиваемого на поиск ближайших эталонов.

