Small fixes in knn chapter

fuodorov · fuodorov · commit 6bf83242d110 · 2026-02-11T10:53:53.000+07:00
diff --git a/src/metric-algo.md b/src/metric-algo.md
@@ -1,119 +1,105 @@
-# Метрические методы
+# Метод k-ближайших соседей (KNN)
 
-## Основная идея
+## Постановка задачи
 
-Метрические методы основаны на **гипотезе компактности**: объекты одного класса находятся близко, объекты разных классов — далеко.
+Рассмотрим задачу классификации животных по двум признакам:
+- Длина усов
+- Длина хвоста
 
----
+Для каждого объекта в обучающей выборке известна метка: *кот* или *пёс*. Цель — построить модель, которая по новым измерениям определит класс животного.
 
-## Ближайший центроид (Nearest Centroid)
+При визуализации данных наблюдается, что объекты одного класса группируются в определённых областях пространства признаков.
 
-**Алгоритм**:  
-Для каждого класса вычисляется центроид (среднее значение признаков).  
-Новый объект относится к классу, чей центроид ближе.
+## Гипотеза о компактности
 
-**Плюсы**:
-- Простота реализации.
-- Мало параметров.
-- Быстрая классификация.
+Основа метода KNN — **гипотеза о компактности**:
 
-**Минусы**:
-- Чувствителен к выбросам.
-- Подходит только для “колоколообразных” распределений.
+> Объекты одного класса расположены «близко» друг к другу в пространстве признаков, а объекты разных классов — «далеко».
 
----
+Эта гипотеза позволяет решать задачу классификации через поиск похожих (близких) объектов в обучающей выборке.
 
-## Метод k ближайших соседей (kNN)
+## Алгоритм KNN
 
-**Алгоритм**:  
-1. Храним всю обучающую выборку.
-2. Для нового объекта находим \( k \) ближайших соседей.
-3. Класс — наиболее частый среди соседей.
+**Определение:**  
+K-ближайших соседей (K Nearest Neighbors, KNN) — один из самых простых и интуитивно понятных алгоритмов классификации.
 
-**Гиперпараметры**:
-- \( k \) — число соседей.
-- Метрика расстояния.
-- Весовая функция.
+**Алгоритм предсказания:**
+1. Для нового объекта вычислить расстояние до всех объектов обучающей выборки
+2. Выбрать $K$ объектов с наименьшим расстоянием
+3. Присвоить объекту класс, который чаще всего встречается среди $K$ соседей (голосование большинства)
 
-**Особенности**:
-- **Ленивое обучение**: модель не обучается заранее, все вычисления происходят при классификации.
-- Требует хранения всей выборки.
-- Медленный на больших данных.
+**Гиперпараметр:**  
+$K$ — количество соседей, участвующих в голосовании. Выбор $K$ влияет на качество модели:
+- Малое $K$: модель чувствительна к шуму и выбросам
+- Большое $K$: граница решений становится более гладкой, но может потерять локальные особенности
 
----
+## Метрики расстояния
 
-## Весовые обобщения kNN
+Для определения «близости» объектов используются различные метрики:
 
-Можно учитывать не только количество соседей, но и их расстояние до объекта:
+### Манхэттенское расстояние
+$$d(\mathbf{x}, \mathbf{\hat{x}}) = \sum_{i=1}^{N} |x_i - \hat{x}_i|$$
 
-\[
-a(x) = \arg \max \sum_{t=1}^{k} w_t \cdot I[y(x_t) = a]
-\]
+### Евклидово расстояние
+$$d(\mathbf{x}, \mathbf{\hat{x}}) = \sqrt{\sum_{i=1}^{N} (x_i - \hat{x}_i)^2}$$
 
-где \( w_t \) — вес, зависящий от расстояния.
+### Косинусное расстояние
+$$d(\mathbf{x}, \mathbf{\hat{x}}) = 1 - \frac{\sum_{i=1}^{N} x_i \hat{x}_i}{\sqrt{\sum_{i=1}^{N} x_i^2} \cdot \sqrt{\sum_{i=1}^{N} \hat{x}_i^2}}$$
 
-**Примеры весовых схем**:
-- Обратное расстояние: \( w_t = \frac{1}{\rho(x, x_t)} \)
-- Ядерные веса: \( w_t = K\left(\frac{\rho(x, x_t)}{h}\right) \)
+**Преимущество косинусного расстояния:** измеряет угол между векторами, а не абсолютную разницу значений. Полезно, когда важна ориентация вектора признаков, а не его длина.
 
----
+## Проблемы и решения
 
-## Регрессия Надарая–Ватсона
+### 1. Зависимость от масштаба признаков
 
-Обобщение kNN для регрессии:
+**Проблема:**  
+Если признаки имеют разные масштабы (например, 29 признаков ∈ [0, 1], а один ∈ [0, 1000]), то расстояние будет доминироваться признаком с большим масштабом.
 
-\[
-a(x) = \frac{\sum_{i=1}^{m} w_i(x) y_i}{\sum_{i=1}^{m} w_i(x)}
-\]
+**Решение — нормализация признаков:**
+- Минимакс-нормализация: приведение всех значений к диапазону [0, 1]
+- Стандартизация: приведение к нулевому математическому ожиданию и единичной дисперсии ($\mu = 0, \sigma = 1$)
 
-где \( w_i(x) \) — вес, зависящий от расстояния до объекта обучения.
+### 2. Вычислительная сложность
 
----
+**Проблема:**  
+При большом объёме обучающей выборки ($N$ объектов) поиск ближайших соседей требует $O(N)$ операций сравнения для каждого нового объекта.
 
-## Проблемы метрических методов
+**Решение — структуры данных для ускорения поиска:**
+- **kD-tree** (k-dimensional tree): дерево разбиения пространства, на каждом уровне разделяющее данные по одному признаку
+- **Ball tree**: иерархическая структура на основе гиперсфер
+- **HNSW** (Hierarchical Navigable Small World): графовая структура для приближённого поиска ближайших соседей
+- **FRiS-Stolp**: метод отбора эталонных объектов для сокращения размера выборки
 
-1. **Зависимость от масштаба признаков**  
-   Решение: нормировка (например, StandardScaler).
+### 3. Улучшение голосования
 
-2. **Проклятие размерности**  
-   В больших размерностях все объекты становятся “одинаково далекими”.  
-   Но на реальных данных есть **низкоразмерная структура**.
+Вместо простого подсчёта количества соседей каждого класса можно использовать **взвешенное голосование**, где вес соседа обратно пропорционален расстоянию до него:
 
-3. **Медленная классификация**  
-   Решение: эффективные структуры данных (KD-tree, Ball tree, HNSW).
+$$\text{вес}_i = \frac{1}{d(\mathbf{x}, \mathbf{x}_i)} \quad \text{или} \quad \text{вес}_i = e^{-d(\mathbf{x}, \mathbf{x}_i)}$$
 
----
+## Свойства модели KNN
 
-## Метрики расстояния
+| Аспект | Описание |
+|--------|----------|
+| **Обучение** | Отсутствует в классическом смысле. Модель «запоминает» всю обучающую выборку |
+| **Предсказание** | Вычислительно затратно: требуется рассчитать расстояния до всех объектов выборки |
+| **Параметры** | Отсутствуют (модель не имеет обучаемых параметров) |
+| **Гиперпараметры** | $K$ (количество соседей), тип метрики расстояния, стратегия взвешивания |
+| **Интерпретируемость** | Высокая: решение принимается на основе конкретных похожих объектов |
 
-- **Евклидова**: \( \sqrt{\sum (x_i - z_i)^2} \)
-- **Манхэттенская**: \( \sum |x_i - z_i| \)
-- **Минковского**: \( \left( \sum |x_i - z_i|^p \right)^{1/p} \)
-- **Махаланобиса**: учитывает ковариацию признаков.
-- **Косинусная мера**: для текстов и векторов.
-- **Джаккарда**: для множеств.
-- **DTW (Dynamic Time Warping)**: для временных рядов.
-- **Левенштейна**: для строк.
+## Метод FRiS-Stolp для отбора эталонов
 
----
+Для сокращения вычислительной сложности можно отобрать подмножество наиболее информативных объектов — **эталонов** (столпов).
 
-## Пример: kNN на Python (scikit-learn)
+**Критерий качества эталона:**  
+Объект является хорошим эталоном своего класса, если:
+- Объекты его класса расположены максимально близко к нему
+- Объекты других классов расположены максимально далеко
 
-```python
-from sklearn.neighbors import KNeighborsClassifier
+**Функция FRiS:**
+$$\text{FRiS}(z, a_i, b_i) = \frac{r_2 - r_1}{r_2 + r_1}$$
 
-model = KNeighborsClassifier(n_neighbors=5, metric='euclidean')
-model.fit(X_train, y_train)
-predictions = model.predict(X_test)
-```
+где $r_1$ — расстояние до ближайшего объекта своего класса, $r_2$ — до ближайшего объекта чужого класса.
 
 ---
 
-## Итог
-
-Метрические методы — простые, интерпретируемые и мощные инструменты, особенно когда:
-- Нет явных признаковых описаний.
-- Данные имеют геометрическую структуру.
-- Нужна быстрая прототипизация.
-
-**Главный недостаток** — вычислительная сложность на больших данных, но это решается выбором эффективных метрик и структур данных.
+> В следующих главах: метрики качества моделей машинного обучения, линейная регрессия.