Локальный поиск для задачи о k-медианах и задачи о размещении объектов: различия между версиями

Локальный поиск для задачи о k-медианах и задачи о размещении объектов (посмотреть исходный код)

Версия от 10:17, 27 апреля 2018

24 байта добавлено , 27 апреля 2018

м

→‎Постановка задачи

Irina

4430

правок

@@ Строка 5: / Строка 5: @@
 Кластеризация представляет собой разновидность ''обучения без учителя'', при котором задача заключается в «обучении» полезным образцам на наборе данных <math>\mathcal{D} \;</math> размера n. Ее можно также рассматривать как схему сжатия данных, в которой большой набор данных представляется при помощи меньшего набора «представителей». Подобная схема характеризуется путем задания следующих параметров:
-. Метрика ''расстояния'' '''d''' между элементами набора данных. Эта метрика должна удовлетворять неравенству треугольника: '''d'''(i, j) <math>\le</math> '''d'''(j, k) + '''d'''(k, i) для любых трех элементов <math>i, j, k \in \mathcal{D} \;</math>. Кроме того, '''d'''(i, j) = '''d'''(j, i) для всех <math>i, j \in S \;</math>, '''d'''(i, i) = 0. Интуитивно понятно, что если расстояние между двумя элементами меньше, то они больше похожи друг на друга. Элементами обычно являются точки в некотором евклидовом пространстве Rd высокой размерности. В качестве метрик расстояния чаще всего применяются евклидова метрика и расстояние Хэмминга, а также косинусная метрика, измеряющая угол между векторами, представляющими элементы.
+. Метрика ''расстояния'' '''d''' между элементами набора данных. Эта метрика должна удовлетворять неравенству треугольника: '''d'''(i, j) <math>\le</math> '''d'''(j, k) + '''d'''(k, i) для любых трех элементов <math>i, j, k \in \mathcal{D} \;</math>. Кроме того, '''d'''(i, j) = '''d'''(j, i) для всех <math>i, j \in S \;</math>, '''d'''(i, i) = 0. Интуитивно понятно, что если расстояние между двумя элементами меньше, то они больше похожи друг на друга. Элементами обычно являются точки в некотором евклидовом пространстве <math>\mathcal{R}^d</math> высокой размерности. В качестве метрик расстояния чаще всего применяются евклидова метрика и расстояние Хэмминга, а также косинусная метрика, измеряющая угол между векторами, представляющими элементы.
 . Результатом (выходными данными) процесса кластеризации является разбиение данных. В данной главе рассматривается кластеризация ''на основе центров''. В ней результатом является множество меньшего размера <math>C \subset \mathcal{R}^d</math>, состоящее из центров, которые наилучшим образом представляют входное множество данных <math>S \subset \mathcal{R}^d</math>. Как правило, имеет место соотношение <math>|C| \ll |\mathcal{D}|</math>. Каждый элемент <math>j \in \mathcal{D}</math> ''отображается'' на ближайший центр или ''аппроксимируется'' ближайшим центром <math>i \in C \;</math>, из чего следует '''d'''(i, j) <math>\le</math> '''d'''(i', j) для всех <math>i' \in C \;</math>. Обозначим за <math>\sigma: \mathcal{D} \to C</math> это отображение. Оно является интуитивно понятным, поскольку более близкие (схожие) элементы будут отображаться на один и тот же центр.

Аноним

Поиск

Локальный поиск для задачи о k-медианах и задачи о размещении объектов: различия между версиями

Пространства имён

Ещё

Действия на странице

Локальный поиск для задачи о k-медианах и задачи о размещении объектов (посмотреть исходный код)

Версия от 10:17, 27 апреля 2018

Навигация

Навигация

Вики-инструменты

Вики-инструменты

Аноним

Поиск

Локальный поиск для задачи о k-медианах и задачи о размещении объектов: различия между версиями

Локальный поиск для задачи о k-медианах и задачи о размещении объектов (посмотреть исходный код)

Версия от 10:17, 27 апреля 2018

Навигация

Вики-инструменты

Инструменты для страниц