Flatik.ru

Перейти на главную страницу

Поиск по ключевым словам:

страница 1

ЛЕКЦИЯ №23

КЛАСТЕРНЫЙ АНАЛИЗ


Если процедура факторного анализа сжимает в малое число количественных переменных данные, описанные количественными переменными, то кластерный анализ сжимает данные в классификацию объектов. Синонимами термина "кластерный анализ" являются "автоматическая классификация объектов без учителя" и "таксономия".

Кластер - это множество объектов, близких между собой по некоторой мере сходства.

Задача классификации – отнесение объекта к определенной группе.

Если данные понимать как точки в признаковом (многомерном) пространстве, то задача кластерного анализа формулируется как выделение "сгущений точек", разбиение совокупности на однородные подмножества объектов. В пространстве переменных кластеры представляют собой скопления точек (объектов) различной формы, рис.1.



сегментирование рынка - теория, практика, программное обеспечение, софт, software. примеры практического сегментирования рынка. учебно-методические материалы лекторам, студентам - маркетологам по сегментированию рынка. методики, рефераты, курсовые, дипломы по теме сегментирования и сегментации рынка. помощь и партнерство с маркетинговыми агентствами по проблемам сегментирования рынка. 

Рис. 1. Наиболее широко распространенные формы скоплений

При проведении кластерного анализа обычно определяют расстояние на множестве объектов; алгоритмы кластерного анализа формулируют в терминах этих расстояний.

Кластеризация - это процесс разбиения множества объектов на кластеры (группы объектов, близких по мере сходства). Методы кластеризации делятся на две группы: классификация с обучением и классификация без обучения.

Классификация с обучением означает, что категории установлены до отнесения объектов к классам.

В классификации без обучения: классификационная схема имеет целью определение естественных популяций на основе параметрических или непараметрических критериев. Примерами классификации без обучения являются: иерархическая классификация и метод ISODATA рис.2.



сегментирование рынка - теория, практика, программное обеспечение, софт, software. примеры практического сегментирования рынка. учебно-методические материалы лекторам, студентам - маркетологам по сегментированию рынка. методики, рефераты, курсовые, дипломы по теме сегментирования и сегментации рынка. помощь и партнерство с маркетинговыми агентствами по проблемам сегментирования рынка. 

сегментирование рынка - теория, практика, программное обеспечение, софт, software. примеры практического сегментирования рынка. учебно-методические материалы лекторам, студентам - маркетологам по сегментированию рынка. методики, рефераты, курсовые, дипломы по теме сегментирования и сегментации рынка. помощь и партнерство с маркетинговыми агентствами по проблемам сегментирования рынка. 

а) Объекты до кластеризации

б) Объекты после кластеризации

Рис. 2. Кластеризация объектов

На рис.2а изображено скопление "белых", неклассифицированных точек. Кластеризованные данные (см. рис.2б) окрашены в разные цвета, причем каждый кластер образуют облако точек одного цвета.

Для изучения полученного разбиения объектов на однородные группы применяют математические характеристики кластеров рис. 3.

сегментирование рынка - теория, практика, программное обеспечение, софт, software. примеры практического сегментирования рынка. учебно-методические материалы лекторам, студентам - маркетологам по сегментированию рынка. методики, рефераты, курсовые, дипломы по теме сегментирования и сегментации рынка. помощь и партнерство с маркетинговыми агентствами по проблемам сегментирования рынка. 

Рис. 3. Графическая иллюстрация основных характеристик кластера



Центр кластера – это среднее геометрическое место точек в пространстве переменных.

Дисперсия кластера – это мера рассеяния точек в пространстве относительно центра кластера.

Радиус кластера – максимальное расстояние точек от центра кластера.

Методы иерархической классификации


Численная классификация или численная таксономия не занимается распределением объектов по известным классам, а устанавливает классификацию либо не существующую ранее, либо если это желательно, игнорирующую предшествующие работы и пересматривающую данные заново.

Ее цель – почти всегда состоит в упрощении матрицы данных, слишком обширной для непосредственного анализа человеком. Не существует, однако, единственно "правильной" классификации, какого либо набора данных. Различные численные стратегии, как правило, приводят к совершенно разным результатам. Следовательно, необходима помощь специалиста – выбрать тип стратегии.

Итак, исходная информация может быть представлена в форме матрицы "объект - свойство":

Здесь значение -го признака на -м статистически обследованном объекте. Таким образом, -й столбец этой матрицы характеризует объект , т.е. представляет результат его статистического обследования по всем анализируемым параметрам (переменным).

Исходная информация, также, может быть задана в форме матрицы попарно взаимных расстояний (близостей) объектов:

Здесь характеризует взаимную отдаленность или близость объектов и . В общем случае понятие однородности объектов правилом вычисления характеризующей либо расстояние , либо степень близости (сходства ) тех же объектов.

Следует помнить: . Требование максимального сходства объекта с самим собой , и монотонное требование: из .

Расстояние между классами и мера близости классов


При кластеризации целесообразно ввести понятие расстояния между целыми группами объектов, так же, как и меру близости двух групп объектов. Введем обозначения:

-й кластер.

число объектов образующих кластер.

среднее арифметическое векторных наблюдений, т.е. центр тяжести -го кластера.

расстояние между кластерами и .

Рассмотрим наиболее употребительные и наиболее общие расстояния и меры близости между классами объектов.

Расстояние, измеряемое по принципу "ближнего соседа" (Nearest neighbor):

Расстояние, измеряемое по принципу "дальнего соседа" (Furthest neighbor):



Расстояние, измеряемое по принципу "дальнего соседа" (Furthest neighbor):

Расстояние, измеряемое по "центрам тяжести групп" (Centroid clustering):



Примеры расстояний

Обычное евклидово расстояние:



"Взвешенное" евклидово расстояние:



Определение весов , как правило, связано с дополнительными исследованиями.



Стандартизация.

Непосредственное использование переменных в анализе может привести к тому, что классификацию будут определять переменные, имеющие наибольший разброс значений. Поэтому применяются различные виды стандартизации, одним из которых являются Z-шкалы (Z-Scores). Из значений переменных вычитается их среднее значение, и эти значения делятся на стандартное отклонение. Данная стандартизация приводит все переменные к единому диапазону значений от -3 до +3.



Общий вид метрики махаланобисского типа.

В общем случае зависимых компонент вектора наблюдений и их различной значимости в решении задачи классификации пользуются обобщенным ("взвешенным") расстоянием махаланобисского типа:



Здесь ковариационная матрица генеральной совокупности, из которой извлекаются наблюдения ;



некоторая симметричная неотрицательно определенная матрица "весовых" коэффициентов , которая чаще всего выбирается диагональной.

Хеммингово расстояние.

Это расстояние используется как мера различия объектов, задаваемых дихотомическими признаками:



Следовательно, это расстояние равно числу несовпадений значений соответствующих признаков в рассматриваемых –м и –м объектах.



Стратегия объединения (агломеративные системы)

  • Для всех систем вычисляются все мер различия и пара индивидов с наименьшей мерой объединяется в одну группу.

  • Далее необходимо определить подходящую меру различия между этой группой и остальными индивидами.

Стратегия объединения определяется именно мерой различия между группами.

Рассмотрим комбинаторные решения

Пусть первоначально задана матрица различий (расстояний). Имеются две группы и с и элементами соответственно. Мера различия между этими группами обозначается и пусть это минимальная мера из всех оставшихся. Обозначим новую группу через элементов. Рассмотрим теперь некоторую группу из оставшихся. В группе элементов. Перед объединением известны следующие значения: . Положим:





Параметры и определяют сущность стратегии.

Лекция №23 кластерный анализ

Синонимами термина "кластерный анализ" являются "автоматическая классификация объектов без учителя" и "таксономия"

69.07kb.

12 10 2014
1 стр.


Кластерный анализ российских регионов с точки зрения их инвестиционной привлекательности
140.3kb.

29 09 2014
1 стр.


Лекция №21 двухфакторный анализ

Конечно, не всегда удается поправить дело введением одного "мешающего" фактора и переходом к двухфакторным схемам. Иногда приходится рассматривать и трех–, и многофакторные модели

62.25kb.

14 12 2014
1 стр.


Swot-анализ. Что такое swot-анализ? Как его использовать? swot-анализ

В первом случае анализ выходит достаточно общим и содержащим не так много полезной информации, а во втором дает менеджеру серьезную пищу для размышлений

23.37kb.

09 10 2014
1 стр.


Содержание учебной дисциплины

Аналитическая химия (аналитика) и химический анализ. Основные понятия аналитической химии (аналитики): метод анализа вещества, методика анализа, качественный химический анализ, кол

186.99kb.

15 12 2014
1 стр.


Лекция профессиональная сегрегация по признаку пола

Таким образом, анализ гендерных аспектов профессиональной сегрегации важен как с точки зрения социальной справедливости, так и со стороны повышения эффективности использования труд

487.2kb.

09 10 2014
6 стр.


Лекция Становление экономической цивилизации. Стр. 6 Введение в историю экономики Ст

Лекция Первые производства: восточный и античный механизмы Хозяйствования. Ст

23.57kb.

14 12 2014
1 стр.


Лекция 11 анализ спектральной плотности мощности

Спектральная плотность мощности позволяет судить о частотных свойствах случайного процесса. Она характеризует его интенсивность при различных частотах или, иначе, среднюю мощность,

124.28kb.

11 10 2014
1 стр.