Калькуляторы

Кластерный анализ список литературы. Контрольная работа: Кластерный анализ

Кластерный анализ

Выполнить кластерный анализ методом к - средних для к = 2,3, используя 2 показателя из исходных данных. Выберем в меню Анализ - Классификация кластеризация k-средними. Переменные Х1 и Y помещаем в поле тестируемых переменных. Указываем количество кластеров. Через выключатель Итерации… укажем число итераций, равное 99. Для начала расчетов нажимаем ОК. В отчете представлены первичные кластерные центры, история итераций, окончательные центры кластеров, расстояние между конечными центрами, информация о принадлежности к кластерам, расстояние объектов до кластерных центров, числе наблюдений в каждом кластере и т. п.

В отчете кроме кластерной принадлежности выводится расстояние объектов до кластерных центров.


матрица корреляция компьютерный

Заключение

При выполнении работы были сформированы навыки самостоятельного решения прикладных задач в сфере экономики, а так же работы с профессиональными пакетами программ анализа данных (SPSS).

Список использованной литературы

  • 1. Многомерный статистический анализ в экономических задачах: компьютерное моделирование в SPSS: Учеб. пособие / Под ред. И.В. Орловой. - М.: Вузовский учебник, 2011. - 310 с.
  • 2. Орлова И.В., Половников В.А. Экономико-математические методы и модели: компьютерное моделирование: Учеб. пособие. - М.: Вузовский учебник, 2007. - 365 с.
  • 3. Курс лекций по эконометрике проф. Сахабетдинова М.А.

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Введение

1.История «кластерного анализа»

2.Терминология

2.1Объект и признак

2.2Расстояние между объектами (метрика)

2.3Плотность и локальность кластеров

2.4Расстояние между кластерами

3. Методы группировки

3.1Особенности иерархических агломеративных методов

3.2Особенности итерационных методов кластеризации

4. Кластеризация признаков

5. Устойчивость и качество кластеризации

Список используемой литературы

ВВЕДЕНИЕ

"Кластерный анализ - совокупность математических методов, предназначенных для формирования относительно "отдаленных" друг от друга групп "близких" между собой объектов по информации о расстояниях или связях (мерах близости) между ними. По смыслу аналогичен терминам: автоматическая классификация, таксономия, распознавание образов без учителя." Такое определение кластерного анализа дано в последнем издании "Статистического словаря". Фактически "кластерный анализ" - это обобщенное название достаточно большого набора алгоритмов, используемых при создании классификации. В ряде изданий используются и такие синонимы кластерного анализа, как классификация и разбиение. Кластерный анализ широко используется в науке как средство типологического анализа. В любой научной деятельности классификация является одной из фундаментальных составляющих, без которой невозможны построение и проверка научных гипотез и теорий. Таким образом, в своей работе своей основной целью я считаю необходимым рассмотреть вопросы кластерного анализа (основы кластерного анализа), а так же рассмотреть его терминологию и привести некоторые примеры использования данного метода с обработкой данных.

1. ИСТОРИЯ «КЛАСТЕРНОГО АНАЛИЗА»

Анализ отечественных и зарубежных публикаций показывает, что кластерный анализ находит применение в самых разнообразных научных направлениях: химия, биология, медицина, археология, история, география, экономика, филология и т.д. В книге В.В.Налимова "Вероятностная модель языка" описано применение кластерного анализа при исследовании 70 аналитических проб. Большая часть литературы по кластерному анализу появилась в течение последних трех десятилетий, хотя первые работы, в которых упоминались кластерные методы, появились достаточно давно. Польский антрополог К.Чекановский выдвинул идею "структурной классификации", содержавшую основную идею кластерного анализа - выделение компактных групп объектов.

В 1925 г. советский гидробиолог П.В. Терентьев разработал так называемый "метод корреляционных плеяд", предназначенный для группировки коррелирующих признаков. Этот метод дал толчок развитию методов группировки с помощью графов. Термин "кластерный анализ" впервые был предложен Трионом. Слово "cluster" переводится с английского языка как "гроздь, кисть, пучок, группа". По этой причине первоначальное время этот вид анализа называли "гроздевым анализом". В начале 50-х годов появились публикации Р.Люиса, Е.Фикса и Дж. Ходжеса по иерархическим алгоритмам кластерного анализа. Заметный толчок развитие работ по кластерному анализу дали работы Р.Розенблатта по распознающему устройству (персептрону), положившие начало развитию теории "распознавания образов без учителя".

Толчком к разработке методов кластеризации явилась книга "Принципы численной таксономии", опубликованная в 1963г. двумя биологами - Робертом Сокэлом и Питером Снитом. Авторы этой книги исходили из того, что для создания эффективных биологических классификаций процедура кластеризации должна обеспечивать использование всевозможных показателей характеризующих исследуемые организмы, производить оценку степени сходства между этими организмами и обеспечивать размещение схожих организмов в одну и ту же группу. При этом сформированные группы должны быть достаточно "локальны", т.е. сходство объектов (организмов) внутри групп должно превосходить сходство групп между собой. Последующий анализ выделенных группировок, по мнению авторов, может выяснить, отвечают ли эти группы разным биологическим видам. Так, Сокэл и Снит предполагали, что выявление структуры распределения объектов в группы, помогает установить процесс образования этих структур. А различие и сходство организмов разных кластеров (групп) могут служить базой для осмысления происходившего эволюционного процесса и выяснения его механизма.

В эти же годы было предложено множество алгоритмов таких авторов, как Дж. Мак-Кин, Г. Болл и Д. Холл по методам k-средних; Г. Ланса и У. Уильямса, Н. Джардайна и др. - по иерархическим методам. Заметный вклад в развитие методов кластерного анализа внесли и отечественные ученые - Э.М.Браверман, А.А.Дорофеюк, И.Б.Мучник, Л.А,Растригин, Ю.И.Журавлев, И.И.Елисеева и др. В частности, в 60-70 гг. большой популярностью пользовались многочисленные алгоритмы разработанные новосибирскими математиками Н.Г.Загоруйко, В.Н.Елкиной и Г.С.Лбовым. Это такие широко известные алгоритмы, как FOREL, BIGFOR, KRAB, NTTP, DRET, TRF и др. На основе этих пакетов был создан специализированный пакет программ ОТЭКС. Не менее интересные программные продукты ППСА и Класс-Мастер были созданы московскими математиками С.А.Айвазяном, И.С.Енюковым и Б.Г.Миркиным.

В том или ином объеме методы кластерного анализа имеются в большинстве наиболее известных отечественных и зарубежных статистических пакетах: SIGAMD, DataScope, STADIA, СОМИ, ПНП-БИМ, СОРРА-2, СИТО, SAS, SPSS, STATISTICA, BMDP, STATGRAPHICS, GENSTAT, S-PLUS и т.д. Конечно, спустя 10 лет после выхода этого обзора, изменилось достаточно много, появились новые версии многих статистических программ, появились и абсолютно новые программы, использующие как новые алгоритмы, так и сильно возросшие мощности вычислительной техники. Однако большинство статистических пакетов используют алгоритмы предложенные и разработанные в 60-70 гг.

По приблизительным оценкам специалистов число публикаций по кластерному анализу и его приложениям в различных областях знания удваивается каждые три года. Каковы же причины столь бурного интереса к этому виду анализа? Объективно существуют три основные причины этого явления. Это появление мощной вычислительной техники, без которой кластерный анализ реальных данных практически не реализуем. Вторая причина заключается в том, что современная наука все сильнее опирается в своих построениях на классификацию. Причем этот процесс все более углубляется, поскольку параллельно этому идет все большая специализация знания, которая невозможна без достаточно объективной классификации.

Третья причина - углубление специальных знаний неизбежно приводит к увеличению количества переменных, учитываемых при анализе тех или иных объектов и явлений. Вследствие этого субъективная классификация, которая ранее опиралась на достаточно малое количество учитываемых признаков, часто оказывается уже ненадежной. А объективная классификация, с все возрастающим набором характеристик объекта, требует использования сложных алгоритмов кластеризации, которые могут быть реализованы только на базе современных компьютеров. Именно эти причины и породили "кластерный бум". Однако, в среде медиков и биологов кластерный анализ еще не стал достаточно популярным и обыденным методом исследования.

2 ТЕРМИНОЛОГИЯ

2. 1 ОБЪЕКТ И ПРИЗНАК

Введем первоначально такие понятия, как объект и признак. Объект - от латинского objectum - предмет. Применительно к химии и биологии под объектами мы будем подразумевать конкретные предметы исследования, которые изучаются с помощью физических, химических и иных методик. Такими объектами могут быть, например, пробы, растения, животные и т.д. Некоторую совокупность объектов, доступную исследователю для изучения,называют выборкой, или выборочной совокупностью. Количество объектов в такой совокупности принято называть объемом выборки. Обычно объем выборки обозначают латинской буквой "n" или "N" .

Признак (синонимы - свойство, переменная, характеристика; англ. - variable - переменная.) - представляет собой конкретное свойство объекта. Эти свойства могут выражаться как числовыми, так и не числовыми значениями. Например, артериальное давление (систолическое или диастолическое) измеряют в миллиметрах ртутного столба, вес - в килограммах, рост в сантиметрах и т.д. Такие признаки являются количественными. В отличие от этих непрерывных числовых характеристик (шкал), ряд признаков может иметь дискретные, прерывистые значения. В свою очередь такие дискретные признаки принято делить на две группы.

1) Первая группа - ранговые, или как их еще называют порядковые переменные (шкалы). Таким признакам присуще свойство упорядоченности этих значений. К ним можно отнести стадии того или иного заболевания, возрастные группы, балльные оценки знаний учащихся, 12-балльную шкалу магнитуд землетрясений по Рихтеру и т.д.

2) Вторая же группа дискретных признаков не имеет такой упорядоченности и носит название номинальных (от слова "номинал" - образец) или классификационных признаков. Примером таких признаков может быть состояние пациента - "здоров" или "болен", пол пациента, период наблюдения - "до лечения" и "после лечения" и т.д. В этих случаях принято говорить, что такие признаки относятся к шкале наименований.

Понятия объекта и признака, принято называть матрицей "Объект-свойство" или "Объект-признак". Матрицей будет прямоугольная таблица, состоящая из значений признаков описывающих свойства исследуемой выборки наблюдений. В данном контексте одно наблюдение будет записываться в виде отдельной строки состоящей из значений используемых признаков. Отдельный же признак в такой матрице данных будет представлен столбцом, состоящим из значений этого признака по всем объектам выборки.

2. 2 РАССТОЯНИЕ МЕЖДУ ОБЪЕКТАМИ (МЕТРИКА)

Введём понятие "расстояние между объектами". Данное понятие является интегральной мерой сходства объектов между собой. Расстоянием между объектами в пространстве признаков называется такая величина d ij , которая удовлетворяет следующим аксиомам:

1. d ij > 0 (неотрицательность расстояния)

2. d ij = d ji (симметрия)

3. d ij + d jk > d ik (неравенство треугольника)

4. Если d ij не равно 0, то i не равно j (различимость нетождественных объектов)

5. Если d ij = 0, то i = j (неразличимость тождественных объектов)

Меру близости (сходства) объектов удобно представить как обратную величину от расстояния между объектами. В многочисленных изданиях посвященных кластерному анализу описано более 50 различных способов вычисления расстояния между объектами. Кроме термина "расстояние" в литературе часто встречается и другой термин - "метрика", который подразумевает метод вычисления того или иного конкретного расстояния. Наиболее доступно для восприятия и понимания в случае количественных признаков является так называемое "евклидово расстояние" или "евклидова метрика". Формула для вычисления такого расстояния:

В данной формуле использованы следующие обозначения:

· d ij - расстояние между i-тым и j-тым объектами;

· x ik - численное значение k-той переменной для i-того объекта;

· x jk - численное значение k-той переменной для j-того объекта;

· v - количество переменных, которыми описываются объекты.

Таким образом, для случая v=2, когда мы имеем всего два количественных признака, расстояние d ij будет равно длине гипотенузы прямоугольного треугольника, которая соединяет собой две точки в прямоугольной системе координат. Эти две точки будут отвечать i-тому и j-тому наблюдениям выборки. Нередко вместо обычного евклидового расстояния используют его квадрат d 2 ij . Кроме того, в ряде случаев используется "взвешенное" евклидово расстояние, при вычислении которого для отдельных слагаемых используются весовые коэффициенты. Для иллюстрации понятия евклидовой метрики используем простой обучающий пример. Матрица данных, приведенная ниже в таблице, состоит из 5 наблюдений и двух переменных.

Таблица 1

Матрица данных из пяти наблюдаемых проб и двух переменных.

Используя евклидову метрику, вычислим матрицу межобъектных расстояний, состоящую из величин d ij - расстояние между i-тым и j-тым объектами. В нашем случае i и j - номер объекта, наблюдения. Поскольку объем выборки равен 5, то соответственно i и j могут принимать значения от 1 до 5. Очевидно также, что количество всех возможных по парных расстояний будет равно 5*5=25. Действительно, для первого объекта это будут следующие расстояния: 1-1; 1-2; 1-3; 1-4; 1-5. Для объекта 2 также будет 5 возможных расстояний: 2-1; 2-2; 2-3; 2-4; 2-5 и т.д. Однако число различных расстояний будет меньше 25, поскольку необходимо учесть свойство неразличимости тождественных объектов - d ij = 0 при i = j. Это означает, что расстояние между объектом №1 и тем же самым объектом №1 будет равно нулю. Такие же нулевые расстояния будут и для всех остальных случаев i = j. Кроме того, из свойства симметрии следует, что d ij = d ji для любых i и j. Т.е. расстояние между объектами №1 и №2 равно расстоянию между объектами №2 и №1.

Весьма напоминает выражение для евклидового расстояния так называемое обобщенное степенное расстояние Минковского, в котором в степенях вместо двойки используется другая величина. В общем случае эта величина обозначается символом "р".

При р = 2 мы получаем обычное Евклидово расстояния. Так выражение для обобщенной метрики Минковского имеет вид:

Выбор конкретного значения степенного показателя "р" производится самим исследователем.

Частным случаем расстояния Минковского является так называемое манхэттенское расстояние, или "расстояние городских кварталов" (city-block), соответствующее р=1:

Таким образом, манхэттенское расстояние является суммой модулей разностей соответствующих признаков объектов. Устремив p к бесконечности, мы получаем метрику "доминирования", или Sup-метрику:

которую можно представить также в виде d ij = max| x ik - x jk |.

Метрика Минковского фактически представляет собой большое семейство метрик, включающее и наиболее популярные метрики. Однако существуют и методы вычисления расстояния между объектами, принципиально отличающиеся от метрик Минковского. Наиболее важное из них так называемое расстояние Махаланобиса, которое имеет достаточно специфические свойства. Выражение для данной метрики:

Здесь через X i и X j обозначены вектор-столбцы значений переменных для i-того и j-того объектов. Символ Т в выражении (X i - X j ) Т обозначает так называемую операцию транспонирования вектора. Символом S обозначена общая внутригрупповая дисперсионно-ковариационная матрица. А символ -1 над S означает, что необходимо обратить матрицу S . В отличие от метрики Минковского и евклидовой метрики, расстояние Махаланобиса через матрицу дисперсий-ковариаций S связано с корреляциями переменных. Когда корреляции между переменными равны нулю, расстояние Махаланобиса эквивалентно квадрату евклидового расстояния.

В случае использования дихотомических (имеющих всего два значения) качественных признаков широко используется расстояние Хемминга

равное числу несовпадений значений соответствующих признаков для рассматриваемых i-того и j-того объектов.

2. 3 ПЛОТНОСТЬ И ЛОКАЛЬНОСТЬ КЛАСТЕРОВ

Главной целью кластерного анализа является нахождение в выборке групп объектов схожих между собой. Предположим, что каким-то из возможных методов мы получили такие группы - кластеры. Следует отметить важные свойства кластеров. Одно из таких свойств - это плотность распределения точек, наблюдений внутри кластера. Это свойство дает нам возможность определить кластер в виде скопления точек в многомерном пространстве, относительно плотное по сравнению с иными областями этого пространства, которые либо вообще не содержат точек, либо содержат малое количество наблюдений. Иными словами, насколько данный кластер является компактным, или же наоборот - достаточно разреженным. Несмотря на достаточную очевидность этого свойства, однозначного способа вычисления такого показателя (плотности) не существует. Наиболее удачным показателем, характеризующим компактность, плотность "упаковки" многомерных наблюдений в данном кластере, является дисперсия расстояния от центра кластера до отдельных точек кластера. Чем меньше дисперсия этого расстояния, тем ближе к центру кластера находятся наблюдения, тем больше плотность кластера. И наоборот, чем больше дисперсия расстояния, тем более разрежен данный кластер, и, следовательно, есть точки находящиеся как вблизи центра кластера, так и достаточно удаленные от центра кластера.

Следующее свойство кластеров - его размеры. Основным показателем размера кластера является его "радиус". Это свойство наиболее полно отображает фактический размер кластера, если рассматриваемый кластер имеет круглую форму и является гиперсферой в многомерном пространстве. Однако если кластеры имеют удлиненные формы, то понятие радиуса или диаметра уже не отображает истинного размера кластера.

Другое важное свойство кластера - их локальность, отделимость. Оно характеризует степень перекрытия и взаимной удаленности кластеров друг от друга в многомерном пространстве. К примеру, рассмотрим распределение трех кластеров в пространстве новых, интегрированных признаков на приведенном ниже рисунке. Оси 1 и 2 были получены специальным методом из 12 признаков отражающих свойств разных форм эритроцитов, изучавшиеся с помощью электронной микроскопии.

Рисунок 1

Мы видим, что минимальный размер имеет кластер 1, а кластеры 2 и 3 имеют примерно равные размеры. В то же время, можно говорить о том, что минимальная плотность, а стало быть, и максимальная дисперсия расстояния, характерна для кластера 3. Кроме того, кластер 1 отделяется достаточно большими участками пустого пространства как от кластера 2, так и от кластера 3. Тогда как кластеры 2 и 3 частично перекрываются друг с другом. Представляет интерес и тот факт, что кластер 1 имеет гораздо большее различие от 2-го и 3-го кластеров по оси 1, нежели по оси 2. Напротив, кластеры 2 и 3 примерно одинаково различаются между собой как по оси 1, так и по оси 2. Очевидно, что для такого визуального анализа необходимо иметь все наблюдения выборки проецировать на специальные оси, в которых проекции элементов кластеров будут видны как отдельные скопления.

2. 4 РАССТОЯНИЕ МЕЖДУ КЛАСТЕРАМИ

В более широком смысле под объектами можно понимать не только исходные предметы исследования, представленные в матрице "объект-свойство" в виде отдельной строки, или отдельными точками в многомерном признаковом пространстве, но и отдельные группы таких точек, объединенные тем или иным алгоритмом в кластер. В этом случае возникает вопрос о том, каким образом понимать расстояние между такими скоплениями точек (кластерами) и как его вычислять. В этом случае разнообразных возможностей еще больше, нежели в случае вычисления расстояния между двумя наблюдениями в многомерном пространстве. Эта процедура осложняется тем, что в отличие от точек кластеры занимают определенный объем многомерного пространства и состоят из многих точек. В кластерном анализе широко используются межкластерные расстояния, вычисляемые по принципу ближайшего соседа (nearest neighbour), центра тяжести, дальнего соседа (furthest neighbour), медиан. Наиболее широко используются четыре метода: одиночной связи, полной связи, средней связи и метод Варда. В методе одиночной связи объект будет присоединен к уже существующему кластеру, если хотя бы один из элементов кластера имеет тот же уровень сходства, что и присоединяемый объект. Для метода полных связей присоединение объекта к кластеру производится лишь в том случае, когда сходство между кандидатом на включение и любым из элементов кластера не меньше некоторого порога. Для метода средней связи имеется несколько модификаций, которые являются некоторым компромиссом между одиночной и полной связью. В них вычисляется среднее значение сходства кандидата на включение со всеми объектами существующего кластера. Присоединение производится в том случае, когда найденное среднее значение сходства достигает или превышает некоторый порог. Наиболее часто используют среднее арифметическое сходство между объектами кластера и кандидата на включение в кластер.

Многие из методов кластеризации отличаются между собой тем, что их алгоритмы на каждом шаге вычисляют разнообразные функционалы качества разбиения. Популярный метод Варда построен таким образом, чтобы оптимизировать минимальную дисперсию внутрикластерных расстояний. На первом шаге каждый кластер состоит из одного объекта, в силу чего внутрикластерная дисперсия расстояний равна 0. Объединяются по этому методу те объекты, которые дают минимальное приращение дисперсии, вследствие чего данный метод имеет тенденцию к порождению гиперсферических кластеров.

Многократные попытки классификации методов кластерного анализа приводят к десяткам, а то и сотням разнообразных классов. Такое многообразие порождается большим количеством возможных способов вычисления расстояния между отдельными наблюдениями, не меньшим количеством методов вычисления расстояния между отдельными кластерами в процессе кластеризации и многообразными оценками оптимальности конечной кластерной структуры.

Наибольшее распространение в популярных статистических пакетах получили два группы алгоритмов кластерного анализа: иерархические агломеративные методы и итеративные методы группировки.

3. МЕТОДЫ ГРУППИРОВКИ

3. 1 ОСОБЕННОСТИ ИЕРАРХИЧЕСКИХ АГЛОМЕРАТИВНЫХ МЕТОДОВ

В агломеративно-иерархических методах (aglomerative hierarhical algorithms), которые, более часто используются в реальных биомедицинских исследованиях, первоначально все объекты (наблюдения) рассматриваются как отдельные, самостоятельные кластеры, состоящие всего лишь из одного элемента. Без использования мощной вычислительной техники реализация кластерного анализа данных весьма проблематична.

Выбор метрики производится самим исследователем. После вычисления матрицы расстояний начинается процесс агломерации (от латинского agglomero - присоединяю, накапливаю), проходящий последовательно шаг за шагом. На первом шаге этого процесса два исходных наблюдения (монокластера), между которыми самое минимальное расстояние, объединяются в один кластер, состоящий уже из двух объектов (наблюдений). Таким образом, вместо бывших N монокластеров (кластеров, состоящих из одного объекта) после первого шага останется N-1 кластеров, из которых один кластер будет содержать два объекта (наблюдения), а N-2 кластеров будут по-прежнему состоять всего лишь из одного объекта. На втором шаге возможны различные методы объединения между собой N-2 кластеров. Это вызвано тем, что один из этих кластеров уже содержит два объекта. По этой причине возникает два основных вопроса:

· как вычислять координаты такого кластера из двух (а далее и более двух) объектов;

· как вычислять расстояние до таких "полиобъектных" кластеров от "монокластеров" и между "полиобъектными" кластерами.

Эти вопросы, в конечном счете, и определяют окончательную структуру итоговых кластеров (под структурой кластеров подразумевается состав отдельных кластеров и их взаимное расположение в многомерном пространстве). Разнообразные комбинации метрик и методов вычисления координат и взаимных расстояний кластеров и порождают то многообразие методов кластерного анализа. На втором шаге в зависимости от выбранных методов вычисления координат кластера состоящего из нескольких объектов и способа вычисления межкластерных расстояний возможно либо повторное объединение двух отдельных наблюдений в новый кластер, либо присоединение одного нового наблюдения к кластеру, состоящему из двух объектов. Для удобства большинство программ агломеративно-иерархических методов по окончании работы могут предоставить для просмотра два основных графика. Первый график называется дендрограммой (от греческого dendron - дерево), отражающий процесс агломерации, слияния отдельных наблюдений в единый окончательный кластер. Приведём пример дендрограммы из 5 наблюдений по двум переменным.

График 1

Вертикальная ось такого графика представляет собой ось межкластерного расстояния, а по горизонтальной оси отмечены номера объектов - случаев (cases) использованных в анализе. Из этой дендрограммы видно, что вначале объединяются в один кластер объекты №1 и №2, поскольку расстояние между ними самое минимальное и равно 1. Это слияние отображается на графике горизонтальной линией соединяющей вертикальные отрезки выходящие из точек помеченных как С_1 и С_2. Обратим внимание на то, что сама горизонтальная линия проходит точно на уровне межкластерного расстояния равного 1. Далее на втором шаге к этому кластеру, включающему в себя уже два объекта, присоединяется объект №3, обозначенный как С_3. На следующем шаге происходит объединение объектов №4 и №5, расстояние между которыми равно 1,41. И на последнем шаге происходит объединение кластера из объектов 1, 2 и 3 с кластером из объектов 4 и 5. На графике видно, что расстояние между этими двумя предпоследними кластерами (последний кластер включает в себя все 5 объектов) больше 5, но меньше 6, поскольку верхняя горизонтальная линия соединяющая два предпоследних кластера проходит на уровне примерно равном 7, а уровень соединения объектов 4 и 5 равен 1,41.

Расположенная ниже дендрограмма получена при анализе реального массива данных состоящего из 70 обрабатываемых химических проб, каждый из которых характеризовался 12 признаками.

График 2

Из графика видно, что на последнем шаге, когда произошло слияние двух последних кластеров, расстояние между ними порядка 200 единиц. Видно, что первый кластер включает в себя гораздо меньше объектов, чем второй кластер.Ниже приведен увеличенный участок дендрограммы на котором достаточно отчетливо видны номера наблюдений, обозначаемые как С_65, С_58 и т.д. (слева направо): 65, 58, 59, 64, 63, 57, 60, 62, 56, 44, 94 и т.д.

График 3 Увеличенный участок приведённого выше графика №2

Видно, что объект 44 представляет собой монокластер объединяющийся на предпоследнем шаге с правым кластером и затем уже на последнем шаге все наблюдения объединяются в один кластер.

Другой график, который строится в таких процедурах - это график изменения межкластерных расстояний на каждом шаге объединения. Ниже приведен подобный график для приведенной выше дендрограммы.

График 4

В ряде программ имеется возможность вывести в табличном виде результаты объединения объектов на каждом шаге кластеризации. В большинстве таких таблиц во избежание путаницы используется различная терминология для обозначения исходных наблюдений - монокластеров, и собственно кластеров состоящих из двух и более наблюдений. В англоязычных статистических пакетах исходные наблюдения (строки матрицы данных) обозначаются как "случай" - case. Для того чтобы продемонстрировать зависимость кластерной структуры от выбора метрики и выбора алгоритма объединения кластеров, приведем ниже дендрограмму отвечающую алгоритму полной связи. И здесь мы видим, что объект №44 объединяется со всей остальной выборкой на самом последнем шаге.

График 5

А теперь сравним ее с другой диаграммой, полученной при использовании метода одиночной связи к тем же самым данным. В отличие от метода полной связи, видно, что этот метод порождает длинные цепочки последовательно присоединяемых друг к другу объектов. Однако во всех трех случаях можно говорить о том, что выделяется две основные группировки.

График 6

Обратим также внимание на то, что во всех трех случаях объект №44 присоединяется как монокластер, хотя и на разных шагах процесса кластеризации. Выделение таких монокластеров является неплохим средством обнаружения аномальных наблюдений, называемых выбросами. Удалим этот "подозрительный" объект №44 и вновь проведем кластеризацию. Получим следующую дендрограмму:

График 7

Видно, что "цепочечный" эффект сохранился, как сохранилось и разбиение на две локальные группы наблюдений.

3. 2 ОСОБЕННОСТИ ИТЕРАЦИОННЫХ МЕТОДОВ КЛАСТЕРИЗАЦИИ

Среди итерационных методов наиболее популярным методом является метод k-средних Мак-Кина. В отличие от иерархических методов в большинстве реализаций этого метода сам пользователь должен задать искомое число конечных кластеров, которое обычно обозначается как "k". Как и в иерархических методах кластеризации, пользователь при этом может выбрать тот или иной тип метрики. Разные алгоритмы метода k-средних отличаются и способом выбора начальных центров задаваемых кластеров. В некоторых вариантах метода сам пользователь может (или должен) задать такие начальные точки, либо выбрав их из реальных наблюдений, либо задав координаты этих точек по каждой из переменных. В других реализациях этого метода выбор заданного числа k начальных точек производится случайным образом, причем эти начальные точки (зерна кластеров) могут в последующем уточняться в несколько этапов. Можно выделить 4 основных этапа таких методов:

· выбираются или назначаются k наблюдений, которые будут первичными центрами кластеров;

· при необходимости формируются промежуточные кластеры приписыванием каждого наблюдения к ближайшим заданным кластерным центрам;

· после назначения всех наблюдений отдельным кластерам производится замена первичных кластерных центров на кластерные средние;

· предыдущая итерация повторяется до тех пор, пока изменения координат кластерных центров не станут минимальными.

В некоторых вариантах этого метода пользователь может задать числовое значение критерия, трактуемого как минимальное расстояние для отбора новых центров кластеров. Наблюдение не будет рассматриваться как претендент на новый центр кластера, если его расстояние до заменяемого центра кластера превышает заданное число. Такой параметр в ряде программ называется "радиусом". Кроме этого параметра возможно задание и максимального числа итераций либо достижения определенного, обычно достаточно малого, числа, с которым сравнивается изменение расстояния для всех кластерных центров. Этот параметр обычно называется "конвергенцией", т.к. отражает сходимость итерационного процесса кластеризации. Ниже мы приведем часть результатов, которые получены при использовании метода k-средних Мак-Кина к предыдущим данным. Число искомых кластеров задавалось вначале равным 3, а затем - 2. Первая их часть содержит результаты однофакторного дисперсионного анализа, в котором в качестве группирующего фактора выступает номер кластера. В первом столбце - список 12 переменных, далее идут суммы квадратов (SS) и степени свободы (df), затем F-критерий Фишера и в последнем столбце - достигнутый уровень значимости "р".

Таблица 2 Данные полученные методом k-средних Мак-Кина, применимые к 70 исследуемым пробам.

Переменные

Как видно из этой таблицы, нулевая гипотеза о равенстве средних значений в трех группах отвергается. Ниже приведен график средних значений всех переменных по отдельным кластерам. Эти же кластерные средние переменных приведены далее в виде таблицы.

Таблица 3. Подробное рассмотрение данных на примере трёх кластеров.

Переменная

Кластер №1

Кластер №2

Кластер №3

График 8

Анализ средних значений переменных для каждого кластера позволяет сделать вывод о том, что по признаку Х1 кластеры 1 и 3 имеют близкие значения, тогда как кластер 2 имеет среднее значение гораздо меньшее, чем в остальных двух кластерах. Напротив, по признаку Х2 первый кластер имеет самое минимальное значение, тогда как 2-й и 3-й кластеры имеют более высокие и близкие между собой средние значения. Для признаков Х3-Х12 средние значения в кластере 1 значительно выше, чем в кластерах 2 и 3. Следующая таблица дисперсионного анализа результатов кластеризации на два кластера также показывает необходимость отклонения нулевой гипотезы о равенстве групповых средних почти по всем 12 признакам, за исключением переменной Х4, для которой достигнутый уровень значимости оказался более 5%.

Таблица 4. Таблица дисперсионного анализа результатов кластеризации на два кластера.

Переменные

Ниже приведены график и таблица групповых средних для случая кластеризации на два кластера.

Таблица 5. Таблица для случая кластеризации на два кластера.

Переменные

Кластер №1

Кластер №2

График 9.

В том случае, когда исследователь не имеет возможности заранее определиться с наиболее вероятным числом кластеров, он вынужден повторить расчеты, задавая различное их число, подобно тому, как это было сделано выше. А затем, сравнивая полученные результаты между собой, остановиться на одном из наиболее приемлемых вариантов кластеризации.

4 . КЛАСТЕРИЗАЦИЯ ПРИЗНАКОВ

Кроме кластеризации отдельных наблюдений существуют и алгоритмы кластеризации признаков. Одним из первых таких методов яяется метод корреляционных плеяд Терентьева П.В. Примитивные изображения подобных плеяд нередко можно встретить в биомедицинских публикациях в виде окружности испещренной стрелками, соединяющими признаки для которых авторы обнаружили корреляционную зависимость. В ряде программ для кластеризации объектов и признаков имеются отдельные процедуры. Например, в пакете SAS для кластеризации признаков используется процедура VARCLUS (от VARiable - переменная и CLUSter - кластер), тогда как кластерный анализ наблюдений выполняется иными процедурами - FASTCLUS и CLUSTER. Построение дендрограммы в том и другом случае производится с помощью процедуры TREE (дерево).

В других же статистических пакетах выбор элементов для кластеризации - объектов или признаков, производится в одном и том же модуле. В качестве метрики при кластеризации признаков часто используют выражения, включающие в себя значение тех или иных коэффициентов отражающих силу связи для пары признаков. В этом случае очень удобно для признаков имеющих силу связи равную единице (функциональная зависимость) принимать расстояние между признаками равным нулю. Действительно, при функциональной связи по значению одного признака можно точно вычислить значение другого признака. При уменьшении силы связи между признаками расстояние соответственно увеличивается. Ниже приведен график, показывающий дендрограмму объединения 12 признаков, которые были использованы выше при кластеризации 70 аналитических проб.

График 10. Дендрограмма кластеризации 12 признаков.

Как видно из этой дендрограммы, мы имеем дело с двумя локальными группировками признаков: Х1-Х10 и Х11-Х12.Для группы признаков Х1-Х10 характерна достаточно малая величина межкластерных расстояний, не превышающая примерно 100 единиц. Здесь же мы видим и некоторые внутренние парные подгруппы: Х1 и Х2, Х3 и Х4, Х6 и Х7. Очень близкое к нулю расстояние между признаками этих пар говорит об их сильной парной взаимосвязи. Тогда как для пары Х11 и Х12 величина межкластерного расстояния гораздо больше и составляет порядка 300 единиц. Наконец очень большое расстояние между левым (Х1-Х10) и правым (Х11-Х12) кластерами, равное примерно 1150 единицам, говорит о том, что взаимосвязь между этими двумя группировками признаков достаточна минимальна.

5. УСТОЙЧИВОСТЬ И КАЧЕСТВО КЛАСТЕРИЗАЦИИ

Очевидно, что было бы абсурдно ставить вопрос о том, насколько абсолютна та или иная классификация полученная с помощью методов кластерного анализа. При изменении метода кластеризации устойчивость проявляется в том, что на дендрограммах довольно отчетливо просматриваются два кластера.

В качестве одного из возможных способов проверки устойчивости результатов кластерного анализа может быть использован метод сравнения результатов полученных для различных алгоритмов кластеризации. Другие пути, это так называемый бутстреп-метод предложенный Б.Эфроном в 1977г., методы "складного ножа" и "скользящего контроля". Наиболее простое средство проверки устойчивости кластерного решения может заключаться в том, чтобы исходную выборку случайным образом разделить на две примерно равные части, провести кластеризацию обеих частей и затем сравнить полученные результаты. Более трудоемкий путь предполагает последовательное исключение вначале первого объекта и кластеризацию оставшихся (N - 1) объектов. Далее последовательно проводя эту процедуру с исключением второго, третьего и т.д. объектов анализируется структура всех N полученных кластеров. Другой алгоритм проверки устойчивости предполагает многократное размножение, дублирование исходной выборки из N объектов, затем объединение всех дублированных выборок в одну большую выборку (псевдогенеральную совокупность) и случайное извлечение из нее новой выборки из N объектов. После этого проводится кластеризация этой выборки, далее извлекается новая случайная выборка и вновь проводится кластеризация и т.д. Это также достаточно трудоемкий путь.

Не меньше проблем и при оценке качества кластеризации. Известно достаточно много алгоритмов оптимизации кластерных решений. Первые работы которые содержали формулировки критерия минимизации внутрикластерной дисперсии и алгоритм (типа k-средних) поиска оптимального решения появились в 50-х годах. В 1963г. в статье Дж. Уорда также излагался подобный оптимизационный иерархический алгоритм. Универсального критерия оптимизации кластерного решения не существует. Все это затрудняет выбор исследователем оптимального решения. В такой ситуации наилучшим способом утвердиться в том, что найденное кластерное решение является на данном этапе исследования оптимальным, является только согласованность этого решения с выводами, полученными с помощью других методов многомерной статистики.

В пользу вывода об оптимальности кластеризации служат также и положительные результаты проверки предсказывающих моментов полученного решения уже на других объектах исследования. При использовании иерархических методов кластерного анализа можно рекомендовать сравнение между собой нескольких графиков пошагового изменения межкластерного расстояния. При этом предпочтение следует отдать тому варианту, для которого наблюдается плоская линия такого приращения от первого шага до нескольких предпоследних шагов с резким вертикальным подъемом этого графика на последних 1-2 шагах кластеризации.

ВЫВОДЫ

В своей работе я постаралась показать, не только сложность данного вида анализа, но и оптимальные возможности обработки данных, ведь зачастую для точности результатов приходится использовать от десятков до сотен проб. Данный вид анализа помогает классифицировать и обработать результаты. Так же я считаю не маловажным, приемлемость в данном анализе компьютерных технологий, что позволяет сделать менее трудоёмким процесс обработки результатов и тем самым позволяет уделить большее внимание правильности отбора проб для анализа.

В использовании кластерного анализа имеются такие тонкости и детали, которые проявляются в отдельных конкретных случаях и видны не сразу. Например, роль масштаба признаков может быть минимальной, а может быть и доминирующей в ряде случаев. В таких случаях необходимо использовать преобразования переменных. Особенно результативно это при использовании методов, которые производят нелинейные преобразования признаков, повышающие в целом общий уровень корреляций между признаками.

Еще большая специфика в использовании кластерного анализа применительно к объектам, которые описываются только качественными признаками. В этом случае достаточно успешны методы предварительной оцифровки качественных признаков и проведение кластерного анализа с новыми признаками. В своей работе я показала, что кластерный анализ дает много новой и оригинальной информации как в случае его применения в достаточно изученных системах, так и при исследовании систем с неизвестной структурой.

Так же следует отметить, что кластерный анализ стал незаменим в эволюционных исследованиях, позволяя строить филогенетические деревья, показывающие эволюционные пути. Широко применяются эти методы и в программах научных исследований по физической и аналитической химии.

СПИСОК ИСПОЛЬЗУЕМОЙ ЛИТЕРАТУРЫ

1) Айвазян С. А., Енюков И. С, Мешалкин Л. Д. О структуре и содержании пакета программ по прикладному статистическому анализу//Алгоритмическое и программное обеспечение прикладного статистического анализа.--М., 1980.

2) Айвазян С. А., Бежаева 3. И., Староверов О. В. Классификация многомерных наблюдений.--М.: Статистика, 1974.

3) Беккер В. А., Лукацкая М. Л. Об анализе структуры матрицы коэффициентов связи//Вопросы экономико-статистического моделирования и прогнозирования в промышленности.-- Новосибирск, 1970.

4) Браверман Э. М., Мучник И. Б. Структурные методы обработки данных.--М.: Наука, 1983.

5) Воронин Ю. А. Теория классифицирования и ее приложения.--Новосибирск: Наука, 1987.

6) Гуд И. Дж. Ботриология ботриологии//Классификация и кластер.--М.: Мир,1980.

7) Дубровский С. А. Прикладной многомерный статистический анализ.--М.: Финансы и статистика, 1982.

8) Дюран Н., Оделл П. Кластерный анализ.--М.: Статистика, 1977.

9) Елисеева И. И., Рукавишников В. С. Группировка, корреляция, распознавание образов.--М.: Статистика, 1977.

10) Загоруйко Н. Г. Методы распознавания и их применение.--М.: Советское радио, 1972.

11) Заде Л. А. Размытые множества и их применение в распознавании образов и кластер-анализе//Классификация и кластер.--М.: Мир, 1980.

12) Кильдишев Г. С, Аболенцев Ю. И. Многомерные группировки.--М.: Статистика, 1978.

13) Райская И. И., Гостилин Н. И., Френкель А. А. Об одном способе проверки обоснованности разбиения в кластерном анализе.//Применение многомерного статистического анализа в экономике и оценке качества продукции.--Ч. П.Тарту, 1977.

14) Шурыгин А. М. Распределение межточечных расстояний и разностей// Программно-алгоритмическое обеспечение прикладного многомерного статистического анализа.--М., 1983.

15) Ээремаа Р. Общая теория конструирования кластер-систем и алгоритмы для нахождения их численных представлений: Труды ВЦ ТГУ.--Тарту, 1978.

16) Ястремский Б. С. Избранные труды.--М.: Статистика, 1964.

Подобные документы

    Цели сегментации рынка в маркетинговой деятельности. Сущность кластерного анализа, основные этапы его выполнения. Выбор способа измерения расстояния или меры сходства. Иерархические, неиерархические методы кластеризации. Оценка надежности и достоверности.

    доклад , добавлен 02.11.2009

    Основные показатели финансового состояния предприятия. Кризис на предприятии, его причины, виды и последствия. Современные методы и инструментальные средства кластерного анализа, особенности их использования для финансово-экономической оценки предприятия.

    дипломная работа , добавлен 09.10.2013

    Выполнение кластерного анализа предприятий с помощью программы Statgraphics Plus. Построение линейного уравнения регрессии. Расчет коэффициентов эластичности по регрессионным моделям. Оценка статистической значимости уравнения и коэффициента детерминации.

    задача , добавлен 16.03.2014

    Построение типологических регрессий по отдельным группам наблюдений. Пространственные данные и временная информация. Сферы применения кластерного анализа. Понятие однородности объектов, свойства матрицы расстояний. Проведение типологической регрессии.

    презентация , добавлен 26.10.2013

    Создание комбинированных моделей и методов как современный способ прогнозирования. Модель на основе ARIMA для описания стационарных и нестационарных временных рядов при решении задач кластеризации. Модели авторегрессии AR и применение коррелограмм.

    презентация , добавлен 01.05.2015

    Характеристика различных видов метрик. Метод ближайших соседей и его обобщения. Алгоритм ближайшего соседа. Метод парзеновского окна. Обобщенный метрический классификатор. Проблема выбора метрики. Манхэттенское и эвклидово расстояние. Косинусная мера.

    курсовая работа , добавлен 08.03.2015

    Характеристика строительной отрасли Краснодарского края. Прогноз развития жилищного строительства. Современные методы и инструментальные средства кластерного анализа. Многомерные статистические методы диагностики экономического состояния предприятия.

    дипломная работа , добавлен 20.07.2015

    Характеристика ипотечного кредитования на примере Брянской области. Обзор математических методов принятия решений: экспертных оценок, последовательных и парных сравнений, анализа иерархий. Разработка программы поиска оптимального ипотечного кредита.

    курсовая работа , добавлен 29.11.2012

    Области применения системного анализа, его место, роль, цели и функции в современной науке. Понятие и содержание методик системного анализа, его неформальные методы. Особенности эвристических и экспертных методов исследования и особенности их применения.

    курсовая работа , добавлен 20.05.2013

    Разработка и исследование эконометрических методов с учетом специфики экономических данных и в соответствии с потребностями экономической науки и практики. Применение эконометрических методов и моделей для статистического анализа экономических данных.

КЛАСТЕРНЫЙ АНАЛИЗ В ЗАДАЧАХ СОЦИАЛЬНО-ЭКОНОМИЧЕСКОГО ПРОГНОЗИРОВАНИЯ

Введение в кластерный анализ.

При анализе и прогнозировании социально-экономических явлений исследователь довольно часто сталкивается с многомерностью их описания. Это происходит при решении задачи сегментирования рынка, построении типологии стран по достаточно большому числу показателей, прогнозирования конъюнктуры рынка отдельных товаров, изучении и прогнозировании экономической депрессии и многих других проблем.

Методы многомерного анализа - наиболее действенный количественный инструмент исследования социально-экономических процессов, описываемых большим числом характеристик. К ним относятся кластерный анализ, таксономия, распознавание образов, факторный анализ.

Кластерный анализ наиболее ярко отражает черты многомерного анализа в классификации, факторный анализ – в исследовании связи.

Иногда подход кластерного анализа называют в литературе численной таксономией, численной классификацией, распознаванием с самообучением и т.д.

Первое применение кластерный анализ нашел в социологии. Название кластерный анализ происходит от английского слова cluster – гроздь, скопление. Впервые в 1939 был определен предмет кластерного анализа и сделано его описание исследователем Трионом. Главное назначение кластерного анализа – разбиение множества исследуемых объектов и признаков на однородные в соответствующем понимании группы или кластеры. Это означает, что решается задача классификации данных и выявления соответствующей структуры в ней. Методы кластерного анализа можно применять в самых различных случаях, даже в тех случаях, когда речь идет о простой группировке, в которой все сводится к образованию групп по количественному сходству.

Большое достоинство кластерного анализа в том, что он позволяет производить разбиение объектов не по одному параметру, а по целому набору признаков. Кроме того, кластерный анализ в отличие от большинства математико-статистических методов не накладывает никаких ограничений на вид рассматриваемых объектов, и позволяет рассматривать множество исходных данных практически произвольной природы. Это имеет большое значение, например, для прогнозирования конъюнктуры, когда показатели имеют разнообразный вид, затрудняющий применение традиционных эконометрических подходов.

Кластерный анализ позволяет рассматривать достаточно большой объем информации и резко сокращать, сжимать большие массивы социально-экономической информации, делать их компактными и наглядными.

Важное значение кластерный анализ имеет применительно к совокупностям временных рядов, характеризующих экономическое развитие (например, общехозяйственной и товарной конъюнктуры). Здесь можно выделять периоды, когда значения соответствующих показателей были достаточно близкими, а также определять группы временных рядов, динамика которых наиболее схожа.

Кластерный анализ можно использовать циклически. В этом случае исследование производится до тех пор, пока не будут достигнуты необходимые результаты. При этом каждый цикл здесь может давать информацию, которая способна сильно изменить направленность и подходы дальнейшего применения кластерного анализа. Этот процесс можно представить системой с обратной связью.

В задачах социально-экономического прогнозирования весьма перспективно сочетание кластерного анализа с другими количественными методами (например, с регрессионным анализом).

Как и любой другой метод, кластерный анализ имеет определенные недостатки и ограничения: В частности, состав и количество кластеров зависит от выбираемых критериев разбиения. При сведении исходного массива данных к более компактному виду могут возникать определенные искажения, а также могут теряться индивидуальные черты отдельных объектов за счет замены их характеристиками обобщенных значений параметров кластера. При проведении классификации объектов игнорируется очень часто возможность отсутствия в рассматриваемой совокупности каких-либо значений кластеров.

В кластерном анализе считается, что:

а) выбранные характеристики допускают в принципе желательное разбиение на кластеры;

б) единицы измерения (масштаб) выбраны правильно.

Выбор масштаба играет большую роль. Как правило, данные нормализуют вычитанием среднего и делением на стандартное отклоненение, так что дисперсия оказывается равной единице.

Задача кластерного анализа.

Задача кластерного анализа заключается в том, чтобы на основании данных, содержащихся во множестве Х, разбить множество объектов G на m (m – целое) кластеров (подмножеств) Q1, Q2, …, Qm, так, чтобы каждый объект Gj принадлежал одному и только одному подмножеству разбиения и чтобы объекты, принадлежащие одному и тому же кластеру, были сходными, в то время, как объекты, принадлежащие разным кластерам были разнородными.

Например, пусть G включает n стран, любая из которых характеризуется ВНП на душу населения (F1), числом М автомашин на 1 тысячу человек (F2), душевым потреблением электроэнергии (F3), душевым потреблением стали (F4) и т.д. Тогда Х1 (вектор измерений) представляет собой набор указанных характеристик для первой страны, Х2 - для второй, Х3 для третьей, и т.д. Задача заключается в том, чтобы разбить страны по уровню развития.

Решением задачи кластерного анализа являются разбиения, удовлетворяющие некоторому критерию оптимальности. Этот критерий может представлять собой некоторый функционал, выражающий уровни желательности различных разбиений и группировок, который называют целевой функцией. Например, в качестве целевой функции может быть взята внутригрупповая сумма квадратов отклонения:

где xj - представляет собой измерения j-го объекта.

Для решения задачи кластерного анализа необходимо определить понятие сходства и разнородности.

Понятно то, что объекты i-ый и j-ый попадали бы в один кластер, когда расстояние (отдаленность) между точками Хi и Хj было бы достаточно маленьким и попадали бы в разные кластеры, когда это расстояние было бы достаточно большим. Таким образом, попадание в один или разные кластеры объектов определяется понятием расстояния между Хi и Хj из Ер, где Ер - р-мерное евклидово пространство. Неотрицательная функция d(Хi , Хj) называется функцией расстояния (метрикой), если:

а) d(Хi , Хj) ³ 0, для всех Хi и Хj из Ер

б) d(Хi, Хj) = 0, тогда и только тогда, когда Хi = Хj

в) d(Хi, Хj) = d(Хj, Хi)

г) d(Хi, Хj) £ d(Хi, Хk) + d(Хk, Хj), где Хj; Хi и Хk - любые три вектора из Ер.

Значение d(Хi, Хj) для Хi и Хj называется расстоянием между Хi и Хj и эквивалентно расстоянию между Gi и Gj соответственно выбранным характеристикам (F1, F2, F3, ..., Fр).

Наиболее часто употребляются следующие функции расстояний:

1. Евклидово расстояние d2(Хi , Хj) =

2. l1 - норма d1(Хi , Хj) =

3. Сюпремум - норма d¥ (Хi , Хj) = sup

k = 1, 2, ..., р

4. lp - норма dр(Хi , Хj) =

Евклидова метрика является наиболее популярной. Метрика l1 наиболее легкая для вычислений. Сюпремум-норма легко считается и включает в себя процедуру упорядочения, а lp - норма охватывает функции расстояний 1, 2, 3,.

Пусть n измерений Х1, Х2,..., Хn представлены в виде матрицы данных размером p ´n:

Тогда расстояние между парами векторов d(Хi , Хj) могут быть представлены в виде симметричной матрицы расстояний:

Понятием, противоположным расстоянию, является понятие сходства между объектами Gi. и Gj. Неотрицательная вещественная функция S(Хi ; Хj) = Sij называется мерой сходства, если:

1) 0£ S(Хi , Хj)<1 для Хi¹ Хj

2) S(Хi , Хi) = 1

3) S(Хi , Хj) = S(Хj , Хi)

Пары значений мер сходства можно объединить в матрицу сходства:

Величину Sij называют коэффициентом сходства.

1.3. Методы кластерного анализа.

Сегодня существует достаточно много методов кластерного анализа. Остановимся на некоторых из них (ниже приводимые методы принято называть методами минимальной дисперсии).

Пусть Х - матрица наблюдений: Х = (Х1, Х2,..., Хu) и квадрат евклидова расстояния между Хi и Хj определяется по формуле:

1) Метод полных связей.

Суть данного метода в том, что два объекта, принадлежащих одной и той же группе (кластеру), имеют коэффициент сходства, который меньше некоторого порогового значения S. В терминах евклидова расстояния d это означает, что расстояние между двумя точками (объектами) кластера не должно превышать некоторого порогового значения h. Таким образом, h определяет максимально допустимый диаметр подмножества, образующего кластер.

2) Метод максимального локального расстояния.

Каждый объект рассматривается как одноточечный кластер. Объекты группируются по следующему правилу: два кластера объединяются, если максимальное расстояние между точками одного кластера и точками другого минимально. Процедура состоит из n - 1 шагов и результатом являются разбиения, которые совпадают со всевозможными разбиениями в предыдущем методе для любых пороговых значений.

3) Метод Ворда.

В этом методе в качестве целевой функции применяют внутригрупповую сумму квадратов отклонений, которая есть ни что иное, как сумма квадратов расстояний между каждой точкой (объектом) и средней по кластеру, содержащему этот объект. На каждом шаге объединяются такие два кластера, которые приводят к минимальному увеличению целевой функции, т.е. внутригрупповой суммы квадратов. Этот метод направлен на объединение близко расположенных кластеров.

4) Центроидный метод.

Расстояние между двумя кластерами определяется как евклидово расстояние между центрами (средними) этих кластеров:

d2 ij = (`X –`Y)Т(`X –`Y) Кластеризация идет поэтапно на каждом из n–1 шагов объединяют два кластера G и p, имеющие минимальное значение d2ij Если n1 много больше n2, то центры объединения двух кластеров близки друг к другу и характеристики второго кластера при объединении кластеров практически игнорируются. Иногда этот метод иногда называют еще методом взвешенных групп.

1.4 Алгоритм последовательной кластеризации.

Рассмотрим Ι = (Ι1, Ι2, … Ιn) как множество кластеров {Ι1}, {Ι2},…{Ιn}. Выберем два из них, например, Ι i и Ι j, которые в некотором смысле более близки друг к другу и объединим их в один кластер. Новое множество кластеров, состоящее уже из n-1 кластеров, будет:

{Ι1}, {Ι2}…, {Ι i , Ι j}, …, {Ιn}.

Повторяя процесс, получим последовательные множества кластеров, состоящие из (n-2), (n-3), (n–4) и т.д. кластеров. В конце процедуры можно получить кластер, состоящий из n объектов и совпадающий с первоначальным множеством Ι = (Ι1, Ι2, … Ιn).

В качестве меры расстояния возьмем квадрат евклидовой метрики di j2. и вычислим матрицу D = {di j2}, где di j2 - квадрат расстояния между

Ι1 Ι2 Ι3 …. Ιn
Ι1 0 d122 d132 …. d1n2
Ι2 0 d232 …. d2n2
Ι3 0 …. d3n2
…. …. ….
Ιn 0

Пусть расстояние между Ι i и Ι j будет минимальным:

di j2 = min {di j2, i ¹ j}. Образуем с помощью Ι i и Ι j новый кластер

{Ι i , Ι j}. Построим новую ((n-1), (n-1)) матрицу расстояния

{Ι i , Ι j} Ι1 Ι2 Ι3 …. Ιn
{Ι i ; Ι j} 0 di j21 di j22 di j23 …. di j2n
Ι1 0 d122 d13 …. d12n
Ι2 0 di j21 …. d2n
Ι3 0 …. d3n
Ιn 0

(n-2) строки для последней матрицы взяты из предыдущей, а первая строка вычислена заново. Вычисления могут быть сведены к минимуму, если удастся выразить di j2k,k = 1, 2,…, n; (k ¹ i ¹ j) через элементы первоначальной матрицы.

Исходно определено расстояние лишь между одноэлементными кластерами, но надо определять расстояния и между кластерами, содержащими более чем один элемент. Это можно сделать различными способами, и в зависимости от выбранного способа мы получают алгоритмы кластер анализа с различными свойствами. Можно, например, положить расстояние между кластером i + j и некоторым другим кластером k, равным среднему арифметическому из расстояний между кластерами i и k и кластерами j и k:

di+j,k = ½ (di k + dj k).

Но можно также определить di+j,k как минимальное из этих двух расстояний:

di+j,k = min (di k + dj k).

Таким образом, описан первый шаг работы агломеративного иерархического алгоритма. Последующие шаги аналогичны.

Довольно широкий класс алгоритмов может быть получен, если для перерасчета расстояний использовать следующую общую формулу:

di+j,k = A(w) min(dik djk) + B(w) max(dik djk), где

A(w) = , если dik £ djk

A(w) = , если dik > djk

B(w) =, если dik £ djk

B(w) = , если dik > djk

где ni и nj - число элементов в кластерах i и j, а w – свободный параметр, выбор которого определяет конкретный алгоритм. Например, при w = 1 мы получаем, так называемый, алгоритм «средней связи», для которого формула перерасчета расстояний принимает вид:

di+j,k =

В данном случае расстояние между двумя кластерами на каждом шаге работы алгоритма оказывается равным среднему арифметическому из расстояний между всеми такими парами элементов, что один элемент пары принадлежит к одному кластеру, другой - к другому.

Наглядный смысл параметра w становится понятным, если положить w®¥. Формула пересчета расстояний принимает вид:

di+j,k = min (di,k djk)

Это будет так называемый алгоритм «ближайшего соседа», позволяющий выделять кластеры сколь угодно сложной формы при условии, что различные части таких кластеров соединены цепочками близких друг к другу элементов. В данном случае расстояние между двумя кластерами на каждом шаге работы алгоритма оказывается равным расстоянию между двумя самыми близкими элементами, принадлежащими к этим двум кластерам.

Довольно часто предполагают, что первоначальные расстояния (различия) между группируемыми элементами заданы. В некоторых задачах это действительно так. Однако, задаются только объекты и их характеристики и матрицу расстояний строят исходя из этих данных. В зависимости от того, вычисляются ли расстояния между объектами или между характеристиками объектов, используются разные способы.

В случае кластер анализа объектов наиболее часто мерой различия служит либо квадрат евклидова расстояния

(где xih, xjh - значения h-го признака для i-го и j-го объектов, а m - число характеристик), либо само евклидово расстояние. Если признакам приписывается разный вес, то эти веса можно учесть при вычислении расстояния

Иногда в качестве меры различия используется расстояние, вычисляемое по формуле:

которые называют: "хэмминговым", "манхэттенским" или "сити-блок" расстоянием.

Естественной мерой сходства характеристик объектов во многих задачах является коэффициент корреляции между ними

где mi ,mj ,di ,dj - соответственно средние и среднеквадратичные отклонения для характеристик i и j. Мерой различия между характеристиками может служить величина 1 - r. В некоторых задачах знак коэффициента корреляции несуществен и зависит лишь от выбора единицы измерения. В этом случае в качестве меры различия между характеристиками используется ô1 - ri j ô

1.5 Число кластеров.

Очень важным вопросом является проблема выбора необходимого числа кластеров. Иногда можно m число кластеров выбирать априорно. Однако в общем случае это число определяется в процессе разбиения множества на кластеры.

Проводились исследования Фортьером и Соломоном, и было установлено, что число кластеров должно быть принято для достижения вероятности a того, что найдено наилучшее разбиение. Таким образом, оптимальное число разбиений является функцией заданной доли b наилучших или в некотором смысле допустимых разбиений во множестве всех возможных. Общее рассеяние будет тем больше, чем выше доля b допустимых разбиений. Фортьер и Соломон разработали таблицу, по которой можно найти число необходимых разбиений. S(a,b) в зависимости от a и b (где a - вероятность того, что найдено наилучшее разбиение, b - доля наилучших разбиений в общем числе разбиений) Причем в качестве меры разнородности используется не мера рассеяния, а мера принадлежности, введенная Хользенгером и Харманом. Таблица значений S(a,b) приводится ниже.

Таблица значений S(a,b)

b \ a 0.20 0.10 0.05 0.01 0.001 0.0001
0.20 8 11 14 21 31 42
0.10 16 22 29 44 66 88
0.05 32 45 59 90 135 180
0.01 161 230 299 459 689 918
0.001 1626 2326 3026 4652 6977 9303
0.0001 17475 25000 32526 55000 75000 100000

Довольно часто критерием объединения (числа кластеров) становится изменение соответствующей функции. Например, суммы квадратов отклонений:

Процессу группировки должно соответствовать здесь последовательное минимальное возрастание значения критерия E. Наличие резкого скачка в значении E можно интерпретировать как характеристику числа кластеров, объективно существующих в исследуемой совокупности.

Итак, второй способ определения наилучшего числа кластеров сводится к выявлению скачков, определяемых фазовым переходом от сильно связанного к слабосвязанному состоянию объектов.

1.6 Дендограммы.

Наиболее известный метод представления матрицы расстояний или сходства основан на идее дендограммы или диаграммы дерева. Дендограмму можно определить как графическое изображение результатов процесса последовательной кластеризации, которая осуществляется в терминах матрицы расстояний. С помощью дендограммы можно графически или геометрически изобразить процедуру кластеризации при условии, что эта процедура оперирует только с элементами матрицы расстояний или сходства.

Существует много способов построения дендограмм. В дендограмме объекты располагаются вертикально слева, результаты кластеризации – справа. Значения расстояний или сходства, отвечающие строению новых кластеров, изображаются по горизонтальной прямой поверх дендограмм.

На рисунке 1 показан один из примеров дендограммы. Рис 1 соответствует случаю шести объектов (n=6) и k характеристик (признаков). Объекты А и С наиболее близки и поэтому объединяются в один кластер на уровне близости, равном 0,9. Объекты D и Е объединяются при уровне 0,8. Теперь имеем 4 кластера:

Вид дендограммы зависит от выбора меры сходства или расстояния между объектом и кластером и метода кластеризации. Наиболее важным моментом является выбор меры сходства или меры расстояния между объектом и кластером.

Число алгоритмов кластерного анализа слишком велико. Все их можно подразделить на иерархические и неиерархические.

Иерархические алгоритмы связаны с построением дендограмм и делятся на:

а) агломеративные, характеризуемые последовательным объединением исходных элементов и соответствующим уменьшением числа кластеров;

б) дивизимные (делимые), в которых число кластеров возрастает, начиная с одного, в результате чего образуется последовательность расщепляющих групп.

Алгоритмы кластерного анализа имеют сегодня хорошую программную реализацию, которая позволяет решить задачи самой большой размерности.

1.7 Данные

Кластерный анализ можно применять к интервальным данным, частотам, бинарными данным. Важно, чтобы переменные изменялись в сравнимых шкалах.

Неоднородность единиц измерения и вытекающая отсюда невозможность обоснованного выражения значений различных показателей в одном масштабе приводит к тому, что величина расстояний между точками, отражающими положение объектов в пространстве их свойств, оказывается зависящей от произвольно избираемого масштаба. Чтобы устранить неоднородность измерения исходных данных, все их значения предварительно нормируются, т.е. выражаются через отношение этих значений к некоторой величине, отражающей определенные свойства данного показателя. Нормирование исходных данных для кластерного анализа иногда проводится посредством деления исходных величин на среднеквадратичное отклонение соответствующих показателей. Другой способ сводиться к вычислению, так называемого, стандартизованного вклада. Его еще называют Z-вкладом.

Z-вклад показывает, сколько стандартных отклонений отделяет данное наблюдение от среднего значения:

Где xi – значение данного наблюдения, – среднее, S – стандартное отклонение.

Среднее для Z-вкладов является нулевым и стандартное отклонение равно 1.

Стандартизация позволяет сравнивать наблюдения из различных распределений. Если распределение переменной является нормальным (или близким к нормальному), и средняя и дисперсия известны или оцениваются по большим выборным, то Z-вклад для наблюдения обеспечивает более специфическую информацию о его расположении.

Заметим, что методы нормирования означают признание всех признаков равноценными с точки зрения выяснения сходства рассматриваемых объектов. Уже отмечалось, что применительно к экономике признание равноценности различных показателей кажется оправданным отнюдь не всегда. Было бы, желательным наряду с нормированием придать каждому из показателей вес, отражающий его значимость в ходе установления сходств и различий объектов.

В этой ситуации приходится прибегать к способу определения весов отдельных показателей – опросу экспертов. Например, при решении задачи о классификации стран по уровню экономического развития использовались результаты опроса 40 ведущих московских специалистов по проблемам развитых стран по десятибалльной шкале:

обобщенные показатели социально-экономического развития – 9 баллов;

показатели отраслевого распределения занятого населения – 7 баллов;

показатели распространенности наемного труда – 6 баллов;

показатели, характеризующие человеческий элемент производительных сил – 6 баллов;

показатели развития материальных производительных сил – 8 баллов;

показатель государственных расходов – 4балла;

«военно-экономические» показатели – 3 балла;

социально-демографические показатели – 4 балла.

Оценки экспертов отличались сравнительно высокой устойчивостью.

Экспертные оценки дают известное основание для определения важности индикаторов, входящих в ту или иную группу показателей. Умножение нормированных значений показателей на коэффициент, соответствующий среднему баллу оценки, позволяет рассчитывать расстояния между точками, отражающими положение стран в многомерном пространстве, с учетом неодинакового веса их признаков.

Довольно часто при решении подобных задач используют не один, а два расчета: первый, в котором все признаки считаются равнозначными, второй, где им придаются различные веса в соответствии со средними значениями экспертных оценок.

1.8. Применение кластерного анализа.

Рассмотрим некоторые приложения кластерного анализа.

Деление стран на группы по уровню развития.

Изучались 65 стран по 31 показателю (национальный доход на душу населения, доля населения занятого в промышленности в %, накопления на душу населения, доля населения, занятого в сельском хозяйстве в %, средняя продолжительность жизни, число автомашин на 1 тыс. жителей, численность вооруженных сил на 1 млн. жителей, доля ВВП промышленности в %, доля ВВП сельского хозяйства в %, и т.д.)

Каждая из стран выступает в данном рассмотрении как объект, характеризуемый определенными значениями 31 показателя. Соответственно они могут быть представлены в качестве точек в 31-мерном пространстве. Такое пространство обычно называется пространством свойств изучаемых объектов. Сравнение расстояния между этими точками будет отражать степень близости рассматриваемых стран, их сходство друг с другом. Социально-экономический смысл подобного понимания сходства означает, что страны считаются тем более похожими, чем меньше различия между одноименными показателями, с помощью которых они описываются.

Первый шаг подобного анализа заключается в выявлении пары народных хозяйств, учтенных в матрице сходства, расстояние между которыми является наименьшим. Это, очевидно, будут наиболее сходные, похожие экономики. В последующем рассмотрении обе эти страны считаются единой группой, единым кластером. Соответственно исходная матрица преобразуется так, что ее элементами становятся расстояния между всеми возможными парами уже не 65, а 64 объектами – 63 экономики и вновь преобразованного кластера – условного объединения двух наиболее похожих стран. Из исходной матрицы сходства выбрасываются строки и столбцы, соответствующие расстояниям от пары стран, вошедших в объедение, до всех остальных, но зато добавляются строка и столбец, содержащие расстояние между кластером, полученным при объединении и прочими странами.

Расстояние между вновь полученным кластером и странами полагается равным среднему из расстояний между последними и двумя странами, которые составляют новый кластер. Иными словами, объединенная группа стран рассматривается как целое с характеристиками, примерно равными средним из характеристик входящих в него стран.

Второй шаг анализа заключается в рассмотрении преобразованной таким путем матрицы с 64 строками и столбцами. Снова выявляется пара экономик, расстояние между которыми имеет наименьшее значение, и они, так же как в первом случае, сводятся воедино. При этом наименьшее расстояние может оказаться как между парой стран, так и между какой-либо страной и объединением стран, полученным на предыдущем этапе.

Дальнейшие процедуры аналогичны описанным выше: на каждом этапе матрица преобразуется так, что из нее исключаются два столбца и две строки, содержащие расстояние до объектов (пар стран или объединений – кластеров), сведенных воедино на предыдущей стадии; исключенные строки и столбцы заменяются столбцом и строкой, содержащими расстояния от новых объединений до остальных объектов; далее в измененной матрице выявляется пара наиболее близких объектов. Анализ продолжается до полного исчерпания матрицы (т. е. до тех пор, пока все страны не окажутся сведенными в одно целое). Обобщенные результаты анализа матрицы можно представить в виде дерева сходства (дендограммы), подобного описанному выше, с той лишь разницей, что дерево сходства, отражающее относительную близость всех рассматриваемых нами 65 стран, много сложнее схемы, в которой фигурирует только пять народных хозяйств. Это дерево в соответствии с числом сопоставляемых объектов включает 65 уровней. Первый (нижний) уровень содержит точки, соответствующие каждых стране в отдельности. Соединение двух этих точек на втором уровне показывает пару стран, наиболее близких по общему типу народных хозяйств. На третьем уровне отмечается следующее по сходству парное соотношение стран (как уже упоминалось, в таком соотношении может находиться либо новая пара стран, либо новая страна и уже выявленная пара сходных стран). И так далее до последнего уровня, на котором все изучаемые страны выступают как единая совокупность.

В результате применения кластерного анализа были получены следующие пять групп стран:

афро-азиатская группа;

латино-азиатская группа;

латино-среднеземнаморская группа;

группа развитых капиталистических стран (без США)

Введение новых индикаторов сверх используемого здесь 31 показателя или замена их другими, естественно, приводят к изменению результатов классификации стран.

2. Деление стран по критерию близости культуры.

Как известно маркетинг должен учитывать культуру стран (обычаи, традиции, и т.д.).

Посредством кластеризации были получены следующие группы стран:

арабские;

ближневосточные;

скандинавские;

германоязычные;

англоязычные;

романские европейские;

латиноамериканские;

дальневосточные.

3. Разработка прогноза конъюнктуры рынка цинка.

Кластерный анализ играет важную роль на этапе редукции экономико-математической модели товарной конъюнктуры, способствуя облегчению и упрощению вычислительных процедур, обеспечению большей компактности получаемых результатов при одновременном сохранении необходимой точности. Применение кластерного анализа дает возможность разбить всю исходную совокупность показателей конъюнктуры на группы (кластеры) по соответствующим критериям, облегчая тем самым выбор наиболее репрезентативных показателей.

Кластерный анализ широко используется для моделирования рыночной конъюнктуры. Практически основное большинство задач прогнозирования опирается на использование кластерного анализа.

Например, задача разработки прогноза конъюнктуры рынка цинка.

Первоначально было отобрано 30 основных показателей мирового рынка цинка:

Х1 - время

Показатели производства:

Х2 - в мире

Х4 - Европе

Х5 - Канаде

Х6 - Японии

Х7 - Австралии

Показатели потребления:

Х8 - в мире

Х10 - Европе

Х11 - Канаде

Х12 - Японии

Х13 - Австралии

Запасы цинка у производителей:

Х14 - в мире

Х16 - Европе

Х17 - других странах

Запасы цинка у потребителей:

Х18 - в США

Х19 - в Англии

Х10 - в Японии

Импорт цинковых руд и концентратов (тыс. тонн)

Х21 - в США

Х22 - в Японии

Х23 - в ФРГ

Экспорт цинковых руд и концентратов (тыс. тонн)

Х24 - из Канады

Х25 - из Австралии

Импорт цинка (тыс. тонн)

Х26 - в США

Х27 - в Англию

Х28 - в ФРГ

Экспорт цинка (тыс. Тонн)

Х29 - из Канады

Х30 - из Австралии

Для определения конкретных зависимостей был использован аппарат корреляционно-регрессионного анализа. Анализ связей производился на основе матрицы парных коэффициентов корреляции. Здесь принималась гипотеза о нормальном распределении анализируемых показателей конъюнктуры. Ясно, что rij являются не единственно возможным показателем связи используемых показателей. Необходимость использования кластерного анализа связано в этой задаче с тем, что число показателей влияющих на цену цинка очень велико. Возникает необходимость их сократить по целому ряду следующих причин:

а) отсутствие полных статистических данных по всем переменным;

б) резкое усложнение вычислительных процедур при введении в модель большого числа переменных;

в) оптимальное использование методов регрессионного анализа требует превышения числа наблюдаемых значений над числом переменных не менее, чем в 6-8 раз;

г) стремление к использованию в модели статистически независимых переменных и пр.

Проводить такой анализ непосредственно на сравнительно громоздкой матрице коэффициентов корреляции весьма затруднительно. С помощью кластерного анализа всю совокупность конъюнктурных переменных можно разбить на группы таким образом, чтобы элементы каждого кластера сильно коррелировали между собой, а представители разных групп характеризовались слабой коррелированностью.

Для решения этой задачи был применен один из агломеративных иерархических алгоритмов кластерного анализа. На каждом шаге число кластеров уменьшается на один за счет оптимального, в определенном смысле, объединения двух групп. Критерием объединения является изменение соответствующей функции. В качестве функции такой были использованы значения сумм квадратов отклонений вычисляемые по следующим формулам:

(j = 1, 2, …, m),

где j - номер кластера, n - число элементов в кластере.

rij - коэффициент парной корреляции.

Таким образом, процессу группировки должно соответствовать последовательное минимальное возрастание значения критерия E.

На первом этапе первоначальный массив данных представляется в виде множества, состоящего из кластеров, включающих в себя по одному элементу. Процесс группировки начинается с объединения такой пары кластеров, которое приводит к минимальному возрастанию суммы квадратов отклонений. Это требует оценки значений суммы квадратов отклонений для каждого из возможных объединений кластеров. На следующем этапе рассматриваются значения сумм квадратов отклонений уже для кластеров и т.д. Этот процесс будет остановлен на некотором шаге. Для этого нужно следить за величиной суммы квадратов отклонений. Рассматривая последовательность возрастающих величин, можно уловить скачок (один или несколько) в ее динамике, который можно интерпретировать как характеристику числа групп «объективно» существующих в исследуемой совокупности. В приведенном примере скачки имели место при числе кластеров равном 7 и 5. Далее снижать число групп не следует, т.к. это приводит к снижению качества модели. После получения кластеров происходит выбор переменных наиболее важных в экономическом смысле и наиболее тесно связанных с выбранным критерием конъюнктуры - в данном случае с котировками Лондонской биржи металлов на цинк. Этот подход позволяет сохранить значительную часть информации, содержащейся в первоначальном наборе исходных показателей конъюнктуры.

1 . Адрианов А.Ю., Линцен Л., Кластеры как инструмент развития некоммерческих организаций // www.dis.ru.

2. Алимбаев А.А., Притворова Т.П., Таубаев А.А. Формирование и развитие кластеров в условиях индустриально-инновационного развития Республики Казахстан // www.liter.kz

3. Аналитическая записка за июль-август 2006 года Территориального органа Федеральной службы государственной статистики по Астраханской области

4. Блудова С.Н. Региональные кластеры как способ управления внешнеэкономическим комплексом региона // www.ncstu.ru

5. Бородатов А.В., Кожевникова В.Д. Инициатива по созданию севастопольского туристско-рекреационного кластера // Бизнес-партнер. - 2004. - №10. - с. 33-37.

6. Буряк А.П., Воропов А.Г. Кластерный анализ -- база управления конкурентоспособностью на макроуровне // Маркетинг. - 2003. - №1. - с. 34-40.

7. Давыдов А.Р., Лялькина Г.Б. Новые формы организации инновационного процесса. Международный опыт // www.dis.ru

8. Дранев Я.Н. Кластерный подход к экономическому развитию территорий. - М.: Издательский дом "Сканрус", 2003. - 195 с.

9. Засимова Л.С. Темпы роста производства пищевой промышленности Астраханской области // www.volgainform.ru

10. Капустин А.Н. Туринвестиции: качество против количества // www. astrakhan.net

11. Кутьин В.М. Территориальная экономическая кластеризация (классификация) регионов России: социально-географический аспект// Безопасность Евразии. - 2003. - №1. - с. 21-28.

12. Ли С. Кластеры - новые формы организации инновационного процесса // www.naukakaz.kz.

13. Лозинский С., Праздничных А. Конкурентоспособность и отраслевые кластеры: новая повестка дня для российского бизнеса и власти // Мир стройиндустрии. - 2003. - №2. - с. 32-41.

14. Мартынов Л.М. Темпы роста производства пищевой промышленности Астраханской области // www.caspy.net

15. Мельникова С.В. Основа процветания астраханского туризма - особая экологическая политика // Туризм в России. - 2006. - №8. - с. 31-35.

16. Мигранян А.А. Теоретические аспекты формирования конкурентоспособных кластеров // www.dis.ru.

17. Михеев Ю.В., Хасаев Г.Р. Кластеры через партнерство к будущему// www.ptpu.ru.

18. Николаев М.В. Кластерная концентрация эффективной интеграции регионов в глобальную экономику // www.subcontract.ru

19. Перкина М.В. Гостиничный бизнес берёт звёзды с неба// Астраханские ведомости. - 2006. - №19. - с. 3.

20. Портер М.Э. Конкуренция: Пер. с англ.: Уч. пос. - М.: Издательский дом Вильямс, 2000. - 495 с.

21. Портер М. Международная конкуренция. - М.: Междунар. отношения, 1993.- 869 с.

22. Постановление Правительства Астраханской области от 2510.2006 №368-П об отраслевой целевой программе "Развитие туризма в Астраханской области на 2007 год".

23. Программа социально-экономического развития Астраханской области с учётом удвоения валового регионального продукта на 2005-2007 гг.

24. Свиридов А.П. Астраханскую область может спасти экологический туризм // www.volga-astrakhan.ru

25. Симачев Ю.В. Кластеризация как способ обеспечения конкурентоспособности региона // www.clusters-net.ru

26. Соколенко С.И. От кластерных исследований к развитию сетевых коммерческо-производственных структур// Российский экономический журнал. - 2004. - №6. - с. 10-15.

27. Соколенко С.И. Развитие туристическо-рекреационных кластеров: региональная инициатива Украины// Регион. - 2004. - №2. - с. 19-22.

28. Спанкулова Л.С. Проблемы развития кластерной экономики промышленности на региональном уровне // АльПари. - 2004. - №2. - с. 16-

29. Статистический ежегодник социально-экономического развития Астраханской области 2004, 2005 / Территориальный орган Федеральной службы государственной статистики по Астраханской области

30. Стеблякова Л.П. Проблемы создания и развития кластеров экономики: опыт зарубежных стран // Труды Карагандинского университета бизнеса, управления и права. - 2005. - №2. - с. 22-29.

31. Стеблякова Л.П., Вечкинзова Е.А. Формирование кластеров конкурентоспособности в центральном Казахстане // www.liter.kz

32. Стратегический план развития муниципального образования "Город Астрахань" на 2005 - 2010 гг.

33. Стратегия развития туризма в Астраханской области на средне- и долгосрочную перспективы 2005 г.

34. Филиппов П. Кластеры конкурентоспособности // Эксперт. - 2003.- №43. - с. 10-15.

35. Цихан Т.В. Кластерная теория экономического развития// Теория и практика управления. - 2003. - №5. - с. 22-25.

36 . Чулок А.А. Механизмы повышения конкурентоспособности экономики регионов // www.subcontract.ru

37. Шеховцова Л.С. Кластер как современный инструмент повышения конкурентоспособности в регионе // www.clusters-net.ru

38. www.astrahanpages.com

39. www.astrasocial.ru

40. www. astrgorod.ru

41. www. astrobl.ru

42. www. asttour.ru

43. www.economy.astrobl.ru