II. БАЗОВЫЕ ПРОЦЕДУРЫ АНАЛИЗА ДАННЫХ В ГЕОЭКОЛОГИИ 8. АНАЛИЗ ГРУППИРОВАНИЯ И КЛАСТЕРИЗАЦИЯ КАК СПОСОБЫ КЛАССИФИЦИРОВАНИЯ И РАЙОНИРОВАНИЯ 8.1. Районирование как типология и районирование как классификация 8.2. Анализ группирования как способ районирования в ArcMAP 8.3. Кластеризация как способ классифицирования в SAGA GIS 8.4. Районирование по набору разнородных признаков

II. БАЗОВЫЕ ПРОЦЕДУРЫ АНАЛИЗА ДАННЫХ В ГЕОЭКОЛОГИИ

8. АНАЛИЗ ГРУППИРОВАНИЯ И КЛАСТЕРИЗАЦИЯ КАК СПОСОБЫ КЛАССИФИЦИРОВАНИЯ И РАЙОНИРОВАНИЯ

8.1. Районирование как типология и районирование как классификация

Районирование как типология и районирование как классификация своего рода "классика географии", процедуры, предполагающие методы дифференциации (разделения) совокупности матрицы операционно-территориальных единиц (ОТЕ) по одному или нескольким признакам.

Здесь важно не запутаться в понятиях. Простейшая классификация может быть проведена по любому признаку или свойству. Так, если взять значения переменной с континуальной шкалой (например, значения абсолютной высоты), то имея показатель средней высоты для каждого района можно оформить картограмму, выбрав, например, 10 классов любым способом (равные интервалы или естественные границы) и это тоже будет "классификацией", поскольку в результате выделятся более "высокие", "низкие" или "средневысотные" районы (Рис. 8.1).


Рис. 8.1 Средняя высота поверхности районов "Старой" Москвы - 10 таксонов, выделенных способом "естественные границы"

Сложнее обстоит дело с переменными, выражаемыми ранговыми или номинативными шкалами, такими как виды геоморфологических поверхностей, или типы земельно-ландшафтного покрова (LULC) – в этом случае единицы ОТЕ (районы) различаются долей площади каждого класса (Рис. 8.2).


Рис. 8.2 Типы геоморфологических поверхностей в пределах административных районов "Старой" Москвы

Можно строить картограммы по отдельным классам чтобы выяснить, например, какую долю занимают поймы в пределах разных районов. В результате отказа от индивидуальных значений площади пойм и перехода к интервалам значений мы получаем районирование, дифференцирующие районы Москвы по единственному признаку - доле пойменных поверхностей (Рис. 8.3).


Рис. 8.3 Доля пойм в общей площади районов "Старой" Москвы

Но, допустим, что нас интересуют не только поймы, но и все остальные формы рельефа; иными словами, мы хотим получить ответы на два вопроса:

  1. Как различаются административные районы Москвы по представленности (есть-нет) и соотношению (доля площади) в их пределах разных форм рельефа?
  2. Каким образом можно сгруппировать административные районы по этим двум признакам?

Именно в таком порядке был бы озадачен вопросами специалист, пытающийся провести геоморфологическое "районирование" Москвы по административной сетке.

В современных геоинформационных системах для решения задач классификации множества объектов предлагается несколько инструментов кластерного анализа, которые с легкой руки разработчиков ESRI получили второе наименование (используемые в продуктах семейства ARCGIS) - Анализ Группирования; но мы должны понимать, что в данном случае "группы" это те же "кластеры", т.е., "таксоны" или "классы".

Эти инструменты реализованы в пакетах ArcMAP10.x (Анализ Группирования) и SAGA GIS (Кластерный Анализ). На наш взгляд имеет смысл применять их в комбинации (т.е., последовательно и совместно) – сравнивая (и выбирая) результаты процедуры, ибо в каждом из программных пакетов есть свои преимущества и свои недостатки.

Все сюжеты классифицирования и районирования можно разделить на две категории. Первая - сюжеты, когда число конечных классов известно, например, когда мы решаем задачу разделения множества местоположений по совокупности признаков на четыре известных класса (элювиальные, трансэлювиальные, трансаккумулятивные и аккумулятивные), или множество лесных выделов на шесть классов возраста. Вторая - сюжеты, когда нам неизвестно на какое число классов может быть разделено оптимальным образом множество объектов. Допустим, что есть совокупность водосборов с природными (гидрологическими, морфометрическими) и антропогенными (распаханность, застроенность) параметрами, и это множество необходимо разделить на некоторое число классов. Второй сюжет со всей очевидностью значительно сложнее первого: один эксперт сочтет, что необходимо выделить четыре класса водосборов, но другой может решить, что необходимо, по меньшей мере, семь классов. "Big Data" снабжают нас множеством данных, но зачастую эти данные заранее не "говорят" нам ничего или почти ничего о том, как может быть проведена классификация в многомерном пространстве факторов.


8.2. Анализ группирования как способ районирования в ArcMAP

Задача районирования, понимаемая как географический вариант более широкой (в общенаучном смысле) задачи классифицирования, распадается на две "подзадачи":

  • Определение условий соседства и "граничности" (число соседей и характер контакта) объектов (в ГИС-моделировании - полигонов) принадлежащих к одному классу,
  • Определение оптимального числа классов (таксонов), на которое необходимо разбить множество объектов (районов).

На традиционном для географии языке определение условий соседства означает различие между индивидуальным районированием - когда выделяемые районы одного типа соседствуют между собой (т.е., по сути, формируют единый ареал) и типологическим районированием, когда районы одного и того же типа могут располагаться в разных ареалах ("кластерах"). Индивидуальное районирование часто полагают дедуктивным, т.е., начинающимся сверху (top-down): всю область районирования делят на крупные отличающиеся друг от друга части, а затем на все более мелкие различающиеся ареалы, и каждый из них неповторим, индивидуален. Типологическое районирование, напротив индуктивно и начинается снизу (bottom-up): определяется комплекс свойств по которому задается тип и к нему подбираются подходящие, не обязательно расположенные рядом, далее выделяется следующий тип и так далее.

Инструмент Grouping Analysis|Анализ Группирования ArcMAP10.x позволяет задать условия соседства и граничности прозрачным и воспроизводимым образом, что выводит операцию районирования на новый, методически обоснованный уровень. Это обстоятельство важно не только для науки, но (и возможно в большей степени) для практики, поскольку районирование всегда было предметом, по поводу которого "ломались копья" многих научных школ. Классифицирования и районирование (как вариант классификации) были и остаются важным инструментом научного познания. На классификаторы и схемы районирования разного рода опираются все практики природоохранного регулирования, методы ландшафтного планирования и экологической реабилитации природных объектов, процедуры землеустройства, лесоустройства, подходы стратегического и градостроительного планирования.

Уникальность инструмента Grouping Analysis|Анализ Группирования заключается в том, что, придумав для этого способа классифицирования/районирования/кластеризации новое название - "группирование" (за что их неоднократно подвергали критике) - специалисты ESRI украсили его "вишенкой на торте", снабдив дополнительной опцией определения оптимального числа групп. Именно эта особенность привлекает к алгоритму пользователей, решающих самые разнообразные практические задачи.

Следует сразу отметить, что корректность и релевантность определения оптимального числа классов в качестве одного из результатов использования инструмента Grouping Analysis|Анализ Группирования не гарантирована, и в каждом конкретном случае предложенное число групп должно пристально оцениваться экспертом. Мы оставляем за пределами обсуждения отдельный (и почти "философский") вопрос о том, возможно ли вообще решить данную проблему "идеально" безотносительно конкретной задачи. Обособленность или специфичность любого класса определяется степенью дифференцированности привлеченных к анализу признаков-параметров разделения конкретного множества, но и сами эти признаки - каждый в отдельности - могут быть сложно распределенными в собственном пространстве.

Так или иначе, общий алгоритм Grouping Analysis|Анализ Группирования, может быть представлен следующим образом:

  1. Запускаем инструмент Grouping Analysis ArcMAP10.x для выявления оптимального числа классов, задавая при этом потенциально максимально возможное число- 15;
  2. Изучаем PDF-Отчет на предмет выявления оптимального числа "групп" (классов, или типов районов);
  3. Повторно запускаем Grouping Analysis ArcMAP10.x с выявленным оптимальным числом классов, интерпретируем результат;
  4. Запускаем Cluster Analysis (Shapes) кластеризацию в SAGA GIS для получения альтернативного варианта классификации в виде "кластеров", интерпретируем кластеры и сравниваем с результатом Анализа Группирования;
  5. Выбираем наиболее адекватный поставленной задаче инвариант дифференциации на группы/кластеры.

Продемонстрируем возможности классификации инструментом Анализ Группирования на примере шейп-файла районов "Старой" Москвы с извлеченными значениями доли, занимаемой каждой из 9 типов геоморфологических поверхностей. Таким образом, задача классификации - разделить районы Москвы по сочетанию (спектру) типов рельефа.



Рис. 8.4 Скриншот таблицы исходного шейп-файла районов "Старой Москвы"; значения полей: a1 - гляциально-аккумулятивная равнина, a2 - флювиогляциальная равнина, a3 - днища долин мелких водотоков, a4 - нерасчлененный аллювиальный комплекс, a5 - третья надпойменная терраса, a6 - пойма, a7 - вторая надпойменная терраса, a8 - первая надпойменная терраса, a9 - акватория Москвы-реки

Инструмент Grouping Analysis пакета ArcMAP10.x находится в наборе Mapping Clusters группы Spatial Statistic Tools; использование предполагает тщательную установку всех необходимых опций - в противном случае результат будет слабо интерпретируем.

Grouping Analysis
Input Features: Old_Moscow_reg
Unic ID Field: FID
Output Feature Class: ... Mscw_Reg_Group_15_exprmnt
Number of Group: 15 (*в первом запуске используем максимально возможное число групп для определения "оптимального" в пределах от 2 до 15)
Analysis Fields: a1, a2, a3, ... a9 (*перечисляем все поля учитываемых переменных исходной таблицы)
Spatial Constrains: NO_SPATIAL_CONSTRAINT
Distance Method: MANHATTAN
Initialization Method: Find Seeds Locations
Evaluate Optimal Number of Groups: check
Output Report File: ... 15_Group_exprmnt.pdf


Рис. 8.5 Диалоговое окно инструмента Grouping Analysis ArcGIS10.x

К специфическим (т.е., определяющим параметры работы инструмента) опциям относится Number of Group|Число Групп. При первом "прогоне" инструмента для определения оптимального числа будущих групп-классов имеет смысл задать максимум (15) - с большими значениями программа не работает, с другой стороны, непросто представить себе множество, которое мы способны разделить на большее количество классов, и, что важнее, затем подвергнуть их содержательной интерпретации.

Следующее поле - Analysis Field - предполагает указание полей, которые будут использоваться для классификации, в данном случае это поле исходного шейп-файла со значениями доли (в %) занимаемой каждым типом поверхности от площади отдельного района АТД Старой Москвы. Количество полей - т.е., число признаков, привлекаемых для классификации, сказывается на продолжительности работы инструмента. Характер данных полей влияет на результат классифицирования, опять-таки, в разбираемом (простейшем) кейсе все поля качественно однородны и относятся к одному признаку (тип рельефа) и распределены по единой (процентной) шкале. Когда привлекаются разные признаки, существующие в разных шкалах - результат может быть мало предсказуемым и в значительной степени зависимым от их подбора и комбинаторики данных.

В нижней части вкладки диалогового окна Grouping Analysis размещены остальные критические опции. Позиция Spatial Constrains|Пространственные Ограничения чрезвычайно важна, поскольку она определяет характер будущей классификации. Здесь мы сталкиваемся с традиционным теоретическим дискурсом географии и спорами о том, чем "типологическое"" районирование отличается от "индивидуального" [Гвоздецкий, 1979]. С позиций ГИС- моделирования процедуры "индивидуального физико-географического районирования" и "типологического районирования" могут быть осуществлены одним и тем же инструментом анализа - кластерным анализом - и различаются (1) определением условий соседства полигонов районов, (2) алгоритмом описания граничности и (3) способом измерения расстояний.

Иными словами, в кейсах индивидуального районирования мы как бы "идем сверху", в поисках различий разделяем все множество сначала на все более дробные (две, потом три-четыре и так далее) части, и при таком дедуктивном способе полигоны классов в выделяемых частях всегда будут граничить между собой и формировать единый "индивидуальный" (отличающийся от всех других) ареал. Опция, дифференцирующая индивидуальное районирование - характер граничности, поскольку результат будет различаться в зависимости от того как задаются условия соседства: "только углы полигонов", "только стороны полигонов", "углы и стороны полигонов" и т.д. (см. ниже). Заметим, что "угловатость" полигонов, это свойство, которое может быть присуще искусственным объектам (например - городским районам и кварталам, контурам сельскохозяйственных угодий), но которое сложно применять к природным объектам (речным бассейным, ландшафтам, лесным выделам и проч.). Поэтому на эксперта ложится дополнительная задача апробации разных опций соседства и граничности в сочетании с разными способами измерения расстояний между полигонами, а также интерпретации и сравнения результатов.

При типологическом районировании мы поступаем противоположным "индуктивным" образом: ищем сходные черты у отдельных полигонов и объединяем их, двигаясь снизу, при этом мы полагаем, что районы, принадлежащие к одному типу, не обязательно должны соседствовать между собой (т.е., их полигоны могут иметь, а могут и не иметь общую границу). Все остальные опции соседства и граничности здесь также должны апробироваться и оцениваться экспертно исходя из характера данных и ожидаемого результата.

Выбор траектории моделирования как раз и задается опцией Spatial Constrains, предлагающей целый ряд вариантов учета соседства, или взаимного расположения полигонов, а именно:

  • CONTIGUITY_EDGES_ONLY - класс формируется смежными полигонами, т.е., только полигоны, имеющие общее ребро, могут быть частью одного класса (жесткое условие смежности подходящее для индивидуального районирования);
  • CONTIGUITY_EDGES_CORNERS — класс формируется смежными полигонами, но при этом полигонам достаточно иметь общее ребро и/или общую вершину (смягченное условие смежности - полигоны по сути могут касаться друг друга только в одной "угловой" точке);
  • DELAUNAY_TRIANGULATION - естественные соседские отношения внутри класса основаны на триангуляции Делоне, полигоны в одном классе должны иметь хотя бы одного общего соседа, граничащего с другим полигоном этого же класса - (другой вариант смягченного условия соседства);
  • K_NEAREST_NEIGHBORS — условие соседства, основанное на параметре k-ближайшего, целочисленное значение которого (т.е., сколько смежных полигонов 2,3 ... 8 должен иметь каждый конкретный полигон класса) указывается пользователем (третий, регулируемый вариант смягченного соседства);
  • GET_SPATIAL_WEIGHTS_FROM_FILE - пространственные отношения определяются предварительно формируемым (инструмент Generate Spatial Weights) файлом Пространственных Весов (четвертый, регулируемый вариант смягченного соседства);
  • NO_SPATIAL_CONSTRAINT— объекты не обязательно должны находиться рядом друг с другом в пространстве чтобы быть частью одной группы (класса) - вариант, при котором полигон, принадлежащий к одному классу, может быть окружен полигонами других классов и не иметь соседа, принадлежащего к этому же классу.

Таким образом для типологического районирования подходит только последний шестой вариант, не задающий условий обязательного соседства. Заметим, что выражение NO_SPATIAL_CONSTRAINT при этом не запрещает соседства, т.е., полигоны относящиеся к одному классу могут как формировать, так и не формировать ареалы из смежных полигонов.

При выборе любого из вариантов смежности следует определить Distance Method|Метод вычисления Дистанции между объектами; здесь возможны два варианта: EUCLIDEAN — оценивается кратчайшее расстояние ("полет вороны"), MANHATTAN - оценивается как разность дистанций по двум осям координат X и Y, имитирующая путь таксомотора по улицам между городскими кварталами - отсюда экзотичное название.

Наконец, последняя опция - указание на оценку оптимального числа групп (классов) - Evaluate Optimal Number of Groups, в этой позиции при первом прогоне алгоритма указывается максимально возможное число групп (15), при последующих - рекомендованное и/или экспертное.

После первого прогона инструмента Grouping Analysis на выходе новый шейп-файл с 15 ("заказанными") классами, но нас в данном случае больше интересует PDF-отчет, который содержит серии таблиц, объясняющие как распределен конкретный признак (скажем доля пойм или террас) при разном числе групп (т.е., типов районов), начиная с 2 групп.

Верхняя схема отчета демонстрирует принцип построения статистического "ящика с усами": в центре ящика – черная линия медианы, значение, выше и ниже которого располагается ровно половина всех значений выборки. Левый и правый края ящика маркируют значение нижней и верхней квартили (четверти из общего числа значений выборки). Наконец левый и правый "ус" показывают соответственно самое низкое и самое высокое значение. Цветная точка-окружность – маркирует среднее арифметическое значение. Все знаки +, не попадающие в верхний или нижний ящичек, представляют собой выбросы в данных.


Рис. 8.6 Ящичковая диаграмма, демонстрирующая распределение статистик

Для каждого числа классов (групп), апробированных утилитой, в файле PDF-Отчета построены собственные таблицы значений каждой переменной (Mean, Std.Dev, Min, Max, Share) и представлены ящичковые диаграммы. Последовательно просматривая данные таблиц и диаграммы, можно судить о том, насколько удачно распределяется конкретная переменная при данном числе групп: в "хороших" вариантах круглый пунсон Mean|Средней должен оказаться внутри "ящика" и располагаться как можно ближе к черте медианы.


Рис. 8.7 Таблица статистик и графики для варианта 14 выходных классов в файле PDF-Отчета

Просматривая цветные серии таблиц, мы можем видеть насколько сильно "разлетаются" значения при заданном числе групп в процессе перебора программой вариантов от 2 до 15 групп.

Диаграмма Pseudo F-statistic на предпоследней странице PDF-Отчета показывает Оптимальное число Групп размещением голубого пунсона на осях диапазона значений Minimum-Maximum, при этом Mean|Среднее и Median|Медианного значения отражены соответственно синим кружочком и красным ромбом. Иногда это разочаровывающе малое число групп-классов: как в данном случае всего 3 группы районов (Рис.8.8).


Рис.8.8 График Pseudo F-statistic в файле PDF-отчета

В подобной ситуации расхождения результатов группирования с ожиданиями (и здравым смыслом) необходимо прибегнуть к экспертной оценке, т.е., подключить исходный слой геоморфологических поверхностей и наложить сверху прозрачный слой районов Москвы. Внимательно анализируя (Рис. 8.2) данные несложно прийти к заключению, что классов районов по "спектру" типов рельефа все же больше чем три. Можно выделить районы следующих типов:

1) с преобладанием акватории и поймы,
2) с преобладанием акватории, поймы и первой надпойменной террасы,
3) с абсолютным доминированием надпойменной террасы,
4) с преобладанием первой и второй надпойменной террас,
5) с абсолютным доминированием третьей надпойменной террасой,
6) с преобладанием третьей террасы и флювиогляциальной равнины,
7) с преобладанием гляциально-аккумулятивной моренной возвышенности,
8) с сочетанием флювиогляциальной и гляциально-аккумулятивной поверхностей.

Экспертный выбор оптимального числа классов (8) не так уж и плох: обратим внимание на обстоятельство близкого расположения на графике Pseudo F-statistic при числе групп от 6 - 8 синего пунсона Среднее и красного ромбика Медианное. Попытаемся реализовать различные варианты группирования, запустив инструмент с одинаковым числом ожидаемых классов (8) дважды: сначала без пространственный ограничений NO_SPATIAL_CONSTRAINT, затем – с ограничениями CONTIGUITY_EDGES_ONLY - условие, при котором класс формируется смежными полигонами, имеющими общее ребро.


Рис. 8.9 a) результаты Grouping Analysis для восьми классов без пространственный ограничений, b) результаты Grouping Analysis для восьми классов с ограничениями по соседству с условием общего ребра смежных полигонов

Как и ожидалось, введение условий соседства для группируемых районов переводит всю процедуру с языка типологического районирования (районы, принадлежащие к одному из восьми типов, могут встречаться в разных частях города) на язык индивидуального районирования (когда все районы-полигоны данного типа граничат друг с другом и составляют один общий ареал). Таковы результаты с формально-логической точки зрения. Однако содержательно (с экспертных позиций) они далеко не равнозначны: вариант типологической классификации (Рис. 8.9a) в значительно большей степени соответствует нашим представлениям о доминировании и сочетании тех или иных форм рельефа в пределах районов АТД Москвы. Введенное условие соседства привело к неоправданно широкому обобщению, сформировались классы (например, 6 и 4), которые объединили совсем непохожие районы с преобладанием в одним случаях - аккумулятивных гляциальных равнин, в других - террасового комплекса (Рис. 8.9b).

Оптимизировать результат для индивидуального районирования возможно увеличивая число классов и меняя условия соседства (например введя условие K_NEAREST_NEIGHBORS соседства), но в этом случае следует быть готовым и к более детальной содержательной интерпретации итоговых классов (Рис. 8.10).


Рис. 8.10 Результаты Grouping Analysis для 15 классов с пространственными ограничениями и K_NEAREST_NEIGHBORS условием смежности (соседства) отдельных районов значительно лучше отражают реальные сочетания типов рельефа в районах "Старой" Москвы

Таким образом, успех и корректность классификации и районирования средствами ГИС-анализа тесно связаны с внимательным отношением к деталям, т.е., опциям построения модели: "дьявол кроется в мелочах". Важно помнить три несложных правила:

  1. При классифицировании (районировании) без пространственных ограничений результат будет варьировать в зависимости от метода оценки дистанции Distance Method.
  2. В случае включения опции Spatial Constraints результат может изменяться (или не изменяться!) при выборе разных условий смежности-соседства.
  3. Группирование радикально трансформируется в зависимости от числа конечных классов - в общем случае меньшее число классов формирует более обширные ареалы объединенных полигонов, принадлежащих к одному типу, и наоборот, большее число классов создает "островные" кластеры из двух-трех-четырех полигонов, при этом фрагментированность общей мозаики районов всегда будет возрастать с увеличением числа классов.

Резюме: если инструмент Grouping Analysis используется для исследовательских целей, то целесообразно попробовать запускать его с разными опциями. Об этом говорится и в соответствующем разделе (справки АркГИС), которую всегда полезно изучить до запуска алгоритма.

Интерпретация результатов Анализа Группирования связана с дополнительной необходимостью изучения таблицы выходного шейп-файла "групп" Reg_Old_Moscow (Рис. 8.11), где номер группы указан в поле SS_Group.


Рис. 8.11 Таблица шейп-файла групп - значения классов в поле SS_Group.

Для обобщения параметров и получения представлений о специфике групп можно прибегнуть к одному из трех способов:

  1. использовать инструмент Summary Statistics набора Statistics группы Analysis Tools;
  2. использовать инструмент Dissolve|Слияние - по признаку SS_Group;
  3. перебросить таблицу шейпа в Excel (Table to Excel) и воспользоваться опцией Cводная Таблица.

Интерфейс утилиты Summary Statistics|Суммарная Статистика несложен: перечисляем поля расчета средних (в нашем случае это средняя площадь ареалов типов рельефа) и указываем номер группы (кластера) поля SS GROUP – в качестве Case field.


Рис. 8.12 Интерфейс утилиты Summary Statistics

В выходной таблице Summary Statistics в строке номера каждой группы мы увидим параметр Frequency, указывающий сколько административных районов попало в данный тип и далее, по столбцам – среднюю (для типа) долю всех мезоформ рельефа. Таблица позволят нам интерпретировать типы кластеров (если вспомнить значения переменных в исходном растре геоморфологических поверхностей). Так очевидно, что тип 1 - отличается господством гляциально-аккумулятивных равнин (моренных холмов), а тип 6 - это пойма в сочетании с террасами…

Рис. 8.13 a) таблица значений исходного растра, b) выходная таблица инструмента Summary Statistics с расчитанными показателями для каждой "группы" районов

Полученные в результате Анализа группирования группы значительно различаются по числу входящих в каждую группу районов, в чем легко убедиться построив соответствующий график (View >> Graphs >> Create Graphs) в ArcMAP10.x (Рис. 8.14).


Рис. 8.14 Построение графика по числу районов АТД, входящих в каждую группы

Второй путь получения обобщающих характеристик для групп (классов, кластеров) Grouping Analysis - использование инструмента Dissolve|Слияние набора Geoprocessing. Здесь необходимо указать:

Dissolve Field: поле слияния - в данном случае это номера групп SS Group,
Statistic Fields: поля статистики – переменные,
Type: тип расчетной статистики - Mean.

Для более глубокого анализа можно указать полный набор статистик: MIN|Минимальное и MAX|Максимальное значение, а также RANGE|Разброс значений и STD|Среднее квадратическое отклонение, чтобы понимать, насколько в действительности однородные полученные кластеры. Очевидно, что для "поклонников" ArcMAP10.x этот способ обработки результатов Анализа Группирования более удобен: поскольку на выходе - и карта, и таблица к ней, что называется, "в одном флаконе". Легко убедиться, кстати, что эта таблица аналогична таблице Суммарной Статистики.


Рис. 8.15 Интерфейс инструмента Dissolve пакета ArcMAP10.x


8.3. Кластеризация как способ классифицирования в SAGA GIS

В SAGA GIS задача районирования (классификации, кластеризации, типологии) векторных данных по атрибутам выполняется инструментом Cluster Analysis (shapes, автор O. Conrad) набора Calculus группы Table.


Рис. 8.16 Диалоговое окно инструмента Cluster Analysis (shapes) пакета SAGA GIS

Диалоговое окно инструмента Cluster Analysis (shapes) предполагает ввод значений нескольких важных опций:

  • переменные (поля таблицы исходного шейп-файла районов) для анализа выбираются в закладке Attributes;
  • в полях Result и Statistic задаются значение create (создать) для формирования шейп-файла кластеров и таблицы со значениями кластеров соответственно;
  • следующая опция Clusters относится к числу классов, которые необходимо указать, поскольку в SAGA GIS отсутствует возможность определения оптимального числа классов.

Искусство моделирования в SAGA GIS обычно связано с выбором метода (Method); и здесь "угадать" непросто, поэтому есть смысл пробовать разные варианты. SAGA GIS предлагает три метода:

  • Hill-Climbing[Rubin, 1967], который как утверждается, оптимален для группирования как решения таксономических проблем в биологии;
  • Iterative Minimum Distance [Forgy, 1965] - эффективный анализ многомерных данных, помогающий преодолеть "непроницаемость классифицирования";
  • Combined Minimum Distance/Hill-Climbing - гибридный подход, сочетающий оба метода.

Кластеризация в SAGA GIS происходит почти моментально (отмечаем это специально - в ArcMAP10.x с опцией создания PDF-Отчета и расчетом оптимального числа классов процедура может продлиться многие минуты - в зависимости от числа переменных и количества объектов); программа создает новый шейп-файл с тем же названием, который лучше сразу же переименовать на вкладке установок Settings в поле Name. Чтобы не запутаться целесообразно использовать в названии выходного шейп-файла имя метода и число классов, например - Cluster_8_Rubin. Для просмотра файл (как обычно в SAGA GIS добавляется к карте Add to Map) и оформляется, по атрибуту CLUSTER Discrete Colors- 8 цветов по числу кластеров (Рис. 8.17).


Рис. 8.17 Результат кластеризации на 8 классов по методу Hill-Climbing в SAGA GIS

Как уже упоминалось Cluster Analysis SAGA GIS одновременно выдает и таблицу Статистики Statistic (Рис. 8.18), которой лучше дать тоже имя, что и шейпу, и, которая собственно является характеристикой кластеров.


Рис. 8.18 Выходная таблица статистики с характеристиками кластеров SAGA GIS

Пробуем запустить кластерный анализ с другими методами кластеризации, для этого надо просто вернутся к закладке Method инструмента и поменять значение. Как можно убедиться – различия не радикальны, но с точки зрения Ее Величества Геоморфологии - вспоминаем исходный растр типов поверхностей (Рис. 8.2) - вариант Hill-Climbing Rubin дает лучший результат, на втором месте – Combine Method, и хуже других - Iterative Minimum Distance.


Рис. 8.19 Три выходных шейп-файла кластеров (типологических районов), построенных по доле и сочетанию геоморфологических поверхностей тремя различными способами в SAGA GIS: (1) Hill-Climbing, (2) Iterative Minimum Distance, (3) Combined method

В SAGA GIS также есть инструмент слияния полигонов для получения обобщенных ареалов по принадлежности к одному кластеру - Polygons Dissolve набора Polygon, позволяющий попутно рассчитать стандартный набор статистик. Запуск алгоритма предполагает заполнение обычных позиций: в Dissolve Fields, по которому производится слияние полигонов указываем поле с номерами кластеров, в поле Statistic Fields - атрибуты, по которым осуществлялась кластеризация, в позициях перечня рассчитываемых статистик - требуемые показатели, например, Mean.


Рис. 8.20 Интерфейс инструмента Polygons Dissolve SAGA GIS

Новый шейп-файл генерируется программой с добавлением к исходному названию [Dissolved: CLUSTER]; для просмотра шейп необходимо добавить к карте и оформить по атрибуту Cluster как Discreet Colors 8 цветов.

Поместим шейп-файл кластеров SAGA GIS в окно ArcMAP10.x для сравнения с полученным ранее файлом групп. Можно видеть (Рис. 8.21), что два разных алгоритма (при равном числе классов) привели к результатам, имеющим как сходство, так и различия. Сходство (и это закономерно) касается очертаний самых крупных ареалов аккумулятивных гляциальных равнин, долинных ландшафтов, обширных водно-ледниковых равнин и высоких террас. Различия (т.е., разная компоновка районов в классы) наблюдаются в тех частях Москвы, где распространены более 3-х типов геоморфологических поверхностей, и где особенности алгоритмов начинают играть заметную роль. Эти обстоятельства следует учитывать эксперту при выборе инструментов (Grouping Analysis ArcMAP10.x и Cluster Analysis SAGA GIS) и опций, сопоставляя их с целями и задачами конкретного исследования.

<
<

Рис. 8.21 Сравнение результатов классификации методом "кластеризации" SAGA GIS и "группирования" ArcMAP


8.4. Районирование по набору разнородных признаков

Рассмотренный выше сюжет не является сложным, поскольку ГИС-алгоритмы кластеризации применены здесь к объектам, "нагруженным" единственной характеристикой - спектру типов геоморфологических поверхностей в пределах административных районов Москвы. Как мы могли убедиться данная задача вполне может быть решена и экспертно - посредством визуального анализа наложенных друг на друга слоев. Однако экспертное районирование становится почти невозможным, если множество объектов необходимо разделить по набору нескольких разных признаков.

Предположим, что необходимо провести районирование Москвы с использованием параметров, характеризующих, с одной стороны - техногенную нагрузку, с другой - средостабилизирующий потенциал территории. В качестве некоторого упрощения примем, что районирование будет производится по картометрическим данным - имеющимся в нашем распоряжении слоям Open Street Map. Косвенно, т.е., картометрически техногенная нагрузка может быть учтена по следующим параметрам:

  1. Плотность застройки, (т.е., доля, занимаемая основаниями зданий и сооружений от общей площади административного района),
  2. Доля площадей, занимаемых промышленными предприятиями,
  3. Плотность автодорожной сети,
  4. Плотность железнодорожных путей.

Все четыре показателя легко получить операцией извлечения данных Tabulate Intersection в ArcMAP10.x, или Line-Polygon Intersection в SAGA GIS (см. раздел Инструменты извлечения дисперсных векторных данных и раздел Инструменты извлечения данных векторных "мозаик"). Параметр плотности дорожной сети и железнодорожных путей рассчитывается делением общей длины коммуникаций в пределах района на площадь района.


Рис. 8.22 Исходные параметры для районирования техногенной нагрузки по сетке АТД "Старой" Москвы: а) плотность застройки, b) доля промышленных площадок



Рис. 8.23 Исходные параметры для районирования техногенной нагрузки по сетке АТД "Старой" Москвы: a) плотность автомобильных дорог, b) плотность железнодорожных путей.

Выбранные параметры позволяют нам (в первом приближении) оценить техногенное воздействие: плотность застройки определяет общую запечатанность поверхности, следовательно - изменение температурного режима приземного слоя атмосферы и условий дренирования выпадающих осадков; доля промышленных площадок косвенно влияет на объемы выбросов в атмосферу, плотность автодорожной сети оказывает влияние на напряженность транспортного трафика и, опять же, - объемы неорганизованных выбросов, наконец, железнодорожные пути "ответственны" за физические (шум, вибрация) воздействия. При желании (и наличии данных) модели можно добавить прочие факторы "экологической напряженности" - линии высоковольтных электропередач, антенны мобильной (сотовой) связи и т.д.

Существующие средостабилизирующие факторы городской среды также можно оценить с помощью сравнительно простых картометрических показателей, к которым прежде всего необходимо отнести долю территорий с зелеными насаждениями (любого типа) и долю акваторий. К этим данным можно добавить параметры диапазона высот, определяющие динамику аэрации и особенности дренажа территорий: на холмистых и пересеченных участках воздушные потоки как правило более активны, углубленные речные долины обычно лучше "продуваются", эрозионно-расчлененные территории, всегда лучше дренированы и менее подвержены подтоплению.



Рис. 8.24 Исходные параметры для районирования средостабилизирующего потенциала по сетке АТД "Старой" Москвы: а) диапазон высот (м), b) доля зеленых насаждений (%), c) доля акваторий (%)

Имея в распоряжении файлы полигонов с извлеченными значениями факторов-характеристик в отдельных полях мы можем приступить к типологическому районированию/классификации сначала отдельно по спектру техногенных нагрузок и средостабилизирующему потенциалу, затем - по совокупности и тех, и других признаков.

Используем инструмент Grouping Analysis|Анализ Группирования для полуавтоматического определения оптимального числа классов (типов районов) по характеру техногенной нагрузки.

Grouping Analysis Unique ID Field: номер района,
Number of Groups: 15 (*максимально возможное число групп),
Analysis Fields: вводим поля со значениями плотности застройки, доли промышленных территорий, плотности автодорог и железнодорожных путей,
Spatial Constraints: NO_SPATIAL_CONSTRAINT, (*условие без пространственных ограничений, в этом случае используется алгоритм K-средних),
Evaluate Optimal Number of Groups: check (*заказываем расчет оптимального числа групп),
Output Report File (optional): указываем место сохранения файла PDF-отчета.

В данном случае нас интересует не столько результат группирования, сколько PDF-отчет, показывающий распределение значений по четырем выбранным факторам. Проанализируем отчет немного более детально, чем мы это делали выше. Таблица первого раздела (Рис. 8.25) содержит информацию о следующих характеристика: Mean|Среднее, StdDev|Среднеквадратичное отклонение, Min|Минимум, Max|Максимум и значения коэффициента детерминации R2 для всех данных в каждом поле анализа. Чем больше значение R2 для определенной переменной, тем лучше переменная дифференцирует объекты.


Рис. 8.25 Сводная статистика четырех использованных переменных: P_auto - плотность автодорог, SUM_Percnt - доля промплощадок, P_rail - плотность железных дорог, BUILDING - плотность застройки

В нашем случае все переменные значимы - значения R2 больше 0,5, но при этом большая дифференцирующая роль принадлежит параметрам плотности железных дорог и плотности застройки.

В этом же первом разделе в таблицах, характеризующих коэффициенты (для конкретного числа групп), параметр Share показывает сколько процентов значений попадает в диапазон между верхней и нижней квартилями, и на этом основании можно судить об эффективности классифицирования. Ящичковые диаграммы справа помогают убедиться в этом визуально: при хорошем разделении цветные точки, отображающие "групповое Среднее", не должны вылетать за пределы "ящика" и чем ближе Среднее к Медиане (поперечной линии) - тем лучше. В нашем случае (Рис. 8.26) такая картина наблюдается только при числе групп - 5 или 6.



Рис. 8.26 Скриншоты первого раздела PDF отчета, фрагмент для 5 групп и 6 групп: P_auto - плотность автодорог, SUM_Percnt - доля промплощадок, P_rail - плотность железных дорог, BUILDING - плотность застройки

Во втором разделе PDF-отчета сведены значения статистик по отдельной переменной для всех инвариантов анализа с различным числом групп. Иными словами, в таком представлении данных легко увидеть, какое количество групп было бы оптимальным для каждой переменной (точка среднего значения максимально приближена к медиане).



Рис. 8.27 Распределение признака Плотность застройки при разном числе групп

Например, очевидно, (Рис. 8.27) что оптимальным для признака Плотность застройки является 8 групп. Однако для других признаков - это иное число, для доли промышленной застройки - 7 групп, для плотности железнодорожных путей - 11.

Последний раздел PDF-отчета - график значений pseudo-F-statistic: голубой пунсон на графике – это наибольшая F-статистика, указывающая оптимальное число групп для различения указанных объектов по набору привлеченных переменных. В нашем случае пунсон (Рис. 8.28) перекрывает значение 5 групп; но и 6 "тоже хорошее решение" как пишут в Руководстве по ArcMAP10.x, предполагая, что эксперт может при необходимости выбрать по своему вкусу и соседние значения (т.е., 4 либо 6).


Рис. 8.28 Итоговый график отчета Анализ группирования Pseudo F-Statistic

Добавим, что зачастую в поисках подходящего решения инструмент Анализ Группирования приходится запускать неоднократно, меняя число классов и условия соседства. К сожалению, следует признать, что инструмент не вполне совершенен: иногда разные результаты можно получить, даже запуская скрипт повторно с одними же и теми параметрами. Имея ввиду это обстоятельство в качестве эксперимента запустим Анализ Группирования. для 6 классов: сначала без пространственных ограничений, затем - с условием соседства районов по ребру или вершине CONTIGUITY_EDGES_CORNERS.


Рис. 8.29 Результат анализ районирования "Старой" Москвы на 6 групп по четырем переменным техногенной нагрузки: а) без пространственных ограничений, b) с условием соседства по вершине или ребру полигона

Две картограммы (Рис. 8.29) ярко иллюстрируют различие между "типологическим" и "индивидуальным" районированием: в классификации без пространственных ограничений мы получаем типологические районы, когда один тип (например тип района 1) располагается в 10 разных ареалах, в варианте индивидуального районирования с условиями соседства однотипных полигонов - перед нами целостные "районы". При этом очевидно, что во втором случае алгоритм явно "пожертвовал" объективностью в пользу задачи агрегирования полигонов районов АТД в общие ареалы.

Единственный критерий удачности классификации (и районирования) - возможность корректной интерпретации полученных результатов: проверим вариант типологического районирования используя итоговую карту (Рис. 8.29a) и сводную таблицу значений переменных для шести групп (Рис. 8.30).


Рис. 8.30 Сводная таблица значений переменных для шести групп АТР

Попытаемся интерпретировать классификацию районов Москвы инструментом Анализ Группирования по привлеченным переменным, косвенно отображающим техногенную нагрузку на городскую среду. Опыт показывает, что самый простой способ истолкования результатов - это просмотр переменных-критериев и выбор максимальных (условные 1-е и 2-е места) и минимальных значений (последнее и предпоследнее места) позиций, поскольку именно по этим значениям алгоритм и распределял группы.

  • 1-я группа ("синяя") распространена вдоль периферии Москвы, занимает среднюю (по сумме всех районов АТД) площадь 165 км2, имеет показатели плотности застройки и плотности автодорог ниже средних, но при этом - самую высокую долю промышленной застройки (38,1%) - именно этот показатель "вычленил" данный класс из множества административных районов;
  • 2-я группа ("красная") также расположена в основном во внешнем кольце городской ткани Старой Москвы, но при этом имеет показатели резко отличные от первой - самую низкую плотность застройки (8,9%), самый низкий показатель доли индустриальных площадок (4,2%) и самый низкий показатель плотности автомобильных и железных дорог, таким образом перед нами самая "ненагруженная" группа;
  • 3-я группа ("зеленая") выделилась по признаку высокой (второе место) доли промышленных площадок и, относительно низкой плотности автомобильных и железных дорог;
  • 4-я группа ("оранжевая") отличается внутренним расположением (ее ареалы ближе к центру Москвы) средней степенью застроенности, средней плотностью автомобильных и железных дорог и средней долей промышленных площадок, таким образом эта группа не имеет экстремальных значений ни по одному показателю и является "средней";
  • 5-я группа ("фиолетовая") относится к центру Москвы и выделилась прежде всего по максимальной плотности застройки (25,2%) и максимальной плотности железных дорог - что неудивительно поскольку данный тип представлен единственным ареалом, в который попадает "площадь трех вокзалов" - таким образом уникальность данного типа не подлежит сомнению;
  • 6-я группа ("терракотовая") занимает центр Москвы и характеризуется прежде всего максимальной плотностью автодорог и высокой плотностью застройки (второе место).

Таким образом, алгоритм вполне корректно справился с поставленной задачей - типологическим районированием по предложенным четырем признакам. Результаты могут быть достаточно корректно и содержательно интерпретированы, каждый тип вычленился благодаря присущим ему одному-двум максимальным или минимальным значениям. Становится понятным также и рекомендованное (в файле отчета на графике) Pseudo F-Statistic число групп - 5, поскольку сделанный нами выбор в пользу шести групп привел к появлению класса, представленного всего одним ареалом (группа 5, который при пяти группах был бы включен в состав центральной "терракотовой" группы 6.

Проведем Анализ Группирования для районирования единиц АТД Старой Москвы по трем выбранным природным факторам: диапазону высот, удельной площади зеленых насаждений, удельной площади акваторий.

По первой таблице PDF-отчета (Рис. 8.31) определяем относительный вклад факторов в дифференциацию.


Рис. 8.31 Сводная статистика трех использованных переменных классификации: Water areas (удельная площадь акваторий), Green areas (удельная площадь зеленой инфраструктуры), H_Range (диапазон высот)

Определяем ориентировочное число групп по ящичковым диаграммам (Рис. 8.32) первого раздела отчета - точки "среднего" по всем трем параметрам находятся внутри "ящика с усами" между верхней и нижней квартилями только при условии числа групп равного 4.



Рис. 8.32 Сравнение ящичковых диаграмм из первого раздела PDF-отчета для 3-х, 4-х, 5-ти и 6-ти групп соответственно

Запустив Анализ Группирования (без пространственных ограничений) для 4-х групп получаем полигональный векторный слой типов районов "Старой" Москвы по трем выбранным признакам, косвенно отражающий средостабилизирующий потенциал территории (Рис. 8.33). Далее получаем итоговую таблицу усредненных переменных процедурой слияния Dissolve по номеру группы. Для сравнения дополнительно запустим Анализ Группирования с условием соседства CONTIGUITY_EDGES_CORNERS, а затем с условием соседства K_NEAREST_NEIGHBORS.



Рис. 8.33 Результат анализа группирования АТД Старой Москвы на 4 группы по трем природным переменным без пространственных ограничений: a) картограмма, b) сводная таблица параметров четырех классов, выделенных по природным признакам

Интерпретация групп не представляет особой сложности, так как их различия вполне очевидны:

  • 1-я (красная) группа имеет самый незначительный диапазон высот и одновременно имеет самую низкую долю озелененных территорий и акваторий,
  • 2-я (зеленая) группа выделяется максимальной долей озеленения (32,6%) и "перекрывает" все парки и крупные ООПТ Москвы,
  • 3-я (желтая) группа вычленилась по максимальному диапазону высот (68 м - что объяснимо, т.к., в ее пределы попали холмы и разделяющие их небольшие долины притоков Москвы-реки),
  • 4-я группа при почти столь же высоком диапазоне высот содержит самую большую долю акваторий (12,5%) и практически полностью агрегирует административные территории в окрестностях крупнейшей долины Москвы-реки.

Легко убедиться что задачи "индивидуального районирования" с небольшим числом классов решаются Анализом Группирования не слишком удачно и изменение условий соседства хоть и влияет на результат, но итоговую картину не слишком оптимизирует. Против ожидания и увеличение числа "индивидуальных районов" с 4 до 6 не спасает ситуацию.



Рис. 8.34 Картограммы индивидуального районирования по трем природным переменным с различными условиями соседства и граничности: а) 4 группы с условием соседства по вершине или ребру полигона, b) 4 группы - естественные соседские отношения основаны на триангуляции Делоне, c) 4 группы с условием k-nearest, d) 6 групп с условием k-nearest

Таким образом, Grouping Analysis ArcMAP10.x и Cluster Analysis SAGA GIS - два эффективных и богатых по заложенным в них возможностям инструмента, которые позволяют осуществлять процедуры классификации географических объектов в форме индивидуального и типологического районирования. Однако их использование предполагает глубокое и вдумчивое погружение в содержание проблематики районирования и хорошее знание привлеченных переменных. Критическим моментом является необходимость четкого разделения дедуктивной и индуктивной траекторий классифицирования, соответствующих индивидуальному и типологическому районированию. Следует понимать. что алгоритм Анализ Группирования ArcMAP10.x с опцией без пространственных ограничений является k-means (k-средние) кластеризацией, и в этом плане весьма близок к алгоритмам Кластерного Анализа SAGA GIS. Каждый из алгоритмов имеет свои преимущества и недостатки: Анализ Группирования содержит понятные и воспроизводимые опции учета соседства и предлагает (пусть и не вполне совершенный) способ определения оптимального числа групп (классов/таксонов). Кластерный Анализ намного быстрее работает (что может оказаться немаловажным при районировании множества объектов с привлечением значительного числа переменных) и позволяет использовать три разных метода кластеризации. Но и алгоритм ArcMAP10.x, и инструмент SAGA GIS предполагают внимательное сопровождение и контроль со стороны эксперта, в противном случае велика вероятность получения результатов, которые невозможно будет содержательно интерпретировать.

Следует также иметь ввиду, что в зарубежной англоязычной географии (не переживавшей длительных теоретических дискуссий по поводу типологического и индивидуального районирования, порожденных, главным образом, российским ландшафтоведением) первый вариант пространственной классификации районов часто называют Zoning (зонирование), а второй - Regionalizing (регионализация) [Bailey, 2009], что, в общем и целом, неплохо соответствует содержанию данных процедур.