III. ГЕОМОРФОМЕТРИЯ И СОВРЕМЕННЫЕ ПОДХОДЫ К ЛАНДШАФТНОМУ СИНТЕЗУ

9. ГЕОГРАФИЧЕСКАЯ РЕАЛЬНОСТЬ: О СЛОЖНОСТЯХ ГИС-МОДЕЛИРОВАНИЯ

9.1. Место географических объектов в мире моделей 9.2. Научные категории как прототипы здравого смысла 9.3. Географические объекты как "поля" и ограничения традиционного категориального картографирования 9.4. "Патчевые модели" как упрощение непрерывных полей 9.5. Сложность в исходных данных: "гауссово" и "паретианское" восприятие в геопространственном моделировании 9.6. Паретианское распределение и проблема классификации 9.7. В поисках оптимальной классификации: что, все-таки, делать с паретианскими множествами?

III. ГЕОМОРФОМЕТРИЯ И СОВРЕМЕННЫЕ ПОДХОДЫ К ЛАНДШАФТНОМУ СИНТЕЗУ

9. ГЕОГРАФИЧЕСКАЯ РЕАЛЬНОСТЬ: О СЛОЖНОСТЯХ ГИС-МОДЕЛИРОВАНИЯ

9.1. Место географических объектов в мире моделей

Одна из интереснейших статей, посвященных особенностям научного познания вообще, и географического - в частности, имеет весьма интригующее название "Do Mountains Exist?", что может быть переведено как "Действительно ли горы существуют?" [Smith, David, 2003]. Авторы, разумеется, не сомневаются в реальности гор, но задаются непростым (и существенным для моделирования) вопросом: может ли быть указан некий исчерпывающий набор условий, позволяющий однозначно отнести те или иные формы рельефа Земли к "горам"?

Поиск ответа на этот вопрос заставляет обратиться к когнитологическим основам научной методологии и более пристально присмотреться к обычным географическим объектам (формам рельефа, рекам и озерам, ландшафтам, городам и т.д.) как к предметам моделирования.

С позиций когнитологии все объекты, которые мы пытаемся моделировать, делятся на две большие категории. Первую можно условно назвать "настоящие" вещи и организмы, которые имеют в наших глазах понятные очертания и "твердые" границы, отделяющие их от окружающей среды. Психолог Дж. Гибсон, разработавший проект так называемой экологической психологии [Gibson, 2015], называл такие вещи обособленными объектами ; к ним без сомнения каждый отнесет такие повседневные объекты как "кошка", "дерево" или "Луна на небе" (если верить, что Луна - это твердое небесное тело).

Ко второй категории относятся объекты, которые можно называть продуктами осмысления. Так "горы" не существуют в виде "обособленных" предметов: в их подножье нет однозначно воспринимаемых границ, наконец, их сложно представить "отдельностями", перемещаемыми в пространстве. Как следствие мы не можем легко решить задачи дефиниции и классификации, т.е., отделить объект "гора" от прочих положительных форм рельефа и разделить множество "горы" на классы (например, "высокие горы", "низкие горы" и т.д.).

Для объектов-продуктов осмысления характерно, что они с трудом поддаются научному определению и варьируются в значительной степени в общепринятом восприятии: понятие "гора" различаются в языке не только у равнинных и горных народов, но даже и между разными горными этносами. В данном случае лексема "гора" - как абстрактная единица естественного языка и как простое отражение человеческих привычек восприятия и поведения будут больше походить на лексемы информатики, где под ними понимают "последовательность допустимых символов языка программирования, имеющая смысл для транслятора".

И здесь география отчасти заходит на территорию философской онтологии, рассматривающей специфику существования различных объектов окружающего нас мира. В основе современных онтологических концепций лежит признание действительного существования атомов и электронов, клеток и организмов, планет и солнечных систем, а также чисел, множеств и абстрактных математических сущностей ими образуемых. Далее все несколько усложняется - если существуют обособленные истинные сущности, то существуют ли категории, их описывающие? С позиций онтологии утвердительный ответ на этот вопрос возможен только при разработке релевантной количественной оценки и предсказания (т.е., моделирования) таких категорий. Продолжая пример с кошками, можно утверждать, что существуют как отдельные реальные кошки, так и виды (породы) кошек, потому что мы в состоянии описать категорию "порода" (короткие загнутые ушки, серо-голубой окрас, белые "носочки" на лапах и т.д.).

Если переиначить наш вопрос о реальности географических объектов ("Do Mountains Exist?") мы должны задать его следующим образом: является ли возможность однозначного моделирования объектов ("горы", "ландшафты") обязательным условием признания реальности их существования? Общепризнанного ответа на этот вопрос мы не обнаружим: в отечественном естествознании объективность существования объектов не ставится в прямую зависимость от возможности их строгого описания и/или моделирования (классический пример - "природные ландшафты"); в зарубежной, особенно англоязычной географии, напротив, не принято утверждать что объект (тот же природный ландшафт) действительно существует, если наука не способна однозначно задать условия его существования [Kirchhoff et al., 2013].

Подобный вывод противоречит нашему повседневному опыту: с позиций обычного человека горы, безусловно, существуют, в том числе и как категории: "сегодня мы прошли по пологой тропе поднявшись на свод невысокой горы, а завтра нам предстоит совершить восхождение по крутым скальным стенкам высокой горы". Однако, означает ли это, что, нарисовав график с двумя осями (скажем, ось Y - крутизна, а ось X - высота) и нанеся на него значения для тысячи земных гор мы сможем ответить на два вопроса:

1) что такое "гора", т.е., какие пороговые значения высоты и крутизны (или иных привлеченных для характеристики параметров) отделяют эту форму от любой другой положительной формы рельефа (например,"холмы", "сопки" или "плато");
2) если множество гор представлено различными "типами" (классами, таксонами), то каковы граничные значения этих таксонов?

Онтологические основания и концепции необходимы в геоинформатике для постановки и формулировки задач определения используемых понятий, прежде всего путем их формализации в рамках некоторой области с хорошо понимаемой логической и семантической структурой [Smith, David, 2003]. Возвращаясь к нашему случаю, современное ГИС-моделирование не занимается такими вопросами, как "существуют ли горы?", скорее побуждает ставить другие вопросы: должна ли гора быть категорией в нашей системе знаний, и если да, то как следует определять категорию "гора?" и какие параметры пригодны для презентации отдельных гор в некоей общей базе данных? Как мы увидим далее - сама попытка получить ответы средствами геоинформационного моделирования, с одной стороны, позволяет добыть новое знание о реальной действительности, с другой - ставит перед нами новые вопросы.


9.2 Научные категории как прототипы здравого смысла

Роберт Хортон [Horton, 1982] полагал, что повседневный человеческий опыт существования и перемещения в мире "подлинных сущностей" (объектов первой категории по Гибсону) заставляет нас формулировать "первичные теории", ориентированные на так называемую мезоскопическую, т.е., соразмерную с нашими телами и масштабом ежедневных перемещений реальность. Первичные теории, называемые еще здравым смыслом (common sense), легко переводятся с одного языка на другой, а суждения, выражающие их суть, характеризуются конвенциональностью - широко распространенным непринужденным согласием.

Здравый смысл по большей части оперирует с объектами, относящимися к первичным категориям (такими, как "кошка" или "дерево") и характеризующимися свойством прототипичности, узнаваемости и репрезентативности. Иными словами, они являются лучшими образцами своих множеств. В обычных обстоятельствах люди легко различают прототипические примеры, лежащие в основе категорий здравого смысла, и периферийные примеры, существующие как бы в "полутени" прототипов. Так, гора Ма́ттерхорн (Рис. 9.1) не случайно изображена на упаковке плитки шоколада Toblerone - это типичный трехгранный карлинг Пеннинских Альп с вершиной типа пик и острыми гребнями (гранями контрфорсов); как прототип она признавалась "горой" горцами Швейцарии и Италии, и этот образ перешел как символ достижения в современный альпинизм, а потом уже был растиражирован как рекламный знак.


Рис. 9.1 Карлинг Маттернхорн - типичная "гора", с выраженным свойством прототипа

Каждое семейство категорий здравого смысла может быть изображено в виде дерева с более общими категориями у корня и более конкретными - ближе к вершинам ветвей. Где-то по протяжению "ствола" находится "базовый уровень", который в "когнитивной экономике" характеризуют как компромисс между двумя противоположными целями: информативностью, с одной стороны, и минимизацией категорий, основанных на нерелевантных различиях, - с другой [Smith, David, 2003]. Иными словами, это компромисс между недостаточной конкретностью "нижних" категорий (высокие горы вообще) и когнитивной стоимостью усилий, затрачиваемых для определения "верхних" (пики-карлинги альпийского выше 3500 м крутизной склонов более 18o с выраженными гребнями и контрфорсами). В этом смысле общегеографические понятия - такие как гора, остров, озеро и т.д., попавшие в науку непосредственно из области здравого смысла, являются категориями базового уровня. Их дальнейшее уточнение в качестве научных понятий неизбежно сопряжено с выходом за пределы обыденных представлений, потому что реальное множество географических объектов не может быть задано простыми установками типа: "эта форма рельефа выше 500 м и поэтому она, несомненно, гора".

С позиций информационной онтологии неверными являются не только бытовые представления о географических объектах, но и значительная часть квазинаучных понятий и классификаций, приводимых, обычно, в учебниках в качестве твердо установленных истин. Таковы классы гор разделенных по высоте, или классы городов разделенных по численности населения, поскольку на самом деле (и в случае с горами, и в случае с городами) они не соответствуют граничным значениям, получаемых при любом способе классифицирования нормально распределенных множеств соответствующих объектов (высот, или людности), не говоря уже о том, что на самом деле эти множества распределены, как правило, не нормально, [Jiang, 2015]. К сожалению, эти представления выполняют не только дидактическую роль (т.е., составляют содержание учебников), но и "встроены" во многие разработанные к настоящему времени алгоритмы ГИС-моделирования, и это доминирование представляет собой отдельную (не всегда осознаваемую пользователями ГИС) проблему методологического свойства.


9.3. Географические объекты как "поля" и ограничения традиционного категориального картографирования

Другая, не менее серьезная методологическая проблема, связана с тем, что географические объекты долгое время воспринимались (и продолжают восприниматься) как объекты первого когнитологического типа - т.е., истинные объекты-отдельности с безусловно существующими физическими границами [Колбовский, 2013]. Эта унаследованная традиция повлекла за собой совершенно определенные тренды в развитии ГИС-моделей, направленных в значительной степени на воспроизводство разного рода тематических карт, например, геоморфологических, почвенных, геоботанических или ландшафтных, основными элементами которых являются "отдельные сущности": мезоформы рельефа, почвенные разности, растительные ассоциации и отдельные ландшафты, разделенные границами. Такое "объектное" моделирование в значительной степени основано на всей предшествующей истории восприятия природы человеком, восприятии, которое всегда содержало оценочную, утилитарную или эстетическую характеристику, и которое поневоле вынуждало наблюдателя делить воспринимаемое на "составные" части - элементы.

Но здесь, опять-таки, проходит рубеж между бытовым представлением и научным объяснением: четкие границы могут восприниматься наблюдателем и там, где на самом деле они не существуют. Именно по этой причине, уже на заре развития геоинформационного моделирования "объектные" модели столкнулись с серьезными трудностями [Cushman et al., 2007] в самых разных разделах физической географии и ландшафтной экологии.

Для ГИС-моделирования как ни для какого другого раздела географии важен переход от объектно-ориентированной методологии к методологии "полей", основанной на непрерывных функциях, аргументами которых являются позиции в некоторой пространственной области, и параметрами которых являются атрибуты. Одна из естественно-научных теорий "полей" - теория рельеф-поля была разработана в геоморфологии практически одновременно как отечественными [Ласточкин, 1987; Степанов, 2006], так и зарубежными исследователями [Evans, 1980; Wilson, Gallant, 2000], еще до появления действительно Больших Данных и Цифровых Моделей Рельефа.

В геоморфологическом моделировании ("геоморфометрии" - в традиции зарубежной географии) теория "рельеф-поля" постулировала два важнейших обстоятельства:

1) различия в выраженности так называемых характеристических линий рельефа (линий вогнутых и выпуклых перегибов профильной и плановой кривизны), которые могут изменяться от четко выраженных граней между элементарными топологическими поверхностями (уступ между поверхностью и склоном террасы) до плавных переходов, когда сама зона перехода по сути может трактоваться как самостоятельная элементарная поверхность (полого-выпуклая верхняя часть склона террасы);
2) критическая значимость соседних элементарных поверхностей для определения границ и типологии данной конкретной элементарной поверхности - ровная площадка может быть и привершинной поверхностью и днищем котловины - в зависимости от граничащих с нею склонов.

Современное геоморфометрическое ГИС-моделирование позволяет учитывать оба этих обстоятельства посредством введения различных (производных от поля высот) переменных, однако в других областях географии, которые имеют дело с разными сущностями, (не только с рельефом, но и с почвами и/или растительным покровом) проблемы корректного отображения континуальности объектов реального мира еще не решены.

Непрерывность изменения атрибутов сложных феноменов, также как и наличие постепенных переходов от неких ядер типичности к постепенным (иногда довольно протяженным) переходам-экотонам между ядрами доказана в почвоведении, в биоценологии и ландшафтоведении. Комплексные сущности - такие как природные ландшафты формируются в многомерном пространстве признаков, неопределенность которых с неизбежностью должна приводить к континуальности как системному свойству, при котором резкие границы будут являться скорее редким исключением из правил, чем правилом. Однако современные ГИС-алгоритмы до сих пор не слишком приспособлены для отображения этих аспектов концептуализации окружающего нас реального мира и, в значительной степени, воспроизводят существовавшие ранее традиционные экспертно-мануальные подходы, направленные либо на моделирование объектов с четкими "краями" (векторная графика полигонов с их границами), либо на моделирование растровых мозаик, состоящих из отдельных "патчей".

Многие методы картографирования и ГИС-моделирования в ландшафтоведении и ландшафтной экологии берут свое начало в классическом Categorical Mapping|Категориальном картографировании, разбивающем реальное пространство на непересекающиеся ареалы, или полигоны [Cushman et al., 2009]. Отдадим этим методам должное - традиционное категориальное картографирование сыграло огромную роль в практиках различных отраслей (сельского и лесного хозяйства, градостроительного и регионального планирования) а также в рационализации природопользования и охране природы; с его помощью были разработаны практически все виды современного геоэкологического моделирования и основанные на них подходы к правовому экологическому зонированию и нормированию.

Однако, нельзя забывать, что в основе концептуализация пространства при категориальном картографировании лежит предположение о дискретности природы, получившее воплощение как в векторных (с геометрическими примитивами в виде полигонов, точек и полилиний), так и в растровых (с ячейками, составляющими "патчи") моделях. В современной ландшафтной экологии традиционное картографирование подвергается критике по трем основаниям [MacGarigal, Cushman, 2004].

Во-первых, выбор параметров картографирования и граничных значений для них оказывает существенное воздействие на то, какие именно структуры и процессы выявляются и получают отражение в конкретной модели. Во-вторых, так называемая субъектность (или "антропоморфизм") моделирования, заключающиеся в том, что отбираемые параметры всегда оцениваются с позиции наблюдателя, т.е., человека, но фиксируемые при этом границы могут не играть никакой роли в жизненном цикле большинства представителей фауны и флоры (аргумент, особенно сильный в науке о "природном ландшафте"). Наконец, в третьих - создаваемые в этой же технике патчевые и полигональные структуры, по сути, игнорируют любые различия внутри однотипных фрагментов растра или векторного ареала. Эта проблема усугубляется при отсутствии у моделируемого феномена признаков нормального распределения. Совокупный эффект, генерируемый этими тремя особенностями традиционной картографии и воспроизводимый в ГИС-моделировании, может приводить к существенным искажениям реальности.

Первые попытки ГИС-моделирования сложных объектов использовали картографический прием наложения категориальных карт (Overlay), но очень скоро выяснилось, что при строгом алгоритмическом исполнении соответствующих операций комбинирования матриц - Combine (для растров) и пересечения - Intersect (для векторных полигонов) выявляются глубинные дефекты категориальной дифференциации: возникновение значительного количества избыточных плохо интерпретируемых классов (возрастающее экспоненциально при увеличении числа накладываемых карт) и некорректная проработка общих границ ("эффект пилы") вдоль краев. Неудивительно, что в "многослойных" (т.е., мультифакторных) моделях после каждой новой комбинации категориальных данных возрастал "информационный шум" и одновременно умножались потери тематической информации, вызванные избыточностью частных тематических классификаций, использованных "как есть" [Колбовский, 2020].


9.4. "Патчевые модели" как упрощение непрерывных полей

Подавляющее большинство свойств, феноменов и явлений, моделируемых средствами ГИС, на самом деле описываются непрерывными параметрами: так свойство "высота местоположения" принадлежит непрерывному полю высот земной поверхности. Сведение этой поверхности к мозаике полигональных векторов или патчей ячеек грида вызывает проблемы представления и интерпретации из-за неточностей в размещении границ и разделении классов, а также потому, что вариации параметра высоты различаются в разных масштабах [Wu, 2007].

Неслучайно исследователи из разных областей географии и геоэкологии отмечают два существенных преимущества моделирования окружающей среды с привлечением набора параметров в виде индивидуально изменяющихся градиентов. Таким образом сохраняется неоднородность значений переменных в пространствах разных иерархических уровней и соответствующих им масштабов. При привлечении разных переменных мы сохраняем разнообразие каждой, не сводя их на предварительных этапах в категории с определенными границами; одновременно исключается субъективность назначения пороговых значений. Эти обстоятельства делают более объективным многомерный анализ, включающий множество переменных, в особенности - моделирование сложных географических объектов "второй категории", таких как "почвы", "эколого-ценотические группы" или "природные ландшафты".

Потребность в разработке методов градиентного анализа непрерывных полей возрастает по мере появления и накопления Big Data - высокоточных и объемных по размерам данных. Казалось бы, современные лидарные съемки древесного полога с возможностью различения крон отдельных деревьев должны "работать" на моделирование природных ландшафтов в локальных масштабах на самых нижних иерархических уровнях ландшафтной дифференциации (фации или урочища). Однако ГИС-моделирование показывает, что традиционные категориальные карты, построенные по таким данным с целью отображения даже только одного параметрам "плотности" полога не являются корректными, т.к., полученные полигональные ареалы не отвечают полностью ни одному из трех требований: не являются внутренне более гомогенными по сравнению с соседними, их границы не отражают реальных перемен значений, а граничные значения не лучшим образом дифференцируют классы [Evans, Cushman, 2009]. Данное затруднение является одной из причин того, что поступление в распоряжение исследователей год от года все более точных данных (с размерностью, которая менялась от многих сотен метров до первых дециметров в пикселе) не сопровождается соответствующим процессом усовершенствования LULC покрытий, ландшафтных карт или карт почвенного или растительного покрова.

Эта проблема заставляет вспомнить о значительных усилиях и средствах, затрачиваемых десятилетиями по всему миру на составление и воспроизводство категориальных карт отраслевого и экологического содержания (экосистемы и ландшафты, почвы и леса) и ГИС-моделей специальной тематики, например, моделей фрагментированности и "связности" природных экосистем и ландшафтов [Cushman et al., 2007]. Один из авторов методологии FRAGSTAT-анализа Кевин МакГаригал признавал, что даже если классификация на уровне типов патчей была максимально точной, она все равно искажает структуру реальности за счет искусственного определения границ в непрерывном ландшафте, затушевывания внутренней изменчивости и преуменьшения размеров и функциональной роли экотонов разного рода [McGarigal, Marks, 1995].

Другое непреодоленное противоречие категориальных моделей - их неспособность отражать изменчивость параметра (или набора параметров) в различных пространственных масштабах. Базовое понятие ландшафтной экологии - экологическая ниша характеризуется как n-мерная функция множества условий, каждое из которых действует в определенных пространственных масштабах [Бигон, Харпер, Таунсенд, 1989]. Иными словами значения n-мерной функции могут изменяться вдоль континуума пространственного масштаба, отражающего как иерархию отдельных переменных, так и иерархический характер ландшафтной структуры и вложенных в эту структуру отдельных ниш. Экологические градиенты, конфигурирующие нишу, являются клинами в n-мерном экологическом пространстве, в географическом пространстве эти же градиенты часто образуют сложные разномасштабные структуры [Cushman et al., 2007]. Так, например, дифференциация горной области на макросклоны и разделяющие их гребне-килевые элементы (хребты и распадки) определяет (до известной степени) границы кормового ареала хищника, и мы можем моделировать эти особенности с использованием разных геоморфометрических переменных; но наличие конкретных вогнутых микропонижений на тех же склонах, предоставляющих хищнику убежище (не менее важные для его жизненного цикла) не выявятся при анализе в единственном ("оптимальном") масштабе, который в каждом конкретном случае будет задаваться размером "окна" и дистанцией поиска.

В более широком смысле можно говорить о кризисе "ландшафтно-мозаичного" подхода, предполагающего возможность отображения окружающей среды в виде дискретных пятен, представляемых как "типы" (типы растительности, типы ландшафтов, типы почв), которые затем в прикладных целях реклассифицируются на различные типы ландшафтно-земельного покрова (LandUse/LandCover), либо, в бинарной логике - на "местообитания" (habitat) и враждебное окружение. Таким образом, создаваемые в специальных программах (Fragstat) или приложениях к ГИС (Patch Analyst) "патчевые модели" является упрощением, допустимость которого весьма относительна.

Например, лесные опушки, рассматриваемые в этой парадигме как "буферные" зоны враждебного внешнего воздействия зачастую демонстрируют более высокое биоразнообразие в отношении, например, орнитофауны, чем внутренние "ядерные" части лесных массивов, при этом сопряженный анализ популяций разных видов птиц с мозаикой растительных сообществ показал, что большая часть дисперсии в численности видов не может быть объяснена картографированными типами сообществ [Cushman, McGarigal, 2004].

Все эти соображения выводят на первый план сложную фундаментальную задача развития градиентного моделирования, решение которой связано, во-первых, с разработкой ГИС-моделей оценки нечеткой принадлежности значений к таксонам внутри привлекаемых для модели параметров и в их сопряженных наборах, во-вторых - с предсказанием вероятности проявления тех или иных свойств ландшафта [Evans, Cushman, 2009]. Возможно, что на выходе таких моделей мы увидим не знакомые нам "категориальные карты", а "пулы возможностей" с диапазонами ресурсов и условий. Тогда привычное понятие "экологическая ниша" конкретного вида будет выглядеть как n-мерный гиперэллипсоид с внутренней оптимальной областью существования и "облачностью" уменьшающихся вероятностей по периферии. Такой гиперэллипсоид будет отражать градиентные, соседские и категориальные качества среды обитания, причем последние будут скорее частным случаем общей закономерности [Cushman, McGarigal, 2004].


9.5. Сложность в исходных данных: "гауссово" и "паретианское" восприятие в геопространственном моделировании

Многие исследователи полагают, что в геоинформационном моделировании (вслед за традициями "бумажной" картографии) до сих пор продолжает доминировать "гауссовский" способ восприятия реальной действительности [Jiang, Brandt, 2016]. Иными словами, мы предполагаем, что множества различных географических объектов в окружающем нас мире могут быть удовлетворительно охарактеризованы корректно определенным средним значением.

В свою очередь это предположение зиждется на здравом смысле и ощущении, что "все сосны в бору одинаковы", то есть изучаемые нами предметы более или менее похожи по размеру... И действительно, оказавшись в городском лесопарке и измерив высоту нескольких десятков сосен, мы может прийти к выводу, что средняя высота древостоя зрелого сосняка, скажем, 28 м - неплохо описывает всю совокупность, при том, что есть чуть более высокие и чуть более низкие экземпляры. Однако подобный вывод, скорее всего, окажется правильным только для "культуры сосны" - одновозрастных посадок, каковые составляют основную площадь многих пригородных лесничеств России. Проведя аналогичные замеры для деревьев естественного ("условно-коренного") разновозрастного леса, мы обнаружим немногие "акцентные" деревья-старожилы, на другом конце шкалы - угнетенные низкорослые и сухие "фаутные" экземпляры, некоторое количество средних экземпляров и огромную совокупность низких сосенок, относящихся к подросту и/или подлеску.

На самом деле многие объекта реального мира распределены таким образом, что небольшие и мелкие экземпляры распространены в гораздо большем количестве чем крупные. При изображении на графике частот (гистограмме) такое распределение выглядит как кривая с высоко "задранным" и прижатым к оси ординат уровнем высоких значений - эту часть образно называют Head|Голова, и удлиненным вытянутым вдоль оси абсцисс множеством низких значений, именуемых Tail|Хвост.

Head-and-Tail распределение было обнаружено в разных дисциплинах, но история науки чаще всего связывает этот феномен с именами трех человек: француза стенографиста Жана-Батиста Эсту, описавшего эффект в 1908 г., итальянца Парето, указавшего на то, что бедных людей гораздо больше, чем богатых, (а обычных людей гораздо больше, чем экстраординарных), и американского лингвиста Джорджа Ципфа установившего в 1949 г. что маленьких по численности населения и площади городов гораздо больше чем крупных.

В научно-популярной литературе распределение Парето было популяризировано как принцип 80/20 или теория "длинного хвоста" [Koch, 1999]. В статистике распределение Парето получило наименование степенного распределения, поскольку в этом случае относительное изменение переменной приводит к изменению зависимой величины по степенной формуле: например, при увеличении стороны квадрата вдвое его площадь возрастает в четыре раза.

Проблема, однако, заключается в том, что многие инструменты ГИС-моделирования и связанные с ними исследовательские алгоритмы, изначально "настроены" на нормальное распределение и подпитываются убеждением, что характер многих объектов, явлений и феноменов окружающей действительности может быть удовлетворительно описан с использованием некоей "средней" величины. Бин Сянг (Bin Jiang) полагает, что такой подход отражает системное господство "гауссова" (или "линейного") мышления, согласно которому всякое "малое" влечет за собой лишь "малое" следствие, а "большое" вызывает "большое следствие", что "целое равно сумме его частей", а мир достаточно хорошо предсказуем благодаря линейным зависимостям [Jiang, 2013a; Jiang, 2015; Jiang, Brandt, 2016].


9.6. Паретианское распределение и проблема классификации

Для понимания отличий между гауссовым и паретианским распределением рассмотрим два относительно простых "классических" примера с объектами-множествами в разных масштабах. В качестве первого множества возьмем сельские населенные пункты Ярославской области с параметром людности, т.е., - численностью населения в существующих деревнях, селах и поселках городского типа (Рис. 9.2).

Как разбить это множество на классы? Метод естественных границ, пользоваться которым рекомендуют руководства и учебные пособия по ГИС [Лурье, Самсонов, 2016], использует такую группировку данных, которая позволяет достичь минимизации дисперсии переменной внутри классов и максимизации отличий между классами; таким образом выделяются естественные переломы в распределении значений, которые заметны на столбчатых гистограммах.


Рис. 9.2 Людность сельских населенных пунктов Ярославской области, 10 классов, способ natural break|естественные границы (фрагмент)

В ArcMAP10.x можно воспользоваться еще несколькими полуавтоматическими (т.е., эксперт задает число классов, остальное делает "машина") способами разбиения. Сравним пороговые значения при одинаковом числе классов (10) для трех разных способов разбиения множества: естественные границы, квантили и геометрические интервалы (Таблица 9.1).


Таблица 9.1 Пороговые значения таксонов (классов) людности при разных способах классификации

Способ классификации 1-й класс 2-й класс 3-й класс 4-й класс 5-й класс 6-й класс 7-й класс 8-й класс 9-й класс 10-й класс
ArcMAP Natural Breaks 0 - 15 16 - 55 56 - 131 132 - 241 242 - 388 389 - 579 580 - 824 825 - 1295 1296 - 1933 1296 - 1933
Число объектов в классе 3842 908 256 116 63 35 20 19 12 4
ArcMAP Quantile 0 1 - 2 3 - 4 5 - 6 7 - 9 10 - 13 14 - 20 21 - 34 35 - 85 86 - 2866
Число объектов в классе 110 766 546 412 476 404 429 390 378 373
ArcMAP Geometrical Interval 0 - 1 1 - 2 2 3 - 5 6 - 14 15 - 39 40 - 113 114 - 332 333 - 974 975 - 2866
Число объектов в классе 1101 402 364 283 190 17 2 2 1 1

Рассчитаем число объектов, попавших в каждый из 10 классов Natural Break и построим гистограмму распределения (Рис. 9.3).


Рис. 9.3 Гистограмма, отображающая распределение признака людности через число объектов, попавших в каждый из десяти классов разделенных "естественными границами"

Совершенно очевидно, что подавляющее число объектов (72,8%) попадает в первый таксон нашей классификации деревень с очень малой людностью (0-15) жителей, а первые два класса (до 55 чел.) покрывают 90% всех населенных пунктов, т.е., мы имеем дело с типичным head-and-tail распределением.

Другие приемы классификации, "встроенные" в ГИС, не позволяют корректно выразить истинный характер распределения людности НП. Так способ Equal Intervals|Метод Равновеликих Интервалов устанавливает границы классов таким образом, чтобы к каждому относилось одинаковое количество объектов [Лурье, Самсонов, 2016]. Однако в случае с ненормально распределенными значениями этот метод вводит в еще большее заблуждение, поскольку разбивает множество на классы, в каждом из которых (см. таблицу 9.1) приблизительно 7%-12% объектов. Такая "равновеликость" достигается деформацией диапазонов в "хвосте" мы видим узкий диапазоны с различие буквально в 1-3 единицы, а в "голове" - практически весь диапазон от 35 до 2866. Третий часто используемый для классификации способ Geometrical Intervals|Геометрических Интервалов считается специально разработанным для непрерывных данных: границы классов задаются таким образом, чтобы минимизировать суммы квадратов элементов в каждом классе. Ожидается, что в "каждом классе будет находиться примерно равное количество значений, и размеры интервалов будут примерно равнозначными"[Лурье, Самсонов, 2016, стр.71].

Но почему паретианское распределением представляет сложности для моделирования? Обратимся к стандартным статистикам (Таблица 9.2)


Таблица 9.2 Статистики совокупности сельских населенных пунктов Ярославской Области по параметру людности
Count Minimum Maximum Summ Mean Median Standart Deviation
5275 1 2866 182617 35 6 140

Крайняя асимметрия распределения отражается сразу в нескольких параметрах: огромном соотношении Ratio (если считать минимальной населенностью ненулевое значение людности равное 1, то оно составит Max/Min - 2866) и большом стандартном отклонении 140. При таком значительно искаженном распределении Среднее значение 35 имеет мало смысла для характеристики совокупности. Перекошенная гистограмма показывает, что в Ярославской области гораздо больше малонаселенных деревень, чем крупных и средних, неудивительно, что два показателя центральной тенденции – Mean 35 и Median 6 отличаются друг от друга весьма существенно (почти в 6 раз), и при этом медиана сильно сдвинута в сторону меньших значений.

Может возникнуть подозрение, что продемонстрированная здесь закономерность распределения людности сельских населенных пунктов одной (весьма небольшой) административной области России - некий частный случай, однако это не так. Классический пример, связанный с законом Ципфа, относится уже к крупным городам и представляет собой интересную эмпирическую закономерность (выявленную американским лингвистом Дж. Ципфом), согласно которой размеры городов должны аппроксимироваться распределением Парето. В более общем виде можно говорить о наличии взаимосвязи между размером города и его рангом по численности, при этом города ранжируются в порядке убывания.

Воспользуемся данными Atlas of Urban Expansion [Angel et al.,2016] - файлом universe of cities centers attributes.kml, содержащим сведения о численности, площади города, плотности населения, индексу близости к ближайшему крупному городу, расстоянии до побережья океана. Добавим этим параметрам еще три географических показателя, дополнив шейп-файл тремя новыми полями со значениями (извлеченными из базы данных биоклиматов Bioclimatic variables высоты над уровнем моря, среднегодовой температуры и годового количества осадков (Рис. 9.4).


Рис. 9.4 Крупнейшие города мира с населением более 100000 человек

Используя инструмент Гистограммы из набора Geostatistical Analyst ArcMAP10.x Рис. 9.5, проверим особенности распределения.


Рис. 9.5 Гистограмма численности населения крупнейших городов мира


Рис. 9.6 Гистограмма площади крупнейших городов мира


Рис. 9.7 Гистограмма плотности населения крупнейших городов мира


Рис. 9.8 Гистограмма индекса близости (Proximity) крупнейших городов мира


Рис. 9.9 Гистограмма расстояния до океанического побережья для крупнейших городов мира


Рис. 9.10 Гистограмма высоты над уровнем Мирового Океана крупнейших городов мира


Рис. 9.11 Гистограмма среднегодовой температуры воздуха в крупнейших городах мира


Рис. 9.12 Гистограмма среднегодового количества осадков в крупнейших городах мира

Сведем для удобства сравнения основные статистики, характеризующие распределение показателей для множества крупнейших городов мира в общую таблицу (Таблица 9.3); заметим, что аналогичную таблицу можно получить с помощью Grouping Analyst ArcMAP10.x - это будет первая (напечатанная черным шрифтом) таблица PDF-Отчета.

Таблица 9.3 Статистики выбранных показателей множества из 3646 крупнейших городов мира с населением свыше 100 тыс. чел.; переменные расположены в порядке снижения коэффициента детерминации R2
Показатель Min Max Skew-
ness
Kurtosis Mean Median Std.
Dev.
Head/Tail
%
*R2
Абсолютная
высота
0 4529 2,9 13,2 798 611 469 57,4/< 42,6 % 0,6763
Среднегодовая
температура
- 9,4 + 30,0 -0,2 2,2 17,2 17,2 17,1 49,3 / 51,7 % 0,6176
Численность
населения
100
000
34 450 000 10,1 154,2 551 810 209 310 1 417 600 19,5 / 81,5 % 0,5679
Плотность
населения
2,1 1559 4,3 33,5 107 76 127 32,3 / 67,7 % 0,5506
Близость
к океану
0 2342 1,8 6,9 305 156 374 35,8 / 64,2 % 0,5459
Годовое количество
осадков
0 5488 1,4 6,3 998 859 630 42,6 / 47,8 % 0,5395
Площадь
города
85 604 770 11,9 212 9232 3343 26760 20,2 / 79,8 % 0,5331
Индекс
близости
0,25 0,99 -1,2 5,0 0,82 0,84 0,10 32,3 / 67,7 % 0,5097
**R2 - коэффициент детерминации, полученный в результате использования Анализа Группирования (см. ниже)

Для всех трех связанных между собой экономико-географических параметров (численность, площадь городов и плотность населения) распределение имеет четко выраженный паретианский характер (Таблица 9.3): Медианное значение сдвинуто в сторону "хвоста" и более чем в два раза меньше Среднего для численности и в три раза меньше - для площади городов, Стандартное Отклонение значительно превосходит Среднее. Как правило, паретианское распределение имеет выраженный дисбаланс между "головой" и "хвостом", например, в нашем случае это соотношение 20/80 для численности и площади городов, и приблизительно 30/70 для плотности. Значительны и показатели асимметрии|Skewness: 10,1 и 11,9 для Численности населения и Площади городов соответственно.

Два из четырех физико-географических признаков - расстояние до океанического побережья и высота над уровнем моря - также несут явные признаки паретианского распределения с выраженной асимметрией в сторону меньших значений поскольку многие крупные города возникали с формировались в непосредственной близости от береговой линии на приморских низменностях и/или в пределах устьевых створов речных долин. Неслучайно Медиана расстояний до побережья 156 вдвое меньше Среднего 305. У показателя Абсолютной высоты эти значения ближе, но велика Асимметрия 2,4 и Выбросы 13,2. Два других географических показателя имеют распределение близкое к нормальному с большим или меньшим смещением в сторону "головы" (Температура) или "хвоста" (Осадки).

Другими словами, "среднестатистический город" с численностью чуть более полумиллиона (551, 8 тыс.) человек, площадью около 10000 га (т.е., приблизительно 3 * 3 км) и плотностью населения порядка 100 чел./га, расположенный в 300 км от морского побережья на высоте приблизительно 800 м мало соответствует представлению о "типичности". Между тем именно от таких (и подобных им) пороговых значений обычно отталкиваются создатели карт в различных Атласах демонстрируя города с населением 100, 250, 500, 1000 тысяч и т.д. На самом деле в глобальном масштабе типичным является город с населением чуть больше 200 тыс., площадью порядка 3300 га и плотностью 70-80 чел./га, расположенный ближе к океану ~150 км и на высоте, соответствующей топографическому уровню невысоких плато или низкогорья ~600 м: не правда ли, значимое расхождение?

Паретианское распределение создает сложности не только для адекватного отображения множества объектов по единственному признаку, но и для любых процедур классификации/группирования по набору признаков. Весьма распространенной является ситуация, когда мы пытаемся классифицировать объекты по параметрам, часть из которых распределена с большим или меньшим соответствием гауссову закону (т.е., "колоколообразно"), а часть - явно обнаруживает свойства паретианского (степенного) распределения.

Что происходит, когда мы пытаемся классифицировать множество объектов по набору признаков с различными характером распределения? Для ответа на этот вопрос проведем Анализ Группирования крупнейших городов мира с привлечением восьми имеющихся в нашем распоряжении демографических и физико-географических переменных; (разумеется, наш набор, мягко говоря, эклектичен, но мы воспользуемся им исключительно для решения методической задачи):

Запустим в ArcMAP10.x пробную процедуру Grouping Analyst с опцией Evaluate Optimal Number of Groups и указанием максимально возможного числа групп 15 в поле Number of Group. В таблице Pseudo F-Statistic Plot PDF-отчета обнаруживаем голубой пунсон "оптимума" на отрезке Max-Min для 8 групп (Рис. 9.13) с наименьшим расхождением между Средним и Медианой; т.е., всю совокупность с "точки зрения" ArcMAP10.x следует разделить на 8 классов.


Рис. 9.13 График Pseudo F-Statistic с анализом оптимального числа групп для совокупности крупнейших городов мира по восьми признакам

Используем это значение для вторичного запуска инструмента Grouping Analyst и попытаемся ответить действительно ли существует нечто вроде "подписи" характерных кластеров крупных городов? Построим модель для восьми групп по выбранным переменным (Рис. 9.14).


Рис. 9.14 Классификация совокупности крупнейших городов мира на 8 классов (групп)

Для интерпретации результатов необходимо получить обобщенные (усредненные) характеристики групп используя инструмент Dissolve (Geoprocessing) с опцией SS Group в поле Dissolve Fields, с перечислением всех переменных в поле Statistic Fields и указанием типа статистики Mean|Среднее (при желании можно получить статистики Range|Диапазона переменной или Std.Dev|Среднего квадратического отклонения.

Имея файл 8_Group_Dissolve обобщенных (по Среднему) характеристик основных переменных для каждой из восьми групп в ArcMAP10.x можно построить View >> Graphs >> Create Scatter Plot Matrix специальные графики, распределения значений групп по каждой из привлеченных к анализу переменных.

Рис. 9.15 Графики дифференциации групп: a) по абсолютной высоте R2= 0,6713, b) по среднегодовой температуре R2= 0,6176
Рис. 9.16 Графики дифференциации групп: a) по численности населения R2= 0,5679, b) по плотности населения R2= 0,5506
Рис. 9.17 Графики дифференциации групп: a) по расстоянию до океана R2= 0,5459, b) по годовому количеству осадков R2= 0,5395
Рис. 9.18 Графики дифференциации групп: a) по площади городов R2= 0,5331. b) по индексу близости R2= 0,5097

Чтобы интерпретировать эти данные необходимо вспомнить, что значение R2 показывает в какой степени вариация в исходных данных (конкретной переменной) была сохранена в процессе группировки, проще говоря, насколько эффективно переменная разделяет множество на группы: чем больше R2, тем лучше переменная дифференцирует ваши объекты. Кроме того, поскольку для позиции Пространственные ограничения была выбрана опция NO_SPATIAL_CONSTRAINT в ходе анализа задействован алгоритм K-средних, разделяющий множество таким образом, чтобы отличия между объектами в группе для всех групп были минимальными. Данный алгоритм идентифицируется как "NP-трудный", использующий "жадную эвристику" и формирующий минимальное остовое дерево на основе первоначально создаваемого графа связности между объектами. Объекты играют роль узлов в остовом дереве, связанных "ветвями" - ребрами графа, которые тем короче, чем ближе сходство между объектами. Длинные ветви итерационно разрезаются для образования новых групп [Jain, 2009]. Максимизировать сходство между объектами в группе одновременно максимизируя различия между группами - задача, которая требует "перебора" вариантов, число которых возрастает экспоненциально с возрастанием количества объектов и числа групп. По мере достижения некоего порогового количестве объектов "задача быстро становится трудноразрешимой" (Как работает инструмент Анализ группирования), поскольку чрезвычайно сложно найти оптимальный алгоритм группировки в многомерном пространстве, где каждая переменная ("ордината") характеризуется своими диапазоном и характером распределения. Вероятно, именно по этой причине инструмент Grouping Analyst ArcMAP10.x выдает несколько различающиеся результаты при повторных запусках с одними и теми же опциями группировки.

Казалось бы, мы можем судить о значимости той или иной переменной для дифференциации множества на группы (таксоны/классы) по значению R2: среди "сильных" факторов - абсолютная высота, среднегодовая температура и численность населения, среди более слабых - площадь городов и индекс близости. Однако графики обобщенных (групповых) средних демонстрируют нам разную ситуацию: "сильный" фактор численность населения сам по себе распределен относительно монотонно (с единственным выбросом - города с численностью свыше 9 млн. чел. Точно также не очень "разводящим" признаком оказывается и абсолютная высота, ясно вычленяющая единственный класс высокогорных 2054 м городов. А вот переменная среднегодовое количество хорошо дифференцирует по крайней мере шесть из восьми групп. Таким образом, сильные факторы, характеризующиеся относительно высоким значением R2 не обязательно хорошие разделители совокупности.

Для интерпретации групп используем шейп-файл со средними|mean значениями всех привлеченных для анализа переменных в каждой из групп (Таблица 9.4). Кроме того, привлечем еще одну характеристику из второй части PDF-отчета Анализа Группирования, а именно - показатель Share|Разделенный диапазон значений (общая доля) или отношение диапазона (размаха) значений группы по данному признаку к общему диапазону совокупности.


Рис. 9.19 Скриншот таблицы значений переменной Численность населения для 8 групп с показателем Share в пятом столбце

Например, для группы 7, которая выделилась по переменной Численность населения значение Share|Разделенный диапазон значений получен делением диапазона группы на диапазон всей совокупности городов:

(MAX7 - MIN7) / (MAXtotal - MINtotal)
(34350000 - 2907049) / (34350000 - 100000) = 0,9153

Таким образом, для 7-й группы общая Разделенный диапазон значений по параметру Численность населения равна 91,5% и это высокий показатель, но как видно из таблицы PDF-отчета (Рис. 9.23) для других групп разделенная доля значительно ниже - например для 8-й группы всего лишь 9%. Следует понимать, что чем шире Разделенный диапазон значений тем более "облачной" является группа по данной переменной и тем менее жестко переменная описывает группу. Эта закономерность хорошо прослеживается при сравнении Std.Dev|Стандартного Отклонения и Share|Разделенного диапазона между разными группами для любой переменной.


Рис. 9.20 Соотношение Разделенного диапазона значений (оранжевая линия) и Стандартного отклонения (синие столбики) для переменной Численность населения по восьми группам

График, построенный по значениям Std.Dev и Share для переменной Численность населения по восьми группам показывает (Рис. 9.20), что, во-первых, одна и та же переменная описывает разные группы с различной степенью определенности ("жесткости"), во-вторых - чем шире Разделенный диапазон, тем выше Cтандартное отклонение, следовательно - тем больше неопределенность значений внутри группы; относительно решаемой задачи классификации это означает снижение надежности результата (т.е., выбранных пороговых значений и числа групп). Иными словами, высокий процент Разделенного диапазона свидетельствует о существенной неоднородности внутри конкретной группы.


Рис. 9.21 "Облачность" параметра Численность населения при различных значениях Разделенного диапазона a) для группы 7 (92%), b) для группы 8 (9,3%)

Очевидно, что в группе 7 при значительно меньшем числе объектов (47) но высоком Разделенном диапазоне разброс значений гораздо выше, чем в группе 8 (264), хотя, казалось бы, 7-я группа "отчетливо" дифференцировалась по параметру Численность населения, как группа крупнейших мегаполисов мира. Следовательно, относительно высокое значение R2 для конкретной переменной еще не является доказательством, что переменная "сработала" в качестве эффективного разделителя для всех выделяемых групп. Интерпретируя итоги Анализа группирования необходимо сопоставлять показатель R2 с показателем Share.

Если собрать значения Share PDF-Отчета Анализа группирования в отдельную таблицу, то можно построить график, который позволит установить в какой степени надежно та или иная переменная конфигурирует конкретные группы, выделившиеся в результате кластеризации (Рис. 9.22).


Рис. 9.22 Флуктуации значений Разделенного диапазона переменных для отдельных групп: H - абсолютная высота, T - среднегодовая температура, Q - среднегодовое количество осадков, DO - дистанция до побережья, Pop - численность населения, PD - плотность населения, Ar - площадь городов, Prx - индекс близости

Сравнивая значения Разделенного диапазона значений внутри одной переменной (Таблица 9.4), можно определить группы, для которых данная переменная окажется "надежным" конфигуратором. Так, например Абсолютная высота неплохой конфигуратор для 1-й, 2-й, 6-й и 8-й групп, хотя только в двух последних группах показатель принимает значения близкие к максимуму (8) и минимуму (6). Аналогично 2-я, 6-я и 8-я группа "отбиваются" показателем Численность населения, хотя лишь для 8-й группы мы имеем выраженное минимальное значение данного параметра.

Характерно, что нормально распределенные переменные, как правило, обнаруживают меньшие различия Разделенного диапазона между разными кластерами (группами) по сравнению с паретианскими переменными: достаточно сравнить (Рис. 9.22) кривую для Среднегодового количества осадков с кривыми Абсолютной высоты или Численности населения. По всей вероятности, это обусловлено тем, что алгоритму приходится "жертвовать" корректностью определения групп, принадлежащих к разным областям "головы" и "хвоста" распределения: сосредоточенность на "хвосте" показателя Абсолютная высота вынуждает определять города, расположенные в горах (со Средним 2054 м) как весьма "облачное" подмножество.


Рис. 9.23 a) Соотношение Разделенного диапазона значений (красная линия) и Стандартного отклонения (синие столбики) для переменной Абсолютная высота по восьми группам; b) "Облачность" группы 3 по признаку Абсолютная высота со средним значением для группы 2054 м

В пределах 304 членов "горной" группы городов обнаруживается (Рис. 9.23), с одной стороны - множество объектов со значительно меньшем чем Среднее высотой, с другой - несколько десятков объектов, "забравшихся" выше отметки 2500 м.

Сведем итоговые параметры Средних и в общую таблицу (Таблица 9.4)

Таблица 9.4 Средние значения восьми переменных для каждой из восьми групп городов*
Группа 1 2 3 4 5 6 7 8
Абсолютная
высота
(м)
743
(25%)
651
(23%)
2054
(75%)
738
(46%)
614
(39%)
621
(33%)
684
(53%)
871
(39%)
Среднегодовая
температура
(град. C)
24,2
(39%)
11,7
(64%)
16,3
(51%)
17
(66%)
24
(56%)
15,6
(96%)
17
(59%)
8,8
(94%)
Численность
населения
(%)
427011
(18%)
407934
(15%)
453484
(20%)
834709
(29%)
399760
(14%)
444589
(15%)
9875673
(92%)
363742
(9,3%)
Плотность
населения
(чел./га)
108
(24%)
77
23%)
96
(33%)
586
(79%)
112
(26%)
75
(22,6%)
80
(23%)
81
(23%)
Близость
к океану
(км)
359
(56%)
181
(31%)
482
(62%)
445
(63%)
78
(53%)
131
(47%)
150
(44%)
1185
(76%)
Годовое
количество
осадков
(мм)
884
(36%)
724
(31%)
739
(51%)
1118
(80%)
2090
(78%)
991
(41%)
1054
(47%)
580
(38%)
Площадь
города
(км2)
5265
(11%)
8184
(15%)
6771
(16)
1517
(3%)
5286
(13%)
9347
(19%)
179382
(95%)
9271
(20%)
Индекс
близости
(%)
0,886
(39%)
0,845
(36%)
0,848
(66%)
0,812
(58%)
0,826
(63%)
0,649
(71%)
0,771
(46%)
0,82
(67%)
Количество
городов
в группе
818 1092 304 113 521 487 47 264
Число
выделяющих
признаков
2+/1- 3- 2+ 3+/2- 4+/2- 2+/3- 2+/1- 1+/4-
*В красных ячейках - наибольшие значения переменной, в оранжевых - большие (вторые в рейтинге) значения переменных, в синих - наименьшие значения переменных, в голубых - низкие (вторые в рейтинге) значения переменных; в скобках ниже значений приведены значения Разделенного диапазона (%); в последней строке показаны число и характер дифференцирующих значений "+" с высокими значениями, "-" с низкими значениями

Первое, что можно отметить - различия в степени и характер делимитированности различными факторами разных групп: так, третья группа выделилась благодаря высоким значениям двух переменных, тогда как пятая группа "собрала" четыре высоких значения и два низких, т.е., выделилась в целом благодаря шести факторам. Интерпретируем результаты классификации, учитывая отмеченные особенности.

1-я группа (синие пунсоны на картограмме (Рис. 9.14) и графиках дифференциации (Рис. 9.15-18)) довольно многочисленна и охватывает 818 городов внутренней части Индостана, экваториальной и тропической зон Африки и Южной Америки, выделилась как класс самых "жарких", со среднегодовой температурой 24,20 при относительно высокой 39% надежности признака; дополнительные признаки максимальный индекс близости 0,886 со средней численностью 427 011 чел., которая довольно жестко Share=13% определяет группу.

2-я группа (красные пунсоны) - самая многочисленная - 1092 городов с прохладным 11,70 климатом умеренной влажности 724 мм, причем параметр Осадки конфигурирует группу лучше чем Среднегодовая температура 31% против 64%; это практически типичный европейский город, с численностью населения чуть большей 400 тыс.чел. (хорошая надежность 15%) и низкой плотностью населения 77; у этой группы нет выдающихся показателей, это именно "средний" город; второй обширный ареал группы - Китай и Японские острова, восточное побережье Северной Америки и западный сектор Южной Америки.

3-я группа (зеленые пунсоны) сравнительно немногочисленна 304 города, но выделяется (хотя как мы уже убедились недостаточно надежно) по двум признакам Абсолютной высоте 2054 м (Share=75%) и Индексу близости (Share=66%): это города расположенные вдоль горной цепи Анд и Кордильеров, на высоких плато Восточной Африки, Турции, Ирана Ирака.

4-я группа (оранжевые пунсоны) совсем немногочисленна 113 городов, но выделяется по пяти признакам, из которых три - слабые конфигураторы, поскольку имеют существенный Разделенный диапазон значений; высокой Плотностью населения 586 (Share=79%%), вторым показателем Численности населения 834 709 и очень высокой Влажностью 1118 (Share=80%). Единственный надежный признак (Share=3%), отличающий эту группу самая малая Площадь 1517 км2. Неудивительно, что четвертая группа городов формирует крупный кластер на территории Юго-Восточного Китая и Южной Кореи.

Для 5-й группы ("брусничные" пунсоны - 521) дифференцирующим, но при том - ненадежным (78%) признаком является наибольший Объем годовых осадков 2090 мм и максимальная близость к океану 78 км, кроме того это "теплые" города (второй показатель - 240) расположенные на небольшой Высоте 614 м в пределах прибрежной полосы (при Share=33%) между двумя тропиками Тихого, Индийского и Атлантического океанов.

6-я группа (коричневые пунсоны - 487 городов) выделилась по показателям минимальной Плотности населения 75 чел./га с неплохой надежностью 22,6% и минимальному Индексу близости 0,649 - более слабый разделитель (Share=72%); средняя Численность 444589 самый сильный конфигуратор группы; эти города расположены в ближе к небольшим внутренним морским акваториям (Средиземноморье) и окраинным морям (Карибское море).

7-я группа (розовые пунсоны) самая малочисленная 47 городов, но она объединяет мегаполисы с Численностью населения более девяти миллионов (9 875 673), однако, как мы уже видели - признак весьма ненадежен (92%) (см. Рис. 9.21a) и огромной Площадью 179 382 км2 с таким же уровнем надежности, дополнительные признаки - высокая Влажность 1054 мм и сравнительно Теплый климат 170 и Близость к побережью 150 (47%). Единственный сильный конфигуратор группы - Плотность населения. Города этой группы распространены на восточном и западном побережье США, в Средне Европе, а также - дисперсно в юго-восточной Азии, Океании, Китае, на полуострове Индостан.

8-я группа (серые пунсоны - 264 города) выраженная внутриконтинентальная: расстояние до океана здесь максимальное 1185 км, но и это не слишком надежный конфигуратор (76%), с крайне прохладным (минимальная среднегодовая температура 8,80 (Share=94%) и относительно сухим 581 мм климатом и минимальной численностью населения 363 742, именно этот последний показатель надежен (Share=9,3%) и может считаться сильным дифференцирующим признаком.

Таким образом, как нормальное распределенные (по гауссову закону), так и паретианские переменные могут выступать в роли сильных и слабых разделителей множества объектов на группы (или классы). Однако показатель Share, отражающий, по сути, надежность разделения разных группы по данному конкретному признаку (переменной) принимает более "ровные" значения между группам для нормально распределенных переменных, в то время как для паретианских переменных параметр Share для разных групп может весьма сильно различаться, что самым непосредственным образом сказывается на эффективности решения общей задачи классифицирования объектов. Например, при паретианском распределении двух признаков (численность населения и абсолютная высота) очень сложно оптимизировать итоговую задачу классификации: алгоритм кластерного анализа ArcMAP10.x Анализ группирования выделит нам 6 групп с численностью населения в районе 350-450 тыс.чел., и 6 групп на топографическом уровне 600-750 м, в обоих случаях в совершенно ненадежном разделенном диапазоне различий. Отметим, что скорректировать классификацию и разделение на группы придавая переменным различный вес в такой ситуации невозможно.

В целом мы можем констатировать, что "гауссово" мышление связано с ожиданием, что среднее является представителем выборки, в то время как во многих случаях, не только среднее, но и медиана могут не обеспечивать корректного представления о сложно распределенной совокупности. В этом смысле "гауссово" мышление является существенным (и не всегда простительным) упрощением реальности, оказывающим влияние на многие процедуры геоинформационного моделирования, в том числе - важнейшие операции классификации объектов.

Находящиеся в распоряжении исследователей инструменты геоинформационного моделирования могут быть не адаптированы должны образом к работе с нелинейно распределенными переменными. Связь между переменными, имеющими паретианское распределение, не может быть линейной, поэтому даже относительно простые "зависимые" феномены, например "численность населения городов" на самом деле неудовлетворительно объясняются моделями, построенными на линейных зависимостях. Более того - включение единственной паретианской переменной в модели с набором линейно распределенных переменных способно заметно деформировать или совершенно "испортить" модель [Jiang, 2015].


9.7. В поисках оптимальной классификации: что, все-таки, делать с паретианскими множествами

Итак, многие географические объекты как природные, так и социальные распределены по степенному закону, т.е., представляют собой паретианские множества. Бин Сянг (Bin Jiang), уделивший много внимания проблеме учета особенностей паретианского распределения в процедурах геоинформационного моделирования в одной из своих работ [Jiang, 2018b] ссылаясь на литературные данные приводит далеко не исчерпывающий список таких объектов и феноменов.

Таблица 9.5 Географические объекты и феномены подчиняющиеся степенному распределению (по Б. Сянгу с изменениями [Jiang, 2018])
Объекты Параметры Авторы
Системы расселения в целом плотность населения Schaefer, Mahoney, 2003; Kyriakidou et al., 2011
Города размерность, численность населения, площадь Zipf, 1949; Krugman, 1996; Brakman, 1999 Jiang, Jia, 2011
Сети городских улиц длина и сочленение Carvalho, Penn, 2004; Jiang, 2009
Общественные места в городах площади Salingaros, West, 1999
Городские кварталы размерность Lämmer, 2006; Jiang, Liu, 2011
Здания и сооружения в городах высота и площадь Batty et al., 2008
Аэропорты размерность и связанность Guimerà et al., 2005
Береговые линии очертания, форма и размеры составляющих элементов Jiang, 2009
Горы высота Mandelbrot, 1967
Речные и эрозионные сети длина, порядок и сочленение MHorton, 1945; Maritan et al., 1996

Бин Сянг предложил принципиально новый способ разбиения паретианских множеств, но прежде чем обратиться к его методу обратимся еще раз к кластерному анализу и попытаемся использовать Grouping Analysis ArcMAP10.x для разбиения уже известного нам множества городов на классы по Численности населения, выставив в качестве опции "число групп" максимальное значение 15, не определяя пространственных ограничений и "заказав" определение оптимального числа групп. Для 3436 городов в качестве результата кластеризации получаем 15 групп, это означает, что алгоритм счел оптимальным максимально возможное число (следовательно, реальный оптимум мог бы быть и большим).


Рис. 9.24 График Pseudo-F-Statistic в выходном файле анализа группирования по единственному признаку численности населения

В данном случае нас будет интересовать не столько выходная картограмма, сколько результаты классифицирования: граничные значения 15 таксонов, число объектов в каждом, рейтинг городов, и в итоге - характер распределения. Объединим объекты, принадлежащие каждой группы по признаку SS GROUP (номер группы) утилитой Dissolve с одновременным расчетом статистик для каждой группы. Поскольку номера групп присваиваются алгоритмом в случайном порядке дополнительно проставим рейтинговое место группы (по численности населения) в специально созданном поле Rating.

Таблица 9.6 Характеристики 15 групп городов, сформированных инструментом Grouping Analysis по единственному признаку Численность населения
SS_GROUP Rating COUNT Percent MEAN MIN MAX RANGE STD
14 1 1 0,03 34450000 34450000 34450000 0 0
8 2 1 0,03 22382975 22382975 22382975 0 0
4 3 6 0,16 17037807 16086000 18396677 2310677 818902
10 4 5 0,14 13214148 12583000 14387000 1804000 685148
3 5 9 0,25 10330584 9693000 11018000 1325000 451874
5 6 7 0,19 8684494 8245020 9157540 912520 364687
13 7 9 0,25 6948805 6353000 7608070 1255070 393544
2 8 24 0,66 4946988 4378000 5567000 1189000 357444
15 9 26 0,71 3629686 3230000 4278738 1048738 323272
12 10 46 1,26 2730386 2347000 3179000 832000 226861
7 11 84 2,30 1883673 1558000 2285298 727298 216812
9 12 204 5,60 1200639 950000 1522787 572787 161913
11 13 321 8,80 697025 528434 937000 408566 115632
1 14 768 21,06 359597 256883 527900 271017 78434
6 15 2135 58,56 153961 100000 256349 156349 43322

Статистика полученных в результате Анализа Группирования таксонов обнаруживает Head-and-Tail распределение, что подтверждается соответствующими графиками: (Рис. 9.25a) гистограмма Численности населения и (Рис. 9.30 b) гистограмма Числа объектов в 15 классах, выстроенных по рейтингу.


Рис. 9.25 a) Гистограмма распределения численности населения по 15 классам (слева), и b) гистограмма числа объектов в группах

Два "хвостовых" класса с рейтингом 14 (359597 чел.) и 15 (153961 чел.) охватывают 79,6% объектов множества, тогда как на остальные 13 классов приходится только 20,4%, иными словами - группирование обнаруживает типичное паретианское распределение 20%/80%. Пороговые значения групп фиксируются максимальными-минимальными значениями, легко проверить что они также подчинены степенной функции. Мы не получим такого распределения автоматически просто меняя способы классификации точечного вектора в диалоговом окне Symbology на вкладке Classification: ни способом Natural Breaks ни способом Geometrical Interval. Однако и таксоны, полученные как результат Анализа Группирования не вполне идеальны для оформления классификации: классы с рейтингом с 3 по 7 нарушают характер нарастания количества объектов в группах с последовательно увеличивающейся численностью населения.

Для преодоления подобного затруднения и получения естественной классификации множеств с паретианским ("Paretian-like") распределением Бин Сянг предложил совершенно особенный метод названный им Ht-индекс для количественной оценки фрактальной или масштабной структуры географических объектов [Jiang, 2013a]. Метод несложен, но готового инструмента в ГИС для него пока не существует. Алгоритм состоит из совокупности следующих шагов:

  • Установление ненормального ("паретианского") характера распределения для рассматриваемой совокупности по исследуемому признаку (назовем его "Y");
  • Определение среднего значения "Y" для совокупности (mean01);
  • Расчет числа объектов, сначала в абсолютном, затем в процентном соотношении, попадающих в выборки "Y >= 0" (head) и "Y < 0" (tail);
  • Проверка соотношения на соответствие head-and-tail распределению, в общем случае head <= 40%, (напомним, что в "классическом варианте эта величина обычно менее 30%);
  • Определение среднего (mean02) только для выборки верхних значений (назовем эту выборку"head01";
  • Расчет числа объектов (опять-таки в абсолютном и процентном соотношении) для "Y >= mean02" и "Y < mean02" ;
  • Проверка соотношения на соответствие head-and-tail для выборки "head02";
  • Определение среднего значения (mean03) теперь уже внутри выборки head02
  • И так далее - цикл действий 2-3-4 повторяется до тех пор, пока соотношение head_N tail_N не приблизится к нормальному (50% / 50%).
  • Ht-индекс принимается равным числу циклов: если их 3, то и Ht-индекс равен 3, таким образом вычисление индекса позволяет решать сразу две задачи - определить оптимальное число таксонов и выявить пороговые значения.

    Посмотрим, как "работает" метод на примере совокупности городов мира. Выполнение алгоритма представляет собой реализацию некоторого числа циклов с проверкой на соответствие условию и может быть формализовано средствами Model Builder. В "ручном" режиме удобнее вести параллельный расчет в таблице Excel (см. Таблицу 9.7). Каждую новую выборку headN сохраняем в добавляемых к таблице файла источника новых полях head01, head02, head02 и так далее, для которых последовательно вычисляются новые статистики (mean, min, std).

    Таблица 9.7 Расчет индекса Ht по методу Б. Сянга для совокупности городов мира с населением более 100 000 чел.
    STEP COUNT MEAN MIN STD HEAD N HEAD % TAIL N TAIL %
    1 3646 551814 100000 1417429 711 19,5 2935 80,5
    2 711 1954658 553000 2794137 167 23,5 544 76,5
    3 167 5090741 1959000 4469542 48 28,7 119 71,3
    4 48 10301693 5091332 5443091 17 35,4 31 64,6
    5 17 15773503 10398000 5641350 8 47,1 9 52,9
    6 8 19882477 16086000 5813466 2 25,0 6 75,0
    7 2 28416487 22382975 6033512 1 50,0 1 50,0

    Таким образом, расчет заканчивается при точном выполнении условий 50%/50% и с образованием последнего седьмого класса объектов с двумя крупнейшими мегаполисами мира - Токио и Нью-Йорк. Процентное соотношение head/tail меняется закономерно с небольшим отклонением в пятом классе 47,1%/52.9%. Подобное распределение на 7 классов гораздо ближе к действительности, чем рекомендованное группирование ArcMAP10.x (15 таксонов). Для формирования собственно классификации необходимы также граничные значения таксонов - минимальные (минимальное последующего класса одновременно максимальное для предыдущего). Задавая эти значения в качестве пороговых на вкладке Classification получаем новую карту крупнейших городов мира.


    Рис. 9.26 Карта крупнейших городов мира, с классами, построенными с учетом Ht индекса

    В дальнейшем мы рассмотрим более подробно возможности классификации Head-and-Tail совокупностей на примере дифференциации высотных ступеней Цифровых Моделей Рельефа.