I. ОСНОВЫ ПРОСТРАНСТВЕННОГО АНАЛИЗА 2. ДЕСКРИПТИВНЫЙ АНАЛИЗ ДАННЫХ 2.1. Краткая характеристика дескриптивной статистики 2.2. Нью-Йорк как объект геопространственной статистики 2.3. Карты хороплет в ArcGIS 2.4. Карты хороплет в SAGA GIS

I. ОСНОВЫ ПРОСТРАНСТВЕННОГО АНАЛИЗА

2. ДЕСКРИПТИВНЫЙ АНАЛИЗ ДАННЫХ

2.1. Краткая характеристика дескриптивной статистики

Описательная статистика - это набор инструментов анализа, которые обобщают основные характеристики распределения данных путем расчета статистик и/или построения картограмм и графиков, к которым относятся:

  1. Фоновые картограммы (хороплеты),
  2. Гистограммы частот,
  3. Основные статистики (асимметрия, эксцесс и др.),
  4. Диаграммы размаха (коробочные диаграммы),
  5. QQ-графики,
  6. Точечные диаграммы,
  7. Матрицы точечных диаграмм.

Описание набора данных обычно является первым этапом ГИС-моделирования, призванным обеспечить понимание изменчивости данных и определить возможные ошибки: недопустимые значения, пропуски (пустые ячейки), или выбросы - значения, которые чрезмерно отличаются от остальных. Типичные вопросы, на которые может ответить описательная статистика в географическом контексте, обычно звучат примерно так:

Описательная статистика зачастую используется в сочетании с инструментами Исследовательского Анализа Пространственных Данных (Exploratory Statistic Data Analysis - ESDA), поэтому границы между этими двумя видами статистики не всегда очевидны: гистограммы, точечные диаграммы и диаграммы размаха могут включать как в описательную статистику, так и в ESDA. Единственное существенное различие дескриптивной статистики от исследовательского анализа заключается в том, что ESDA предоставляют возможность строить графики с двумя и более переменными. [Fischer, Getis 2010,], тогда как описательная статистика почти всегда "одномерна" поскольку имеет дело только единственной переменной набора данных.


2.2. Нью-Йорк как объект геопространственной статистики

Для апробации методов геопространственного анализа нам понадобится объект с хорошей "кредитной историей" в сфере сбора и предоставления широкой публике разнообразных данных. Мы не проводили специального сравнения, но весьма вероятно, что один из наиболее "информационно обеспеченных" в этом смысле городов мира - Нью-Йорк. Нью-Йоркский Департамент Городского Планирования|NYC Department of City Planning на протяжении трех последних десятилетий разрабатывал и внедрял в городскую жизнь систему статистического учета самых разнообразных данных о населении, собранных и обработанных по различным сеткам административно-территориального деления, в основе которых находится единица низшего ранга - городской переписной ("цензорный") участок - block.

Открытость созданной в Нью-Йорке системы пространственной статистики - одно из ее главных достоинств. На целом ряде порталов после рутинной регистрации пользователю становятся доступными самые разнообразные данные: начиная от расового, национального, возрастного состава и образовательного уровня жителей, и заканчивая заболеваемостью, преступностью, размером доходов и рентной стоимости жилья. Важно отметить, что свободное развитие этой сферы, которую можно (без особой натяжки) назвать сферой открытой гражданской статистики привело к параллельной разработке специальных пакетов геопространственного моделирования (прежде всего - GeoDa, а также - инструментов веб-картографирования, которые позволяют пользователю строить тематические картограммы "на лету", т.е., прямо на сайте, не закачивая данные и не открывая десктопных ГИС-приложений (например, оболочка CARTO).

Общие сведения о различных источниках геопространственной информации по Нью-Йорку можно найти на сайте Библиотеки Колумбийского университета GIS and Spatial Data: New York City and State. Одним из порталов-агрегаторов сведений от различных агентств Нью-Йорка является сайт NYC Open Data; большая часть данных в этой коллекции уже представлена в удобных ГИС-форматах shape и geojson файлов. Отличные наборы данных представлены также в Нью-Йоркской Публичной Библиотеке в специальном разделе NYC & Metro Interactive Maps & Databases, где кроме обычной демографической статистики можно обнаружить данные по прогнозируемым рискам затопления от экстремальных событий New York City Flood Hazard Mapper, уникальные (вплоть до отдельных деревьев) сведения по зеленой инфраструктуре NYC Street Trees by Species, карты состояния окружающей среды ToxiCity Map, исторические карты и фотографии Urban Re Viewer, а также карты зонирования и землепользования ZoLa.

Система пространственной статистики Нью-Йорка достаточно сложна и подвергалась постоянному реформированию с целью оптимизации соотношения баз данных и совпадения границ операционно-территориальных единиц (ОТЕ) разного иерархического уровня. Последние изменения были произведены в 2020 г. и ознаменовались уточненной и дополненной сеткой Community District Tabulation Areas (CDTAs), заменивших прежнюю сетку Community Districts. Предполагается, что CDTA будет иметь доступ к обширному массиву данных ежегодного обследования американского сообщества (Annual American Community Survey), что делает эту информационно-картографическую базу полезным инструментом для изучения округов.

Пять исторически сформировавшихся районов Нью-Йорка, так называемые боро (Borough) - Манхэттен, Бруклин, Куинс, Бронкс и Статен-Айленд - имеют неправильные формы и разную площадь.


Рис. 2.1 Боро Нью-Йорка

Нью-Йорк разделен на 59 округов - Community District (CD), которые имеют относительно фиксированные границы, и к которым максимально приближена сетка границ Community District Tabulation Areas (CDTA). Собственно добавление к наименованию Tabulation Areas как раз и означает извлечение разнообразных данных (прежде всего демографических и экономических) в эти вновь скорректированные ОТЕ, и, однако, эта сетка крупновата для многих тематических видов анализа, поскольку население каждого дистрикта приближается, в среднем, к 100 тыс. жителей.


Рис. 2.2 Округа (районы) Нью-Йорка

Для статистического анализа интереснее среднемасштабные единицы - Neighborhood, которые (весьма условно) можно перевести на русский язык как "микрорайоны соседства", средняя численность населения Neighborhood Tabulation Areas составляет около 40 000 человек (NTAs). .


Рис. 2.3 Соседства (Neighborhood) Нью-Йорка

Наконец, к локальным единицам АТД Нью-Йорка относятся Census Tracts|Кварталы - всего 2327) со средней численностью населения 4000 чел. и Census Blocks|Блоки. Именно эти единицы служат базовыми единицами проводимой раз в 10 лет переписи и одновременно - сеткой сбора дополнительной информации.


Рис. 2.4 a) кварталы, b) блоки Нью-Йорка

2.3. Карты хороплет в ArcGIS

Карты Хороплета|Choropleth - это тематические карты, на которых полигоны операционно-территориальных единиц отображаются в соответствии со значениями отображаемой переменной [Longley et al. 2011, p. 110]. В качестве переменной могут выступать численность и плотность населения, доход на душу населения, рентная стоимость жилья, загрязнение воздушного бассейна, заболеваемость и т.д. Различают так называемые экстенсивные переменные|extensive variables, к которым относятся первичные данные (такова численность населения или число домов в квартале) и интенсивные переменные|intensive variables, своего рода производные, которые выражают плотность, соотношение или пропорции, и которые специально рассчитываются как средние, медианные, преобладающие и т.д. значения; таковы, например, плотность населения, доход на душу населения, уровень безработицы или уровень заболеваемости, вычисленные по квартальной или районной сетке.

Практически любые современные ГИС-пакеты предлагают средства (обычно встроенные в диалоговое окно оформления слоя) для перевода экстенсивных переменных в интенсивные, посредством нормализации по площади ОТЕ: классический пример - численность и плотность населения по каким-либо единицам АТД.

Для построения картограммы загружаем слой Tracts|Кварталы, далее открывает диалоговое окно Properties|Свойства и вкладку Symbology, выбираем поле PopTotal|Численность Населения и опции оформления Quantities Graduated colors|Количественная Градуированные цвета, далее выбираем классификацию Natural Breaks|Естественные границы - 7 классов. Затем также оформляем картограмму плотности населения.

TOC >> RC City >> Properties;
TAB = Symbology >> Quantities >> Graduated colors;
Value = PopTotal;
Color Ramp = Red;
Classes = 7;
Click Classify >> Natural Breaks (Jenks).

Карты хороплет "не претендуют" на многое: они позволяют представить данные в более-менее доступном для восприятия виде и поэтому весьма широко используются в разного рода отчетах, демонстрациях и рекламных материалах (Рис. 2.5).


Рис. 2.5 Картограммы: а) численности населения по кварталам (tracts), б) плотности населения Нью-Йорка

Тем не менее и здесь существуют свои сложности. Представляя данные в виде хороплета мы неизбежно совершаем действие по классификации, разбивая значения переменной на некоторое число классов (таксонов) и при том - определенным образом. И число классов, и способ разбиения на интервалы зависят от характера переменной и целей моделирования.

Чем больше число классов, тем, казалось бы, полнее характеризуется распределение показателей, но обратной стороной такой полноты является стирание различий между классами, и, следовательно, возрастающая сложность их интерпретации. Достаточно сравнить хороплеты плотности населения Нью-Йорка с разбиением на 7 и 5 классов (Рис. 2.6), чтобы в этом убедиться. К сожалению, не существует никакого способа определения "оптимального" числа таксонов, когда мы имеем дело с единственной переменной: в этом смысле выбор зависит от целей моделирования и остается в компетенции эксперта.


Рис. 2.6 Картограммы плотности населения Нью-Йорка) по кварталам (tracts): a) 5 классов (естественные границы), b) 10 классов (естественные границы)

Выбор способа разбиения также совсем не прост: он может быть экспертным метод Заданных Интервалов|Defined Interval и полуавтоматическим - по одному из алгоритмов, предлагаемых программным обеспечением. Экспертное разделение имеет свои традиции в некоторых разделах географии, например - в демографии, где используются традиционные интервалы для отображения численности и плотности населения, как правило, округленные до привычных значений. Однако такая "подача" может искажать реальную картину распределения признака, особенно если эксперт "соблазнился" разбиением значений на Равные Интервалы|Equal Interval.

Современные ГИС (в частности ArcMAP10.x) предлагают пользователю кроме двух уже упомянутых еще четыре алгоритма классифицирования: Естественные Границы (интервалы) |Natural Breaks, Равновеликие (равноколичественные) Классы|Equal Intervals, Квантили|Quantile, Стандартные Отклонения|Standard deviation, Геометрические Интервалы|Geometrical Interval.


Рис. 2.7 Хороплет плотности населения Нью-Йорка с разбиением на 5 классов методом равных интервалов

Метод Равных Интервалов|Equal Interval (Рис. 2.7) предполагает, что пользователь задает число классов, а границы равных интервалов определяются программой автоматически. Такие классификации часто использовались в традиционной картографии, но к ним следует относится с осторожностью, ибо пороговые значения могут не соответствовать ни реальным перегибам гистограммы распределения, ни распространенности потенциальных классов. Метод равных интервалов адекватно отображает только равномерно распределенные данные.


Рис. 2.8 Хороплет плотности населения Нью-Йорка с разбиением на 5 классов методом "естественные границы"

Метод Естественных Границ|Natural Breaks, или метод Дженкса (Рис. 2.8), основан на естественной группировке данных, которая достигается минимизацией дисперсии показателя внутри классов и максимизацией различий между классами. Этот метод позволяет выделить естественные переломы в распределении показателя, которые могут быть хорошо видны, например, на гистограммах, построенных по исходным значениям. При всей "робастности" данного способа он не выручает в ситуациях, когда гистограмма распределения выглядит как плавная кривая без заметных "перегибов" и ступеней.


Рис. 2.9 Хороплет плотности населения Нью-Йорка с разбиением на 5 классов методом квантилей

Метод Квантилей|Quantile или равноколичественных классов (Рис. 2.9) предполагает, что все классы должны содержать одинаковое число объектов. Такая классификация (также как и метод равных интервалов) подходит только для равномерно распределенных данных. Во всех остальных случаях метод вводит в заблуждение, так как для соблюдения правила равного количества объектов в классах пороговые значения могут сдвигаться неадекватно.


Рис. 2.10 Хороплет плотности населения Нью-Йорка с разбиением на 5 классов методом геометрических интервалов

Метод Геометрических Интервалов|Geometrical Interval был специально разработан для обработки непрерывных данных и создает интервалы путем минимизации суммы квадратов элементов в каждом классе (Рис. 2.10). Это позволяет добиться того, что в каждом классе будет находиться примерно равное количество значений, и размеры интервалов будут примерно равнозначными. Способ сочетает в себе достоинства методов равного интервала, естественных границ, квантиля и позволяет получить адекватный и визуально привлекательный результат. При выборе метода нужно задать число классов [Лурье, Самсонов, 2016].


2.4. Карты хороплет в SAGA GIS

В SAGA GIS хороплет для векторного слоя любого типа (точки, полилинии, полигоны) создается после загрузки (File >> Shape >> Load) и отображения (Вкладка Data >> Shapes >> FileName >> RC >> Add to Map) шейп-файла (Рис. 2.11).


Рис. 2.11 Вид неоформленного полигонального слоя при первичном открытии в SAGA

Оформление картограммы (хороплета) в SAGA GIS осуществляется в диалоговом окне Maps (после нажатия на верхней панели инструментов иконки Show Object Properties Window на панели Properties во вкладке Settings, включающей несколько разделов, ключевыми являются Colors с позицией Type и Labels с позицией Attribute. В поле Type|Тип по умолчанию выставлено значение Single Symbol|Единый Символ. При нажатии на стрелку справа открываются три другие варианта оформления слоя:

  • Classified|Классифицированное значение,
  • Discrete Colors|Различные цвета,
  • Graduated Colors|Градуированная шкала.

Простейшим способом построение хороплета является выбор варианта Graduated Colors с указанием необходимой переменной Attribute|Поле значений и выбором варианта Scaling|Шкалирования, которых здесь только три:

  • Linear intervals|Равные интервалы,
  • Increasing geometrical intervals|Увеличивающиеся геометрические интервалы,
  • Decreasing geometrical intervals|Уменьшающиеся геометрические интервалы.

Рис. 2.12 Диалоговое окно Setting с установками оформления хороплета по атрибуту Popdensity (Плотность населения): 5 классов, равные интервалы, желто-красная палитра

Дополнительно в этом же диалоговом окне в позиции Colors выбирается палитра и число интервалов, по сути - таксонов псевдоклассификации, (дефолтное значение - 11), и то, и другое можно менять, кликнув по стрелке в правой части строки. На открывающейся новой вкладке Colors можно выбрать не только цвета, но и число классов Count, а также инвертированный вариант раскраски Invert и вариант в тонах серого Greyscale.


Рис. 2.13 Вкладка Colors c позициями оформления числа и цвета псевдоклассов

Выбор способа классификации и числа таксонов определяют результат, хороплет либо подчеркивает, либо затушевывает различия в плотности населения между кварталами Нью-Йорка (Рис. 2.14).



Рис. 2.14 Хороплет плотности населения по кварталам Нью-Йорка, метод Градуированные Цвета, пять классов: а) Равные интервалы, b) Увеличивающиеся геометрические интервалы c) Уменьшающиеся геометрические интервалы

Другие возможности построения карт хороплета в SAGA GIS "спрятаны" во вкладке Data и могут быть запущены по правому клику на имени векторного слоя: RC >> Classify. Открывающееся специальное диалоговое окно содержит название переменной Attribute, возможность выбора цветовой гаммы Colors, максимальное число предполагаемых классов Maximum Number of Classes и, самое главное - способ классификации Classification. В этой позиции четыре возможности:

    1) unique values|уникальные значения,
    2) equal intervals|равные интервалы,
    3) quantiles|квантили,
    4) natural breaks|естественные границы


Рис. 2.15 Хороплет плотности населения по кварталам Нью-Йорка, пять классов: a) Естественные границы, b) Квантили

Таким образом в совокупности с первым способом оформления (диалоговое окно Setting) SAGA GIS предоставляет пользователю практически весь набор возможностей дескриптивной статистики, присутствующий в ArcMAP10.x за исключением способа классификации Стандартное отклонение.

Заключая краткий обзор методов описательной статистики, отметим, что до выявления характера распределения данных (осуществляемого на этапе исследовательского анализа) не всегда легко выбрать оптимальный вариант презентации данных, каковой, так или иначе, содержит (пусть и визуальную) но классификацию. Именно по этой причине некоторые специалисты сомневаются в целесообразности выделения дескриптивной статистики в отдельную фазу моделирования и объединяют ее с исследовательской статистикой ESDA.