有GIS有意思运用夜灯与社交数据一眼识破北上渝三城多中心结构

一览众山小-可持续城市与交通 2017-07-28 07:32:00
用手机看
扫描到手机,新闻随时看

扫一扫,用手机看文章
更加方便分享给朋友

如 果 你 不 想 对 一 座 城 市 失 望 一 定 要 在 夜 色 中 抵 达 因 为 夜 晚 的 灯 光 会 巧 妙 地 把 璀 璨 突 出 把 粗 陋 隐 藏 。

如 果 你 不 想 对 一 座 城 市 失 望

一 定 要 在 夜 色 中 抵 达

因 为 夜 晚 的 灯 光

会 巧 妙 地

把 璀 璨 突 出

把 粗 陋 隐 藏

编辑团队

原文/ Jixuan Cai (蔡纪烜)、Bo Huang (黄波)、Yimeng Song (宋祎萌)| 香港中文大学  

翻译/ Robin Xu、戴劭勍、147   文献/ 唐艺格

编辑/ 众山小     排版/ 众山小

 

运用夜灯与

社交数据

识破北上渝三城

多中心组团结构

   

 

译者萌像与导读

 

     大数据时代的到来使得近几年的城市定量研究有了质的飞跃。然而,如何集成不同类型、不同口径的空间大数据,发挥多源大数据各自的优点是当下该类研究的一大挑战,也是困扰不少相关学者的一大问题。此次推荐的文章即在这个问题上进行了一次全新探索。作者应用了包含遥感影像、社交媒体以及POI等数据,严谨又灵活地应用各种空间统计方法,研究了北京、上海和重庆三个形态各异的多中心城市之结构。该文章发表于遥感领域的Top期刊——《环境遥感》,也是近期首次在该期刊发表的此类文章。闲话少说,就让我们一起来看下这项工作的独到之处吧。

原文

发表于

Remote Sensing of Environment

RSE-10323; No of Pages 12

第一部分

研究背景、数据、研究范围

研究背景

近数十年来,城市化进程带来了城市居民数量的急剧上升以及城市空间结构的显著变化。以往邻近但相对独立的市镇区块逐渐扩张连片,形成规模更大、联系更紧密的城市系统,进而产生了越来越多的多中心城市。多中心城市往往包含一个主中心和多个副中心:主中心即城市核心区域,通常为中央商务区(CBD);副中心一般是与主中心有一段距离但人口密度与人类活动量也相对较高的区域,主要由卫星城和外围城市群落组成。快速准确地识别多中心城市的结构将对城市政策制定,社会商业活动有深远意义。

此前的研究方法及数据:McMillen(2001)首先提出了研究多中心空间结构的定量方法,但是这种方法需要研究人员人为定义出城市核心区域的准确位置,这就研究者的背景知识有较高要求,同时挑选的主观性也容易受到质疑。另一方面,主中心范围及准确位置可能会随着城市的发展扩张而产生变化。除此之外,先前的研究往往依赖于人口普查、经济统计数据等。尽管这些数据有着较高的准确性和权威性,但是更新频率很低。空间统计单元更进一步限制了分析方法的准确性,例如城市中心的识别受限于该研究区域能够获取的最细化行政单元的尺度(一般为乡镇街道);再如区内有大量未开发土地,将会造成区内高人口密度聚集状况被忽视的情况。为此,引入新的研究数据、发展新方法是该问题研究的迫切需求。

数 据

遥感数据。夜间灯光遥感影像常常被用于识别城市区域及其扩张,随着高分辨率的VIIRS夜间灯光数据在2012年开放获取,监测城市更细微结构形态成为可能。该研究中,VIIRS夜间灯光月合成数据将被应用于建立新的统计单元。

社交媒体数据。夜间灯光虽然在识别城市结构区块有一定优势,但是在反映居民社会经济等日常活动仍有不足。近年来,基于位置服务(LBS)的社交媒体数据快速发展,为深度挖掘分析人类行为活动提供了良好的机会。社交媒体数据的地点签到数据与人类活动分布的高相关度已经被许多研究所证实 。相较于传统统计数据,社交媒体数据能在更精细的时空尺度上精确反映出城市居民活动的实际范围。但是该类数据也存在缺陷,由于签到数据为点数据,同时往往集中于某些热点地区,单独用该数据则难以对城市进行分块,进而无法识别不同的城市中心范围。

因此,该研究旨在探索一种可靠地方法,将夜间灯光数据及社交媒体签到数据的优势结合起来,并选取了三个城市的不同数据集与方法来验证方法的有效性及可靠性,并在文末总结了该方法的优势与待改进之处。

研究范围

图一、三大研究区域的空间形态(遥感影像)

北京、上海和重庆这三大城市作为该研究的研究区域,三座城市的地理特征与城市形态差别很大,使得验证本研究方法的有效性及可靠性。 北京所处的平原地形意味着它的城市发展相较而言不受限于自然条件,城市以大饼状、多环路向外扩张。上海地处长江三角洲,城区被黄浦江一分为二,受限于长江及海岸线的阻碍,城区主要的扩张方向是西南。重庆地处山地地区,城区被众多河流山川所分割,城市发展受地形影响很大,城市结构较为复杂。

第二部分

方法、数据处理、结果(概述)

方法

数据预处理

本研究收集了覆盖三个研究区的十三个月合成夜间灯光遥感影像,并计算每个像元在十三个月数据的中值(median),以去除噪声和空值,生成一景新的影像。最后转换成三座城市的当地UTM投影、空间分辨率500 m的栅格数据。

社交媒体数据则利用新浪微博API,获取十三个月共计560万条微博签到数据,进行数据整理清洗、GCJ02 到WGS84转换、最终转换到与夜间灯光数据相同的UTM投影,并统计每个栅格的微博签到数。

基于影像分割

建立新的统计单元

人类的日常活动与商业活动通常集中在行政区的一小部分内;同时又不受行政边界的局限,活动可以轻易跨过边界进入到相邻的行政区域。因此,利用传统的行政边界来研究社会活动的空间特征显得无力。该研究利用夜间灯光数据,采用面向对象的分割方法(MAOCF)建立了新的统计单元(Zhong et al., 2014),以替代传统的行政边界。

在控制影像分割优化的过程中尺度因子最为关键。最优的分割结果为最大化分割对象的内部均质性,同时最大化分割对象间的异质性。文章利用面积加权方差(wVar)以及全局莫兰指数来分别度量上述两者(Chabrier et al., 2006)。同时用一个综合指标(CG)来代表两者的最优化(Zhou et al., 2014),作者于文章后面部分又对该指标的敏感性进行详细的讨论。

城市主中心的定义

城市主中心可以被定义为一个有高度聚集特征的高密度人口的大区域。文章利用局部莫兰指数以寻找每个城市的主中心。为了验证所有分割单元的局部莫兰指数是否有显著的统计学意义,该研究使用Z得分进行计算[译者注1](Mitchell, 2005)。一个高的正Z值(Z得分大于1.96)的分割单元意味着这是一个统计上显著的(显著性水平为0.05)的空间离群点。那些被其他高值部分包围的高值区域(HH)被定义为主中心。  

[译者注1]统计学概念,Z标准化后的一个指标。

城市副中心的定义

城市副中心被定义为一大片连续的高活动密度人群聚集的区域,是多中心城市内部结构的组成成分,包括了城市边缘区与卫星城。合格的城市副中心相比周边区域应该有显著的高活动密度(局部高值),并且人类活动密度相比整个区域都高(全局高值)。这里用了一个两步识别方法来识别副中心的位置。

首先,作者用定义了城市主中心的签到密度权重加权质心为城市中心点。这里用地理加权回归(GWR)对城市中心点到每个分割单元几何中心的距离与它签到密度值的平方根的关系进行建模。从理论上讲,越接近城市中心点,会有更多的人类活动。然而这种模式由于城市并非完全对称发展,受到社会和自然地理特征决定,有着很强的空间非平稳性。GWR[译者注2] 提供了一个局部的建模方法,即对于数据集里的每一个观测单元都能拟合一个回归方程。只有在观测单元附近的其他观测单元会被用在该模型的参数估计里(Fotheringham et al.,2003),签到密度的局部提高值在GWR结果里表现为正的标准残差。

接下来,在用正的标准残差挑选出来的这些城市副中心的候选区域之后,采用整体分类的方法去除那些实际人类活动或面积低于整个研究区其他单元的候选区域。Jenks的自然间断点法NBC (Jenks, 1967)是一种数据聚类方法,它可以用来降低分类内的方差同时保证分类间的方差最大化,即分类内部差异最小,分类之间差异最大。通过使用NBC,作者将每个研究区的所有单元通过签到密度和面积基于方差拟合优度(GVF)统计指标分成了几个类别。当GVF值大于0.8时,接受这个分类阈值评价分类结果(Jenks, 1967)。最低签到密度或者最小面积的区域不被考虑为副中心,并排除落于主中心区域内或者与主中心相邻的区块。  

[译者注2]这里用的是高斯核来拟合距离衰减函数,用交叉验证的方法计算自适应距离选取最佳带宽。标准残差大于1.96说明这个分割单元显著高于相邻分割单元的平均值。

图二、新生成的观测单元中的社交平台签到密度数据,左右的放大小图分别显示建成区与非建成区域。

结果

影像分割结果

三个研究区分别生成了866,957和558个分割单元(图2)。图2北京的放大视图中可以看出城区和远郊分割单元的大小有显著不同。其原因主要为夜间灯光和微博签到数在远郊都很低,均质性较高,因此容易形成较大的分割单元;而城区内两者的变动都较大,因此容易形成较小的分割单元。类似地,在重庆也有类似的现象。然而,在人口最多的上海,这种城区与远郊区的变化并不明显。其城区地块的尺度跟北京、重庆一样精细,而远郊区的地块尺度大概只有其他城市的一般大小。因为它位于冲积平原上,人类活动在此分布更均匀,使得分割单元大小也较为均匀。虽然重庆市区总面积(15162.16平方公里)大于北京(12046.17平方公里)和上海(5462.85平方公里),但是重庆分割的地块数量却比其他两个城市少(558比866和927,表1)。分割的结果表明这三个城市有不同的城市结构和人口分布。

图三、三个城市的主中心-副中心识别结果

主中心

三个城市的主中心都使用局部莫兰指数探测得到的。在方法部分里讨论过,高值聚集的区域(HH)可以被定义为主中心的候选区域。所有地理上相邻连续的候选区域都被合并到一起,空间离群的地点被排除。如图3,北京主中心位于平原中部占地688.5平方公里,占研究区面积的5.72%并包括了签到记录的73.78%。重庆的主中心位于城市西部,占地404.8平方公里,占了研究区面积的2.70%,签到记录的67.44%。上海的主中心是中等规模,占地面积为449平方公里,位于东北部。站研究区面积的8.22%,签到记录的60.76%。

副中心

表2的第一个面板显示了GWR的估计结果,因变量是签到密度的平方根,解释变量是离中心点的距离。GWR结果显示北京有64个地块单元为显著正残差,上海48个,重庆38个。排除了NBC属于最后一类以及位于主中心范围内或相邻的地块,并将连续的候选地块都合并到一起。最后得到了北京有10个副中心,上海12个副中心,重庆8个副中心。

表二、副中心的评估结果

结论概述

本章中作者对三种不同方法处理灯光数据和微博数据的结果做了比较,同时也对城市多中心结构识别结果的范围准确性及识别准确性做了评估。

用阈值法不能很好地区分城市与郊区,中心范围破碎。LMI聚类法对主要中心的识别较为准确,但在上海使用单独使用夜间灯光数据则无法获取完整的主中心区域。OLS方法配合使用时,会在远郊区或者中心区识别出一些异常值,因为全局的模型对于地方级别的识别不够准确。总体看来LMI与GWR一同使用时3个城市的识别结果最好,主要城市中心和副中心位置准确且范围清晰。

在验证部分,作者分别使用了范围准确性(delineation accuracy)与识别准确性(detection accuracy)来评估结果。范围准确性方面,作者从Google Maps API中获取了17种与城市日常活动紧密相关的兴趣点(POI)数据,包括ATM机、银行、便利店、酒店、医院等,并与不同方法的识别结果做了验证,最后发现用LMI聚类与GWR的结合方法识别出的城市中心轮廓范围更准确。而关于对城市中心的识别准确性,作者则与3个城市的总体规划中定义的城市中心与郊区中心做了对比,发现本研究与总规中83%-88%的中心重合。

在讨论部分,作者首先针对签到数据的稳定性做了深入探讨。由于人的行为有很大的随机性,小样本的数据往往空间分布不够稳定,不具有代表性。本研究采用了396天3个城市一共560万的签到数据来提高数据稳定性。作者引入了一个指数来度量空间稳定性,发现数据在积累到100天后,稳定性指数基本不再变化,因此推测本研究的样本量足够了。研究同时发现,3个城市的指数变化上海的签到数据最不稳定,北京居中,重庆相对较稳定。作者在这一小节中还提到了社交网络数据应用中老生常谈的Bias问题,即老人、小孩和低收入群体相对较少使用社交网络。但作者引用了其他一些研究的结论,签到数据的空间分布与调查显示的人口分布呈一致趋势,因此签到数据完全可以代表城市内部的人口分布规律。

此外,作者还简单讨论了用POI验证结果的问题。与地表覆盖不同,城市和郊区中心是人类活动的聚集区,而非简单的不透水面。本文为了验证识别结果的有效性,采用了POI数据来进行中心覆盖范围的验证。但需要注意的是,单一类别的POI不足以代表中心区域,因此作者使用了与日常生活最相关的17类POI,并横向比较了其他方法和数据的结果。

分析单元的分割问题也有详细的讨论。行政边界对于探测人口活动区块太大、不够精确,基于栅格的分析又会使结果破碎,获取的区域不连续。而本文使用的图像分割方法则有效地解决了该问题。其分类框架既考虑了每个单元内部的异质性,又考虑到了单元之间的多样性。自适应的分割算法使得分析单元的尺度十分科学。

总的来说,本研究通过社交网络签到数据和夜间灯光影像等新型数据定义了中国三个大城市的多中心结构,突破了传统研究中采用行政统计边界作为分析单元的局限,应用了自适应的分割方法使得分析结果更准确。作者表示,当下多中心研究中的难点在于如何定量化准确检测各个中心的范围以及如何验证已获得的结果。选择样例城市的主中心、副中心主要是为方便对比算法提取的结果与总规方案。研究使用的数据容易获取、方法可行,对其他城市化地区也都能够普遍适用,其自适应的地块分割使得对别的研究范围以及研究尺度也有良好的兼容性,可以获取不同层级的中心,而不需要研究人员对当地规划有丰富的背景知识。

小编惊叹于这篇文章数据资源之丰富,思路之完整和逻辑之严密。不论是各种数据的使用还是计算和验证方法,都非常扎实,也比较有创新性。不过新的分析单元优势不用多说,劣势主要在于无法兼容其它官方渠道的统计数据,尤其是新数据、大数据渠道不太容易表达的信息。另外,在这个大数据的时代,井喷式的数据资源让人们能够捕捉到时空中动态的各项活动,类似主题的研究看多了,我们更想知道的,还是如何能应用到实际规划中以及与传统人口统计方式得出的结论区别和特点在哪里。

参考文献

我们为本文提供的免费下载资料有:

1、《利用多源地理空间大数据识别

多中心城市》

「 欢迎投稿 」

我们作为专业志愿者团体,秉承理想,帮助中国可持续发展。并为之贡献:理念与传播、培训与教育、实践与孵化。欢迎您加入我们一起并肩前行!

2014-2017 © 转载请注明: 源自公众号“一览众山小-可持续城市与交通”

声明:本文由入驻焦点开放平台的作者撰写,除焦点官方账号外,观点仅代表作者本人,不代表焦点立场。