互联网IDC圈4月27日报道,互联网的发展使得大数据引起人们广泛关注。现如今大数据技术早已渗透到金融、通讯等行业以及生物学、物理学等领域。大数据在容量、多样性和高增速方面的爆炸式增长全面考验着现代企业的数据处理和分析能力,与此同时也为各个行业带来了准确洞察市场行为的机会。迄今为止大数据技术与产品有哪些创新,工业大数据应用面临哪些挑战,金融行业大数据应用现状如何等。围绕这一系列问题,4月27日至28日,由工业和信息化部指导、中国信息通信研究院主办的"2016大数据产业峰会"在北京国际会议中心盛大召开。
创新互联2013年开创至今,先为安源等服务建站,安源等地企业,进行企业商务咨询服务。为安源企业网站制作PC+手机+微官网三网同步一站式服务解决您的所有建站问题。其中,在4月27日下午“大数据与城市交通”分论坛上,城市交通节能减排检测与评估北京市重点实验室主任、北京交通发展研究中心副主任温慧敏发表了精彩演讲。
城市交通节能减排检测与评估北京市重点实验室主任、北京交通发展研究中心副主任温慧敏
以下为温慧敏演讲实录:
温慧敏:下面我跟大家分享一下交通数据在北京的实践与展望。在交通领域所谓的大数据,可能跟我们传统想到的数据有所差别,这个量其实没有那么大,即使是叫大数据,其实也没有那么大。银行、电信系统数据量还没有那么大。但是为什么叫大数据,像刚刚很多同行已经说了,目前移动互联网以及电信数据能够给交通使用的数据,所以我们交通遇到很大的挑战,所以我们传统交通数据通过数据积累,我管它叫长数据,我们积累了十年和二十年的数据,这种情况下我们也可以叫做大数据,尽管它十分钟、五分钟或者十五分钟的时间量不是很大,但是积累了长时间的数据量之后数据也是非常可观的,所以我们主题叫做交通大数据在北京的实践与展望。我想介绍一下北京交通在大数据应用的情况,另外想介绍交通数据,特别是大数据领域应用的一些想法和一些展望。
我想交通的同行可能都比较熟悉我们交通的数据包含几类:
第一个是交通基础设施数据,包括道路网,车辆数据库,以及驾驶员的数据库,这是我们比较基础的;
另一个是交通和城市活动紧密相关,城市活动的数据,包括人口,土地利用以及社会经济发展都是我们交通研究所必须要的基础数据。同时现在的城市发展,以及交通,已经和环境关系越来越密切,而气象同时也会影响我们交通系统的运行,因此交通作为非常开放和复杂的一个系统,它涉及的社会活动,包括社会经济、环境等等方面的数据。对于交通数据本身有大量的运行数据,这些运行数据是每时每刻都在产生的,而这些产生的数据我们能够实时捕捉到,但是有些还没有办法能够捕捉到。但是目前现在技术的发展已经使得我们能够更多的捕捉到这些实时运行的数据;
还有一个我们交通的领域,甚至传统的社会经济发展领域都很常用的一种方法就是调查,这种调查是来源于传统统计学的理论,我们利用一定的抽样率,利用随机的抽样理论,来使得我们以小的样本来构造我们交通方面的模型。所以我们目前面临的我总结出来,主要就是这四大方面数据的类型。
目前北京应该说在全国各个城市应该数据积累做到比较超前的,包括我们流量监测数据,在2008年之前北京市数据起码五环内基本上快速主干道上基本上做了RBMS流量器,另外北京在2008年奥运会之前把所有出租车都安装GPS,这样我们车辆就有了大量车辆定位数据,而且也是持续的数据相对目前我们面临的大数据来说是非常干净规整的这么一个数据源。另外还有北京的电子收费数据,牌照识别数据,事故数据,当然还有移动、联通、电信的这些数据。
另外就是调查数据,我们从北京市1986年进行军民出行调查,详细记录了大概每一户一天完整的出行日志,这样分析整个出行者和城市出行人群的社会属性和相互之间的关系都提供非常好的支撑,当然还有城市背景和其他的数据。
北京市在数据这方面走的比较早,比如第一个例子就是北京市浮动车系统数据,但是现在目前浮动车技术已经相当成熟,包括高德导航、百度等等一系列的这些公司,我相信他最起码是刚实施这个导航服务之初,大部分用的还是浮动车的数据,就是出租车数据。出租车大的优点在于它很干净,比普通的数据干净的多,我们能够分析他在道路运行的数据。有了浮动车数据,我们累积了很长时间,从2006年到今年的十年的数据,能够每时每刻得到整个道路状况,这样我们把一些发行路段,无论你怎么筛选原则,都可以得到你想要的东西。
同时我们反过来再和城市土地利用、自助,分析整个应用城市功能布局上。当然我们也可以利用这些实时数据捕捉一些特殊场景,比如说莲花桥因为大雨短路之后我们可以得到整个莲花桥交通拥堵蔓延到整个西三环的一个快速路网过程,当然我们也可以计算拥堵消散的时间点,这也是可以为我们做了非常好的数据源。在这个基础之上大家对城市交通指数非常熟悉,最早是数据源交通有这个方法,得到了很多城市的推广。北京的交通指数基本是定性和定量相结合的数值,使得我们用0到10之间的数值反应到整个城市整个道路网的状况,如果6到8就是中度拥堵,如果超过8老百姓感觉非常强烈,因为我们就跨越严重拥堵的层次。这是我们对交通拥堵指数,为什么我用传统的数量来反应全网络的拥堵状况,拥堵里程时间比,大的就是不敏感,全北京市基本上维持22到25属于之间波动,即使是高峰和平峰之间也不会有很大的变化,这个基本可以理解,里程越长越平均,就看不出来峰谷和尖峰了。所以我们提出交通指数概念,主要原因就是希望它对整个交通指数的变化更改。但凡限行都是交通等级该面,分轻度拥堵和中度拥堵,如果中度拥堵到重度拥堵,这就是全网的数据了。
我一直说我们交通数据某一时刻量不一定很大,但是如果我们积累了每分钟每十五分钟数据,这样的积累十几年,我们数据相当可观,而且可以看到历史规律,这些历史规律对于我们预测未来是可预东西。这是我们统计的以晚高峰作为我们北京市整体运行一年的效果,这个看达标不达标,2010年是有72天不达标,2014年55天数据不达标,每一年都有,这样给我们非常直观的现象。而且从某种程度上来说交通和空气污染有很大的区别,空气污染有很大的不确定性,尽管在宏观上比如说我们北京排暖气的污染PM2.5浓度会比较高,但是有的时候在排暖气的时候风比较大还有其他原因,但是我们交通数据是相当强,但是看到首先是上半年比下半年要堵,这是很直观的。再从月份来看,9月份最堵,7、8月份最好,或者是2月份,2月份因为过年嘛,根据联通数据来看,可能北京直接就少了400万人,或者甚至更多,500万人也有,可能十一的时候至少要有200万人左右,这是比较明显的例子。当然我们对拥堵持续时间没有办法度量和没有这个指标时我们很难客观描绘每年的变化,但是有了这个数据之后,对整个城市交通试点把握还是非常有参考意义,当然有了规律之后我们可以进行一定的预测,尤其是在节假日或者是特殊的高峰拥堵比较突出的日子。我们通过提前预方式,其实某种程度上是使人们主动的减少出行和改变出行方式,我觉得这个说的好点其实就是主动干预的方式,不是说你把车开到路上给你指哪条路堵,到那时候你哪条路都堵,所以这个只能是你削减出行,你换公交和地铁,这是最有效的方式。
当然第三个应用就是IC卡了,IC卡因为在北京实施的比较早,因为我们实施了24则之后,整个IC卡普及率85%以上,100个人85个人都刷卡,一天两千多万个刷卡记录,这对于我们来说是非常宝贵的,而且从2014年底我们北京市整个公交系统上车刷卡,下车也刷卡,毫无疑问你就得到了真实的从哪路上车哪路下车,这也是非常了解公共交通出行的方式。我们通过这个数据可以看哪块换乘量比较大,这块反过来和拥堵计算一对比,还是有相当的关系。当然还有土地密集度上,这块岗位多人口也多,当然就拥堵了。我们就用到交通拥堵的特征分析上,因为在轨道刷卡也是上车刷卡出站也刷卡,你自然就得到了每个站点上车量、下车量、换乘量等等。
还有一个是出租车方面的应用,出租车主要是得到浮动车,还有翻计价牌的位置信息,就可以得到出租车出行的方式,比如说早高峰,南二环、中关村、西二旗出行速度比较低,晚高峰四环8.8公里,五环外是9.9公里,五环外是12.6公里,这是和我们数据相互校核。
另外是信令数据,最到我们在2010年试图和移动公司联合使用这个信令数据,但是信令数据应该这几年才发展的比较成熟,为什么?前几年我们获得信令数据大的点就是在北京市所有地方都不是做的非常好,2010年我们采集信令数据的时候整个东南区片都没有,因为这是整个渐进的过程,因为你没有数据就不会应用,不会应用就不会促进运营商对数据采集的过程。
但是毫无疑问信令数据对于交通不管是规划工作还有刚刚咱们说的运行和监测工作,应该都是未来来说是非常有潜力的一个数据源,这个潜力就来源于2G的时候我们可能每半个小时采集一个数据点,你可能会漏掉一些关键点,但是到4G的时候这个数据量扩大到10倍,比2G的时候数据量采集到10倍以上,所以这个密度量是相当高,可能两三分钟就会有一个点,我们就能精确地捕捉到每一个数据,每一点都知道,这样对我们做交通规划以及做出行相关的特征分析都是非常有效的。当然我们也做了京津冀三地的,因为适应咱们京津冀协调发展做规划的应用需求,我们也分析了北京外地人口中有哪些来北京,而且在北京外地人口中哪些城市来的多,这个主要是希望我们搞交通的人客观清醒地认识到我们所面临的服务群体,是一个含常住人口、含流动人口的这么一个交通服务人口,这个人口并不是统计局跟你说北京市2150万就是2150万,做规划和做交通的时候不能这么做,首先就是规划本身就不能那么规划,因为我们做道路交通分析,很快供给就会表现出不足。
当然这个用信令做分析是CBD地区相关的日均吸引量还有人口流动情况,轨道和IC卡数据当然和信令还可以做相关的关联性的分析,这主要是我们分析了地铁一号线乘客居住地分布情况,这个我觉得对于我们做地铁规划,特别是轨道网规划时,到底我们轨道自己能吸引多大范围的人,而我这个轨道规划到某一个地方到底服务多少人口是显而易见的。这个是我们效果评估,不但小汽车速度没有降到多少,关键是公交车速度提升了很多,一定程度上减缓了八通线的客流压力。
说一下展望。未来这个数据,是一个基于移动互联网的数据,数据不但越来越多,而且关联性也会越来越强。我们面临的这个数据互联互通,而且可能也会拿到大样本或者全样本数据,而且是全出行链的数据,不光是拿到全人的出行链数据,有可能车辆全出行链的数据都可以拿到,这样就对交通大大提高,这个对城市交通规划影响,和移动和社交网络发展情况下,是不是对于传统规划模型,传统的居住地和目的地选择、工作地的选择都已经产生变化,比如晚上我想去吃个饭,满大众点评上哪个评价高就去那儿,而原来就是更熟悉的就去了,原来就是离谁近吸引力越大,现在可能不一样,我可能离的很远,但是我偏偏去那地方去吃饭或者是看电影什么的,所以这个会极大的影响我们交通出行的行为。带来的结果就是我们如何能够在大数据的条件下,能够实现供给和需求平衡,其实我们做交通所做的最核心或者最根本的事儿就是做供需平衡,有用户对应和系统对应,当然从交通和政府管理角度是希望做到对应,而目前互联网情况下你可以掌握系统对应,而且能掌握每个人的需求,每个人的需求可以用云计算等相关的技术来做到系统对应。当然也会使用运输者大化的资源,他要满足多样化的需求。可能小车、公共交通、轨道没有明显的区别了,比如一人坐的,两人坐,三人、四人、八人、十人、一百人,都可以做,都已经模糊化了。
另外一个挑战就是交通要素之间、城市和社会之间相关关系量化,这个是复杂的系统,在这个系统之上我们更需要实时、稳定的大数据计算和分离能力,以人和以基本为能力的计划计算。
做一个总结,我们对大数据,我认为大数据在交通领域应用的一个核心就是我们需要对交通需求的内在规律进行重新认识和建模,利用大数据的数据基础,同时要对交通系统进行规律的重新建模,当然也对未来交通传播的系统进行建模。最后需要做的就是我们需要把交通互联、通信、企业未来串在一起,串在一起结果当然也包括政府、科研机构等等,这样实现我们共同的重构整个交通系统。所以我想得到这么一个结论就是合作共赢、共创城市的一个新的交通发展模式。谢谢!