2015年1月22日,由中国交通运输协会主办,中国交通运输协会供应链信息化联盟、海大百则国际文化传媒(北京)有限公司承办,快的打车、AA租车协办的“2014中国交通运输信息化智能化发展推进大会”盛大召开。
黄进:谢谢周游先生的精彩发言,甲骨文作为数据业的老大,他们在这个领域辛勤耕耘了多年。今天时间有限,周总很多东西都没有能展开讲,大家有任何问题可以会后跟周总有深度的交流。下面我们有请最后一位演讲嘉宾,他是高德软件有限公司交通信息部数据构架师周琦先生,做“大数据在交通方面的应用”,大家欢迎!
周琦:大家好,非常荣幸能来这个大会跟各位同仁分享高德软件在大数据交通方面应用的成果和经验。我下面就几个问题,就是说高德软件目前拥有哪些数据,以及高德交通现在怎么实时处理大数据、分析大数据和报告挖掘的一些经验。
先说高德,高德本身是一家地图软件起家的,一家是纯粹的传统测绘企业,我们是中国最早一批获得测绘资质的公司。开始我们做全国地图数据的采集,然后我们后来开始是面向行业用户,后来慢慢面向公租人服务,包括现在的高德地图几乎是我们在手机终端上最常用的几种导航软件之一。因为我们为公众提供导航服务的话就离不开对交通信息数据的使用,高德开始从事交通信息比较早,在2007年的时候就开始投入资源,来做全国交通信息的采集和发布。当时城市还没有现在这么堵,但是我们发现交通日益成为对公众出行体验影响很大的方面,所以我们就和全国很多大厂商进行合作。我们采用置换、给买的方式,获取他们包括出租车、物流车GPS的数据。所以到现在的话,我们基本上已经能够对全国110多个城市,以及全国高速路网发布交通信息。大家可以看到,我们拿的高德地图打开,基本上全国范围都可以覆盖一些路况,包括高速公路上的拥堵也可以很快的反映出来,全国高速覆盖能力超过90%,我们最近也发布了高德的一些交通报告。
我这里面所说到的大数据,目前所说的大数据主要是针对采集的浮动车回传数据,但是不止这些。高德包括其他的业务,我们有包括用户的定位,用户的访问以及很多的地图数据,这些都没囊括在内。但是就我们采用的浮动车数据已经很大了,我们每天会采集数十亿次的GPS的回传,折算成里程大概是100亿公里的里程。我们现在的数据来源主要分成两种,一种是手机终端导航的回传,还有一种是我们以前采购的一些行业数据车,包括物流车辆的一些数据。他们这些回传数据对于我们发布交通信息非常有用,上午的时候发改委陈主任就提到了,我们采购这些数据可能面临着成本的问题。确实,我们在采购,一家一家的谈合作,我们就是为了打造更好的交通信息。
所以说我们现在通过这些海量的数据,数十亿次的数据已经能做一些东西了。我们拿到了这些数据,对我们管理的数据来说,其实提出了一个很大的挑战。刚才说到大数据所谓传统的5V,我们有非常强大的数据,但是如何管理和使用这些数据,提取出它们的价值,是我们现在正在做的事情。这里面当然覆盖的比较广了地包括如何采集、管理、应用、挖掘,这个进来我们都会覆盖到。这是我们现在大块的存储架构,高德2014年被阿里巴巴集团全资收购了,所以说进入了阿里集团之后,我们对大数据的处理和基础架构的能力也得到了提升,现在高德所有用户的回传数据都已经进入了阿里的云系统,包括ODPS和实时计算平台,已经应用到了我们的业务之中。
我们可以提取什么样的价值呢?目前我们一看到导航,第一想到的是打开地图软件,看到路上有红、黄、绿,包括之前很多同仁都介绍了一些路况的探测和实时采集的信息,这些目前是高德最典型的应用。但是用户打开地图不是为了看红黄绿,而是要指导出行,所以我们重要的是要结合交通路况,给用户定制,节约他的出行成本的方案。我们的交通路况是怎么得到的呢?我们交通路况是实时回传,通过每秒钟回传数万的GPS,再实时的进行快速的流转,进行实时计算,我们还要迅速的把交通信息发布到用户的终端,由终端感知到,并且能够在导航中进行应用,然后才能创造出价值。大家可以看这两个示例,这是三环路比较拥堵的时候,现高德有个导航方案,我们会建议他走另外的方案,可以为他节省更多的时间。而且我们也有实时的一些路况事件的结合,有多元的数据,除了回传GPS数据,还有交通实践,用户上传的和大数据采购的一些事件,如果突然间前方发生了道路的封闭,或者说有车辆碰撞,我们也会在导航中尽量为用户规避这种不便。
这是我们通过从大数据的采集到处理、计算,到最后的应用,可以说我们已经初步为解决中国城市地面道路拥堵问题做出了我们企业的贡献。可以说我们通过这种动态的导航,其实我们不光解决实时交通信息,在导航的时候我们还会做一定的预测,结合实时加预测的方案,我们更加智能的引导着用户的出行,让他尽量规避拥堵的路段,以免加剧城市的拥堵。
刚才提到了我们还有一个问题,就是数据如何去应用一些管理,如何保证数据的准确性其实是很大的难题。我们有这么海量的数据,对我们的管理能力提出了新的挑战,我们不仅要发布交通信息,还要有验证数据的质量,和已经发布出来的路况准确性。以前我们去进行验证,实际上是很痛苦的事情,最传统的方式是我们开一辆车出去,我们看是不是拥堵,这种传统的方式耗费的成本极大。我们现在基本上已经是自动化的测试了,偶尔有人工预测,我们可以提取最有效的样本,自动化的根据现时发布的路况进行自我的验证,然后监控,一旦发现质量极大的下降,或者说数据表极大的下降,可以实时提供对运营人员进行报警。
而且对于地面交通其实我们要解决好几个问题,离不开人、车、路。我们未来解决我们的运营,每天数十亿的数据,每天下载有数百GP的数据,还要建立非常庞大的索引系统。这是我们调查这些问题分析原因的系统,我们的运营人员也会接到投诉,某某路用户拥堵了,但是我们发布的是畅通。这时候就要调查什么原因,是不是程序员写的程序有漏洞,还是有什么特殊的原因就要去分析。所以我们就把每一条道路,可以计算出在每一条道路在当时发布的一个情况,还有每一条道路上经过哪些车,每一条车经过这条道路的速度,我们都可以实时回调出来,供分析人员分析,到底是什么原因导致了这样的结果。我们基本上是把人、车、路三者结合起来,而且还不是一个时间点,我们还要考虑在整个时间上,我们发布路况是每两分钟就要更新,更新全国路网的交通信息状态。大家知道全国路网,地图行业一般是以路段进行发布的,我们每2分钟发布的路段是数十万个,索伊美两三分钟就会产生数十万个记录,我们要解决人、车、路,还要解决时空上的索引关键。
除了实时的一些应用,我们还有一些要基于历史数据的挖掘产生什么样的价值。第一我们有数十亿每天的GPS记录,针对这些我们有一些什么样的应用呢?这只列举了我们一个方面的数据,一个是根据GPS回传点看到用户的运行轨迹,就可以知道每天用户大概走过了什么样的路,反馈出来。而且通过这些路之后可以打造交通轨迹,可以与路网和大数据计算,跟我们的数十万的路网进行匹配。最后我们会得出每一辆车经过每一条路的速度、停车或者是转向这些信息,这样的话为我们后面的分析都会提供一些决策。这里面的多位分析包括很多种,我们每一条路大概是在什么时候容易出现拥堵,每个月,每天拥堵的概率和次数,以及每条路路左转概率大还是右转概率大,这在我们的数据场所中都会记录下来,这是极大的财富,对我们城市的决策和后续的专业的分析会提供非常大的帮助。
其他的一些应用,像数据仓库之外还有别的应用,高德是测绘行业起家的。我们不光是要解决实时交通的问题,我们还要连到我们的道路路网。对于地图里说,尤其是路网的采集,对我们的地图测绘行业提出了很大的挑战。我得知道在哪些地方发生了什么情况,有一些新建的路,或者说一个道路属性发生了变化,我们还用大数据结合在路网进行一个新路的发现,左边是我们用手机数据发现出来的,应用这些旧的路网产生的新的路,可以提供一些情报。传统的我们是派辆车出去漫无目的的跑,也有可能采集重复的道路,现在我们做了更精准的道路数据的采集。如果有一些边远山区的道路,我们直接可以测算出来,这是新路的识别。还有对传统的导航,用户端通信能力的判断,我们知道北京有很多小胡同,不光北京,上海也有。有些小胡同,如果我们把用户导在里面,用户就会非常伤心,极大的伤害了用户。所以我们通过交通流量数据探测,那些是路况通行能力比较难以行驶的道路,我们会把这部分找出来,加入到导航算法里,即使主路发生拥堵,也不建议用户到小巷子里去,否则会给用户很坏的体验。比如说红色这条道路,相比上面来说有数万辆通行车,为什么这条路只有二十多辆通行车次呢?那我们就觉得他是非常小的路,我们实际检查之后发现确实是如此。一开始一些道路情况还不错,但是因为时间的救援,路旁可能停了各种的小车,导致通行能力急剧下降,这是以前传统手段很难发现的,现在可以通过大数据解决。
2014年高德也发布了中国全国交通的交通报告,我们对全国各地的城市拥堵情况进行了分析,有点像上午介绍的《交通指数》。我们就是想从时间点上,对每个城市和中心城区的行车延迟的情况进行统计,而且我们还对每一天的道路分析检查,我们也跟北京交通发展中心进行了合作,可以说这是可以体现一个城市最拥堵的地方,像北京交通的限行、换号对交通拥堵的影响都可以看出来。还有我们对一些重点的路段,比如说这是北四环的一个路段产生拥堵的原因,我们可以看出一天24小时中,它什么时候发生拥堵,扩散情况的关系图,对一条路段和更广泛区域都可以进行拥堵原因的分析。