王建民 ⋅ 2019-02-23 发布 阅读:139 次  ⋅   开源项目  清华大学  

发言:王建民,时间:2019年2月21日

谢谢刘院长!尊敬的苗部长、周院长,各位领导、各位院士、各位专家,各位同仁,各位朋友上午好,热烈祝贺2019工业互联网峰会的召开。正如苗部长指出,第四次工业革命席卷全球,大数据作为新一代智能转型的生产资料,得到了各个国家的重视,世界主要国家制定的工业互联网战略当中,都把工业数据的有效利用作为优先发展的关键内容。

在互联网中,机器设备产生的时序数据,构成了工业互联网的主体。在2011年,麦肯锡发布的“大数据未来创新竞争和生产力的前沿”的报告中指出,也就是波音737飞机的一次跨国的飞行,要产生240TB的数据,我查了一下,首都机场2017年起降的飞机数是60万次,一年经过首都机场的飞机产生的数据粗略达到了120PB。

在工业互联网当中,对时序数据应用产生的挑战,以我国风电设备的龙头企业金容科技为例,它现有2万台风机接入数据分析,根据IEC的标准,每一台风机每秒产生的数据是255k,一年产生的数据量就是单台风机6TB,2万台就是120PB。在这里就要求我们对时序数据要有全时全序、高效写入、紧凑存储的功能。

其次,工业互联网的时序数据库还要应对在复杂疯狂状态下,很多的工程装备是野外作业的,由于互联网网络的原因,时序数据不能全量报序地到达,另外由于传感器的原因,数据的采集数值可能产生混乱或者损坏,所以要求我们支持乱序写入、批量更新和清理删除的功能。

第三个应用场景是面对工业互联网复杂的应用数据分析,要求数据库有丰富的快速的聚合查询功能和特有的时间序列的操作。面对此挑战,清华大学牵头,历时4年,研发了工业互联网时序数据库,在2018年阿帕奇的投票中,全票通过,进入阿帕奇的孵化项目。阿帕奇有如下特点:覆盖数据从收集到应用的全生命周期;具有高效的持久化的性能,在单台微机服务器下,每秒可以存储写入600万点的时间序列;具有丰富的低延时的数据查询功能;拓展的时间序列操作,包括时序的分段、时序的表达、子序列的匹配以及视频转化;与现有的生态系统无缝集成。

阿帕奇IoTDB具有先进的技术架构,有蓝色的3个模块是装在嵌入式系统的终端,浅黄色的5个模块嵌入在单台的服务器上。灰色的驱动程序安装在云端的服务数据中心。oTDB已经在工程装备的领域,比如说在天远科技,它是一个在石家庄的工业装备物联网的引擎冠军,服务于日本的小松和美国的康明斯。还应用在风电行业,比如金风科技的健康管理领域。

大家可以看我们的物联网平台。我要感谢工业互联网联盟对这个项目的支持,也感谢北京工业大数据创新中心,感谢联想集团,感谢复旦大学、中国人民大学等合作伙伴,最后希望在座的各位领导和同仁继续关心我们的社区,使得这个社区能够成为大家共享共创的一个平台,谢谢大家!