新闻资讯

大数据应用是物联网的关键技术

作者:admin    发布时间:2019-07-12 03:53     浏览次数 :

[返回]

一般来说,在物联网中,被广泛应用的大数据关键技术包括大数据采集技术、大数据储存技术、大数据分析技术以及大数据可视化技术。

1.大数据采集技术

大数据时代,数据的采集渠道极其广泛,特別是随着移动互联网和物联网的发展,来自外部社交网络、可穿戴设备、车联网、物联网及政府公开信息平台的数据将成为大数据增量数据资源的主体。数据产生以及采集方式的发展为大数据的获得提供了重要基础。

数据采集一般可分为设备数据收集和Web数据爬取两类。不同领域对应的数据采集方法也不同,常用的数据收集软件有 Splunk、 Scoop、 Flume、Logstash、Ketl以及各种网络爬虫或网站公开API等方式。获取的大数据按照结构的不同,可分为结构化数据、非结构化数据以及半结构化数据。

目前,大数据采集方面的问题突出表现在两个方面:一是外部数据资源越来越丰富,但由于当前大数据采集技术所限,可获得性还不高,特别是物联网设备产生的采集很多还达不到实用性的要求;二是由于体制机制等方面的原因,行业条块分割,导致数据狐岛现象严重,使数据跨行业跨领域融合存在诸多障碍。

2.大数据存储技术

不同的大数据应用要求不同的存储介质和组织管理形式。数据存储介质类型包括内存、磁盘、磁带等;主要数据组织管理形式包括按行组织、按列组织、按键值组织和按关系组织等。当大数据应用仅仅为了响应用户简单的查询或者处理请求,且数据量在轻型数据库存储能力范围内时,可将大数据存储至轻型数据库内。轻型数据库包括关系型数据库(SQL)、非关系型数据库( NOSQL)以及新型数据库( NEWSQL)等。

当大数据应用是复杂的挖加请求或者数据量存储超过轻型数据库存储能力时,一般将大数据导人分布式存储数据库。分布式存储与访问是大数据存储的关键技术,它具有经济、高效、容错好等特点。分布式存储技术与数据存储介质的类型和数据的组织管理形式直接相关。分布式文件系统中的每个节点可以分布在不同的地点,通过网络进行节点间的通信和数据传输。分布式文件系统中的文件在物理上可能被分散存储在不同的节点上,在逻辑上仍然是一个完整的文件。使用分布式文件系统时,无须关心数据存储在哪个节点上,只需像本地文件系统一样管理和存储文件系统的数据。目前,常用的分布式磁盘文件系统有HDFS、GFS、KFS等,常用的分布式内存文件系统如 Tachyon等。

随着宽带网络技术、Web2.0技术、应用存储技术、集群技术、存储虚拟化技术的发展,云环境下的大数据存储将成为未来数据存储的发展趋势。

3.大数据分析处理技术

大数据的价值在于通过数据逼近现实、预测未来,从而指导人们的实践。在大数据体现价值前,需要通过一定的技术对大数据进行处理和分析。

首先要对数据进行预处理,即通过数据清理、数据集成、数据规约及数据转换,提升数据质量,为数据处理、分析、可视化做好准备。所以预处理技术也可以分为4类:数据清理技术、数据集成技术、数据规约技术和数据转换技术。目前,针对流式数据预处理技术主要分为基于数据的技术以及基于任务的技术。

数据预处理的目的是为了提高数据处理的效率及响应速度。目前,主要的数据处理计算模型包括 Mapreduce计算模型、DAG计算模型、BSP计算模型等。

数据分析是通过对大数据的技术处理获取有价值的知识,为不同行业的应用提供智能服务。大数据分析技术包括分布式统计分析技术、分布式挖掘技术和深度学习。其中,分布式统计分析技术是针对已有的数据信息,分布式挖掘技术和深度学习是针对未知数据信息。

4.大数据可视化技术

降低大数据使用难度,有效地在大数据与用户之间传递信息,这都使大数据可视化成为必要。数据可视化( Data Visualization)运用计算机图形学和图像处理技术,将数据转换为图形或图像在计算机屏幕上显示,并进交互处理。大数据可视化与传统数据可视化的不同点在于大数据可视化技术要考虑大数据的“4V”特征,能够支持交互并实时更新。

大数据可视化技术包括数据信息的符号表达技术、数据渲染技术、数交互技术以及数据表达模型技术。