大数据可视分析综述杨振兴

大数据可视分析综述杨振兴

中国通信建设集团设计院有限公司第四分公司河南郑州450000

摘要:人类利用形象思维获取视觉符号中所蕴含的信息并发现规律,进而获得科学发现。文章介绍科学可视化、信息可视化和数据可视化的内涵,阐述大数据可视化分析方法。

关键词:大数据;数据可视化;发展趋势

造就大数据时代的因素是多种多样的,既包含政府机构、媒体和企业等提供的数据,也包括网络用户、社会化媒体平台中的数据。

一、数据可视化的概念和意义

数据可视化技术起源于二十世纪八十年代,是一种利用计算机图像来处理数据的方法,用图表、动画或者任何更容易表达数据的形式来展现数据,使数据更容易被人们理解。而且有研究表明,人获得的大部分信息都是通过视觉获得的。由此可见,数据可视化对于大量的复杂的数据是多么重要。而且人工智能、数字地球和经济趋势等科学发展都和数据可视化有着密切联系,只有利用和发展数据可视化,才能让这些美好前景全部成真。

二、大数据可视化分析

2.1概念

大数据可视化分析需要应用有效的数据管理方法。这也是创建混合环境的需要。在大数据环境下,人们利用各种技术分析数据,用形象直观的方式展示结果,这样能够快速发现数据中蕴含的规律特征。

可视化分析关注人类感知与用户交互的问题。大数据来自不同领域的模拟与观察实测。大数据可视分析通常应用高性能计算机群、处理数据存储与管理的高性能数据库组件及云端服务器和提供人机交互界面的桌面计算机。

2.2大数据可视化分析方法

(1)原位交互分析技术

在进行可视化分析时,将在内存中的数据尽可能多地进行分析称之为原位交互分析。对于超过PB量级以上的数据,将数据存储于磁盘进行分析的后处理方式已不适合。与此相反,可视分析则在数据仍在内存中时就会做尽可能多的分析。这种方式能极大地减少10的开销,并且可实现数据使用与磁盘读取比例的最大化。然而应用原位交互分析也会出现下述问题:①由于人机交互减少,进而容易造成整体工作流中断;②硬件执行单元不能高效地共享处理器,导致整体工作流中断。

(2)数据存储技术

大数据是云计算的延伸,云服务及其应用的出现影响了大数据存储。流行的ApacheHadoop架构已经支持在公有云端存储EB量级数据的应用。许多互联网公司都已经开发出了基于Hadoop的EB量级的超大规模数据应用。一个基于云端的解决方案可能满足不了EB量级数处理。一个主要的疑虑是每千兆字节的云存储成本仍然显著高于私有集群中的硬盘存储成本。另一个问题是基于云的数据库的访问延时和输出始终受限于云端通信网络的带宽。不是所有的云系统都支持分布式数据库的ACID标准。对于Hadoop软件的应用,这些需求必须在应用软件层实现。

(3)可视化分析算法

大数据的可视化算法不仅要考虑数据规模,而且要考虑视觉感知的高效算法。需要引入创新的视觉表现方法和用户交互手段。更重要的是用户的偏好必须与自动学习算法有机结合起来,这样可视化的输出具有高度适应性。可视化算法应拥有巨大的控制参数搜索空间,减少数据分析与探索的成本及降低难度,可以组织数据并且减少搜索空间。

(4)不确定性的量化

许多数据分析任务中引入数据亚采样来应对实时性的要求,由此也带来了更大的不确定性。数据中不确定性的来源对于决策和风险分析十分重要。随着数据规模不断增大,直接处理整个数据集的能力也受到了极大的限制。不确定性量化已经成为科学与工程领域的重要问题之一。不确定性的量化对未来的可视分析工具极端重要,新的可视化技术将提供一个不确定性的直观视图来帮助用户了解风险,从而帮助用户选择正确的参数,减少产生误导性结果。不确定性的量化将成为可视化分析任务的核心部分。

(5)并行计算

并行处理可以有效地减少可视计算所占用的时间,从而实现数据分析的实时交互。多核的计算体系结构的每个核所占有的内存也将减少,在系统内移动数据的代价也将提高。为了发掘并行计算的潜力,许多可视化分析算法需要完全地重新设计。在单个核心内存容量的限制之下,不仅需要有更大规模的并行,也需要设计新的数据模型,需要设计出既考虑数据大小又考虑视觉感知的高效算法,需要引入创新的视觉表现方法和用户交互手段。

(6)领域资源库、框架以及工具

由于缺少低廉的领域资源库、框架和工具,基于高性能计算的可视化分析应用的快速研发受到了严重阻碍。如用户界面、数据库等领域对于可视分析系统的开发至关重要。在绝大部分的高性能计算平台上,即使是最基本的软件开发工具电很少见。目前为高性能计算平台开发定制这样的软件,还是个耗时耗力的做法。

(7)用户界面与交互设计

由于传统的可视化分析算法的设汁通常没有考虑可扩展性,所以许多算法的计算过于复杂或者不能输出易理解的简明结果;加之数据规模不断地增长,以人为中心的用户界面与交互设计面临多层次性和高复杂性的困难;同时时算机自动处理系统对于需要人参与判断的分析过程的性能不高,现有的技术不能更充分发挥人的认知能力。利用人机交互可以化解上述问题。为此,在大数据的可视化分析中,用户界面与交互设计成为研究的热点,主要应考虑下述问题:用户驱动的数据简化、可扩展性与多级层次、异构数据融合、交互查询中的数据概要与分流、表示证据和不确定性、时变特征分析、设计与工程开发等一系列问题。

三、信息可视化

自18世纪后期数据图形学诞生以来,抽象信息的视觉表达手段一直被用来揭示数据及其他隐匿模式的奥秘。20世纪90年代期间出现的图形化界面则使得人们能够直接与可视化信息进行交互,从而推动了信息可视化研究。信息可视化通过人类的视觉能力,来理解抽象信息的意思,从而加强人类的认知活动,达到能够驾驭日益增多的数据的能力。

信息可视化是跨学科领域的大规模非数值型信息资源的视觉展现,能够帮助人们理解和分析数据。信息可视化中的交互方法能够实现用户与数据的快速交互,更好地验证假设和发现内在联系。信息可视化技术提供了理解高维度、多层次、时空、动态、关系等复杂数据的手-段,与科学可视化相比,信息可视化更侧重于抽象数据集,如对非结构化文本或者高维空间中不具有固有的二维或三维几何结构的点的视觉展现。信息可视化适用于大规模非数字型信息资源的可视化表达。信息可视化与科学可视化的不同之处是,信息可视化所要可视化的数据并不是某些数学模型的结果或者是大型数据集,而是具有自身因有结构的抽象数据。

科学可视化主要处理具有地理结构的数据,信息可视化主要处理像树、图形等抽象式的数据结构,可视化分析则主要挖掘数据背景的问题与原因。更进一步说,科学可视化技术是指空间数据的可视化技术,而信息可视化技术则是指非空间数据的可视化技术。

结束语:

随着人们对于数据信息的要求越来越高,对数据可视化技术的要求也逐渐增高,使得越来越多的人加入到数据可视化技术的研究和发展中,这部分研究人员既可以促进数据可视化技术的发展,还可以站在用户角度做出决策。而且随着时代的发展和变化,大数数据可视化技术会在数据信息中占据越来越重要的地位。原位交互分析技术、数据存储技术、可视分析算法和用户界面与交互设计等多种技术的运用,使得人们可以通过交互可视界面来对大数据进行分析、推理和决策,这种将数据通过可视化变成图形的方法能更好地激发人的形象思维与想象力。

参考文献:

[1]涂聪.大数据时代背景下的数据可视化应用研究[J].电子制作,2013(5x):118-118.

[2]张静波.大数据时代的数据素养教育[J].科学,2013,(04).

[3]彭兰.“信息是美的”:大数据时代信息图表的价值及运用[J].新闻记者,2013,(06).

[4]周嫣然.基于大数据时代的数据可视化应用分析[J].网络安全技术与应用,2014,(11):47-48.

标签:;  ;  ;  

大数据可视分析综述杨振兴
下载Doc文档

猜你喜欢