基于粒计算的大数据处理高柯

基于粒计算的大数据处理高柯

中国通信建设集团设计院有限公司第四分公司河南郑州450000

摘要:全面应对大数据的挑战需要来自存储技术、下一代网络、处理器、计算模型等各个领域的创新,粒计算是在求解问题过程中使用“粒”的理论、方法、技术和工具的集合,适用于近似求解有不确定性和层次结构的问题。文章对在大数据的粒计算处理的探讨。

关键词:大数据;粒计算;数据

一、大数据带来的挑战与机遇

大数据的3V特性给信息技术的各个领域带来了重大挑战,归纳起来,主要包括以下几个方面:

(1)存储与检索。数据量的急剧增长,给数据存储带来了巨大的挑战。虽然随着存储技术的发展,单个磁盘的容量越来越大,单位容量的价格也越来越低,然而无限制地存储所有产生或采集到的数据显然给自然资源、社会资源(生产存储设备)和电力能源形成了极大的压力。同时,数据量的增长,必然增加了检索有价值信息的难度。

(2)通信。Internet和移动Internet在很大程度上催生了大数据;同时,大数据也使得在网络上传输的数据量急剧增加,对网络基础设施形成了巨大的压力。

(3)处理。大数据的价值只有经过处理才能体现。处理流程包括:数据获取→抽取/清洗→集成/表示→分析/建模→解释5个阶段,几乎每个阶段都要考虑下面的5条需求:异质性与不完备性、数据规模、及时性、隐私保护和人工协同。

(4)共享与安全。数据量的增长和存储体系的复杂化,给信息共享和信息安全带来了更多问题。如2013年3月美国犹他州卫生署的数据泄露事件,造成280000名病人的社会保障号被下载。

上述这几类挑战并不单独存在,它们常常交织在一起。例如在大数据处理中就要同时兼顾到存储、通信和安全等问题。由于通信数据量和安全的关系,将多源异构的原始大数据传输到一个中心站点再进行挖掘是不合适的。这些不同类型的挑战,吸引了来自不同领域的研究者们,都试图从各自的角度为大数据问题提供解决方案。这些领域包括:计算模型、存储、通信网络、计算机体系结构、数据挖掘、编程语言和系统软件、信息安全等。大数据产生诸多挑战的同时,也带来了前所未有的战略机遇。大数据在继人力、资本之后,成为一种新的非物质生产要素,作为不可或缺的战略资源以支撑科学研究和各类应用服务。这些数据,如果得到合适的处理,将会为社会各个领域带来巨大的价值。列举5个具有代表性的领域,分别是:医疗保健、公共区域管理、零售业、制造业和个人位置数据。为了充分挖掘大数据资源的潜在价值,美国一些大学开始开设数据科学或数据分析课程,为达到要求的学生授数据分析专业硕士学位。这些学生的专业特长可以在电子商务或政府机构工作中得到发挥。美国政府已将大数据提升到国家战略的高度,继2012年由政府斥资2亿美元启动“大数据研究与发展计划”之后,2013年5月3日,白宫又举办了一次大数据研讨会。

世界经济论坛2012年将数据列为与货币和黄金同等重要的一种新的经济资产。2013年,欧盟大数据论坛分别从音视频文档、考虑建筑节能的知识库构建、数据即服务等方面进行了讨论,并准备制定大数据科学的课程计划。同年,日本政府发布了“创建最尖端IT国家宣言”,全面阐述了2013~2020年期间以发展开放公共数据和大数据为核心的日本新IT国家战略;同样,在2013年,中国国家自然科学基金委员会、科技部分别启动了大数据处理的研究计划,国家统计局组织阿里巴巴、百度、中国联通等11家涉足大数据的国内领军IT企业制定了关于大数据的发展战略。

二、粒计算研究与应用

2.1粒与粒算的方法

现阶段的粒计算方法主要可概括为以下3种方法:词计算理论、粗糙集理论、商空间理论,上述3种方法是基于人工智能研究中3种思维模式产生的理论方法。词计算理论是基于不知道原则、不需要原则、无法定义原则和无法解决原则而进行的以自然语言的“词”或“句”为操作对象的计算范式,因此,词计算作为粒计算的一种方式,其是以人类感知为限度的外在表现来完成的感知计算理论。

粗糙集理论作为一种处理不精确、不一致、不完整等各种不完备信息的有效工具,一方面得益于他的数学基础成熟、不需要先验知识;另一方面在于它的易用性。由于粗糙集理论创建的目的和研究的出发点就是直接对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律,因此是一种天然的数据挖掘或者知识发现方法,它与基于概率论的数据挖掘方法、基于模糊理论的数据挖掘方法和基于证据理论的数据挖掘方法等其他处理不确定性问题理论的方法相比较,最显著的区别是它不需要提供问题所需处理的数据集合之外的任何先验知识,而且与处理其他不确定性问题的理论有很强的互补性。商空间理论是从近代代数的环、群概念中衍化而来的一种粒计算方法。简单来说就是构建相应的商空间后通过拓扑的方法将其扩大化,以拓扑空间和等价空间共同构建商空间,从而形成一种相对全面但较为模糊的空间集,将终端需求的信息和相关信息进行分类采集,从而实现信息的粒计算。

2.2粒计算的研究与大数据处理

根据粒计算的上述方法与概念,可以看到,粒计算应用于大数据处理中存在2个基本问题:粒化和基于粒化的计算。即如何构造这个模型,以及根据这个模型的计算。粒化,是问题空间的一个划分过程,转化到大数据处理中就是将数据模糊粒化计算的参考是什么,这是实现大数据粒计算的基础。在同一或者不同的粒化准则下均可得到多个粒层,形成多层次的网络结构。粒计算通过访问粒结构求解问题,包括在层次结构中自上而下或者自下而上2个方向的交互,以及在同一层次内部的移动。即不同粒层上粒子之间的转换与推理,以及同一粒层上粒子之间相互交互,形成所谓的多粒度计算,即粒化计算后的大数据信息的精细化处理的有效进行应当如何进行,从而实现信息的多粒度、高效率、高丰富度整合利用。

三、粒计算与大数据处理

粒计算为大数据处理提供了相对可靠的理论指导与具体的技术参考。

首先,粒计算能够解决大数据“巨量”的问题。大数据与传统数据信息网络相比,最大的特点就是信息数据的海量增加,终端使用者想要在海量信息中寻找有效的需求信息,就需要通过检索功能。通过粒计算技术建立商空间,将具体数据根据同类特征或相似特征进行简单整合,将数据信息显示的优先级进行划分,从而帮助使用者实现快速检索功能,解决了信息巨量不便检索的问题。

其次,解决了大数据“多样性”和“分布式”的问题,在上述的检索环节,通过粒化处理将海量信息进行初步粒计算处理,但符合同类特征和相似性的数据信息量仍较为庞大。在初步粒化计算后再根据精细字段和模糊字段的参考词计算理论进行深度处理,将数据信息分成不同的粒层,构建符合计算规则粒层,将混杂在一起的数据信息进行划分,从而实现信息的有效分类和分布,解决了大数据的“多样性”和“分布式”问题。

此外,粒计算还能够满足大数据背景下“高速性”和“及时性”需求。信息终端使用者对特定的需求存在速度和时间效率的需求,在对这些信息进行粒化处理时,将时间要素和需求优先要素加速计算规则,从而使这些信息能够优先展现在终端使用者面前。

结语

大数据是当前信息技术研究的一个热点课题。成功应对大数据带来的挑战、充分挖掘出其作为一种资源的价值,需要多个领域的研究人员与从业人员共同努力。

参考文献:

[1]普星.大数据时代社交网络个人信息安全问题研究[J]信息通信,2014(11):154.

[2]张茂月.大数据时代个人信息数据安全的新威胁及其保护[J].中国科技论坛,2015(7):l17—122.

[3]梁吉业,钱宇华,李德玉.面向大数据的粒计算理论与方法研究进展[J].大数据,2016(4):13-23

[4]张继栋,郑金芳面向大数据的多Agent资源粒子调度算法[J].科技通报,2015(12):212.214

标签:;  ;  ;  

基于粒计算的大数据处理高柯
下载Doc文档

猜你喜欢