大规模机群监控系统的研究与实现

大规模机群监控系统的研究与实现

吴钟琴[1]2007年在《基于Linux/UNIX的机群监控系统的关键技术的研究与实现》文中研究指明迅速发展的PC机、工作站和高速网络系统,使高性能超级计算机从高端大型机向计算机机群发展。但是,机群系统因其结构松散、节点独立性强等原因会导致维护困难。国际上流行的方式是在节点机的操作系统之上建立一层机群管理系统。机群监控系统是机群管理系统中的重要组成部分,其基本任务是监控机群系统的各个性能指标,在系统发生异常时提供报警/预警信息。国内外已有机群监控系统虽具有丰富的功能和良好的性能,但仍存在普遍的不足:(1)大部分机群监控系统采用C/S架构,在节点软件发生异常时,监控系统将无法获取该节点的监控信息;(2)未充分利用监控信息预测系统的异常;(3)在无人值守的情况下,在某个节点发生异常时,虽然有些监控系统已提供电子邮件或短消息报警功能,但无法判断系统管理员是否已收到报警信息。作者在对现有几个典型机群监控系统研究分析的基础上,设计了基于C/M/S的叁层通信模型和半异步通信协议,对机群监控系统进行了总体设计,并实现了数据采集器、流数据挖掘器和短消息收发器等模块,从而实现了基于Linux/UNIX的机群监控系统ACMS(Automatic Cluster Monitoring System)。本文的主要特色和创新之处为:(1)通过实现Telnet协议,可获得与服务器端软件失效的节点的通信,并采集该节点的监控信息。(2)提出了将流数据挖掘技术应用于机群监控系统中,设计了流数据挖掘算法,用以预测机群系统将来时间可能发生的异常和发生异常的概率,并根据预测结果进行预警。(3)设计了短消息报警/预警系统和系统管理员之间的人机交互协议,使监控系统在无人值守时具有判断系统管理员是否获悉报警/预警信息的功能,并且具有重发短消息的功能,从而提高了报警/预警系统的可靠性。本文对ACMS的主要模块——数据采集器、流数据挖掘器和短消息收发器进行了测试,验证了它们的可行性和功能。ACMS中的各模块实现了预定的功能,弥补了现有机群监控系统存在的几个不足之处,提高了机群监控系统的可靠性,使其向智能化方向迈进。本文研究实现的ACMS已首次运行于对上海华虹集团计通智能卡系统有限公司所研发和维护的上海轨道交通3号线、4号线和5号线的AFC(自动售检票)系统的中央计算机系统服务器的监控上。其中用于预警的流数据挖掘模块需要大量真实数据进行反复测试和验证,因此还处于测试阶段。运行实践表明,ACMS性能稳定,能可靠地实现监控报警功能。

易昭华[2]2004年在《大规模机群监控系统监控信息采集与储存技术研究》文中指出机群监控系统是大规模机群系统中一个非常重要的基础设施,机群监控系统的基本任务是监控机群系统的健康状况和性能指标,并提供机群系统故障诊断功能。机群监控系统的基本原理是:从所有被监控的节点采集所需监控信息,然后对这些监控信息作综合分析和处理,最后根据分析和处理结果作出相应的管理决策。其中监控信息的采集技术与储存技术是机群监控系统的核心技术,本文对这两个部分作了深入研究。监控信息采集部分主要分为两个单元:节点机监控信息采集单元(MIPU,Monitoring Information Probing Unit)和监控信息汇集单元(MIIU,Monitoring Information Influx Unit)。MIPU 的基本功能是直接从被监控的节点采集所需监控信息,MIIU 的基本功能是把所有节点的监控信息汇集到一起以便于综合分析和处理。监控信息储存单元(MISU,Monitoring Information Storage Unit)的基本功能是把所有监控信息储存起来,以便于历史数据分析,也便于其它应用系统对监控信息的访问。因此本文的研究内容进一步分为3 个部分:MIPU、MIIU、MISU。从整体上考察,机群监控系统研究所追求的目标是:减少机群监控系统所消耗的资源、降低监控系统对机群系统的影响、提高监控系统的可靠性、稳定性和可扩展性。在尽力满足整体目标的前提下,由于MIPU、MIIU、MISU 这叁个单元处在机群监控系统不同的位置,并且完成不同任务,因此具体的评价指标和衡量尺度有所差异,本文给出了这叁个单元的评估指标和衡量尺度,并对这3个单元的各个方面进行了综合的分析和评价。对于MIPU,本文重点研究了如何采集节点机内核信息的方法,通过对多种采集方法的优缺点进行综合分析和评价,本文提出了一种基于内核模块的采集方法,并对其作了深入研究,对于MIIU本文重点研究了MIIU 的通信模式、通信模型、底层通信协议,从这叁个方面对MIIU 进行了综合评价,提出了一种最佳的MIIU 实现方案。对于监控信息储存单元(MISU),本文重点从监控信息的储存位置、监控信息的储存结构与组织方式这两个方面对MISU 进行了综合评价,提出了一种最佳的MISU 实现方案。本文以联想深腾6800 机群监控系统研究课题为背景,文中对深腾6800机群监控系统研究课题的研究工作与相关实现情况作了详细介绍,其中重点介绍了MIPU、MIIU、MISU 这叁个单元的具体实现。本文最后对实验的结果进行了总结,同时还讨论了下一步要做的工作。

倪广宝[3]2005年在《网格监控系统GridView的研究与实现》文中进行了进一步梳理随着高性能计算应用需求的发展,单台高性能计算机已经不能胜任一些超大规模应用问题的解决,这就需要将地理上分布的、异构的多种计算资源通过高速网络连接起来,共同解决大型应用问题。网格是将大量异构的、地理位置分布的资源整合成一台巨大的超级计算机,实现各种资源的全面共享。为了有效的利用网格中的资源,提高网格中资源的利用效率,及时发现产生故障的主机,分析系统性能瓶颈,帮助用户在最短时间内恢复或调整系统,网格监控就显得尤为重要;监控数据还可用来预测系统运行的轨迹,为网格动态负载均衡策略提供可靠的依据,保证网格的健壮性和可用性。本文主要的主要工作有以下几个方面:1.研究了网格监控系统的结构,并针对网格环境下的特点讨论了网格监控系统的关键问题。在总结和分析已有监控系统的基础上,提出了自己的网格监控系统的体系结构。在网格环境下,由于资源数目非常多,随着时间的推移,网格中资源的数目还会变化,因此网格监控系统在结构上必须有较好的可扩展性。监控系统的各部分之间应该松耦合,以便于监控系统在分布式环境下的部署。同时针对网格环境下的特点讨论了设计和实现网格监控系统要解决的其它关键问题。2.海量监控数据的处理技术。网格是由大量资源组成的一个资源共享系统。如此大量的资源会产生大量的监控数据,如何处理这些监控数据既可以减少其对存储资源的消耗,又尽可能的降低精度的损失,保证历史归档数据的真实性,这是海量监控数据的处理技术要解决的问题。3.监控数据的可视化问题。为了将网格作为一个逻辑上的整体,对用户提供方便和透明的访问,必须将网格中的资源作为一个有机整体为用户提供统一的逻辑视图。网格监控系统将监控的所有资源信息以各种逻辑视图提供给用户,使用户方便快捷的获取所要得到的信息,同时便于操作,符合人机交互界面的设计原理。4.实现了网格监控系统GridView并对其进行了评价。在充分分析现有监控系统的基础上,设计和实现了网格监控系统GridView,其结构具有较好的可扩展性,容易的实现对多个机群的监控,并对其性能进行了分析和评价。

陈熠[4]2004年在《大规模机群监控系统的研究与实现》文中指出机群就是通过高性能网络或局部网络将一组计算机系统(节点)互联,形成的具有单一系统映像的高性能、高可用性、高扩展性的计算机集群系统。由于机群系统结构松散、结点独立性强、网络连接复杂,造成机群系统管理不便,难以使用。为了解决这个问题,国际上流行的方式是在各个节点机的操作系统之上再建一层操作系统来管理整个机群,称之为机群操作系统。本文以曙光4000A机群系统为科研背景,以机群操作系统中的侦测系统为具体对象,进行了广泛而深入的研究。曙光4000A机群操作系统Phoenix是一个集成的、一体化的集群操作系统系统。而大规模机群侦测系统是这个中间件系统的一个重要组成部分,是机群操作系统的一个重要“服务”。该服务是从原有的机群系统软件中抽取出来的可以共享的服务之一,它负责管理机群系统的状态信息,为机群基础构件及机群应用层构件提供主动智能的信息服务。大规模集群侦测系统软件的设计采用了基于服务和一体化构件的思想,以基于CORBA的分布式构件方式实现,具有主动信息服务的特性、良好的可扩展性、高可用性和系统的包容性。论文首先介绍的是机群操作系统、集群侦测系统、分布式构件及主动信息服务的概念等相关内容;之后,文章对当前几种典型的机群侦测系统进行分析,总结了它们的优缺点;然后,文章描述了构件化、可扩展的大规模集群侦测系统的设计和实现;最后,论文重点讨论了基于联邦和基于组服务的大规模集群侦测系统。

易昭华, 金正操, 杜晓黎[5]2004年在《大规模机群监控系统数据采集通信模型和通信协议的研究》文中认为论文通过对大规模机群监控系统数据采集通信模型进行分析,提出了一种引入中间代理的应用于大规模机群监控系统的叁层通信模型。论文主要对叁层通信模型的通信协议进行了详细的分析,其中包括数据采集协议,中间代理配置协议,中间代理的选择协议。

赵月辉[6]2006年在《大规模机群远程监控管理关键技术及实现》文中进行了进一步梳理目前高性能的超级计算机的趋势是从高端的大型机向商业化计算机机群发展。这是因为迅速发展的PC、工作站和高速网络系统,使得机群系统的性能和可用性不断提高,完全有可能替代原有的大型机系统。由于机群系统结构松散、节点独立性强、网络连接复杂难以维护。为了解决这个问题,国际上流行的方式是在节点机的操作系统之上建立一层监控管理系统来管理整个机群,称之为机群监控管理系统。本文以曙光机群系统为背景,对机群环境下的大规模服务器远程监控管理关键技术进行了分析,并在此基础上实现了一套大规模的机群监控管理系统DCMM2。DCMM2机群监控系统采用软硬件结合的结构体系,C/S的分层结构,可对大规模机群进行远程监控和控制。DCMM2实现了对各服务器节点软硬件数据的实时监控、资源信息的实时监控。DCMM2机群监控系统还提供了历史查询和分析的功能,采用了多元化报警方式,并可以远程控制各个节点服务器的开机、关机和重启。DCMM2采用叁层异步通信模式,保证了监控数据的刷新延迟很低,使其使用性能提高。DCMM2机群监控系统丰富的功能和稳定的性能,对大规模机群系统有效运行起到很好的监控保证作用。本文首先讨论了机群监控系统的现状,综合分析了现有的各种实现方法,总结了现在机群监控系统的优缺点。在此基础上,提出了研制适用大规模机群监控的设计目标。DCMM2监控系统是在此目标基础上提出的一套解决方案。本文分析了大规模机群监控系统DCMM2采用的关键技术,软硬件结合的体系结构、采用SNMP模型实现对机群资源的监控、采用叁层异步的通信模式、和灵活的Socket网络连接。然后,介绍了DCMM2的整体设计方案。最后对DCMM2机群监控系统从功能和性能方面进行了评价。文章最后,讨论了目前系统还存在的一些问题和进一步的工作。

孙爱婷[7]2010年在《机群监控系统关键技术的研究与实现》文中研究表明目前,高性能超级计算机的趋势已从高端的大型高性能计算机向计算机机群发展,促进了机群这一计算技术得到飞速发展。随着机群技术的广泛应用,机群系统的性能和可用性需要也在不断提高,但是机群系统结构松散、节点独立性强、网络连接复杂、故障难以维护。为了解决以上存在的问题,采用在节点机的操作系统上建立一层机群监控系统,它是大规模机群系统中一个非常重要的基础设施,机群监控系统的基本任务是获得机群当前的配置情况,监控机群的健康状况和性能指标,并提供机群系统故障诊断功能。国内外机群监控系统虽具有良好的性能和可用性,但仍存在一些不足:1)机群监控系统在进行信息采集时用户不能及时获取所需的数据信息,会引入较大的系统开销,从而对机群系统产生负载影响。2)当监控节点发生故障时,无法实现故障节点的自动转移和恢复,造成监控数据传输失效,降低机群监控系统可靠性。本文的主要研究内容及创新之处:(1)通过对监控信息采集技术的详细分析,采用IEEE1394协议和Ganglia机群监控技术相结合,设计实现了一种新型的机群监控信息采集模型,该模型不仅降低了机群监控系统对机群系统产生的负载,而且有效地提高了监控信息的采集速率和机群监控系统的可用性。(2)分析了机群监控系统在处理监控节点故障时存在的问题,提出了一种容错的机群监控节点模型,避免了机群监控节点故障,增强监控系统的可用性,提高了无人值守的可信度。本文针对机群监控系统NGMON的主要性能指标──机群监控信息采集引入的负载和通信效率,以及系统的容错性进行了测试,验证了它们的可行性和实用功能,弥补了现有机群监控系统存在的不足之处,提高了机群监控系统的性能、可靠性、可用性和可管理性。本文研究内容是大连市科学技术基金计划项目:新型网络服务器的资源管理与系统状态监控(编号:2005J22JH031)的重要组成部分。

顾光导[8]2003年在《单一系统映像机群监控系统的关键技术研究》文中研究指明系统管理的自主化是当前系统管理研究的趋势,机群的系统管理也在朝着这一方向发展。以单一系统映像机群监控为主要特征的机群监控系统,本文简称之为单一系统映像机群监控系统,对于实现机群环境下系统管理的自主化具有很重要的意义。本文从实现技术的角度讨论了单一系统映像机群监控系统的特点和难点,分析了与之对应的技术目标和技术挑战,给出了技术评价的衡量尺度,并详细论述了单一系统映像机群监控系统核心模块的实现技术,最后还介绍了我们开发的一个单一系统映像机群监控系统。单一系统映像机群监控系统的特点与难点与自主机群管理系统的特点息息相关。本文基于目前机群监控系统的技术和自主机群管理系统的机理,从技术目标、技术难点和评价标准多个角度对单一系统映像机群监控系统的技术问题进行了分析。在评价标准方面,通过技术目标与难点的综合给出了具体的衡量尺度,覆盖了单一系统映像机群监控系统所面临的需求和挑战,有助于对单一系统映像机群监控系统相关技术的分析和评价。单一系统映像监控系统核心模块的实现技术包括信息采集模块IPM在信息采集、同步和预处理等方面的多种实现技术,以及信息收集模块ICM在拓扑结构、通信模型和存储模型等方面的多种实现技术。本中分别分析了现有技术的机理和应用特点,提出了一些新的技术,论述了这些技术在多个衡量尺度上的表现,对单一系统映像机群监控系统的实现起到了指导作用。文中的最后介绍了我们实现的一个单一系统映像机群监控系统:深腾慧眼。该系统成功地用于监控具有256个结点的深腾1800机群系统,表现出很高的性能。

陶捷[9]2008年在《动态跟踪系统的性能模型研究及基于动态跟踪技术的机群监测软件的设计与实现》文中认为近10年来,个人电脑在性能有了长足进步的同时,其价格也越来越便宜。因此在需要服务器的领域和在需要一定的运算性能的领域,以廉价的个人电脑而组建的机群正在以其不俗的性能和更低廉的价格逐渐在中低端服务器市场和商用机群市场中抢得一席之地。这种机群大多以开源软件为基础进行构建。一个不可否认的现状是:虽然单机环境下的各种软件均已成熟,但在机群环境中各种管理和控制软件却仍有待进步。对于监测软件,单机中已有各种实现,可以说监测技术和监测软件本身已经没有什么难点了,扩展到机群环境中时只需考虑其功能的扩展性和易用性即可。但事实却相反,目前大多数的监测软件均只能查看简单的全局信息。这其中存在两个问题:一是机群监测软件均只针对通用化的平台和通用化的目的进行构建;二是各种机群监测软件的开发中忽视了扩展性和可定制性。因此构建一个具备“动态”、“可扩展”特性的“全面”且“多功能”的适用于自我组建的中小规模机群的“可定制”的机群监测软件成为一个必要。本文在详细分析了目前机群发展的现状和机群监测软件的现状之后,提出了评估机群监测软件的一系列标准。并针对这些标准进行了机群监测软件——DDTC/DDTS的设计和开发。该监测软件基于动态跟踪系统而构建,因此在功能性和扩展性方面能够满足要求。软件本身是一个只提供基本功能的运行框架,通过插件机制来满足所需的动态性和多功能性的要求。由于监测软件的一个重要评价标准是低侵扰性,因此在构建DDTC/DDTS前,本文还对动态跟踪系统(DTrace)进行了性能模型的分析,通过性能模型可以预判出监测软件在不同条件下会给被监测节点带来的性能影响情况。实践证明,在正常的使用情况下,对工作节点的侵扰度小于1%。

黄伟[10]2005年在《机群系统容错中间件技术研究》文中进行了进一步梳理在高性能计算机的研究当中,如何保证系统的可用性和应用的可靠性一直就是需要首要考虑的问题之一。机群以其高性价比和高可扩展性已经成为构造高性能计算机一种主要的方法,而节点间松散耦合的结构也使得机群系统更易于保证系统的可用性。随着机群系统规模的逐渐增大,也带来许多了新的问题,如更加频繁的组件失效,软件体系结构的扩展性等问题。这些新的问题对如何保证系统的可用性带来了更多的挑战。机群容错中间件技术将机群、容错和中间件技术结合在一起,是一种在机群系统软件层实现的能够同时保证系统可用性和应用可靠性的方法。 本文结合曙光4000A系统的机群操作系统Phoenix高可用核心的设计与实现,对机群容错中间件的关键技术进行了探索,重点研究了:1)在大规模情况下,适用于机群系统的容错中间件的框架与体系结构;2)在容错中间件技术中,适合于大规模机群的容错实现机制;3)在采用容错中间件情况下,对机群系统可用性和应用可靠性的评价。本文取得的研究成果如下: 1.在提出和分析机群系统规模变大给系统可用性所带米的新的挑战后,提出了一个用于大规模机群系统的容错中间件框架DCFT-Kernel。这个框架采用了分区管理的思想及“平等式”与“结构式”结合的体系结构,较当前的机群高可用软件有效地解决了大规模系统所带来的系统扩展性、软件体系结构扩展性、和容错机制扩展性等问题。DCFT-Kernel框架由组服务、故障管理服务、配置服务、事件服务和用户接口组成,能够提供完备的错误侦测、错误修复、错误通知功能。 2.在分析了将容错技术应用到机群系统在理论上需要解决的问题后,提出了一种用于实现机群容错中间件核心容错机制的关键技术——组服务技术。机群容错中间件的工作基础是自身的高可靠,组服务技术通过采用组结构和成员关系协议,能够保证机群容错中间什自身在运行时严格的一致性和高可靠性。在组服务基础上,提出的机群容错机制充分考虑了机群系统和并行应用的特点,提供了层次化的故障侦测和处理方法,能够对大部分的系统故障和应用故障进行有效的处理。 3.在曙光4000A系统上实现了一个实际运行的机群容错中间件系统DCFTM。DCFTM位于机群操作系统的核心,为机群操作系统的各种服务部件提供高可用支持,同时也可以直接向上层应用程序提供编程接口,保障应用程序的容错运行。通过对DCFTM实际运行的性能分析表明:1)DCFTM能够保证机群操作系统中各类服务的高可用运行,在故障处理时可以提供很高的响应时间,能够及时的发现和修复各种故障,并通知这些事件。2)DCFTM只占据很少的系统开销,只要将心跳间隔时

参考文献:

[1]. 基于Linux/UNIX的机群监控系统的关键技术的研究与实现[D]. 吴钟琴. 华东师范大学. 2007

[2]. 大规模机群监控系统监控信息采集与储存技术研究[D]. 易昭华. 清华大学. 2004

[3]. 网格监控系统GridView的研究与实现[D]. 倪广宝. 中国科学院研究生院(计算技术研究所). 2005

[4]. 大规模机群监控系统的研究与实现[D]. 陈熠. 中国科学院研究生院(计算技术研究所). 2004

[5]. 大规模机群监控系统数据采集通信模型和通信协议的研究[J]. 易昭华, 金正操, 杜晓黎. 计算机工程与应用. 2004

[6]. 大规模机群远程监控管理关键技术及实现[D]. 赵月辉. 中国科学院研究生院(计算技术研究所). 2006

[7]. 机群监控系统关键技术的研究与实现[D]. 孙爱婷. 辽宁师范大学. 2010

[8]. 单一系统映像机群监控系统的关键技术研究[D]. 顾光导. 中国科学院研究生院(计算技术研究所). 2003

[9]. 动态跟踪系统的性能模型研究及基于动态跟踪技术的机群监测软件的设计与实现[D]. 陶捷. 复旦大学. 2008

[10]. 机群系统容错中间件技术研究[D]. 黄伟. 中国科学院研究生院(计算技术研究所). 2005

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

大规模机群监控系统的研究与实现
下载Doc文档

猜你喜欢