吕晓艳[1]2004年在《面向列车客票数据预测分析及特征提取方法的研究》文中研究表明随着铁路信息化技术的发展,作为铁路信息系统子系统的客票营销系统已经积累了丰富的数据,如何以较少的人力和技术成本合理利用现有的客票信息资源获取有价值的决策信息,日趋成为铁路决策部门的一个迫切需求和铁路客票营销和信息技术部门的一个工作重点。数据挖掘技术的迅速发展为铁路客票营销工作的深入分析奠定了良好的理论基础,但是现有的数据挖掘工具在面对海量存储级别的客票数据和结合铁路背景的实际应用需求时,具有一定的局限性,不能直接为其所用,需要结合应用需求进行方法改良。 本文面向铁路客票的营销需求分析,以铁路客运为背景,针对客票数据特征,围绕如何对铁路客票数据建立有效的数据分析模型进行了深入的研究和大量的应用性实验。本文是以数据挖掘分类方法中的决策树归纳方法和数据挖掘中的概念描述为理论出发点,以建立合理的面向客票数据的数据分析方法为目的的。对于不同的决策树分类算法,特别是对ID3、SLIQ、SPRINT等进行了较为详尽、深入地研究,通过详细的分析和综合研究,针对目前铁路客票营销系统中预测方法的不足,提出了一个改进的决策树方法TTDTPA。此方法具有突破内存的限制、可提取的定量规则以描述主类分布、易于实现并行等特点,从而使得经过改进的决策树分类方法TTDTPA可以更有效地满足铁路客运营销分析的需求。同时,本研究还尝试采用了朴素贝叶斯方法和一种基于等价类划分方法对客票数据分别进行建模,以期能改善对客票数据的分析的综合性能。特别是后一种方法,它可以提取数据集中小类属数据的特征,从而有效的弥补了TTDTPA方法在此方面的局限。通过对这些方法实际应用结果的归纳分析,根据它们不同的特点,在本文最后给出了对实际客票数据进行数据分析时建立数据分析模型的方法。 通过研究,我们对挖掘技术在客票数据中的应用有了一定的积累,为进一步的研究奠定了良好的基础并提供了一定的理论指导。另一方面,将有效的数据挖掘技术应用于铁路客票营销分析,建立合理的预测分析模型,为铁路部门合理安排运能、科学组织管理提供了准确的决策信息和先进的预测手段。
吕晓艳[2]2007年在《基于决策树的数据建模分析方法及其在铁路中的应用研究》文中指出几十年来,随着铁路信息化建设的推进,铁路行业已成功地建设了一批信息系统,如客票发售与预订系统、运输管理信息系统、调度指挥系统、车号自动识别系统、行车安全监控系统、财会管理系统等,这些系统的成功运行为铁路部门积累了丰富的数据。合理利用现有信息资源,获取有价值的决策信息,日趋成为铁路相关部门的迫切需求和铁路信息化攻关的重点。数据挖掘理论和技术的迅速发展,为展开深入的数据分析奠定了良好的基础。本论文以铁路客运营销需求为研究背景,以数据挖掘中的决策树方法和时间序列分析方法为基本理论的研究出发点,结合铁路客票数据特征,针对目前数据挖掘方法中对主类数据分布不平衡数据集分析方法研究的不足,围绕铁路客票数据建立有效的数据分析模型进行了较为深入的研究和应用性实验。首先,根据客票数据的产生与收集过程,有针对性地对客票数据进行了概念分层与数据归约、数据的标准化与离散化、属性构造、维归约等相关预处理方法研究,旨在减少对客票建模分析过程中由于数据本身原因而带来的分析干扰。在对决策树基础理论进行充分研究的基础上,本文主要深入研究了ID3、SPRINT、 SLIQ等决策树算法。通过对决策树方法的应用分析,发现其对主类数据分布不平衡的数据集数据建模分析时存在一定的局限性,本文提出了基于关键度度量的决策树方法,对现有的决策树模型进行了改进,为各个主类属数据争取公平竞争类标号的权力铺平了道路。该算法有效地解决了主类分布不均数据集的建模分析问题,算法提取的定量规则,集预测和统计于一体,增加了规则的可解释性,满足了决策者对决策信息多层次的需求。用时间序列分析方法进行客票数据的时间演变特征分析时,由于时间序列分析模型多以方程式表达,对于实际应用存在模型可解释性差、相关因素分析不明确等缺点,本文提出自时间序列本身提取时间演化特征作为序列分析属性,结合改进的决策树分析方法实现对时间序列的分析。这种方法有利于识别出影响序列变化的关键因素,得到的模型具有较好的可用性。通过其在铁路客运量分析中的应用,证明了该方法的有效性和合理性。对客票数据进行基于决策树方法和时间序列分析方法的数据建模分析,是实现对客票数据进行静态特征提取和动态演化特征分析的一种有效途径。但要全面地解决铁路客运辅助决策的智能化问题,从系统的角度构建数据建模分析系统是十分必要的。本文从系统研究的角度出发,对铁路客运数据建模分析系统的体系框架进行初步的研究,并提出系统的服务框架、逻辑框架和物理框架,指出建立有效的数据建模分析系统是解决目前铁路信息系统的智能化问题的重要途径,对客票数据的全面分析具有十分重要的意义,同时也对相关领域的数据建模分析研究具有一定的参考价值。全文的创新点主要体现在以下四个方面:(1)对决策树模型进行改进,提出改进的基于关键度度量的决策树模型,使得数据量上处于弱势的主类数据也有相等的机会表达本类数据特征,解决了实际应用中的主类分布不平衡数据集的数据建模分析问题。(2)结合时间序列分析方法的优点,提取数据随时间的演变特征,构建数据演变特征训练集,进行数据的决策树建模分析,解决了时间序列模型可解释性差、相关影响因素分析困难问题。(3)将决策树方法以及决策树与时间序列相结合的方法应用于铁路客运数据建模分析,得到的分析模型可实现对铁路客运数据的定量和定性分析,为客运部门充分利用客运资源、合理安排运能提供有益的数据建模分析工具。(4)为提高现有铁路客运系统的智能化水平,提出了开放式的数据建模分析系统的体系框架,并对系统的服务框架、逻辑框架和物理框架进行初步研究,对客票数据的全面建模分析具有重要的指导意义。
邵梦汝[3]2016年在《基于铁路客票信息的旅客购票行为分析》文中研究指明铁路票务管理部门往往基于历史结论或铁路专家的经验做出决策,这样的决策干扰因素多,决策水平波动较大,影响铁路客运平稳发展。随着网络和信息技术的发展,铁路已经进入由数据主导的“大时代”。大数据时代所收集的信息不是单一的,而是结构化的信息,如何使数据资源转为铁路票务管理服务,就成为铁路客运决策部门需要研究的重点问题。与此同时,在大数据背景下数据挖掘的研究工作主要集中在信息系统中数据库的构建,而在已有数据库中对数据的分析处理方法研究并不多。比如,在数据库建成后,铁路客票数据如何应用在铁路客运市场上,鲜有文献体现。基于上述思考,展开本文的研究内容。主要的研究工作如下:(1)根据客票数据的特性,选项用相似性分析,对数据降维处理选出研究数据类别。接着运用方差分析,检验两两数据间是否具有显着性差异,发现购票时间与其他因素间具有显着相关性。(2)对选择的铁路购票特征数据进行分析,研究旅客个人特征、列车类型、购票方式、到达目的地城市类型、出行时间与购票时间之间的关系。(3)通过运用密度的聚类算法DBSCAN得到铁路购票行为分类的5类客户群体,对分类结果进行解释,并分析每类客户群体的特点。(4)本文在此基础上,根据数据分析和数据挖掘所得到的结论,找到基于铁路购票行为的旅客分布规律,对铁路部门的票务管理提出建议。
龙腾子[4]2016年在《武广高速铁路客票大数据应用研究》文中进行了进一步梳理随着高速铁路的迅猛发展,铁路逐渐由卖方市场转变为买方市场,工作重点逐渐移步于如何高效吸引客流,输送客流,因此高速铁路客票营销也成为研究的重要课题之一。中国铁路客票发售及预订系统是覆盖各大铁路局的客票系统,其中汇集着大量的客票销售数据,数据级别已达到大数据研究的要求。针对铁路客票大数据的一些特点,利用高速铁路客票大数据获取一些知识规律,再利用这些知识规律来指导客运营销工作和铁路旅客运输组织。本文首先分析了高速铁路客票所包含的信息种类,对高速铁路客票数据所代表的客流进行了时空分析,并指出了影响因素。除此之外,利用了大数据理念,结合小波神经网络算法做了武广高速铁路客票大数据客流预测,结合武广高速铁路既有的OD矩阵,利用常用于城市交通的OD矩阵推算方法的改进方法对武广高铁进行OD矩阵推算。最后,根据铁路客票数据的特征比如客票之间的非线性特征,选用了Weka平台作为客票数据挖掘的基本平台,利用该软件自带的基于K-means算法的聚类算法和基于Apriori算法的关联规则分析功能对武广客票大数据进行分析,分别获取了有效信息,用于指导铁路客运营销工作,辅助决策者制定相关政策。本文的研究成果不仅对武广高铁具有指导意义,对全国高速铁路线路均具有一定的普适性。
陆丽花[5]2008年在《铁路客票数据挖掘研究》文中指出随着计算机科学的不断发展,大量的原始数据被不断收集并存储到计算机中,而数据处理能力的低下,造成了目前信息丰富,知识贫乏的现状。数据挖掘——用非平凡的方法从大量数据中发现有用的知识,正是应此要求而迅速发展起来的一门科学。铁路中的客票系统蕴含了丰富的数据信息,如何从这海量的信息中挖掘出有用的知识,是一个有待研究解决的问题。本文将数据挖掘技术用于铁路客运营销分析中的巨量客票分析,针对铁路客票的实际特点,对客票数据进行分析,提取客流信息以及客票数据的各个属性对旅客购票行为的影响规则,用于指导铁路旅客运输组织,服务客运营销决策。本文选用SQL Server 2000作为数据仓库和数据挖掘的开发工具。分析了数据挖掘技术、可视化数据挖掘技术、OLAP以及数据仓库的基本原理,并对SQL Server 2000中决策树、聚类分析的数据挖掘算法作了重点分析。在对铁路客票系统中的数据进行了初步分析基础上,对涉及的多种数据进行了集成与转换,给出了数据仓库的详细设计过程和步骤。以京九线南昌局段下行方向08年4月份的客票数据为样本,建立了星型构架的多维数据集,分析了样本数据的客流特征,并且利用决策树和聚集技术对样本数据的席位、发车时间、列车种类字段其进行了的数据挖掘和结果分析。
黄丽燕[6]2017年在《基于大数据的高速铁路客流分析与辅助决策研究》文中指出近年来,高速铁路以其快捷、准时、安全、环保的特点,在我国乃至世界范围内高速发展。随着我国高速铁路的路网规模逐步扩大和运营里程的增加,铁路旅客运输能力得到逐步释放,铁路旅客运输供不应求的局面得到缓解,铁路运输生产正逐步由粗放型向精细化转换。客流作为铁路运输组织的基础和关键因素,其分析工作是一个复杂的过程,如何对客流的分布特征及变化规律进行系统分析,掌握客流现状与变化趋势,对铁路开行方案、营销策略、客票销售等都具有重要意义。随着信息化发展建设的不断加深,中国铁路客票发售与预定系统TRS累积了大量、完整、一致的历史数据,这可为合理、科学地分析高速铁路客流,获取高质量的辅助决策信息提供数据基础。继物联网、云计算,大数据分析技术成为采集、存储、管理、分析和共享海量数据的核心技术之一。本文拟采用Microsoft SQL Server 2012作为大数据分析工具,构建星型模式铁路客票数据仓库,建立多维数据集,进行客票数据OLAP分析和数据挖掘,并将分析和挖掘结果以规范的、清晰的报表等形式可展示给用户,从而更好的指导铁路的运输调配,为领导的决策提供辅助支持。本文首先简要概括了国内外大数据和铁路客流研究现状以及当前大数据分析技术发展最成熟的数据仓库和数据挖掘技术,并根据高铁客票的实际特点,详细地从旅客出行行为、时空分布特性、客票收入与运能关系、客流预测等方面介绍高速铁路客流分析和挖掘主要研究内容;接着探求如何基于Microsoft SQL Server 2012商务智能工具进行高速铁路客票数据仓库和数据挖掘关键技术开发;最后详细介绍高速铁路客票统计决策分析系统的开发工具和具体功能模块,并采用贵广高铁2016.11.21-2016.11.27—周的客票数据对高速铁路客票统计决策分析系统进行测试。
王莹[7]2009年在《基于铁路客票数据的列车等级客流分担率研究》文中研究说明随着社会经济的发展,人们的出行次数日益增加,人们对出行质量也提出了更高的要求。在这样的背景下,铁路部门如何根据旅客的需求合理确定不同等级列车的客流分担率是实现铁路运输社会效益和经济效益的关键。以旅客选择行为为基础,开展对铁路列车等级客流分担率的研究,可掌握旅客对列车等级的选择特点,并据此优化旅客列车开行方案,开发旅客运输产品,进而提高铁路旅客运输服务质量,更好地满足旅客的出行需求,提升铁路的市场竞争力。论文首先按照旅行速度和服务水平将现有旅客列车分为六种等级,并给出了铁路列车等级客流分担率的定义。在此基础上,深入分析了影响铁路旅客列车等级分担率的主要因素——旅客属性、列车属性、出行特性、客运节点属性、铁路运输供给特性,探讨了各影响因素之间的关系,为定量研究客流分担率奠定了基础。铁路旅客对列车等级的选择行为是铁路列车等级客流分担率研究的基础,论文提出了一种新的研究铁路旅客对列车等级选择行为的方法。该方法基于既有铁路客票数据,采用数据统计分析的方法,重点考虑了客流分担率的两个影响因素——客运节点属性和出行特性中的旅行距离,将其作为划分OD对的依据,并定义了列车利用率以反映旅客的选择倾向;在此基础上,利用客票数据统计了所选OD对间各等级列车的利用率,以分析铁路旅客对各等级列车的选择行为特点。为了验证该方法的可行性,论文选取了北京-上海间的客票数据进行了实例分析。在对更广泛数据分析的基础上,论文总结了长途、中途、短途旅客的选择行为特点,并分析了旅客对动车组列车的选择情况。为了定量研究各等级列车的客流分担率,论文以Logit模型为基础,建立了基于可变权重的列车等级客流分担率模型,并对模型进行了求解;以北京.上海为例,进行了实例计算。最后,在列车等级客流分担率研究的基础上,对铁路既有线和客运专线的列车开行提出了一些建议,并指出了未来进一步研究的重点。
李妍琰[8]2006年在《基于IFN的客票营销分析方法的研究》文中研究指明随着铁路信息化的发展,铁路客票营销系统积累了丰富的数据,如何以较少的人力和技术成本合理利用现有的客票数据资源获取有价值的决策信息,日趋成为铁路决策部门的迫切需求和铁路客票营销相关部门的工作重点。目前客票中心对客票营销分析的研究工作仍处于初步的数据统计阶段,这种常规的统计汇总方法很难建立有效的预测模型。基于ID3算法的客票分析方法可以建立较好的预测分析模型,但是从模型中提取的规则集合规模较大,从中提取决策者感兴趣的规则比较困难,这是客票营销分析中存在的一个的问题。 针对以上客票营销分析存在的问题,本文以铁路客运为背景,采用IFN(Information-Fuzzy Network)算法建立相应的数据分析模型,并对其进行了深入的研究和实验。IFN算法用互信息度量输入属性,从全局的角度选择较小的输入属性集合,建立比决策树更简洁准确的网络模型,此模型构造的成本低于其他分类算法,可从模型中提取维数较少的输入属性和目标属性间的关联规则。IFN算法中采用的预剪枝的方法是用似然比评估属性在统计上的显着性来判断结点是否分裂,其优点就是在计算资源受限的情况下可以随时停止模型的构造,得到的规则集合比传统算法得到的规则集合更简洁,而且也不会产生过度拟合问题。基于IFN的方法已经被很好地应用在软件测试、时间序列数据库、医学以及制造业等领域。根据IFN算法的这些特点,本文给出了其对实际客票数据进行数据分析时建立的预测分析模型,经实验验证了该方法在改善客票数据分析的综合性能、提高客票营销分析的准确性上的有效性。 研究表明,IFN算法所建立的客票营销分析的预测模型结点数较少,从模型中提取的规则集合规模适宜。相对于ID3算法建立的预测分析模型可以更有效地满足铁路客票营销分析的需求,为客票营销分析进一步的研究工作奠定了良好的基础并提供了一定的理论指导。
汪健雄[9]2012年在《改进的多目标量子遗传算法及其在旅客列车开行方案中的应用》文中研究说明旅客列车开行方案的拟定和优化是铁路旅客运营组织的关键工作,也是复杂的多目标规划问题。随着我国铁路客运专线网络日趋成形,铁路客运专线运输企业也将逐步按照市场化运作,旅客列车开行方案需要满足的目标和标准也呈现复杂化、动态化的趋势;另一方面,旅客对旅行的满意度要求日益提高,对旅客列车开行方案拟定及优化模型提出了更高要求。为解决旅客列车开行方案这一多目标规划问题,本文从多目标优化理论入手进行深入研究,将量子遗传算法进行改进以提出一种求解旅客列车开行方案多目标优化问题的有效、健壮的新算法;同时,系统化的提出了基于社会效益、经济效益和市场效益的多目标优化模型和基于客票系统发售数据的客流预测模型,并结合实际数据进行应用研究和模型算法有效性验证。本文提出的解决方案,对旅客列车开行方案拟定和优化的深入研究具有重要学术意义和参考价值。本文的创新点主要体现在以下四个方面:(1)将基本量子遗传算法与带约束的多目标优化理论进行结合,提出一种改进的多目标量子遗传算法,其改进策略包括引入栅格化归档群体、约束违反度、概率迁移群体等概念和量子交叉操作。通过带约束的多目标优化问题求解,对改进算法的收敛性、分布性和解约束多目标优化问题的性能等方面进行了验证。(2)以旅客列车开行方案研究现状为背景,基于旅客列车开行方案影响因素的全面分析,建立以列车经济效益、社会效益和市场效益最大化的多目标优化模型,使模型的建立更加系统完整并具有可操作性。在社会效益目标中,采用自定义的旅客满意度指标建立客流分配模型,使得客流分配问题在多目标优化模型中作为优化目标统一考虑成为可能。(3)从铁路客运量数据提取时间特征进行双层次特征分析,并基于BP神经网络提出了一种新的双层次正交神经网络模型。其思想是首先使用相对独立的模型对输入特征分别处理,在隐含层输出之后通过Gram-Schmidt变换引入虚拟的投影层,减少预测模型在训练中的冗余网络连接,最后通过合并独立输出来得到预测结果。并将该模型应用于OD客流量预测。(4)将有关模型算法的研究成果实际应用于旅客列车开行方案优化编制。依据OD客流和节点重要度概念拟定初始开行方案,应用改进的多目标量子遗传算法实现旅客开行方案优化,实现了旅客列车开行方案多目标优化模型的直接求解,并实际应用于2015年京沪客运走廊相关路网旅客列车开行方案拟定,同时也验证了该算法能较好的达到求解和优化的目的。
张静[10]2003年在《决策树分类方法及其在铁路客票营销分析中的应用》文中指出随着计算机科学的不断发展,大量的原始数据被不断收集并存储到计算机中,而数据处理能力的低下,造成了目前信息丰富,知识贫乏的现状。数据挖掘——用非平凡的方法从大量数据中发现有用的知识,正是应此要求而迅速发展起来的一门科学。数据挖掘包含众多任务,分类是其中一项被广泛应用的技术。分类经过长期的发展已产生了众多算法,但其中大部分都是内存驻留算法,通常假定数据量很小。随着数据库中数据量越来越大,建立高效的、适用于大型数据库系统的分类算法已成为数据挖掘的一个挑战性问题。 铁路中的客票系统蕴含了丰富的数据信息,如何从这海量的信息中挖掘出有用的知识,是一个亟待研究解决的问题。本文将数据挖掘中的分类技术用于铁路客票营销分析中的客票分类,形成了一种新的分类方法TT_DTC(Decision Tree Classification based on Train Tickets),该方法针对铁路客票的实际特点,采用新的基于文件分割和定量规则的决策树分类算法SF_DT(Decision Tree Classification Algorithm based on Splitting Files)对客票数据进行分析,以达到依据客票属性特征对客票发售及列车运营情况进行分类及预测的目的。该方法被用于客票分析,得出了能够指导列车营运的非平凡模式和决策信息,实现了分类技术与大规模客票数据库系统相结合的一次尝试。 TT_DTC方法以铁路客票数据为基础,以铁路客票营销分析为目的,针对铁路客票信息数据量大、属性复杂、域值广等特点,实现了从数据预处理、决策树生成到规则提取、知识产生等一系列过程。该方法完全适应铁路客票营销分析的需要,能够对客票数据进行较为有效的分析和处理,得出指导铁路营运的决策信息。 SF_DT算法以决策树分类算法ID3的基本思想为基础,用基于文件分割的方法代替原有的基于内存的算法,提高了算法的可规模性,可以处理超大规模的数据。另外,算法还产生了带有统计信息的定量规则,能够清晰地提供主类的分布情况,为数据分析提供了更为详细的信息。 通过研究,我们为分类技术的发展创建了新的应用背景,为其进一步研究奠定了应用基础。另一方面,也将数据挖掘的技术用于铁路客票营销分析,为铁路客运的合理安排及组织管理提供了丰富的决策信息。
参考文献:
[1]. 面向列车客票数据预测分析及特征提取方法的研究[D]. 吕晓艳. 郑州大学. 2004
[2]. 基于决策树的数据建模分析方法及其在铁路中的应用研究[D]. 吕晓艳. 中国铁道科学研究院. 2007
[3]. 基于铁路客票信息的旅客购票行为分析[D]. 邵梦汝. 西南交通大学. 2016
[4]. 武广高速铁路客票大数据应用研究[D]. 龙腾子. 西南交通大学. 2016
[5]. 铁路客票数据挖掘研究[D]. 陆丽花. 中南大学. 2008
[6]. 基于大数据的高速铁路客流分析与辅助决策研究[D]. 黄丽燕. 西南交通大学. 2017
[7]. 基于铁路客票数据的列车等级客流分担率研究[D]. 王莹. 北京交通大学. 2009
[8]. 基于IFN的客票营销分析方法的研究[D]. 李妍琰. 郑州大学. 2006
[9]. 改进的多目标量子遗传算法及其在旅客列车开行方案中的应用[D]. 汪健雄. 中国铁道科学研究院. 2012
[10]. 决策树分类方法及其在铁路客票营销分析中的应用[D]. 张静. 郑州大学. 2003
标签:计算机软件及计算机应用论文; 大数据论文; 高速铁路论文; 大数据营销论文; 铁路等级论文; 数据建模论文; 铁路系统论文; 数据挖掘论文; 决策树论文;