结构化数据论文_余斌,李晓风,赵赫

导读:本文包含了结构化数据论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:结构化,数据,算法,启发式,区块,档案馆,数据管理。

结构化数据论文文献综述

余斌,李晓风,赵赫[1](2019)在《基于区块链存储扩展的结构化数据管理方法》一文中研究指出研究基于区块链存储扩展的结构化数据管理方法,解决目前在区块链存储方面存在的容量扩展、存储结构扩展等问题.通过节点动态组网、DHT通信协议,网络中节点仅需存储部分数据,实现数据的存储、查询管理;通过数据签名及定时验证,保障数据安全存储及查询;本地数据库存储结构化数据,扩展业务数据管理.实验结果表明,该方法实现了结构化数据的区块链存储扩展管理,充分利用了节点的网络资源,降低了节点存储压力,提升了数据存储、查询效率,进一步促进区块链应用的开发.(本文来源于《北京理工大学学报》期刊2019年11期)

李松涛[2](2019)在《基于Kudu的结构化数据存储方案设计分析》一文中研究指出本文主要围绕以Kudu为基础结构化的数据存储整体方案设计开展深入地研究探讨,希望能够为今后方案设计及完善相关实践工作的有效进展提供建议参考。(本文来源于《数字技术与应用》期刊2019年10期)

卢淑祺,窦志成,文继荣[3](2019)在《手术病例中结构化数据抽取研究》一文中研究指出目前的手术病例都是以文本的方式记录的.这些文本中包含了大量对日后分析和挖掘有用的信息.通过对大量手术文本进行分析,对手术病例进行数据化和结构化,医院可以对整体病情趋势进行把握并挖掘大量对诊断有用的信息.而在针对具体病人确定手术方案时,也往往需要分析病人的历史病历,根据以前的手术情况来确定新的诊断方案.尤其对于肺部或胸腔的手术来说,确定历史手术的出血量、切除部位、切口数目以及切除范围等内容对医生制定新的手术方案具有重要意义.从历史病例中自动抽取出这些信息,将有效节省医生阅读病例的时间,进而可以让医生把更多的时间用于诊疗方案的制定上.本文重点研究胸腔手术病例中切口数量抽取问题.针对手术病例中并不直接包含切口数量以致无法直接抽取的难点,本文将切口数量抽取问题转换为文本分类问题.基于文本分类的思想,首先针对病例文本中的句子着手研究,先对文本进行分句处理,选择包含切口信息的句子作为切口描述句,并基于双向LSTM(长短期记忆神经网络,Long Short Term Memory)神经网络与Attention(注意力)机制构建分句切口数目提取模型,逐个判定文本中切口描述句所记录的切口数目,最后累加切口数目.此后本文进一步构建层次化切口数目提取模型,首先针对单个句子构建双向LSTM网络作为句子层,并对句子层的输出再次进行过滤作为段落层的输入,构建LSTM神经网络作为段落层,段落层的最终输出降维得出分类结果.实验结果表明,两种切口数目判定方法准确率均可达到98%,超出其他的多种文本分类模型如SVM(支持向量机)以及卷积模型(TextCNN),且后者可拓展性与整体性更佳.(本文来源于《计算机学报》期刊2019年12期)

蒋术[4](2019)在《基于非结构化数据管理平台的企业数字档案馆建设研究》一文中研究指出近年来,越来越多的企业开始建设数字档案馆,旨在集中统一管理企业数字信息资源,尤其是2017年国家档案局发布《企业数字档案馆(室)建设指南》后,企业数字档案馆建设可谓如火如荼。经过近两年数字档案馆建设实践,笔者发现通过传统的做接口归档的数字档案馆建设模式存在很多问题,已经不再适合企业数字档案馆建设实际。为有效解决现存问题,本文提出了一种基于非结构化数据管理平台的数字档案馆建设模式。(本文来源于《档案天地》期刊2019年10期)

丁国浩,徐辰,钱卫宁[5](2019)在《面向日志结构化数据存储的高效数据加载》一文中研究指出近年来,随着互联网技术的快速发展,无论是互联网企业还是传统的金融机构,用户量和业务处理数据量都在快速地增长.传统的通过增加服务器并采用基于分库分表的方法来解决扩展性问题,需要大量的人工维护成本和硬件开销.为降低开销和分库分表带来的各种问题,业界通常用新型数据库系统替换原有的系统,其中,基于日志结构合并树存储的数据库系统(如OceanBase)被广泛采用,这类系统磁盘上存储数据块呈现全局有序的特征.在从传统数据库切换到新型数据库过程中,需要将大量数据加载到新数据库系统中,长时间加载的过程中可能出现数据库节点宕机.为了减少总加载时间和故障恢复时间,提出了一种负载均衡且支持高效容错的数据加载方法;为了支持负载均衡的数据加载,与预确定分区划分数据的方法不同,考虑到目标系统默认存储块大小,采用通过基于文件大小和目标系统默认存储块大小预计算分区数目,并利用分库分表的数据导出往往已经排序的特点,采用选取部分采样块和等间隔选取样本的方式确定分区之间的切分点,避免了全局采样和随机或头部样本选取方式确定切分点带来的高开销;为了加快故障恢复速度,利用日志结构合并树存储系统的多备份减少故障恢复时的数据量,提出了基本副本局部故障恢复方式,避免了完全重新加载的故障恢复方式.实验结果表明,相比采用预确定分区数目和全局选取采样块的随机或头部选取样本方法,采用预计算分区数目和部分选取采样块的等间隔选取样本确定切分点的方法,提高了数据加载的性能,并且验证了基于副本局部故障恢复方法相比完全重启加载恢复方法的高效性.(本文来源于《华东师范大学学报(自然科学版)》期刊2019年05期)

高明,陆宏治,梁雪青[6](2019)在《电力系统非结构化数据处理方法研究》一文中研究指出本文首先简述了非结构化数据的背景以及电力系统非结构化数据的特点,然后阐述了对非结构化数据挖掘利用时所遇到的问题,回顾了电力系统不同应用层面非结构化数据的处理方法及优缺点。在此基础上,从非结构化数据处理中的数据提取、数据过滤、数据转化和利用方面进行归纳和分析。最后根据电力系统战略规划,提出了未来非结构化数据处理的发展方向。(本文来源于《现代信息科技》期刊2019年17期)

朱林,郎乾雯,胡劲蓓[7](2019)在《大规模非结构化数据资源快速存储方法仿真》一文中研究指出研究一种有效的数据资源快速存储方法,可以减少丢包率,保证存储的稳定性,提高数据存储速度,具备一定的应用价值。针对传统的非结构化数据资源快速存储模式存在能耗均衡性较差、存储延时较长和丢包率较高等问题,提出基于海量存储云调制的非结构化数据资源快速存储方法,该方法将多类别非结构化数据资源集合作为输入,对特征要素进行阈值处理,输出大规模非结构化数据资源关联模型。根据关联模型得到数据资源储存适应的关联强度,将强度与频宽占用概率进行非结构化数据资源储存控制,调节非结构化数据的粒度,依照最小传输粒度频宽梯度传输,加快大规模非结构化数据资源快速存储。通过实验结果验证,上述方法可降低存储延时、减少存储丢包率、保证存储能耗的均衡性,提高大规模非结构化数据资源的存储效率。(本文来源于《计算机仿真》期刊2019年08期)

彭染姝,宋婕[8](2019)在《基于Android的样地每木检尺结构化数据语音输入App的设计与实现》一文中研究指出针对传统样地每木检尺手动数据录入效率低下的问题,提出设计基于Android系统的支持结构化数据语音录入的APP,改善林业资源数据收集手段,提高数据采集效率。从业务和系统功能分别进行了需求分析,提出了系统设计架构,并对相关功能模块进行具体设计与实现。(本文来源于《信息系统工程》期刊2019年07期)

郑月锋[9](2019)在《面向结构化数据的启发式混合特征选择方法研究》一文中研究指出随着社会的进步和科技的快速发展,人们生活生产的众多领域产生了大量纷繁冗杂的数据。通过降低收集数据维度的方法达到消除冗余的数据的要求。常用到的降维方法有特征选择和特征提取。因特征选择没有改变原始特征的信息而被广泛应用在寻找最优特征子集领域。特征选择的基本方法有包裹式特征选择方法和过滤式特征选择方法。包裹式特征选择方法具有分类准确率高和时间复杂度高的特点。过滤式特征选择方法具有时间复杂度低的特点。一种特征选择方法无法满足人们逐渐提高的分类准确率要求,两种方法联合起来形成混合式特征选择方法提供了新的解决方案。混合式特征选择方法在应用过程中存在分类准确率待提高、数据高维、候选特征子集单一、相关性和冗余性比重相同四个问题。为解决混合式特征选择方法存在的以上问题,本文提出叁个混合式特征选择算法,每个算法的具体内容如下。(1)针对问题一和问题四,采用嵌入式特征选择方法,提出最大斯皮尔曼最小协方差布谷鸟算法(MSMCCS)。在新算法中,过滤算法嵌入到包裹算法中。首先,基于斯皮尔曼和协方差,提出MSMC过滤算法。其次,在MSMC中引入叁个参数,用来动态调节相关性和冗余性的权重,提高特征子集相关性并降低其冗余性。第叁,修改布谷鸟优化算法中的位置更新策略,提高算法的收敛速度,根据权重结合策略选出候选特征子集,采用交叉变异思想调整候选特征子集。最后,过滤掉的特征有机会进入最优的特征子集,提高分类准确率。实验结果表明提出的算法有很快的收敛速度并且分类准确率明显好于其他10种算法。(2)针对微阵列数据的高维问题,采用并列式混合特征选择方法,提出k值最大相关最小相冗改进的灰狼优化算法(KMR2IGWO)。首先,根据最大相关最小相容算法在数据集中选择K个最优的基因。其次,通过随机方法和不同比重特征数量方法对K个基因组成的数据集初始化。最后,通过调整适应度函数的参数和更改位置更新策略,选择具有最优分类准确率和最短长度的基因组合。实验结果表明提出的算法在14个数据集上降维的效果非常明显,特征的数量降到原来的0.4%~0.04%。(3)针对问题叁和问题四,提出一种阈值调节的并列式混合特征选择算法,称为最大皮尔森最大距离改进的鲸鱼优化算法(MPMDIWOA)。首先,基于皮尔森相关系数和相关距离,提出一种名为最大皮尔森最大距离(MPMD)的过滤算法。在MPMD中引入两个参数来调整相关性和冗余性的权重。其次,在鲸鱼优化算法中,使用投票法跳出局部最优。第叁,提出备二弃一法的初始化方法。第四,提出最大值无变化次数(MVWC)和阈值的概念,通过调节阈值,过滤算法提供多个候选特征子集,包裹算法在众多候选特征子集中寻找到最优的分类准确率。实验结果说明在大部分数据集上MPMDIWOA算法的分类准确率高于其它算法。综上所述,本文以包裹式和过滤式特征选择方法为基础,以混合式特征选择方法为研究内容,围绕候选特征子集的产生和最优特征子集的挑选展开研究工作。(本文来源于《吉林大学》期刊2019-06-01)

田兵,严文涛,李明,殷齐林,郭爽爽[10](2019)在《海量结构化数据实时恢复技术研究》一文中研究指出数据恢复是保护数据安全的重要途径之一,但是随着需要恢复数据的增多,传统数据恢复技术不仅恢复速度慢,数据完整性也不足。针对上述问题,提出基于日志的海量结构化数据实时恢复技术。该技术主要分为两个步骤:数据备份和数据恢复(仅对数据恢复进行重点研究)。首先对数据丢失情况进行缺失检查,然后根据检查结果确定日志文件记录状态,最后对照状态,完后数据完整重构。结果表明:与传统海量结构化数据恢复技术相比,基于日志的海量结构化数据实时恢复技术的恢复完整性提高了20%,数据恢复速度提高了3 s,基本达到本次研究的目的。(本文来源于《自动化与仪器仪表》期刊2019年05期)

结构化数据论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文主要围绕以Kudu为基础结构化的数据存储整体方案设计开展深入地研究探讨,希望能够为今后方案设计及完善相关实践工作的有效进展提供建议参考。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

结构化数据论文参考文献

[1].余斌,李晓风,赵赫.基于区块链存储扩展的结构化数据管理方法[J].北京理工大学学报.2019

[2].李松涛.基于Kudu的结构化数据存储方案设计分析[J].数字技术与应用.2019

[3].卢淑祺,窦志成,文继荣.手术病例中结构化数据抽取研究[J].计算机学报.2019

[4].蒋术.基于非结构化数据管理平台的企业数字档案馆建设研究[J].档案天地.2019

[5].丁国浩,徐辰,钱卫宁.面向日志结构化数据存储的高效数据加载[J].华东师范大学学报(自然科学版).2019

[6].高明,陆宏治,梁雪青.电力系统非结构化数据处理方法研究[J].现代信息科技.2019

[7].朱林,郎乾雯,胡劲蓓.大规模非结构化数据资源快速存储方法仿真[J].计算机仿真.2019

[8].彭染姝,宋婕.基于Android的样地每木检尺结构化数据语音输入App的设计与实现[J].信息系统工程.2019

[9].郑月锋.面向结构化数据的启发式混合特征选择方法研究[D].吉林大学.2019

[10].田兵,严文涛,李明,殷齐林,郭爽爽.海量结构化数据实时恢复技术研究[J].自动化与仪器仪表.2019

论文知识图

化合物134a的重要化合物134崖系统架构苯并恶嗪聚合初期的分子结构会计信息资源管理系统的会计信息运动...会计信息资源管理系统总体架构图

标签:;  ;  ;  ;  ;  ;  ;  

结构化数据论文_余斌,李晓风,赵赫
下载Doc文档

猜你喜欢