深度神经网络下的规范化地址建设与语义空间模型研究

深度神经网络下的规范化地址建设与语义空间模型研究

论文摘要

随着GIS认知与应用能力的不断提升,地址信息逐步成为智慧城市时代的核心资源,其内容中所承载的语义和空间内涵,更是构建智慧城市中地理本体与时空语义框架的基础支撑。因此,全方位开展地名地址规范化建设与社会化应用研究已成为当前的学术界热点。让计算机从理解地址文本的角度出发,深度提炼地名地址综合特征并形成数值形式的量化表达,使其具有人类认知水平的处理能力,是从根本上实现上述任务的关键前提,对于融合和理解城市语义与空间内容具有重要的理论价值和实践意义。然而当前以非结构化文本管理或地址编码为核心的理论研究,由于无法深入挖掘文本的特征内涵,导致其在任务处理时面临信息孤岛、附加数据依赖、泛化性弱等突出问题,极大限制了地址数据在智慧城市领域内的使用。针对现有地名地址研究中存在的信息特征表达不充分、数据建设工作不深入、应用场景局限的困境,本文综合利用现代人工智能方法的深度神经网络架构,将文本特征提取、地址规范化建设和语义空间融合等任务转化为可量化的深度神经网络模型构建与训练优化问题。以地址中的字符为基本输入单元,设计语言模型将其向量化表达。在此基础上,将地名地址规范化建设的关键技术通过神经网络目标任务加以实现。同时考虑到地名地址空间表达特性,提出地址语义-空间的特征融合方案,设计加权聚类方法与特征融合模型。本研究建立了一套语义表述-规范化-特征融合-下游任务支持的地名地址理论框架和方法体系,并以杭州市上城区和下城区地址数据作为研究对象,进行了核心方法的测试、应用和论证。本文的研究内容概括如下:(1)形成了一套深度神经网络结构下的地名地址语言模型构建理论。考虑字符之间相互影响及上下文语序,以“量化表达每个字符所在语境和位置的语言意义”为目标,提出了基于文本自注意力机制的地址语言模型,设计了具有自学习能力的多层次深度神经网络,建立了适合于地址特点的语言模型参数训练框架,并通过实验论证了该理论方法的有效性,可实现地址文本的语义特征表达。(2)给出了基于地址语言模型的文本数据规范化建设方法的设计与实现。建立了地址无监督分词的深度神经网络结构和训练框架,提出了“微监督”的优化训练方案,并设计了具有自学习能力的复合型地理实体标注方法,以统一规范进行标准地址输出。以地址文本为对象开展实验,论证了该方法在分词、标注及生产方面的准确性与高效性,证明了该工作比以往基于规则、数据库或监督学习的方式具有更强的泛化性。(3)给出了地名地址语义-空间融合理论的定义与设计实现。在地址语言模型和数据规范化基础上,提出了结合语义和空间位置加权的聚类方法,定义地址语义-空间融合模型并构建分类任务训练框架,实现了模型参数的语义-空间融合,并设计了地理编码回归的下游任务进行验证。实验以地址文本及其空间坐标为对象,充分证明了本理论的可行性与有效性,并论证了该空间语义模型能够统一任务框架,有效地结合地址文本语义和空间坐标信息,显著降低如空间位置预测等下游任务的计算误差。本文研究有望实现地名地址信息规范化、数值化、空间化、智能化建模方法的理论创新与模型突破,提升地名地址建设和应用的操作效率和泛化能力,促进智慧城市空间信息建设体系方法的研究与发展。

论文目录

  • 致谢
  • 摘要
  • Abstract
  • 术语缩写表
  • 1 绪论
  •   1.1 研究背景与意义
  •   1.2 国内外现状
  •     1.2.1 地址规范化建设方法研究
  •     1.2.2 自然语言建模方法研究
  •     1.2.3 存在问题与不足
  •   1.3 研究目的
  •   1.4 研究内容
  •   1.5 论文组织与章节安排
  • 2 地名地址语义特征表达研究
  •   2.1 深度神经网络下的语义表达方法
  •     2.1.1 深度神经网络方法理论
  •     2.1.2 自然语言自注意力机制理论
  •     2.1.3 神经网络语言模型结构
  •   2.2 地名地址语言模型设计
  •     2.2.1 基于多头自注意力的语义特征提取
  •     2.2.2 位置顺序加权的字符向量化表达
  •     2.2.3 未知字符预测的目标任务
  •     2.2.4 整体模型结构
  •   2.3 地名地址语言模型训练框架
  •     2.3.1 随机屏蔽策略的自然语言训练方案
  •     2.3.2 模型输入与超参数构造
  •     2.3.3 目标函数与损失函数
  •     2.3.4 神经网络优化器设计
  •     2.3.5 模型语义输出
  •   2.4 实验设计与模型验证
  •     2.4.1 实验设计
  •     2.4.2 实验结果分析
  •   2.5 本章小结
  • 3 地址文本的规范化建设研究
  •   3.1 复合神经网络的地址分词语言模型
  •     3.1.1 相关神经网络介绍
  •     3.1.2 复合神经网络结构设计
  •   3.2 无监督分词训练框架
  •     3.2.1 最大化地址文本生成概率的训练方案
  •     3.2.2 目标函数与损失函数
  •     3.2.3 模型输入与超参数构造
  •     3.2.4 分词结果输出
  •   3.3 微监督分词优化策略
  •   3.4 地理实体标注与文本标准化
  •     3.4.1 自学习的复合词性标注方法
  •     3.4.2 TRIE树规范下的地址标准化
  •   3.5 实验设计与模型验证
  •     3.5.1 实验设计
  •     3.5.2 实验结果分析
  •   3.6 本章小结
  • 4 地名地址语义-空间特征融合研究
  •   4.1 地址语义-空间加权聚类方法
  •     4.1.1 地址文本语义向量表达
  •     4.1.2 K-Means聚类理论
  •     4.1.3 高维特征融合聚类方法
  •   4.2 地址语义-空间融合建模
  •     4.2.1 深度神经网络模型微调理论
  •     4.2.2 语义-空间加权建模与训练
  •   4.3 空间坐标预测的下游验证任务
  •   4.4 实验设计与分析
  •     4.4.1 实验设计
  •     4.4.2 实验结果分析
  •   4.5 本章小结
  • 5 总结与展望
  •   5.1 研究总结
  •   5.2 研究特色与创新
  •   5.3 研究展望
  • 参考文献
  • 作者简历
  • 文章来源

    类型: 博士论文

    作者: 毛瑞琛

    导师: 张丰

    关键词: 地址文本语义表达,地址规范化建设,语义空间特征融合,深度神经网络,语言模型

    来源: 浙江大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 自然地理学和测绘学,计算机软件及计算机应用,自动化技术

    单位: 浙江大学

    分类号: TP183;P208

    DOI: 10.27461/d.cnki.gzjdx.2019.000638

    总页数: 170

    文件大小: 12973K

    下载量: 196

    相关论文文献

    • [1].基于优化神经网络的地质灾害监测预警仿真[J]. 计算机仿真 2019(11)
    • [2].基于进化神经网络的304不锈钢车削加工表面粗糙度预测[J]. 轻工机械 2019(06)
    • [3].时频联合长时循环神经网络[J]. 计算机研究与发展 2019(12)
    • [4].几种典型卷积神经网络的权重分析与研究[J]. 青岛大学学报(自然科学版) 2019(04)
    • [5].基于GA-BP神经网络异纤分拣机检测参数优化[J]. 棉纺织技术 2020(01)
    • [6].基于集成神经网络的织物主观风格预测研究[J]. 纺织科技进展 2020(01)
    • [7].试析神经网络技术在机械工程中的应用及发展[J]. 网络安全技术与应用 2020(02)
    • [8].一种深度小波过程神经网络及在时变信号分类中的应用[J]. 软件 2020(02)
    • [9].不同结构深度神经网络的时间域航空电磁数据成像性能分析[J]. 世界地质 2020(01)
    • [10].基于深度神经网络的航班保障时间预测研究[J]. 系统仿真学报 2020(04)
    • [11].基于生成对抗网络和深度神经网络的武器系统效能评估[J]. 计算机应用与软件 2020(02)
    • [12].基于循环神经网络的双轴打捆机智能换挡策略研究[J]. 安徽工程大学学报 2020(01)
    • [13].基于图神经网络的实体对齐研究综述[J]. 现代计算机 2020(09)
    • [14].基于改进的循环神经网络深度学习跌倒检测算法[J]. 电脑编程技巧与维护 2020(03)
    • [15].神经网络探索物理问题[J]. 物理 2020(03)
    • [16].基于GA-BP神经网络的城市用水量预测[J]. 现代电子技术 2020(08)
    • [17].基于深度神经网络的药物蛋白虚拟筛选[J]. 软件工程 2020(05)
    • [18].基于轻量级神经网络的人群计数模型设计[J]. 无线电工程 2020(06)
    • [19].高效深度神经网络综述[J]. 电信科学 2020(04)
    • [20].含磁场耦合忆阻神经网络放电行为研究[J]. 广西师范大学学报(自然科学版) 2020(03)
    • [21].基于神经网络及特征运算的老年人平衡能力分析[J]. 重庆工商大学学报(自然科学版) 2020(04)
    • [22].神经网络技术在机械工程中的应用及发展探析[J]. 科技创新与应用 2020(18)
    • [23].基于竞争神经网络的变电站巡视周期分类[J]. 科技创新与应用 2020(18)
    • [24].基于双向循环神经网络的语音识别算法[J]. 电脑知识与技术 2020(10)
    • [25].结合相似日与改进神经网络的短期光伏发电预测[J]. 广西电业 2020(04)
    • [26].基于神经网络的流感大数据分析[J]. 中华医学图书情报杂志 2020(03)
    • [27].长短时记忆神经网络在地电场数据处理中的应用[J]. 地球物理学报 2020(08)
    • [28].基于门控循环单元神经网络的公交到站时间预测[J]. 南通大学学报(自然科学版) 2020(02)
    • [29].鼠脑神经网络的同步辐射3D成像研究[J]. 核技术 2020(07)
    • [30].基于长短记忆神经网络的短期光伏发电预测技术研究[J]. 华北电力大学学报(自然科学版) 2020(04)

    标签:;  ;  ;  ;  ;  

    深度神经网络下的规范化地址建设与语义空间模型研究
    下载Doc文档

    猜你喜欢