基于文本挖掘的我国统计学领域研究现状分析及热点发现

基于文本挖掘的我国统计学领域研究现状分析及热点发现

论文摘要

本文基于文献的描述计量、文本挖掘等定性定量分析技术,针对我国统计学领域的高水平研究文献,分析统计学领域的研究现状、研究热点,进而从整体描绘我国统计学领域的理论方法及应用领域的研究态势,为后续的研究者能够准确把握统计学领域最新的发展动向提供参考。文中首先利用python爬虫技术获取统计学领域2016年至2018年的高水平文献4605篇。其中博硕士论文2607篇;国内统计学领域影响因子大于1的北大核心期刊《统计研究》和《数理统计与管理》中刊载的文献802篇;在Web of Science数据库中,中国学者发表在国外的被SCI收录的影响因子大于1的统计学领域中的期刊中的外文文献1196篇。然后对文献数据进行预处理。包括删除缺失关键词和摘要的文献;删除与统计学研究无关的文献;文献数据中的英文统一为小写;语义相同的关键词统一化以及文献摘要的分词。其次运用文献的描述计量方法对文献数据进行描述分析,得到我国统计学领域的研究现状:中文文献数量递减,英文文献数量递增;高校是统计学研究的主力军;期刊文献的引用率远高于学位论文等。接着运用共词分析方法以年为时间节点对文献关键词进行了聚类分析,得到国内统计学领域近三年的主要研究内容涉及经济、民生、大数据、统计方法研究和数据处理。展现了统计学中的方法的结合使用情况,以及研究内容的变化情况。同时将国内外发表的文献进行对比分析,可以发现外文文献更加侧重于理论研究,中文文献更加注重实际应用。最后运用LDA主题模型,以文献摘要为分析对象,对统计学领域研究热点进行识别和分析,发现统计学领域研究的十二个热点问题。对比中文期刊文献和外文期刊文献研究热点,发现中文文献以经济发展和民生问题为主要的研究方向,英文文献以社会问题和环境问题为主要的研究内容。以年为时间节点展示了我国统计学领域近三年的研究热点的变化情况。

论文目录

  • 摘要
  • abstract
  • 第1章 引言
  •   1.1 研究背景及意义
  •   1.2 国内外研究现状
  •     1.2.1 统计学发展历史和趋势研究
  •     1.2.2 文本挖掘技术应用研究
  •     1.2.3 文本挖掘在统计学发展历史和趋势研究中的应用
  •     1.2.4 研究现状评述
  •   1.3 本文特色
  •   1.4 主要研究内容
  • 第2章 数据获取与预处理
  •   2.1 数据来源
  •   2.2 数据预处理
  •     2.2.1 期刊文献数据的筛选
  •     2.2.2 英文大小写统一化处理
  •     2.2.3 统计术语统一化处理
  •     2.2.4 文献摘要的分词
  • 第3章 文献的基本信息描述
  •   3.1 学位论文的基本信息描述
  •     3.1.1 论文数量描述
  •     3.1.2 论文来源单位统计
  •     3.1.3 论文被引用情况分析
  •   3.2 中文期刊文献的基本信息描述
  •     3.2.1 文献数量描述
  •     3.2.2 期刊基金论文比分析
  •     3.2.3 文献被引用情况分析
  •     3.2.4 核心作者群分析
  •     3.2.5 文献第一作者所属单位统计
  •   3.3 英文期刊文献的基本情况描述
  •     3.3.1 文献数量描述
  •     3.3.2 文献被引用情况分析
  •     3.3.3 核心作者群分析
  •   3.4 小结
  • 第4章 基于关键词的研究现状和热点描述
  •   4.1 关键词词频分析
  •     4.1.1 学位论文关键词词频分析
  •     4.1.2 中文期刊文献关键词词频分析
  •     4.1.3 英文期刊文献关键词词频分析
  •   4.2 关键词共词分析
  •     4.2.1 共词分析介绍
  •     4.2.2 学位论文关键词共词分析
  •     4.2.3 中文期刊文献关键词共词分析
  •     4.2.4 英文期刊文献关键词共词分析
  •   4.3 小结
  • 第5章 基于摘要的LDA主题发现
  •   5.1 LDA模型介绍
  •   5.2 研究热点的主题识别
  •     5.2.1 LDA模型中参数的解释以及确定方法
  •     5.2.2 基于文献摘要的主题识别
  •   5.3 研究热点的合并
  •   5.4 研究热点的演变
  •   5.5 小结
  • 结论
  • 参考文献
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 韩书彩

    导师: 朱梅红

    关键词: 文本挖掘,共词分析,爬虫,统计学

    来源: 首都经济贸易大学

    年度: 2019

    分类: 基础科学,社会科学Ⅱ辑

    专业: 数学,社会学及统计学

    单位: 首都经济贸易大学

    分类号: C8

    DOI: 10.27338/d.cnki.gsjmu.2019.000886

    总页数: 62

    文件大小: 5894K

    下载量: 124

    相关论文文献

    • [1].基于文本挖掘的电商评论情感分析[J]. 产业与科技论坛 2020(02)
    • [2].智能时代的教育文本挖掘模型与应用[J]. 现代远程教育研究 2020(05)
    • [3].文本挖掘领域研究现状与趋势分析[J]. 武汉船舶职业技术学院学报 2018(02)
    • [4].文本挖掘在药物靶位研究中的应用[J]. 中华医学图书情报杂志 2017(03)
    • [5].文本挖掘重点技术研究[J]. 漯河职业技术学院学报 2015(05)
    • [6].让标点符号教学“厚实”起来[J]. 福建基础教育研究 2016(12)
    • [7].基于文本挖掘的商学院数字创新课程研究[J]. 当代教研论丛 2017(04)
    • [8].文本特征提取研究现状分析与展望[J]. 科技创新与品牌 2017(04)
    • [9].基于文本挖掘的不同层次大学生英语作文的词汇和主题特征分析[J]. 英语研究 2017(01)
    • [10].基于文本挖掘的电子商务市场表现研究[J]. 科学中国人 2017(12)
    • [11].文本图表示模型及其在文本挖掘中的应用[J]. 情报学报 2013(12)
    • [12].基于文本挖掘的5G技术研究热点分析[J]. 科技管理研究 2020(19)
    • [13].基于文本挖掘的社会资本与大学生就业质量的关联性研究[J]. 社会保障研究 2018(04)
    • [14].基于疾病数据库的文本挖掘工具对比研究[J]. 中华医学图书情报杂志 2018(06)
    • [15].基于云计算的海量文本挖掘关键技术研究[J]. 信息与电脑(理论版) 2014(16)
    • [16].基于文本挖掘的国外移动图书馆研究热点分析[J]. 内蒙古科技与经济 2018(19)
    • [17].基于聚类分析的国内文本挖掘热点与趋势研究[J]. 情报学报 2019(06)
    • [18].谈小学语文教学“文本挖掘”的几个层面——从人教版小学语文第十册《草原》说起[J]. 中国农村教育 2019(24)
    • [19].基于文本挖掘的论坛热点问题时变分析[J]. 软件 2017(04)
    • [20].文本挖掘口角升温[J]. 世界科学 2013(05)
    • [21].基于文本挖掘法的北京市家庭医生评价体系构建及实证研究[J]. 中国全科医学 2020(25)
    • [22].基于文本挖掘和复杂网络的中美电商专利比较研究[J]. 情报杂志 2019(06)
    • [23].大数据环境下的文本挖掘教学内容探讨[J]. 无线互联科技 2018(09)
    • [24].主题模型在临床文本挖掘中的应用现状[J]. 医学信息学杂志 2018(05)
    • [25].自动术语识别——对科技文献进行文本挖掘的重要技术方法[J]. 现代图书情报技术 2008(08)
    • [26].语义文本挖掘算法优化研究[J]. 山东工业技术 2018(07)
    • [27].基于文本挖掘的形态分析方法的关键问题[J]. 图书情报工作 2012(04)
    • [28].基于专利文本挖掘的科技文化产业技术发展趋势研究[J]. 科技进步与对策 2019(23)
    • [29].中文文本挖掘的流程与工具分析[J]. 科技创新导报 2019(19)
    • [30].在线评论文本挖掘对电商的影响研究[J]. 中国商论 2018(33)

    标签:;  ;  ;  ;  

    基于文本挖掘的我国统计学领域研究现状分析及热点发现
    下载Doc文档

    猜你喜欢