基于多关系图的学术社团挖掘

基于多关系图的学术社团挖掘

论文摘要

学术社团是某邻域中有共同的研究兴趣及相近的研究方法、联系比较紧密的研究人员所形成的小团体。目前学术社团一般以所在单位、师承关系或者学术活动为分界,形成一个个的学术团体。一名学者想要了解本邻域内其他团体的研究成果,往往需要花费较大的精力和代价去梳理各学术流派及其方法论。这在一定程度影响了学术资源的共享、继承和研究人员之间的交流。因此,高效的学术社团挖掘方法就彰显出其价值。挖掘学术社团的一个传统做法是从论文引用关系入手。论文之间可以有以下几种关系:直接及间接引用关系、耦合关系、合著关系、同引关系等。通过这些关系可以构建出论文引用网络。论文引用网络中节点之间关联度可以用以上几种关系的量化指标来刻画,从而得到一个论文节点之间关联强度的量化表示的论文引用关系网络。在论文网络上按论文作者进行聚合就可以得到关于论文作者的引用关系网络。作者的引用关系网络表征的是作者之间的论文引用关系。另一方面,科研人员共同参加同一个学术会议和论文撰写时的合著现象是天然的学术社团属性,但尚未引起研究人员的重视。考虑到会议论文的作者不一定出席会议,为叙述方便,凡是在同一个学术会议上发表了论文的作者都视为共同参会。共同出现在同一个会议上的作者往往具有相同的研究兴趣,很可能属于同一个学术社团,尽管他们之间可能不存在论文引用关系。因此,作者共同参会的信息对学术社团的精准挖掘起到比较大的作用。基于作者共同参会的信息可以构成作者的共同参会关系网络。作者间的合著现象是一种更为紧密的联系。共同撰写论文的作者往往来自相同或相近的研究邻域,很可能属于同一个学术社团,对学术社团的精准挖掘也会起到作用。基于作者合著的信息可以构成作者的合著关系的网络。共同参会关系网络和合著关系网络都是表征作者之间的一种关联关系。由上可知,作者之间存在着三个关系:论文引用关系、共同参会关系和合著关系。可以利用这些关系构成作者的多关系图。将这三个关系强度进行加权可建立作者之间的关联度的指标。最后,利用作者的关联度通过社团挖掘算法对学术社团进行挖掘。本文使用的社团挖掘算法是基于DBSCAN算法的改进算法。传统的DBSCAN算法需要输入聚类半径和邻域数量2个参数,给算法的应用带来一定的局限性,本文提出了一种基于数据集本身统计信息自动确定参数的改进DBSCAN算法并应用于学术社团挖掘。本文使用DBLP数据库作为实验数据集,DBLP数据记录包含了论文标题,作者,发表年份,发表期刊或会议、参考文献等信息。利用这些信息构建由论文引用关系、共同参会关系和合著关系构成的作者多关系图。通过对作者的这三种关系加权计算得出作者的关联度,最后利用这些作者之间的关联度通过聚类算法进行学术社团挖掘。实验结果表明:改进的DBSCAN算法对于DBLP数据库的学术社团挖掘优于传统的DBSCAN算法;考虑作者共同参会因素和合著因素后的作者关联强度关于学术社团挖掘的效果优于没有考虑共同参会因素和合著因素的效果;考虑作者共同参会因素和合著因素后的作者关联强度关于学术社团划分的簇结构的稳定性更强。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  •   1.1 研究的意义
  •   1.2 研究现状
  •     1.2.1 论文引用网络的研究现状
  •     1.2.2 复杂网络社团划分算法的研究状况
  •     1.2.3 学术社团挖掘的研究状况
  •   1.3 本文的主要工作
  •   1.4 本文组织结构
  • 第二章 相关知识介绍
  •   2.1 多关系图基础知识
  •   2.2 聚类算法分析
  •     2.2.1 层次聚类算法
  •     2.2.2 基于划分的聚类算法
  •     2.2.3 基于密度的聚类算法
  •     2.2.4 基于网格的聚类算法
  •   2.3 聚类效果评估
  •     2.3.1 外部有效性评估
  •     2.3.2 内部有效性评估
  •     2.3.3 相对有效性评估
  •   2.4 本章小结
  • 第三章 基于论文引用、共同参会及合著的多关系图
  •   3.1 论文的基本结构
  •   3.2 论文引用关系介绍
  •   3.3 论文引用关系构成论文关系网络
  •   3.4 论文引用关系转化为作者引用关系
  •   3.5 作者共同参会关系网络
  •   3.6 作者合著关系网络
  •   3.7 作者的多关系图
  •   3.8 本章小结
  • 第四章 DBSCAN算法的改进
  •   4.1 DBSCAN算法
  •   4.2 NEW-DBSCAN算法
  •   4.3 在IRIS数据集上DBSCAN算法和NEW-DBSCAN算法实验比较
  •   4.4 本章小结
  • 第五章 实验步骤和结果分析
  •   5.1 实验概述
  •     5.1.1 实验内容介绍
  •     5.1.2 实验环境介绍
  •   5.2 实验数据集的分析和处理
  •     5.2.1 数据集介绍
  •     5.2.2 数据预处理
  •   5.3 评价指标的选取
  •   5.4 实验结果和分析
  •     5.4.1 传统的DBSCAN与 NEW-DBSCAN算法比较
  •     5.4.2 共同参会关联关系对学术社团挖掘的影响
  •     5.4.3 合著关联关系对学术社团挖掘的影响
  •     5.4.4 共同参会关联关系和合著关联关系共同对学术社团挖掘的影响
  •     5.4.5 共同参会因素和合著因素对学术社团簇结构稳定性的影响
  •   5.5 本章小节
  • 第六章 总结和展望
  •   6.1 论文总结
  •   6.2 展望
  • 参考文献
  • 攻读硕士学位期间取得的研究成果
  • 致谢
  • 附件
  • 文章来源

    类型: 硕士论文

    作者: 张敏仪

    导师: 张平健,潘勇

    关键词: 学术社团挖掘,论文引用关系,共同参会关系,合著关系,改进算法

    来源: 华南理工大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 数学,计算机软件及计算机应用

    单位: 华南理工大学

    分类号: TP311.13;O157.5

    DOI: 10.27151/d.cnki.ghnlu.2019.003286

    总页数: 77

    文件大小: 3296K

    下载量: 27

    相关论文文献

    • [1].学术论文引用预测研究进展[J]. 图书情报工作 2020(06)
    • [2].多角度审视高校论文引用检测系统重要指标之一——引用率[J]. 教育教学论坛 2013(43)
    • [3].关于开放获取论文引用优势的研究综述[J]. 图书情报工作 2009(12)
    • [4].论去除论文引用泡沫——基于客观公正评价科技人才的视角[J]. 情报理论与实践 2013(08)
    • [5].科技期刊论文被学位论文引用的文献计量分析[J]. 中国科技期刊研究 2013(02)
    • [6].科技论文引用对象研究综述[J]. 图书情报工作 2019(23)
    • [7].基于“反向引用”视角的中国专利技术与世界科学关联分析[J]. 图书情报工作 2017(02)
    • [8].基于学术论文全文的研究方法句自动抽取研究[J]. 情报学报 2020(06)
    • [9].CNKI推出《中国高被引图书年报》[J]. 中国钨业 2017(04)
    • [10].2002-2011年中国名航大学本科生毕业论文引用特藏文献类型统计表[J]. 当代图书馆 2013(04)
    • [11].书架[J]. 教育 2009(31)
    • [12].基于学术论文全文的研究方法实体自动识别研究[J]. 情报学报 2020(06)
    • [13].学术论文引用预测及影响因素分析[J]. 图书情报工作 2018(14)
    • [14].领袖著作对我国人文社会科学研究的影响分析[J]. 西南民族大学学报(人文社会科学版) 2012(01)
    • [15].从论文引用的角度看维基百科对中国学术界的影响[J]. 内蒙古科技与经济 2011(10)
    • [16].基于Total-Top论文引用均值的非线性分段评价体系研究[J]. 情报杂志 2017(04)
    • [17].档案学高被引论文引用情感类型分析[J]. 档案管理 2014(04)
    • [18].科技论文引用参考文献的基本要求及在引用中的常见问题[J]. 才智 2011(28)
    • [19].CNKI推出《中国高被引图书年报》[J]. 情报理论与实践 2017(08)
    • [20].基于替代计量学指标的论文引用影响因素分析[J]. 数字图书馆论坛 2020(03)
    • [21].2015年CSSCI来源期刊论文引用《数学教育学报》文献的统计分析[J]. 数学教育学报 2016(02)
    • [22].数字[J]. 青年教师 2013(11)
    • [23].期刊论文被学位论文引用的文献计量学分析[J]. 编辑学报 2018(S1)
    • [24].国标对论文引用期刊与专著“参考文献”著录规则的要求与示例[J]. 西部医学 2015(06)
    • [25].国标对论文引用期刊与专著“参考文献”著录规则的要求与示例[J]. 西部医学 2015(07)
    • [26].国标对论文引用期刊与专著“参考文献”著录规则的要求与示例[J]. 西部医学 2013(12)
    • [27].国标对论文引用期刊与专著“参考文献”著录规则的要求与示例[J]. 西部医学 2014(01)
    • [28].2002-2011年中国民航大学本科生毕业论文引用民航特藏文献统计表[J]. 当代图书馆 2013(04)
    • [29].国标对论文引用期刊与专著“参考文献”著录规则的要求与示例[J]. 西部医学 2013(09)
    • [30].不要玩文章引用游戏[J]. 世界科学 2009(03)

    标签:;  ;  ;  ;  ;  

    基于多关系图的学术社团挖掘
    下载Doc文档

    猜你喜欢