导读:本文包含了网页分割论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:网页,结构,最优,算法,信息,样式,图像。
网页分割论文文献综述
李进生,乐惠骁,童名文[1](2018)在《基于标题机器学习的网页分割方法》一文中研究指出针对已有网页分割方法都基于文档对象模型实现且实现难度较高的问题,提出了一种采用字符串数据模型实现网页分割的新方法。该方法通过机器学习获取网页标题的特征,利用标题实现网页分割。首先,利用网页行块分布函数和网页标题标签学习得到网页标题特征;然后,基于标题将网页分割成内容块;最后,利用块深度对内容块进行合并,完成网页分割。理论分析与实验结果表明,该方法中的算法具有O(n)的时间复杂度和空间复杂度,该方法对于高校门户、博客日志和资源网站等类型的网页具有较好的分割效果,并且可以用于网页信息管理的多种应用中,具有良好的应用前景。(本文来源于《计算机科学》期刊2018年S1期)
贾柯祯[2](2018)在《基于文档对象模型和图像处理的网页分割方法》一文中研究指出随着互联网技术的发展,Web应用成为了人们日常生活中不可或缺的一部分。大量Web应用以网页为载体,通过浏览器呈现给用户,并与用户进行交互。然而,由于浏览器种类的多样性,不同的浏览器对于相同网页的解释可能不同。这导致相同网页在不同浏览器上的渲染出现差异。当这些差异影响用户体验时,我们称之为兼容性问题。现存的跨浏览器兼容性测试通常先对网页进行分割,再对每个分割进行检查。其中大部分使用文档对象模型,有些也运用图像处理技术。结合基于文档对象模型和基于图像的方法,提出一种新的网页分割方法。该方法得到的网页分割更合理,且计算开销更小。(本文来源于《现代计算机(专业版)》期刊2018年08期)
冯瀚洋[3](2017)在《基于半监督结构学习的网页分割》一文中研究指出网页分割旨在按照人眼视觉感知网页布局结构的方式,将网页划分为不同类型的信息区、功能块。现有的分割算法或采用启发式规则判断或构建机器学习模型识别网页区块,启发式规则多着眼于网页的局部特征,并未对网页的整体结构进行全面的分析,而基于监督学习的网页分割算法依赖于有标记样本的数量和质量,在样本较少的场景下难以取得较好的泛化性能。针对这些缺点,本文提出了一种基于半监督结构学习的网页分割方法,通过构建网页对应的分割图,将网页分割任务转化为分割图上的标记指派问题,利用0-1整数线性规划在分割图上求解最优标记分配策略,并通过协同结构支持向量机模型学习得到网页联合特征表示的权重向量,进而更好地解决网页分割问题。本文的工作主要包括叁个方面:1)综述分析现有的网页分割方法的优势与不足,针对多数算法着眼于局部未对网页整体结构进行分析的情况,本文构建网页对应的分割图结构,图中的顶点为网页的虚拟分割边,顶点之间的有向连接反映了分割边的依赖关系,基于分割图,将网页分割任务转化为分割图上的标记指派问题,建立结构学习模型求解最优解。2)针对结构学习问题涉及的联合特征表示、标签推理、参数学习叁个方面,本文抽取了分割图节点的局部特征、上下文特征两类特征群,构建分割图与对应标记的联合特征表示;将分割图上的标签推理转化为0-1整数线性规划问题,通过求解其对应的线性规划松弛问题得到原问题的最优解;提出协同结构支持向量机算法,通过训练多个分歧的结构支持向量机模型,利用多学习器集成的优势,共同决策得出最优分割方案。3)在搜集的网页分割数据集上,评估基于协同支持向量机的网页分割方法与传统的结构支持向量机模型分割得到的网页分割块的准确度,同时与现有的网页分割算法做比较,实验表明:基于协同结构支持向量机的网页分割方法能很好地利用未标注的网页样本,提升网页分割算法性能,同时,该方法也优于其他对比的网页分割方法。(本文来源于《南京大学》期刊2017-05-26)
张佳敏[4](2016)在《利用网页区域分割的聚焦爬虫算法研究》一文中研究指出随着互联网上数据的增长,通用的搜索引擎无法满足不同背景用户对于不同主题查全率的需求,垂直搜索引擎能够聚焦于特定的主题,更全面地抓取和检索与主题相关的网页。垂直搜索引擎在各个领域都得到了广泛的应用,聚焦爬虫是垂直搜索引擎的核心,成为近年来一个热门的研究课题。聚焦爬虫需要抓取与主题相关的网页,计算和预测网页与主题的相关度是它的核心,主要包含叁个方面:网页解析、网页相关度计算和链接优先度计算。在网页解析方面,提出了基于网页区域分割的正文抽取算法,该方法利用网页中重复的标签格式将网页划分为多个区域,利用区域的结构特征过滤噪声区域,基于网页正文标题的位置和区域文本特征确定正文区域。在计算网页的主题相关度时,使用分类算法,分别基于URL和标签文本训练分类器,利用投票法将分类器的分类结果结合起来。在计算链接的优先度时,按照网页分类的结果将与主题无关的网页过滤,针对主题相关的网页,对该网页中的区域继续进行分类,过滤掉主题无关的区域,结合网页的链接结构信息和区域分类的结果计算链接的优先度。实验结果表明,提出的基于网页区域分割的正文抽取算法能够准确地识别出网页正文区域,具有较高的准确率和召回率,;结合URL特征和网页标签特征能够提高网页的主题相关度计算的准确性;结合区域的相关度和网页的链接结构信息,提高了爬虫的性能。要进一步提高聚焦爬虫的性能,下一步的研究是考虑对分类器进行增量训练并加快分类的速度。(本文来源于《华中科技大学》期刊2016-05-01)
李文昊,彭红超,童名文,石俊杰[5](2015)在《基于视觉特征的网页最优分割算法》一文中研究指出网页分割技术是实现网页自适应呈现的关键。针对经典的基于视觉的网页分割算法VIPS(Vision-based Page Segmentation Algorithm)分割过碎和半自动的问题,基于图最优划分思想提出了一种新颖的基于视觉的网页最优分割算法VWOS(Vision-based Web Optimal Segmentation)。考虑到视觉特征和网页结构,将网页构造为加权无向连通图,网页分割转化为图的最优划分,基于Kruskal算法并结合网页分割的过程,设计网页分割算法VWOS。实验证明,与VIPS相比,采用VWOS算法分割网页的语义完整性更好,且不需要人工参与。(本文来源于《计算机科学》期刊2015年11期)
彭红超[6](2014)在《一种基于视觉的网页分割技术及应用研究》一文中研究指出CNNIC第33次中国互联网络发展状况统计报告显示,仅5年时间,手机网民由1.78亿猛增至5亿人,占总体网民81.0%,并保持稳定增长趋势,由此可知手机网民已成为稳定增长的庞大用户群体。而手机屏幕尺寸和运算能力的局限性,导致手机浏览器无法正常呈现、甚至无法打开针对PC设计的Web网页。随着微电子技术与移动通信技术的迅速发展,该矛盾日益突出和尖锐。针对该问题,提出VWS技术,以解决手机浏览器无法准确、高效地显示Web网页问题,从而提高用户体验。VWS技术从视觉角度标识网页中内容块的特征,之后基于最优化理论,把网页分割看作分组最优化问题,将网页分割为语义完整且适合手机显示的子页网。最后,选取特定子页作为首页推送给用户,用户可根据需要切换浏览各子页。该技术创新地提出网页预处理算法,将网页内容与样式信息进行融合,实现样式信息充分、高效地利用;创新地依据人类视觉特征从六个维度描述内容块视觉特征,并定义内容块在视觉特征方面的相似度计算公式,之后设计神经网络直接确定公式中每个维度的权值,此权值直接确定法较专家经验法真实、客观,比传统神经网络权值确定法高效、逼真;创新地将网页分割看作分组最优化问题,并基于最优化理论中的Kruskal算法设计网页分割算法。在确保手机正常显示的前提下,实现各子页中内容块间的相似度最大化,提高了各子页中内容块间的语义的相关性与完整性。ECs中含优质数字化学习资源高达125.64万,随着非正式学习理论在我国迅速流行加之手机的便捷性,越来越多的学习者希望通过手机访问ECs网页。因此,可以将VWS技术应用于ECs中,并以ECs为实验对象验证VWS技术的可行性,借此解决ECs网页在手机浏览器中的显示问题,增加ECs的访问渠道,从而促进精品课程的建设与发展。实验中随机选取100个不同的ECs网站,在每个网站中随机获取一个网页,采用VWS技术与VIPS技术分割得到的100个ECs网页,并对分割结果进行定性实验与定量实验。分析结果表明,VWS技术可出色地完成Web网页分割,实现针对PC端设计的网页在手机中的正常显示,并且具有较好的用户体验。(本文来源于《华中师范大学》期刊2014-05-01)
柳培忠,宁欣,李卫军[7](2014)在《一种网页图像文字分割方法》一文中研究指出针对复杂网页图像中文本的特点,提出了一种基于最大类间差法(OTSU)的文字分割方法。对原文字图像进行预处理,统一了分割后字符的颜色、去除了大量的噪声、提高了图像的对比度;在全局阈值的基础上确定了各字符区域的位置;利用局部最优阈值对文字图像进行局部分割。实验结果表明,方法在保证较高准确率的基础上,提升了分割后字符的效果,具有较强的鲁棒性。(本文来源于《计算机工程与应用》期刊2014年10期)
彭红超,童名文,邹军华,郝秋红[8](2013)在《基于规则的网页分割预处理算法研究》一文中研究指出针对国家精品课程网站中网页内容和样式独立设计,网页分割算法难以运行的问题,基于规则提出了一种网页分割预处理算法,建立了网页标签和样式信息的关联。算法包括3个步骤:第一,获取样式信息;第二,关联样式信息和标签;第叁,输出HTML和PerfectNode关联类列表。随机选取了100个国家精品课程网站的网页运行预处理算法,实验结果表明该算法可以有效地融合网页标签和样式信息,解决了网页分割算法无法运行的问题。(本文来源于《计算机科学》期刊2013年S2期)
解姝,叶施仁,肖春[9](2011)在《社会媒体网页内容的分割与抽取》一文中研究指出为实现社会媒体网页内容的分割与抽取,利用k-means算法识别出页面的频繁块并形成一个频繁簇集合,找出该集合中的主题频繁簇,对其中的频繁块结构进行自学习,无需训练样本,即可自动生成抽取规则。实验结果表明,该方法能抽取各种风格的社会媒体网页内容,具有较高的准确率和召回率。(本文来源于《计算机工程》期刊2011年21期)
解姝[10](2011)在《社会媒体网页内容分割与主题频繁簇的抽取》一文中研究指出随着互联网的普及和计算机技术的迅猛发展,Web已成为人们日常生活中获取知识、技术共享、信息交流的重要平台。越来越多的互联网用户在博客、论坛、社区等网站上以文本、图像、音乐、视频等形式发表用户体验内容和用户为中心的内容,形成数据日益庞大的社会媒体。如何快速有效地从社会媒体网页中获取人们真正需要的信息成为一个亟需解决的重要课题,因此Web信息抽取技术随之产生,并引起了学术界和商业领域越来越多的关注。与传统的信息资源相比,社会媒体网页中95%以上是非结构化或半结构化形式的数据型网页,缺乏严格规范的语法结构。由于社会媒体网页的海量性、开放性、多样性、动态性等特点,传统的自然语言处理技术和应用程序无法直接获取并利用社会媒体网页上的海量信息。从这些社会媒体网页中抽取相关信息(如产品信息、论坛帖子内容)并进行综合分析,能让我们广泛地了解当前用户的需求、产品的缺陷、社会的热点,具有重大的社会价值和经济价值。目前,社会媒体站点大多是利用数据库和预定义模板动态生成网页。网页中的不同区域分别表示菜单、导航、版权和内容等部分。这些不同功能的区域所用的HTML标记并无不同,但是,有些局部会反复出现。本文充分利用该类社会媒体网页的上述特点,从这些反复出现的局部归纳出稳定的模式,通过所获得的模式来自动抽取所涉及的信息。本论文以社会媒体网页为研究对象,主要针对Web信息抽取关键技术开展了深入系统的研究,提出了一种社会媒体网页内容分割与主题频繁簇的抽取方法。本论文的主要研究工作如下:1、利用k-means聚簇方法识别页面中具有类似结构的频繁块,得到一个频繁簇集合,2、从频繁簇集合中识别关于用户言论的主题频繁簇,3、根据主题频繁簇中频繁块的结构特征生成抽取规则。该算法的重要特点是利用相同来源的网页内容表达模式相同的特点来分割和生成抽取规则。实验结果表明该算法能有效地处理各种风格的社会媒体网页,达到应用水平的准确率和召回率。(本文来源于《湘潭大学》期刊2011-06-04)
网页分割论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着互联网技术的发展,Web应用成为了人们日常生活中不可或缺的一部分。大量Web应用以网页为载体,通过浏览器呈现给用户,并与用户进行交互。然而,由于浏览器种类的多样性,不同的浏览器对于相同网页的解释可能不同。这导致相同网页在不同浏览器上的渲染出现差异。当这些差异影响用户体验时,我们称之为兼容性问题。现存的跨浏览器兼容性测试通常先对网页进行分割,再对每个分割进行检查。其中大部分使用文档对象模型,有些也运用图像处理技术。结合基于文档对象模型和基于图像的方法,提出一种新的网页分割方法。该方法得到的网页分割更合理,且计算开销更小。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
网页分割论文参考文献
[1].李进生,乐惠骁,童名文.基于标题机器学习的网页分割方法[J].计算机科学.2018
[2].贾柯祯.基于文档对象模型和图像处理的网页分割方法[J].现代计算机(专业版).2018
[3].冯瀚洋.基于半监督结构学习的网页分割[D].南京大学.2017
[4].张佳敏.利用网页区域分割的聚焦爬虫算法研究[D].华中科技大学.2016
[5].李文昊,彭红超,童名文,石俊杰.基于视觉特征的网页最优分割算法[J].计算机科学.2015
[6].彭红超.一种基于视觉的网页分割技术及应用研究[D].华中师范大学.2014
[7].柳培忠,宁欣,李卫军.一种网页图像文字分割方法[J].计算机工程与应用.2014
[8].彭红超,童名文,邹军华,郝秋红.基于规则的网页分割预处理算法研究[J].计算机科学.2013
[9].解姝,叶施仁,肖春.社会媒体网页内容的分割与抽取[J].计算机工程.2011
[10].解姝.社会媒体网页内容分割与主题频繁簇的抽取[D].湘潭大学.2011