视频语义论文-董飞,马源源

视频语义论文-董飞,马源源

导读:本文包含了视频语义论文开题报告文献综述及选题提纲参考文献,主要关键词:视频去模糊,语义分割,像素模糊,非线性核

视频语义论文文献综述

董飞,马源源[1](2019)在《基于语义分割和像素非线性核的视频去模糊》一文中研究指出由于相机抖动、物体运动和深度变化等因素将不可避免地造成视频模糊,论文利用每个模糊帧中的语义分割来理解场景内容,并使用不同的图像区域运动模型来实现光流估计。分析了运动模糊轨迹与光流之间的关系,并提出了一种基于像素模糊非线性核(PWNLK)模型来解释运动模糊,所提出的模糊模型基于非线性光流来更有效地描述复杂的运动模糊。对模糊视频进行了大量的实验表明,所提出的算法相对于其他方法具有更好的性能。(本文来源于《计算机与数字工程》期刊2019年10期)

崔冠军[2](2019)在《视频的语义情感分析研究》一文中研究指出本文利用自然语言处理技术对视频包含的语义信息进行分析,并挖掘其中所包含的情感具有重要的社会意义和商业价值。本文的主要工作包括:首先,将Twitter情感分析训练语料库的极性类别人工标注为六种基本情绪类别作为训练集。通过讯飞语音识别平台提取AFEW数据集中视频片段内的语义信息,使用ELMO将语义信息转化为向量表示。使用TextCNN模型对语义信息进行情感分析。(本文来源于《电子技术与软件工程》期刊2019年19期)

林霄竹,金琴,陈师哲[3](2019)在《iMakeup:特定领域的大规模长视频数据集——用于细粒度视频语义内容描述》一文中研究指出实际生活中,大多数视频均含有若干动作或物体,简单的单句描述难以展现视频中的全部信息,而各类长视频中,教学视频步骤清晰、逻辑明确,容易从中提取特征并使用深度学习相关算法进行实验验证,从长视频中提取复杂信息成为研究人员日益关注的问题之一.为此,文中收集整理了一个命名为iMakeup的大规模的美妆类教学视频数据集,其包含总时长256 h的热门50类2 000个长视频,以及12 823个短视频片段,每个片段均根据视频的逻辑步骤顺序进行划分,并标注起止时间和自然语句描述.文中主要通过视频网站下载收集原始视频,并请志愿者对视频的详细内容进行人工标注;同时统计分析了此数据集的规模大小和文本内容,并与其他类似研究领域的若干数据集进行对比;最后,展示了在此数据集上进行视频语义内容描述的基线实验效果,验证了此数据集在视频语义内容描述任务中的可行性. iMakeup数据集在收集整理时注重内容多样性和类别完整性,包含丰富的视觉、听觉甚至统计信息.除了基本的视频语义内容描述任务之外,该数据集还可用于视频分割、物体检测、时尚智能化推荐等多个前沿领域.(本文来源于《计算机辅助设计与图形学学报》期刊2019年08期)

戴培,靳涵瑜,锦璇,管雅丽[4](2019)在《基于语义分析和卷积神经网络的视频审查机制研究》一文中研究指出笔者对基于语义分析和卷积神经网络的视频审核机制进行研究,对含违禁元素的图像数据进行语义标注,利用卷积神经网络对标注数据集进行训练,得到网络模型,再将待检测视频进行抽帧截图,结合语义分析,根据截图中的违禁对象和上下帧违禁对象关联等特征得到违禁分数,最终根据分数给出该视频违禁程度建议。希望通过本文的研究,给相关研究人员带来参考和借鉴。(本文来源于《信息与电脑(理论版)》期刊2019年12期)

王亚迪[5](2019)在《视频情感语义分析及在敏感视频识别中的应用》一文中研究指出随着网络信息化建设的快速发展和通信技术行业的迅速崛起,互联网上出现了大量的视频资源,视频成为了当今时代中信息传递的主要载体之一。大量的视频资源中混有许多不良信息内容,例如恐怖视频中的恐怖因素、色情视频中的不良诱惑和暴力视频中的武力制裁等,这些敏感视频不仅污染了青少年的成长环境,也会对成年人产生不良影响。视频中的情感语义作为视频的高层语义,若能加以合理的利用可以有效地实现敏感视频的识别。通过对上述问题进行思考,本文选择从视频的情感语义分析的角度来进行敏感视频识别的研究工作。情感语义中有一种特殊的类型,恐惧,这种情感与敏感视频中恐怖视频的识别具有一定的联系,且敏感视频中的恐怖视频过滤仍处于早期阶段。同时,恐怖视频中多个特征之间的相互关系很少被讨论。因此,本论文对视频的多个特征融合进行了研究,引入了一种可以突出恐怖情感特征的特征融合算法。通过在恐怖情感视频上进行的实验结果表明,特征融合方法可以有效地融合了视频中的视觉、音频和颜色情感特征,充分发挥了视频中多种特征间的关联性并突出了视频的情感语义,在恐怖视频的分类上取得了不错的表现。另外,视频是一种结构性数据,目前处理视频特征多是采用平均化地处理方法。这样做一方面会弱化视频的主要情感特征,另一方面也丢失了视频的结构特征,针对此问题,本论文引入了多示例学习算法进行视频情感语义分析,以此来实现视频情感的识别。在情感数据集上进行的多示例算法实验研究表明,多示例算法在基于视频情感语义分析的视频识别中具有一定的表现效果,同时实验结果分析也为下一步工作改进提供了合理的研究方向。(本文来源于《山东工商学院》期刊2019-06-10)

樊如愿[6](2019)在《基于深度卷积神经网络的视频语义分割方法研究》一文中研究指出目前,自动驾驶领域在可行性和实用化方面都取得了突破性的进展,其对于汽车行业甚至是交通运输业有着深远的影响。那么针对图像的语义分割算法可以对图像中的目标进行像素级的高精度分类,在自动驾驶中,通过对图像的语义分割可以获取道路可行驶区域的信息,检测车道标记和交通信息等。图像语义分割是计算机视觉领域中重要的任务之一,进一步的提高其分割精度和处理速度是在实际应用中需要解决的问题。通常情况下利用视觉传感器获取的视频的数据量庞大,并且对视频处理过程的效率要求较高,而传统的图像处理方法难以满足视频分割的处理速度,且分割的精准度较低。基于此,本文基于深度卷积神经网络,分别设计了改进的U形网络和W形网络,并且利用光流场对帧与帧之间的特征进行传播和融合,使得整个方法在尽可能的保持精细的分割精度的前提下,大幅度降低实时的视频语义分割处理时间。论文的主要内容包括:首先本文基于编码器-解码器结构,设计了U形-S-A网络结构,该网络结构利用深度可分离卷积结构和通道注意力模型分别去除网络特征图中空间和通道的相关性,使得分类精度得到进一步的提升。接下来为了进一步的降低分割的处理时间,本文还设计了基于ResNet网络和Xception网络的W形卷积神经网络模型,整个模型将U形卷积神经网络的单支路扩展为双支路,分别进行快速下采样和保持大尺度的感受野,可以同时优化图像的整体感受野和细节信息。此后,为了进一步的提升分割的精度,采用了基于光流场的特征传播算法,该算法可以有效的利用帧与帧之间的相关性,视频中的前一帧通过整个W形网络进行特征提取和语义分割,得到最后的分割实验结果,而后一帧不仅通过整个W形网络进行深层的特征提取,还利用前一帧通过光流场传播的深层特征,进行相应的特征聚合之后,再进行下一步的语义分割得到实验结果。该方法与W形网络相比较,通过光流场进行特征聚合之后,可以进一步提升视频语义分割的检测精度。(本文来源于《哈尔滨工业大学》期刊2019-06-01)

张笑谋[7](2019)在《基于深度学习的网球比赛实时视频语义分析关键技术的研究与实现》一文中研究指出随着人工智能时代的到来,传统的体育比赛转播形式发生了很大变革。早在20世纪初问世的鹰眼系统,就作为一种裁判辅助手段出现在网球比赛中。但是,目前还没有可以对网球比赛的实时视频进行语义分析的技术。本文的主要目的是通过基于深度学习的视频分析技术给网球比赛转播带来更加数字化和智能化的体验。本文主要针对网球比赛中的两大运动对象—运动员和网球进行语义分析,输出的语义信息包括运动员的动作类型、运动距离、运动速度以及网球的落地区域。首先,针对监控视角下网球比赛视频帧中的人和网球都非常小的问题,我们提出了一种视频小目标检测算法,该算法在小目标上具有良好的精度和速度。其次,本文设计出基于角色划分的运动选手跟踪算法,并持续锁定要跟踪的目标球员,输出球员区域。之后,研究目标由粗到精,设计了一种基于人体关键点位移的动作类型判别算法和运动员运动距离、速度检测算法,通过对球员区域内的球员进行二维姿态估计,分析其身体骨架和关键点信息,完成对球员的运动类型的分析。同时,根据运动员身体关键点的位移信息和系统运行时间,得到运动员的运动距离及运动速度。然后针对网球小且高速运动中难以捕捉的问题,本文设计了一种基于先验知识的网球运动及落点区域预测算法,得出网球的落地区域。最后,本文实现了一套网球比赛实时视频的语义分析原型系统,并对系统的性能指标进行了测试和分析,结果表明该系统在实时性、准确性、稳定性上都具有良好的表现。(本文来源于《北京邮电大学》期刊2019-06-01)

王柏瑞[8](2019)在《基于重构特征的视频语义描述生成方法研究》一文中研究指出近年来,随着人工智能(Artificial Intelligence,AI)的快速发展,视频语义描述任务(Video Captioning)成为人工智能领域的研究热点。视频语义描述,是指利用相关算法,通过给定的视频片段,生成正确连贯的自然语句来描述该视频片段的内容。视频语义描述任务涉及了计算机视觉领域(Computer Vision,CV)和自然语言处理领域(Natural Language Processing,NLP),在实际生活中有着广泛的应用前景,例如,可以应用视频语义描述发掘视频语义信息,从而促进视频检索的质量。随着卷积神经网络(Convolutional Neural Networks,CNN)和循环神经网络(Recurrent Neural Networks,RNN)分别在CV领域和NLP领域的成功,基于“CNN-RNN”的“编码器-解码器(Encoder-Decoder)”结构在视频语义描述任务中被广泛使用。然而这种结构仅使用了视频内容信息指向的语言描述信息的前向信息,而忽略了语言描述信息指向的视频内容信息的反向信息,因此性能难以进一步提升。为了同时利用这种双向信息,本文在“编码器-解码器”结构的基础上,提出了一种新型网络结构,即“编码器-解码器-重构器”网络(Encoder-Decoder-Reconstructor Network,RecNet)。具体来说,编码器网络为视频片段的每一帧图像提取CNN特征,解码器使用柔性注意力机制动态地为每一个CNN特征分配权重,并在每个时刻预测一个单词,最终连接成句子来描述视频片段。本文提出了两种重构器,分别建立在解码器之后,将解码器的隐藏状态序列重构为包含了输入视频片段的全局语义信息的全局特征和包含了局部语义信息的局部特征。在此过程中,解码器学习反向信息,并传递给“编码器-解码器”部分。同时,本文还提出了一种融合重构策略,用于同时重构输入视频片段的全局语义信息特征和局部语义信息特征。重构器进一步对视频与语言信息建模,从而提高视频语义描述任务的性能。本文在叁个大规模视频语义描述数据集MSR-VTT,MSVD和ActivityNetl.3上进行了充分实验。定性和定量的实验结果表明本文所提出的“编码器-解码器-重构器”网络能够加强视频语义描述任务的性能,在不同数据集上具有良好的泛化性能。除了传统训练策略,本文还引入强化学习算法(REINFORCE)直接优化自然语句评价标准,如CIDEr指标,进一步证明了所提出的方法能适应不同的训练策略。(本文来源于《山东大学》期刊2019-05-14)

韩洪帅[9](2019)在《基于关联数据的传统美术类非遗视频资源语义化组织研究》一文中研究指出当前,非物质文化遗产保护越来越受到社会各层的重视。非物质文化遗产是民族文化的瑰宝,它是中华文明不可或缺的一部分,是中华文明智慧的结晶,代表着国家软实力。非物质文化遗产的视频资源在非物质文化数字化保护中占有大量的比重,视频资源中具有丰富的知识内容,是非物质文化遗产数据化过程中一种重要的信息载体。对于非遗视频资源的研究,有利于对于视频的管理和知识的挖掘,对今后非物质文化遗产的保护具有重要的作用。对于非物质文化遗产视频资源的语义化组织的研究可以加强非物质文化遗产视频资源的组织和管理。本文主要研究传统美术类的非物质文化遗产视频资源的语义化组织,传统美术是我国对于非物质文化遗产项目十大类中的一类,本文希望通过对此类视频资源的研究,提出对于此类视频的资源语义组织的方案,提高对于此类资源的管理效率,加深对于非遗知识的挖掘。本文是基于关联数据的方式对传统美术类视频资源进行合理的语义化组织。本文研究,旨在利用关联数据的结构化,将不同结构的资源数据进行结构化的表达。本文研究路线是从传统美术类视频资源内容特点开始做起,分析此类视频结构和内容的特点,利用本体论,构建传统美术类视频资源语义本体模型,旨在对视频内容构建一个合理的资源语义化描述的框架,对视频中的内容进行语义标注并显示其非遗特性,对此类视频资源进行合理的语义化描述。然后,利用关系数据库作为本体模型到关联数据表达的一个中介,利用关系数据库其成熟的管理系统对资源数据进行存储管理,并通过研究,选择了一种合适的存储模式。最终,利用D2R工具完成数据库到关联数据的映射,以关联数据的形式完成对视频语义化资源的组织和展示。此外,在发布成关联数据的基础上,可以进一步进行知识的聚集和挖掘。(本文来源于《华中师范大学》期刊2019-05-01)

赵怡堃[10](2019)在《基于全卷积神经网络的奶山羊视频语义分割方法研究》一文中研究指出通过对奶山羊室外羊舍场景的监控视频进行语义分割,观察羊舍环境和奶山羊的位置与姿态,能够及时发现奶山羊的健康问题,及时发现羊舍是否有危害羊只安全的异物侵入,对奶山羊的规模化和智能化养殖具有重要的意义。本文以奶山羊监控视频为研究对象,利用视频关键帧提取技术、全卷积神经网络模型(Fully Convolutional Network,FCN),结合生成式对抗网络模型(Generated Confrontation Network,GAN),实现了奶山羊视频的语义分割。本文的主要研究内容和结论有:(1)奶山羊视频语义分割模型数据集的制作为减少视频帧间存在的大量冗余信息,首先利用卡方(Chi-square,?~2)直方图法结合自适应阈值法,实现奶山羊监控视频的镜头分割。然后采用k-means聚类方法从每一个镜头中提取关键帧以制作用于语义分割的图像数据集。另外,为增加数据集,本文采用翻转变换和平移变换方法进行数据增强,将数据集扩充为原来5倍,从而预防语义分割结果过拟合的出现。(2)基于FCN的奶山羊视频语义分割模型设计针对用于语义分割的卷积神经网络在速度上和精度上存在不足的问题,使用VGG_16网络模型作为预训练网络采用全卷积神经网络对奶山羊视频进行语义分割,从图像级别的分类延伸到像素级别的分类。另外,针对FCN的分割结果仍存在不够精细、缺乏空间一致性等缺点,将FCN_8s模型的粗分割结果采用条件随机场模型(Conditional Random Field,CRF)进行精分割,得到一个考虑像素间关系的、边缘更加细致的语义分割结果,语义分割的像素精确度较FCN_8s提高了0.85%,平均交并比提高了0.6%。(3)基于FDGAN的奶山羊视频语义分割模型设计针对FCN_8s+CRF是一个粗分割与精分割分离的网络模型,且语义分割结果仍然存在漏分、粗糙的情况,本文提出FDGAN网络模型。本模型采用GAN的思想,以FCN_8s作为GAN的生成网络,生成语义分割结果,并使用密集卷积网络(Dense Convolutional Network,DenseNet)作为判别网络,通过两个网络的对抗式训练,语义分割的像素精确度较FCN_8s提高了2.57%,平均交并比提高了2.36%,FDGAN获得了更精细且具有空间一致性的分割结果。(本文来源于《西北农林科技大学》期刊2019-05-01)

视频语义论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文利用自然语言处理技术对视频包含的语义信息进行分析,并挖掘其中所包含的情感具有重要的社会意义和商业价值。本文的主要工作包括:首先,将Twitter情感分析训练语料库的极性类别人工标注为六种基本情绪类别作为训练集。通过讯飞语音识别平台提取AFEW数据集中视频片段内的语义信息,使用ELMO将语义信息转化为向量表示。使用TextCNN模型对语义信息进行情感分析。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

视频语义论文参考文献

[1].董飞,马源源.基于语义分割和像素非线性核的视频去模糊[J].计算机与数字工程.2019

[2].崔冠军.视频的语义情感分析研究[J].电子技术与软件工程.2019

[3].林霄竹,金琴,陈师哲.iMakeup:特定领域的大规模长视频数据集——用于细粒度视频语义内容描述[J].计算机辅助设计与图形学学报.2019

[4].戴培,靳涵瑜,锦璇,管雅丽.基于语义分析和卷积神经网络的视频审查机制研究[J].信息与电脑(理论版).2019

[5].王亚迪.视频情感语义分析及在敏感视频识别中的应用[D].山东工商学院.2019

[6].樊如愿.基于深度卷积神经网络的视频语义分割方法研究[D].哈尔滨工业大学.2019

[7].张笑谋.基于深度学习的网球比赛实时视频语义分析关键技术的研究与实现[D].北京邮电大学.2019

[8].王柏瑞.基于重构特征的视频语义描述生成方法研究[D].山东大学.2019

[9].韩洪帅.基于关联数据的传统美术类非遗视频资源语义化组织研究[D].华中师范大学.2019

[10].赵怡堃.基于全卷积神经网络的奶山羊视频语义分割方法研究[D].西北农林科技大学.2019

标签:;  ;  ;  ;  

视频语义论文-董飞,马源源
下载Doc文档

猜你喜欢