论文摘要
为了实现多语种词对齐,该文提出一种以点互信息为基础的翻译概率作为改进的多语种单词关联强度度量方法。首先,论证了在服从Zipf定律的普通频级词区域,单词间关联强度的点互信息度量法可简化为翻译概率;其次,对汉语、英语、朝鲜语平行语料进行句子对齐、分词和去停用词等预处理后计算平行语料单词之间的翻译概率,取翻译概率最高的前k个词作为候选翻译词,并通过优化处理提高了词对齐准确率。实验结果表明,该方法可以不完全依赖语料规模,在小规模语料中取得94%以上的准确率,为跨语言小众文献及低资源语言词对齐提供了技术基础。
论文目录
文章来源
类型: 期刊论文
作者: 杨飞扬,赵亚慧,崔荣一,易志伟
关键词: 词对齐,平行语料,翻译概率,定律
来源: 中文信息学报 2019年12期
年度: 2019
分类: 信息科技
专业: 计算机软件及计算机应用
单位: 延边大学计算机科学与技术学院智能信息处理研究室
基金: 国家语委“十三五”科研规划项目(YB135-76),延边大学外国语言文学世界一流学科建设科研项目(18YLPY13,18YLPY14)
分类号: TP391.1
页码: 37-44
总页数: 8
文件大小: 1093K
下载量: 164