中石化长岭分公司IT服务中心开发部
摘要:本章针对知识、知识管理、分类算法概念进行阐述,同时针对K临近、BAYES、SVM算法进行比对研究,对知识管理相关概念进行了概述。
关键词知识知识管理分类算法
一、与知识有关的几个概念
知识管理:《中国知识管理标准》中对知识管理的定义:对知识、知识创造过程和知识的应用进行规划和管理的活动。知识管理是对知识的“采、存、管、用”全生命周期进行规划和管理。最终使得组织内知识,透过获得、创造、分享、整合、记录、存取、更新、创新等过程,不断的回馈到知识系统内,形成永不间断的累积个人与组织的知识成为组织智慧的循环,形成企业知识资产,帮助企业做出正确的决策。
1.知识。数据、信息、知识和智慧是人类认识客观事物过程中不同阶段的产物,数据、信息、知识、智慧之间既有区别又有联系。
2.数据。是原始的数字和文字,反应客观事物运行状态的信号通过感觉器官或观测一次感知,形成文本、数字、实事或图像等形式的数据,它是最原始的记录,未被加工解释,没有回答特定的问题,它反应了客观事物的某种运动状态,除此之外没有其他意义;它与其他数据之间没有建立相互联系,是分散和孤立的。
3.信息。数据按照业务逻辑或规则进行处理、组合后形成信息;形成回答了某个特定问题的文本,以及被解释具有某些意义的数字、实事、图像等形式的信息。
4.知识。信息经过分类、规范化、结构化,并经过实践检验后形成知识;知识又分为显性知识和隐性知识。显性知识是可以文本化的知识,并易于传播。隐性知识是存在个人头脑中的经验或知识,需要进行大量的分析,总结和展现,才能转化成显性知识。
5.智慧。智慧是以知识为基础而产生出来的,强调的是发现、分析和解决问题的能力。
6.显性知识与隐性知识。知识的价值在于通过共享和复用知识能促进创新、减少重复工作,提升工作效率,提高工作质量,缩短员工成长周期。根据知识的表现形式和共享范围,知识可以分为显性知识(公共基础知识、专业知识)、隐性知识。
二、知识分类
1.知识分类的定义。知识分类就是根据特定的需要和标准,以事物的本质属性为根据,通过比较,把全部知识按照相同、相异、相关等属性划分成为不同类别的知识体系。即以事物的本质属性为根据,把一个属概念划分为若干个种概念的过程。以此显示其在知识整体中的应有位置和相互关系。
2.知识分类的目的
(1)能够使知识与组织的核心职能和业务紧密结合,能从组织层面清晰的识别组织的核心知识有哪些,从使用者层面能让使用者容易理解,符合工作习惯;
(2)能够让每一个知识都有相应的储存地方,横向到边,不重复、不遗漏;
(3)能够通过信息化手段进行实现和管理,存在切实可行的IT解决方案,可操作。
知识分类是企业知识管理的基础,合理的知识分类能提高知识管理的效率,有利于知识管理系统的推广和使用、能够使企业成功地向知识导向型企业转变的同时提升行业的核心竞争力。
3.知识分类基本方法
知识分类基本方法有:线分类法(线分)、面分类法(面分)。
(1)线分类法(methodoflinearclassification)。线分类法是将初始的分类对象作为分类的划分基础,逐次分解成若干个层级类目,并编排成一个逐级展开、有层次的分类体系,按照线分类法建立的分类体系表现为一个树形结构。线分类法又称体系分类法或者等级分类法。比较典型的线分法包括:美国《国会图书馆分类法》、《中国图书馆分类法》(中图法)等。其优点实:横向到边、纵向到底,覆盖企业核心业务和职能,不重复、不遗漏;适用于企业核心知识总体架构设计;特点是:每个知识都有唯一的归属分类。
(2)面分类法(methodofareaclassification)。面分类法是按照分类对象多个方面的属性与特征的异同来建立分类体系的。面分类法又称组配分类法。其优点是更关注根据用户实际使用情况,根据热词检索聚类形成热点标签,多作为搜索逻辑和知识管理门户界面布局,更适用于用户精确、方便的查找知识。特点是:每个知识可以有多个归属分类,根据不同用户的关注度,被聚类在不同的分类下。
三、分类算法对比研究
1.自动分类算法总览
自动分类算法提供对海量数据的智能信息处理,进行智能检索、自动分类、自动聚类、关键词自动标引、自动文摘、信息过滤、关联规则挖掘等多种智能处理方式。
通过NLP(自然语言处理)、VSM(向量空间模型)等技术将对文本内容的处理转化为向量空间中的向量运算,两个文档之间的相似性问题转变成了两个向量之间的相似性问题。其通用技术指标:提供自动分类、自动聚类、关键词自动标引、自动文摘、信息过滤、关联规则挖掘等功能;支持指纹索引技术,提供字段、句子、段落、全文的自动比对;提供千万级的语料库;分类准确率(85%),切词准确率(96%以上);性能:切词速度(1MB/s),相似性分析千万数据毫秒级响应。
2.SVM算法——测试比对选取最优自动分类算法
自动分类,将大量散乱的文本自动归类,自动梳理知识。分类方法支持K近邻文本分类、Bayes文本分类和支持向量机文本分类,根据实际效果选择合适的分类算法。例如,在企业某一项目中,知识被分成五类,即方法类、标准规范类、成果案例类、专家信息类、工艺技术类,将采集的知识根据此五类进行自动分类,然后人工审核后,入知识库。
3.智能信息处理技术——自动分类。
KNN算法(近邻文本分类算法),在给定新文档后,考虑在训练文档集中与该新文档距离最近(最相似)的K篇文档,根据这K篇文档所属的类别判定新文档所属的类别。
4.智能信息处理技术——自动分类:Bayes算法
计算文档属于类别的概率,文档属于类别的几率等于文档中每个词属于类别的几率的综合表达式,比较新文档属于所有类的几率,将文档分到几率最大的那个类别中。
5.智能信息处理技术——自动分类:SVM算法(支持向量机文本分类算法)
根据算术平均为每类文档集生成一个代表该类的中心向量;然后在新文档来到时,确定新文档向量,计算该向量与每类中心向量间的距离(相似度);最后判定文档属于与文档距离最近的类。
四、小结
对知识及知识管理,知识分类及知识算法的正确理解,有助于企业在知识管理的活动中,掌握正确的思路和方法,对知识管理体系进行有效提升和科学的运用,更好地为企业的生产和经营活动作出科学的指导和帮助。
参考文献
[1]李碧瑜,《浅析知识管理在企业档案工作中的应用》《交通企业管理》2018-03-20
[2]曾慧宏、宾宁,《分布式环境下分类知识的挖掘算法研究》《计算机与数字工程》2008-05-20