面向信息特征模式识别的核方法研究综述

时间:2022-10-19 18:35:03 来源:网友投稿

基金项目:本文系国家自然科学基金项目“微博环境下实时主动感知网络舆情事件的多核方法研究”(项目编号:71303075);中国博士后科学基金项目“基于核方法的网络非常规突发事件的智能识别与应用研究”(项目编号:2012M511697)的研究成果之一。

作者简介:黄炜(1979-),男,副教授,博士后,硕士生导师,研究方向:网络舆情,网络信息智能处理。·综述·

〔摘要〕面对网络大数据的挑战,特征信息的模式识别已成为信息情报领域的研究热点。本文对模式识别的现状进行了剖析,研究了现广泛运用于信息模式识别中的核方法。梳理并对比分析了核方法的各种算法理念与思想,介绍了核算法的设计、核函数的构造与核参数的选择方法,特别探讨了在网络舆情信息模式识别中的应用前景。

〔关键词〕模式识别;核方法;核参数;支持向量机;信息模式

DOI:10.3969/j.issn.1008-0821.2014.03.036

〔中图分类号〕G2528〔文献标识码〕A〔文章编号〕1008-0821(2014)03-0168-09

Review on Kernel Algorithm of Information Pattern RecognitionHuang Wei1,2Liu Kun1

(1.School of Management,Hubei University of Technology,Wuhan 430068,China;

2.School of Management,Wuhan University of Technology,Wuhan 430070,China)

〔Abstract〕Facing the challenge of big data from the network,the characteristic information of pattern recognition has become a hot research topic in the field of information intelligence.This paper analyzed the status quo of pattern recognition,and explored the kernel methods that widely used in information pattern recognition.By analyzing and combing the different kinds of kernel idea and thought that applied in kernel algorithm,the paper introduced the design of the kernel algorithm,the construction of the kernel function and the method of selecting kernel parameters,especially discussed the application prospect in network public opinion information pattern recognition.

〔Keywords〕pattern recognition;kernel methods;kernel parameters;support vector machine;information pattern

随着人工智能的发展,人们亟待解决机器学习的各项问题,模式识别是人工智能中一项基本智能,并应用于我们生活中的各个领域,如生物识别(语音识别、人脸识别、指纹识别等)、数据挖掘、文本分类等。20世纪60年代初,模式识别迅速发展并成为一门新的学科。但是传统的模式识别方法在大数据环境下,处理多类别的复杂的高维模式识别问题时效果不佳,在各模式存在复杂的非线性关系时甚至无解。20世纪90年代中期,出现了基于核的学习方法(简称为核方法),该方法最终使得研究人员能够高效地分析复杂非线性问题。

本文以当前核方法的重点研究方向为向导,收集并整理期刊文献179篇,学位论文9篇,以及基于核方法的模式识别书籍2本。其中模式识别相关文献16篇,核方法87篇,核函数及核参数56篇,增量学习相关文献20篇,多核学习相关文献8篇,大数据相关文献3篇。文献统计如图1所示。

本文重在总结和分析经典的核算法,并对核函数和核参数的选择进行探究。同时对在线动态模型(增量学习)的原理和方法进行概述,最后对多核学习也有一定的介绍和探讨。通过对当前核方法的探究,给当前网络大数据环境下的数据处理提出一种可行的理论方法,特别是给网络信息情报模式识别的应用提供一种思路。

1特征信息的模式识别

一般认为,模式是通过对具体的事物进行观测所得到的具有时间与空间分布的信息。模式所属类别或同一类中

图1文献统计

模式的总体称为模式类,其中个别具体的模式往往称为样本。模式识别(Pattern Recognition)是对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以及对事物或现象进行描述、辨认、分类和解释的过程[1]。

通常情况下,希望模式识别的算法能够具备3个性质:计算的高效性、健壮性以及统计稳定性[2]。传统的模式识别方法大致可以分为模板匹配、统计识别、结构识别、模糊识别和人工神经网络识别5种[3-4]。统计模式识别和结构模式识别是模式识别领域的两大主流研究方向,模糊模式识别和神经元网络模式识别是新近发展起来的模式识别方法。然而,大量实际的模式识别问题是具有多类别的高维的复杂模式的识别,且各模式之间存在复杂的非线性关系,传统的统计模式识别方法能高效率地解决具有线性关系的模式识别问题,但无法高效率地检测非线性关系。此外,传统统计学主要研究的是渐进理论,即当样本数趋近于无穷大的统计性质,而现实中的模式识别问题由于各种因素的约束样本数往往是有限的。虽然机器学习中神经网络模式识别的发展使得检测非线性模式成为可能,然而这些非线性算法是建立在梯度下降法和贪婪启发式法的基础上,因而受到局部极小化的限制。这些算法还经常遇到过拟合的问题,“过学习”的特点使得得出的算法结构表现出很差的推广能力。

而面对当前网络信息环境,网络信息呈现的特点是:(1)数量庞大、增长迅速;(2)内容丰富、覆盖面广;(3)信息质量参差不齐,有序与无序并存,数据类型繁多;(4)信息共享程度高、使用成本低;(5)内容新颖实效性强。要实现网络信息的分类管理或是对信息的有效甄别、控制等,传统的模式识别方法显然力不从心。20世纪90年代中期,出现了基于核的学习方法,该方法是从统计学习理论中发展出来的较新的学习方法,它有效克服了传统模式识别方法的局部极小化和不完全统计分析的问题,在处理非线性关系的高维复杂模式识别问题时,有着显著的优势。

2基于核方法的模式识别

推荐访问:综述 特征 面向 方法 模式识别

最新推荐
猜你喜欢