山西省回国留学人员科研经费资助项目(2012-008) 作品数:23 被引量:115 H指数:7 相关作者: 王文剑 郭虎升 姜高霞 田萌 潘世超 更多>> 相关机构: 山西大学 山东理工大学 厦门理工学院 更多>> 发文基金: 山西省回国留学人员科研经费资助项目 国家自然科学基金 山西省自然科学基金 更多>> 相关领域: 自动化与计算机技术 理学 经济管理 更多>>
一种处理结构化输入输出的中文句法分析方法 被引量:4 2015年 中文句法结构复杂,特征维数较高,目前已知最好的汉语句法分析效果与其他西方语言相比还有一定的差距。为进一步提高中文句法分析的效率和精度,该文提出一种采用二阶范数软间隔优化的结构化支持向量机(Structural Support Vector Machines,Structural SVMs)方法对基于短语结构的中文句法进行分析,通过构造结构化特征函数ψ(x,y),体现句法树的输入信息,并根据中文句子本身具有的强相关性,在所构造的ψ(x,y)中增加中文句法分析树中父节点的信息,使ψ(x,y)包含了更加丰富的结构信息。在宾州中文树库PCTB上的实验结果表明,该文方法与经典结构化支持向量机方法以及Berkeley Parser相比可取得较好的效果。 赵国荣 王文剑基于选择性集成旋转森林的人体行为识别算法 被引量:2 2016年 人体行为识别中的一个关键问题是如何表示高维的人体动作和构建精确稳定的人体分类模型.文中提出有效的基于混合特征的人体行为识别算法.该算法融合基于外观结构的人体重要关节点极坐标特征和基于光流的运动特征,可更有效获取视频序列中的运动信息,提高识别即时性.同时提出基于帧的选择性集成旋转森林分类模型(SERF),有效地将选择性集成策略融入到旋转森林基分类器的选择中,从而增加基分类器之间的差异性.实验表明SERF模型具有较高的分类精度和较强的鲁棒性. 唐超 王文剑 李伟 李国斌 曹峰 张苗辉关键词:人体行为识别 基于主动学习的模式类别挖掘模型 被引量:4 2014年 在实际应用问题中,由于客观世界物质的多样性、模糊性和复杂性,经常会遇到大量未知样本类别信息的数据挖掘问题,而传统方法往往都依赖于已知样本类别信息才能对数据进行有效挖掘,对于未知模式类别信息的多类数据目前还没有有效的处理方法.针对未知类别信息的多类样本挖掘问题,提出了一种基于主动学习的模式类别挖掘模型(pattern class mining model based on active learning,PM_AL)来解决未知类别信息的模式类别挖掘问题.该模型通过衡量已得到的模式类别与未标记样本间的关系,引入样本差异度的方法来抽取最有价值样本,通过主动学习方式以较小的标记代价快速挖掘无标记样本所蕴含的可能模式类别,从而有助于将无类别标记的多分类问题转化成有类别标记的多分类问题.实验结果表明,PM_AL算法能够以较小的标记代价处理无类别信息的模式类别挖掘问题. 郭虎升 王文剑关键词:差异度 基于非均匀采样的相关系数最大化曲线排齐方法 被引量:2 2016年 在函数型数据分析中,为提高曲线排齐效率,提出如下2种非均匀采样方法对函数曲线进行排齐:基于斜率的非均匀采样(SBNS)和基于弧长的非均匀采样(ALBNS).SBNS按照函数曲线的斜率大小采样,ALBNS在函数曲线的弧长上采样.这两种方法都不是在时间轴上均匀采样,而是根据曲线的形状特征进行采样,因此可在一定程度上克服均匀采样方法由于采样点数量和位置分配不当而产生的缺陷,提高曲线排齐效果.在模拟数据和真实数据上的实验表明,两种方法在时间效率和效果上均优于均匀采样方法. 张文凯 王文剑 姜高霞关键词:函数型数据 非均匀采样 弧长 基于组合半监督的增量支持向量机学习算法 被引量:7 2016年 增量支持向量机(ISVM)由于在每次增量学习过程中无法选择最有效的增量样本,导致模型的泛化性能较差.针对此问题,文中提出基于组合半监督方式的增量支持向量机学习算法(ICS3VM).通过将大量的无标记样本分批进行组合标记以选择最优的增量样本,即每次选择位于分类间隔内部的最有价值样本加入训练集,以此修正模型.同时选择分类间隔最大的一组标记作为最终标记,确保标记的准确性.在标准数据集上的实验表明,ICS3VM能以较高的学习效率提高模型的泛化性能. 郭虎升 王文剑 潘世超关键词:支持向量机 基于概率密度分布的增量支持向量机算法 被引量:6 2013年 增量支持向量机(Incremental Support Vector Machine,ISVM)模型通过每次加入一个或者一批样本进行学习,将大规模问题分解成一系列子问题,以提高支持向量机(Support Vector Machine,SVM)处理大规模数据的学习效率,但传统ISVM(Traditional ISVM,TISVM)模型中增量样本的选择方法不当可能降低其效率和泛化能力.针对ISVM中增量样本的选择问题,提出了一种基于概率密度分布的ISVM算法,称为PISVM,该方法通过概率密度分布选择含有较多重要分类信息(有可能成为支持向量)的增量样本进行训练,使得分类器能够以最快的速度收敛到最优.在标准数据集UCI上的实验结果表明PISVM模型可以在保持其泛化能力的同时进一步提高学习效率. 潘世超 王文剑 郭虎升关键词:支持向量机 基于粒分布的支持向量机加速训练方法 被引量:4 2013年 粒度支持向量机(Granular Support Vector Machine,GSVM)通过选取粒的代表点构成精简训练集以提高支持向量机(Support Vector Machine,SVM)的学习效率,然而选取个别代表点有可能丢失部分重要分类信息,导致模型泛化能力不高.针对这一问题,提出基于粒分布的GSVM(Distribution Based GSVM,DGSVM)加速训练方法,该方法依照粒内正负样本分布选取粒代表点,根据粒的混合度将这些代表点分为精简训练样本集和修正集,使用精简训练样本集训练得到分类器,用修正集迭代优化分类器.本质上DGSVM是用少量难分的样本训练快速得到初始分类器,然后再进行进一步调整.在标准数据集上的实验结果表明DGSVM方法可以在保证算法学习效率的同时提高分类器的泛化能力. 张宇 王文剑 郭虎升关键词:支持向量机 一种基于Petri网的Web服务选择方法 被引量:1 2016年 随着SOC(Service-Oriented Computing)的广泛应用,Internet环境下越来越多的资源以服务的方式进行封装.服务组合可以通过组合不同的资源来满足用户需求,而服务选择是服务组合的重要组成部分,其选择结果在很大程度上影响了组合服务的可信性.本文针对现有服务选择方法中存在的时间效率低下和查准率不高的问题,提出一种基于Petri网的Web服务选择方法,对服务库中的服务从功能和过程两个方面进行聚类预处理操作,缩小服务选择过程中的匹配范围,同时本文采用的基于Petri网的服务过程相似度计算方法,可以更准确地计算服务之间的相似度,进而在保证聚类效果的前提下提高服务选择的时间效率和查准率.仿真实验验证了本文所提方法的有效性. 王芳芳 王文剑 范小芹关键词:聚类 PETRI网 基于多学习器协同训练模型的人体行为识别方法 被引量:9 2015年 人体行为识别是计算机视觉研究的热点问题,现有的行为识别方法都是基于监督学习框架.为了取得较好的识别效果,通常需要大量的有标记样本来建模.然而,获取有标记样本是一个费时又费力的工作.为了解决这个问题,对半监督学习中的协同训练算法进行改进,提出了一种基于多学习器协同训练模型的人体行为识别方法.这是一种基于半监督学习框架的识别算法.该方法首先通过基于Q统计量的学习器差异性度量选择算法来挑取出协同训练中基学习器集,在协同训练过程中,这些基学习器集对未标记样本进行标记;然后,采用了基于分类器成员委员会的标记近邻置信度计算公式来评估未标记样本的置信度,选取一定比例置信度较高的未标记样本加入到已标记的训练样本集并更新学习器来提升模型的泛化能力.为了评估算法的有效性,采用混合特征来表征人体行为,从而可以快速完成识别过程.实验结果表明,所提出的基于半监督学习的行为识别系统可以有效地辨识视频中的人体动作. 唐超 王文剑 李伟 李国斌 曹峰关键词:人体行为识别 半监督学习 基于粒度偏移因子的支持向量机学习方法 被引量:4 2013年 在实际应用中,数据集样本规模、分布密度的不平衡性可能会使传统支持向量机(support vector machine,SVM)得到的分类超平面不是最优.在对传统支持向量机最优分类面分析的基础上,结合粒度计算(granular computing,GrC)理论,针对数据规模和分布密度不平衡的数据集,提出一种基于粒度偏移因子的粒度支持向量机(granular SVM,GSVM)学习方法,称为S_GSVM方法.该方法将原始样本用Mercer核映射到高维空间,然后在高维空间中对数据进行有效的粒划分,通过对不同的粒计算不同的超平面偏移因子,重新构造支持向量机的凸二次优化问题,以得到一个泛化能力更好的分类超平面.S_GSVM方法充分考虑了数据复杂分布对于泛化能力的影响,对基于最大间隔的分类面进行改进.实验结果表明,S_GSVM方法在非平衡数据集上能得到较好的泛化性能. 郭虎升 王文剑关键词:支持向量机