国家教育部博士点基金(20040698028)
- 作品数:4 被引量:16H指数:2
- 相关作者:郑庆华孙霞董乐红龚智勇丁娇更多>>
- 相关机构:西安交通大学西北大学更多>>
- 发文基金:国家教育部博士点基金国家自然科学基金国家科技攻关计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于网页元数据的用户访问行为建模方法被引量:4
- 2008年
- 针对现有行为建模方法难以描述行为语义的问题,提出了一种分层次的用户行为元模型以及一种基于页面元数据的Web用户行为建模方法.该方法从URL的访问、活动、事务3个层次建立Web用户的行为模型,并对页面元数据获取以及在URL的访问、行为、事务之间转化等问题进行了说明.方法及模型不仅描述了用户访问序列信息,还增加了访问内容的局部主题和关键词等信息,为进一步获取Web用户的行为语义特征奠定了很好的基础.通过西安交通大学的Web教学系统验证表明,利用所提方法获得的序列划分准确率达86%以上.
- 杜瑾刘均郑庆华丁娇龚智勇韩殿哲
- 关键词:元数据
- 一种基于分辨函数的属性约简算法及其应用被引量:1
- 2008年
- 针对个性化网络学习中影响学习策略的关键个性特征发现问题,基于粗糙集理论,提出了一种采用分辨函数进行属性约简的算法.应用分辨函数原理,逐次比较论域中的对象,以获取核集和非核集;利用逻辑运算求取最佳约简,并对约简集合的属性进行影响因子的排序,提取出关键个性特征属性.在西安交通大学英语学习网站平台上的实验结果表明,所提算法得出的学习者关键个性特征维数仅为原始维度的1/4,并可自动发现学习者关键个性特征知识,揭示个性特征和学习策略间的客观关系,精简50%的数据量.
- 吴茜媛郑庆华刘广东
- 关键词:网络学习属性约简
- 基于监督学习的同义关系自动抽取方法被引量:9
- 2008年
- 目的解决从大规模文本中自动获取同义关系。方法将同义关系抽任务取看成一个二值分类问题,将其分为训练阶段和抽取阶段,共4个处理模块:预处理、特征生成、模型训练和分类。结果提出并建立了一种新的同义关系抽取模型,并给出了该模型的关键实现算法。结论提出的方法比基于模板方法的F_1值高出了24.4%,大幅度提高了同义关系抽取结果的精度。同时提出的方法有效地改善了基于模板方法领域自适应性差的缺点,所定义的特征和特征的权重计算更适合于判定学习算法。
- 孙霞董乐红
- 一种面向非平衡数据的邻居词特征选择方法被引量:2
- 2008年
- 在非平衡数据情况下,由于传统特征选择方法,如信息增益(Information Gain,IG)和相关系数(Correlation Coefficient,CC),或者不考虑负特征对分类的作用,或者不能显式地均衡正负特征比例,导致特征选择的结果下降.本文提出一种新的特征选择方法(Positive-Negative feature selection,PN),用于邻居词的选择,实现了文本中术语的自动抽取.本文提出的PN特征选择方法和CC特征选择方法相比,考虑了负特征;和IG特征选择方法相比,从特征t出现在正(负)训练文本的文本数占所有出现特征t的训练文本数比例的角度,分别显式地均衡了正特征和负特征的比例.通过计算特征t后面所跟的不同(非)领域概念个数占总(非)领域概念个数比值分别考察正、负特征t的重要性,解决了IG特征选择方法正特征偏置问题.实验结果表明,本文提出的PN特征选择方法优越于IG特征选择方法和CC特征选择.
- 孙霞郑庆华
- 关键词:非平衡数据术语抽取