教育部人文社会科学研究基金(09YJCZH019) 作品数:8 被引量:53 H指数:5 相关作者: 朱艳辉 邓程 杜锐 徐叶强 王文华 更多>> 相关机构: 湖南工业大学 广东外语外贸大学 更多>> 发文基金: 教育部人文社会科学研究基金 湖南省自然科学基金 国家社会科学基金 更多>> 相关领域: 自动化与计算机技术 更多>>
中文产品评论中属性词抽取方法研究 被引量:12 2011年 针对现有属性词抽取方法的准确率和覆盖率偏低问题,利用百度百科和分词后相邻词语同现比例识别专业领域生词,降低分词错误对属性词识别的影响,在中文产品评论语料中通过设计词性序列模板获得候选属性词集,该词性序列模板包含名词和名词短语模板、动词和动词短语模板,采用统计技术和自然语言处理技术筛选候选属性词。实验结果表明,对于3 623篇手机评论文章,利用该方法可获得1 732个属性词,准确率为0.565、召回率为0.726、调和平均值为0.636,具有较好的抽取性能。 栗春亮 朱艳辉 徐叶强关键词:属性词 基于C4.5算法的健身俱乐部会员数据挖掘研究 被引量:2 2012年 以已投入使用的健身俱乐部管理系统为背景,提出了用C4.5决策树分类算法对健身记录进行数据挖掘。通过该方法找出俱乐部在有效期内的会员的年龄段、性别、会员卡类型和参与健身时间段的规律,提取特定时间段内参与健身的会员特征。实验结果表明:将该分类规则应用到会员管理系统中,可以辅助健身俱乐部的管理者有针对性地制定营销方案。 邓程 朱艳辉 杜锐 鲁林关键词:C4 健身俱乐部 基于二元搭配词的微博情感特征选择 被引量:6 2014年 分析和监测微博文本中所包含的情感信息,能够挖掘用户行为,为微博舆情监管提供借鉴。但微博文本具有长度较短、不规范、存在大量变形词和新词等特点,仅以情感词为特征对微博进行分类的方法准确率较低,难以满足实际使用。为此,基于微博语料构建二元搭配词库,并根据PMI-IR算法结合语料库统计信息,提出搭配词组情感权值的计算方法PMI-IR-P。结合情感词典,采用统计方法生成微博情感特征向量,利用机器学习中的C4.5算法构建分类模型,对微博文本进行情感倾向分类。分别使用不同的数据集用于构建搭配词库及分类模型,并与基于情感词典的分类方法以及朴素贝叶斯分类方法进行对比。实验结果表明,提出的情感特征通过运用C4.5算法对微博文本情感分类的准确率达到87%,具有较好的效果。 周剑峰 阳爱民 周咏梅 王璇璇关键词:C4 基于SVM的产品评论属性特征的情感倾向分析 被引量:9 2012年 产品评论的情感倾向性分析是一个很有研究价值的领域,可以帮助客户、商家进行决策。针对产品评论中的属性词和情感词在文本中的各种关系,制定了8组特征选择规则,利用SVM算法训练模型来判断属性词和情感词的搭配识别,进而依据情感词及否定词等分析属性特征的情感倾向。实验结果表明:提出的基于S V M的搭配识别方法,在识别属性特征与情感词的搭配方面具有不错的分类效果。 王文华 朱艳辉 徐叶强 杜锐 鲁琳 邓程关键词:支持向量机 文本分类 中文信息处理 基于SVM的中文微博观点句识别算法 被引量:7 2013年 针对中文微博中的海量文本,提出了利用领域观点词词典和支持向量机的方法对中文微博中的观点句进行识别。构建领域观点词词典,统计了表示中文微博观点句的5个特征,选取特征1,2,3,4进行观点句识别,并将基于支持向量机的3种不同特征组合识别算法与基于领域观点词词典的识别算法进行对比。算法对比结果表明,基于支持向量机的算法对微博观点句的识别效果较好,准确率68.75%,召回率48.71%,F值57.02%。 杜锐 朱艳辉 鲁琳 王文华 邓程 喻魁兰关键词:支持向量机 中文产品评论中评价对象的识别研究 被引量:11 2012年 在中文产品评论中利用无监督的识别评价对象,准确率和召回率较低。为此,提出一种中文产品评论中的评价对象识别方法。对特殊词、评价对象非完整性、评价对象非稳定性等情况过滤噪声,利用评价对象在评论文本中与评价短语规则出现频率较高的特征,进行置信度排序。实验结果表明,对于14 799篇数码类评论文章,该方法的准确率、召回率和F值分别为0.605、0.780、0.681。 徐叶强 朱艳辉 王文华 杜锐 鲁琳 邓程 刘洪婧关键词:完整性 稳定性 一种基于粗糙集的微博文本特征选择方法 被引量:4 2013年 对中文微博中主客观分类特征的选取进行了研究。通过词典与统计相结合的方法提取了基础情感词、语气词、程度词等8个候选特征。对提取的候选特征,提出了一种基于粗糙集与概率加权的特征选择算法,通过该算法最终选取了基础情感词、!或!、网络观点词、语气词、形容词、程度词作为分类特征。实验结果表明,提出的方法能达到较好的分类效果。 杜锐 朱艳辉 鲁琳 邓程 梁韬关键词:粗糙集 基于Lucene的海量数据库全文检索的设计与实现 被引量:4 2011年 基于Lucene实现了一个海量数据库全文检索的原型。把关系数据库引入了本系统,可针对不同类型的源数据库灵活配置,比采用配置文件更加灵活;采用多线程,通过动态机制来实现不同类型源数据库中记录的抽取、转换、建立索引;提供定时自动更新索引的功能;提供多种检索方式。 徐叶强 朱艳辉 栗春亮 王文华关键词:LUCENE 关系数据库 中文产品评论中属性词抽取方法研究 利用百度百科和分词后相邻词语同现比例来识别生词,降低分词错误对属性词识别的影响。设计词性序列模板在中文产品评论语料中获得候选属性词集,然后采用一系列有效的统计技术和自然语言处理技术筛选候选属性词。实验证明抽取属性词的方法... 栗春亮 朱艳辉 徐叶强关键词:属性词 文献传递