国家自然科学基金(61203315)
- 作品数:6 被引量:46H指数:4
- 相关作者:孙晓任福继龙润田高飞更多>>
- 相关机构:合肥工业大学加州理工学院德岛大学更多>>
- 发文基金:国家自然科学基金安徽省科技攻关计划国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于深度模型的社会新闻对用户情感影响挖掘被引量:4
- 2017年
- 该文研究了社会新闻中影响读者情感的深层特征。使用三种文本特征选择方法,分别从一元词、二元词和主题粒度下提取文本浅层特征,使用支持向量机模型选择三种粒度下最优浅层特征并且进行分类,得到最优宏平均F1值分别为60.5%、62.1%、63.3%。引入深度信念网络模型,使用三种粒度下最优浅层特征作为输入,进一步训练和抽象得到深层特征,实验中使用深度为3的深度信念网络模型进行训练与分类,最优宏平均F1值分别为61.4%、63.5%、66.1%。实验结果表明,深层特征比浅层特征具有更多的文本语义信息,可以更好地判断社会新闻对公众情绪影响。
- 孙晓高飞任福继
- 关键词:情感影响社会新闻
- 基于层叠模型细粒度情感要素抽取及倾向分析被引量:10
- 2015年
- 针对商品评论中的细粒度情感要素抽取问题,提出基于条件随机场模型(CRFs)和支持向量机(SVM)的层叠模型.针对情感对象与情感词的识别,将评论的句法信息、语义信息等引入CRFs模型,进一步提高CRFs特征模板的鲁棒性.在SVM模型中,引入情感对象和情感词的深层词义及情感词的基本情感倾向等特征,改进传统的词包模型,对〈情感对象,情感词〉词对进行细粒度的情感分类判断,从而获得商品评论中的情感关键信息:(情感对象,情感词,情感倾向性)三元组.实验表明,文中的CRFs和SVM层叠模型可提高情感要素抽取与情感分类判断的准确性.
- 孙晓唐陈意
- 关键词:情感计算情感要素语义角色
- 基于深层结构模型的新词发现与情感倾向判定被引量:1
- 2015年
- 随着社交网络的发展,新的词汇不断出现。新词的出现往往表征了一定的社会热点,同时也代表了一定的公众情绪,新词的识别与情感倾向判定为公众情绪预测提供了一种新的思路。通过构建深层条件随机场模型进行序列标记,引入词性、单字位置和构词能力等特征,结合众包网络词典等第三方词典。传统的基于情感词典的方法难以对新词情感进行判定,基于神经网络的语言模型将单词表示为一个K维的词义向量,通过寻找新词词义向量空间中距离该新词最近的词,根据这些词的情感倾向以及与新词的词义距离,判断新词的情感倾向。通过在北京大学语料上的新词发现和情感倾向判定实验,验证了所提模型及方法的有效性,其中新词判断的F值为0.991,情感识别准确率为70%。
- 孙晓孙重远任福继
- 关键词:新词发现条件随机场
- 基于重复字串的微博新词非监督自动抽取被引量:4
- 2014年
- 文章基于重复字串的统计特征,同时分析微博中存在的口语化语言特点制定相应的语言规则,采用统计和规则相结合的方法,首先对微博的语料进行分词,然后从分词碎片中提取重复出现2次及2次以上的新词,通过多层过滤,得到最终的候选新词。实验结果证明,该方法有效地保证了较高的准确率和召回率,同时保证了新词的抽取速度。
- 孙晓李承程叶嘉麒任福继
- 关键词:自然语言处理中文分词
- 基于多策略的新浪微博大数据抓取及应用被引量:16
- 2014年
- 微博数据处理属于大数据范畴,其前提是获取大量的微博数据,而由于商业利益以及安全方面的考虑,获取微博数据的途径越来越少。同时随着新浪官方API的逐步更新,数据获取的限制也日益增加。文章尝试利用现有资源,基于多策略获取机制,设计出可稳定获得新浪微博数据的挖掘方案,并给出情感分析应用实例。实验表明,所设计的挖掘方案可以根据需要获取微博上的数据,并可以应用于微博情感分析中。
- 孙晓叶嘉麒唐陈意任福继
- 关键词:大数据数据挖掘网络爬虫