教育部人文社会科学研究基金(11YJC630268)
- 作品数:7 被引量:59H指数:3
- 相关作者:杨小平徐静朱建林张永俊张中夏更多>>
- 相关机构:中国人民大学中华女子学院北京联合大学更多>>
- 发文基金:教育部人文社会科学研究基金国家自然科学基金北京市自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于CRF模型的网络新闻主题线索发掘研究被引量:6
- 2017年
- 为了准确挖掘出同一主题的大量网络新闻的线索发展脉络,该文提出了一种基于条件随机场模型的网络新闻主题线索发掘方法。首先,根据新闻主题线索句的识别规则提取出相关特征,并应用到条件随机场模型中提取出主题线索句;然后,按照时间顺序构建原始线索链;最后,对语义相近的原始线索链进行合并处理,获得最终的新闻主题发展脉络。实验结果表明,该方法在主题线索句识别上有较好的效果,最终得到的主题线索脉络能够较清晰地展现新闻发展趋势。
- 徐静杨小平
- 关键词:条件随机场
- 基于内容信任的Web信息可信度验证方法研究被引量:6
- 2014年
- Web已经成为人们获取信息的重要来源,但Web上的信息并不都是真实可信的.因此,如何帮助用户快速判断Web上大量信息的可信性成为一个亟待解决的问题.文中提出一种基于内容信任的方法用以验证Web信息的可信程度.采用条件随机场模型进行Web信息的主题提取,利用提取的主题在Web上搜集候选证据,并利用时效性、主题相关度等特征验证候选证据的可靠性,最后进行可信度计算.实验结果表明提出的方法对评价Web信息的内容可信度是有效可行的.
- 徐静杨小平柳增
- 关键词:WEB信息条件随机场
- 融入内部语义关系对文本分类的影响研究被引量:3
- 2016年
- 为了在不加入外部语义知识的前提下改善向量空间模型的文本分类效果,通过挖掘语料库内部蕴含的词间关系和文本间关系,并以不同的方式融入原始的词文本矩阵,然后选择常用的SVM和KNN算法,在领域性较强的法律语料库和领域性较宽泛的新闻语料库上进行文本分类的对比实验。实验证明,加入词间关系和文本间关系通常能有效改善文本分类的效果,但是对不同的分类方法和领域特征有不同的影响,在实际应用中应该区别对待。
- 朱建林杨小平彭鲸桥
- 关键词:向量空间模型文本分类语义挖掘特征矩阵
- 基于Struts2技术的社交网络服务平台被引量:2
- 2014年
- 以应用Struts2技术为核心,提出一种社交网络服务平台的设计方案.通过对用例模型的设计、对基于MVC设计模式的Struts2技术的应用、对用例实现算法的研究等过程,该实施方案将平台结构进行清晰的逻辑划分;可将三层逻辑结构进行有效的分离;可为基于主流框架技术的平台设计提供一个借鉴的实例;可为平台商业决策的制定提供一个技术性的分析环境.
- 陈默杨小平李瑶李震宇
- 关键词:STRUTS2社交网络服务MVC
- 基于Word2Vec的情感词典自动构建与优化被引量:40
- 2017年
- 情感词典的构建是文本挖掘领域中重要的基础性工作。近几年,情感词典的极性标注从二元褒贬标注向多元情绪标注发展,词典的领域特性也日趋明显。但是情感类别的手工标注不但费时费力,而且情感强度难以得到准确量化,同时对领域性的过分关注也大大限制了情感词典的适用性[1]。通过神经网络语言模型对大规模中文语料进行统计训练,并在此基础上提出了基于转换约束集的多维情感词典自动构建方法;然后研究了基于词分布密度的感情色彩消歧方法,对兼具褒贬意味词语的感情极性进行区分和识别,并分别计算两种感情色彩下的情感类别与强度;最后提出基于多个语义资源的全局优化方案,得到包含10种情绪标注的多维汉语情感词典SentiRuc。实验证实该词典1)在类别标注检验、强度标注检验、情感消歧效果及情感分类任务中均具有良好的效果,其中的情感强度检验证实该词典具有极强的情感语义描述力。
- 杨小平张中夏王良张永俊马奇凤吴佳楠张悦
- 关键词:情感分析