国家社会科学基金(12CTQ042)
- 作品数:13 被引量:94H指数:6
- 相关作者:万常选刘德喜钟敏娟江腾蛟边海容更多>>
- 相关机构:江西财经大学蒙特利尔大学华南理工大学更多>>
- 发文基金:国家社会科学基金国家自然科学基金江西省自然科学基金更多>>
- 相关领域:自动化与计算机技术经济管理文化科学更多>>
- 基于结点权重模型的XML片段检索策略被引量:5
- 2013年
- 当用户向XML检索引擎提交查询后,返回的结果通常远远多于用户的期望,返回结果中难免有一些不相关的文档或结点.对于以文档为中心的XML文档集合,XML片段检索是根据用户的查询,从XML检索引擎返回的XML文档或结点中抽取出仅包含数百字节的片段,用户可以通过该片段判断片段所在的XML文档或结点与查询的真实相关性,以决定是否有必要进一步阅读,从而有效地提高从XML文档中获取信息的效率.该文提出了基于结点权重模型的XML片段检索策略.该策略先利用结点权重模型ATG(平均主题概括强度)对XML文档集中的标签或路径设置权重,再将该权重用于BM25模型,得到BM25NW检索模型.在利用BM25NW检索出XML结点后,对结点中定长窗口进行评分,考察其是否适合作为片段内容.最后在保证信息冗余较小的条件下,选择得分较高的窗口内容组成片段返回给用户.INEX 2011片段检索任务上的评测结果显示,基于结点权重模型ATG的XML片段检索策略具有很强的竞争力,性能明显优于其它参赛系统.
- 刘德喜万常选刘喜平钟敏娟江腾蛟
- 基于词性标注和依存句法的Web金融信息情感计算被引量:17
- 2013年
- 基于词袋模型的文本情感倾向性分析没有考虑句子的句法结构对句子语义的理解,基于依存句法分析的方法试图解决这一问题.目前基于依存句法分析的方法对影响文本情感的依存关系的选择多根据人为观察,带有随意性.根据影响句子情感倾向性的原极性、修饰极性和动态极性,1)找出了影响句子情感倾向性的4种词性:形容词、动词、副词和名词;2)从词性和汉语句子成分理解的角度,逐一分析了24种依存关系对句子情感计算的影响,找出了可能影响句子情感倾向性的8种依存关系;3)根据这8种依存关系中可能的词性组合设计了6种情感计算规则,并提出了基于二叉树的情感计算策略,设计了情感计算二叉树的构建算法和基于情感计算二叉树的情感计算算法;4)在Web金融信息上进行了实验测试,实验结果表明了该方法的有效性.
- 万常选江腾蛟钟敏娟边海容
- 关键词:情感计算词性标注依存句法分析
- 基于较高质量扩展源和局部词共现模型的XML查询词扩展
- 2014年
- 查询词扩展要解决两个方面的问题:一是扩展词的来源,二是如何在来源集合里挑选扩展词项。对此,首先利用检索结果聚类和排序模型获取了较高质量的相关文档集合,并以此作为扩展源;然后结合XML文档的特点,通过词项间的局部共现特征进行查询扩展。相关实验结果表明,一方面,所采用的检索结果聚类和排序模型的相关文档集扩展源具有较高的用户查询相关性,相比传统的伪反馈扩展源,具有更高的质量;另一方面,提出的结合了XML结构特点的词共现查询扩展方案能获得与用户查询意图相关的扩展信息,与初始查询和无结构的词项扩展方法相比,所提方法能够更有效地提高搜索引擎检索性能。
- 钟敏娟万常选刘德喜廖述梅焦贤沛
- 关键词:词共现XML结构
- 基于关联规则挖掘和极性分析的商品评论情感词典构建被引量:14
- 2016年
- 作为情感倾向性分析的基础性工作,情感词典构建包括情感词的识别与极性判断两大任务。本文以亚马逊网站上的音乐商品评论信息作为数据源,力图构建该领域的情感词典。首先利用关联规则挖掘算法充分挖掘领域主题词和情感词之间的关系,获取体现领域特征的情感词;然后针对每个情感词,引入词项间的混合相关关系,结合PageRank模型构建情感词的量化图模型,获得每个情感词的极性。实验结果表明,本文所提方法能有效地构建音乐领域情感词典,不仅能够识别该领域特征的情感词,同时还能较为准确地判断该情感词的情感原极性。
- 钟敏娟万常选刘德喜
- 关键词:情感词典关联规则PAGERANK
- 网络金融信息与上市公司财务状况的关系研究被引量:15
- 2013年
- 随着互联网的发展,网络金融信息对于资本市场所起的作用日渐为人们所重视。通过分析网络金融信息与上市公司财务状况的关系,发现网络金融信息情感值和信息热度与上市公司财务状况的多个方面均具有相关性,尤其是与偿债能力和盈利能力的相关性尤为显著。网络金融信息情感值中蕴含有上市公司财务指标所不具备的信息,在对上市公司是否会被ST的预测时,可以作为财务指标的有效补充,提高预测效率,但是信息热度指标的影响却几乎可以忽略。
- 边海容万常选万建香
- 关键词:情感分析财务状况
- 基于高质量反馈源的XML查询扩展被引量:1
- 2013年
- 有效避免伪反馈的“查询主题漂移”主要需要解决两大问题,一是如何确定相关文档,形成较高质量的伪相关文档集,另一个是在伪相关文档集里如何挑选扩展信息。本文主要研究在获取了高质量伪相关文档集合的基础上如何有效进行XML查询扩展。针对XML文档的特点,提出了扩展向量空间模型的查询词扩展方法。实验结果表明,与初始查询和传统的词项扩展方法相比,该扩展方法更能获得与用户查询意图相关的扩展信息,更能有效地提高检索质量和性能。
- 钟敏娟万常选刘德喜江腾蛟
- 互联网产品评论信息中垃圾评论的识别方法浅析
- 2014年
- 互联网的开放性使得当前互联网上的用户生成内容没有质量控制机制,产品评论中存在大量垃圾评论,如何识别这些垃圾评论信息成为重要问题。本文对产品评论信息中垃圾评论的识别方法进行了综述,先将产品垃圾评论和互联网上其他常见的垃圾信息进行了对比,然后从产品垃圾评论检测的数据集、识别方法两个角度对相关工作做了概述和分析,最后在上述工作的基础上提出了一些值得产品垃圾评论识别研究进一步关注的问题。
- 许少岩钟敏娟
- 关键词:用户行为
- 考虑Web金融信息的上市企业财务危机预测模型研究被引量:14
- 2013年
- 以往财务危机预测研究主要基于财务指标,而随着研究的深入,财务指标本身的局限性也日益凸显,如财务报表的滞后性及财务数据易于被操纵等,这影响了财务危机预测模型的性能。鉴于此,通过情感倾向值的计算,将Web金融信息文本有效地数值化,并将其作为预测指标变量用于财务危机预测,使用LIBSVM分别构建纯财务指标预测模型和引入Web金融信息指标变量后的混合指标预测模型,并对模型的预测结果进行了比较分析。混合指标预测模型在预测的有效性、稳定性和超前性上均好于纯财务指标预测模型。
- 边海容万常选刘德喜江腾蛟
- 关键词:情感分析财务危机
- 基于特征词权重的文本分类被引量:1
- 2012年
- 在文本分类时,只有少数学者利用特征词权重对文本进行向量表示,但是所使用的特征选择算法没有考虑特征词权重的正负及其范围等。因此,本文在CHI统计基础上提出一种计算特征词类相关性的新方法,并根据各类特征集中包含的特征词的数量,选用不同的文本类相关性计算方法;在判定文本类别过程中,只使用文本包含的特征词的个数及其类相关性,对含特征词少的文本也能很好判别。实验表明,该方法有效可行。
- 杨莉万常选雷刚俞涛孔保新
- 关键词:文本分类
- 基于检索结果聚类的XML伪相关文档查找被引量:1
- 2013年
- 传统伪相关反馈容易产生"查询主题漂移",有效避免"查询主题漂移"的首要前提是确定高质量的相关文档,形成与用户查询需求相关的伪相关文档集合。在检索结果聚类的基础上,研究了XML伪相关文档查找方法,在充分考虑XML内容和结构特征的前提下,提出了基于均衡化权值的簇标签提取方法,并以此为基础,提出了候选簇的排序模型和基于候选簇的文档排序模型。相关实验数据表明,与初始检索结果相比,排序模型获得了较好的性能,有效地查找到了更多的XML伪相关文档。
- 钟敏娟万常选刘德喜廖述梅
- 关键词:信息检索