王亚强 作品数:14 被引量:69 H指数:4 供职机构: 四川大学计算机学院 更多>> 发文基金: 国家教育部博士点基金 国家自然科学基金 浙江省自然科学基金 更多>> 相关领域: 自动化与计算机技术 自然科学总论 更多>>
一种面向专业搜索引擎的查询推荐算法 被引量:4 2013年 根据专业搜索引擎的特点,提出了一种新颖的基于词语共现与HITS算法的查询推荐算法QR-CH(Query Recom-mendation algorithm based on word Co-occurrence and HITS algorithm)。该算法一方面利用HITS算法对基于词语共现筛选出的关联词按语义关联性进行排序,选取排序靠前的关联词作为推荐词,提高了推荐词与原查询词的相关性;另一方面使用HITS算法排序关联文档,从查询结果文档集的角度来判断推荐是否冗余,降低了推荐词的冗余性。该算法将推荐相关的信息存储到知识树中,利用知识树实现查询推荐。实验结果表明QR-CH算法在推荐词的相关性和冗余词的判断方面均优于文献中已有的类似算法。 王桂华 秦湘清 陈黎 王亚强 于中华关键词:查询推荐 专业搜索引擎 基于本体翻译的领域本体自动构建 被引量:3 2011年 手工构建本体是一项既费时又费力的工作,为解决此项工作的瓶颈问题,本体自动构建成为当前的一个研究热点和重点。考虑到不同语言描述的本体在本质上是相同的,只是表层的表示符号不同,提出了一种基于本体翻译的领域本体自动构建算法,该算法针对已存在本体中概念标签的不同情况,分别采用不同的统计指标来筛选标签的目标语翻译。通过将一个英文金融本体翻译成中文对算法进行了实验验证,说明了算法的有效性。 卢文兴 陈黎 朱洪波 王亚强 韩国辉 于中华关键词:语义网 本体 信息熵 基于K近邻的新话题热度预测算法 被引量:30 2012年 随着互联网的快速发展,网络舆情成为政府部门和企业以及社会大众关注的焦点,对网络舆情进行有效监管和正确引导是当前亟待解决的问题,话题热度预测是舆情监管和引导的基础。针对现有算法无法对新话题的热度进行有效预测的缺点,提出了一种基于K近邻的新话题热度预测算法。该算法利用与新话题相似的历史话题的点击数时间序列来对新话题的热度进行预测。实验结果表明,在允许相对误差分别低于10%、20%和30%的情况下,算法预测的前3天点击数的平均正确率分别为47.26%、61%和67.7%,点击数变化趋势平均正确率达到73.73%,这也说明了相似的话题在话题出现的初期具有近似的热度变化趋势。 聂恩伦 陈黎 王亚强 秦湘清 金宇 于中华关键词:K-近邻算法 网络舆情 基于K近邻的腧穴配方自动生成算法 被引量:1 2013年 针灸是中医的重要组成部分,运用新兴技术挖掘大量隐藏在针灸诊疗记录中的规律,既可推动针灸更好地为国民健康服务,又能促进中医现代理论体系的完善。腧穴(即穴位)的选择是针灸治病的关键,而运用现代技术选择腧穴的研究还处于起步阶段。以数据挖掘技术为手段,提出了一种基于K近邻方法的腧穴处方自动生成算法。该算法通过分析病历库中与目标现病史最相似K条病历的穴位配方,来自动给出患者针灸治疗的推荐方案。为更好地计算病历的相似性,根据针灸临床数据的特点分别采用了规范症状、一元字串(unigram)和二元字串(bigram)三种特征。在包含6 267条针灸临床病历的数据集上对算法的有效性进行了验证,实验结果表明使用一元字串和二元字串的特征更适合腧穴处方的自动生成,在删除或保留患者复诊数据这两种情况下F度量值分别可达到40.30%和62.71%。 李云松 王亚强 陈黎 秦湘清 于中华 黄文静关键词:K近邻 特征提取 基于多分类器的金融领域多元关系信息抽取算法 被引量:6 2011年 为深入分析金融领域文本信息给投资决策提供支持,研究了从中文文本中识别收购类事件描述句及抽取事件角色(即识别关系及关系的元)相关问题。在事件句的识别上,提出了基于SVM的有监督算法。对于关系识别及关系元的抽取,针对多元关系的特点,分别设计了单分类器的算法和多分类器的算法,单分类器的算法由一个分类器负责识别多元关系的所有角色,而多分类器算法使用不同的分类器来识别具有不同语义约束的角色。实验结果表明,多分类器的算法明显优于单分类的算法,角色识别的F-Measure可以提高1.9%。 赵小明 朱洪波 陈黎 王亚强 秦湘清 于中华关键词:事件抽取 有监督学习 面向电子商务网站的产品属性提取算法 被引量:3 2013年 从商品评论中抽取作为评价对象的产品属性及判断评价的极性(正面评价、负面评价、中性评价),对于充分挖掘利用电子商务网站上积累的大量商品评论,为消费者的购物决策和生产者的生产决策提供支持,具有重要意义.本文针对现有算法的不足,结合中文电子商务网站中商品评论的特点,提出了综合模板、频率和HITS的无监督学习算法,用于从中文商品评论中识别产品属性.充分的实验结果表明,所提出的无监督算法对产品属性识别的F值可以达到77.3%,优于文献中提出的其他类似算法. 李俊 陈黎 王亚强 秦湘清 于中华关键词:抽取 HITS LDA和KNN相结合的帖子热度预测算法 被引量:7 2014年 随着互联网的快速发展,网络舆情对社会的影响与日俱增.对互联网上网民产生的海量文本内容进行快速准确的分析,以及在此基础上捕捉网络舆情,并对其发展趋势进行预测,对社会经济发展无疑具有重要意义.为此,本文研究了论坛中帖子的热度预测问题,针对现有算法在度量帖子内容相似性时仅仅考虑字面上的相似性,未涉及语义层面,并且未考虑发帖人的特定喜好等不足,提出了LDA(潜在狄利克雷分配)与KNN(K近邻)相结合的热度预测算法,该算法利用LDA挖掘帖子表面文本隐藏的主题信息和用户感兴趣的主题信息,在概念层面上度量帖子之间的相似性,在此基础上基于KNN算法对帖子的热度进行预测.在两组数据集的实验结果表明,所提出的算法在预测准确率方面明显优于相关工作中的方法,平均准确率分别提高了4.34%和2.52%. 王卫姣 陈黎 王亚强 聂恩伦 何建英 金晖 于中华关键词:网络舆情 K近邻 基于查询相关性分析的检索结果聚类算法 2011年 随着互联网的普及和网页数量的飞速增长,搜索引擎已经成为从网上获取信息的首选工具.然而,目前主流的搜索引擎在响应用户提交的检索请求时,往往以较长的一维列表形式分页展示结果,为了找到自己所需要的信息,用户必须对该结果列表进行耐心的浏览.为了进一步提高用户获取信息的效率和质量,减轻用户的劳动强度,研究者提出了对检索结果进行再挖掘、再组织的问题,聚类就是其中的研究热点之一.本文在分析现有检索结果聚类算法存在的问题的基础上,提出了基于查询相关性分析的标签驱动聚类算法,该算法通过分析短语与查询项的关联程度,提取作为候选簇标签的短语,然后根据这些标签确定网页摘要隶属的候选簇,最后基于对候选簇和标签的评价进行簇筛选和归并,得到聚类结果及每个簇的标签.在相同环境下进行的对比实验表明,所提出的算法优于相关工作,而且需要更少的信息资源支持. 罗宏 陈黎 王亚强 朱洪波 韩国辉 于中华关键词:检索结果聚类 基于直推式学习的中文情感词极性判别 被引量:3 2011年 态度挖掘是近年来文本挖掘领域的热点课题之一,旨在发现文本中作者的主观态度倾向,为基于舆情的决策过程提供支持。目前已有的态度挖掘算法绝大多数都基于情感词典来识别情感词,在此基础上判别句子或文本的总体态度倾向。然而,手工构造和维护一部完善的情感词典是不现实的。对中文情感词的极性判别问题进行了研究,提出了基于直推式学习的中文情感词极性判别算法。该算法以少量情感词为种子,利用词典中词汇的解释信息,直推出其他词的情感极性。与使用相同情感种子词的解释信息作为训练数据的有监督学习算法相比,直推式学习算法的识别精度提高了20%左右。 金宇 朱洪波 王亚强 陈黎 于中华关键词:直推式学习 基于登录词邻接关系的双条件概率的领域术语抽取算法 被引量:2 2011年 领域词典作为中文信息处理的基础,在各个领域都有着重要的应用.而人工构建领域词典不仅工作量大,而且缺乏时效性.因此,自动构建领域词典成为目前研究的重点,而构建领域词典的关键是从领域语料中自动抽取领域术语.本文以金融领域作为切入点,提出了根据登录词前后邻接关系计算邻接词之间的双条件概率自动识别领域术语.实验证明,本文提出的算法不仅能够有效地提取新术语,同时在小语料和低词频情况下也能取得较好的效果. 陈黎 于中华 王亚强 秦湘清关键词:术语抽取 领域词典