陈黎 作品数:61 被引量:238 H指数:7 供职机构: 四川大学计算机学院 更多>> 发文基金: 国家自然科学基金 四川省科技支撑计划 国家教育部博士点基金 更多>> 相关领域: 自动化与计算机技术 文化科学 理学 经济管理 更多>>
一种面向专业搜索引擎的查询推荐算法 被引量:4 2013年 根据专业搜索引擎的特点,提出了一种新颖的基于词语共现与HITS算法的查询推荐算法QR-CH(Query Recom-mendation algorithm based on word Co-occurrence and HITS algorithm)。该算法一方面利用HITS算法对基于词语共现筛选出的关联词按语义关联性进行排序,选取排序靠前的关联词作为推荐词,提高了推荐词与原查询词的相关性;另一方面使用HITS算法排序关联文档,从查询结果文档集的角度来判断推荐是否冗余,降低了推荐词的冗余性。该算法将推荐相关的信息存储到知识树中,利用知识树实现查询推荐。实验结果表明QR-CH算法在推荐词的相关性和冗余词的判断方面均优于文献中已有的类似算法。 王桂华 秦湘清 陈黎 王亚强 于中华关键词:查询推荐 专业搜索引擎 长度分布约束下的摘要文本无监督分割算法 被引量:2 2017年 作为文章内容的浓缩表达,摘要蕴含着文章关键的发现和结论。自动分析挖掘摘要内容,对于充分利用快速增长的科技文献具有重要意义。该文以Medline生物医学文章的摘要为对象,对摘要的文本分割问题进行了研究。针对摘要各论述侧面(内容块)之间在长度分布上倾向于均匀的特点,提出了一种考虑长度分布约束的摘要文本无监督分割算法,该算法以信息熵作为长度分布均匀性的度量指标,将信息熵与块内语义相似度及块间语义相似度相结合作为优化的目标函数,采用动态规划方法搜索最佳分割点。在8 603篇Medline摘要上对算法进行了实验验证,并与文献中最新的无监督分割算法进行了实验对比。结果表明,该文提出的增加了长度分布约束的分割算法更加适用于摘要文本分割,分割的准确率有3%的提高。 骆俊帆 陈黎 于中华 丁革建 罗谦关键词:文本分割 动态规划 生物医学 清代成都重庆城市发展比较研究 清代的成都、重庆代表着两种不同的城市类型,前者是传统的内陆政治中心城市,有很强的政治军事功能;后者是近代开埠后迅速发展起来的沿江经济中心城市,经济功能异常突出,它们各自发展的特殊性与同一性对此时期其他城市而言较为典型。因... 陈黎关键词:清代 城市发展 文献传递 基于K近邻的新话题热度预测算法 被引量:30 2012年 随着互联网的快速发展,网络舆情成为政府部门和企业以及社会大众关注的焦点,对网络舆情进行有效监管和正确引导是当前亟待解决的问题,话题热度预测是舆情监管和引导的基础。针对现有算法无法对新话题的热度进行有效预测的缺点,提出了一种基于K近邻的新话题热度预测算法。该算法利用与新话题相似的历史话题的点击数时间序列来对新话题的热度进行预测。实验结果表明,在允许相对误差分别低于10%、20%和30%的情况下,算法预测的前3天点击数的平均正确率分别为47.26%、61%和67.7%,点击数变化趋势平均正确率达到73.73%,这也说明了相似的话题在话题出现的初期具有近似的热度变化趋势。 聂恩伦 陈黎 王亚强 秦湘清 金宇 于中华关键词:K-近邻算法 网络舆情 基于K近邻的腧穴配方自动生成算法 被引量:1 2013年 针灸是中医的重要组成部分,运用新兴技术挖掘大量隐藏在针灸诊疗记录中的规律,既可推动针灸更好地为国民健康服务,又能促进中医现代理论体系的完善。腧穴(即穴位)的选择是针灸治病的关键,而运用现代技术选择腧穴的研究还处于起步阶段。以数据挖掘技术为手段,提出了一种基于K近邻方法的腧穴处方自动生成算法。该算法通过分析病历库中与目标现病史最相似K条病历的穴位配方,来自动给出患者针灸治疗的推荐方案。为更好地计算病历的相似性,根据针灸临床数据的特点分别采用了规范症状、一元字串(unigram)和二元字串(bigram)三种特征。在包含6 267条针灸临床病历的数据集上对算法的有效性进行了验证,实验结果表明使用一元字串和二元字串的特征更适合腧穴处方的自动生成,在删除或保留患者复诊数据这两种情况下F度量值分别可达到40.30%和62.71%。 李云松 王亚强 陈黎 秦湘清 于中华 黄文静关键词:K近邻 特征提取 基于登录词邻接关系的双条件概率的领域术语抽取算法 被引量:2 2011年 领域词典作为中文信息处理的基础,在各个领域都有着重要的应用.而人工构建领域词典不仅工作量大,而且缺乏时效性.因此,自动构建领域词典成为目前研究的重点,而构建领域词典的关键是从领域语料中自动抽取领域术语.本文以金融领域作为切入点,提出了根据登录词前后邻接关系计算邻接词之间的双条件概率自动识别领域术语.实验证明,本文提出的算法不仅能够有效地提取新术语,同时在小语料和低词频情况下也能取得较好的效果. 陈黎 于中华 王亚强 秦湘清关键词:术语抽取 领域词典 Nave Bayes分类器制导的专业网页爬取算法 被引量:3 2010年 从Web中快速、准确地检索出所需信息的迫切需求催生了专业搜索引擎技术。在专业搜索引擎中,网络爬虫(Crawler)负责在Web上搜集特定专业领域的信息,是专业搜索引擎的重要核心部件。该文对中文专业网页的爬取问题进行了研究,基于KL距离验证了网页内容与链接前后文在分布上的差异,在此基础上提出了以链接锚文本及其前后文为特征、Nave Bayes分类器制导的中文专业网页爬取算法,设计了自动获取带链接类标的训练数据的算法。以金融专业网页的爬取为例,分别对所提出的算法进行了离线和在线测试,结果表明,Nave Bayes分类器制导的网络爬虫可以达到近90%的专业网页收割率。 韩国辉 陈黎 梁时木 唐小棚 王亚强 于中华关键词:中文信息处理 BAYESIAN CLASSIFIER 异戊醛胺羰化合成N-乙酰基亮氨酸的催化反应研究 被引量:2 2001年 以 Pd Cl2 /PPh3/Na Br组成的催化剂体系催化异戊醛胺羰化反应 ,通过对配体浓度、助催化剂、反应温度、压力等的考察 ,选择出优化的反应条件 .对助催化剂碱金属溴化物中阳离子对催化活性的影响研究表明 ,碱金属阳离子对反应的促进作用顺序为 L i+ >Na+ >NH4+ >K+ .在少量硫酸存在、 90℃、 5 .0 MPa一氧化碳压力下 ,N-乙酰基亮氨酸的收率可达 76 .9% 黄雪原 陈黎 陈华 胡家元 李贤均关键词:钯催化剂 N-甲基吡咯烷酮 催化活性 助剂 利用异构图神经网络实现情绪-原因对的有效抽取 被引量:1 2023年 情绪-原因对的自动抽取,是文本情感分析的新任务,旨在以子句为单位,从不带任何标注的原始文本中识别情绪表达,并确定产生相应情绪的原因,形成情绪-原因对。完成上述任务的关键是有效捕捉情绪和原因之间以及不同情绪-原因对之间的关联。针对现有研究在捕捉这些关联方面存在的粒度过粗、无法有效区分不同子句对之间因果关系的相互影响等不足,提出了一种基于异构图神经网络的情绪-原因对抽取方法。该方法首先构建以子句和子句对为顶点的异构图,其中子句和子句对之间以及不同的子句对之间存在不同类型的边,用于捕捉各种细粒度的关联;然后采用带有注意力机制的异构图神经网络顶点表达更新算法,对子句和子句对的初始表达进行迭代更新;接着将更新后的子句对表达输入到二元分类器,通过该分类器判断相应的子句对是否存在情绪-原因关系。在情绪-原因对抽取任务的基准数据集上进行的实验表明,所提基于异构图神经网络的方法具有稳定的效果提升,在F1值上比当前最好的方法高0.85%;如果底层编码器(用于得到初始的子句表达和子句对表达)采用BERT,F1值可以达73.12%,也优于底层编码器同样采用BERT的现有最新算法。 蒲金垚 卜令梅 卢永美 叶子铭 陈黎 于中华关键词:情感分析 基于综合相似度迁移的协同过滤算法 本发明公开了一种基于综合相似度迁移的协同过滤算法,与现有技术相比,本发明在相似度计算上,即利用了用户评分信息同时也利用了用户属性信息,并且考虑了用户间对满意度的打分标准的差异性,采用了用户评分分布一致性来衡量用户评分相似... 琚生根 孙界平 陈黎 夏欣 金玉 王婧研文献传递