吴瑞红
- 作品数:7 被引量:10H指数:2
- 供职机构:北京信息科技大学更多>>
- 发文基金:国家自然科学基金北京市教委科技发展计划北京市教育委员会科技发展计划更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 问答社区问句中多字词表达提取
- 2014年
- 基于互动问答社区问句中多字词表达和问句理解的关系,提出针对互动问答社区问句进行多字词表达抽取,并基于互动问答社区问句中多字词表达的特点,提出适用于互动问答社区的多字词表达提取方法.该方法在利用互信息和停用词表的方法从问句中抽取候选多字词表达的基础上,将候选多字词表达分为正确串、残缺串、冗余串和错误串4类,借助搜索引擎对查询串的优化和候选多字词表达在互联网上的检索结果,设计候选多字词表达校正方法,实现对多字词表达的提取.以新浪爱问知识人问题库中的问句进行实验,结果表明,多字词表达抽取的准确率、召回率和F值分别达到84%,52%和0.64,验证了该方法的有效性.
- 吴瑞红吕学强李卓舒燕
- 关键词:互信息搜索引擎
- 团队式培养和研究生素质教育
- .研究生是社会高科技发展的主力军,研究生的素质直接关系到社会的发展。本文从教育管理者的角度,首先分析了团队式培养对研究生素质教育的重要性,然后分析了研究生素质的现状,最后提出了一些团队式培养的建议性措施,并在北京信息科技...
- 吕学强吴瑞红
- 关键词:研究生素质教育
- 文献传递
- 基于互联网的术语定义辨析方法
- 基于互联网的术语定义辨析方法,涉及自然语言处理领域。本发明主要解决一个术语多条定义,且定义规范性、准确性欠佳的问题。提出的技术方案要点包括:待辨析术语定义和参考释义获取、术语定义表示和相似度计算、术语定义模板获取、术语定...
- 吕学强吴瑞红
- 文献传递
- 专利文献中关键词抽取方法的改进被引量:5
- 2014年
- 专利关键词是对专利文献的高度概括,正确提取专利文献中的关键词对于专利文献的分类、标引、聚类等具有重要意义。结合专利文献的特点,在目前已有方法的基础上,提出了专利文献中领域公共词提取方法、词素加权方法以及并列结构惩罚的方法,将其应用到专利文献关键词抽取中。在过滤公共词的基础上,综合运用词在文献中出现的位置、词频、词素和并列结构计算词对文献主题的影响度,抽取专利文献中的关键词。实验结果表明,在抽取关键词个数为5-9个时,所提方法优于局部加权TF-IDF方法,验证了所提方法的有效性。
- 刘峰吴瑞红徐川吕学强
- 关键词:关键词抽取
- 互动问答社区中回答可信性分析
- 近年来,随着Web2.0的发展,用户不仅是网页内容的浏览者,同时也是网页内容的编辑者,随之产生了大量的用户产生内容型(User Generated Content)的网络应用,互动问答社区(Question Answer...
- 吴瑞红
- 关键词:搜索引擎
- 基于互联网的术语定义辨析被引量:2
- 2014年
- 针对一个术语的多条候选定义,首次提出术语定义辨析模型并给出一种基于互联网的求解方法。该方法从百度百科和百度搜索构建参考释义,总结术语及其定义来源语料中的术语定义模板,根据参考释义和定义的模板从待辨析定义中选出最优定义。实验选取中国知网概念知识元库中部分领域的术语在学术文献和工具书中的定义作为待辨析对象,用所提出的模型和方法进行辨析实验,结果表明,该方法辨析的准确率为96.1%,有很好的辨析效果。
- 吴瑞红吕学强
- 基于互联网的术语定义辨析方法
- 基于互联网的术语定义辨析方法,涉及自然语言处理领域。本发明主要解决一个术语多条定义,且定义规范性、准确性欠佳的问题。提出的技术方案要点包括:待辨析术语定义和参考释义获取、术语定义表示和相似度计算、术语定义模板获取、术语定...
- 吕学强吴瑞红
- 文献传递