北京市教委科技发展计划(KM200710772010)
- 作品数:10 被引量:194H指数:5
- 相关作者:施水才吕学强肖诗斌都云程王弘蔚更多>>
- 相关机构:北京信息科技大学北京拓尔思信息技术股份有限公司大连工业大学更多>>
- 发文基金:北京市教委科技发展计划国家高技术研究发展计划北京市属高等学校人才强教计划资助项目更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 一种改进的基于《知网》的词语语义相似度计算被引量:126
- 2008年
- 中科院刘群的基于《知网》的词语相似度计算是当前比较有代表性的计算词语相似度的方法之一。在测试中我们发现对一些存在对义或反义的词语与同义、近义词语一样具有较高的相似度,一些明显相似的词反而相似度较低,如"美丽"与"贼眉鼠眼"的相似度为0.814 815,与"优雅"的相似度为0.788 360,"深红"与"粉红"的相似度仅为0.074 074,这将不利于进行词语的极性识别。基于文本情感色彩分析的需要,把词语相似度的取值范围规定为[-1,+1],在刘群论文的基础上,进一步考虑了义原的深度信息,并利用《知网》义原间的反义、对义关系和义原的定义信息来计算词语的相似度。在词语极性识别实验中,得到了较好的实验结果:P值为99.07%,R值为99.11%。
- 江敏肖诗斌王弘蔚施水才
- 关键词:中文信息处理知网词语相似度
- 基于句子相似度计算的信息抽取被引量:5
- 2007年
- 提出一种基于句子相似度的信息抽取方法。采用句子主题相似度计算,对测试语料进行小句主题识别;同时结合句子主题在整个文章中的概率分布特点,提高识别的准确性。以网络上个人信息资源为语料,在该系统上进行测试,取得较好效果。
- 廉站俊吕学强张玉杰施水才
- 关键词:信息抽取概率分布主题句子相似度计算
- 基于多层条件随机场的中文命名实体识别被引量:27
- 2009年
- 命名实体识别属于自然语言处理的基础研究领域,是信息抽取、信息检索、机器翻译、组块分析、问答系统等多种自然语言处理技术的重要基础。主要研究中文命名实体中对复杂地名和复杂机构名的识别,提出一种基于多层条件随机场的命名实体识别的方法。对大规模真实语料进行开放测试,两项识别的召回率、准确率和F值分别达到91.95%、89.99%、90.50%和90.07%、88.72%、89.39%。
- 胡文博都云程吕学强施水才
- 关键词:条件随机场命名实体识别
- MySql嵌入式存储引擎的研究和实现
- 数据库是数据存储和查询的重要的工具,本文介绍了一种在 mysql 数据库中嵌入自定义的存储引擎的方法。如何从查询效率,存储空间利用率,数据增加,删除,修改操作方便和高效等角度,来设计数据存储格式,来具体的编写自己的存储引...
- 马永成肖诗斌王弘蔚施水才
- 关键词:存储引擎数据格式
- 文献传递
- 基于模板的网页主题信息抽取
- 快速准确地抽取网页主题信息是影响 Web 应用服务质量的关键。网页模板就是已经做好的网页框架,由模板生成的网页结构布局是基本一致的。本文提出了利用模板技术进行网页主题信息抽取的算法。该方法充分考虑了网页的结构特征,能够明...
- 冯少卿都云程施水才
- 关键词:DOM网页样本集信息抽取
- 文献传递
- 基于RSS的分布式博客搜索引擎设计
- 构建一个基于 RSS 的 P2P 分布式博客搜索引擎。利用 Pastry 协议,实现分布式博客采集系统的数据存储和传输。在各子采集系统上分别建立索引,分散了系统维护庞大索引的重负。实现分布式查询, 提高了查询响应速度。利...
- 刘莉肖诗斌王涛施水才
- 关键词:RSSPASTRY分布式搜索引擎
- 文献传递
- 句子重述技术在中文文本摘要中的应用被引量:3
- 2008年
- 本文提出了一种对中文文本摘要中抽取出的句子进行重述的方法。首先使用基于统计的方法对文本进行特征统计,计算词和句子的权重,摘取出权值较高的句子;然后对这些句子应用一种基于向量相似度计算的算法进行指代消解,同时提出一种新的句子向量相似度的计算方法去除冗余;最后利用启发式规则进行加工,从而得到文本摘要。实验结果显示,系统修改后的文摘具有较好的连贯性和流畅性,与修改之前的文摘相比,文摘质量有明显提高。
- 周强施水才李渝勤吕学强
- 关键词:相似度信息处理指代消解
- 基于关键名词短语聚类的中文搜索结果聚类被引量:1
- 2009年
- 目前,搜索结果聚类方法大多数采用基于文档的方法,不能生成有意义的聚类标签。为了解决这个问题,提出一种基于关键名词短语聚类的中文搜索结果聚类方法,该方法将名词短语、相关搜索词作为候选聚类标签,利用C-Value算法、IDF值筛选标签,然后使用Chameleon算法将标签聚类,最后将搜索结果划分到最相关的聚类簇。实验证明,该方法把关键名词短语和相关搜索词作为聚类标签,有效地提高了标签的描述性,降低了聚类算法的时间复杂度。
- 麻雪云肖诗斌王弘蔚施水才
- 关键词:搜索结果聚类CHAMELEON算法
- 基于分解转移矩阵的PageRank迭代计算方法
- 提出了一种基于分解转移矩阵的 PageRank 的迭代计算方法。该方法对 PageRank 理论模型进一步推导, 把其 Markov 状态转移矩阵进行了分解,从而降低存储开销和计算复杂度,减少 I/O 需求,使得 Pag...
- 刘松彬都云程施水才
- 关键词:PAGERANK搜索引擎矩阵分解
- 文献传递
- 网页结构模板生成新方法研究被引量:4
- 2007年
- Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中,使用户不能迅速获取主题信息,限制了Web的可用性。为了高效地抽取基于模板的网页主题信息,提出了一种新的从HTML网页结构分析入手的模板生成方法。该方法以文档对象模型(DOM)为基础,通过对网页对应的DOM树层次结构进行分析,来判断两个网页是否相似,结构上相似的网页可以作为一个样本集。利用生成的样本集可以比较方便的抽象出网页结构模板,实现高效的信息抽取。实验表明,该方法准确率可达97%。
- 冯少卿都云程
- 关键词:DOM样本集