教育部科学技术研究重点项目(105117)
- 作品数:13 被引量:125H指数:7
- 相关作者:何婷婷张勇张小鹏胡文敏戴文华更多>>
- 相关机构:华中师范大学清华大学咸宁学院更多>>
- 发文基金:教育部科学技术研究重点项目国家自然科学基金国家社会科学基金更多>>
- 相关领域:自动化与计算机技术化学工程更多>>
- 基于质子串分解的网络新词汇自动抽取
- 针对中文词汇构成特点,本文提出了一种基于质子串分解的网络新词汇自动识别方法。我们从Internet上采集网页,使用改进的互信息参数(F-MI)抽取结构简单的词汇(质词):并在其基础上,进一步使用质子串分解方法抽取具有复杂...
- 张勇何婷婷
- 文献传递
- 基于网络化数据挖掘策略的中文多文档自动文摘研究
- 多文档自动文摘是近期自然语言处理领域的一项热点研究课题。文中提出了一种基于网络化数据挖掘策略的中文多文档自动文摘方法,该方法的特色在于生成的摘要具有全面而简洁的特性,其内容能同时获得主题覆盖和冗余之间的平衡。考虑到同一主...
- 胡珀何婷婷张勇
- 关键词:多文档自动文摘
- 文献传递
- 一种基于锚文本的并行检索策略被引量:2
- 2008年
- 进行Web信息检索时,页面中的锚文本与正文存在较大相关性,多数检索系统忽视了锚文本对页面正文的贡献。该文提出一种提高检索精度的方法,为文档集建立一个基于页面正文的索引和一个基于锚文本的索引,对其采取并行检索策略。实验结果表明,该方法可以有效处理特定结构的网页集。
- 高珊何婷婷胡文敏
- 关键词:锚文本信息检索
- 基于卡方检验的汉语术语抽取被引量:15
- 2007年
- 发现术语在中文信息处理和语言学习方面具有非常重要的作用和意义。提出了一种基于卡方检验的汉语术语抽取方法:先从网络上下载语料,然后使用改进的互信息参数(F-M I)抽取结构简单的质串,并在其基础上进一步使用卡方检验结合质子串分解方法抽取具有复杂结构的合串。实验结果显示,该算法有效地提高了汉语术语抽取的精确度。
- 胡文敏何婷婷张勇
- 关键词:卡方检验互信息
- 一种面向查询的多文档文摘句选择策略
- 针对面向查询的多文档自动文摘,本文提出了一种多特征融合的文摘句选择策略。首先通过计算句子与查询在语义层面上的相似度,获取句子与查询的关联特征,然后运用构建的语义网络图挖掘句子的全局关联特征, 并综合句子的这两方面特征,对...
- 邵伟何婷婷胡珀肖华松
- 关键词:面向查询多文档自动文摘
- 文献传递
- 基于词语属性的计算机辅助获取流行词语研究被引量:8
- 2006年
- 本文以2005年的1月1日至6月25日新浪网上下载的各类页面上的文本内容为研究资源集合,从中提取出有效词语,对词语的流行程度的判定属性做了定性定量的分析研究,对词语的流行特性进行了定义,在此基础上,引入衡量关注程度的量化方法,并配合依据词语判定属性与时间关系而绘制的走势曲线图,设置淘汰机制与评分机制,得到了候选流行词语,验证了流行词语判定属性规范的合理性,为机器辅助判定词语特性提供了参考数据。
- 何婷婷朱薏张勇任函
- 关键词:计算机应用中文信息处理流行词语
- 基于主题词对的文档重排方法被引量:2
- 2007年
- 提出了一种基于主题词对的文档重排方法,使得检索结果在保持召回率的前提下提高精确率。主题词对意指能够共同表征同一主题的两个词语,其中一个来自于查询,另一个来自于文档,两者之间具有紧密的联系。主题词对的选择采用概率潜在语义索引的方法,并根据主题词对在文档中的分布状况对其进行重排。对NTCIR-5中文信息检索的文档集合进行测试,采用trec标准评估方法,结果表明采用该方法使得精确率在rigid和relax结果集上分别提高了53.6%和55.8%。
- 何婷婷许婷瞿国忠涂新辉
- 基于全切分获取网络流行语方法研究被引量:3
- 2009年
- 利用统计和规则相结合的算法从互联网的动态信息流中提取网络流行语。在利用全切分算法获取候选词集的基础上,依次对候选词集进行三次过滤:首先基于向量空间模型的权重过滤,运用语言模型进行过滤;然后利用垃圾串过滤规则获取网络流行词语候选词集;最后利用提出的流行词语评分模型进行筛选得到网络流行词语。实验表明,在不影响流行词语准确率的前提下,利用该方法自动获取网络流行词语的速度明显提高。
- 吴保珍何婷婷李立张勇张勇
- 关键词:中文信息处理全切分
- 基于质子串分解的中文术语自动抽取被引量:26
- 2006年
- 针对中文术语构成特点,提出了一种基于质子串分解的术语自动抽取方法,将词分为2类:结构简单的质词和有复杂结构的合词;使用参数F-MI抽取结构简单的质词;并在其基础上,进一步使用质子串分解方法抽取具有复杂结构的合词。实验结果显示,该算法有效地提高了中文自动术语抽取的精确度。目前该算法已在国家网络媒体监测项目中得到了应用,并显示了良好的效果。
- 何婷婷张勇
- 关键词:术语自动抽取互信息
- 利用BP神经网络的中文词义消歧模型被引量:1
- 2005年
- 词义消歧在自然语言处理中一直是一个难点问题,同时,也是很多领域都需要解决的一个重要环节.本文介绍了一种基于BP神经网络和统计方法相结合的有导词义消歧模型,详细讲解了BP神经网络原理;对使用这种混合人工智能的消歧模型的可能性和优越性进行了讨论;通过试验发现实际和预测结果的误差并不随着试验迭代次数而递减,而是实际误差随着次数的增加在零的附近呈现波动状态,即使用很少的迭代次数也可以得到比较好的结果.由此得出,BP神经网络预测模型在词义消歧的中具有良好的应用前景.
- 何婷婷谢芳
- 关键词:词义消歧基于统计BP神经网络语料库