国家社会科学基金(06BYY029)
- 作品数:9 被引量:57H指数:3
- 相关作者:何婷婷戴文华焦翠珍张勇胡文敏更多>>
- 相关机构:华中师范大学咸宁学院教育部教育信息技术工程研究中心更多>>
- 发文基金:国家自然科学基金国家社会科学基金教育部科学技术研究重点项目更多>>
- 相关领域:自动化与计算机技术理学天文地球更多>>
- 一种基于锚文本的并行检索策略被引量:2
- 2008年
- 进行Web信息检索时,页面中的锚文本与正文存在较大相关性,多数检索系统忽视了锚文本对页面正文的贡献。该文提出一种提高检索精度的方法,为文档集建立一个基于页面正文的索引和一个基于锚文本的索引,对其采取并行检索策略。实验结果表明,该方法可以有效处理特定结构的网页集。
- 高珊何婷婷胡文敏
- 关键词:锚文本信息检索
- 基于网络化数据挖掘策略的中文多文档自动文摘研究
- 多文档自动文摘是近期自然语言处理领域的一项热点研究课题。文中提出了一种基于网络化数据挖掘策略的中文多文档自动文摘方法,该方法的特色在于生成的摘要具有全面而简洁的特性,其内容能同时获得主题覆盖和冗余之间的平衡。考虑到同一主...
- 胡珀何婷婷张勇
- 关键词:多文档自动文摘
- 文献传递
- 基于卡方检验的汉语术语抽取被引量:15
- 2007年
- 发现术语在中文信息处理和语言学习方面具有非常重要的作用和意义。提出了一种基于卡方检验的汉语术语抽取方法:先从网络上下载语料,然后使用改进的互信息参数(F-M I)抽取结构简单的质串,并在其基础上进一步使用卡方检验结合质子串分解方法抽取具有复杂结构的合串。实验结果显示,该算法有效地提高了汉语术语抽取的精确度。
- 胡文敏何婷婷张勇
- 关键词:卡方检验互信息
- 一种面向查询的多文档文摘句选择策略
- 针对面向查询的多文档自动文摘,本文提出了一种多特征融合的文摘句选择策略。首先通过计算句子与查询在语义层面上的相似度,获取句子与查询的关联特征,然后运用构建的语义网络图挖掘句子的全局关联特征, 并综合句子的这两方面特征,对...
- 邵伟何婷婷胡珀肖华松
- 关键词:面向查询多文档自动文摘
- 文献传递
- 基于主题词对的文档重排方法被引量:2
- 2007年
- 提出了一种基于主题词对的文档重排方法,使得检索结果在保持召回率的前提下提高精确率。主题词对意指能够共同表征同一主题的两个词语,其中一个来自于查询,另一个来自于文档,两者之间具有紧密的联系。主题词对的选择采用概率潜在语义索引的方法,并根据主题词对在文档中的分布状况对其进行重排。对NTCIR-5中文信息检索的文档集合进行测试,采用trec标准评估方法,结果表明采用该方法使得精确率在rigid和relax结果集上分别提高了53.6%和55.8%。
- 何婷婷许婷瞿国忠涂新辉
- 基于全切分获取网络流行语方法研究被引量:3
- 2009年
- 利用统计和规则相结合的算法从互联网的动态信息流中提取网络流行语。在利用全切分算法获取候选词集的基础上,依次对候选词集进行三次过滤:首先基于向量空间模型的权重过滤,运用语言模型进行过滤;然后利用垃圾串过滤规则获取网络流行词语候选词集;最后利用提出的流行词语评分模型进行筛选得到网络流行词语。实验表明,在不影响流行词语准确率的前提下,利用该方法自动获取网络流行词语的速度明显提高。
- 吴保珍何婷婷李立张勇张勇
- 关键词:中文信息处理全切分
- 基于小生境混合遗传算法的文本特征词聚类研究
- 2008年
- 提出一种基于小生境混合遗传算法的文本特征词聚类方法。该方法首先采用贝叶斯语义模型对语料库进行统计分析,并以K-L距离度量特征词间的距离,然后将小生境遗传算法与K-Means算法相结合,对文本特征词进行聚类,为文本特征词聚类提供了较高的效率和精确度。实验表明该方法是一种高效可行的文本特征词聚类方法。
- 戴文华何婷婷焦翠珍
- 关键词:小生境遗传算法K-MEANS聚类
- 基于遗传算法的自适应文本模糊聚类研究被引量:2
- 2008年
- 针对FCM聚类算法对初始聚类中心的选择敏感,以及聚类数C难以确定的问题,提出一种基于遗传算法的自适应文本模糊聚类方法。该方法首先将文档集合表示成向量空间模型,并采用一种新型的可变长染色体编码方案,随机选择文本向量作为初始聚类中心形成染色体,然后结合FCM算法的高效性和遗传算法的全局优化能力,通过遗传进化,有效地避免了局部最优解的出现,同时得到了优化的聚类数目和聚类结果。实验表明该算法是一种精确高效的文本聚类方法。
- 戴文华焦翠珍何婷婷
- 关键词:遗传算法FCM聚类文本聚类模糊聚类
- 一种利用关键词提取的面向查询多文档文摘技术
- 针对面向查询的多文档自动文摘,本文提出了一种利用关键词提取技术的文摘句选择策略。通过计算多文档集中词语的查询相关性特征和语料相关性特征,并将词语的两个特征值进行特征融合得到每个词语的重要度,随后通过词语的重要度来给候选句...
- 马亮何婷婷陈劲光李芳邵伟
- 关键词:多文档文摘关键词提取
- 文献传递
- 基于混合并行遗传聚类的文本特征抽取方法研究被引量:1
- 2008年
- 同义词和近义词现象以及强关联语义信息加大了文本向量的特征维数,对文本分类的效率和精度都会带来极大影响。为了有效降低文本向量的特征维数,提出一种基于混合并行遗传聚类的文本特征抽取方法。该方法首先使用K-means聚类算法进行特征词粗粒度聚类,然后采用混合并行遗传算法对各类特征词进行细粒度聚类,最后对各聚类中的特征词进行分析并压缩,得到最终能反映文本类别特征和语义信息的文本特征词集合。实验证明,该方法是一种有效的文本特征抽取方法,能切实提高文本分类的效率和精度。
- 戴文华焦翠珍何婷婷
- 关键词:并行遗传算法K-MEANS聚类特征抽取