国家自然科学基金(61070119)
- 作品数:9 被引量:17H指数:2
- 相关作者:张仰森伍银谢玮管君刘武雷更多>>
- 相关机构:北京信息科技大学北京教育网络与信息中心工业和信息化部更多>>
- 发文基金:国家自然科学基金北京市属高等学校人才强教计划资助项目北京市教委科技计划面上项目更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于概念的Web文本分类方法及实现
- 2013年
- 通过研究html网页结构,实现对Web网页中纯文本内容的提取。通过对传统的特征提取方法和文本分类方法进行研究,提出基于概念词典的概念特征提取方法,通过特征提取使用简单向量模糊距离匹配算法对文本进行分类,设计并实现了一个基于中文概念的Web文本分类系统。通过对实验数据的对比分析,引入概念特征之前分类的准确率最高达到89%,引入概念特征后分类平均效率达到95%以上,较之前有较大提高。
- 郑瑞娟张仰森
- 关键词:WEB文本分类概念词典
- 基于多知识源的语义搭配知识库的构建及应用被引量:3
- 2013年
- 针对汉语文本语义搭配错误,在对《现代汉语语义信息词典》(以下简称《语义词典》)及《知网》相关属性的研究基础上,提出了基于多知识源的语义搭配知识库的构建方法,并设计出了面向汉语文本语义查错的三层语义搭配知识库结构。在此基础上,设计并实现了一个汉语文本自动查错算法。实验结果表明,基于上述方法所设计的语义搭配知识库,可以大大提高汉语文本语义查错算法错误查找的召回率,对于语义查错的研究具有一定的借鉴作用。
- 管君谢玮张仰森
- 关键词:汉语文本语义搭配多知识源
- IDS主动测试和被动测试相结合测试方法的研究被引量:2
- 2013年
- 介绍了目前常用的主动测试和被动测试两种IDS测试方法,分析了各自的优势与不足.单一使用主动测试方法或被动测试方法都存在一定的局限性,提出了一种主动测试和被动测试相结合的测试方法.以NIDS测试为例对该测试方法的应用进行了具体研究和实践,结果表明该方法充分利用两种测试方法的优势提高了IDS测试的准确性.
- 伍银叶新铭龚汉明
- 关键词:入侵检测网络入侵检测系统被动测试
- 基于层叠分类器的细粒度微博情感分类研究
- 中文微博的细粒度情感分类已经成为最近的研究热点。本文对比了基于贝叶斯模型的机器学习分类策略、基于情感字典的规则分类策略以及他们的多种搭配在细粒度情感分类问题中的实际效果。发现两者的搭配能发挥两种策略的优点,而且在面对语料...
- 童毅轩张仰森李景玉
- 关键词:贝叶斯层叠分类器情感分析
- 文献传递
- 基于PMI-IR的联想词表构造方法研究被引量:1
- 2014年
- 通过对大规模查询日志进行挖掘分析进而提高检索的准确率一直是信息检索领域的热点问题。文章提出一种基于PMI-IR(逐点互信息方法)的联想词表构造方法。该方法利用序列模式挖掘算法扫描大规模用户查询日志,获取共现频次超过某一阈值的词组合,进行聚类获取候选同义词集,然后依次计算词wordA与每个候选词的相似度,选择相似度高于某一阈值的词作为词wordA的联想词集,最后形成联想词表。实验表明,借助该方法得到的联想词表进行扩展查询提高了检索的准确率。
- 张泽伟矫健张仰森
- 关键词:查询日志
- 规则与统计相结合的词义消歧方法研究被引量:2
- 2013年
- 针对多年来词义消歧方法的不完善,从可计算性及其计算复杂度方面分析了多种不同结构的知识词典,最后选择北大计算语言所的《现代汉语语法信息词典》、《现代汉语语义词典》和同形标注的人民日报语料作为词义消歧知识源。研究了异构多知识源的融合方法,提取了敏捷规则知识库和词义搭配库,设计出了一种规则与统计相结合的词义消歧方法。在多种方法中最大熵与规则相结合的词义消歧方法准确率最高,与SemEval 2007(task#5)的最好成绩相比,分别在微平均值MicroAve(micro-average accuracy)和宏平均值MacroAve(macro-average accuracy)上提升了5.5%和0.9%。
- 苗海张仰森
- 关键词:词义消歧知识源
- 基于隐最大熵原理的汉语词义消歧方法
- 本文针对最大熵原理只能利用上下文中的显性统计特征构建语言模型的特点,提出了采用隐最大熵原理构建汉语词义消歧模型的方法。在研究了《知网》中词语与义原之间的关系之后,把从训练语料获取的文本上下文中的词语搭配信息转换为义原搭配...
- 张仰森黄改娟苏文杰
- 关键词:词义消歧
- 文献传递
- 基于SKCC与统计相结合的词语相似度计算方法被引量:1
- 2012年
- 介绍了一种全新的基于《现代汉语语义词典》(SKCC)的词语相似度计算方法,并在此基础上加入了基于统计的相似度计算方法,为语料的进一步处理提供了支持。
- 张仰森钟鼎
- 关键词:自然语言处理相似度
- 基于主题句抽取的新闻文本倾向性分析方法
- 新闻文本的倾向性分析正在引起研究者的注意,但如何对新闻文本的进行有效分析是个棘手的问题。本文利用中文新闻文本的结构特点,从高频词特征、标题特征、句子位置特征、倾向性线索词特征四个角度提出了一种面向新闻文本的主题句抽取方法...
- 尤建清张仰森童毅轩
- 关键词:新闻文本
- 文献传递
- 基于关系数据库的复合型BOM的设计与实现被引量:2
- 2012年
- 物料清单(BOM)作为ERP(enterprise resource planning)系统的重要的基础数据,其存储模型的好坏直接影响到分解效率。分析了在关系型数据库中BOM存储的2种基本的存储模型并设计实现了一种复合型BOM存储结构。在此基础上,给出了常用的正查与反查算法以及订单分解算法。实践证明该存储结构和算法能很好地满足实际应用。
- 黄改娟张仰森刘武雷
- 关键词:物料清单