重庆市自然科学基金(CSTC2006BB2021)
- 作品数:6 被引量:107H指数:5
- 相关作者:张玉芳熊忠阳张科张鹏招陈小莉更多>>
- 相关机构:重庆大学更多>>
- 发文基金:重庆市自然科学基金更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- 一种改进的贝叶斯文本分类方法被引量:7
- 2007年
- 朴素贝叶斯分类(naive Bayes)有一个“独立性假设”:给定一个实例的类标签,实例中的每个属性的出现都独立于实例中其他属性的出现,而在实际应用中这种条件并不易满足,另外由于文本的特殊性,相关的特征项可能会产生新的语义信息。因此在训练文本时,对特征选择后产生的特征集用一种可行的方法考察它们之间的相关性,然后对相关程度高的特征进行合并处理。实验数据表明,这个改进的方法能提高朴素贝叶斯的算法精确度。
- 张玉芳陈剑敏熊忠阳
- 关键词:文本分类
- 一种提高状态检测防火墙抵御Syn Flood攻击的方法被引量:6
- 2008年
- 针对影响状态检测防火墙性能的Syn Flood攻击,分析了Syn Flood攻击的原理,基于Patriciatries构造半开连接表来处理TCP连接建立的过程,提出了一种利用端口队列来跟踪每个半开连接,根据SYN数据包的统计和状态检测来抵御Syn Flood攻击的方法.实验结果表明,该方法在占用较少的系统资源的情况下,有效的提高了状态检测防火墙对Syn Flood攻击的防御能力.
- 熊忠阳张科张玉芳
- 关键词:防火墙SYN拒绝服务攻击PATRICIATRIES
- 一种改进的支持向量机邮件分类器被引量:2
- 2007年
- 在实际的邮件过滤应用中,由于垃圾邮件本身的一些因素,像传统的支持向量机分类模型把一个邮件样本明确地归为某一类就很容易出错,而以一定概率的输出判断是否属于某一类则较为合理。根据这种思想,本文在传统支持向量机邮件分类器基础上,提出了一种分类器优化思想,通过对分类输出进行概率计算,并对概率的阈值进行判断,从而确定邮件所属类别。实验证明这种方法是有效可行的。
- 熊忠阳杜圣东张玉芳
- 关键词:支持向量机文本分类邮件过滤
- Ad Hoc网络的体系结构分析被引量:5
- 2007年
- 给出了网络结构的相关概念;比较分析了Ad Hoc网络平面结构和分级结构的特点;最后,分别指出了这两种网络结构的最佳使用场合Ad Hoc网络中。
- 马东冉张科
- 关键词:ADHOC网络体系结构
- 基于信息增益的特征词权重调整算法研究被引量:37
- 2007年
- 传统权重公式TFIDF忽略了词语在集合中的分布比例,针对TFIDF的这个缺点,把信息增益公式引入文本集合中并提出IF*IDF*IG,取得了较好的效果。在分析中发现单纯把信息增益引入文本集合并不能完全解决词语分布对词语权重的影响。从文档类别层次上考虑,把信息论中信息增益应用到文本集合的类别层次上,提出了一种改进的权重公式tf*idf*IGc,用改进的权重公式来衡量词语在文本集合的各个类别中分布比例上的差异,进一步弥补传统公式的不足。实验对比了改进的公式tf*idf*IGc和IF*IDF*IG的实验效果,实验证明tf*idf*IGc权重公式在表现词语权重时更有效。
- 张玉芳陈小莉熊忠阳
- 关键词:信息增益信息熵文本分类
- 基于χ~2统计的文本分类特征选择方法的研究被引量:51
- 2008年
- 特征提取是文本分类过程中的一个重要环节,它的好坏将直接影响文本分类的准确率。在研究文本分类特征提取方法的基础上,分析了χ2统计的不足,并提出将频度、集中度、分散度应用到χ2统计方法上,对χ2统计进行改进,并通过实验对比改进前后的方法对文本分类效果的影响。在实验中,改进方法的分类效果要好于传统方法,从而验证了改进方法的有效性和可行性。
- 熊忠阳张鹏招张玉芳
- 关键词:特征提取集中度分散度