吉林省科技厅青年基金(20100190)
- 作品数:2 被引量:4H指数:1
- 相关作者:张素莉潘欣更多>>
- 相关机构:长春工程学院更多>>
- 发文基金:吉林省科技厅青年基金吉林省教育厅基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种新颖的基于马氏距离的文本分类方法的研究被引量:4
- 2011年
- KNN(k最近邻算法)是文本挖掘领域最成熟最简单的分类方法之一。该方法对文本分类中的距离参数的选取敏感,错误的选择将导致分类精度降低,影响最终分类效果,该缺陷限制了KNN分类器在文本数据挖掘中的应用。因此,本文将马氏距离引入到文本分类领域,并将其与KNN算法相结合,提出了一种基于马氏距离的新的文本分类方法(Mahalanobis distance-KNN,MDKNN),该方法克服KNN算法对距离函数的敏感性。实验表明,与传统的KNN和Naive Bayes分类算法相比,该方法在文本分类的精度和稳定性上有所提高。
- 张素莉潘欣
- 关键词:KNN分类器文本分类器
- 基于网络蜘蛛的新词自动发现算法研究
- 2011年
- 提出了一种基于网络蜘蛛的新词发现算法,通过该算法可以快速有效地搜集互联网资料,并从中自动发现新词。实验表明,该方法可以从网上快速搜集新词,获得的词典在分词能力上较传统方法有很大提高。
- 潘欣吕静波张素莉
- 关键词:中文分词词典新词发现网络蜘蛛