章晟
- 作品数:1 被引量:0H指数:0
- 供职机构:浙江大学计算机科学与技术学院更多>>
- 发文基金:浙江省公益性技术应用研究计划项目国家科技支撑计划更多>>
- 相关领域:一般工业技术更多>>
- 搜索引擎中基于密度聚类的混合编码检测算法
- 2011年
- 搜索引擎有很多的关键技术,本文主要针对互联网中文HTML混合编码文件,研究了中文HTML文件的字符编码组成结构,然后对混合编码文件内容进行聚类,采用了数据挖掘领域的经典算法DBSCAN,将HTML文件分成几个大类,然后分别对各个类进行了基于特征编码检测。实验结果显示,当选取合适的参数时,对混合编码文件的聚类后,每个类与中文字符特征编码相符率达100%,可以广泛应用于搜索领域。
- 章晟张启飞潘雪增朱旭辉
- 关键词:搜索引擎密度聚类字符编码