国家自然科学基金(71373291)
- 作品数:9 被引量:55H指数:5
- 相关作者:路永和梁明辉王鸿滨张宇楠陈景煌更多>>
- 相关机构:中山大学更多>>
- 发文基金:国家自然科学基金广东省科技计划工业攻关项目国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于深度学习的科技论文引用关系分类模型被引量:5
- 2021年
- [目的/意义]提出HABCM模型,方便科研人员进行论文构思与写作。[方法/过程]首先,基于段落层级结构,分别在词级和句级使用双向GRU对写作需求和参考文献进行语义建模;其次,使用Attention对语义贡献度大的词向量和句向量加权;最后,用先拼接后提取特征的方法计算文本对的相似度,并输出引用关系类别。[结果/结论]该算法在ACL ARC数据集上获得了74.96%的F1值和78.38%的准确率,高于4个对比实验中的模型;证明了“摘要和引言”结构对参考文献主题内容最具代表性。
- 路永和刘佳鑫袁美璐郑梦慧
- 关键词:科技论文语义匹配
- 融合实用性与科学性的互联网信息分类体系构建被引量:8
- 2015年
- 分类体系是信息组织的有效形式,传统文献分类体系难以适用分类对象的转变,实用性不足,已有的网络分类体系则缺乏科学性。构建融合实用性与科学性的互联网信息分类体系,能够有效满足用户信息需求,且是自动文本分类技术研究的基础。文章分别以中图法、新浪门户为例,研究传统文献分类法与网络信息分类法的优缺点,提出互联网信息分类体系的实用性、科学性以及均衡性设计原则,基于三个设计原则构建了互联网信息分类体系。为了验证所构建的分类体系的有效性,通过网络爬虫抓取网易门户以及腾讯网的语料作为实验数据,与复旦语料库的分类体系进行对比实验。实验结果表明,相比于复旦语料库的分类体系,文章所提出的互联网信息分类体系具有更高的实用性,且能更为全面地涵盖各种互联网信息,类目之间交叉度小,各个类目信息量接近,文本分类效果更为理想。
- 路永和彭燕虹
- 关键词:互联网信息中图法语料库
- 基于二进制烟花算法的特征选择方法被引量:5
- 2017年
- 文本分类中的特征选择方法对分类性能有重要的影响。烟花算法是一种解决优化问题的群体智能优化方法,而特征选择的本质是离散空间的优化组合问题。本文采用二进制编码方式,将烟花算法应用到特征选择上,通过改进二进制烟花算法及其参数设置,从而达到提高分类性能的目的。实验数据使用中英文两种语料库,其中英文数据使用路透社的21578经典文本分类语料库(Reuters21578)的R8单标签语料集;中文数据使用复旦语料库,每种语料库随机抽取训练文本和测试文本各为1800篇。分别使用KNN、SVM分类器在预选维数为300维、600维、900维、1200维、2000维、3000维、4000维、5000维、10000维中进行实验。结果表明:采用二进制烟花算法对特征词选择进行优化后,其效果优于传统的特征选择方法,且具有良好的稳定性。
- 路永和陈泳珊
- 关键词:信息增益
- 基于维度索引表的改进KNN分类算法被引量:3
- 2014年
- 阐述传统KNN分类器的基本原理和其存在的不足之处;针对样本数量增大,维度上升时KNN算法中相似度计算量急剧增大的问题,提出基于维度索引表的改进KNN分类算法;该算法通过建立特征项维度索引表加速KNN算法中寻找K近邻;以搜狗自然语言实验室的文本分类语料库中的新闻文档作为实验对象,采用宏平均F测度值作为分类效果评价标准,用改进KNN方法和传统KNN方法进行对比实验。实验结果表明:该方法能大幅度减少寻找K近邻时相似度计算的次数。
- 路永和何新宇
- 关键词:文本分类向量空间模型
- 混合蛙跳算法在文本分类特征选择优化中的应用被引量:5
- 2017年
- 【目的】由于文本数据存在许多与分类不相关的冗余词项,引入混合蛙跳算法进行特征选择优化,提高分类准确率。【方法】分别使用CHI和IG预选出不同维度的特征集合,再引入改进后的混合蛙跳算法对预选特征集合进行二次优选,每只青蛙的位置代表一种特征选择规则,将分类准确率作为算法的适应度函数。SVM和KNN分类器用于实验中分类准确率的计算。【结果】引入改进后的蛙跳算法比CHI和IG能得到更好的分类效果,最大提升幅度达到12%。【局限】在少部分特征维度下出现过拟合现象。【结论】采用特征词预选和改进后的蛙跳算法相结合的特征选择优化方法可以有效排除部分噪声特征项的干扰,从而提高文本分类准确率。
- 路永和陈景煌
- 关键词:文本分类混合蛙跳算法
- 遗传算法在改进文本特征提取方法中的应用被引量:18
- 2014年
- 【目的】综合分析特征提取方法并对传统特征提取流程和方法进行改进。【方法】利用特征池进行特征词预选,引入遗传算法对候选特征词分组编码并提取最佳特征向量。【结果】改进的文本特征提取方法在使用KNN计算适应度值时效果最佳,而且在特征维数较少时效果更为明显。同时在针对不同特征维数和语料库时,分类准确率更加稳定。【局限】实验语料库质量有待提高;构造特征池时只使用CHI和IG两种特征提取方法;使用分组编码时没考虑词与词之间的语义关系;种群数量和迭代次数受限于计算的复杂性。【结论】加入特征池进行特征预提取能够提高文本分类准确率的稳定性,而加入遗传算法到文本特征提取中可以提高特征提取的效果,遗传算法利用分组编码规则可以减少特征的过拟合现象并提高算法运行速度。
- 路永和梁明辉
- 关键词:文本分类特征提取遗传算法
- 中文文本分类中基于和声搜索算法的特征选择方法被引量:5
- 2015年
- 特征选择是中文文本分类过程的重要预处理环节,特征选择效果直接影响文本的分类准确率。传统的特征选择方法有CHI、IG等,在其他分类预处理环节和分类算法确定的条件下,通过这些传统特征选择方法很难大幅度提高文本分类的准确率。因此,本文在传统特征选择方法的基础上提出一种新的特征选择方法,该方法利用传统的特征选择方法对原始特征进行预选,在此基础上使用和声搜索算法以二进制编码形式对预选特征进行优选,选择与否分别编码为1和0。与此同时,以分类准确率作为个体的适应度,在和声库的初始化中设定一个前半解分量为1、后半解分量为0的初始解向量,以此提高初始和声库中解的适应度。使用搜狗语料库、复旦语料库、中山大学资讯管理学院智能信息处理实验室提供的语料库,每个语料库提取的训练文本和测试文本分别为1800篇和900篇。分别使用KNN、朴素贝叶斯、SVM分类器在预选维数为300维、600维、1200维中进行实验。结果表明,对比传统的特征选择方法,采用二进制和声搜索算法进行特征优选后,其分类准确率均得到提高。
- 路永和张宇楠
- 关键词:文本分类
- 面向科研与教学的文本分类平台构建
- 2015年
- 为提高中文文本分类科研与教学人员的工作效率,本文针对国内现有中文文本分类系统的研发现状,构建一个包括预处理、特征选择、权值计算、自动分类和分类效果测评等文本分类全过程的管理平台。开发过程中,本文使用系统集成思想和方法将自编软件代码与相关的开源软件代码进行集成。经测试,该系统实现了文本自动分类过程的全部功能。
- 路永和彭燕虹刘文秋
- 关键词:文本分类MVC语料库训练集测试集
- 文本分类中受词性影响的特征权重计算方法被引量:9
- 2015年
- 【目的】为提高分类准确率,引入词性改进特征权重计算方法,进而影响文本特征权重的取值。【方法】采用对比实验的方法,将本文提出的引入词性的特征权重计算方法与传统的TF-IDF方法分组进行实验。在引入词性的特征权重计算方法中,采用粒子群算法迭代计算最优词性权重。两组实验均采用SVM分类器进行分类。【结果】实验结果表明:改进的权重计算方法比传统的TF-IDF方法的分类效果更好,分类准确率在不同特征维度下都得到明显的提高,提高幅度在2-6个百分点。【局限】由于实验条件的不足,在使用粒子群算法寻找最优权重配比时得出的结果仅是接近最优解的配比,需要扩大数据规模与增加迭代次数才能得出更佳的权重配比。【结论】在文本分类当中引入词性能有效提高分类准确率,各词性权重大小的排序从高到低为名词、字符串、动词;结合词性的权重计算方法并不只适用于某个特定的语料集,还可以适用于一般的语料集。
- 路永和王鸿滨
- 关键词:文本分类词性粒子群算法