蒋盛益
- 作品数:169 被引量:931H指数:17
- 供职机构:广东外语外贸大学更多>>
- 发文基金:国家自然科学基金广东省自然科学基金教育部人文社会科学研究基金更多>>
- 相关领域:自动化与计算机技术文化科学理学经济管理更多>>
- 基于DOM树及行文本统计去噪的网页文本抽取技术被引量:5
- 2012年
- 首先对网页源码文本统一编码转为UTF格式,然后把HTML网页文档转换为XML文档并解析为一棵DOM树。依据XML语言特点及噪声特征规则先对DOM树的噪声节点进行过滤删除,然后依据中文标点符号统计方法提取网页正文内容,并在此基础上利用行文本统计方法去除提取出的正文中存在的噪声信息,最后得到网页正文文本。对来自结构完全不同的主流与非主流的中英文新闻网站上的2 000篇网页进行实验,结果表明本文提出的方法具有较高的抽取准确率,并具有很好的通用性和实现简单的特点,适用于针对互联网中不同网站新闻文本信息的自动采集。
- 李霞蒋盛益
- 关键词:DOM树
- 连续属性离散化算法研究综述被引量:10
- 2014年
- 在数据挖掘和机器学习研究中,许多算法以离散值为处理对象,常常需要对连续属性进行离散化。以有监督和无监督离散化为线索,对典型离散化算法的基本思想进行梳理总结,并从时间复杂度以及对后续分类的影响等角度进行对比。最后对连续属性离散化的一些主要研究方向进行展望。
- 张钰莎蒋盛益
- 印尼语的情感分类方法、装置、设备及介质
- 本发明公开了一种印尼语的情感分类方法,其特征在于,包括:获取待处理的印尼语句子,并确定所述待处理的印尼语句子对应的领域描述符;根据预设的CNN‑BILSTM模型对所述待处理的印尼语句子进行计算,得到所述待处理的印尼语句子...
- 林楠铠蒋盛益林晓钿
- 基于聚类的电信客户细分被引量:4
- 2011年
- 电信行业是典型的数据密集型行业,拥有大量的甚至是海量的客户数据资源。对电信行业客户消费数据进行深入挖掘可以为企业的资源优化配置和客户关系管理提供理论支持和技术保障。以电信行业的客户消费数据为基本研究对象,在衍生特征构造、样本调整以及特征选择等数据预处理的基础上,本文采用可处理混合数据且具有近似线性时间复杂度的一趟聚类算法建立电信行业的客户细分模型。经实证研究表明,该模型可以将电信的客户有效划分成四个具有不同忠诚程度和消费能力的客户群体,同时从各客户群的消费行为中还可以有效地分析出他们的消费偏向和流失倾向。说明提出的方法是一种有效的客户细分方法。
- 王连喜蒋盛益
- 关键词:客户细分聚类客户关系管理电信
- 基于数据挖掘的协议分析检测模型被引量:3
- 2005年
- 针对现有入侵检测系统的不足,根据入侵和正常访问模式的网络数据表现形式的不同以及特定数据分组的出现规律,提出按协议分层的入侵检测模型,并在各个协议层运用不同的数据挖掘方法抽取入侵特征,以达到提高建模的准确性、检测速度和克服人工提取入侵特征的主观性的目的。其中运用的数据挖掘算法主要有关联挖掘、序列挖掘、分类算法和聚类算法。
- 李庆华赵延喜蒋盛益
- 关键词:入侵检测数据挖掘
- 建构主义教学观及其在信息技术课程教学中的应用被引量:4
- 2008年
- 文章介绍了建构主义学习理论的知识观、学习观、教学观以及任务驱动教学法;着重讨论了任务驱动教学法在信息技术类课程教学应用中的有关问题,包括教学任务的分析、教学目标的确立和教学策略的安排等几个方面。
- 安清波蒋盛益
- 关键词:建构主义教学设计任务驱动教学法信息技术教学
- 基于CFP的学科研究热点检测
- 学科研究热点对科研工作者具有重要的指导作用。常规的学科研究热点检测方法面临检测成本高、检测信息相对滞后等问题。为此本文提出一种基于学术会议征文的学科研究热点检测方法,并借助CNKI学术趋势对其进行评估。实验结果表明该方法...
- JIANG Sheng-yi蒋盛益HONG Jie洪杰PANG Guan-song庞观松
- 面向不平衡问题的集成特征选择被引量:5
- 2011年
- 传统的特征选择方法基本上是以精度为优化目标,没有充分考虑数据样本类别分布倾斜性,在数据分布不平衡的数据集上性能表现不理想。在不平衡数据集上通过有放回的抽样方法独立地从数据集大类样本集中随机抽取多个样本子集,使每次随机抽取的样本数量与小类样本数量一致,然后将各抽取的样本子集分别与小类样本集组合成多个新的训练样本集。对多个新样本集的特征子集以集成学习的方式采用投票机制进行投票,数据集的最终特征子集以得票数目超过半数的特征共同组合而成。在UCI不平衡数据集上的实验结果显示,提出的方法表现出了较好的性能,是一种能够处理不平衡问题的有效特征选择方法。
- 李霞王连喜蒋盛益
- 关键词:不平衡数据集
- 一种基于相似度概率的不确定分类数据聚类算法被引量:5
- 2011年
- 针对不确定分类数据,基于Squeezer算法提出一种有效的不确定数据聚类算法:USqueezer算法。该算法先计算一个不确定分类数据与每个簇的相似度概率和,选取最大的相似度和给定的阈值相比较,若大于阈值,将不确定数据划分到该簇中,否则创建一个新簇。实验表明,USqueezer算法能够有效地进行不确定分类数据的聚类,并且占用较少的运行内存空间和运行时间。
- 张新猛蒋盛益
- 关键词:不确定数据分类数据数据挖掘聚类
- 数据流挖掘算法研究综述被引量:49
- 2005年
- 流数据挖掘是数据挖掘的一个新的研究方向,已逐渐成为许多领域的有用工具。在介绍数据流的基本特点以及数据流挖掘的意义的基础上,对现有数据流挖掘算法的主要思想方法进行了总结,并指出了这些方法的局限性。最后对数据流挖掘的发展方向进行了展望。
- 蒋盛益李庆华李新
- 关键词:数据流聚类