黄济民
- 作品数:7 被引量:87H指数:5
- 供职机构:武汉大学计算机学院更多>>
- 发文基金:国家自然科学基金湖北省自然科学基金更多>>
- 相关领域:自动化与计算机技术农业科学更多>>
- 基于注意力残差机制的细粒度番茄病害识别被引量:22
- 2019年
- 【目的】解决温室环境下细粒度番茄病害识别方法不足问题。【方法】以早、晚期5种番茄病害叶片为研究对象,提出一种基于注意力与残差思想相结合的新型卷积神经网络模型ARNet。通过引入多层注意力模块,层次化抽取病害分类信息,解决早期病害部位分散、特征难以提取难题;为避免网络训练出现退化现象,构建残差模块有效融合高低阶特征,同时引入数据扩充技术以防止模型过拟合。【结果】对44295张早、晚期病害叶片数据集进行模型训练与测试的结果表明,与VGG16等现有模型相比,ARNet具有更好的分类表现,其平均识别准确率达到88.2%,显著高于其他模型。ARNet对早期病害识别准确率明显优于晚期病害,验证了注意力机制在提取细微区域特征上的有效性,且在训练过程中未发生过度抖动的状况。【结论】本文提出的模型具有较强鲁棒性和较高稳定性,在实际应用中可为细粒度番茄病害智能诊断提供参考。
- 胡志伟杨华黄济民谢倩倩
- 关键词:细粒度番茄叶片病害识别
- 基于频繁项集的海量短文本聚类与主题抽取被引量:31
- 2015年
- 社交网络短文本规模大、传播快、质量低、模态多样等特性导致现有基于向量空间模型的文本聚类技术在对其进行聚类时面临维度高、特征稀疏和噪声干扰等挑战.对此,提出基于频繁项集的短文本聚类与主题抽取STC-TE(short text clustering&topic extraction)框架.首先研究短文本的多特征对文本质量的影响,在基于高质量短文本集挖掘出的大量频繁项集基础上,设计基于相似度的频繁项集过滤策略SIF(similarity-based itemset filtering),可过滤掉85%的非重要频繁项集;然后定义基于相关文本集的频繁项集相似度,并提出聚类个数自适应的频繁项集谱聚类算法CSA_SC(clusters self-adaptive spectral clustering),实现频繁项集聚类与主题抽取;最后基于主题词将大规模短文本划分到相应的主题簇中,从而实现短文本聚类.基于100万条新浪微博文本的实验结果表明。
- 彭敏黄佳佳朱佳晖黄济民刘纪平
- 关键词:海量频繁项集聚类主题抽取
- 基于回归模型与谱聚类的微博突发话题检测方法被引量:3
- 2015年
- 微博社交网络短文本具有数据规模巨大、快速传播、模态多样、质量较低等特性,导致现有传统的话题检测与跟踪技术在对其进行数据处理时面临复杂度高、特征稀疏和噪声干扰等问题。为此,提出一种在回归预测和谱聚类基础上的突发话题检测方法。该方法针对关键词词频变动趋势,基于回归模型,量化微博关键词的突发程度,从词频趋势分析的角度准确地提取出突发词集合。设计一个基于谱聚类思想的突发词聚类方法提高聚类结果的准确性。在大规模微博数据集的实验结果证明,与baseline方法相比,该方法的准确率、召回率、F值都有较大提高,在微博信息分析领域有着较好的应用前景。
- 彭敏张泰玮黄佳佳朱佳晖黄济民
- 关键词:词频分析谱聚类大数据
- 基于核主成分分析与小波变换的高质量微博提取被引量:5
- 2016年
- 在线社交媒体中存在大量的噪音和冗余信息,为对其进行过滤和筛选,获取高质量的信息,提出基于核主分析和小波变换的高质量微博提取框架,并设计一种基于多特征融合的高质量信息的提取算法,将信息特征转换到小波域以更好地捕获信号间的细节差异。利用最大期望算法度量各个特征的权值,进一步融合得到特征综合值。为降低噪声特征对信息质量提取的影响并提高算法运算速度,引入核主成分分析对特征进行变换。实验结果表明,该框架能够提取出更高质量的微博,并且大幅减少运算时间。
- 彭敏傅慧黄济民黄佳佳刘纪平
- 关键词:信息提取小波变换核主成分分析
- 基于情感分析技术的股票研究报告分类被引量:5
- 2015年
- 基于情感文本分析技术对股票研究报告中的投资建议进行分类.提取股票研究报告中的"组合特征";采用改进的卡方统计方法进行特征提取,并通过支持向量机(SVM)和朴素贝叶斯算法进行分类,验证分类效果;探讨了权重计算、特征维度和样本数量对分类效果的影响.基于东方财富网上采集的14 000篇股票研究报告的实验表明,通过提取"组合特征"、部分特征维度以及对训练样本重采样,可以取得较好的分类效果.
- 彭敏汪清黄济民周李胡鑫汇
- 关键词:情感分析朴素贝叶斯不平衡数据集
- 面向社交媒体文本的话题检测与追踪技术研究综述被引量:14
- 2016年
- 以微博、论坛等为代表的社交媒体已逐渐发展成为网络用户表达和交流观点、获取和传播信息的重要平台.然而,社交媒体文本内容具有的规模庞大、形式多样、传播迅速等特点,对传统的应用在新闻报道、舆情监控、文本挖掘、信息咨询等方面的话题检测与追踪技术提出了新的要求.针对这一背景,本文分别从离线话题检测、在线话题检测和话题演化追踪这三个方面总结当前主要的话题检测与追踪方法,分析在该领域实验中被普遍使用的评估方式,最后提出当前面临的挑战和今后的研究方向.
- 彭敏官宸宇朱佳晖谢倩倩黄佳佳黄济民杨绍雄高望应称
- 关键词:社交媒体主题模型
- 基于高质量信息提取的微博自动摘要被引量:7
- 2015年
- 是获取微博平台关键信息的一种重要手段。现有面向微博的自动摘要方法较关注文本集合中句子或者关键词的提取,而在去除冗余信息、内容噪声方面缺乏有效手段,导致提取的微博内容质量不高。为解决该问题,以微博平台为研究对象,提出一种基于时频域转换的信息提取方法,获得与某话题相关度高、冗余度低且信息量大的高质量微博文本,将综合分值较高的微博作为生成摘要的样本集合,并对该样本集合中每条微博的句子进行权重打分,选取权值较高的句子组成微博摘要。实验结果表明,该方法能够有效过滤冗余信息和内容噪声,基于自动评测和人工评测的摘要结果均优于现有自动摘要方法。
- 彭敏高斌龙黄济民刘纪平
- 关键词:信息提取自动评测