唐永旺
- 作品数:18 被引量:51H指数:5
- 供职机构:解放军信息工程大学更多>>
- 发文基金:国家自然科学基金国家社会科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学电子电信农业科学更多>>
- 基于KNN算法的大数据话题追踪技术研究被引量:1
- 2019年
- 面对大数据环境下的海量信息时,传统的话题追踪技术无法及时准确地追踪话题的后续报道。基于Hadoop平台,研究并实现基于KNN算法的大数据话题追踪技术。该方法首先在Hadoop平台下实现以单词权重同文档词频相结合作为文本特征的并行化提取,然后在传统KNN算法上实现基于Hadoop平台的算法并行化,从而实现对多个话题的同时追踪,最终实现基于KNN算法的大数据话题追踪技术。实验表明,该方法较为有效地解决了面向大数据的话题追踪问题。
- 单志佳席耀一唐永旺杨航张新宇
- 关键词:大数据KNNHADOOP
- 基于词向量的中文微博实体链接方法被引量:6
- 2017年
- 实体链接是指给定实体指称项和它所在的文本,将其链接到给定知识库中的目标实体上。由于微博内容存在特征稀疏、用语不规范的特点,使用传统的方法效果较差,为了准确地对微博中给定的实体进行链接,提出一种基于词向量的中文微博实体链接方法。首先,对知识库进行扩展,并从中文维基百科抽取同义词构建同义词表;然后,利用词向量解决错别字和外来人名音译的问题;最后,通过词向量计算实体指称项和候选实体的语义相似度来进行实体链接。实验结果表明,该方法在NLP&CC2013评测数据上的微平均准确率达到了91.4%。
- 毛二松王波唐永旺梁丹
- 关键词:维基百科同义词
- 破损压缩文件的修复还原被引量:2
- 2019年
- 数据压缩和解压缩已广泛应用于现代通信和数据传输领域。但是如何解压缩损坏的无损压缩文件仍然是一个挑战。针对在通用编码领域广泛使用的无损数据压缩算法,该文提出一种能够修复误码并解压还原损坏的LZSS文件的有效方法,并给出了理论依据。该方法通过利用编码器留下的残留冗余携带校验信息,在不损失任何压缩性能的情况下,能够修复LZSS压缩数据中的错误。所提方法不需要增加额外比特,也不改变编码规则和数据格式,所以与标准算法完全兼容。即采用具有错误修复能力的LZSS方案压缩的数据,仍然可以通过标准LZSS解码器进行解压。实验结果验证了所提算法的有效性和实用性。
- 王刚彭华唐永旺
- 关键词:残留冗余
- 基于特征词向量的短文本聚类算法被引量:9
- 2017年
- 针对互联网短文本特征稀疏和速度更新快而导致的短文本聚类性能较差的问题,本文提出了一种基于特征词向量的短文本聚类算法。首先,定义基于词性和词长度加权的特征词提取公式并提取特征词代表短文本;然后,使用Skip-gram模型(Continous skip-gram model)在大规模语料中训练得到表示特征词语义的词向量;最后,引入词语游走距离(Word mover′s distance,WMD)来计算短文本间的相似度并将其应用到层次聚类算法中实现短文本聚类。在4个测试数据集上的评测结果表明,本文方法的效果明显优于传统的聚类算法,平均F值较次优结果提高了56.41%。
- 刘欣佘贤栋唐永旺王波
- 关键词:特征词相似度计算聚类
- 红外诊断技术在石化热设备状态检测中的研究
- 石化设备的状态检测与故障诊断一直是工业生产部门重视的问题。红外检测与诊断技术的飞速发展,为解决设备状态检测与故障诊断提供了新途径。红外检测技术以其安全性高、测温准确、非接触等特点越来越受到广泛应用,以红外图像为基础的石化...
- 唐永旺
- 关键词:红外检测阈值分割最佳阈值温度分布
- 文献传递
- 基于Transformer的时序多模态融合特征的异常网络流量检测方法被引量:2
- 2023年
- 针对当前卷积和循环神经网络相结合的模型无法有效表征网络流量的问题,提出一种基于Tansformer的时序多模态融合特征的异常网络流量检测方法。首先,以会话为单位切分网络流量,将会话中流量记录的统计特征分组。其次,利用多模态注意力编码器计算特征分组的融合特征,进而利用注意力机制对一个会话的所有流量记录并行建模,挖掘流量记录的时序多模态融合特征。最后,利用全连接层和softmax层对该特征进行线性变换和概率计算。在CIC-ToN-IoT数据集上的实验结果表明该方法切实可行,相较于对比方法,在取得较高的准确率和精度的同时,保持了最低的误报率。
- 唐永旺刘会景靳彦青王刚
- 基于HDP的无监督微博情感倾向性分析被引量:2
- 2015年
- 随着Web2.0的发展,微博情感倾向性分析的研究得到各界的广泛关注。有监督的情感倾向性分析存在标注样本获取难和领域可移植性差的问题,提出了一种基于HDP的无监督微博情感倾向性分析方法。该方法利用HDP模型挖掘微博中的隐含主题,并利用情感词典计算主题情感分布,进而得到整条微博的情感倾向。实验结果表明本文方法能够有效识别微博情感倾向。
- 唐浩浩王波席耀一周杰唐永旺
- 关键词:主题模型情感分析
- 无监督实体关系触发词词典自动构建被引量:3
- 2016年
- 传统的实体关系触发词词典构建主要采用人工方法和有监督的扩展学习方法。但是,上述两种方法都需要大量的人工参与,并且当关系类型发生变化时需要重新构建触发词词典。提出一种无监督的实体关系触发词词典自动构建方法。首先,对关系实例文档集进行分层狄利克雷过程建模,通过主题过滤和词语概率权重过滤构建候选触发词集合;然后,利用依存句法分析对候选触发词集合进行再次过滤以得到最终的触发词词典。该方法有效避免了传统实体关系触发词词典构建所需的大量人工参与。实验表明,基于分层狄利克雷过程和依存句法分析的实体关系触发词词典自动构建方法有效降低了人工标注成本,取得了较高的准确率。
- 刘绍毓席耀一李弼程唐永旺陈刚
- 关键词:依存句法分析
- 漯河市农作物秸秆综合利用现状及对策研究被引量:1
- 2012年
- 近年来,农村的生活水平不断提高。农民不再需要农作物秸秆作为炊事的主要燃料。每到秋收季节,农民为抢收、抢种。大都把剩余秸秆在田间直接焚烧处理,不但造成资源浪费,而且带来严重的大气污染。还频繁引发火灾事故。特别是在机场周围和公路两侧焚烧秸秆。严重影响了飞机的起降和汽车行驶的安全。因此,农作物秸秆综合利用问题。已引起社会的广泛关注和政府的高度重视。
- 支慧唐永旺
- 关键词:农作物秸秆焚烧处理资源浪费火灾事故公路两侧
- 图像语义提取方法研究被引量:6
- 2011年
- 为解决从图像的低层视觉特征到高层语义特征的"语义鸿沟"问题,对当前的语义提取方法进行研究,简单介绍了图像语义层次模型,并根据语义信息的来源不同,归纳总结了图像语义中基于处理范围的方法,基于机器学习的方法,基于人机交互的方法和基于外部信息源的提取方法,这些工作为图像语义提取和图像语义检索等研究提供有益参考。
- 魏晗李弼程张瑞杰唐永旺
- 关键词:语义提取支持向量机语义标注