中国博士后科学基金(20090461425) 作品数:23 被引量:129 H指数:6 相关作者: 曹建军 刁兴春 李凯齐 谭明超 邵衍振 更多>> 相关机构: 总参第六十三研究所 解放军理工大学 国防科技大学 更多>> 发文基金: 中国博士后科学基金 江苏省博士后科研资助计划项目 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 军事 电子电信 兵器科学与技术 更多>>
挖掘机构别名的Jaccard相似度数据空间转换方法 2018年 针对同一机构实体对应多个机构名称的问题,提出了一种基于Jaccard相似度数据空间转换的机构别名挖掘方法。根据机构与作者间的隶属关系,建立机构-作者二部图模型;采用Jaccard相似度度量两机构名称所对应作者姓名集合间的相似度;根据机构间的相似度矩阵,将集合型数据转换成数值型数据;通过计算机构名称对应的相似度向量间的余弦相似度,实现了机构别名的有效挖掘。最后用真实数据进行对比实验验证了该方法的优越性。 尚玉玲 曹建军 李红梅 刘艺关键词:余弦相似度 一种融合多种编辑距离的字符串相似度计算方法 被引量:44 2010年 针对中西文混合字符串,采用了将汉字作为西文字符的等价单位计算编辑距离的方法,并从输入法的角度提出了采用拼音编码和五笔编码计算编辑距离的方法,最后给出了融合三种编辑距离计算字符串相似度的算法。仿真结果表明,该方法在提高相似重复记录检测的查全率的同时,也能获得较高的查准率。 刁兴春 谭明超 曹建军关键词:数据清洗 相似重复记录 字符串匹配 字符串相似度 数据清洗及其一般性系统框架 被引量:31 2012年 数据清洗是提高数据质量的重要手段之一。从数据产品与传统的有形产品、软件产品相类比的视角,研究数据清洗及其系统框架。数据清洗是数据质量研究的起点,从数据质量发展的角度明确数据清洗的地位和作用,并将其类比为其他产品形式的故障诊断与维修。对数据清洗做了10点说明,进一步澄清了其基本内涵;将数据清洗与数据集成进行了比较分析,指出二者是同等的数据质量概念。提出了数据清洗的一般性系统框架,其由准备、检测、定位、修正、验证5部分组成,允许在多处停止以完成不同的数据清洗任务,是一个柔性的、可扩展的、交互性好的、松耦合的框架。 曹建军 刁兴春 陈爽 邵衍振关键词:数据质量 数据清洗 相似重复记录 基于胶囊网络的文本数据真值发现 被引量:1 2023年 为解决传统真值发现算法无法提取文本数据关键语义信息的问题,提出一种基于胶囊网络的文本数据真值发现算法(Truth Discovery of Text Data Based on Capsule Network,Caps-Truth),对传统卷积神经网络(Convolutional Neural Network,CNN)进行改进,在神经网络模型中构造语义胶囊层替代CNN池化层表征文本语义信息。首先通过CNN卷积层获取文本数据全局特征,利用初级胶囊层将特征信息向量化,再通过语义胶囊层表征文本数据细粒度语义信息,将特征向量输入全连接神经网络挖掘文本数据可信度并获得可靠答案。上述算法在真值发现中引入胶囊网络,利用动态路由算法整合零散语义,有效提高了文本数据真值发现的效果。实验结果表明,Caps-Truth算法优于对比算法。 陶嘉庆 樊树海 曹建军 常宸关键词:数据质量 神经网络 文本数据 信息系统模拟数据生成研究综述 2012年 信息系统模拟数据生成是提供信息系统试验、试用和演练中所需数据的重要途径。通过与软件测试数据生成、样本数据扩充、虚拟现实相关研究领域比较,讨论了信息系统模拟数据生成的研究定位;归纳了信息系统模拟数据生成的研究内容;提出了具有数据层、中间层和生成层三层结构的典型信息系统模拟数据生成系统结构框架;最后对信息系统模拟数据生成的研究方向进行了展望。 曹建军 刁兴春 张慧 谭明超 邓波关键词:信息系统 软件测试数据 样本数据 虚拟现实 基于位运算的不完整记录分类检测方法 被引量:3 2010年 缺失数据的处理是数据清洗的重要内容。提出了一种基于位运算的不完整记录分类检测方法。对不完整记录进行了界定,将记录分为完整、不完整合格、不完整修正和不完整删除四类,并给出了其层次分类流程。定义了记录的二进制表示,根据不完整记录样本生成各类记录的标准二进制表示集,按在样本中出现的次数确定标准二进制表示的优先级,并对不完整删除标准二进制表示集中的二制表示进行了表达式合并。通过位运算实现记录的分类检测,并通过处理未检出二进制表示逐步完善二进制表示集。根据不完整记录二进制表示确定记录的进一步处理。应用实例验证了方法的有效性。 曹建军 刁兴春 吴建明 袁震 彭琮关键词:数据质量 数据清洗 缺失数据 基于Bi-GRU并包含注意力机制的文本数据真值发现 被引量:6 2020年 针对传统真值发现算法无法直接应用于文本数据的问题,该文提出基于Bi-GRU并包含注意力机制的文本数据真值发现方法。根据文本答案的多因素性,词语使用的多样性与文本数据的稀疏性等特点,该文对用户答案进行细粒度划分,并利用Bi-GRU表征文本答案的语义信息,利用双层注意力机制分别学习用户答案关键词可靠度及用户答案可靠度。依据真值发现的一般假设,无监督学习上下文向量,并最终获得可靠答案。实验结果表明,该算法适用于文本数据真值发现场景,较基于检索的方法及传统真值发现算法效果更优。 常宸 曹建军 吕国俊 郑奇斌 翁年凤关键词:数据质量 神经网络 文本挖掘 基于蚁群参数优化的LightGBM辐射源个体识别 被引量:5 2023年 为提升辐射源个体识别正确率和运算效率,提出了一种基于蚁群参数优化的LightGBM辐射源个体识别方法。运用提升小波包变换对辐射源信号数据进行特征提取并构建特征参数体系,对得到的特征数据集进行Z-score标准化处理;以最大分类正确率和最小特征子集规模为目标,建立了LightGBM参数优化和特征选择的数学模型;采用蚁群算法优化LightGBM的6个参数(最小叶子节点数据量、决策树的数量、学习率、L_(1)正则化项的权重、L_(2)正则化项的权重和最小叶子节点样本权重和);根据优化后的LightGBM得到每个特征的重要性值并使用序列后向搜索策略进行特征选择;最后通过LightGBM分类器实现对辐射源信号的分类识别。实验结果表明,所提方法在无噪声、信噪比为10 dB和信噪比为5 dB信号的数据集上的识别正确率优于对比特征选择方法GBDT、XGBoost和LightGBM的,同时特征维数的减少也提升了辐射源个体识别的运算效率。 顾楚梅 曹建军 王保卫 徐雨芯关键词:辐射源个体识别 蚁群算法 基于进化强度的蚁群算法过程性能评价 被引量:3 2013年 为了评价蚁群算法的过程性能,提出了一种基于进化强度的蚁群算法性能评价方法。以子集问题为例,引入谷元距离度量解的差异程度,并定义了迭代的相对进化幅度。将一次迭代的相对进化幅度与解的相对差异程度之比定义为进化强度,并据此将迭代区分为进化代与停滞代。通过多次运行算法并计算进化强度的平均值得到蚁群算法的进化强度趋势图,对比进化强度的趋势图进行蚁群算法过程性能评价。以4种求解子集的典型蚁群算法为例,通过标准测试实例验证了评价方法的有效性与合理性。 曹建军 刁兴春 李凯齐 邵衍振关键词:蚁群算法 趋势图 多源文本数据真值发现方法 被引量:2 2022年 针对传统真值发现算法无法直接应用于文本数据的问题,提出基于深度神经网络面向多源文本数据的真值发现算法(NN_Truth)。根据文本答案多因素性、词语使用多样性以及文本数据稀疏性等特点,将“数据源-答案”向量作为网络输入,识别答案真值向量作为网络输出,依据真值发现的一般假设,无监督学习各数据源答案向量间关联关系,并最终获得答案真值。实验结果表明,该算法适用于文本数据真值发现场景,较基于检索的方法及传统真值发现算法效果更优。 曹建军 常宸 陶嘉庆 翁年凤 蒋国权关键词:数据质量 神经网络 文本挖掘