王宏志
- 作品数:256 被引量:637H指数:15
- 供职机构:哈尔滨工业大学更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术文化科学电气工程经济管理更多>>
- 复杂数据上的实体识别技术研究
- 复杂数据当前有着广泛的应用,有效地使用复杂数据需要对其质量进行管理。实体识别是数据质量管理的基本操作,用于在数据集合中发现同一实体的不同描述,其在数据质量管理中可以用于错误检测、不一致数据发现等。由于包含复杂的结构信息,...
- 王宏志樊文飞
- 关键词:数据管理复杂数据数据质量
- 深度学习驱动的跨模态数据检索被引量:9
- 2021年
- 针对大数据下跨模态数据检索效率低下的问题,该论文深入研究了深度学习理论,采用了人工卷积神经网络模型和感知机模型,提出了一种深度学习驱动的跨模态数据检索模型并基于开源深度框架进行了完备的对比试验。该检索模型利用深度学习强大的学习和表征能力,其由图像特征提取子网、文本特征提取子网、哈希码学习子网组成;并依据条件熵和交叉熵的概念提出了多标签相似度度量方法和模型训练方法。该文用神经网络的方法进行特征提取,较之手工特征方法检索正确率提高了10%左右。
- 王宏志燕钰
- 关键词:数据检索感知机
- 基于生成式对抗网络的开放式信息抽取被引量:2
- 2021年
- 开放信息抽取(Open IE)是自然语言处理(NLP)的核心任务。尽管在这方面工作投入很多,但仍有许多问题需要解决。传统的开放式信息抽取方法使用一组手工定制的抽取模式从语料库中提取关系元组。同时,在程序中使用了许多自然语言处理工具;因此,将面临误差传播问题。为了解决这些问题,并受到最近成功的生成式对抗网络(GANs)的启发,文中采用了一种对抗训练架构,将其命名为Adversarial-OIE。在Adversarial-OIE中,开放式信息抽取模型的训练由一个鉴别器辅助,这是一个卷积神经网络(CNN)模型。该鉴别器的目标是将Open IE模型生成的提取结果与训练数据进行区分。开放IE模型的目标是产生高质量的三元组来欺骗鉴别器。利用策略梯度方法对Open IE模型和鉴别器进行联合训练。通过实验证实,本文的方法明显优于许多现有的基准测试。
- 韩家宝王宏志
- 关键词:神经网络
- 一种基于聚类的自适应时间序列异常检测方法及装置
- 本发明涉及数据处理技术领域,提供了一种基于聚类的自适应时间序列异常检测方法及装置,该方法包括:通过SAX方法对训练集中的时间序列进行降维和符号化,得到符号化的时间序列;根据符号化的时间序列构建前缀树;通过滑动窗口从测试集...
- 王宏志杜冠宏万晓珑
- 文献传递
- 基于半监督学习的疾病预测模型建立方法及装置
- 本发明涉及一种基于半监督学习的疾病预测模型建立方法及装置,包括以下步骤:将有标签数据进行分类,得到有标签数据的基础分类模型;选取部分无标签数据;将选取的部分无标签数据通过聚类方法进行分类,并且利用所述基础分类模型对选取的...
- 王宏志宋扬
- 文献传递
- 数据集分类学习算法自动选择系统及方法
- 一种数据集分类学习算法自动选择系统及方法,属于机器学习技术领域。本发明针对现有数据处理中涉及到的学习算法的选择方式不具有通用性,若逐个进行尝试则计算量过大的问题。系统包括训练特征选择模块:选择各分类问题数据集,对每个分类...
- 王宏志王春楠张天赐陈含笑
- 文献传递
- 海量关系数据库的压缩存储与查询策略
- 本文针对海量关系数据库的压缩存储和查询的问题,提出了基于同类型的同质属性划分的策略,使得关系数据库类型相同和相似的列放在一起进行存储,这种从垂直属性划分派生出来的方法使得数据可以获得比较大的压缩比,同时解决了垂直属性划分...
- 王宏志李建中骆吉洲张艳秋
- 关键词:海量数据查询策略
- 文献传递
- 变压器油色谱数据的迭代式清洗方法
- 一种变压器油色谱数据的迭代式清洗方法,属于数据清洗技术领域。本发明针对变压器油色谱数据中的劣质数据不能被有效识别并清洗的问题。包括:将原始数据集中的数据分为违反规则数据集和符合规则数据集;采用符合规则数据集对分类器进行预...
- 刘一达丁小欧杨东华王宏志
- 一种面向大数据的并行系统优化方法
- 一种面向大数据的并行系统优化方法,本发明涉及面向大数据的并行系统优化方法。本发明的目的是为了解决现有技术都是针对某一特定的算法,没有针对复杂算式,且计算耗时长的问题。具体过程为:步骤一:将数据密集型算式进行抽象化处理;步...
- 王宏志宋扬文豪李建中高宏
- 不一致数据上精确决策树生成算法被引量:5
- 2017年
- 近年来,随着现实生活中数据量的不断增大,不一致数据的出现也越发频繁,这使得人工修正不一致数据变得更加耗时.而且,人工修正数据方法本身也存在着不可避免的人为操作错误,因此,这种修正方法不再可行.如何不提前修复不一致数据,直接在不一致数据上进行分类,是该文的核心研究内容.对决策树生成算法的目标函数进行改进,使其能够直接对不一致数据进行分类,并得到较好的分类结果.对约束条件中的特征对分类结果的影响进行了多方面衡量,从而调整该特征的影响因子,使得决策树的节点分割更加精确,分类效果更优.
- 王鹤澎王宏志李建中高宏
- 关键词:决策树海量数据