国家自然科学基金(61232015)
- 作品数:11 被引量:52H指数:4
- 相关作者:张书涵陈德彦张霞魏强金芝更多>>
- 相关机构:中国科学院数学与系统科学研究院中国科学院大学中国科学院更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划中国博士后科学基金更多>>
- 相关领域:自动化与计算机技术经济管理医药卫生更多>>
- 面向中文电子病历的属性挖掘被引量:1
- 2022年
- 电子病历(EMR)的属性挖掘任务旨在从一组同一科室下的病历文本中抽取该科室医学检查项目。传统的频繁项或序列挖掘技术并不能直接用于该任务。本文提出一种新的不需要人工干预的属性挖掘框架,并借助无标注技术来处理这一难题,即将属性挖掘问题形式化为半结构化的频繁子序列挖掘任务,并提出一种有效的算法从电子病历中挖掘候选的词模式。在中文电子病历上进行的各项综合实验,证明了本文提出的方法可以有效处理属性挖掘任务。
- 费超群张书涵张书涵
- 基于路径特征的复杂本体匹配被引量:1
- 2017年
- 复杂本体匹配方法主要分为基于匹配模式的方法和基于机器学习的方法,前者需要人工制定启发式规则而后者易陷入局部最优解。针对上述问题,提出一种融合匹配模式和机器学习的复杂匹配方法。引入路径特征刻画本体中实例具有的性质,路径特征是匹配模式的具体化。在此基础上,使用一阶归纳学习器组合路径特征得到复杂的匹配结果。实验结果表明,该方法可以自动学习到本体间的复杂匹配,且与基于一阶归纳学习器的复杂匹配方法相比,能够有效缓解局部最优问题。
- 王汉博孙启霖
- 关键词:本体属性信息
- 基于多Web信息源的主题概念网络获取被引量:1
- 2013年
- Wikipedia一方面能够提供关于特定百科条目的概念性描述;另一方面,也通过分类系统将这些百科条目组织成一个概念网络.它对信息的广泛覆盖和有效组织使其成为了自动化知识获取的常用信息源.然而,仅仅依靠Wikipedia自身的信息,还不足以准确地刻画其内部概念间的关联性知识,而这是符号化知识表述的一个重要组成部分.因此,提出了一种基于多Web信息源的主题概念网络获取方法.它以Wikipedia的分类系统为基础,同时利用搜索引擎收集相关的Web信息作为关联性知识验证和发现的参照系,并通过集成信息检索和自然语言处理等领域的方法,实现了以给定的主题词为核心,在Wikipedia分类系统对应的概念网络中获取面向该主题的概念网络,同时网络内的概念间关系得到识别和标注.我们基于不同领域的主题词进行了实验,对实验结果的经验性评估展示了所获取的主题概念网络既能满足面向主题的要求,其内部的概念关联性知识又具备了一定的精度要求.
- 许焱金芝李戈魏强
- 关键词:知识获取信息检索自然语言处理
- 基于领域语义知识库的疾病辅助诊断方法被引量:12
- 2020年
- 健康医疗领域是一个知识密集型的领域,临床诊断的质量主要依赖于医生所掌握的健康医疗知识以及临床经验.然而,单个医生的能力仍然非常有限,所以目前临床诊断的质量并不高.为此,提出一种基于领域语义知识库的疾病辅助诊断方法,基于Freebase中medicine主题域的知识建立了领域语义知识库,提出计算知识库中症状于疾病诊断的权重、计算与患者输入症状集相关的疾病的相关度和基于患者输入症状集推荐相关症状的算法.最后,基于随机选取的6种常见疾病的临床病历数据对所提出的方法与现有方法进行了对比评价,评价结果一方面表明了所提方法对已有方法存在的问题和不足的改进效果,另一方面也表明所提方法可以避免“冷启动”问题,可以快速支撑对大量常见疾病的辅助诊断.基于所提方法,有望为基层全科医生提供大量常见疾病的辅助诊断服务,或者为患者提供疾病自诊服务.
- 陈德彦陈德彦张霞
- 关键词:本体相关症状
- RCC8的一致分割及其算法被引量:1
- 2015年
- 区域连接演算(Region Connection Calculus,RCC)是一种用于空间定性表示和推理的形式化模型,如RCC5,RCC8等,其一致性检查被证明是一个NP问题。幸运的是,在其可处理子集上,路径一致性和一致性等价,即便这样也有O(n3)的时间复杂度和O(n2)的空间复杂度。为了提高一致性检查的效率,提出了一致分割的概念,给出了其定义和成立的充分必要条件,用来将RCC8的约束图在保持一致性的前提下分割成若干个子图,分而求解各个子图的一致性;并随后给出了几种一致分割的充分条件,和相应的高效分割算法。在随机生成的大型、稀疏约束图上的实验表明了一致分割的有效性。
- 崔文正
- 关键词:约束满足问题区域连接演算
- 物联网服务建模:一种基于环境建模的方法被引量:16
- 2013年
- 物联网服务是传统Web服务通过传感器网络向物理环境的延伸,它通过传感器网络感知物理环境中的实体,也向物理环境实体施加作用.与传统Web服务相比,由于物联网服务受到所依赖的物理环境的时间受限性、资源受限性和设备潜在故障概率的影响,物联网服务的响应速度、服务能耗和容错能力等特性成为影响物联网系统整体特性的重要因素.因此,对物联网服务进行全面建模,对物联网服务所处的外部环境进行形式化描述,并结合物理环境模型对物联网服务的性质进行分析,对于确保物联网系统的正确性、稳定性非常必要.本文针对物联网服务的特点,结合基于环境建模的需求工程思想,提出一种基于环境的物联网服务三元问题域建模框架,给出了物联网服务建模本体以及相应的建模原则.在此基础上,提出了一种物联网服务行为建模方法,该方法将物联网服务和物理环境建模为概率时间自动机,将用户期望的服务特性描述为时序逻辑公式,为物联网服务功能行为正确性验证和非功能性约束可满足性验证奠定了基础.
- 李戈魏强李力行金芝许焱郑丽伟
- 关键词:物联网环境建模
- 面向中文的修辞结构关系分类体系及无歧义标注方法被引量:3
- 2019年
- 修辞结构理论是一种重要的篇章结构理论,其核心是修辞结构关系。该文基于修辞结构理论,结合中文文本特点,提出面向中文的层次化修辞结构关系分类体系及多元定义。同时,针对标注者遇到的歧义问题,提出了无歧义标注方法。为了便于标注,设计并实现了基于Java图形界面的标注工具RSTTagger,该工具以句子的主谓结构关键词构成的元组作为基本标注单位,自底向上逐级标注,最终标注成一棵完整的修辞结构关系树。为验证标注结果的一致性,选取160篇中文外贸领域语料进行标注,不同标注者同时标注其中50篇,标注一致性达到76.63%。该标注框架可以应用到其他领域语料标注中,已标注的160篇语料可以作为篇章结构理论研究的基础语料库。
- 侯圣峦费超群张书涵
- 关键词:自然语言处理修辞结构理论篇章结构分析
- 工作流网频繁子网挖掘研究进展
- 2022年
- 本文总结了工作流网频繁子网挖掘的主流研究方向,包括从一维的日志进程中构造工作流网及其子网和从二维工作流网中挖掘其频繁子网结构,总结了其中的代表性方法及其优缺点。工作流网具有复杂、异构拓扑结构和完备性语义的特性,本文详细分析了将频繁模式挖掘(FPM)算法直接用于工作流网频繁子网挖掘存在的问题及缺陷。并给出了工作流网频繁子网挖掘的典型应用,包括异常检测、跨组织变体分析等。最后讨论了工作流网频繁子网挖掘中的研究难点和未来研究趋势。
- 张书涵费超群黄锡昆李阳阳
- 关键词:工作流网PETRI网
- 基于二维人体关节点特征的体育视频标注被引量:3
- 2014年
- 视频标注是指利用语义索引信息标注视频内容,其目的是方便检索视频。现有视频标注工作使用的视觉底层特征,较难直接用来标注体育视频中的人体专业动作。针对此问题,使用视频图像序列中二维人体关节点特征,建立专业动作知识库来标注体育视频中的专业动作。采用动态规划算法比较视频之间的人体动作差异,并融入协同训练学习算法进行体育视频的半自动标注。以网球比赛视频为测试数据进行实验,结果表明,该算法的动作标注正确率达到81.4%,与现有算法的专业动作标注相比,提高了30.5%。
- 崔云翔
- 关键词:形状上下文动态规划体育视频
- 知识图谱平台综述被引量:7
- 2022年
- 近年来,知识图谱被广泛研究和应用。为了能够更加准确、高效地维护知识图谱的全生命周期,以及对知识图谱进行更多复杂的操作,大量知识图谱平台被设计、开发和应用。而开发者通常是基于他们所拥有的知识图谱而进行设计和开发的,缺少对知识图谱平台整体上的认识以及对应用场景特殊性需求的理解。通过调研当前主流的43个知识图谱平台,分别从知识图谱平台的功能、架构和应用三个角度对其进行系统性的分析和研究,旨在使平台开发和使用人员对知识图谱平台有更深入的认识,进而促进知识图谱平台被高效地开发和使用。
- 王传庆李阳阳费超群黄锡昆
- 关键词:知识图谱