孙海霞 作品数:82 被引量:300 H指数:9 供职机构: 中国医学科学院北京协和医学院医学信息研究所 更多>> 发文基金: 中央级公益性科研院所基本科研业务费专项 国家科技支撑计划 教育部人文社会科学研究基金 更多>> 相关领域: 文化科学 自动化与计算机技术 医药卫生 语言文字 更多>>
一种缩略语文档的生成方法及装置 本发明提供了一种缩略语文档的生成方法及装置,在不同知识组织系统互操作过程中,提取不同来源词表中的术语并对其进行同义归并形成概念,生成集成词表,术语包括全称和缩略语多种形式;基于缩略语构词规则,识别集成词表中含有缩略语的目... 孙海霞 邓盼盼 李姣 钱庆文献传递 基于K-means的机构归一化研究 被引量:10 2013年 分析k-means算法的核心思想和基本步骤,借鉴现有基于频繁词集的文本聚类初始中心确定方法,提出一种面向大规模机构名称归一化处理应用的机构聚类方法,详细阐述机构聚类中心的生成、相似度算法的选择以及迭代次数问题,其实验和应用效果表现良好。 孙海霞 李军莲 吴英杰关键词:K-MEANS 相似度计算 医学术语标准化研究的思考 被引量:25 2018年 介绍国内外医学术语标准化研究现状,分析医学术语系统建设流程和术语标准化研究中的关键问题,采用系统分析方法对医学术语系统构建框架和流程进行探讨,指出医学术语系统构建应着重解决医学术语遴选和素材库建设、概念体系建立和术语标准化、开放发布及应用维护问题。 任慧玲 郭进京 孙海霞 李军莲 邓盼盼 冯铭 王怡一种面向人机协同的实体关系处理方法及系统 本发明提供了一种面向人机协同的实体关系处理方法及系统,该方法为:响应于用户的创建指令,结合预设的实体关系集合、预设的实体名称数据集和任务配置表单,创建实体关系抽取任务;响应于用户的定义指令,结合规则配置表单、预设的语料库... 李姣 孙海霞 沈柳 杨丰春文献传递 科技文献数据库中机构名称匹配策略研究 被引量:12 2018年 【目的】规范科技文献数据库中机构名称存储与管理,设计并实现机构名称匹配策略。【方法】引入地区、类别和命名特征,构建3类7组匹配判定规则,设计4组规则与编辑距离混合的匹配策略,基于中文生物医学文献数据库2006年–2011年"作者单位"数据进行实现与评估。【结果】在600余万条"作者单位"数据集上,对高等院校、医院与科研院所三类机构进行匹配实现,结果表明综合考虑机构地区和命名特征规则的混合匹配策略表现最佳,准确率均在80%以上,召回率达64.82%,F值达71.66%。【局限】辅助词典和规则构建主要依赖人工经验,覆盖面不全;机构名称识别存在错误,对匹配结果产生影响;提出的匹配策略无法有效解决机构名称形态差异较大的规范问题。【结论】本研究提出一种基于规则和编辑距离的机构名称匹配策略,能够提高科研文献数据库建设的规范性。 孙海霞 王蕾 吴英杰 华薇娜 李军莲关键词:信息检索 相似度计算 文献数据库 信息集成中的字符串匹配技术研究 被引量:13 2007年 匹配是信息集成的核心技术之一。论述基于编辑距离、基于标记以及N元文法等为代表的字符串匹配技术的研究现状,指出其存在的不足并提出改进思路。 孙海霞 成颖关键词:信息集成 字符串匹配 基于电子病历的重症老年患者急性肾损伤连续风险预测研究 2022年 目的探索重症老年患者(≥60岁)急性肾损伤早期连续风险预测的可行性,促进机器学习在临床决策支持中的应用。具体实现以6 h为单位连续预测重症老年患者在未来48 h的急性肾损伤发病风险,并探索可实现何种程度的早期预测,以及比较当前数据和累积数据的预测效果。方法基于重症监护医学信息数据库(Medical Information Mart for Intensive Care,MIMIC)-Ⅲ,应用逻辑回归、支持向量机、随机森林和轻量梯度提升机(light gradient boosting machine,LightGBM)建模预测。基于曲线下面积(area under curve,AUC)、精确度和召回率进行结果评估。结果共11261条重症老年患者记录纳入研究。基于当前6 h数据预测时,LightGBM的AUC达0.845~0.925,随机森林、支持向量机和逻辑回归的最高AUC均低于0.73。基于入重症监护病房最初6 h数据,LightGBM效果最好,AUC达0.845。LightGBM应用当前数据比累积数据获得更高的AUC、精确度和召回率,随机森林、支持向量机和逻辑回归反之。结论利用LightGBM对重症老年患者进行急性肾损伤早期连续预测切实可行,仅基于重症监护病房前6 h数据的预测结果就可以达到24 h积累数据的预测效果。此外,不同模型对数据的接收能力和适用性不同,LightGBM在当前数据中表现优于累积数据,其他3种模型在累积数据中表现优于当前数据。 邬金鸣 孙海霞 王嘉阳 钱庆关键词:疾病预测 急性肾损伤 电子病历 重症监护病房 CBM学术分析功能的设计与实现 期刊文献作为学术科研成果的主要体现形式,多年来一直是学术分析与评价的重要方面.本文探讨了基于《中国生物医学文献数据库》(CBM)全新'学术分析'功能的设计与实现,从功能结构设计、功能特色分析、数据组织与处理设计三方面详细... 李军莲 孙海霞 夏光辉 吴英杰 陈颖 赵胜钢 李赞梅关键词:中国生物医学文献数据库 模块化设计 数据处理 文献传递 学术论文作者机构规范文档构建~ 被引量:7 2015年 以中国生物医学文献数据库为基础,面向基于学术论文开展机构检索、分析与评价相关知识服务需要,对学术论文作者机构名称规范目标与内容、体系结构与组织方式以及构建过程与实现策略进行研究、实践总结。 孙海霞 李军莲关键词:中国生物医学文献数据库 社会化协作 科技知识组织体系语义互操作网络协同工作平台设计与实现 被引量:5 2019年 科技知识组织体系语义互操作是实现多源知识融合和创新服务的重要基础,计算机辅助工具则是影响科技知识组织体系语义互操作效率、质量和可持续发展的重要因素之一。旨为知识组织体系互操作项目提供实践案例和参考,文章以国家科技图书文献中心STKOS超级科技词表语义互操作项目软件工作环境—STKOS超级科技词表网络协同工作平台为例,总结科技知识组织体系互操作平台需求,介绍平台整体功能架构和术语归并、概念—范畴映射、质量控制、协同管理、知识编码等计算辅助自动处理关键技术实现思路,以及软件实现、应用情况,并提出后续研究方向。 孙海霞 李军莲 华薇娜 钱庆关键词:知识组织体系 语义互操作 协同管理