刘建华 作品数:32 被引量:215 H指数:9 供职机构: 中国科学院文献情报中心 更多>> 发文基金: 国家社会科学基金 国家科技支撑计划 国家自然科学基金 更多>> 相关领域: 文化科学 自动化与计算机技术 文学 金属学及工艺 更多>>
Digital Curation和Digital Preservation之概念辨析 被引量:20 2014年 【目的】对Digital Curation和Digital Preservation这两个相关概念进行辨析。【文献范围】以历史上与Digital Curation和Digital Preservation相关的重要文献和重要报告为基础,并调研分析DCC、JISC、ARL等主要机构对两个概念的各种定义。【方法】基于两个概念形成的历史,分析两个概念产生和发展的深层原因;基于当前主要研究团体和个人对两个概念的多个定义,分析两个概念的不同;进一步从8个方面入手,多角度对这两个概念的不同点进行对比分析。【结果】Digital Curation和Digital Preservation虽然都可用于数字保存和管理,但它们的确是两个不同的概念,在很多方面有较大的差别。【局限】尚需对Digital Curation和Digital Preservation所包括的具体工作内容进行较为细致的对比分析。【结论】Digital Curation和Digital Preservation是两个不同的概念,但二者互补,图书馆应当采用一种更为积极主动的方式来推进数字保存和管理。 张智雄 吴振新 刘建华 郭红梅关键词:DIGITAL CURATION DIGITAL 基于Stanford Parser的实体间关系识统 从非结构化文本中,自动、准确地识别出命名实体间的语义关系,是进行科研机构发展态势监测、科技领域发展全景描绘的情报分析工作的重要基础之一。本文在分析了当前基于通用文本工程框架(General Architecture fo... 刘建华 张智雄关键词:情报分析 开源工具 文献传递 半监督的网络科技信息分类模型 2014年 【目的】开放的网络科技信息网页内容之间区分度较小,传统基于规则和统计学习的方法无法满足网络科技信息网页分类的具体应用需求。【方法】通过深入分析网络科技信息主题网页的内容和结构,利用开放本体等资源实现领域特征的学习,构建半监督的网络科技信息分类模型。【结果】实验结果表明提出的方法在网络科技信息分类实验中的精度、召回率和F1值分别达到0.9016、0.8756和0.8884,相比贝叶斯方法具有明显优势。【局限】该方法在应用到其他类别的网络科技信息分类时,仍然需要领域专家提供相关领域的核心种子特征。【结论】该方法可以满足网络科技信息深度加工的需求,实现有效的网络科技信息网页分类。 李传席 张智雄 刘建华 钱力卓越描绘:一种对卓越科学机构进行评价的方法 被引量:2 2008年 为实现卓越科研机构、机构在各科研领域热点研究的科学评价,欧洲科学与技术卓越描绘Enrope mapping of excellence in science and technology,简称ME)从科研角度,结合定性定量方法,实施有效的评价。研究ME的内涵和基本思路、评价指标、评价数据和实施过程的特点、实施结果等相关问题,结合其评价体系和结果的反馈情况,提出对我国科学评价的启示,为进一步设计科学评价模型提供理论参考。 刘建华 张智雄科技战略情报监测服务云平台的设计与实现 被引量:6 2014年 【目的】构建一种支持按需申请、定制服务的科技战略情报监测服务云平台。【应用背景】在前期网络科技信息的自动监测平台的基础之上,为满足更多用户进行科技战略情报自动监测的需求,需要对原平台进行扩展改造。【方法】针对原有系统在灵活扩展、普惠型服务支持方面存在的问题,提出构建科技战略情报监测服务云的思路,并重点在6个方面对原有系统进行扩展改进。【结果】设计和实现能够支撑用户灵活扩展的、普惠型的科技战略情报监测服务云平台,并在多个领域得到实际应用。【结论】新平台形成按需申请、定制服务的科技战略情报监测服务云,可灵活支持大规模用户的战略情报监测服务需求,能有效地服务于科技战略情报研究的需要。 张智雄 刘建华 谢靖 钱力 张敏 于改红关键词:定制化服务 战略情报研究 基于规则的网络文本资源标题快速自动识别方法 被引量:5 2011年 选取网络文本资源的标题识别作为切入点,除考虑多数研究关注的文本的格式信息(如字体)、位置信息等特征外,加入对标题与网页正文内容的相关度的考虑,利用科技监测项目采集到的大量历史数据作为统计分析的基础,从候选标题的可能来源和特征方面,构建基于规则的网络文本资源标题快速识别方法,并给出该方法的时间效率和识别准确率测评结果。 刘建华 张智雄 谢靖 邹益民利用小样本量机器学习实现学术文摘结构的自动识别 被引量:9 2014年 【目的】通过在小样本量下基于机器学习算法实现文摘语句的自动分类,以此实现学术文摘结构的自动识别。【方法】设计多种学术文摘的文本表示特征,利用自然语言处理技术实现特征的自动提取,以此指导朴素贝叶斯、支持向量机模型进行训练,并利用训练模型自动识别文摘结构。【结果】实验证明该方法较之于同类方法能够在较少训练语料下实现较好的识别准确率。【局限】由于文摘中"方法"类别语句缺乏固定的类别特征词与核心动词,导致算法对该类别语句识别准确率较低。【结论】所提方法是一种小样本量情况下行之有效的学术文摘结构自动识别方法。 白光祖 何远标 马建霞 刘建华 邹益民关键词:学术文摘 结构识别 基于对象行为的情报关注模型研究 被引量:11 2013年 情报关注模型的构建是实施网络科技信息结构化监测的前提,在网络科技信息情报价值判断、科技动态监测中发挥着重要的作用。本文以能源科技领域监测动态快报为基础,对情报人员关注的网络科技信息的特征进行分析,发现对象及其行为在情报价值判断中具有重要的作用,对象及其行为具有机构特殊性,领域重要机构的数量具有收敛性。在此基础上构建基于对象行为特征的情报关注模型,该模型不但关注对象本身,而且关注对象的行为以及行为背后的事件。对情报关注模型应用效果进行的评测和分析的结果表明,该模型可以有效提高网络科技信息情报价值判断的准确性和精细化程度。 邹益民 张智雄 刘建华关键词:情报价值 知识对象 从ACE会议看信息抽取技术的发展趋势 被引量:14 2008年 介绍ACE测评会议的概况及其发展轨迹。在此基础上,结合ACE测评会议的测评任务、参加队伍、测评语料、测评结果等变化,分析信息抽取的发展现状,并对信息抽取的发展趋势进行探讨。 赵琦 刘建华 冯浩然关键词:ACE 信息抽取 非结构化文本中科研要素及其关系的识别方法研究 从非结构化的数字文本中识别出结构化的科研要素(科研人员、科研活动等)及其关系,对情报分析等研究有重要意义。尽管知识抽取等研究已经在或正在探索相关识别任务的思路和技术方法,但在精细化对象识别、对象间丰富的语义关系识别等方面... 刘建华关键词:知识抽取