国家高技术研究发展计划(2011AA01A206)
- 作品数:42 被引量:301H指数:10
- 相关作者:王东波苏新宁韩普沈思吴广印更多>>
- 相关机构:中国科学技术信息研究所南京大学南京农业大学更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金国家社会科学基金更多>>
- 相关领域:文化科学自动化与计算机技术语言文字经济管理更多>>
- 下一代数字图书馆的发展思考被引量:44
- 2013年
- 为适应数字图书馆的时代发展要求,分析当今数字图书馆的类型构成、业务功能和技术体系,指出数字图书馆正朝向语义出版、数据知识组织、移动阅读和分析统计的趋势发展。在此基础上,对下一代数字图书馆的发展提出战略性思考,包括大数据时代的资源建设策略、语义背景下的资源聚合模式、泛在条件下的用户体验服务和多元环境下的基础研究保障。
- 周杰苏静曾建勋
- 关键词:数字图书馆知识服务语义技术
- 基于清华汉语树库的时间表达式抽取模型构建研究被引量:6
- 2012年
- 基于清华汉语树库,利用条件随机场,构建时间表达式知识抽取模型。为了确保模型的性能,统计分析时间表达式的内部和外部特征,并把确定的特征应用到模型的构建中。在语言特征模板基础上,在摘要语料上抽取验证表明,时间表达式抽取模型的调和平均值最高达到80.83%。
- 沈思苏新宁谢靖王东波
- 关键词:条件随机场
- 面向汉语句法功能分布知识库的词汇类别知识挖掘研究被引量:5
- 2013年
- 基于清华大学汉语树库,通过多叉树存储结构,构建汉语词汇的句法功能分布知识库。在构建的句法功能分布知识库基础上,利用Sparse Feature Clustering(SFC)中的K-medoids聚类算法,对汉语词汇的类别知识进行挖掘探究。
- 王东波朱丹浩
- 关键词:树库知识库SFC
- 面向中文图书的自动标引模型构建及实验分析被引量:2
- 2013年
- 针对中文图书关键词自动标引问题,引入条件随机场机器学习算法,通过对大量已有的中文图书手工关键词标引数据进行训练和学习,生成包含序列实体之间语义关系和规则特征的标注模型,并利用该标注模型进行机器预测,自动抽取出图书关键词。主要解决两个问题:鉴于条件随机场模型的参数选择会影响到系统的标注性能,从多个角度进行对比实验,确定针对中文图书关键词标引这一特定问题的条件随机场模型的最佳参数集合;探讨不同的观察特征对关键词标引的影响,通过实验论证4个能够有效提高标引性能的观察特征。最终建立起面向中文图书的最佳关键词标引模型。
- 王昊邹杰利邓三鸿
- 关键词:条件随机场关键词标引特征函数
- 基于英汉双语短语级平行语料的类别知识挖掘研究被引量:1
- 2012年
- 在已有聚类算法的基础上,基于英汉双语短语级人文社会科学平行语料,进行类别知识挖掘的实验。根据实验数据并结合具体的研究需求,确定相应的聚类算法和英语形态转换的算法。通过对汉语、英语和英汉双语词汇级知识聚类的性能进行对比,确定英汉双语词汇特征的性能优于单语。获取的类别知识可以直接应用到知识库、机器翻译模型的构建中,同时探究英汉两种词汇在类别知识获取过程中具体表现。
- 王东波韩普沈思魏向清
- RMSCloud与科技文献云服务被引量:1
- 2013年
- 在对云计算相关功能定义进行研究和分析的基础上,针对科技文献的云服务需求结合云计算的相关应用,介绍RMSCloud的相关核心技术及特点。最后基于RMSCloud对科技文献云服务应用的集成系统架构进行阐述。
- 吴广印
- 关键词:云计算云服务科技文献服务
- 齐普夫定律在中文短语知识中的呈现被引量:5
- 2014年
- 本文对大规模汉语短语树库中的短语直接成分进行了抽取,在统计各短语结构直接成分频次的基础上排序,并进行短语成分的齐普夫定律验证。实验由局部及整体两部分组成:在局部实验中,对单一短语直接成分进行齐普夫定律验证;在整体实验中,对全部短语直接成分进行齐普夫定律验证。实验结果表明,在汉语短语树库中,短语的直接成分分布符合齐普夫定律。这个现象表明,从计量角度而言,汉语短语具有其内核知识,并以内核为基础在最省力原则下对不同语境进行派生,这种派生首先要围绕语法内核知识进行构建,同时又要根据不同语境进行拓展。本研究一方面实现了面向短语层次的语法知识抽取,从计量角度揭示了汉语短语构成的分布规律;另一方面对于中文信息处理中的短语识别、自动句法分析等研究提供短语基础知识支持,这些知识最终可应用于术语短语识别、自动标引、知识抽取、语义分析等研究。
- 谢靖陈静王东波
- 关键词:齐普夫定律
- 知识服务环境下分类表的知识组织探究被引量:8
- 2014年
- 在知识服务这一大的研究环境下,基于分类表这一知识分类的工具探究知识组织的具体情况。从揭示知识内在联系的角度,细致地分析了分类表的知识组织结构。针对关系数据库的数据机器存储方式在分类表知识更新、删除、添加上存在的不足之处,给出分类表的图形数据库存储方式以及具体的检索案例。
- 沈思苏新宁
- 关键词:知识服务分类表图形数据库知识组织
- 数字环境下的语义出版研究被引量:15
- 2013年
- 数字环境下正在兴起的语义出版研究,将会给网络出版带来全新的态势。文章对语义出版国内外相关研究与实践进行了回顾,分析了语义出版的步骤,归纳了语义出版的功效。
- 周杰曾建勋
- 关键词:数字环境语义网数字出版
- 大数据下智慧发现服务平台研究被引量:4
- 2015年
- 大数据正在引发科学研究思维与方法的一场革命,科研人员需要从数据中能直接查找或挖掘所需要的信息、知识和智慧。科研信息需求的变化给信息资源服务和科研管理服务提出了新的挑战。面对这一挑战,本文提出了建立大数据下智慧发现服务平台研究。首先分析了国内外陆续出现的资源发现服务存在的不足,其次扩展了资源发现服务系统的功能,并建立了互联网开放智慧发现服务平台总体模型,接着给出了知识创新链上的动态感知服务模型,最后给出了实现科研知识创新的智慧发现服务平台子系统和发现工具的实验。支撑平台基于已完成的863课题建立的RMS—Cloud云服务平台,部分工具已在当前的服务中得到了用户的好评。
- 温有奎乔晓东
- 关键词:大数据智能感知