来斯惟 作品数:6 被引量:74 H指数:3 供职机构: 中国科学院自动化研究所 更多>> 发文基金: 国家自然科学基金 国家重点基础研究发展计划 北京市重点实验室开放基金 更多>> 相关领域: 自动化与计算机技术 文化科学 更多>>
基于表示学习的中文分词算法探索 被引量:34 2013年 分词是中文自然语言处理中的一个关键基础技术。通过基于字的统计机器学习方法学习判断词边界是当前中文分词的主流做法。然而,传统机器学习方法严重依赖人工设计的特征,而验证特征的有效性需要不断的尝试和修改,是一项费时费力的工作。随着基于神经网络的表示学习方法的兴起,使得自动学习特征成为可能。该文探索了一种基于表示学习的中文分词方法。首先从大规模语料中无监督地学习中文字的语义向量,然后将字的语义向量应用于基于神经网络的有监督中文分词。实验表明,表示学习算法是一种有效的中文分词方法,但是我们仍然发现,由于语料规模等的限制,表示学习方法尚不能完全取代传统基于人工设计特征的有监督机器学习方法。 来斯惟 徐立恒 陈玉博 刘康 赵军关键词:中文分词 基于多特征表示的本体概念挂载 被引量:2 2012年 该文研究了一种基于多特征表示的本体概念挂载方法。以中国大百科知识体系作为本体体系结构,抽取网络知识库条目作为本体概念,通过分析条目中文本内容、语义标签和半结构化信息获得本体概念间层级关系。该文将中国大百科知识体系扩展为百万级概念的多领域中文本体,为进一步抽取本体概念的属性、概念之间的非层级关系以及支持问答服务等应用建立了良好的基础。实验证明该方法相对于单一特征方法能够提高11.8%的挂载精度。 徐立恒 刘洋 来斯惟 刘康 田野 王渝丽 赵军关键词:本体 一种基于循环卷积网络的文本分类方法 本发明公开了一种基于循环卷积网络的文本分类方法,包括以下步骤:步骤1,利用双向循环网络对所有词进行上下文向量的表示;步骤2,将上下文向量及当前词的词向量组合成当前词的表示;步骤3,利用最大池化技术提取最重要的上下文信息得... 徐立恒 刘康 赵军 来斯惟基于表示学习的知识库问答研究进展与展望 被引量:27 2016年 面向知识库的问答(Question answering over knowledge base,KBQA)是问答系统的重要组成.近些年,随着以深度学习为代表的表示学习技术在多个领域的成功应用,许多研究者开始着手研究基于表示学习的知识库问答技术.其基本假设是把知识库问答看做是一个语义匹配的过程.通过表示学习知识库以及用户问题的语义表示,将知识库中的实体、关系以及问句文本转换为一个低维语义空间中的数值向量,在此基础上,利用数值计算,直接匹配与用户问句语义最相似的答案.从目前的结果看,基于表示学习的知识库问答系统在性能上已经超过传统知识库问答方法.本文将对现有基于表示学习的知识库问答的研究进展进行综述,包括知识库表示学习和问句(文本)表示学习的代表性工作,同时对于其中存在难点以及仍存在的研究问题进行分析和讨论. 刘康 张元哲 纪国良 来斯惟 赵军关键词:语义分析 面向非结构化文本的开放式实体属性抽取 被引量:11 2013年 从非结构化文本中抽取给定实体的属性及属性值,将属性抽取看作是一个序列标注问题.为避免人工标注训练语料,充分利用百度百科信息框(Infobox)已有的结构化内容,对非结构化文本回标自动产生训练数据.在得到训练语料后,结合中文特点,选取多维度特征训练序列标注模型,并利用上下文信息进一步提高系统性能,进而在非结构化文本中抽取出实体的属性及属性值.实验结果表明:该方法在百度百科多个类别中均有效;同时,该方法可以直接扩展到类似的非结构化文本中抽取属性. 曾道建 来斯惟 张元哲 刘康 赵军关键词:属性抽取 非结构化 百度百科 一种基于循环卷积网络的文本分类方法 本发明公开了一种基于循环卷积网络的文本分类方法,包括以下步骤:步骤1,利用双向循环网络对所有词进行上下文向量的表示;步骤2,将上下文向量及当前词的词向量组合成当前词的表示;步骤3,利用最大池化技术提取最重要的上下文信息得... 徐立恒 刘康 赵军 来斯惟文献传递