刘扬
- 作品数:19 被引量:59H指数:5
- 供职机构:北京大学信息科学技术学院计算语言学研究所更多>>
- 发文基金:国家社会科学基金国家重点基础研究发展计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 词汇语义知识库的研究现状与发展趋势被引量:5
- 2008年
- 作为文本内容理解的媒介与载体,词汇语义知识库已被广泛应用于信息检索、信息提取、问答系统、自动文摘等方面,成为自然语言处理不可或缺的基础资源。本文介绍词汇语义知识库研究与开发的现状,重点分析了WordNet、SinicaBOW、HowNet及CCD等具有代表性的词汇语义知识库的具体情况。在此基础上,盘点各种需求和解决方案,提出词汇语义知识库研究面临新的挑战和机遇,即本体化和多语化的大趋势,它们将从不同方面弥补词汇语义知识库在知识共享和知识交流上的不足,使其更好地为自然语言处理服务。本文最后探讨了词汇语义知识库未来发展中可能存在的问题和新的课题。
- 朱虹刘扬
- 关键词:本体多语自然语言处理
- 参照生成词库理论对动名兼类现象再讨论被引量:7
- 2020年
- 词的兼类问题及其处理策略是历久弥新的现代汉语词类研究中重要而又困难的课题之一。文章简要介绍汉语语法学界关于兼类的研究,然后参照生成词库理论,对其中最受关注的动名兼类现象再次进行讨论。根据陆俭明教授从汉语教学需要出发对兼类词下的定义,认识到字形和读音相同的动词与名词互为兼类词的条件是它们互为语义角色。文章还从语义层面论述了名动词不处理为动名兼类的合理性。文章在融合语法研究与语义研究方面是一个尝试,最后提出与兼类相关的一些语言学问题及语言工程任务。
- 俞士汶朱学锋刘扬
- 关键词:兼类词语义角色
- 基于语义构词的汉语词语语义相似度计算
- 汉语词语语义相似度计算,在中文信息处理的多种应用中扮演至关重要的角色。基于汉语字本位的思想,我们采用词类、构词结构、语素义等汉语语义构词知识,以“语素概念”为基础,计算汉语词语语义相似度。这种词义知识表示简单、直观、易于...
- 康司辰刘扬
- CCD语义知识库的构造研究被引量:12
- 2005年
- CCD(theChineseConceptDictionary)是一个WordNet框架下的汉英双语语义知识库(theChinese-EnglishWordNet).在制定语义规范后,作者提出了构造CCD的演化模型(themodelofevolution).新的构造模型强调双语语义知识库构造中的继承(inheritance)和转换(transformation)思想,希望从WordNet现有的英语单语语义信息出发,通过词典编纂者的联机翻译(onlinetranslations)和可视化操作(visualizedoperations),逐步实现由WordNet到CCD的计算性转换,自然地得到一个双语语义知识库,从而大幅度提高构造此类语义知识库的效率和质量.针对该构造模型,作者设计并实现了可视化的辅助词典构造软件VACOL.该软件在北大计算语言所CCD项目中得到大规模的应用,取得了很好的成果.
- 刘扬俞士汶于江生
- 关键词:语义分析语义知识库CCD
- 基于混合特征的汉语形容词词义区分研究
- 词义知识获取问题是词义消歧、词义知识库建设、语料库建设等不同研究的瓶颈问题。本文提出的基于混合特征的词义区分方法,通过发现并抽取易于获取的词义特征,结合EM迭代算法,能够很好地对汉语高频形容词实现词义区分。比较于不同的特...
- 朱虹贾玉祥刘扬
- 关键词:形容词EM算法
- 文献传递
- 基于混合特征的汉语形容词词义区分研究
- 词义知识获取问题是词义消歧、词义知识库建设、语料库建设等不同研究的瓶颈问题。本文提出的基于混合特征的词义区分方法,通过发现并抽取易于获取的词义特征,结合EM迭代算法,能够很好地对汉语高频形容词实现词义区分。比较于不同的特...
- 朱虹贾玉祥刘扬
- 关键词:汉字处理词义消歧数理语言学
- 文献传递
- 汉语未登录词的词义知识表示及语义预测被引量:7
- 2016年
- 在此前的汉语未登录词语义预测中,构词相关的知识一直被当做预测的手段,而没有被视为一种有价值的知识表示方式,该文在"语素概念"基础上,深入考察汉语的语义构词知识,给出未登录词的"多层面"的词义知识表示方案。针对该方案,该文采用贝叶斯网络方法,构建面向汉语未登录词的自动语义构词分析模型,该模型能有效预测未登录词的"多层面"的词义知识。这种词义知识表示简单、直观、易于拓展,实验表明对汉语未登录词的语义预测具有重要的价值,可以满足不同层次的应用需求。
- 田元贺刘扬
- 关键词:未登录词
- 基于特征序列的语义分类体系的自动构建
- 2015年
- 词义知识表示主要依赖属性描述或分类描述,这两种方式各有所长,但不同表示之间相互转换的可行性与现实状况还未被关注。在属性描述的基础上,该文引入序关系的思想,提出基于特征序列的概念与方法,以此来模拟、分析概念涵义从一般到特殊的渐次生成过程,发掘尚未显性化的中间概念,自动构建出一个语义分类体系。以HowNet(2000版)数据为例,实验表明该方法可以生成一个性质优良、覆盖完全的新的语义分类体系,并反映此前的属性描述在语言知识工程实践中不易察觉的一些问题。
- 陈刚刘扬
- 关键词:序关系
- 词语多义的表征
- 词义自动消歧长时期以来一直是自然语言处理中的热点难题。词语多义的表征主要有下面四种形式:(1)意义训释,(2)语义原语,(3)语义关系,(4)框架网络。人和计算机都是借助词语出现的上下文语境来消解词语歧义的,而上述四种语...
- 吴云芳刘扬俞士汶
- 关键词:多义词词义消歧自然语言处理
- 文献传递
- 汉语的语素概念提取与语义构词分析被引量:10
- 2018年
- 作为基础的表义单位,语素及此上的构词分析,既是汉语作为意合语言进行语义分析的起点,也是认知、理解词义的关键。该文提出了一种探寻汉语语义基元和分析词义的新的视角和方法:基于语素义相似度计算形成"同义语素集",用来表征"语素概念",并借鉴生成词库理论形成"语素概念体系";建立在此基础上的汉语语义构词分析,在全局性语义分析、数据挖掘等方面也有新的进展。这些思路、做法及语言资源建设,有望推动人文领域和计算应用等相关工作的开展。
- 刘扬刘扬康司辰
- 关键词:语素语素义语义基元