国家语委科研项目(MZ115-039)
- 作品数:5 被引量:27H指数:3
- 相关作者:扎西加高定国赵栋材索郎桑姆更多>>
- 相关机构:西藏大学更多>>
- 发文基金:国家自然科学基金国家语委科研项目教育部人文社会科学研究基金更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 大型藏语平衡语料库建设中样本类别号的研究被引量:1
- 2013年
- 藏文语料库是计算机研究藏语规律的素材,建设藏语语料库是藏文信息处理研究的基础和前提。语料库建设中样本的类别号是识别样本类别的依据,也是关联藏文语料信息库、样本文档和使用者的纽带,在语料库建设中非常重要。文章结合藏语平衡语料库的建设,设计了藏文语料数据库,划分了藏文语料库的类别并设计实现了样本类别号的产生方法。
- 高定国索郎桑姆
- 关键词:藏语语料库
- 藏文文本分词赋码一体化研究被引量:4
- 2012年
- 在藏文文本理解中虚词发挥着重要的句法、语义桥接作用,其规则的有效性在藏文分词处理中扮演着特殊的角色。由于虚词本身及其角色的丰富性,在一定意义上可以说藏文分词处理是虚词识别的过程。因此,虚词识别的正确与否直接影响着藏文文本分词处理的效果。文章依据藏语自身的语法规律和虚词功能的特殊性,首先构建了虚词知识库、虚词兼类库,以及其作为藏文连续文本中识别虚词的依据;其次,研制了标有词汇属性的分词词表和一定规模的训练语料库资源,以基于条件随机域(CRF)的方法进行词性标注,并结合虚词和词性赋码的资源制作了藏文自动分词赋码一体化处理的模型。
- 扎西加高定国
- 关键词:藏文分词
- 藏语单句的基本句型研究被引量:3
- 2014年
- 藏语基本句型的研究有利于藏语教学,也有利于藏学研究,更有利于计算机的机器翻译、自然语言理解、人工智能等方面的研究。要实现自然语言的机器理解和表达,必须把自然语言抽象化、形式化,建立高度概括、抽象的句型是必然的选择。本文从3000多万字符语料中分离出约7000多句藏文单句进行词性标注,并进行人工校对。按照藏语句中的动词来界定句子,并根据句中的动词把藏文基本句型划分为7类。以基本句型为基础,讨论了藏语基本句型的省略、延伸、语序变化、派生句类和构成复句等变化。
- 高定国扎西加
- 关键词:藏语单句句型
- 计算机识别藏语虚词的方法研究被引量:13
- 2014年
- 藏文虚词的研究是藏文信息处理技术中词、句及语义研究的基础,而计算机自动识别藏文虚词又是藏语虚词研究的前提。该文在论述藏语虚词在藏语文本中的作用和使用方法的基础上,分析了计算机识别藏语虚词的难度,提出了一个计算机识别藏语虚词的方法,并用2 525句典型藏文句子进行了验证,对结果进行分析发现藏文虚词识别的正确率高达97.076 8%。
- 高定国扎西加赵栋材
- 关键词:藏语虚词
- 上下文无关文法与藏语句法分析被引量:7
- 2013年
- 上下文无关文法在计算机句法自动剖析中已经得到广泛的应用。文章利用这种上下文无关文法来分析和描写藏语句子结构,在句法分析过程中具体采纳预测和规约的分析方法,以举例验证的方式自动推导出藏语句子的句法结构规律;识别句子中的句法单位,以及各句法单位之间的关系,对藏文句法分析提供了较好的研究思路及探索价值。
- 扎西加
- 关键词:句法树语法规则