冯冠军 作品数:15 被引量:43 H指数:5 供职机构: 新疆大学人文学院 更多>> 发文基金: 国家自然科学基金 国家社会科学基金 博士科研启动基金 更多>> 相关领域: 自动化与计算机技术 文学 更多>>
基于双向LSTM的维吾尔语事件因果关系抽取 被引量:16 2018年 针对传统方法不能有效抽取维吾尔语事件因果关系的问题,该文提出一种基于双向LSTM(Bidirectional Long Short-Term Memory,Bi LSTM)的维吾尔语事件因果关系抽取方法。通过对维吾尔语语言以及事件因果关系特点的研究,提取出10项基于事件内部结构信息的特征;同时为充分利用事件语义信息,引入词嵌入作为Bi LSTM的输入,提取事件句隐含的深层语义特征并利用批样规范化(Batch Normalization,BN)算法加速Bi LSTM的收敛;最后融合这两类特征作为softmax分类器的输入进而完成维吾尔语事件因果关系抽取。实验结果表明,该方法用于维吾尔语事件因果关系的抽取准确率为89.19%,召回率为83.19%,F值为86.09%,证明了该文提出的方法在维吾尔语事件因果关系抽取上的有效性。 田生伟 周兴发 禹龙 冯冠军 艾山吾买尔 李圃关键词:语言信号处理 维吾尔语 面向维吾尔语文本的改进后缀树聚类 被引量:2 2012年 针对后缀树聚类选取基类时,基类短语出现信息不规范、重复和冗余的问题,提出了一种改进后缀树聚类算法。该算法首先以短语互信息算法改进基类的选取,选出遵守维吾尔语语法规则的基类短语;然后,利用短语归并算法对选取的重复基类短语进行归并;最后,在前两步的工作基础上,利用短语去冗余算法处理冗余的基类短语。实验证明,与传统后缀树聚类(STC)相比,改进后缀树聚算法的全面率、准确率都得到了提高。这表明,改进算法有效地改善了聚类效果。 翟献民 田生伟 禹龙 冯冠军关键词:维吾尔语 后缀树 互信息 冗余 论维吾尔现代戏剧繁荣的内在原因 被引量:1 2005年 维吾尔现代戏剧在20世纪30~40年代曾经出现过繁荣的局面。除了外部因素促使它发展,戏剧本身发展 的内在因素起到更为关键作用。这就是戏剧构成的三个重要因素,即剧作家、演员、观众都已达到相当成熟的地步。 在这三方面的共同作用下,维吾尔戏剧得以迅速发展。 冯冠军关键词:维吾尔 戏剧 作家 演员 观众 基于CRFs自动构建维吾尔语情感词语料库 被引量:6 2011年 提出维吾尔语情感语料库的构建规范,设计和实现维吾尔语情感语料库辅助整理系统。该系统结合维吾尔语情感语料的具体特点,多方面分析维吾尔语情感词汇的特征,利用条件随机场(CRFs)模型进行维吾尔语情感词汇的自动识别。测试结果验证该系统能够大幅度降低人工劳动,高效快速地标注维吾尔语情感词语料。 冯冠军 禹龙 田生伟关键词:维吾尔语 语料库构建 基于堆栈降噪自编码的维吾尔语事件共指关系识别 2018年 结合维吾尔语的语言特点,基于堆栈降噪自编码(SDAE),提出一种新的维吾尔语事件共指关系识别方法。将维吾尔语事件两两构成候选事件对,抽取事件基本属性、触发词、事件距离等9项特征,利用Word Embedding富含语义信息的特性,将其计算得到的维吾尔语事件触发词语义相似度作为特征之一,训练SDAE模型,将SDAE的输出作为softmax层的输入,从而分类完成维吾尔语事件共指关系识别任务。实验结果表明,与浅层机器学习模型支持向量机相比,基于深度学习机制的SDAE模型更适用于维吾尔语事件共指关系识别任务,并提升了识别性能。 王淑媛 田生伟 禹龙 冯冠军 艾山吾买尔 李圃 赵建国关键词:维吾尔语 语义相似度 基于Bi-LSTM的维吾尔语人称代词指代消解 被引量:3 2018年 针对维吾尔语人称代词指代现象,提出利用双向长短时记忆网络(Bi-directional long short term memory,Bi-LSTM)的深度学习机制进行基于深层语义信息的维吾尔语人称代词指代消解.首先将富含语义和句法信息的word embedding向量作为Bi-LSTM的输入,挖掘维吾尔语隐含的上下文语义层面特征;其次对维吾尔语人称代词指代现象进行探索,提取针对人称代词指代研究的24个hand-crafted特征;然后利用多层感知器(multilayer perception,MLP)融合Bi-LSTM学习到的上下文语义层面特征与hand-crafted特征;最后使用融合的两类特征训练softmax分类器完成维吾尔语人称代词指代消解任务.实验结果表明,充分利用两类特征的优势,维吾尔语人称代词指代消解的F1值达到76.86%.实验验证了Bi-LSTM与单向LSTM、浅层机器学习算法的SVM和ANN相比更具备挖掘隐含上下文深层语义信息的能力,而hand-crafted层面特征的引入,则有效提高指代消解性能. 田生伟 秦越 禹龙 吐尔根.依布拉音 冯冠军关键词:指代消解 维吾尔语 自然语言处理 重新认识文学的世界性 2005年 经济的全球化对文学带来了新的变化,文学的民族性与世界性问题越来越受到学者的关注。本文通过对马克思、恩格斯关于世界性问题的分析,指出在精神生产领域,民族性与世界性并不是两个对立的概念。文学创作有其自身的规律,一个民族的深层文化特征不会因为经济的全球化而轻易改变。 冯冠军关键词:文学 民族性 维吾尔语比较句识别研究 2016年 识别比较句并提取被比较事物之间的关系是细颗粒度意见挖掘的重要研究内容之一。该文给出维吾尔语比较句的范畴、语法特点,定义了维吾尔语比较句识别的任务。提出两层识别模型,第一层是基于比较词的粗识别,第二层提出双向CSR挖掘算法(Bidirectional CSR Mining),以挖掘的模式为特征,利用支持向量机(SVM)筛选得到比较句,实现维吾尔语比较句的识别。实验F值达到70.93%,证明提出的两层识别模型可以有效识别维吾尔语比较句。 王慧云 禹龙 田生伟 加米拉.吾守尔 冯冠军关键词:维吾尔语 文本分类 基于栈式降噪自编码和词嵌入表示的维吾尔语零指代消解 2018年 针对维吾尔语零指代现象,提出采用栈式降噪自编码的深度学习机制进行维吾尔语零指代消解。首先由大规模无标注维吾尔语语料训练得到富含语义和句法信息的词嵌入表示,将其作为候选先行语和缺省零代词的语义特征;其次根据维吾尔语语言特点,抽取14项针对零指代消解任务的手工设计特征;然后融合word embedding特征和14项hand-crafted特征作为栈式降噪自编码的输入,最后经过无监督逐层贪婪的预训练和有监督的微调过程,使用softmax进行分类完成维吾尔语零指代消解任务。实验结果表明,与传统栈式自编码、浅层机器学习的支持向量机和人工神经网络相比,栈式降噪自编码的F值分别提高了4.450%、10.032%和8.140%,实验结果验证了该方法的有效性及栈式降噪自编码在任务中具备挖掘高层面鲁棒性语义特征的优势。 秦越 禹龙 田生伟 冯冠军 吐尔根.依布拉音 艾斯卡尔艾木都拉 赵建国关键词:维吾尔语 基于深度信念网络的维吾尔语事件伴随关系识别 被引量:2 2018年 维吾尔语事件伴随关系是维吾尔语语言中常见且重要的关系之一。结合对维吾尔语语言特点的研究,该文提出一种基于深度信念网络的维吾尔语事件伴随关系识别方法,根据维吾尔语语言特性和事件伴随关系的特点,抽取12项基于事件结构信息的特征;同时充分利用事件对所对应的两个触发词之间的语义信息,引入Word Embedding计算两个触发词之间的语义相似度。而后融合两类特征作为DBN模型的输入进行训练,最后将训练结果作为softmax分类器的输入实现维吾尔语事件伴随关系的识别。该方法用于维吾尔语事件伴随关系的识别准确率P为81.89%、召回率R为84.32%、F1值为82.48%。实验结果表明,与支持向量机方法相比,基于DBN模型的方法取得更好的识别效果。 胡伟 禹龙 田生伟 吐尔根.依布拉音 冯冠军 艾斯卡尔艾木都拉关键词:维吾尔语