国家自然科学基金(61032008) 作品数:19 被引量:112 H指数:6 相关作者: 于洪志 李亚超 加羊吉 海银花 江涛 更多>> 相关机构: 西北民族大学 新疆大学 内蒙古大学 更多>> 发文基金: 国家自然科学基金 中央高校基本科研业务费专项资金 国家社会科学基金 更多>> 相关领域: 自动化与计算机技术 语言文字 电子电信 更多>>
融合音节特征的最大熵藏文词性标注研究 被引量:15 2013年 藏文词性标注是藏文信息处理中非常重要的基础性问题,该文以最大熵模型为基本框架,根据藏文的构词特征及统计分析结果,定义并选取特征模板,研究了融合语言特征的最大熵藏文词性标注模型。实验结果表明,最大熵模型能够较好的处理藏文词性标注问题,音节特征可以显著提高藏文词性标注的效果,与基准系统相比使错误率降低了6.4%。 于洪志 李亚超 汪昆 冷本扎西关键词:藏文 词性标注 最大熵 低数据资源条件下基于结构信息共享的无切分维文文档识别字符建模 被引量:4 2015年 无切分维吾尔文文档识别技术能够有效避免字符切分错误,但是对于低数据资源的新样本类型,原有模型往往难以获得较高的识别性能。为此,该文提出共享常用维文字体间相对稳定的字符结构信息,并用Bootstrap方法提高样本利用效率的解决方法。通过在实际书籍样本上的实验表明,仅利用规模约原始训练样本1/5的新类型样本,该方法在测试集上的平均字符识别准确率就可以达到95.05%;而与常用的最大后验概率估计方法相比,也能使识别错误率相对降低55.76%-63.84%。因此,该方法能够有效解决低数据资源条件下的维文字符建模问题,实现对新样本类型的高性能识别。 姜志威 丁晓青 彭良瑞 刘长松关键词:文字识别 隐马尔可夫模型 统计学习 维吾尔文 一种提高维吾尔语-汉语词语对齐的方法研究 被引量:9 2012年 维吾尔语是典型的粘着性语言,其复杂的形态以及众多的词缀影响维吾尔语-汉语词语对齐的质量.本文提出对维吾尔语词进行形态分析并词干与词缀分离,再进行对齐;并根据维吾尔语遵循语音和谐规律的特点,对维吾尔语词缀的变体采用统一的表示方法,使得词缀呈现相同的形式.通过以上方法欲达到抑制维汉词语对齐中数据稀疏现象.本文利用此方法处理了新疆多语种信息技术重点实验室提供的维汉双语语料,再利用GIZA++进行对齐,试验结果表明,此方法对词语对齐效果起到了明显的积极作用,而且对维汉机器翻译的质量也有显著的提高. 麦热哈巴·艾力 王志洋 吐尔根·依布拉音关键词:词对齐 维吾尔语 形态分析 基于KNN的中文文本分类性能研究 被引量:1 2011年 本文针对文本分类的文本表示、分类器等关键技术进行了研究,并且使用基于K最近邻(k-NearestNeighbor,KNN)分类算法在系统上实现了文本分类器。在此基础上通过实验数据针对样本集、K的取值等因素对分类效果的影响做了详细的研究比较,通过对性能变化原因分析,提出了最优性能解决方案。 王勇 徐涛 于洪志 江涛关键词:文本分类 KNN 特征降维 字符识别研究现状和发展趋势计量分析 被引量:4 2018年 为了探究字符识别领域的研究现状和发展趋势,整理Web of Science中近20年以字符识别为主题的典型文献作为研究对象,采用文献计量分析方法,利用CiteSpace可视化分析工具绘制知识网络图谱,系统科学地分析字符识别领域的研究国家、研究机构、研究热点以及核心文献,理清研究发展脉络。研究发现,字符识别的理论研究已经相对成熟,研究内容主要集中在算法或模型优化,以提高字符识别在实际应用中的识别准确率。通过上述工作,希望为我国研究人员了解字符识别的相关研究提供进一步的参考和帮助。 郝辉 哈力木拉提.买买提 乔萨础拉 苏佩佩关键词:字符识别 文献计量分析 CITESPACE 蒙古语熟语资源库的初步构建 2014年 随着信息社会的迅猛发展,蒙古语熟语的语汇和应用面临着巨大挑战。构建"熟语资源库"是保护、开发和利用蒙古语熟语资源的最佳途径,也是机器翻译、语料库加工、文本校对等多个领域提供形式化知识从而能够解决蒙古文信息处理研究的燃眉之急。同时将其研究成果拓展到教学领域,提升蒙古语言文字的教学效率。目前,该资源库处于初步开发阶段。从资源库的规模与结构、属性字段及管理软件设计、应用前景分析等方面介绍该资源库的总概貌。 海银花 那顺乌日图 额尔敦朝鲁关键词:蒙古语 基于鲁棒主成分分析和多个色彩通道的显著性检测 被引量:2 2014年 显著性检测在图像分割、物体检测、视觉效果评估等领域有非常广泛的用途。为了增强这种图像预处理技术的实用性,同时对人眼视觉系统的机理进行研究和模拟,该文提出了一种基于鲁棒主成分分析和多个色彩通道的显著性检测方法。将图像的多个色彩空间重构成每一列都线性相关的矩阵,然后将显著性区域看作是矩阵的稀疏成分,将背景信息看作是低秩成分。经过对新矩阵进行鲁棒主成分分析后就可以将显著性区域提取出来。最后加入人眼视觉系统中的显著性先验和中心先验机理,使得提出的模型更加合理。实验结果表明:该方法在量化指标和视觉效果方面超过了当前很多先进的方法,验证了这种假设的合理性。 马小龙 谢旭东 林健文 钟宜生关键词:显著性检测 维吾尔文智能输入法研究 被引量:4 2013年 开发智能化的输入法是维吾尔文输入技术的一个发展方向,也是维吾尔文自然语言信息处理的基础性研究课题。该文根据维吾尔文自身特点,对用户输入过程中所犯各种错误进行分析,设计并实现了词语搭配知识库,提出了基于二元语法模型的一种新型维吾尔文输入算法,并给出了实现其关键模块功能的程序流程图。它具有自动预测、自动联想输入和自动校对等功能。 米日姑·肉孜 吐尔根·依布拉音 麦热哈巴·艾力关键词:中文信息处理 维吾尔文 智能输入法 语言模型 基于改进卡方统计量的藏文文本表示方法 被引量:4 2014年 藏文文本表示是将非结构化的藏文文本转换为计算机能够处理的数据形式,是藏文文本分类、文本聚类等领域特征抽取的前提。传统的藏文文本表示方法较少考虑特征项之间的关联度,容易造成语义损失。为此,结合向量空间模型,提出一种新的藏文文本表示方法。提取文本中词频统计TF-IDF值较高的部分词项作为对比词项,对藏文文本进行断句处理,以每个句子作为一个语境主题,利用卡方统计量计算文本中词项与对比词项的关联程度。实验结果表明,与传统的向量空间模型相比,该方法能更准确地表示藏文文本。 徐涛 于洪志 加羊吉关键词:藏文信息处理 文本表示 向量空间模型 “蒙古语名词语义信息词典”数据库的构建 被引量:4 2012年 "名词语义信息词典"是"蒙古语语义信息词典"的分库,是整个蒙古语语言知识库的组成部分。"名词语义词典"翔实描述了每一个词语的语义分类、搭配规则、配价等方面的语义属性。 海银花 那顺乌日图关键词:蒙古语 名词