吐尔根·依布拉音
- 作品数:73 被引量:144H指数:6
- 供职机构:新疆大学信息科学与工程学院更多>>
- 发文基金:国家自然科学基金国家电子信息产业发展基金国家社会科学基金更多>>
- 相关领域:自动化与计算机技术语言文字文化科学电子电信更多>>
- 新疆少数民族语言文字信息处理研究与应用被引量:26
- 2011年
- 该文主要对国内开展维吾尔、哈萨克、柯尔克孜等少数民族语言信息处理以来的相关研究工作进行了介绍和评价。在此基础上对维吾尔、哈萨克、柯尔克孜文信息处理的进一步发展进行了展望。目的是为了探讨如何加速推进维吾尔、哈萨克、柯尔克孜文信息处理技术的发展。通过对维、哈、柯文操作系统、信息技术标准、语言信息处理及综合应用等四个方面历史和现状的介绍及简单评价,对维、哈、柯语信息处理的发展方向做了相关描述。
- 吐尔根·依布拉音袁保社
- 关键词:维吾尔文哈萨克文信息处理操作系统自然语言
- 维吾尔文单词拼写检查器的研究与实现
- 校对输入是自然语言处理领域中一个有着广阔应用前景的研究内容.本文系统地分析了维吾尔文文本中经常发生的正字错误种类,论述了对于阿拉伯文字母为基础的维吾尔文词典的设计,介绍了从词典中查找单词的方法,提出了维吾尔语文单词语拼写...
- 阿里甫·库尔班吐尔根·依布拉音阿布力米提
- 关键词:维吾尔文
- 文献传递
- 古代维吾尔文献数字化浅谈
- 古代维吾尔文献是我国民族古代文献很重要的组成部分。本文探讨了古代维吾尔文献数字化的意义、基本原则、范围、内容、实施方法及其相关技术等。
- 阿依克孜·卡德尔吐尔根·依布拉音
- 关键词:维吾尔数字化
- 文献传递
- 新疆少数民族地区的计算机教育建设被引量:1
- 2007年
- 随着历史长河滚滚向前奔流,新疆古代民族通过不断地迁徙、裂变、融合和发展,逐渐形成了当代新疆的13个主要民族。语言文字是教育的主要工具。多民族、多语种的特点,造就了新疆教育的复杂性。新疆是一个以维吾尔族为主体的多民族地区,目前境内有维吾尔族、汉族、哈萨克族、回族、柯尔克孜族、蒙古族、塔吉克族、锡伯族、满族、乌孜别克族、俄罗斯族、达斡尔族、塔塔尔族等47个民族,其中世居民族有13个。截止2004年底,新疆人口为1963.11万人,其中少数民族人口约占60.5%。各民族中,维吾尔族897.67万人,占总人口的45.73%;汉族780.25万人,占39.75%;哈萨克族138.16万人,占7.04%;回族87.63万人,占4.46%;柯尔克孜族17.12万人,占0.87%;蒙古族16.96万人,占0.86%;塔吉克族4.35万人,占0.22%;锡伯族4.08万人,占0.21%;满族2.41万人,占0.12%,乌孜别克族1.42万人,占0.072%;俄罗斯族1.13万人,占0.058%;达斡尔族0.67万人,占0.034%;塔塔尔族0.47万人,占0.024%;其他少数民族共10.79万人,占0.55%。党和国家从新疆多民族的实际出发,制定并实施了一系列符合国情的民族政策和宗教政策,在少数民族聚居地区实行了民族区域自治制度。
- 加米拉·吾守尔吐尔根·依布拉音
- 关键词:少数民族地区计算机教育塔吉克族乌孜别克族达斡尔族
- 维吾尔语词法分析的有向图模型被引量:22
- 2012年
- 维吾尔语是典型的黏着性语言,其派生能力很强,具有丰富的形态变化,同时遵循语音和谐规律,生成过程中会出现弱化、增音、脱落等音变现象.这些特性决定了维吾尔语词法分析的难点,包括词干提取、发生音变字母的还原以及标注.将维吾尔语词的层次结构引入到词法分析研究中,提出了维吾尔语词法分析的有向图模型,该模型将维吾尔语词法分析描述为有向图结构,图中节点表示词干、词缀及其相应标注,其边表示节点之间的转移或生成概率并将此概率作为候选择优的依据.针对维吾尔语在形态变化过程中发生的音变现象,又提出基于词内字母对齐算法的自动还原模型,该模型将音变现象泛化到每个字母上的假设之下,将还原问题转变成类似于词性标注问题,再利用统计方法进行还原.在对新疆多语种信息技术重点实验室手工标注的《维吾尔语百万词词法分析语料库》上进行的实验中,取得了词干提取正确率为94.7%,词干与各词缀切分并标注的F值达到92.6%的好成绩.
- 麦热哈巴·艾力姜文斌王志洋吐尔根·依布拉音刘群
- 关键词:维吾尔语词法分析词语切分词性标注有向图
- 基于短语的维吾尔文文本分类被引量:5
- 2012年
- 文本特征表示是在文本自动分类中最重要的一个环节。在基于向量空间模型(VSM)的文本表示中特征单元粒度的选择直接影响到文本分类的效果。对于基于词袋模型(BOW)的维吾尔文文本分类效果不理想的问题,提出了一种基于统计方法的维吾尔语短语抽取算法并将抽取到的短语作为文本特征项,采用支持向量机(SVM)算法对维吾尔文文本进行了分类实验。实验结果表明,与以词为特征的文本分类相比,短语作为文本特征能够提高维吾尔文文本分类的准确率和召回率。
- 阿力木江·艾沙吐尔根·依布拉音库尔班·吾布力李哲
- 关键词:文本分类短语抽取支持向量机维吾尔语互信息
- 基于N-gram的维吾尔语词性标注研究
- 词性标注有很多不同的研究方法,目前的维吾尔语词性标注的方法都以基于规则的方法为主。本文在大规模人工标注的语料库的基础上研究了基于N-gram模型的维吾尔语词性标注的方法,比较了一元,二元以及三元文法模型对维吾尔语词性标注...
- 买合木提·买买提吐尔根·依布拉音
- 关键词:词性标注N-GRAM模型维吾尔语语料库
- 文献传递
- 维吾尔文搜索引擎的倒排索引设计与实现
- 索引结构的设计是搜索引擎的核心,直接关系到搜索引擎的检索速度,在搜索引擎中运用最多的索引结构为倒排索引结构。本文针对维吾尔文网页的特点,维吾尔文单词提取其词干方法进行了初步探讨,设计了维吾尔文搜索引擎的一种倒排索引结构。
- 维尼拉·木沙江吴俊森吐尔根·依布拉音
- 关键词:倒排索引搜索引擎维吾尔语
- 文献传递
- 一种用于术语管理及抽取的分析方法
- 本发明公开了一种用于术语管理及抽取的分析方法,该方法包括如下步骤:S1.创建维吾尔语倒排索引;S2.输出创建好的维吾尔语倒排索引文件;S3.检查创建的维吾尔语倒排索引文件的准确性;S4.加密维吾尔语倒排索引;S5.检查加...
- 卡哈尔江·阿比的热西提米尔夏提·力提甫吐尔根·依布拉音阿里木·库尔班王路路买合木提·买买提吴浩
- 文献传递
- 基于音节的维吾尔语文本校对系统的研究
- 传统的维吾尔语文本校对技术都是以庞大的词库、词的出现频率统计方法为主的,有很多的局限性。本文提出了一种音节统计、单词统计和语法规则相结合的,以音节匹配为主要手段的维吾尔语文本校对的方法。
- 买合木提·木合买提吐尔根·依布拉音
- 文献传递