曹晖 作品数:22 被引量:29 H指数:3 供职机构: 西北民族大学 更多>> 发文基金: 甘肃省自然科学基金 国家科技支撑计划 中央高校基本科研业务费专项资金 更多>> 相关领域: 自动化与计算机技术 历史地理 文化科学 理学 更多>>
基于民族文字的在线虚拟键盘实现技术 2012年 以在线藏文虚拟键盘为例,描述了在线民族文字虚拟键盘的实现技术,并在字符编码、键盘布局、浏览器兼容等方面进行了详细阐述。在线民族文字虚拟键盘为用户提供一个与国家标准键盘布局相对应的民族文字虚拟键盘,其具有直观、形象、易操作的特点。民族文字的在线虚拟键盘技术的实现,改善了B/S模式下民族文字输入不便的问题。 孟祥和 何向真 曹晖关键词:民族文字 虚拟键盘 JQUERY OpenOffice的国际化与本地化机制 2007年 全球化进程中,软件(包括操作系统)要能支持和处理多种语言文字并符合其相应的文化习俗,让全世界的用户都能以他们自己的语言文字、文化习惯使用软件.多语言处理软件,就要涉及软件的国际化问题和本地化问题.国际化主要解决的是多语言文本的处理能力,其核心是围绕字符集进行的.本地化主要解决的是针对某一种特定的语言而进行的处理. 曹晖关键词:本地化 藏文古籍保护技术的体系结构与元数据方案建设 本文从藏文古籍保护技术体系结构的建设角度考察元数据方案,元数据方案在很大程度上决定了藏文古籍保护技术各类对象的数据结构,影响着数字资源的管理方式和构件模型。同时元数据方案应该体现藏文古籍保护技术与一般因特网应用的不同之处... 单广荣 于洪志 戴玉刚 曹晖关键词:元数据 体系结构 文献传递 基于特征加权的电影票房预测研究 2023年 文章搜集了678部电影并将其作为数据,选择电影制式、电影题材、制片地区、发行公司、是否I P续集、主演、导演、编剧以及档期等作为主要影响因素,使用合理方法将这些影响因素进行量化并归一化处理后,随机选取其中300部电影使用随机森林算法计算特征重要性,并使用对数变换计算权重,之后使用BP神经网络对剩余电影进行票房预测。实验表明,对电影影响因素赋予权重后的模型十折交叉验证R-Sq ua red均值为0.7998,高于未进行权重赋予的0.6641,并且在对知名电影进行预测时,权重赋予后的模型的预测值总体上也更接近实际值,可见使用随机森林特征重要性分数进行权重赋予可以在一定程度上提高票房预测效果。 吴正清 曹晖 崔泽宇关键词:BP神经网络 面向藏文WEB的话题发现系统的设计 2011年 针对互联网上新闻网站和论坛、博客等发布的海量自然语言文本,本文设计了一个面向藏文的话题发现系统,将大量藏语文本分类整理并聚合成各个话题。本文采用两层聚类策略对文本进行聚类,实验结果表明文本聚类取得了不错的结果,具有较高的应用价值。 韩小斌 于洪志 曹晖关键词:凝聚聚类 Linux系统藏文拉丁文转写输入法的实现 被引量:1 2010年 藏文拉丁转写是指不必理解藏语词、句语义的情况下,按照读音将藏文字符号影射为拉丁字母符号,用于表述藏文信息的方法.文章针对藏文文字和书写特点,借鉴国际藏学领域藏学专家通用的拉丁转写方法,以信息处理为研发目的,在Linux系统输入法机制下,定制藏文输入字符的选取原则、外码设计原则;基于rfinput输入法服务器确定藏文拉丁转写输入法实现模型、处理模块的分析设计及藏文特性处理等几个部分. 曹晖关键词:LINUX 藏文 输入法 基于Linux系统的藏文实现 本文主要研究如何在Linux操作系统OpenSource的开发模式下实现藏文的处理。其主要研究内容包括设计实现目标,分析设计结构模块及选择内码、设置本地化环境、开发输入法、本地化MESSAGE 等具体任务的实现。 曹晖关键词:LINUX 藏文 文献传递 基于藏文新闻文本话题检测的聚类算法研究 被引量:2 2014年 话题检测的提出是为了帮助人们从海量的新闻报道中发现未知的新话题,其中文本聚类算法的研究,是实现藏文新闻文本的话题检测技术的核心.本文提出一种聚类算法,是基于简易聚类算法的改进,首先改进了文本顺序对聚类结果产生的影响,其次通过确定种子话题,来确定话题的类别.本研究的聚类算法在较小规模的语料中比改进前源算法有一定程度的提高.本文的研究对象是藏文网站中的新闻文本. 曹晖 孟祥和关键词:聚类算法 消除图像噪声的方法研究 被引量:3 2003年 为使民族文化瑰宝藏族的唐卡得以永久保存,利用现代计算机图像处理技术,研究和恢复破损的图像,再现唐卡的完整画面,不失为一种好的手段,在消除图像噪声方面利用贝叶斯估计法可消除噪声、量化噪声。 曹晖关键词:图像处理 图像噪声 消噪方法 图像复原 文物保存 基于GAN的中文虚假评论数据集生成方法 2023年 针对互联网虚假评论大肆横行,在虚假评论研究领域却没有完全公开的中文数据集可供中文虚假评论检测研究的问题,提出了一种基于生成对抗网络的中文虚假评论数据生成模型.首先,对生成器生成的文字序列通过蒙特卡洛搜索获取一批样本;然后,采用强化学习方法将判别器、分类器和重构器的反馈化为奖励分数;最后,传回生成器,对生成器进行参数优化,以生成贴近真实世界的具有相应类标签属性及特征的虚假评论数据.以BLEU值为评估指标,实验结果表明,所提出的模型在本文数据集上取得了更好的BLEU值,具有较好的生成效果. 吴正清 曹晖