侯敏
- 作品数:75 被引量:341H指数:11
- 供职机构:中国传媒大学更多>>
- 发文基金:国家教育部“211”工程国家社会科学基金国家广电总局部级社科研究项目更多>>
- 相关领域:语言文字自动化与计算机技术文化科学社会学更多>>
- 论语言文字舆情信息的汇集被引量:7
- 2010年
- 进行语言文字舆情的监测和分析是国家语言资源监测与研究工作往纵深方向发展的必然趋势,目前这方面的研究刚刚开始。本文对语言文字舆情作了简要论述,在定义语言文字舆情概念,说明语言文字舆情的构成要素,探讨语言文字舆情信息特点的基础上,提出了语言文字舆情监测系统方案,并重点讨论了第一模块——语言文字舆情信息汇集子系统。语言文字舆情信息的汇集渠道宜以网络为主,在范围、内容、形式、时间和方法上应遵循相应的原则。本文还提出了一个确定语言文字舆情信息汇集范围的思路,简述了汇集方法。实验结果表明,语言文字舆情信息源的确定方法正确,覆盖范围较大,可信度较高。
- 杨江侯敏
- 基于汉英机器翻译的名词回指分析——句组研究之二
- 回指是语篇衔接的重要手段,其中名词回指对机器翻译会产生一定的影响。本文在详细分析各类名词回指的基础上,指出其中三类对机器翻译造成的障碍,并提出在句组层面上解决这些问题的算法。
- 侯敏孙建军
- 关键词:汉英机器翻译名词回指句组
- 文献传递
- 面向传媒语言语料库的关键词自动抽取研究
- 本文根据广播电视语言及其关键词的特点,提出通过建立过滤词典过滤垃圾串直接切分短语,并将切分好的短语序列作为关键词候选,进而对其进行各种权重因子的加权计算,最后根据统计结果按序抽取关键词的研究策略,构建了一个名为“传媒语言...
- 吴继媛孙淳侯敏
- 关键词:自动抽取关键词
- 面向汉英机器翻译的句组研究
- 目前汉英机器翻译中存在着几个主要问题,其中一些只有在句组平面上才能得到解决。本文从话语分析的角度讨论了这些问题并尽可能提出解决的办法。
- 侯敏孙建军
- 关键词:机器翻译句组话语分析
- 文献传递
- 平行语料检索技术研究
- 2012年
- 以中国传媒大学平行语料检索软件(CUC_ParaConc)为例论述平行语料检索技术,主要以纯文本形式的对齐语料为例进行阐述,包括平行语料的存储、读取技术以及双语、多语关键词检索技术。平行语料检索可分为"一对一"与"一对多"两种形式。在一对一平行语料检索中,以汉英平行语料为例分别论述了以汉语为对象的非拼音文字语料的检索技术,以英语为对象的拼音文字语料检索技术,对两者的异同进行了对比;在一对多平行语料检索中,重点论述了多语关键词检索技术。
- 程南昌侯敏
- 关键词:平行语料双语多语
- 报纸、广播电视、网络用字用词调查被引量:11
- 2007年
- 为了切实掌握我国当前语言国情状况,及时把握我国年度用语用字的第一手资料,为国家语言政策的调整和制定以及语言文字规范标准的制定、修订提供参考,国家语言资源监测与研究中心利用动态流通语料库,对2005年报纸、广播电视、网络等媒体的汉字、词语使用情况进行了调查,并就调查结果进行了初步分析。本文介绍该调查所使用的语料、调查的方法及操作原则、调查的结果以及初步的分析意见,以便人们更好地使用该调查数据。
- 王铁琨侯敏杨尔弘
- 关键词:字频词频
- 面向信息处理的汉语最长名词短语界定研究被引量:3
- 2017年
- 目前广泛采纳的最长名词短语定义是以其句法功能划分出的短语子集,导致了近30%的边界识别错误,同时由于对基本特征缺乏一致认识,不同研究的定义结果也有所不同。本文讨论了最长名词短语的长度约束、名词性认定、外延范围和层次构造等问题,提出按照句法位置特征划分出最长名词短语全集,定义为句子中不被其他名词短语直接包含的名词短语,其中包括单词结构、名词性短语和离心式名词短语。新定义的最长名词短语具有功能上的一致性和分布的相似性,减少了边界歧义,它呈现多层分布,但集中的层级分布倾向也预示了高效识别的可能性。
- 钱小飞侯敏
- 关键词:中文信息处理句法位置全集
- 篇章知识与逐级分类相结合的人物属性抽取方法研究被引量:1
- 2019年
- 人物属性抽取主要包括两个问题:属性识别和属性归属判定。属性识别主要是命名实体的识别,本文通过对分词软件的调整来完成;在属性归属判定中,本文突破目前主要在句子范围内进行统计操作的方式,提出以篇章知识为指导,从文本到句子逐级分类的人物属性抽取方法,该方法在CIPS-SIGHAN2014评测中F1值宽、严结果分别为0. 51与0. 49,为本次评测最好成绩。事实证明了该方法的有效性。
- 程南昌邹煜滕永林侯敏
- 关键词:命名实体识别指代消解
- 基于锚点句对的汉维句子对齐方法被引量:5
- 2015年
- 为提高汉维句子对齐方法的准确率,提出一种分段句子对齐方法。采用词汇信息和长度信息相结合的策略,识别出能作为锚点的一对句子(锚点句对),并将其作为分割标志对全文进行分段,在各片段内使用基于长度的方法实现全部句子的对齐,采用词汇、数字、标点符号和长度信息提高方法的领域移植性,使用分段方法避免复杂的计算过程,从而解决错误蔓延问题。实验结果表明,该方法的准确率达到95.2%,比基于长度的句子对齐方法提高了2.7%。
- 塞麦提.麦麦提敏侯敏吐尔根.伊布拉音
- 关键词:平行语料库句子对齐锚点
- 基于语义分类的比较句识别与比较要素抽取研究被引量:9
- 2014年
- 比较是人们常用的评估不同事物优劣、异同的表达方式,利用机器识别比较句并进一步抽取比较要素是语言信息处理领域一项新颖又有实用价值的课题。该文依据比较句与比较要素之间是一种"你中有我,我中有你"的共生关系,将比较句识别与比较要素抽取两个任务合二为一完成;根据词意分类,构建由领域词典、情感词典、标记词典、普通词典构成的词典系统;根据汉语比较句句义分类,构建比较句识别与比较要素抽取规则库。以第四届中文倾向性评测(COAE2012)发布的测试语料为实验对象,该系统取得了较好的实验(评测)结果。
- 周红照侯明午侯敏滕永林
- 关键词:语义分类