李元祥
- 作品数:6 被引量:43H指数:4
- 供职机构:清华大学电子工程系更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术电子电信语言文字更多>>
- 一种基于字词结合的汉字识别上下文处理新方法被引量:1
- 2002年
- 根据字、词信息之间的互补性 ,提出一种字、词结合的上下文处理方法 .在单字识别的基础上 ,首先利用前向 -后向搜索算法在较大的候选集上进行基于字 bigram模型的上下文处理 ,在提高文本识别率的同时可提高候选集的效率 ;然后在较小的候选集上进行基于词 bigram模型的上下文处理 .该方法在兼顾处理速度的同时 ,可有效地提高文本识别率 .脱机手写体汉字文本 (约 6 .6万字 )识别中的实验表明 :经字 bigram模型处理 ,文本识别率由处理前的 81.5 8%提高至 94 .5 0 % ,文本前 10选累计正确率由 94 .33%提高到 98.2 5 % ;再经词 bigram模型处理 ,文本识别率进一步提高至 95 .75 % .
- 李元祥丁晓青吴佑寿
- 关键词:汉字识别语言模型
- 用统计方法实现汉字输入的智能联想被引量:6
- 2000年
- 联想是汉字输入法的重要补充手段,能够大大加快输入的速度。本文首次提出了智能联想的概念,分析了智能联想的原理和遇到的困难,使用汉语语料库的方法构造并分析比较了3 种智能联想方案,充分利用汉语字词间的相关性,使平均联想成功率超过40 % 。
- 刘长松伍振军乔春雷李元祥
- 关键词:联想语言模型汉字输入
- 基于HMM的汉语文本识别后处理研究被引量:22
- 1999年
- 本文用HMM(HiddenMarkovModel)描述汉语文本识别后处理,将汉语语言和单字识别这两个概率模型结合起来,以充分利用单字识别器提供的信息。语言模型的参数由语料库统计得到;单字识别模型的参数为条件概率,经理论分析,它可转化为后验概率来求解。在分析训练样本集单字识别结果的基础上,提出一种统计方法估计候选字的后验概率。HMM在脱机手写体汉语文本识别中的实验表明,后处理性能除取决于语言模型外,还取决于后验概率的精确估计。
- 李元祥丁晓青刘长松
- 关键词:汉字识别后处理语言模型HMM
- 一种利用校对信息的汉字识别自适应后处理方法被引量:8
- 2001年
- 后处理技术是汉字识别系统的重要组成部分。传统的识别后处理技术在很大程度上依赖于所训练的统计语言模型 ,没有考虑所处理文本的特殊性 ;而且没有利用识别器的动态识别特性。本文利用部分校对过的正确本文信息 ,一方面可以构建自适应语言模型 ,及时发现所处理文本的语言特点 ;另一方面可以利用识别器的动态识别特性 ,以修正候选字集 ;从而使得后续文本的识别后处理具有自适应性。 40万字的数据测试表明 :这种方法的文本平均错误率较传统的后处理方法下降 35 .2 4%了 ,可以大大减轻数据录入人员的工作量 。
- 李元祥刘长松丁晓青
- 关键词:汉字识别
- 一种基于噪声信道模型的汉字识别后处理新方法被引量:9
- 2001年
- 利用上下文关系进行汉字识别后处理时 ,若候选字集中不含有正确字符 ,文本识别率的提高会受到很大限制。基于单字识别系统的噪声信道模型 ,文中提出一种扩充候选字集的方法 ,利用单字识别给出的候选字来推测可能正确的字 ,并将它们与识别候选字进行集成 ,得到新的候选字集。30 0套脱机手写体样本的测试表明 ,新候选字集的 5 0选平均错误率较原先的识别候选字集下降了 37.88%。脱机手写体文本 (约 8万字 )识别后处理中 ,语言模型为基于字的bigram时 ,文本平均识别率从扩充候选字之前的 93.93%提高至 95 .82 % ,错误率下降了 31.14%。
- 李元祥丁晓青刘长松
- 关键词:汉字识别后处理语言模型噪声信道通信系统
- 一种利用逻辑回归模型的候选字可信度估计方法被引量:3
- 2002年
- 汉字识别中,候选字可信度是对识别结果正确性的一种量化估计.从统计学的角度出发,提出一种利用逻辑回归模型LRM的候选字可信度估计方法.首先介绍LRM的基本原理;然后分别给出LRM估计首选字可信度及非首选字可信度的方法;最后给出候选字可信度在识别率估计和识别后处理中的应用实例.脱机手写汉字识别中的实验结果表明了LRM估计候选字可信度的有效性.
- 李元祥丁晓青
- 关键词:逻辑回归模型汉字识别汉字信息处理