您的位置: 专家智库 > >

李元祥

作品数:6 被引量:43H指数:4
供职机构:清华大学电子工程系更多>>
发文基金:国家自然科学基金国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术电子电信语言文字更多>>

文献类型

  • 6篇中文期刊文章

领域

  • 6篇自动化与计算...
  • 1篇电子电信
  • 1篇语言文字

主题

  • 5篇汉字识别
  • 4篇语言模型
  • 3篇候选
  • 3篇后处理
  • 1篇信道
  • 1篇信息处理
  • 1篇噪声
  • 1篇噪声信道
  • 1篇上下文
  • 1篇通信
  • 1篇通信系统
  • 1篇自适
  • 1篇自适应
  • 1篇联想
  • 1篇逻辑
  • 1篇逻辑回归
  • 1篇逻辑回归模型
  • 1篇估计方法
  • 1篇汉字输入
  • 1篇汉字信息

机构

  • 6篇清华大学
  • 1篇解放军理工大...

作者

  • 6篇李元祥
  • 5篇丁晓青
  • 4篇刘长松
  • 1篇吴佑寿
  • 1篇伍振军
  • 1篇乔春雷

传媒

  • 3篇中文信息学报
  • 1篇计算机研究与...
  • 1篇模式识别与人...
  • 1篇清华大学学报...

年份

  • 2篇2002
  • 2篇2001
  • 1篇2000
  • 1篇1999
6 条 记 录,以下是 1-6
排序方式:
一种基于字词结合的汉字识别上下文处理新方法被引量:1
2002年
根据字、词信息之间的互补性 ,提出一种字、词结合的上下文处理方法 .在单字识别的基础上 ,首先利用前向 -后向搜索算法在较大的候选集上进行基于字 bigram模型的上下文处理 ,在提高文本识别率的同时可提高候选集的效率 ;然后在较小的候选集上进行基于词 bigram模型的上下文处理 .该方法在兼顾处理速度的同时 ,可有效地提高文本识别率 .脱机手写体汉字文本 (约 6 .6万字 )识别中的实验表明 :经字 bigram模型处理 ,文本识别率由处理前的 81.5 8%提高至 94 .5 0 % ,文本前 10选累计正确率由 94 .33%提高到 98.2 5 % ;再经词 bigram模型处理 ,文本识别率进一步提高至 95 .75 % .
李元祥丁晓青吴佑寿
关键词:汉字识别语言模型
用统计方法实现汉字输入的智能联想被引量:6
2000年
联想是汉字输入法的重要补充手段,能够大大加快输入的速度。本文首次提出了智能联想的概念,分析了智能联想的原理和遇到的困难,使用汉语语料库的方法构造并分析比较了3 种智能联想方案,充分利用汉语字词间的相关性,使平均联想成功率超过40 % 。
刘长松伍振军乔春雷李元祥
关键词:联想语言模型汉字输入
基于HMM的汉语文本识别后处理研究被引量:22
1999年
本文用HMM(HiddenMarkovModel)描述汉语文本识别后处理,将汉语语言和单字识别这两个概率模型结合起来,以充分利用单字识别器提供的信息。语言模型的参数由语料库统计得到;单字识别模型的参数为条件概率,经理论分析,它可转化为后验概率来求解。在分析训练样本集单字识别结果的基础上,提出一种统计方法估计候选字的后验概率。HMM在脱机手写体汉语文本识别中的实验表明,后处理性能除取决于语言模型外,还取决于后验概率的精确估计。
李元祥丁晓青刘长松
关键词:汉字识别后处理语言模型HMM
一种利用校对信息的汉字识别自适应后处理方法被引量:8
2001年
后处理技术是汉字识别系统的重要组成部分。传统的识别后处理技术在很大程度上依赖于所训练的统计语言模型 ,没有考虑所处理文本的特殊性 ;而且没有利用识别器的动态识别特性。本文利用部分校对过的正确本文信息 ,一方面可以构建自适应语言模型 ,及时发现所处理文本的语言特点 ;另一方面可以利用识别器的动态识别特性 ,以修正候选字集 ;从而使得后续文本的识别后处理具有自适应性。 40万字的数据测试表明 :这种方法的文本平均错误率较传统的后处理方法下降 35 .2 4%了 ,可以大大减轻数据录入人员的工作量 。
李元祥刘长松丁晓青
关键词:汉字识别
一种基于噪声信道模型的汉字识别后处理新方法被引量:9
2001年
利用上下文关系进行汉字识别后处理时 ,若候选字集中不含有正确字符 ,文本识别率的提高会受到很大限制。基于单字识别系统的噪声信道模型 ,文中提出一种扩充候选字集的方法 ,利用单字识别给出的候选字来推测可能正确的字 ,并将它们与识别候选字进行集成 ,得到新的候选字集。30 0套脱机手写体样本的测试表明 ,新候选字集的 5 0选平均错误率较原先的识别候选字集下降了 37.88%。脱机手写体文本 (约 8万字 )识别后处理中 ,语言模型为基于字的bigram时 ,文本平均识别率从扩充候选字之前的 93.93%提高至 95 .82 % ,错误率下降了 31.14%。
李元祥丁晓青刘长松
关键词:汉字识别后处理语言模型噪声信道通信系统
一种利用逻辑回归模型的候选字可信度估计方法被引量:3
2002年
汉字识别中,候选字可信度是对识别结果正确性的一种量化估计.从统计学的角度出发,提出一种利用逻辑回归模型LRM的候选字可信度估计方法.首先介绍LRM的基本原理;然后分别给出LRM估计首选字可信度及非首选字可信度的方法;最后给出候选字可信度在识别率估计和识别后处理中的应用实例.脱机手写汉字识别中的实验结果表明了LRM估计候选字可信度的有效性.
李元祥丁晓青
关键词:逻辑回归模型汉字识别汉字信息处理
共1页<1>
聚类工具0