姜哲
- 作品数:14 被引量:76H指数:4
- 供职机构:清华大学信息科学技术学院计算机科学与技术系更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 中文古籍数字化体系与工具系统
- 中文古籍是一种非常宝贵的文化遗产和资源.古籍数字化的工作是一种保存和保护古籍的有效措施,也是整理、研究和有效地利用这些文化资源的重要手段,同时为脱机手写体汉字识别技术开拓了新的应用空间.本文把数字图书馆的思想引入中文古籍...
- 姜哲马少平金奕江张敏
- 关键词:中文古籍数字化数字图书馆汉字识别检索查询
- 文献传递
- 中文汉语到盲文的自动转换方法
- 本发明属于计算机文字处理技术领域,其特点是首先根据汉语盲文分词连写规则对汉字文本作盲文分词连写,然后将词转换成盲文;使用该方法,三字以上的词很少有多音现象。具有特殊符号输入转换。可在文档中输入、转换数学符号。同时可以根据...
- 朱小燕江铭虎夏莹马少平姜哲包塔谭刚
- 文献传递
- 基于标记树表示方法的页面结构分析被引量:44
- 2004年
- 页面内容结构分析在WEB信息检索、分类和抽取等方面有重要作用。文章从页面布局和内容之间关系出发,根据WEB文件中标记之间关系,用标记树表示页面文件,采用自底向上的算法,抽取出具有不同语义的页面内容,提出用树形层次结构表示它们之间关系的方法。在此基础上,通过模仿人们浏览页面的习惯,成功地将其应用于页面的计算机屏读系统,实现自动朗读页面主题的功能。
- 常育红姜哲朱小燕
- 关键词:页面结构信息抽取
- 基于单元合并的汉字切分算法的改进被引量:14
- 1999年
- 本文介绍了对基于单元合并的汉字切分算法作出的改进。该改进算法对原算法中的核心部分高级合并部分进行了修改,通过在所有的可合并单元中找最佳合并组合,来避免原来的算法在高级合并过程中可能导致的某些合并错误。经过多个实际样本的测试,所作的改进在不降低原算法各种性能的前提下,消除了原算法在某些情况下产生的错误。
- 周嫔马少平姜哲
- 关键词:汉字识别系统
- 中文版面分析系统的研究与实现
- 姜哲
- 关键词:版面分析汉字识别自顶向下自底向上中文古籍
- 盲人用的汉语智能计算机系统
- 本发明属于模式识别和人工智能技术领域。主要由能够上网的个人计算机主机,与该主机各接口相连的麦克风、音箱或耳机、扫描仪、盲人用点显器、打印机组成的硬件及设置在所说主机及相关硬件中的软件模块构成。本发明使盲人在使用计算机时充...
- 朱小燕郝宇马少平姜哲金奕江夏莹黄民烈张显宝塔
- 文献传递
- 汉语盲文到汉字的自动转换方法
- 本发明属于计算机文字处理技术领域,涉及汉语盲文到汉字的自动转换方法,将盲文书籍扫描后识别成为盲文文本,或用键盘输入盲文文本,将该盲文文本当作拼音流转换为汉字;所说的拼音与汉字转换的每一个环节,利用汉语盲文综合知识库,在带...
- 朱小燕江铭虎夏莹马少平姜哲包塔谭刚
- 文献传递
- 中文古籍数字化体系与工具系统
- 中文古籍是一种非常宝贵的文化遗产和资源。古籍数字化的工作是一种保存和保护古籍的有效措施,也是整理、研究和有效地利用这些文化资源的重要手段,同时为脱机手写体汉字识别技术开拓了新的应用空间。本文把数字图书馆的思想引入中文古籍...
- 姜哲马少平金奕江张敏
- 文献传递
- 大型中文古籍《四库全书》自动版面分析系统被引量:9
- 2000年
- 《四库全书》是中文古籍的经典和代表。对《四库全书》的整理 ,可以为其它古籍的整理积累和提供经验。本系统属于《四库全书》电子版专用OCR系统的预处理配套系统 ,主要功能是对《四库全书》的页面图象进行分析和理解 ,分离图象中的汉字用于识别和统计 ,获取版面结构以便于重编和出版。《四库全书》属于手写木版印刷 ,版面有一定规范 ,但形式多样、结构复杂、图象质量和字体大小有差异 ,版面分析的难度很大。本系统采用了自顶向下方法与自底向上方法相结合、自动处理与人工修正相结合的设计思想。从实用情况看 ,本系统已经能够自动采用相应算法 ,处理多种规范和准规范的版面 ,并提供方便的人工辅助纠错功能 ,保障了预处理工作的顺利进行 ,也为识别系统的学习建库和识别创造了良好的条件。
- 姜哲马少平夏莹
- 关键词:四库全书版面分析汉字识别OCR技术
- 汉字识别系统的误识模型被引量:11
- 1998年
- 为评价一个汉字识别系统的可信度,提出了汉字识别系统误识模型的概念,给出了误识模型的定义。在实验分析的基础上,确立了影响系统识别性能的两个主要参数:首选距离及其与二选的距离差。给出了运用统计分析方法建立识别系统误识模型的方法。对一个现有的手写体汉字识别系统,经过对其识别性能的统计分析,建立了一个误识模型,初步测试表明了该方法的可行性,达到了实用的要求。误识模型可用于识别率的估计、拒识处理、后处理、多识别器集成和综合评判等多个方面。
- 马少平夏莹朱小燕姜哲
- 关键词:汉字识别后处理