高良才
- 作品数:46 被引量:42H指数:4
- 供职机构:北京大学更多>>
- 发文基金:国家自然科学基金北京市自然科学基金国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学电子电信更多>>
- 基于数字版权保护的电子图书出版及应用系统
- 汤帜肖建国俞银燕黄肖俊王毅王长桥夏松江贾爱霞洪献文高良才
- 该系统已经应用于全国87%以上出版社、2家国外出版社,3800多家图书馆、150多家海外图书馆。至2007年底,已经出版的正版电子图书达40万种,正版中文内容资源总量为全球第一。此外,与教育部CALIS中心合作,为高校图...
- 关键词:
- 一种自动识别数字文档版心的方法
- 本发明涉及一种自动识别数字文档版心的方法,属于文档处理技术领域。随着数字文档的广泛应用,对数字文档版心的识别技术也要求越来越精确,但是现有的技术,均是通过手工操作来完成数字文档的版心的识别,效率低下,特别是当数字文档的数...
- 高良才汤帜贾爱霞王长桥
- 文献传递
- 一种版式文档中脚注识别方法及脚注与脚注引用关联方法
- 本发明公开了一种版式文档中脚注识别方法及脚注与脚注引用关联方法。本方法为:1)从版式文档中抽取底层信息;2)根据底层信息从该版式文档中识别出候选脚注区域;3)将识别出的每一候选脚注区域构造一特征向量,然后对特征向量进行聚...
- 高良才黎斯达汤帜
- 文献传递
- 面向H.264SVC空域-时域可伸缩编码的码率分配算法
- 2013年
- 提出一种面向H.264 SVC空域时域可伸缩编码的码率分配算法。通过对SVC编码过程的分析,设计了一个两阶段基于模型的码率分配算法框架。在每一阶段中沿空域或时域可伸缩性方向上,码率分配问题都被描述为一个优化问题进行求解。在充分挖掘层次间相关性的基础上,提出空域、时域视频层的失真和码率模型。利用所得到的率失真模型,使用拉格朗日乘数法,求取该分配问题的最优数值解。实验结果表明,新的率失真模型所提供的高效码率分配算法,大幅度提高了现有参考代码JSVM的性能,其编码效率平均增益达1.22 dB。
- 庞燕刘家瑛高良才郭宗明
- 关键词:HSVC率失真模型
- 一种表单图像分类方法
- 本发明涉及一种表单图像分类方法。对于训练图像,首先对属于同一类的表单求取均值图像,均值图像的每个像素点是每张训练图像在该位置的像素的均值,得到的均值图像构成每一类的均值模板;然后求取三种权重值:一致性权重、随机性权重和抖...
- 王思萌高良才王悦涵汤帜
- 文献传递
- 少数民族文字文本分析与识别的研究进展
- 2024年
- 对于少数民族古籍的保护与传承,国家予以高度重视,并强调了对这些不可再生文化资源透彻数字化的重要性。随着文档图像分析与识别技术的不断进步,对少数民族文字的文本分析与识别研究受到广泛关注,并取得显著成就,成为人工智能应用研究的一个热点领域。然而,由于少数民族文字种类繁多、应用场景多样及数据集的稀缺性等问题,这一研究领域仍面临诸多挑战。本文旨在总结先前的工作,并为未来的研究提供支持,重点讨论了印刷体文本、联机手写、古籍文档及场景文字识别等任务,概述了国内外在少数民族文种识别领域的发展和最新成果。首先阐明了少数民族文字文本分析与识别的重要性及其价值,介绍了特定少数民族文字及其古籍文档的特征。然后,回顾了这一领域的发展历史和现状,分析并总结了传统方法的代表性成果及其应用;详细讨论了研究重点向深度神经网络模型和深度学习方法的全面转移,这一转变使得各文种的识别性能得到了显著提升。最后,基于相关分析,本文指出了在不同文种文档分析与识别中存在的精度和泛化能力等方面的不足,以及与汉文文本分析与识别的差异;面对少数民族文字文本识别领域的主要困难与挑战,展望了未来的研究趋势和技术发展目标。
- 王维兰胡金水魏宏喜库尔班·吾布力邵文苑毕晓君贺建军李振江丁凯金连文高良才
- 关键词:少数民族文字手写识别
- 标注数据处理方法、装置、设备及计算机可读存储介质
- 本发明实施例提供一种标注数据处理方法、装置、设备及计算机可读存储介质。本发明实施例的方法,通过获取标注区域的相似度大于预设阈值的至少一组标注数据,每组标注数据为一组待清洗数据;确定每组待清洗数据的新标注区域和新标注类别;...
- 黄铭哲颜钦钦高良才汤帜
- 一种数学公式检索方法与装置
- 本发明公开了一种数学公式检索方法与装置。本方法为:1)将不同来源的公式数据进行格式归一化,保存到一数据库中;2)根据符号优先级顺序、符号作用范围将归一化后的每一公式建立一公式树;3)对每一公式树,提取该公式树的原始子结构...
- 高良才王悦涵汤帜
- 文献传递
- 表格识别技术研究进展被引量:12
- 2022年
- 表格广泛存在于科技文献、财务报表、报纸杂志等各类文档中,用于紧凑地存储和展现数据,蕴含着大量有用信息。表格识别是表格信息再利用的基础,具有重要的应用价值,也一直是模式识别领域的研究热点之一。随着深度学习的发展,针对表格识别的新研究和新方法纷纷涌现。然而,由于表格应用场景广泛、样式众多、图像质量参差不齐等因素,表格识别领域仍然存在着大量问题亟需解决。为了更好地总结前人工作,为后续研究提供支持,本文围绕表格区域检测、结构识别和内容识别等3个表格识别子任务,从传统方法、深度学习方法等方面,综述该领域国内外的发展历史和最新进展。梳理了表格识别相关数据集及评测标准,并基于主流数据集和标准,分别对表格区域检测、结构识别、表格信息抽取的典型方法进行了性能比较。然后,对比分析了国内相对于国外,在表格识别方面的研究进展与水平。最后,结合表格识别领域目前面临的主要困难与挑战,对未来的研究趋势和技术发展目标进行了展望。
- 高良才李一博都林张新鹏朱子仪卢宁金连文黄永帅汤帜
- 识别版面阅读顺序的方法及装置
- 本发明提供一种识别版面阅读顺序的方法,包括:读取待识别版面,并分析该版面以得到版面布局信息和字符文本对象和图像对象的对象属性;根据版面布局信息和对象属性,将字符文本对象合并为文本段落并将图像对象识别为图像段落;采用全局递...
- 房婧高良才汤帜陶欣