马龙龙
- 作品数:18 被引量:46H指数:5
- 供职机构:中国科学院软件研究所更多>>
- 发文基金:国家自然科学基金青海省自然科学基金国家科技重大专项更多>>
- 相关领域:自动化与计算机技术更多>>
- Web藏文文本资源挖掘与利用研究被引量:6
- 2015年
- 该文结合链接分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上藏文文本资源的挖掘,分析了Web藏文文本资源的分布情况。统计数据显示,国内藏文网站50%以上在青海省;约87%的藏文网页集中分布在31个大型网站中;人们正在逐步弃用旧有藏文编码,使用Unicode编码来制作网页。利用HTML标记、栏目归属、标点符号等自然标注信息对这些文本进行抽取,可以构建篇章语料和文本分类语料,可以抽取互联网藏文词库,进行词频统计和训练藏文语言模型,结合双语词典和搜索引擎技术抽取双语平行语料。这些语料可用于藏文分词、命名实体识别、信息检索、统计机器翻译等研究领域。
- 刘汇丹诺明花马龙龙吴健贺也平
- 关键词:WEB文本挖掘信息抽取藏文信息处理中文信息处理
- 一种基于部件的联机手写藏文字符的识别方法
- 本发明属于少数民族语言文字信息处理领域,具体涉及一种基于部件的联机手写藏文字符的识别方法。本发明突破传统的基于统计的识别方法,以部件为基本识别对象,首先对输入字符进行部件分割,得到按一定规则排列的子结构序列,然后利用基于...
- 马龙龙吴健刘汇丹
- 文献传递
- 提供云字库服务的方法和系统
- 本发明公开一种提供云字库服务的方法和系统,涉及互联网字库应用技术领域,解决了现有技术中终端下载字库耗费大量流量的问题。所述提供云字库服务的方法包括:接口服务器接收客户端的缺字请求,将所述缺字请求发送给云字库服务器;云字库...
- 安波吴健芮建武马龙龙刘汇丹
- 文献传递
- 基于中心语块扩展的汉藏基本名词短语对的识别被引量:1
- 2013年
- 该文提出汉藏基本名词短语对齐框架。从汉语基本名词短语出发,找藏文正确译文过程中,参考英汉短语对齐的方法,针对藏语的特殊性,提出基于中心语块扩展的藏语基本名词短语识别方法。提出词典与自动词对齐结果相结合的方法和基于序列相交的方法抽取藏语中心语块,再以扩展可信度为依据扩展中心语块。实验结果表明,基于序列相交的方法所抽取的汉藏基本名词短语对能够节省人工校正的工作量,有效辅助于汉藏基本名词短语库的建设。
- 诺明花刘汇丹马龙龙吴健丁治明
- 关键词:藏文信息处理基本名词短语
- ISCAS机器翻译系统与评测技术报告
- 本文介绍了中国科学院软件所基础软件国家工程研究中心多语言信息处理研究室参加CWMT2011机器翻译评测任务的情况。本次评测,我们主要参加了藏汉政府公文领域以及汉英新闻领域两个子任务,本文主要介绍我们此次参与评测的系统框架...
- 熊维王震于新刘汇丹诺明花马龙龙张立强洪锦玲吴健
- 关键词:机器翻译
- 传统蒙古文“同形不同码”问题研究
- 2015年
- 设计并实现了一种基于语料库的传统蒙古文同形不同码识别系统。通过网络爬虫获取原始语料,然后对语料进行预处理并生成词表和倒排索引。基于词表利用GDI和传统蒙古文字库对每个传统蒙古文词生成字形图,并根据字形图之间的相似度识别出相同的字形。系统根据倒排索引、同形词列表统计出语料中传统蒙古文同形不同码的情况。实验结果显示,同形不同码问题在传统蒙古文中普遍存在,反映出了制定相关标准的迫切性。
- 安波诺明花吴健刘汇丹马龙龙
- 关键词:爬虫倒排索引语料库
- 一种基于部件的联机手写藏文字符的识别方法
- 本发明属于少数民族语言文字信息处理领域,具体涉及一种基于部件的联机手写藏文字符的识别方法。本发明突破传统的基于统计的识别方法,以部件为基本识别对象,首先对输入字符进行部件分割,得到按一定规则排列的子结构序列,然后利用基于...
- 马龙龙吴健刘汇丹
- 基于卷积降噪自编码器的藏文历史文献版面分析方法被引量:12
- 2018年
- 近年来,随着人们对历史和传统文化的保护和传承越来越重视,研究人员对历史文献数字化的兴趣也越来越高涨。版面分析是历史文献数字化的重要基础步骤,该文提出了一种基于卷积降噪自编码器的藏文历史文献版面分析方法。首先,将藏文历史文献图像进行超像素聚类获得超像素块;然后,利用卷积降噪自编码器提取超像素块的特征;最后,使用SVM分类器对藏文历史文献的超像素块进行分类预测,从而提取出藏文历史文献版面的各个部分。在藏文历史文献数据集上的实验表明,该方法能够对藏文历史文献的不同版面元素进行有效的分离。
- 张西群马龙龙段立娟刘泽宇吴健
- 关键词:版面分析
- ISCAS机器翻译系统与评测技术报告
- 本文介绍了中国科学院软件所基础软件国家工程研究中心多语言信息处理研究室参加CWMT2011机器翻译评测任务的情况。本次评测,我们主要参加了藏汉政府公文领域以及汉英新闻领域两个子任务,本文主要介绍我们此次参与评测的系统框架...
- 熊维王震于新刘汇丹诺明花马龙龙张立强洪锦玲吴健
- 关键词:机器翻译
- 文献传递
- 基于深度学习的视觉文档信息抽取研究综述
- 2023年
- 视觉文档赋予文本丰富的多模态特征,如视觉特征、文本特征和布局特征等。视觉文档信息抽取旨在利用视觉文档的多模态特征更好地从文档内容中提取结构化的关键信息,已逐渐成为自然语言处理和计算机视觉技术的重要交叉领域,在商业、医疗、教育等行业应用广泛。随着深度学习技术的发展与突破,近期视觉文档信息抽取发展迅速,研究方法大致可分为两类,一类是基于有监督学习的方法,包括基于图的方法、基于网格的方法、端到端方法;另一类是基于自监督预训练和有监督微调的方法,逐渐成为主流的研究方向。该文概述了基于有监督学习的三类方法,基于自监督预训练和有监督微调方法的四个方面以及一些常用的公开数据集,最后总结并展望了未来可能的研究方向。
- 吴泊心仲国强马龙龙
- 关键词:多模态