胡韧奋
- 作品数:23 被引量:112H指数:7
- 供职机构:北京师范大学文学院更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金国家社会科学基金更多>>
- 相关领域:自动化与计算机技术语言文字文化科学文学更多>>
- 对外汉语教学领域话题语料库的研究与构建被引量:12
- 2015年
- 对外汉语教学领域,教材上的课文通常围绕一个话题展开,话题是教学内容的集中体现,也与词汇、语法等不同层面的语言知识间有着密切关联。该文基于大规模教材语料库研究教学话题分类体系,设计了一个包含四个一级话题、23个二级话题和246个三级话题的三层话题框架,并据此对197册汉语经典教材中的5 457个文段进行了人工标注及校对,构建了一个规模约12万句的面向对外汉语教学的话题语料库。为了更好地服务于汉语教学及相关研究工作,还抽取、计算了文段的语法点和新HSK词语等级信息,作为话题标注的补充维度加入资源库,以期为汉语教学领域的教师、研究者及教材编写者提供较为全面的话题信息参考。
- 胡韧奋朱琦杨丽姣
- 关键词:对外汉语语料库
- 古籍数字化关键技术评述被引量:14
- 2021年
- 中国历史文化典籍是中华民族的宝贵财富.在数字环境下,实现古籍的数字化整理与利用,能够为数字人文研究、历史学研究及其他人文研究提供基础性资源,也是推动中华文明创造性转化与创新性发展的重要依托.古籍的数字化整理包括纸本资源的电子化,以及在电子化文本基础上的断句、标点、词语切分等基础性加工和深层知识提取.本文对现有古籍数字化整理的技术方法与平台进行梳理与评述,分析古籍数字化整理的挑战,探讨古籍数字化整理任务的未来发展方向.
- 苏祺胡韧奋诸雨辰严承希王军
- 关键词:古籍整理古籍数字化自然语言处理
- 基于分布式表示的汉字部件表义能力测量与应用被引量:3
- 2021年
- 汉字的表义性是其区别于表音文字的一大特点。部件作为构字单位,同汉字的意义之间有着很大的联系。然而,汉字部件的表义能力究竟如何是学界尚待讨论的课题。针对这一问题,该文从汉字部件入手,提出了融合部件的字词分布式表示模型。该模型在向量内部评测任务上性能获得了一定提升,在汉字理据性测量任务上也与人工打分结果显著相关。基于该模型,进一步提出了部件表义能力的计算方法,对汉字部件的表义能力做了整体评估,并结合部件的构字能力建立了现代汉字部件的等级体系。测量结果显示,现代汉字部件具有一定表义能力,但整体而言表义能力偏低。最后,将测量结果应用于对外汉语教学中,确立了适用于部件教学法的部件范围,并提出了对应的汉字教学顺序方案。
- 梁诗尘唐雪梅胡韧奋吴金闪刘智颖
- 关键词:汉字部件
- 基于深层语言模型的古汉语知识表示及自动断句研究被引量:15
- 2021年
- 古文句读不仅需要考虑当前文本的语义和语境信息,还需要综合历史文化常识,对专家知识有较高要求。该文提出了一种基于深层语言模型(BERT)的古汉语知识表示方法,并在此基础上通过条件随机场和卷积神经网络实现了高精度的自动断句模型。在诗、词和古文三种文体上,模型断句F1值分别达到99%、95%和92%以上。在表达较为灵活的词和古文文体上,模型较之传统双向循环神经网络方法的F1值提升幅度达到10%以上。实验数据显示,模型能较好地捕捉诗词表达的节奏感和韵律感,也能充分利用上下文信息,实现语序、语法、语义、语境等信息的编码。在进一步的案例应用中,该方法在已出版古籍的断句疑难误例上也取得了较好的效果。
- 胡韧奋李绅诸雨辰
- 关键词:古汉语
- 基于BERT模型的图书表示学习与多标签分类研究被引量:8
- 2020年
- 中文图书细粒度多标签分类的自动化,有利于促进图书的检索与学科的沟通。文章充分发挥BERT语言模型的微调特性,提出一种通过21类粗粒度分类微调语言模型,学习到更好的图书表示,进而实现细粒度分类的新策略。结果显示,在单标签的分类任务上,BERT模型的正确率分别较LSTM与Fasttext模型提升约4.9%与2.0%。KNN-ML对257类的细粒度多标签分类证明了前期微调的有效性。最佳情况下,有75.82%的图书细粒度类别恰好全部预测正确,92.10%的图书至少被正确预测了一个细粒度类别。因此可以得出结论,该系统有助于实现图书自动的细粒度归类,并帮助图书标引者补充合理的分类号。
- 蒋彦廷胡韧奋
- 关键词:中文图书
- 汉语词汇测试自动命题研究被引量:3
- 2017年
- 为了提升汉语词汇测试的命题效率,该文从汉语语言特性和二语教学需求出发,对词语听力、多空词语选择、词语排序和单空词语选择四种词汇测试题型进行自动命题尝试,以满足不同语言信息、不同难度的词汇知识考查。在词语特征的提取上,构建了一个覆盖词音、词形、词义、语法、搭配、偏误各层次信息的词汇知识库,在句子特征的提取上,实现了语法项目自动识别、句子难度分析等算法,为自动命题中的题干句、目标词和干扰项选择提供依据。通过词句选择和语块合成等步骤,生成四种题型共计7 263道词汇测试题。人工测试数据显示,词汇测试自动命题的初步尝试取得了较好的效果,约58%的试题被评价为完全合理,经人工简单调整,试题接受率达到75.7%。
- 胡韧奋
- 关键词:二语教学词汇测试
- 面向二语教学的把字句分类研究被引量:1
- 2015年
- 把字句作为汉语最重要的特殊句式,一直是对外汉语教学的难点。但一直以来,对把字句的研究偏重定性分析,基于计量分析的成果较少,且覆盖不够全面,有的研究难以直接适应教学需求。基于汉语国际教育动态语料库,从教学角度讨论把字句的分类体系。首先,根据语义差别将把字句分为基本处置式、转移式、判断式和致使式四类,再对四个语义类别的把字句语料进行标注和分析,区分其句法形式特征,最后讨论了语料库中不同类别把字句的分布情况及谓词搭配信息,以期为对外汉语教学和研究提供参考。
- 胡韧奋
- 关键词:把字句二语教学句法语义分类
- 基于深层语言模型的古汉语知识表示及自动断句研究
- 古文句读不仅需要考虑当前文本的语义和语境信息,还需要综合历史文化常识,对专家知识有较高要求.该文提出了一种基于深层语言模型(BERT)古汉语知识表示方法,并在此基础上通过条件随机场和卷积神经网络实现了高精度的自动断句模型...
- 胡韧奋李绅诸雨辰
- 关键词:古汉语知识表示条件随机场卷积神经网络
- 面向汉英专利机器翻译的介词短语自动识别策略被引量:8
- 2015年
- 专利语料中的介词短语一般长而复杂,且存在嵌套现象,不易为机器自动识别。针对专利语料的特殊性,本文提出一种基于语义分析的识别策略,汉语介词因语义功能不同而被分为两类,可根据介词语义类和上下文特征信息来制定规则,确定短语的左右边界及句法层次。测试结果表明,融合本策略的机器翻译系统在短语识别准确率、召回率和BLEU值三项指标上均得到显著提升。
- 胡韧奋
- 关键词:机器翻译介词短语自动识别句法分析
- 基于专名识别技术的古典文献“远读”初探——以雍正《畿辅通志》为例
- 2023年
- 应用BERT模型,设计了一种基于多任务联合学习的古籍文本信息标注工具,可实现对标点、专名信息的自动标注。相较于以往同类技术而言,该工具对人名、地名、时间名、书名的有效识别度更高,并将有助于“远读”方法在古籍文献领域的实现。以《四库全书》所收雍正《畿辅通志》为例,专名自动识别技术可快速提取文献出处、建筑设施的建造时间、人口分布等历史信息,也可以快速提取作家作品、经典意境。在对水利设施的兴建与对黄河水患的书写中,可以看出治河名臣李卫在编纂《畿辅通志》时的个人意志。
- 诸雨辰李绅胡韧奋
- 关键词:命名实体识别