魏庭新
- 作品数:15 被引量:42H指数:3
- 供职机构:南京师范大学国际文化教育学院更多>>
- 发文基金:国家自然科学基金国家社会科学基金江苏省教育厅哲学社会科学基金更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 基于特征融合的汉语被动句自动识别研究
- 2024年
- 汉语中的被动句根据有无被动标记词可分为有标记被动句和无标记被动句。由于其形态构成复杂多样,给自然语言理解带来很大困难,因此实现汉语被动句的自动识别对自然语言处理下游任务具有重要意义。该文构建了一个被动句语料库,提出了一个融合词性和动词论元框架信息的PC-BERT-CNN模型,对汉语被动句进行自动识别。实验结果表明,该文提出的模型能够准确地识别汉语被动句,其中有标记被动句识别F1值达到98.77%,无标记被动句识别F1值达到96.72%。
- 胡康曲维光曲维光魏庭新李斌李斌
- 关键词:汉语被动句自动识别语料库
- 面向中文AMR标注体系的兼语语料库构建及兼语结构识别被引量:1
- 2021年
- 兼语结构是汉语中常见的一种动词结构,由述宾短语与主谓短语共享兼语,结构复杂,给句法分析造成困难,因此兼语识别工作对于语义解析及下游任务都具有重要意义。但现存兼语语料库较少,面向中文抽象语义表示(AMR)标注体系的兼语语料库构建仍处于空白阶段。针对这一现状,该文总结出一套兼语语料库标注规范,构建了包含4760个兼语句的面向中文AMR标注体系的兼语语料库。基于构建的语料库,采用LA-BiLSTM-CRF模型识别兼语结构,达到了86.06%的F1,并分析了识别结果,提出了改进方向。
- 侯文惠曲维光魏庭新魏庭新李斌顾彦慧
- 关键词:兼语结构
- 不同编班方式对初级阶段留学生汉语学习的影响效应研究
- 2016年
- 本文通过问卷调查了单语班和混合班两种编班方式下留学生使用媒介语和目的语的情况以及他们的语言焦虑度,并比较了他们的学习效果。结果发现,单语班母语使用量远远高于混合班,但目的语使用量基本持平;单语班语言焦虑度低于混合班,混合班中汉语使用量与语言焦虑度之间存在负相关关系;在学习效果方面,学习初期单语班的效果要好于混合班,但这种效应随着时间的推移而逐渐减弱。
- 魏庭新
- 关键词:目的语媒介语焦虑度
- 基于深度学习的中文零代词识别
- 2021年
- 针对中文零代词识别任务,提出了一种基于深度神经网络的中文零代词识别模型.首先,通过注意力机制利用零代词的上下文来帮助表示缺省的语义信息.然后,利用Tree-LSTM挖掘零代词上下文的句法结构信息.最后,利用语义信息和句法结构信息的融合特征识别零代词.实验结果表明,相对于以往的零代词识别方法,该方法能够有效提升识别效果,在中文OntoNotes5.0数据集上的F1值达到63.7%.
- 王立凯曲维光魏庭新周俊生顾彦慧李斌
- 现代汉语介词结构位置的考察及影响其位置的句法、语义因素分析
- 本文主要统计了现代汉语中的介词结构的位置分布情况,重点考察了《汉语水平词汇与汉字等级大纲》中的介词所能出现的位置及分布情况比例,发现:现代汉语中介词结构可能出现的位置有三个,分别为:主语前、主语谓语之间和谓语后;对于绝大...
- 魏庭新
- 关键词:介词教学句法语义对外汉语教学
- 文献传递
- 词向量和语义知识相结合的汉语未登录词语义预测研究被引量:2
- 2020年
- 【目的】将词向量和语义知识相结合,提高未登录词语义预测的准确性。【方法】抓取含有未登录词网页的语料,利用Word2Vec等模型得到词语的分布式表示信息,再结合构词语义知识对候选词进行中心词和词性过滤,实现未登录词的语义预测。【结果】在人民日报语料未登录词测试集上的实验结果表明,模型预测正确率可达87.5%,高于只使用词语内部知识的模型和只使用外部分布信息的词向量模型。【局限】无法预测语义不透明的未登录词。【结论】将携带词语外部信息的词向量与词语内部特征相结合,显著提高了未登录词语义预测的正确率,说明词语内、外部信息对于语义的组成有重要作用。
- 魏庭新柏文雷曲维光
- 关键词:未登录词语义知识
- 中文连动句语义关系识别研究
- 2024年
- 连动句是形如“NP+VP1+VP2”的句子,句中含有两个或两个以上的动词(或动词结构)且动词的施事为同一对象。相同结构的连动句可以表示多种不同的语义关系。该文基于前人对连动句中VP1和VP2之间的语义关系分类,标注了连动句语义关系数据集,基于神经网络完成了对连动句语义关系的识别。该方法将连动句语义识别任务进行分解,基于BERT进行编码,利用BiLSTM-CRF先识别出连动句中连动词(VP)及其主语(NP),再基于融合连动词信息的编码,利用BiLSTM-Attention对连动词进行关系判别,实验结果验证了该文所提方法的有效性。
- 孙超孙超魏庭新曲维光魏庭新顾彦慧
- 关键词:连动结构神经网络
- 汉语V+V序列关系识别研究
- 2023年
- “V+V”是现代汉语中的常见结构,能够形成兼语、连动等多种完全不同的句法结构,给句法和语义解析造成困难。针对“V+V”形成的句法结构类型和序列关系识别问题,设计并制定了一套语料库标注规范,以解决语料库中存在的“V+V”结构的嵌套标注问题,并据此构建起一个包含5 381个兼语句子、7 987个连动句子,以及1 212个兼语连动嵌套句子的“V+V”语料库。提出一个基于BiLSTM-CRF和多头注意力机制的模型,能够同时识别结构中的多个动词和名词的句法、语义角色。相比于以往只研究单项识别兼语或者连动结构,该模型不仅可以同时识别兼语结构、连动结构,还可以解决兼语连动嵌套结构的识别问题。实验结果表明:该方法能够很好地解决“V+V”序列关系的识别问题,在测试集语料上达到92.12%的F1值。
- 李胜男曲维光魏庭新魏庭新顾彦慧顾彦慧
- 关键词:连动结构兼语结构
- 介词短语的位置意义被引量:3
- 2007年
- 本文分析了介词短语在句首、句中做状语以及在谓语后做补语时的位置意义的不同。句首状语与句中状语的不同主要是说话人心理视点的不同,而状语位置与补语位置的意义差别在于状语位置表达的意义为:从某一方面对动作行为加以限定、描写,补语位置则表示动作行为或动作行为致使事物最后到达的处所、方向、对象、结果、目的等。另外,状语位置和补语位置语义上的另一重要差别是体的不同。
- 魏庭新
- 关键词:介词短语
- 汉语词语离合现象识别研究被引量:1
- 2023年
- 离合现象是指汉语中一种词语的前后语素之间可以插入其他成分,但分离后表达的意思仍然是一个整体的现象。该文采用字符级序列标注方法解决二字动词离合现象的自动识别问题,以避免自动分词及词性标注的错误传递;引入掩码机制,遮蔽句中离合词,以强化对中间插入成分的学习,并对前后语素采用不同的掩码以强调其出现顺序;设计双编码模型,对原始句子与掩码后的句子分别进行编码。实验结果表明,该文提出的BERT_MASK+2BiLSTMs+CRF模型比当前性能最优的离合词识别模型提高了2.85%的F1值。
- 周露曲维光魏庭新魏庭新李斌李斌
- 关键词:离合词自动识别神经网络