张栋
- 作品数:9 被引量:52H指数:5
- 供职机构:苏州大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金国家杰出青年科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于上下文增强LSTM的多模态情感分析被引量:12
- 2019年
- 近年来,多模态情感分析成为了越来越受欢迎的热门领域,它将传统的基于文本的情感分析扩展到文本、图像以及声音相结合的多模态分析层面。多模态情感分析通常需要获取单模态内部的信息以及多模态之间的交互信息。为了利用每个模态中语言表达的上下文来帮助获取这两种信息,文中提出了一种基于上下文增强LSTM的多模态情感分析方法。具体而言,首先对于多模态的每种表达,结合上下文特征,分别使用LSTM进行编码,再分别捕捉单模态内部的信息;接着融合这些单模态的独立信息,再使用LSTM获得多模态间的交互信息,从而形成多模态特征表示;最后采用最大池化策略,对多模态表示进行降维,从而构建情感分类器。该方法在MOSI数据集上的ACC值达到75.3%,F1达到了74.9。相比传统的机器学习方法(如SVM),所提方法的ACC值高出8.1%,F 1值高出7.3。相比目前较为先进的深度学习方法值,所提方法在ACC值上高出0.9%,F1值上高出1.3,与此同时可训练参数量只有之前方法的1/20,训练速度提高了约10倍。大量的对比实验结果表明,相比传统的多模态情感分类方法,所提方法的性能有显著提升。
- 刘启元张栋吴良庆李寿山
- 关键词:多模态情感分析
- 基于答案辅助的半监督问题分类方法被引量:4
- 2015年
- 问题分类旨在对问题的类型进行自动分类,该任务是问答系统研究的一项基本任务。提出了一种基于答案辅助的半监督问题分类方法。首先,将答案特征结合问题特征一起实现样本表示;然后,利用标签传播方法对已标注问题训练分类器,自动标注未标注问题的类别;最后,将初始标注的问题和自动标注的问题合并作为训练样本,利用最大熵模型对问题的测试文本进行分类。实验结果表明,本文提出的基于答案辅助的半监督分类方法能够充分利用未标注样本提升性能,明显优于其他的基准方法。
- 张栋李寿山周国栋
- 关键词:问答系统半监督分类
- 基于多任务学习的多模态情绪识别方法被引量:5
- 2019年
- 情绪分析是自然语言处理的一项基本任务,目前在单模态信息(文本)上的研究已经相当成熟。但是对于包含文本、图像和语音3种模态信息的多模态内容(如视频)来说,额外增加的模态信息让情绪分析变得更具挑战性。为了提升多模态情绪识别任务的性能,文中提出了一种基于多任务学习的神经网络方法,该方法在考虑模态内部信息的同时,充分结合了3种模态之间的联系。具体而言,首先对3种模态信息进行预处理,得到相应的特征表示;其次,分别为每个模态构建私有的双向LSTM,从而获得单模态的内部信息;分别为两两组合(文本-图像、文本-语音和图像-语音)的双模态信息构建共享的双向LSTM层,以学习双模态之间的动态交互信息;接着,为3种模态组合的信息构建一个共享的双向LSTM,从而捕捉3种模态之间的动态交互信息;最后,把网络层中得到的单模态的内部信息和多模态的动态交互信息进行融合,通过全连接层和Sigmoid层获取最终的情绪识别结果。在单模态实验中,相比于目前的最佳方法,所提方法在文本、图像和语音3个方面对所有情绪识别的效果分别平均提高了6.25%,0.75%和2.38%;在多模态实验中,该方法在情绪识别任务中达到了平均65.67%的准确率,相比其他基准方法有了明显的提升。
- 吴良庆张栋李寿山陈瑛
- 关键词:多模态情绪识别多任务学习自然语言处理
- 基于问题与答案联合表示学习的半监督问题分类方法被引量:7
- 2017年
- 问题分类旨在对问题的类型进行自动分类,该任务是问答系统研究的一项基本任务。该文提出了一种基于问题和答案联合表示学习的问题分类方法。该方法的特色在于利用问题及其答案作为共同的上下文环境,学习词的分布式表示,从而充分利用未标注样本中问题和答案隐含的分类信息。具体而言,首先,我们引入神经网络语言模型,利用问题与答案联合学习词向量表示,增加问题词向量的信息量;其次,加入大量未标注的问题与答案样本参与词向量学习,进一步增强问题词向量表示能力;最后,将已标注的问题样本以词向量形式表示作为训练样本,采用卷积神经网络建立问题分类模型。实验结果表明,该文提出的基于半监督问题分类方法能够充分利用词向量表示和大量未标注样本来提升性能,明显优于其他基准半监督分类方法。
- 张栋李寿山王晶晶
- 基于情感信息辅助的多模态情绪识别被引量:5
- 2020年
- 不同于纯文本的情绪分析,本文面向多模态数据(文本和语音)进行情绪识别研究。为了同时考虑多模态数据特征,提出一种新颖的联合学习框架,将多模态情绪分类作为主任务,多模态情感分类作为辅助任务,通过情感信息来辅助提升情绪识别任务的性能。首先,通过私有网络层对主任务中的文本和语音模态信息分别进行编码,以学习单个模态内部的情绪独立特征表示。接着,通过辅助任务中的共享网络层来获取主任务的辅助情绪表示以及辅助任务的单模态完整情感表示。在得到主任务的文本和语音辅助情绪表示之后,分别与主任务中的单模态独立特征表示相结合,得到主任务中单模态情绪信息的完整表示。最后,通过自注意力机制捕捉每个任务上的多模态交互特征,得到最终的多模态情绪表示和情感表示。实验结果表明,本文方法在多模态情感分析数据集上可以通过情感辅助信息大幅度地提升情绪分类任务的性能,同时情感分类任务的性能也得到一定程度的提升。
- 吴良庆刘启元张栋王建成李寿山周国栋
- 关键词:多模态情绪识别情感分析
- 基于上下文相关字向量的中文命名实体识别被引量:11
- 2021年
- 命名实体识别(NER)旨在识别出文本中的专有名词,并对其进行分类。由于用于监督学习的训练数据通常由人工标注,耗时耗力,因此很难得到大规模的标注数据。为解决中文命名实体识别任务中因缺乏大规模标注语料而造成的数据稀缺问题,以及传统字向量不能解决的一字多义问题,文中使用在大规模无监督数据上预训练的基于上下文相关的字向量,即利用语言模型生成上下文相关字向量以改进中文NER模型的性能。同时,为解决命名实体识别中的未登录词问题,文中提出了基于字语言模型的中文NER系统。把语言模型学习到的字向量作为NER模型的输入,使得同一中文汉字在不同语境中有不同的表示。文中在6个中文NER数据集上进行了实验。实验结果表明,基于上下文相关的字向量可以很好地提升NER模型的性能,其平均性能F1值提升了4.95%。对实验结果进行进一步分析发现,新系统在OOV实体识别上也可以取得很好的效果,同时对一些特殊类型的中文实体识别也有不错的表现。
- 张栋陈文亮
- 关键词:命名实体识别语言模型
- 基于双语信息的问题分类方法研究被引量:5
- 2017年
- 问题分类是问答系统研究的一项基本任务。先前的研究仅仅是在单语语料上训练得到问题分类模型,存在语料不足和问题文本较短的问题。为了解决这些问题,该文提出了融合双语语料的双通道LSTM问题分类方法。首先,利用翻译语料分别扩充中文和英文语料;其次,将两种语言语料中的样本都分别用问题文本和翻译文本表示;最后,提出了双通道LSTM分类方法用于充分利用这两组特征,构建问题分类器。实验结果表明,该文提出的方法能有效提高问题分类的性能。
- 徐健张栋李寿山王红玲
- 关键词:问答系统
- 结合五笔字形与上下文相关字向量的命名实体识别被引量:7
- 2021年
- 命名实体识别(NER)作为自然语言处理的重要部分,在信息抽取和知识图谱等任务中得到广泛应用。然而目前中文预训练语言模型通常仅对上下文中的字符进行建模,忽略了中文字符的字形结构。提出2种结合五笔字形的上下文相关字向量表示方法,以增强字向量的语义表达能力。第一种方法分别对字符和字形抽取特征并联合建模得到字向量表示,第二种方法将五笔字形作为辅助信息拼接到字向量中,训练一个基于字符和五笔字形的混合语言模型。实验结果表明,所提两种方法可以有效提升中文NER系统的性能,且结合五笔字形的上下文相关字向量表示方法的系统性能优于基于单一字符的语言模型。
- 张栋王铭涛陈文亮
- 关键词:语言模型命名实体识别
- 基于问题与答案共同表示学习的半监督问题分类方法
- 问题分类旨在对问题的类型进行自动分类,该任务是问答系统研究的一项基本任务。本文提出了一种基于问题和答案共同表示学习的问题分类方法。该方法的特色在于,利用问题及其答案作为共同的上下文环境,学习词的分布式表示,从而充分利用未...
- 张栋李寿山王晶晶