郭旭
- 作品数:19 被引量:36H指数:3
- 供职机构:大连外国语大学更多>>
- 发文基金:国家社会科学基金辽宁省自然科学基金教育部人文社会科学研究基金更多>>
- 相关领域:自动化与计算机技术文化科学自然科学总论更多>>
- 一种基于语境信息增强和交叉注意力的语音情绪分类方法
- 本发明提出一种基于语境信息增强和交叉注意力的语音情绪分类方法,包括获取包括语音信号的语音数据集,对语音数据集进行预处理,得到包括文本数据的文本数据集;将语音数据集输入音频模态编码器中进行上下文表示提取,得到语音特征;将文...
- 祁瑞华郭旭
- 融合特征与注意力的跨领域产品评论情感分析被引量:4
- 2020年
- 【目的】研究针对跨领域情感分类任务中标注数据资源相对匮乏以及从源领域到目标领域情感分类特征重要性区分问题。【方法】提出基于特征融合表示方法与注意力机制的跨领域双向长短时记忆产品评论情感分类模型,融合Bert词向量和跨领域词向量生成跨领域统一特征空间,通过双向长短时记忆网络结合注意力机制提取全局特征和局部特征的重要性权重。【结果】在亚马逊产品公开评论数据集上的对照实验结果表明,该模型跨领域评论情感分类平均准确率达到对照模型的最高值95.93%,比文献中对照模型最高准确率高出9.33%。【局限】需在多领域大规模数据集上进一步检验模型的泛化性,探究源领域知识对目标领域评论情感分类贡献规律。【结论】通过双向长短时记忆网络层学习融合特征能够有效获取情感语义信息,对照实验中对目标领域最有帮助的源领域基本一致。
- 祁瑞华简悦郭旭关菁华杨明昕
- 关键词:情感分类
- 基于神经网络语言模型的作者身份验证被引量:2
- 2020年
- [目的/意义]为了进一步降低作者身份验证中训练语料的字符数和测试样本的颗粒度,满足更多情报分析工作实际应用的需要。[方法/过程]文章提出了一种基于神经网络语言模型的作者身份验证方法。该方法在用某一作者的语料训练出的语言模型,将给予该作者书写的其他语料更高概率的指导思想下提出。[结果/结论]实验结果表明,相较于传统的作者身份验证方法,文章提出的方法可以使用更少的训练语料,并且在小于传统方法一个数量级的测试样本颗粒度上,仍能获得略高于传统方法的AUC值,最终使得可有效验证的测试样本的颗粒度降到50。[局限]在跨体裁方面效果仍有待提高。
- 郭旭祁瑞华
- 关键词:情报分析
- 作者身份识别中不规范文本特征选择方法的研究被引量:3
- 2016年
- 【目的】从不规范文本中提取特征,识别网络文本作者身份。【方法】提出两种在不规范文本中提取特征的方法:利用在Jaccard系数的基础上定义的不规范文本相似度M;利用不规范文本在文本中出现的次数。【结果】两种特征的识别正确率分别达到85.1%和80.2%,加入这两种特征后,传统的基于统计值特征的分类器识别正确率分别提高5.8%和4%。【局限】只考虑到网络文本在词汇层面的不规范性,并没有针对更高层面的特性进行研究,如句法层面、结构层面。【结论】本文提出的特征提取方法,可以有效地提取不规范文本特征,有助于作者身份识别系统识别正确率的提升。
- 郭旭祁瑞华
- 关键词:作者身份网络文本文本相似度
- 面向工作过程的计算机公共课程教学模式研究
- 2016年
- 高校计算机公共教学的基本目标是培养非计算机专业学生的计算机综合应用能力,即能够运用计算机解决本专业教学、工作、科研和日常生活中各种问题的综合能力。本文分析了当前高等外语院校开展计算机公共课程的重要性以及现状,阐述了面向工作过程的计算机公共课程教学模式的主旨思想,结合所在学校的学科特点和教学改革经验,就如何将计算机公共课程与社会需求、学生就业能力储备有机结合进行了探讨,教学实践证明,面向工作过程的计算机公共课程教学模式有益于增强学生的计算思维能力和计算机应用能力。
- 刘彩虹祁瑞华郭旭
- 关键词:教学模式
- 一种多任务引文意图分类系统、构建方法及应用
- 本发明提出一种多任务引文意图分类系统构建方法,包括:获得任务语料和多个辅助任务语料,将主任务语料输入SciBERT预训练语言模型中,获得主任务语料的SciBERT预训练语言模型表示;将多个辅助任务语料分别输入SciBER...
- 祁瑞华刘鑫陈恒郭旭
- 基于知识库的图书评论主题抽取研究被引量:3
- 2019年
- 【目的】尝试在图书评论主题抽取中引入自然语言语义信息。【方法】将常识知识库的全局语义信息应用到图书评论主题词发现和主题聚类任务中,自动抽取评论中的显性主题词和隐性主题词。【结果】实验结果表明:与双向传播算法相比,基于知识库方法抽取结果的句覆盖率高出30.8%,主题词汇多样性高出0.36%。以此为基础绘制主题词共词聚类图谱,结合知识网络中的节点中心度呈现各个类簇中的关键主题词。【局限】由于目前没有成熟的图书评论领域知识库,本文主题挖掘过程未引入领域知识,还未达到最理想效果。【结论】基于知识库方法有助于提高图书评论主题抽取的句子覆盖率和主题词汇多样性。
- 祁瑞华周俊艺郭旭刘彩虹
- 关键词:知识库图书评论主题抽取
- 基于名词掩盖的跨领域作者识别研究
- 2023年
- 为了提高作者识别的跨领域鲁棒性,解决作者写作规律在不同领域间的迁移问题,该文首先通过分析和实验发现:名词具有较高的领域相关性。然后,采用文本变形算法将名词掩盖掉,以此来降低相关特征的权重,从而迫使机器学习算法选择领域关联度更低的特征拟合样本,进而提高模型的泛化能力。在由21953个样本组成的跨领域作者识别的实验中,该文分别采用了基于字N-gram、基于BERT和基于集成学习的三种典型作者识别方法,对比了无掩盖和掩盖名词、形容词、动词、副词、功能词的作者识别,其中掩盖名词后的作者识别方法获得了较高的评价指标。实验结果表明,掩盖名词的方法可以提高作者识别的跨领域鲁棒性。
- 郭旭祁瑞华
- 典籍英译作者身份识别研究被引量:2
- 2015年
- 【目的】分析典籍英译作者身份识别的关键问题,提出不完整数据作者身份识别的有效方法。【方法】针对诗词典籍篇幅短小和语料不平衡的特点,建立基于词汇、句子和语篇层面的文体特征向量空间模型,提出用于不完整数据作者身份识别的加权朴素信念分类算法。【结果】加权朴素信念分类算法可以有效改善朴素信念分类算法性能,与目前主流分类算法对比实验表明其在不完整数据集上具有很好的综合性能。【局限】需进一步扩展数据集的样本数量和作者数量,在大数据集上提高文体特征提取效率和作者身份识别的准确性。【结论】提出的多层面文体特征模型和加权朴素信念分类算法在诗词典籍英译作品集上具有较好的准确性和应用性。
- 祁瑞华霍跃红郭旭刘彩虹
- 关键词:典籍英译作者身份不完整数据
- 改进的Tucker分解知识图谱补全算法被引量:2
- 2020年
- 知识图谱是真实世界三元组的结构化表示.通常,三元组被表示成(头实体,关系,尾实体)的形式.为补全知识图谱中缺失的三元组,提出一种改进的Tucker分解知识图谱补全算法.该算法利用Tucker分解将三阶张量表示的知识图谱分解成一个核心张量与每个mode上因子矩阵的乘积.通过将三阶张量分解成一个核心张量每一维度乘以一个因子矩阵的形式,利用打分函数计算每个三元组的得分,得到每个三元组正确的概率,将正确的三元组添加到知识图谱,对知识图谱进行补全.实验中,采用5个公开数据集WN18RR、FB15K-237、WN18、FB15K和NELL-995进行相关的链接预测实验.实验结果表明,在WN18RR中,平均倒数排名(Mean Reciprocal Rank)比TuckER提高3.1%,Hit@10比TuckER提高1.1%;在FB15K-237中,平均倒数排名(Mean Reciprocal Rank)比TuckER提高3.4%,Hit@3比TuckER提高1.1%;在NELL-995中,平均倒数排名(Mean Reciprocal Rank)比ConvE提高3.3%,Hit@10比ConvE提高2.1%.实验证明改进的Tucker分解算法可以有效提高三元组预测精度.
- 陈恒李冠宇祁瑞华朱毅郭旭
- 关键词:知识图谱张量分解链接预测