您的位置: 专家智库 > >

张婧

作品数:7 被引量:39H指数:4
供职机构:大连理工大学计算机科学与技术学院更多>>
发文基金:国家自然科学基金教育部人文社会科学研究基金更多>>
相关领域:自动化与计算机技术文化科学更多>>

文献类型

  • 6篇期刊文章
  • 1篇会议论文

领域

  • 6篇自动化与计算...
  • 1篇文化科学

主题

  • 5篇中文
  • 3篇语料
  • 3篇抽取
  • 2篇样例
  • 2篇中文分词
  • 2篇主动学习方法
  • 2篇向量
  • 2篇新词
  • 2篇分词
  • 1篇登录
  • 1篇信息抽取
  • 1篇信息处理
  • 1篇社交
  • 1篇社交媒体
  • 1篇实体关系抽取
  • 1篇术语抽取
  • 1篇随机场
  • 1篇特征向量
  • 1篇条件随机场
  • 1篇汽车

机构

  • 7篇大连理工大学

作者

  • 7篇张婧
  • 5篇黄德根
  • 2篇党延忠
  • 2篇李丽双
  • 1篇田雪
  • 1篇王敏
  • 1篇李丹
  • 1篇徐新峰
  • 1篇王冠群

传媒

  • 1篇清华大学学报...
  • 1篇数据采集与处...
  • 1篇情报学报
  • 1篇大连理工大学...
  • 1篇中文信息学报
  • 1篇山东大学学报...

年份

  • 2篇2018
  • 1篇2017
  • 1篇2016
  • 1篇2015
  • 1篇2013
  • 1篇2012
7 条 记 录,以下是 1-7
排序方式:
基于λ-主动学习方法的中文微博分词被引量:2
2018年
由于面向中文微博的分词标注语料相对较少,导致基于传统方法和深度学习方法的中文分词系统在微博语料上的表现效果很差。针对此问题,该文提出一种主动学习方法,从大规模未标注语料中挑选更具标注价值的微博分词语料。根据微博语料的特点,在主动学习迭代过程中引入参数λ来控制所选的重复样例的个数,以确保所选样例的多样性;同时,根据样例中字标注结果的不确定性和上下文的多样性,采用Max、Avg和AvgMax这3种策略衡量样例整体的标注价值;此外,用于主动学习的初始分词器除使用当前字的上下文作为特征外,还利用字向量自动计算当前字成为停用字的可能性作为模型的特征。实验结果表明:该方法的F值比基线系统提高了0.84%~1.49%,比目前最优的基于词边界标注(wordboundaryannotation,wBA)的主动学习方法提升效果更好。
张婧黄德根黄锴宇刘壮孟祥主
关键词:文字信息处理中文分词
中文微博观点句识别及要素抽取研究被引量:5
2016年
研究中文微博情感分析中的观点句识别及要素抽取问题。在观点句识别方面,提出了一种利用微博中的情感词和情感影响因子计算微博语义情感倾向的新算法;在观点句要素抽取方面,利用主题词分类及关联规则,辅以一系列剪枝、筛选和定界规则抽取评价对象。通过观点句识别和观点句要素抽取结果的相互过滤,进一步提高召回率。实验数据采用第六届中文倾向性分析评测所发布的数据,结果表明,本文方法在观点句识别和要素抽取方面能够取得较好的效果,观点句识别的精确率、召回率入F值分别为95.62%,54.10%及69.10%;观点句要素抽取的精确率、召回率以及F值分别为22.07%,12.66%和16.09%。
王冠群田雪黄德根张婧
关键词:关联规则
基于组合核的中文实体关系抽取研究被引量:3
2012年
将基于特征向量的平面核和基于句法分析树的结构核组合,进行中文实体关系抽取。首先进行特征选择实验,为构造平面核中的特征向量选择最优特征集合,特征包括实体大类、实体子类、实体类别等实体信息以及实体对在句子中的前后词信息。在定义结构核函数时,从包含两个实体的句子中提取最短路径包含树(shortestpathtree,SPT),然后使用卷积树核函数来计算两棵SPT树的相似度。在ACERDC2005中文语料库上进行实体关系大类的抽取实验,其F值达到了68.50%,比两个单独核函数的方法分别提高4.36%和17.37%。同时,在组合核中也进行了特征选择实验,得到了最好关系抽取性能的F值为70.58%,说明单独平面核的最优特征集在组合核中未必最优。结果表明,本文利用实体语义信息构造平面核并与结构核组合,对于中文实体关系抽取具有较好的性能。
李丽双党延忠张婧王敏
关键词:关系抽取
基于条件随机场的汽车领域术语抽取被引量:17
2013年
中文领域术语抽取是中文信息处理领域的一项重要研究任务,在词典构建、领域本体构造等方面有重要的应用.采用条件随机场(conditional random fields,CRFs),从汽车知识网站上爬取网页,预处理后得到纯文本,然后分析汽车领域的术语组成特点并制定相应的语料标注规则进行人工标注,对汽车领域进行了术语抽取.在使用词和词性特征的基础上增加了词典特征、领域词频和背景领域词频等特征,精确率、召回率和F-值分别达到84.61%、80.50%和82.50%.与其他方法比较说明所提出的汽车领域术语抽取方法是有效的.
李丽双党延忠张婧李丹
关键词:信息抽取条件随机场
面向中文社交媒体语料的无监督新词识别研究被引量:6
2018年
该文结合词向量技术和传统统计量,提出了一种新的无监督新词识别方法。该方法利用传统统计量获得候选新词,然后采用多种策略训练得到词向量,利用词向量构建弱成词词串集合,并使用该集合从候选新词的内部构成和外部环境两个方面对其进行过滤。此外,该文人工标注了一万条微博的分词语料作为发展语料,用于分析传统统计量以及调整变量阈值。实验使用NLPCC2015面向微博的中文分词评测任务的训练语料作为最终的测试语料。实验表明,该文方法对二元新词进行识别的F值比基线系统提高了6.75%,比目前新词识别领域最佳方法之一Overlap Variety方法提高了4.9%。最终,在测试语料上对二元新词和三元新词识别的F值达到了56.2%。
张婧黄锴宇梁晨黄德根
关键词:未登录词识别
基于广义Jaccard系数的微博情感新词判定被引量:6
2015年
微博情感新词的极性判定是情感分析研究中的一项基本任务,旨在对新词进行情感分类。针对极性判定的问题,提出一种新的计算特征向量相似度的算法。该方法首先使用特征向量表示情感新词和已有情感词,利用点互信息计算特征权值;然后采用广义Jaccard系数分别计算情感新词与已有的三种极性的情感词集内情感词的相似度,词集内相似度之和即为情感新词与该情感词集的相关度;最后,通过情感新词与三个极性情感词集的相关度的距离差判定其极性。实验结果表明,基于广义Jaccard系数的情感新词极性判定算法得出的F值比COAE2014参赛队伍的最好成绩高两个百分点。
桑乐园徐新峰张婧黄德根
关键词:特征向量
基于λ-主动学习方法的中文微博分词
由于面向中文微博的分词标注语料相对较少,导致基于传统方法和深度学习方法的中文分词系统在微博语料上的表现效果很差.针对此问题,本文提出一种新的主动学习方法从大规模未标注语料中挑选更具标注价值的微博分词语料.该方法根据微博语...
张婧黄德根黄锴宇刘壮孟祥主
关键词:中文分词
共1页<1>
聚类工具0