刘欣 作品数:10 被引量:38 H指数:3 供职机构: 解放军信息工程大学 更多>> 发文基金: 国家社会科学基金 国家自然科学基金 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 电子电信 更多>>
基于特征词向量的短文本聚类算法 被引量:9 2017年 针对互联网短文本特征稀疏和速度更新快而导致的短文本聚类性能较差的问题,本文提出了一种基于特征词向量的短文本聚类算法。首先,定义基于词性和词长度加权的特征词提取公式并提取特征词代表短文本;然后,使用Skip-gram模型(Continous skip-gram model)在大规模语料中训练得到表示特征词语义的词向量;最后,引入词语游走距离(Word mover′s distance,WMD)来计算短文本间的相似度并将其应用到层次聚类算法中实现短文本聚类。在4个测试数据集上的评测结果表明,本文方法的效果明显优于传统的聚类算法,平均F值较次优结果提高了56.41%。 刘欣 佘贤栋 唐永旺 王波关键词:特征词 相似度计算 聚类 更新摘要研究进展 2017年 更新摘要研究对分析话题演化、提高人们在大数据时代获取信息的效率具有重要意义。首先对更新摘要历届评测会议的概况进行介绍和概括;其次重点分析更新摘要的生成方法;然后对更新摘要研究的新进展进行总结;最后探讨了未来研究中丞待解决的问题。 席耀一 刘欣 李弼程 许旭阳关键词:多文档摘要 半设备无关量子随机数扩展研究 2018年 首先对半设备无关随机数扩展协议基本模型做简单介绍.对已有的几类协议进行比较.分析各种协议的优势及不足.其次.利用设备无关与半设备无关随机数扩展协议之间的联系.解除NPA优化算法中固定维度对半设备无关随机数扩展的限制.根据SDP模型.得到不同非线性维度目击值下输出序列的小熵.最后.在半设备无关随机数扩展协议的非线性维度目击值中引入探测效率参数.研究其对非线性维度目击值的影响情况.并通过NPA优化算法.确定含探测效率参数的维度目击值与小熵之间的数值关系. 刘欣 李宏欣 李宏欣 李宏欣 马智一种基于属性加密的云病历隐私保护系统 2022年 针对智慧医疗中云病历的安全存储与访问的隐私保护需求,利用属性加密在细粒度密文访问控制的优势,设计并实现了一种云病历隐私保护系统,解决传统访问控制只针对明文控制的不足,实现了对云病历数据细粒度访问控制与隐私保护。 杨艳 果欣然 刘欣 刘鑫关键词:隐私保护 基于多特征融合的微博情感摘要方法 2016年 是对微博文本的主题和情感信息进行抽取,归纳为带有情感倾向的总结性描述。已有的相关研究忽视或者不能准确得到话题的正面和负面情感摘要。针对该问题,提出一种基于多特征融合的微博情感摘要方法。首先,对语料进行预处理并统计语料中的共现词对;然后,利用BTM模型挖掘文档中的隐含主题,计算语料和文档的主题概率分布;最后,利用该分布计算句子的主题相关度和情感特征权重,并抽取与话题相关度高且情感特征权重较大的句子形成正面和负面情感摘要。实验结果表明,相比传统方法,文章方法能够有效提高微博情感摘要的综合性能。 张佳明 王波 席耀一 刘欣 田营关键词:主题相关度 情感特征 短文本信息流中的用户建模与应用 被引量:1 2016年 社交媒体中存在着大量的短文本信息流,包含着丰富的用户信息。针对短文本信息流的特点,提出一种新的用户建模的方法。首先将用户发表的内容进行合并得到用户数据;然后将用户数据分割为固定长度的词链,在分割处添加用户名构造上下文关系;最后结合外部数据,使用Skip-gram模型进行训练得到用户的向量表示。基于用户向量的用户标签推荐和用户聚类方法在真实聊天记录语料进行实验中都取得了优于传统方法的结果。 李天彩 刘欣 王波 席耀一 王晓雯关键词:用户建模 用户聚类 基于深层特征和集成分类器的微博谣言检测研究 被引量:23 2016年 微博中存在着大量的虚假信息甚至谣言,微博谣言的广泛传播影响社会稳定,损害个人和国家利益。为有效检测微博谣言,提出了一种基于深层特征和集成分类器的微博谣言检测方法。首先对微博情感倾向性、微博传播过程和微博用户历史信息进行特征提取得到深层分类特征,然后利用分类特征训练集成分类器;最后利用集成分类器对微博谣言进行检测。实验结果表明,提出的基于深层特征和集成分类器的方法能够有效提高微博谣言检测的性能。 毛二松 陈刚 刘欣 王波关键词:集成分类器 基于PV-DM模型的多文档摘要方法 被引量:2 2016年 当前的基于词向量的多文档摘要方法没有考虑句子中词语的顺序,存在异句同向量问题以及在小规模训练数据上生成的摘要冗余度高的问题。针对这些问题,提出基于PV-DM(Distributed Memory Model of Paragraph Vectors)模型的多文档摘要方法。该方法首先构建单调亚模(Submodular)目标函数;然后,通过训练PV-DM模型得到句子向量计算句子间的语义相似度,进而求解单调亚模目标函数;最后,利用优化算法抽取句子生成摘要。在标准数据集Opinosis上的实验结果表明该方法优于当前主流的多文档摘要方法。 刘欣 王波 毛二松关键词:语义相似度 多文档摘要 面向互联网短文本的多文档自动摘要技术研究 随着互联网特别是移动互联网的高速发展,我国的网民规模不断扩大,网民在相互交流、发表言论和转发信息时会产生大量繁杂、冗余的短文本信息。传统的多文档自动摘要技术多数是面向以新闻为代表的长文本,而短文本具有特征稀疏的特点,影响... 刘欣文献传递 WordNet和词向量相结合的句子检索方法 被引量:3 2017年 针对当前句子检索方法中因数据稀疏而存在的"词不匹配"问题,提出了一种Word Net和词向量相结合的句子检索方法。首先在Word Net语义关系图中应用个性化PageRank算法计算与查询项最相关的同义词集合,实现查询项扩展,从而在一定程度上解决了查询项数据稀疏的问题;然后利用在大规模语料中训练神经网络语言模型获取的词向量对查询项和句子进行表示;最后引入WMD(word mover's distance)计算查询项与句子的语义相似度,从而利用语义信息进一步降低"词不匹配"问题带来的影响,将句子按相似度值从高到低排序作为句子检索结果。文章方法在TREC2003和TREC2004会议的项目中进行评测,MAP和R-Precision值相较于次优结果分别提高了13.29%和13.54%。 刘欣 席耀一 王波 魏晗关键词:WORDNET 语义相似度