刘远超
- 作品数:70 被引量:319H指数:11
- 供职机构:哈尔滨工业大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划中央高校基本科研业务费专项资金更多>>
- 相关领域:自动化与计算机技术文化科学一般工业技术化学工程更多>>
- 基于互联网的厂商口碑自动排序系统
- 基于互联网的厂商口碑自动排序系统,本发明涉及一种厂商口碑自动排序系统。它解决了消费者无从检索到对相关商品评价信息的缺陷。本发明用于厂商口碑的排序工作。它包括:一号服务器,接受网上访问者的请求,从互联网上识别和收集对相关商...
- 刘远超王晓龙刘秉权林磊单丽莉孙承杰刘铭
- 文献传递
- 用于细颗粒度挖掘的产品评论语料库构建技术被引量:1
- 2012年
- 为了辅助进行产品评论中特征-观点对识别的挖掘工作,对细颗粒度产品评论语料库的构建技术进行了研究.介绍了用于产品评论细颗粒度挖掘的语料库构建方法,以及目前初步进行的语料标注工作.标注数据可以数据库形式存储,从而实现了无结构化到结构化的转变,为自动查询等处理提供了极大方便.实验结果表明:虽然文中的标注方法以手机产品为例,但具有良好的移植性,可以应用到其他产品评论的细颗粒度语料库构建.相应的语料库构建对于高性能机器学习方法的应用、特征-观点对识别算法的性能提高以及自动评价等具有重要意义.
- 刘远超宋明凯刘铭张想
- 一种长文本的标签推荐模型构建方法及标签推荐方法
- 本发明提供一种长文本的标签推荐模型构建方法及标签推荐方法,涉及自然语言处理技术领域,该模型构建方法包括:获取历史长文本,对历史长文本进行标注,得到文本标签、标准相似度、历史子句和子句的历史权重;根据历史权重得到历史关键句...
- 单丽莉冯明强刘秉权孙承杰刘远超林磊
- 一种基于混合策略的失衡数据集分类方法被引量:18
- 2007年
- 提出了一种有效应用于失衡数据集的分类方法,其核心思想是从样本预处理和分类器改进两方面入手,为失衡数据集的分类问题提供全面的解决方案.首先创造性地采用动态自组织映射聚类的方法对失衡数据集进行重采样,这种采样方法,有效地解决了传统重采样的方法随机性强,人为主观干扰以及信息损失等弊端.随后借助K-近邻规则的思想,对新采集的样本进行剪枝,有效地解决了实际存在的数据混叠现象.算法对SVM的核函数进行等角变换,由此对类边界进行了校准,以适应样本类别失衡的情况.通过对三种算法的对比实验证明了算法在失衡数据集分类上的有效性.本文的算法已经在答案抽取技术中得到了成功应用,并在TREC2006国际QA评测中得到了客观充分的验证.
- 李鹏王晓龙刘远超王宝勋
- 关键词:支持向量机K-近邻
- 主题分析技术在文档聚类中的应用被引量:2
- 2009年
- 为解决高频特征对文章的主题信息反映不够全面,无法获得高质量聚类结果的问题,同时为获得聚类后各类别反映信息的精确描述,采用词汇链反映文章所描述的主题信息,并依据文本间词汇链的相似度进行聚类.将聚类后属于同一类别并反映相同主题信息的词汇链进行融合,通过分析各词汇链所描述的主题信息在不同类别内的分布来抽取能够充分反映各类别主题的关键词集合.实验证明该方法比应用高频特征进行聚类的效果好,同时由于分析了主题信息在各类别内的分布情况,使抽取的类别关键词能够很好地体现每个类别所侧重描述的信息.
- 刘铭刘远超王晓龙
- 关键词:知网
- 一种基于用户偏好感知的全新商品冷启动方法
- 本发明公开了一种基于用户偏好感知的全新商品冷启动方法,包括:获取用户协同特征、商品协同特征和商品内容特征;基于用户协同特征和商品协同特征,建立用户与商品的关系模型;基于商品协同特征和商品内容特征,将同一商品的内容特征与协...
- 刘秉权王文博单丽莉孙承杰刘远超林磊
- 基于知识增强和回溯损失的对话情绪识别网络模型、构建方法、电子设备及存储介质
- 本申请公开了一种基于知识增强和回溯损失的对话情绪识别网络模型、构建方法、电子设备及存储介质,属于自然语言处理技术领域。本申请首先利用编码器,通过设计不同的掩码矩阵以实现对话中各方的交互,同时引入对话历史信息,仅在词编码阶...
- 解云鹤孙承杰刘秉权季振洲单丽莉林磊刘远超
- 基于双重知识交互和多任务学习的对话情绪识别网络模型系统、构建方法、设备及存储介质
- 本申请公开了一种基于双重知识交互和多任务学习的对话情绪识别网络模型、构建方法、电子设备及存储介质,属于自然语言处理技术领域。解决了现有Emotion Recognition in Conversation(ERC)模型忽...
- 孙承杰解云鹤刘秉权季振洲刘远超单丽莉林磊
- 文档段落分割方法
- 文档段落分割方法,本发明涉及文档的分割方法。用于文本分割。它解决现有技术引入与文档描述的主题无关的噪声词而增大或缩小描述不同或相同子主题的片段间的相似度,使得片段划分的结果不准确的缺陷。它通过下述步骤实现:一、对文档进行...
- 刘铭刘远超王晓龙刘秉权林磊单丽莉孙承杰
- 基于多知识源融合的关键词重要性评价研究
- 2007年
- 词的重要性评价是关键词抽取研究中比较重要的环节,其中一种比较常用的方法是对词的相关属性进行加权分析,并根据综合权值确定重要性程度.词所处的位置、词频、词性以及与线索词的同现信息等都是影响关键词抽取的重要因素.本文首先对可能影响关键词抽取的因素进行了探讨和分析,而后利用遗传算法对各个知识源参数进行了优化.在人工标注的语料上进行的测试结果验证了该方法的可行性.
- 刘远超吴冲王晓龙
- 关键词:关键词抽取参数优化遗传算法知识源