潘博 作品数:11 被引量:36 H指数:4 供职机构: 北京工商大学 更多>> 发文基金: 教育部人文社会科学研究基金 北京市自然科学基金 国家社会科学基金 更多>> 相关领域: 自动化与计算机技术 更多>>
基于注意力机制的改进CLSM检索式匹配问答方法 被引量:2 2019年 针对检索式匹配问答模型对中文语料适应性弱和句子语义信息被忽略的问题,提出一种基于卷积神经网络潜在语义模型(CLSM)的中文文本语义匹配模型。首先,在传统CLSM基础上进行改进,去掉单词和字母的N元模型层,以增强模型对中文语料的适应性;其次,采用注意力机制算法,针对输入的中文词向量信息建立实体关注层模型,以加强句中核心词的权重信息;最后,通过卷积神经网络(CNN)有效地捕获输入句子上下文结构方面信息,并通过池化层对获取的语义信息进行降维。基于医疗问答对数据集,将改进模型与传统语义模型、传统翻译模型、深度神经网络模型进行对比,实验结果显示所提模型在归一化折现累积增益(NDCG)方面有4~10个百分点的提升,优于对比模型。 于重重 曹帅 潘博 张青川 徐世璇词向量模型的增量式学习方法 本发明公布了一种词向量模型的增量式学习方法,该方法采用的超参数包括:向量维度、反例样本个数范围、文本窗口长度;针对一篇新增文本text,通过对新增文本中出现的新词进行初始化更新和基于历史词表word_list的反例采样,... 潘博 于重重 赵霞 秦勇文献传递 一种面向数字标牌的多维标签实现方法 本发明提出一种面向数字标牌的多维标签实现方法,该多维标签实现方法分为五个步骤,具体过程包括:1)根据广告屏的特征定义广告屏多维标签模型,被描述的广告屏属性包括地理位置、受众特征、商圈特征属性;2)根据广告的属性特征定义行... 赵霞 张珣 于重重 田思杨 潘博 樊庆文献传递 互联网广告点击率预估模型中特征提取方法的研究与实现 被引量:14 2017年 互联网广告是一个具有上千亿元规模的市场,广告的点击率(CTR)是互联网广告投放效果的重要指标。在广告点击率预估模型中,特征提取是关键因素,特征的好坏直接影响到最终模型的效果。针对如何提高广告点击率预估效率问题,在Hadoop大数据平台环境中,提出了基于梯度提升决策树(gradient boost decision tree,GBDT)模型的多维特征提取方法。该方法利用原始数据构建多维基础特征库,并将基础特征库中除ID类特征以外的其余特征输入GBDT模型进行特征刷选,得到高层特征,进一步进行分类。该方法的使用不仅减少了特征提取的人工成本和时间成本,也在很大程度上提升了模型的精度。 田嫦丽 张珣 潘博 杨超 许彦茹关键词:特征提取 互联网广告 一种基于Storm平台的分布式数字标牌广告投放方法 本发明公开了一种基于Storm平台的分布式数字标牌广告投放方法,将广告投放过程分为:1)搭建基于Storm平台的处理框架,包含读订单,选屏,排期,更新订单状态;2)发射源接收订单消息并发给选屏处理单元;3)选屏处理单元根... 赵霞 张珣 于重重 于田昊 陆洋 潘博 刘帅帅 孙楷文献传递 FM集成模型在广告点击率预估中的应用 被引量:5 2018年 目前广告点击率预估所用的模型对于稀疏、类别分布不平衡的广告数据学习能力有限。针对这一问题,在数据分桶采样的基础上,提出利用因子分解机集成模型进行广告点击率的预估。利用迭代决策树算法提取的高层特征作为因子分解机的输入特征进行自动组合,发现特征间的相关性,解决数据稀疏和不均衡分类问题。在Hadoop大数据平台环境中对迭代决策树算法+因子分解机的融合模型进行并行式训练,可减少时间成本。通过单模型实验、采样实验、模型集成实验以及模型对比实验,确定了最佳采样比例,并验证了集成基于因子分解机的集成模型的有效性。 潘博 张青川 于重重 谢小兰关键词:互联网广告 基于词性与词序的相关因子训练的word2vec改进模型 被引量:9 2018年 词性是自然语言处理的基本要素,词语顺序包含了所传达的语义与语法信息,它们都是自然语言中的关键信息.在word embedding模型中如何有效地将两者结合起来,是目前研究的重点.本文提出的Structured word2vec on POS联合了词语顺序与词性两种信息,不仅使模型可以感知词语位置顺序,而且利用词性关联信息来建立上下文窗口内词语之间的固有句法关系.Structured word2vec on POS将词语按其位置顺序定向嵌入,对词向量和词性相关加权矩阵进行联合优化.实验通过词语类比、词相似性任务,证明了所提出的方法的有效性. 潘博 于重重 张青川 徐世璇 曹帅关键词:WORD EMBEDDING 词性 词序 联合词性与词序的相关因子训练的word2vec改进方法 本发明公布了一种联合词性与词序的相关因子训练的word2vec改进方法,提出Structured word2vec on POS模型,包括CWindow‑POS(CWP)模型和Structured Skip gram‑P... 于重重 曹帅 潘博 张青川词向量模型的增量式学习方法 本发明公布了一种词向量模型的增量式学习方法,该方法采用的超参数包括:向量维度、反例样本个数范围、文本窗口长度;针对一篇新增文本text,通过对新增文本中出现的新词进行初始化更新和基于历史词表word_list的反例采样,... 潘博 于重重 赵霞 秦勇文献传递 联合词性与词序的相关因子训练的word2vec改进方法 本发明公布了一种联合词性与词序的相关因子训练的word2vec改进方法,提出Structured word2vec on POS模型,包括CWindow‑POS(CWP)模型和Structured Skip gram‑P... 于重重 曹帅 潘博 张青川文献传递