徐丽萍
- 作品数:12 被引量:77H指数:6
- 供职机构:北京城市系统工程研究中心更多>>
- 发文基金:北京市教委科技发展计划国家自然科学基金北京市科学技术研究院科技创新工程项目更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 搜索日志中命名实体识别
- 2015年
- 【目的】搜索日志中命名实体识别对于优化搜索意图,提高搜索引擎服务质量存在重要意义。【方法】利用种子命名实体和模板匹配原则抽取候选命名实体并聚类,聚类后进行候选命名实体识别特征抽取,包括频次、不同模板数、模板权重特征。融合这些特征构造命名实体识别权重计算公式,并合理调整特征影响参数。【结果】对根据权重提取的命名实体进行标注和统计,发现P@500值平均达到75%左右,比Pa@ca方法高出7%。【局限】对模板敏感性弱的命名实体不能精确抽取。【结论】通过计算该方法抽取结果指标P@N值,并和其他方法抽取结果指标进行比较,证明该方法的有效性。
- 任育伟吕学强李卓徐丽萍
- 关键词:搜索日志K-MEANS聚类
- 新能源汽车领域中文术语抽取方法被引量:10
- 2015年
- 【目的】为提高新能源汽车领域中文术语抽取结果的准确率和召回率,提出一种适合该领域的术语抽取方法。【方法】在总结前人工作基础上,提出利用条件随机场模型作为抽取模型,选取词、词长、词性、依存关系、词典位置、停用词等特征作为特征模板。【结果】实验结果正确率为93.12%,召回率为90.47%。正确率比Baseline方法提高7.73%。【局限】该方法只提高较短术语抽取结果的正确率。【结论】依存关系作为条件随机场模型的一项特征可以提高新能源汽车领域中文术语抽取结果的正确率和召回率。
- 何宇吕学强徐丽萍
- 关键词:术语抽取条件随机场
- 面向专利的技术主题检测被引量:1
- 2016年
- 对专利文献自身特点及TF-IDF和TextRank关键词抽取技术进行研究,提出面向专利文献标题和摘要的技术主题检测方法。通过分析专利文献标题和专利文献摘要中专利技术主题的分布特点、词长特征和位置信息,计算候选技术主题的主题度,筛选主题度最大的候选主题词作为显式技术主题;根据TF-IDF算法和TextRank算法,从专利文献内容中提取关键词作为隐式技术主题词;将所提取的关键词进行加权计算,筛选权值最大的词作为最终的专利技术主题来评测。实验结果表明,该方法是有效的,可用于进一步支撑专利技术功效矩阵的构建工作。
- 胡菊香吕学强徐丽萍
- 关键词:关键词
- 面向专利技术主题分析的技术主题获取被引量:8
- 2015年
- 文章利用文本挖掘技术抽取技术主题和规范化主题,为技术主题分析提供基础工作。根据技术主题在专利标题中的分布特点和技术主题分析时主题词的统计长度特征,提出一种主题度计算方法,将主题度较大的词作为主题词;通过计算相似度获得主题词的同义词对,借助统计特征对主题词规范化表示。实验结果表明,文章提出的主题词抽取方法是有效的,实验准确率为95.5%,召回率为95.5%;同时文章提出的主题规范化方法具有较大的意义。
- 侯婷吕学强李卓徐丽萍
- 关键词:主题分析相似度
- 搜索日志中热点查询的内容抽取被引量:1
- 2015年
- 搜索日志中蕴含海量的信息,利用搜索日志进行挖掘以及分析热点查询内容,对于提高搜索服务的质量有很大的价值和意义。在融合K-means聚类中心迭代优点和查询词向量长度信息的基础上,提出SKHC(类K-means层次聚类)方法,并以该方法对搜索日志聚类。然后,分析聚类后的查询用户数、查询频次、查询累计时间、查询数、统计量特征与热点查询的关系,提出基于各类热度值进行热点查询内容抽取的方法,同时融合了日志热度值和倒排日志频率统计特征。通过对抽取出的结果进行统计分析,并和日志所在月份发生的热点事件进行相关性比较,发现四川地震和北京奥运月平均热度分别达到最高的0.89和0.81,证明了该方法的有效性。
- 任育伟吕学强李卓徐丽萍
- 关键词:搜索日志聚类热度
- 专利领域同义词识别
- 2015年
- 专利领域的同义词表是提升专利检索性能的重要资源,当前国内此类资源相对稀缺,亟需寻找一种高效的同义词自动识别方法.该文提出一种用于专利领域同义词识别的类决策树模型.分析专利搜索日志中候选同义词构词规律、外来词音译规律、汉语语义词序规律,提出词形特征、语音特征、语义特征.分析特征间的关联特性以及样本数据的分布规律,构建用于出专利领域同义词识别的类决策树模型.实验结果表明,在多个测试样本中,平均F-值达到0.914,取得了较好的识别效果.
- 李军锋吕学强李卓徐丽萍
- 关键词:同义词语义特征
- 领域本体术语的抽取方法研究被引量:8
- 2014年
- 领域术语是本体构建的基本要素,自动获取高质量的领域术语是构建领域本体的基础。本文提出一种多策略融合的领域术语抽取方法。分析领域术语的语法结构及统计特征,构造术语抽取的逆向词性规则和领域专用停用词表;利用PATTree术语抽取模型和C-value方法获取候选术语;借鉴TF—IDF及参照语料对比思想,从单个文档和领域文档集两个层面计算术语领域度,并依据术语领域度的大小筛选得到领域术语。在经济类语料上的实验结果显示:领域术语的top-100、top-500和top-1500准确率分别达到了94.00%、85.20%和78.47%,与baseline相比,分别提高5%、4.8%和6.2%。
- 张雷瀚吕学强李卓徐丽萍
- 关键词:本体构建术语抽取
- 基于查询热度和实体识别的查询推荐被引量:1
- 2016年
- 查询推荐已经成为改善用户搜索体验和提高搜索引擎服务质量的重要方法,提高查询推荐串的质量和用户满意度显得尤为迫切。已有研究方法在相似度计算上忽略了命名实体的重要性和搜索日志整体的信息量度,通过对查询串进行聚类后的热度评估,提取查询串中的命名实体;然后融合查询串热度信息和命名实体特征到相似度计算公式中,提出了一种新的查询推荐方法。该方法所得结果的满意度平均值均比最新的三种方法的推荐结果值高,表明了该方法的有效性;该方法在相似度计算上利用了识别出的命名实体,同时考虑了推荐串在全局日志中的热度,提高了推荐词的总体质量,但方法局限于提取特征的精确度,有赖于特征进一步的丰富和优化。
- 任育伟吕学强李卓徐丽萍
- 关键词:聚类特征提取热度查询推荐
- 中文专利文献术语自动识别研究被引量:7
- 2016年
- 中文专利文献中含有大量领域术语,对这些术语进行自动识别是信息抽取、文本挖掘等领域的重要任务。该文提出了基于专利文献标题的术语词性规则自动生成方法以及针对候选术语排序的TermRank算法。该方法首先从大量的中文专利文献标题中自动生成词性规则;然后利用生成的词性规则对中文专利文献正文部分进行规则匹配获得候选术语表;再利用提出的TermRank排序算法对候选术语表排序,最终得到术语列表。通过在9 725篇中文专利文献数据上实验,证实了该方法的有效性。
- 杨双龙吕学强李卓徐丽萍
- 关键词:信息抽取文本挖掘
- 中文专利领域本体概念间非分类关系抽取被引量:9
- 2017年
- 将中文专利本体中实体间非分类关系抽取问题限定为满足SAO结构的实体间关系抽取问题。针对SAO结构关系抽取任务中关系实例结构正确但是语义错误的问题,提出一种句法分析特征和关系词词典特征结合传统特征的关系抽取方法。将新特征和上下文特征、距离特征等传统特征相结合,使用支持向量机进行关系抽取实验。实验结果表明,该方法优于仅使用传统特征的关系抽取方法。
- 何宇吕学强刘秀磊徐丽萍
- 关键词:句法分析支持向量机本体学习