余丽
- 作品数:20 被引量:227H指数:10
- 供职机构:中国科学院文献情报中心更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家社会科学基金更多>>
- 相关领域:自动化与计算机技术天文地球文化科学经济管理更多>>
- 论地理知识图谱被引量:67
- 2017年
- 网络文本蕴含大量隐式地理空间信息,为地理知识获取与知识服务提供了巨大潜能。地理知识图谱是将传统地理信息服务拓展到地理知识服务的关键,也是网络文本蕴含地理信息采集与处理的终极目标。本文系统评述了开放地理语义网、开放地理实体及关系抽取、地理语义网对齐、知识图谱存储方法等地理知识图谱相关主题的研究进展,从网络文本蕴含地理空间信息量与质量评价、地理信息语义理解、空间语义计算模型和异构地理语义网对齐等方面剖析了目前亟需解决的关键科学问题。
- 陆锋余丽仇培元
- 关键词:语义网知识图谱自然语言理解
- 一种中文门楼址的自适应表达及成分解析方法
- 2014年
- 文章设计了一种自适应层次化地址表达模式,总结了70种城市门楼址表达模式和9种农村门楼址表达模式;针对门楼址层级的细粒度解析问题,设计了基于规则的字母与模式联合解码的分词方法,实现了中文门楼址成分的分割与标注的同步处理。最后使用我国5个城市不同描述粒度的地址数据验证了该方法的有效性,结果证明可满足大规模数据处理的自适应、高性能和细粒度的解析需求。
- 杨林余丽叶亚琴万波
- 关键词:自适应模式库
- 蕴含地理事件微博客消息的自动识别方法被引量:11
- 2016年
- 微博客文本蕴含类型丰富的地理事件信息,能够弥补传统定点监测手段的不足,提高事件应急响应质量。然而,由于大规模标注语料的普遍匮乏,无法利用监督学习过程识别蕴含地理事件信息的微博客文本。为此,本文提出一种蕴含地理事件微博客消息的自动识别方法,通过快速获取的语料资源增强识别效果。该方法利用主题模型具有提取文档中主题集合的优势,通过主题过滤候选语料文本,实现地理事件语料的自动提取。同时,将分布式表达词向量模型引入事件相关性计算过程,借助词向量隐含的语义信息丰富微博客短文本的上下文内容,进一步增强事件消息的识别效果。通过以新浪微博为数据源开展的实验分析表明,本文提出的蕴含地理事件信息微博客消息识别方法,识别来自事件微博话题的消息文本的F-1值可达到71.41%,比经典的基于SVM模型的监督学习方法提高了10.79%。在模拟真实微博环境的500万微博客数据集上的识别准确率达到60%。
- 仇培元陆锋张恒才余丽
- 关键词:主题模型
- 交通网络旅行商路径优化的遗传禁忌搜索算法被引量:19
- 2014年
- 旅行商路径优化问题是经典的网络分析问题之一,主要通过智能优化方法获得近似最优解。然而,单一智能优化方法存在运算量过大、参数选择苛刻、对初值依赖性强等缺陷,很难快速实现全局优化。本文结合遗传算法的全局寻优能力和禁忌搜索的记忆功能,提出一种基于分散集中策略的遗传禁忌搜索算法,即采用遗传变异算子作为分散策略构造邻域,开辟新的搜索空间,有效提升获得全局最优解的概率;将禁忌搜索作为集中策略进行局部寻优,避免迂回探测,充分体现禁忌搜索较强的"爬山"能力,并通过实际交通网络和不同规模的节点集合,从求解精度、稳定性和效率3个方面对算法进行评价。结果表明,本文提出的交通网络旅行商路径优化的遗传禁忌搜索算法平均求解精度比禁忌搜索算法提高了9%,略优于ArcGIS;当与ArcGIS求解的TSP路径长度差异在1%以内时,禁忌搜索算法已经难以获得对应精度的TSP路径,而遗传禁忌搜索算法效率比遗传算法提高了50%,且遗传禁忌搜索算法具有很好的并行化潜力。
- 余丽陆锋杨林
- 关键词:旅行商问题交通网络禁忌搜索遗传算法
- 微博客蕴含交通事件信息抽取的自动标注方法被引量:11
- 2017年
- 微博客文本蕴含丰富的实时交通事件信息,能够为现有交通信息采集手段提供补充。然而,当前事件抽取方法缺少对地理实体关系的判断过程,对涉及多个地理实体及关系表达的地理空间要素抽取效果不佳,难以准确识别交通事件信息的位置描述。该文提出一种自动标注方法,将地理实体关系识别引入事件抽取过程来解决这一问题。该方法利用条件随机场模型实现交通事件角色标注,利用支撑向量机模型实现角色关系与要素关系标注,完成了交通事件信息空间要素识别。以新浪微博为数据源开展的实验分析表明,该文所提出的微博客蕴含交通事件抽取方法,正确率和召回率均达到90%,优于现有的基于模式匹配的抽取方法。
- 仇培元张恒才余丽陆锋
- 关键词:信息抽取交通事件条件随机场支撑向量机
- 一种论文摘要蕴含细粒度知识元的抽取方法及装置
- 本发明公开了一种论文摘要蕴含细粒度知识元的抽取方法及装置,所述方法包括:确定知识元类型;建立知识元词库;使用bootstrapping技术自动扩充每种知识元类型的词库;获得知识元词库中的词语;使用词典匹配技术在论文摘要中...
- 余丽钱力赵华茗董智鹏
- 文献传递
- 依存句法特征的科研命名实体识别算法被引量:6
- 2020年
- [目的/意义]探索科研命名实体及其关系的识别与抽取,提升其在长句等复杂情况下的识别效果,为进一步的应用提供参考与借鉴。[方法/过程]以依存句法特征分析为基础,提出一种科研命名实体关系抽取方法,过程包括:①使用Standford Tagger工具对目标文本进行词性标注;②基于标注结果,围绕核心谓词和SAO结构,将目标文本分割为结构规范的语义片段;③通过依存句法分析,找出与核心谓词语义相关的主语和宾语,构成(实体,关系,实体)三元组。[结果/结论]与Ollie、Reverb等主流算法进行的对比测试表明,该方法可以有效提升科研命名实体识别的准确性。
- 赵华茗钱力余丽
- 关键词:依存句法分析关系抽取
- 基于均值漂移算法的文本聚类数目优化研究被引量:11
- 2019年
- 【目的】探索最佳文本聚类数目的优化方法,为提升文本聚类算法的有效性和质量提供参考。【方法】结合TF-IDF和Word2Vec算法,提取TopN关键词向量作为语料库文本特征表达;结合均值漂移算法、聚类有效性指标(Silhouette)和均方误差(MSE)指标,确定最佳文本聚类数目。【结果】Top 4 500关键词向量规模能较好呈现文本特征;基于均值漂移算法确定的最佳文本聚类数与人工研判优化的聚类数相符。【局限】选取的实验数据集合不够充足,缺少在其他领域的应用对比。【结论】本文方法可以在无监督方式下高质量完成文本聚类个数的确定。
- 赵华茗余丽周强
- 关键词:均值漂移文本聚类聚类数聚类有效性
- 科技文献中短语级主题抽取的主动学习方法研究被引量:5
- 2020年
- 【目的】在标注语料匮乏的情况下,利用主动学习策略,探索科技文献信息抽取的有效解决方案。【方法】设计一种融合主动学习的神经网络模型架构,将三种代表性的主动学习策略(MARGIN,NSE,MNLP)和新提出的LWP策略与神经网络信息抽取模型(CNN-BiLSTM-CRF)结合,研究适用于标注语料匮乏的任务驱动型信息抽取方法。【结果】在主动学习引导下,仅选择性标注10%~30%数据,即可达到神经网络模型训练100%标注数据的效果,可大大降低标注语料库构建过程中的人力成本。【局限】人工智能领域科技文献数据集规模小、噪声多,信息抽取模型的精确率低。【结论】主动学习策略指导下的神经网络模型,大幅缩减了所需标注语料库的规模。对比4种主动学习策略发现:MNLP策略显著优于其他策略;MARGIN策略在初始迭代阶段表现优异且能辨别出低价值的实例;基于句长规范化的MNLP策略能促进模型的稳定性;LWP适用于语义标签占比大的数据集。
- 陶玥余丽张润杰
- 关键词:信息抽取神经网络
- 架起GIS与计算机科学的桥梁:ACM SIGSPATIAL 2015会议综述被引量:1
- 2016年
- ACM SIGSPATIAL会议是GIS科学与计算机科学结合最广泛的国际顶级会议。会议主题围绕计算机科学与GIS研究中的热点问题,涵盖时空数据挖掘、时空数据模型和算法、位置服务、地图匹配、分布式和并行计算、路径规划、轨迹计算等研究方向,具有重要的学术价值和应用价值。本文对第二十三届ACM SIGSPATIAL会议(ACM SIGSPATIAL 2015)进行了总结,将当前计算机科学与GIS交叉研究领域的研究前沿归纳为多源数据融合、轨迹分析、语义分析3个研究方向,同时介绍了ACM SIGSPATIAL 2015会议的主题演讲、会议竞赛以及会议专题研讨会等相关内容,希望展示当前计算机科学与GIS领域相结合的最新研究进展,架起GIS与计算机科学的桥梁。
- 刘希亮程诗奋余丽刘康陆锋
- 关键词:ACMGIS多源数据语义