于龙
- 作品数:4 被引量:3H指数:1
- 供职机构:解放军理工大学更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- 面向主题的信息抽取需求描述与分析被引量:2
- 2012年
- 在构建面向主题的信息抽取系统时,抽取需求是明确抽取任务的前提。针对自然语言描述的抽取需求导致计算资源浪费与抽取效率降低的问题,提出面向主题的信息抽取需求的形式化定义,并研究抽取需求之间的关系。采用精简需求集拆分的方法构造等价精简需求集,消除多抽取需求之间存在的冗余。实验结果证明,等价精简需求集能够提高多需求抽取任务的运行效率。
- 于龙蹇强
- 关键词:WEB信息抽取主题
- 站点主题结构与导航归纳技术被引量:1
- 2012年
- 站点主题描述了互联网站点中信息的聚合与分类,体现着信息逻辑结构,是分析站点信息的关键。分析站点逻辑结构是站点设计的逆向过程,为了准确分析站点中的主题,提出了站点主题结构的理论模型,以形式化的方式描述了站点中不同主题的组织形式、逻辑关系及相关性质,为面向主题的网络信息抽取提供必要的理论基础。在此基础上,进一步研究自动构建站点主题结构的技术,提出基于导航的主题结构归纳方法,并进行了算法描述和实验分析。实验结果证明,站点主题结构的理论模型概括了目前大多数站点的主题结构特征,基于导航的主题结构归纳方法能正确地建立站点的主题结构,并具有较快的运行时间。
- 于龙尹浩
- 关键词:站点主题结构导航
- 页面图文模型与元素特征归纳
- 2013年
- 针对以图文内容为核心的页面信息抽取,以形式化的方式提出了对页面进行元素分析的理论模型。通过定义基础元素集与变换规则,页面图文模型简化了页面DOM树结构,并展现出页面内元素的图文特征。在此基础上,通过定义元素分类相似度,从页面图文模型的元素特征中进行优选,归纳最佳分类特征,提出并实现了获取最佳分类特征集与识别阈值的算法。实验结果表明,页面图文模型简化了页面元素的规模,特征集归纳算法能够在较小的学习成本下获得理想的分类精度。
- 于龙王金龙
- 关键词:页面元素