湖北省高校图工委科研基金(2012YB02)
- 作品数:3 被引量:16H指数:3
- 相关作者:李湘东黄莉张娇更多>>
- 相关机构:武汉大学更多>>
- 发文基金:湖北省高校图工委科研基金更多>>
- 相关领域:文化科学自动化与计算机技术更多>>
- 数字图书馆多种类型文献混合自动分类研究被引量:7
- 2014年
- 探索数字图书馆的图书、期刊、网页等不同类型的馆藏文献进行分类组织时,多种类型文献单独及混合自动分类的特点。采用KNN等分类算法对多种类型文献进行分类实验并分析比较。仿真实验表明:随着实验文本数增加,各种类型文献的单独自动分类准确率有2%至7.8%不等的提升。图书与学术性期刊、网页与非学术性期刊之间的混合分类效果较好,分类准确率可达到85%以上;对多种类型文献实现基于自动分类的统一组织具有较高的可行性。
- 李湘东胡逸泉巴志超黄莉
- 关键词:数字图书馆
- 基于LDA主题模型的图书网页书目信息提取研究被引量:7
- 2016年
- 以图书网页为对象,主要研究书目信息提取方法。该方法首先利用LDA对书名与各描述性段落组合的混合文本进行建模,然后分别计算书名与各段落之间的相似度提取书目信息,有效地避免传统方法不能很好反映文档间相似性的不足。实验证明,该模型针对图书网页书目信息的提取准确率达到87.4%,较传统方法有了显著提高,同时也为图书网页信息组织管理和自动分类研究奠定了基础。
- 李湘东霍亚勇张娇
- 关键词:书目信息LDA信息提取
- 图书网页的自动识别及书目信息抽取研究被引量:3
- 2014年
- 【目的】以相关的图书类网页为对象,研究图书网页的自动识别及书目信息抽取方法。【方法】在分析不同图书网页标签使用特征、布局结构以及书目信息表征的基础上,通过定义通用规则及共现词和页面分析等技术建立图书网页自动识别及书目信息抽取模型。【结果】实验证明,该模型针对来自一般性网站的图书网页识别率可以达到近80%,而针对各类图书网页书目信息的抽取准确率平均也达到79%左右。【局限】该方法中阈值的设定综合考虑了多种类型图书网页信息特征,但对于部分特征极其特殊的网页存在误判现象,若进一步改进算法,可能效果更好。【结论】此方法对于各种类型图书网页的自动识别和书目信息抽取均能取得比较理想的效果,普适性较强,同时也为图书网页信息组织管理和自动分类研究奠定了基础。
- 李湘东霍亚勇黄莉
- 关键词:书目信息自动识别信息抽取