崔红
- 作品数:4 被引量:14H指数:3
- 供职机构:亚利桑那大学更多>>
- 发文基金:教育部人文社会科学研究基金国家社会科学基金更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于贝叶斯分类的中文物种描述文本的语义标注研究被引量:3
- 2012年
- 本研究从《中国植物志》中随机采集1000个文档作为数据集,采用基于先导词的朴素贝叶斯算法实现中文物种描述文本的自动语义标注。通过实验性研究,实验数据表明,先导词能够有效提升朴素贝叶斯的标注效率。采用先导词后,F平均值提高0.048~0.107,尤以Fr为2时效果最好,整体标注性能F平均值高达0.902。各元素的标注性能也较为理想。Fr分别取1、2、3时,大部分元素的F值为0.730~0.964。
- 段宇锋黑珍珍鞠菲崔红
- 关键词:朴素贝叶斯语义标注
- 朴素贝叶斯算法与Bootstrapping方法相结合的中文物种描述文本语义标注研究被引量:9
- 2014年
- 【目的】降低中文物种描述文本语义标注的学习成本。【方法】设计基于Bootstrapping的弱监督学习方法,以少量数据为基础,迭代执行学习和标注过程。在迭代过程中,利用置信度最高的标注数据扩充知识库,提升标注能力。【结果】运用15 041条数据测试算法效率,F-value的平均值达到0.911 2。【局限】对过于稀疏的数据,标注效率相对较低。【结论】本研究设计的方法不仅有效降低系统学习对训练数据规模的要求,而且可提高标注效率。
- 段宇锋朱雯晶陈巧崔红
- 关键词:朴素贝叶斯语义标注
- 基于机器学习的生物多样性英文文档语义标注研究被引量:2
- 2011年
- 针对现有语义标注系统通用性差的问题,本研究设计了基于先导词算法的MARTT语义标注系统。MARTT利用有监督的机器学习方法从文本中提取领域规则,以适应不同的数据集。为了检验算法的效率,研究以中国植物志和北美植物志数据为样本,运用十折交叉论证方法与NB、SVM的标注性能进行了比较。结果表明,先导词算法在准确率、召回率及计算成本上均优于其它两种算法。而且,在两个不同的数据集上都获得了理想的结果,证实MARTT所具有的良好适应性。
- 崔红段宇锋郦芳
- 关键词:语义标注生物多样性
- 基于自主学习规则的中文物种描述文本的语义标注研究被引量:4
- 2012年
- 从《中国植物志》中随机采集1 000个文档作为数据集,采用自主学习规则与先导词相结合的算法实现中文物种描述文本的语义标注。实验数据表明,本研究设计的基于规则的算法整体标注效率(F值)达到0.930,大部分元素的F值在0.724-0.964之间,该算法优于朴素贝叶斯分类算法。同时证明,先导词对优化算法具有积极意义。
- 段宇锋黑珍珍鞠菲崔红
- 关键词:语义标注