胡万亭
- 作品数:3 被引量:19H指数:2
- 供职机构:西南交通大学信息科学与技术学院更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于词频统计的组织机构名识别方法被引量:15
- 2013年
- 命名实体识别是自然语言处理必不可少的重要部分,其中组织机构名识别占了很大的比例。提出了基于词频统计的组织机构名识别方法。训练数据主要通过百度百科词条整理得到。训练时,利用百度百科词条名在词条文本中的频数统计进行机构构成词的词频统计。在此基础上,构建了数学模型,实现了组织机构名识别算法。该识别算法集成到了中文分词中,取得了较好的识别结果,可以满足一定的实际应用需求。
- 胡万亭杨燕尹红风贾真刘利
- 关键词:词频
- 基于Web的大规模中文人物信息提取研究
- 现代人越来越依赖于从互联网上检索信息,人物信息是人们关注检索的一个重要领域。本文致力于抽取尽可能多的重要人物信息,构建一个人物信息的知识库,既可以作为人物搜索引擎的知识库,也可以作为语义搜索引擎的知识库的人物相关部分。网...
- 胡万亭
- 关键词:词频统计正文抽取网页数据
- 文献传递
- 基于多特征融合的网页正文信息抽取被引量:4
- 2014年
- 当今主流网页分为单正文体网页和多正文体网页。这些网页的正文信息都具有多个正文特征。想要准确定位正文信息所在位置,可以从其所具有的多个特征和网页设计者的设计习惯着手。鉴于此,融合这些特征提出一种基于多特征融合的网页正文信息抽取方法。实验结果表明,该方法对单正文体网页和多正文体网页的正文抽取具有较高的准确率和通用性,很好地适应了风格多样的网页。
- 刘利戴齐尹红风贾真胡万亭
- 关键词:信息抽取