上海市科委科技攻关项目(055115001)
- 作品数:4 被引量:46H指数:1
- 相关作者:顾君忠江开忠李子成黄文蓓杨静更多>>
- 相关机构:华东师范大学上海工程技术大学更多>>
- 发文基金:上海市科委科技攻关项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于分块的网页正文信息提取算法研究被引量:45
- 2007年
- 提出并实现了一种从Web页面获取正文的方法。该方法包括2个步骤:网页分块和对内容块的取舍。网页分块采用了一种自底向上分析标签树的自动分块算法,该算法比起以往方法更准确,并且对于复杂结构的页面分块效果更好。通过引入块的重要度和块特征分析每个内容块,来辨别出含有正文的内容块。实验结果表明本方法切实可行并且具有较高的准确性。
- 黄文蓓杨静顾君忠
- 基于用户兴趣的文本摘要方法研究被引量:1
- 2007年
- 提出的方法,以句子为基本抽取单位,以兴趣主题词为句子的加权特征。对句子基于潜语义聚类,提出语义结构,这种结构对质量的提高有重要作用,并且提出了较为客观和有效的评价方法。实验表明,本文方法是行之有效的。
- 江开忠李子成顾君忠
- 关键词:语义结构
- 余代数及文档动态描述模型研究
- 2006年
- 介绍了代数的对偶概念———余代数,以及基于状态系统的余代数描述。将文档的每一句看作一个断言,并动态地将文档理解为一个断言流,从而利用余代数方法对文档的语义进行观察。
- 江开忠李子成吕钊顾君忠
- 关键词:余代数上下文
- 基于语料库的潜语义信息度量
- 2009年
- 为关键词定义了与主题或语义相关联的信息度量。首先获取基于主题的语料库,然后建立语料库的潜语义向量空间模型,通过该模型定义关键词的信息度量。由此可以计算任意文档包含该主题的信息量,定义文档对主题的隶属度。设定文档对主题隶属度阈值,从而判断文档是否属于该主题类。实验表明,与主题或语义关联的信息度量可以克服搜索中"词匹配"的不足,达到"语义匹配"的搜索。
- 江开忠李路王昭宗
- 关键词:信息度量