博士研究生创新基金(CX08B18X)
- 作品数:3 被引量:10H指数:3
- 相关作者:鞠时光王秀红曹庆皇杨晓琴更多>>
- 相关机构:江苏大学更多>>
- 发文基金:博士研究生创新基金国家自然科学基金江苏省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于混合核函数的分布式信息检索结果融合被引量:3
- 2011年
- 为了提高分布式信息检索(DIR)的结果融合表现,基于改进的潜在语义核(LSK)和复合方差(ANOVA)核构建了新的复合(CLA)核,通过直接计算检索结果和提问之间相关度来对检索结果进行融合研究。实验结果表明:CLA核的融合精度和招回率分别仅略次于LSK和ANOVA核,但其综合评价指标F1优于其他核;其融合精度比Round-robin、ComMNZ、Bayesian、Borda、SDM、MEM和regression SVM等分别提高了16.79%、30.73%、20.37%、24.17%、14.25%、13.50%和7.53%。CLA核具有较好的融合表现,适用于DIR结果融合。
- 王秀红鞠时光
- 关键词:分布式信息检索复合核
- 面向Deep Web数据自动抽取的模板生成方法被引量:3
- 2010年
- DeepWeb结果页面大多由网站根据请求从后台数据库读取数据并动态填充到通用模板而生成的。研究如何从一系列同模板生成的页面中生成该模板,并利用模板自动抽取数据。给出了模板生成问题的形式化描述,提出了一种新颖的模板生成方法,利用生成的模板从实例网页中抽取数据。与现有方法相比,该方法适用于列表页面和详细页面两种类型网页。通过在多个领域站点上实验,说明新方法在不降低准确率的情况下能大大提高召回率。
- 杨晓琴鞠时光曹庆皇王秀红
- 关键词:DEEPWEB数据抽取文法推断
- 基于包装器的Deep Web自动语义标注被引量:4
- 2010年
- 为最准最全地对页面抽取的数据进行语义标注,提出一种基于包装器自动语义标注的方法。该方法利用多个标注源进行组合标注,有效解决单标注源标注率不高问题,同时针对标注不完全问题,给出利用多个数据源的互补关系来标注,生成高效率的标注包装器对抽取结果自动标注。实验结果证明,该方法具有较高的准确性和效率。
- 杨晓琴鞠时光曹庆皇王秀红
- 关键词:深层网络语义标注包装器