您的位置: 专家智库 > >

于琨

作品数:14 被引量:100H指数:5
供职机构:中国科学技术大学计算机科学与技术学院更多>>
发文基金:国家自然科学基金安徽省高校省级自然科学研究项目中国科学院科研项目更多>>
相关领域:自动化与计算机技术经济管理文化科学自然科学总论更多>>

文献类型

  • 12篇期刊文章
  • 2篇学位论文

领域

  • 12篇自动化与计算...
  • 2篇经济管理
  • 1篇文化科学
  • 1篇自然科学总论

主题

  • 5篇抽取
  • 4篇互联
  • 4篇互联网
  • 3篇信息抽取
  • 3篇语言处理
  • 3篇自然语言
  • 3篇自然语言处理
  • 2篇电子商务
  • 2篇信息处理
  • 2篇用户
  • 2篇商务
  • 2篇中文
  • 2篇中文信息
  • 2篇中文信息处理
  • 2篇网络
  • 2篇EMAIL
  • 2篇INTERN...
  • 2篇词共现
  • 1篇代理
  • 1篇递阶

机构

  • 14篇中国科学技术...
  • 1篇安徽师范大学
  • 1篇微软公司

作者

  • 14篇于琨
  • 12篇蔡庆生
  • 5篇耿焕同
  • 4篇蔡智
  • 3篇王煦法
  • 3篇糜仲春
  • 3篇赵鹏
  • 1篇张婷慧
  • 1篇管刚
  • 1篇周明
  • 1篇寇苏玲

传媒

  • 3篇中国科学技术...
  • 3篇小型微型计算...
  • 1篇南京大学学报...
  • 1篇复旦学报(自...
  • 1篇计算机工程
  • 1篇情报学报
  • 1篇中文信息学报
  • 1篇计算机科学

年份

  • 5篇2006
  • 2篇2005
  • 2篇2004
  • 2篇2003
  • 3篇2002
14 条 记 录,以下是 1-10
排序方式:
用于Email分类的综合特征表示方法被引量:1
2006年
基于词频的特征表示方法难以准确表示Email的主要内容,从而导致分类的综合性能(F-score)较差.为了解决这个问题,将领域知识引入了Email的特征表示,并在此基础上提出了一种综合领域知识和词频的特征表示方法,用于Email分类.本方法在词频特征的基础上加入人工总结出的领域特征,从而更加准确地表示Email的主要内容,以提高Email分类的平均F-score.基于1080篇Email的分类测试结果表明,与基于词频的特征表示方法和基于领域知识的特征表示方法相比,本方法在针对Email标题实现的Email分类中将平均F-score分别提高了12.28%和23.08%,从而达到69.33%的分类平均F-score.
于琨耿焕同寇苏玲张婷慧蔡庆生
关键词:EMAIL
互联网半结构化信息抽取研究
本论文以提高半结构化信息抽取方法针对信息数量和信息类型的适应能力为目标,针对上述问题,分别对半结构化文本信息抽取和网页信息抽取展开研究。具体完成的工作可以概括为以下几点: 研究针对半结构化文本信息抽取存在的问题,提...
于琨
关键词:半结构化信息信息抽取半结构化文本互联网自然语言处理
文献传递
一种基于词共现图的文档主题词自动抽取方法被引量:37
2006年
主题词抽取是文本自动处理的基础性工作.在对现有主题词抽取方法深入研究的基础上,提出了一种基于词共现图的文档主题词自动抽取方法;该方法以基于词频统计方法为基础,利用在词共现图形成的主题信息以及不同主题间的连接特征信息自动地提取文档中的主题词,旨在找出一些非高频词且又对主题贡献大的词.实验表明了该抽取方法抽取出的主题词更能准确地符合了作者的主题.
耿焕同蔡庆生于琨赵鹏
关键词:自然语言处理TFIDF
一种基于词共现图的文档自动摘要研究被引量:18
2005年
本文提出了一种基于词共现图的文档自动摘要算法.该算法以统计方法为基础,又利用词共现图形成的主题信息以及不同主题间的连接特征信息,旨在能够有效地生成既全面反映文档的主要内容,又不受领域限制的文档摘要;同时该方法能动态地确定文档摘要长度.在实验评估中,该文档自动摘要方法取得了令人满意的摘要效果.
耿焕同蔡庆生赵鹏于琨
关键词:主题自然语言处理
B2C电子商务中的信息抽取技术被引量:1
2002年
After stepping out the valley of net economy, B2C e-commerce is about to come into a climax of develop-ment. Information extraction techniques are going to be one of the most important factors to promote B2C e-com-merce. In this paper, we present a review on the recent progress of information extraction techniques applied to B2Ce-commerce. The characteristics of each technique are also appraised.
于琨蔡智糜仲春蔡庆生
关键词:B2C电子商务信息抽取网络购物INTERNET
基于商空间模型的CBR系统被引量:2
2006年
传统的CBR系统采用平面结构,系统在运行过程中不断学习,范例库将变得越来越大,当范例数超过某一预设的上界时,就会出现“沼泽问题”。为了解决这个问题,该文提出了基于商空间模型的CBR系统,采用分层递阶的立体结构,在运行阶段将惰性学习算法与积极学习算法相结合。实验表明利用本方法构造的CBR系统实现E-mail分类预测时,系统的性能和有效性都得到了很大的提高。
赵鹏蔡庆生耿焕同于琨
关键词:商空间理论信息粒度分层递阶结构
互联网中文信息获取研究(英文)被引量:3
2003年
提出了一种以智能化、主动搜索为标志的互联网中文信息获取方法 ,实现了一种互联网中文信息智能获取工具 ,该工具采用智能Agent的体系结构 ,通过学习用户日常的文档和用户的交互意见推测出用户需求 ,建立个性化的用户模型 .并使用元搜索引擎从互联网上主动获取信息 .最后通过本地智能处理技术 ,剔除合并重复及相似性大的信息 ,将处理后的结果以显明易懂的方式提交给用户 .
蔡智王煦法于琨蔡庆生
关键词:互联网智能代理智能AGENT用户模型元搜索引擎
基于双层级联文本分类的简历信息抽取被引量:5
2006年
本文提出了一种基于双层级联文本分类的方法,用于简历信息的自动抽取。本方法将简历文本分解为文本块和文本串,并将简历中包含的信息分解为概要信息与详细信息。首先对简历文本中的文本块进行切分与分类,抽取出概要信息,然后选择可能包含详细信息的文本块,将其切分为文本串,再通过对文本串的分类抽取出详细信息。对1200份中文简历的实验结果表明,本方法适用于简历信息的自动抽取和管理。
于琨管刚周明王煦法蔡庆生
关键词:计算机应用中文信息处理信息抽取文本分类
一种网络智能信息Agent——CIRs的设计
2004年
Web上大量、分布、动态的信息,造成了用户在查询Web上的信息时产生"信息过载"和"信息迷向"现象.智能信息Agent是解决此问题的研究热点.设计并实现了一种以智能化、主动搜索为标志的互联网智能信息Agent—CIRs,从用户日常的行为中自动学习出用户兴趣模型,从而为用户提供个性化Web信息服务.
蔡智于琨王煦法蔡庆生
关键词:CIRWEB信息信息过载用户兴趣模型网络智能
基于路径学习的信息自动抽取方法被引量:11
2003年
针对用户需求的网页信息自动抽取是解决互联网信息爆炸问题的一个有效途径 ,然而现有的信息自动抽取方法均难以同时满足网页信息自动抽取中查全率与查准率高、抽取速度快、抽取信息量大和用户负担轻的要求 .本文提出了一种基于路径学习的信息自动抽取方法 ,并采用该方法编制了一个商品价格信息自动抽取系统 .实验结果表明 ,该方法具有用户负担较轻 (只需用户提供 2~ 4个学习实例 )、查全率 (97.0 4~ 10 0 % )与查准率 (99~ 10 0 % )高、可实现大样本量信息抽取和时间资源耗费少 (抽取时间 <1秒 )等特点 ,能基本满足网页信息自动抽取的要求 .
于琨蔡智糜仲春蔡庆生
关键词:互联网
共2页<12>
聚类工具0