于琨 作品数:14 被引量:100 H指数:5 供职机构: 中国科学技术大学计算机科学与技术学院 更多>> 发文基金: 国家自然科学基金 安徽省高校省级自然科学研究项目 中国科学院科研项目 更多>> 相关领域: 自动化与计算机技术 经济管理 文化科学 自然科学总论 更多>>
用于Email分类的综合特征表示方法 被引量:1 2006年 基于词频的特征表示方法难以准确表示Email的主要内容,从而导致分类的综合性能(F-score)较差.为了解决这个问题,将领域知识引入了Email的特征表示,并在此基础上提出了一种综合领域知识和词频的特征表示方法,用于Email分类.本方法在词频特征的基础上加入人工总结出的领域特征,从而更加准确地表示Email的主要内容,以提高Email分类的平均F-score.基于1080篇Email的分类测试结果表明,与基于词频的特征表示方法和基于领域知识的特征表示方法相比,本方法在针对Email标题实现的Email分类中将平均F-score分别提高了12.28%和23.08%,从而达到69.33%的分类平均F-score. 于琨 耿焕同 寇苏玲 张婷慧 蔡庆生关键词:EMAIL 互联网半结构化信息抽取研究 本论文以提高半结构化信息抽取方法针对信息数量和信息类型的适应能力为目标,针对上述问题,分别对半结构化文本信息抽取和网页信息抽取展开研究。具体完成的工作可以概括为以下几点:
研究针对半结构化文本信息抽取存在的问题,提... 于琨关键词:半结构化信息 信息抽取 半结构化文本 互联网 自然语言处理 文献传递 一种基于词共现图的文档主题词自动抽取方法 被引量:37 2006年 主题词抽取是文本自动处理的基础性工作.在对现有主题词抽取方法深入研究的基础上,提出了一种基于词共现图的文档主题词自动抽取方法;该方法以基于词频统计方法为基础,利用在词共现图形成的主题信息以及不同主题间的连接特征信息自动地提取文档中的主题词,旨在找出一些非高频词且又对主题贡献大的词.实验表明了该抽取方法抽取出的主题词更能准确地符合了作者的主题. 耿焕同 蔡庆生 于琨 赵鹏关键词:自然语言处理 TFIDF 一种基于词共现图的文档自动摘要研究 被引量:18 2005年 本文提出了一种基于词共现图的文档自动摘要算法.该算法以统计方法为基础,又利用词共现图形成的主题信息以及不同主题间的连接特征信息,旨在能够有效地生成既全面反映文档的主要内容,又不受领域限制的文档摘要;同时该方法能动态地确定文档摘要长度.在实验评估中,该文档自动摘要方法取得了令人满意的摘要效果. 耿焕同 蔡庆生 赵鹏 于琨关键词:主题 自然语言处理 B2C电子商务中的信息抽取技术 被引量:1 2002年 After stepping out the valley of net economy, B2C e-commerce is about to come into a climax of develop-ment. Information extraction techniques are going to be one of the most important factors to promote B2C e-com-merce. In this paper, we present a review on the recent progress of information extraction techniques applied to B2Ce-commerce. The characteristics of each technique are also appraised. 于琨 蔡智 糜仲春 蔡庆生关键词:B2C电子商务 信息抽取 网络购物 INTERNET 基于商空间模型的CBR系统 被引量:2 2006年 传统的CBR系统采用平面结构,系统在运行过程中不断学习,范例库将变得越来越大,当范例数超过某一预设的上界时,就会出现“沼泽问题”。为了解决这个问题,该文提出了基于商空间模型的CBR系统,采用分层递阶的立体结构,在运行阶段将惰性学习算法与积极学习算法相结合。实验表明利用本方法构造的CBR系统实现E-mail分类预测时,系统的性能和有效性都得到了很大的提高。 赵鹏 蔡庆生 耿焕同 于琨关键词:商空间理论 信息粒度 分层递阶结构 互联网中文信息获取研究(英文) 被引量:3 2003年 提出了一种以智能化、主动搜索为标志的互联网中文信息获取方法 ,实现了一种互联网中文信息智能获取工具 ,该工具采用智能Agent的体系结构 ,通过学习用户日常的文档和用户的交互意见推测出用户需求 ,建立个性化的用户模型 .并使用元搜索引擎从互联网上主动获取信息 .最后通过本地智能处理技术 ,剔除合并重复及相似性大的信息 ,将处理后的结果以显明易懂的方式提交给用户 . 蔡智 王煦法 于琨 蔡庆生关键词:互联网 智能代理 智能AGENT 用户模型 元搜索引擎 基于双层级联文本分类的简历信息抽取 被引量:5 2006年 本文提出了一种基于双层级联文本分类的方法,用于简历信息的自动抽取。本方法将简历文本分解为文本块和文本串,并将简历中包含的信息分解为概要信息与详细信息。首先对简历文本中的文本块进行切分与分类,抽取出概要信息,然后选择可能包含详细信息的文本块,将其切分为文本串,再通过对文本串的分类抽取出详细信息。对1200份中文简历的实验结果表明,本方法适用于简历信息的自动抽取和管理。 于琨 管刚 周明 王煦法 蔡庆生关键词:计算机应用 中文信息处理 信息抽取 文本分类 一种网络智能信息Agent——CIRs的设计 2004年 Web上大量、分布、动态的信息,造成了用户在查询Web上的信息时产生"信息过载"和"信息迷向"现象.智能信息Agent是解决此问题的研究热点.设计并实现了一种以智能化、主动搜索为标志的互联网智能信息Agent—CIRs,从用户日常的行为中自动学习出用户兴趣模型,从而为用户提供个性化Web信息服务. 蔡智 于琨 王煦法 蔡庆生关键词:CIR WEB信息 信息过载 用户兴趣模型 网络智能 基于路径学习的信息自动抽取方法 被引量:11 2003年 针对用户需求的网页信息自动抽取是解决互联网信息爆炸问题的一个有效途径 ,然而现有的信息自动抽取方法均难以同时满足网页信息自动抽取中查全率与查准率高、抽取速度快、抽取信息量大和用户负担轻的要求 .本文提出了一种基于路径学习的信息自动抽取方法 ,并采用该方法编制了一个商品价格信息自动抽取系统 .实验结果表明 ,该方法具有用户负担较轻 (只需用户提供 2~ 4个学习实例 )、查全率 (97.0 4~ 10 0 % )与查准率 (99~ 10 0 % )高、可实现大样本量信息抽取和时间资源耗费少 (抽取时间 <1秒 )等特点 ,能基本满足网页信息自动抽取的要求 . 于琨 蔡智 糜仲春 蔡庆生关键词:互联网