王永成
- 作品数:166 被引量:1,451H指数:24
- 供职机构:上海交通大学更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金国家科技型中小企业技术创新基金更多>>
- 相关领域:自动化与计算机技术文化科学语言文字经济管理更多>>
- 自动分类中的过学习问题与支持向量机
- 由于网上信息的迅速增长,文本分类已经成为网上信息管理中的热点研究课题.现今流行方法的重要基础是传统的统计学,前提是要有足够的样本,当样本数目有限时容易出现过学习的问题,导致分类效果不理想.本文首先从理论上分析了这种出现过...
- 尹中航王永成蔡巍
- 关键词:支持向量机
- 文献传递
- 三种分类算法的实验比较被引量:6
- 2004年
- 对文本自动分类算中的k最近邻算法、向量空间模型算法以及混合分类算法进行了比较分析,在构造分类用知识库的主题抽取方法相同的条件下,使用中国资讯行提供的2000篇网上新闻语料分别对3种分类算法作了实验研究.实验结果表明,针对网上新闻而言,混合分类算法性能指标优于另外2种算法.结合实验语料环境,对3种分类算法的适用范围作了分析.
- 蔡巍王永成李伟尹中航
- 关键词:K最近邻算法混合算法
- 基于主成分分析的文本检索结果集的排序和聚类
- 本文阐述了基于主成分分析法的降维原理,给出了基于主成分分析的文本检索结果集的排序和聚类算法的八个步骤.
- 张云涛龚玲王永成
- 关键词:文本检索主成分分析排序聚类结果集
- 文献传递
- 汉语的自动分词
- 1989年
- 本文分析了汉语自动分词的困难,概述了已公布的主要分词方法,简单介绍了在1986年开发的一个分词系统.
- 王永成李健
- 关键词:汉字自动分词信息处理
- 一种高效的中文电子词表数据结构被引量:48
- 2000年
- 在分析中文字编码体系、中文词一些特点的基础上,文中提出了一种新的中文电子词表数据结构,并讨论了利用首字Hash 加二分查找的数据查找算法以及相关的数据更新、删除和插入算法. 理论分析和试验结果表明。
- 陈桂林王永成韩客松王刚
- 关键词:中文信息处理数据结构计算机
- Internet网络信息自动摘要的研究被引量:32
- 1999年
- 针对Internet网络信息的基本特征,提出了一套新的自动摘要方案:首先根据标识符的不同赋予相应文本字串不同的权值,在文本字串长度大于一定阈值的情况下,对中英文字串采用不同方式调整权值,然后根据权值大小挑选字串,生成文字流畅且具备一定质量的自动摘要。
- 陈桂林王永成
- 关键词:互联网网络信息
- 中国法律信息库的开发
- 1994年
- 介绍中国法律信息库的内容及特点,并对其采用的独特技术进行了分析论证。
- 王永成吴建华
- 关键词:信息库法律情报检索数据库
- 搜索引擎中Robot搜索算法的优化被引量:39
- 2002年
- 目前的搜索引擎越来越暴露出不足之处 ,当用户使用搜索引擎时输入特定关键词之后 ,返回的查询结果往往有数千甚至几百万之多 ,而且其中包含大量的重复信息与垃圾信息 ,用户从中筛选出自己感兴趣的网页仍然需要耗费很长的时间。另外一种情况就是 ,Web上明明存在某些重要网页 ,却没有被搜索引擎的robot发现。本文针对这种现象 ,重点讨论搜索引擎中的搜索策略 ,改善搜索算法 ,使Robot在搜索阶段就能够充分处理与Robot频繁交互的URL列表。根据网页的内容、HTML结构以及其中包含的超链信息计算网页的PageRank ,使URL列表能够根据重要性调整排列顺序。初步的试验结果表明 。
- 宋聚平王永成滕伟许欢庆
- 关键词:搜索引擎超链接ROBOTPAGERANK搜索策略搜索算法
- 一种快速单模式准确匹配算法被引量:12
- 2001年
- 引入连续跳跃查找文本的思想 ,提出了一种新的单模式精确匹配算法 ,其最优条件下的时间复杂度为 O[n/(m+1 ) ],新算法的平均时间复杂度分析表明其具有优越的查找性能 .对比实验结果显示 ,新算法的性能优于目前所见的同类算法 ,特别是在模式较短的情况下 ,优势更为明显 ,这一特点非常适合于自然语言文本的检索 .
- 王永成陈桂林韩客松
- 关键词:快速搜索算法时间复杂度
- 炎黄子孙携手共建中华网与信息库
- 该文从二十一世纪的发展真挚及对炎黄子孙的要求分析出发,指出了加强中华网与信息库的建设是一切炎黄子孙当前的紧急任务,是中华振兴的必需;与此同时,该文还提出了信息库建设优先、抓好信息标引、抓好人机界面建议与基本实现思路,介绍...
- 王永成尹中航
- 关键词:中华网信息库
- 文献传递