陈晓鸥
- 作品数:39 被引量:426H指数:10
- 供职机构:北京大学更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术政治法律电子电信轻工技术与工程更多>>
- 半结构化文档集的结构化处理及其Web发布
- 本文首先对结构化半结构化文档的特点进行了研究总结,提出了利用光验知识进行模式提取及文档集的批量结构化处理的模型,然后重点讨论了该模型中先验知识的表达和关键算法,最后结合作者主持开发的国家重点工程对文档的结构化处理及其应用...
- 杨建武陈晓鸥
- 关键词:WEB发布可扩展标记语言
- 文献传递
- 一种对图文互斥分栏串文版面确定文字阅读顺序的方法
- 本发明属于文字与图形信息处理技术领域,具体涉及一种对图文互斥分栏串文版面确定文字阅读顺序的方法。针对现有复杂形状版面中阅读顺序存在歧义的缺陷,首次定义了不规则版面特有对象“单调排版区”并提出版面层次树模型,采用自顶向下逐...
- 贾娟陈晓鸥陈堃銶
- 文献传递
- XML文件的显示与浏览被引量:26
- 2000年
- 着重介绍了XML中数据显示的基本思想 ,结合具体实例详细阐述了样式单XSL和CSS的使用方法 ,并分析了二者之间的区别和联系。此外 ,本文还讨论了当前浏览器对XML数据浏览的支持现状。
- 董欣陈晓鸥
- 关键词:XML语言XML文件文件浏览
- 基于搜索引擎摘要的词汇语义褒贬计算
- 语义褒贬分析是文本情感分析研究的基础。针对目前主流搜索引擎均不支持NEAR操作符而AND关系性能较差的情况,本文提出了一种新的基于搜索引擎摘要的词汇语义褒贬计算方法。该方法利用与查询词相关的搜索引擎摘要中的词汇共现关系,...
- 路斌万小军杨建武陈晓鸥
- 关键词:情感分析搜索引擎
- 一种基于SVM的多层分类策略被引量:9
- 2005年
- 提出了一种新的基于反例文档选择的多层分类策略1-vs-brothers。与原策略相比,该策略在训练阶段仅仅选择兄弟节点包含的样例文档作为反例,从而减少了较深层次节点需要学习的文档。实验结果表明,在该文的实验条件下,基于该策略的算法使得训练效率提高了60%,而分类精度却基本上保持不变。该策略还可以用在1-vs-1之上形成1-vs-brother策略,用来减少多层分类情况下节点训练时需要对比学习的节点数目。
- 路斌杨建武陈晓鸥
- 关键词:支持向量机
- 半结构化文档集的结构模式提取的研究与实现被引量:12
- 2001年
- 提出了通过结构模式提取,在信息源对缺失信息进行恢复与重构的思想,给出了结构模式提取模型,并讨论了实现该模型的关键步骤与算法,最后结合基于该模型实现的系统对半结构化文档集的结构模式提取及其应用进行了总结。该研究成果已成功应用于实际系统中。
- 杨建武陈晓鸥
- 关键词:WEBINTERNET
- 文档聚类中k-means算法的一种改进算法被引量:62
- 2003年
- 介绍了文档聚类中基于划分的k-means算法,k-means算法适合于海量文档集的处理,但它对孤立点很敏感。为此,文章提出将聚类均值点与聚类种子相分离的思想,并具体给出了基于该思想的对k-means算法的改进算法。实验表明,该改进算法比原k-means算法具有更高的准确性和稳定性。
- 万小军杨建武陈晓鸥
- 关键词:文档聚类K-MEANS算法划分聚类算法数据库
- 命名实体识别:One-at-a-time or All-at-once?Word-based or Character-based?
- 命名实体识别是找出文本中出现的人名、地名、机构名等,由于中英文的区别,中文本身没有分好词,在识别时,一种做法是先对文本分词后,再使用机器学习的方法进行识别,本文称之为基于词的方法 (word-based);但是能不能不分...
- 余军陈晓鸥
- 关键词:CRF
- 电分机改造与改造电分机的计算机系统
- 1995年
- 电分机改造与改造电分机的计算机系统陈晓鸥从七十年代我国开始引进电子分色机起,电分机在我国彩色印刷业已走过了二十余年的发展历程,至今仍在我国分色制版业中占据着举足轻重的地位。更为重要和可贵的是,多年的使用,使全国各彩印厂家,积累了丰富的使用电分机的经验...
- 陈晓鸥
- 关键词:电子分色机计算机系统分色制版彩色印刷
- 基于XML的数据交换与存取技术研究被引量:122
- 2001年
- 可扩展置标语言XML(eXtensibleMarkupLanguage)是由W3C(WorldWideWebConsortium)组织于1998年2月制定的一种面向Internet应用的置标语言。作为对SGML(标准通用置标语言)的一种改良,XML具有良好的扩展性和自描述性、形式与内容分离、遵循严格的语法要求以及提供对多语种的支持等特点,使其成为Internet网上发布与数据交换的一门新兴技术,并有望在跨平台跨地域异构应用间的协同工作、基于语义的智能数据搜索等领域发挥重要作用。所有这些应用都又和XML的数据存取机制分不开的。基于上述种种原因,近年来,基于XML的数据交换与存取技术成为数据交换和存取领域的一项重要课题,并引起广泛关注。文章将此技术展开分析,详细探讨了XML数据存取机制,并结合关系型数据库和面向对象数据库,重点分析了XML在数据库中的存储模式和应用模式,最后对XML数据存取技术的发展趋势进行了展望。
- 王仲陈晓鸥
- 关键词:数据交换数据存取XML存储模式