您的位置: 专家智库 > >

陈晓鸥

作品数:39 被引量:426H指数:10
供职机构:北京大学更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术政治法律电子电信轻工技术与工程更多>>

文献类型

  • 18篇期刊文章
  • 11篇会议论文
  • 9篇专利
  • 1篇科技成果

领域

  • 28篇自动化与计算...
  • 1篇电子电信
  • 1篇轻工技术与工...
  • 1篇政治法律

主题

  • 10篇文档
  • 6篇半结构化
  • 5篇搜索
  • 5篇结构化文档
  • 5篇二分图
  • 5篇半结构化文档
  • 5篇处理技术
  • 4篇信息处理
  • 4篇语言处理
  • 4篇自然语言
  • 4篇自然语言处理
  • 4篇自然语言处理...
  • 4篇向量
  • 4篇聚类
  • 4篇版面
  • 4篇报纸
  • 4篇报纸版面
  • 4篇XML
  • 3篇样式
  • 3篇语义

机构

  • 39篇北京大学
  • 9篇北京北大方正...
  • 2篇北大方正集团...
  • 1篇中国音乐学院

作者

  • 39篇陈晓鸥
  • 14篇杨建武
  • 5篇董欣
  • 4篇万小军
  • 3篇路斌
  • 2篇余军
  • 2篇吴於茜
  • 2篇王仲
  • 2篇杨建武
  • 1篇吴新丽
  • 1篇张丹
  • 1篇杨德顺
  • 1篇苟意远
  • 1篇隗华
  • 1篇彭宇新
  • 1篇孙红娥
  • 1篇梁汝峰
  • 1篇黄小江
  • 1篇于晓明

传媒

  • 4篇计算机工程
  • 3篇计算机应用
  • 2篇中国图象图形...
  • 2篇电子出版
  • 2篇复旦学报(自...
  • 2篇第18届全国...
  • 2篇第十八届全国...
  • 1篇计算机学报
  • 1篇软件学报
  • 1篇计算机辅助设...
  • 1篇计算机工程与...
  • 1篇计算机科学
  • 1篇第十届全国多...
  • 1篇中国近现代科...

年份

  • 1篇2020
  • 1篇2017
  • 3篇2010
  • 1篇2009
  • 1篇2008
  • 5篇2007
  • 2篇2006
  • 5篇2005
  • 1篇2004
  • 4篇2003
  • 4篇2002
  • 7篇2001
  • 2篇2000
  • 2篇1995
39 条 记 录,以下是 1-10
排序方式:
半结构化文档集的结构化处理及其Web发布
本文首先对结构化半结构化文档的特点进行了研究总结,提出了利用光验知识进行模式提取及文档集的批量结构化处理的模型,然后重点讨论了该模型中先验知识的表达和关键算法,最后结合作者主持开发的国家重点工程对文档的结构化处理及其应用...
杨建武陈晓鸥
关键词:WEB发布可扩展标记语言
文献传递
一种对图文互斥分栏串文版面确定文字阅读顺序的方法
本发明属于文字与图形信息处理技术领域,具体涉及一种对图文互斥分栏串文版面确定文字阅读顺序的方法。针对现有复杂形状版面中阅读顺序存在歧义的缺陷,首次定义了不规则版面特有对象“单调排版区”并提出版面层次树模型,采用自顶向下逐...
贾娟陈晓鸥陈堃銶
文献传递
XML文件的显示与浏览被引量:26
2000年
着重介绍了XML中数据显示的基本思想 ,结合具体实例详细阐述了样式单XSL和CSS的使用方法 ,并分析了二者之间的区别和联系。此外 ,本文还讨论了当前浏览器对XML数据浏览的支持现状。
董欣陈晓鸥
关键词:XML语言XML文件文件浏览
基于搜索引擎摘要的词汇语义褒贬计算
语义褒贬分析是文本情感分析研究的基础。针对目前主流搜索引擎均不支持NEAR操作符而AND关系性能较差的情况,本文提出了一种新的基于搜索引擎摘要的词汇语义褒贬计算方法。该方法利用与查询词相关的搜索引擎摘要中的词汇共现关系,...
路斌万小军杨建武陈晓鸥
关键词:情感分析搜索引擎
一种基于SVM的多层分类策略被引量:9
2005年
提出了一种新的基于反例文档选择的多层分类策略1-vs-brothers。与原策略相比,该策略在训练阶段仅仅选择兄弟节点包含的样例文档作为反例,从而减少了较深层次节点需要学习的文档。实验结果表明,在该文的实验条件下,基于该策略的算法使得训练效率提高了60%,而分类精度却基本上保持不变。该策略还可以用在1-vs-1之上形成1-vs-brother策略,用来减少多层分类情况下节点训练时需要对比学习的节点数目。
路斌杨建武陈晓鸥
关键词:支持向量机
半结构化文档集的结构模式提取的研究与实现被引量:12
2001年
提出了通过结构模式提取,在信息源对缺失信息进行恢复与重构的思想,给出了结构模式提取模型,并讨论了实现该模型的关键步骤与算法,最后结合基于该模型实现的系统对半结构化文档集的结构模式提取及其应用进行了总结。该研究成果已成功应用于实际系统中。
杨建武陈晓鸥
关键词:WEBINTERNET
文档聚类中k-means算法的一种改进算法被引量:62
2003年
介绍了文档聚类中基于划分的k-means算法,k-means算法适合于海量文档集的处理,但它对孤立点很敏感。为此,文章提出将聚类均值点与聚类种子相分离的思想,并具体给出了基于该思想的对k-means算法的改进算法。实验表明,该改进算法比原k-means算法具有更高的准确性和稳定性。
万小军杨建武陈晓鸥
关键词:文档聚类K-MEANS算法划分聚类算法数据库
命名实体识别:One-at-a-time or All-at-once?Word-based or Character-based?
命名实体识别是找出文本中出现的人名、地名、机构名等,由于中英文的区别,中文本身没有分好词,在识别时,一种做法是先对文本分词后,再使用机器学习的方法进行识别,本文称之为基于词的方法 (word-based);但是能不能不分...
余军陈晓鸥
关键词:CRF
电分机改造与改造电分机的计算机系统
1995年
电分机改造与改造电分机的计算机系统陈晓鸥从七十年代我国开始引进电子分色机起,电分机在我国彩色印刷业已走过了二十余年的发展历程,至今仍在我国分色制版业中占据着举足轻重的地位。更为重要和可贵的是,多年的使用,使全国各彩印厂家,积累了丰富的使用电分机的经验...
陈晓鸥
关键词:电子分色机计算机系统分色制版彩色印刷
基于XML的数据交换与存取技术研究被引量:122
2001年
可扩展置标语言XML(eXtensibleMarkupLanguage)是由W3C(WorldWideWebConsortium)组织于1998年2月制定的一种面向Internet应用的置标语言。作为对SGML(标准通用置标语言)的一种改良,XML具有良好的扩展性和自描述性、形式与内容分离、遵循严格的语法要求以及提供对多语种的支持等特点,使其成为Internet网上发布与数据交换的一门新兴技术,并有望在跨平台跨地域异构应用间的协同工作、基于语义的智能数据搜索等领域发挥重要作用。所有这些应用都又和XML的数据存取机制分不开的。基于上述种种原因,近年来,基于XML的数据交换与存取技术成为数据交换和存取领域的一项重要课题,并引起广泛关注。文章将此技术展开分析,详细探讨了XML数据存取机制,并结合关系型数据库和面向对象数据库,重点分析了XML在数据库中的存储模式和应用模式,最后对XML数据存取技术的发展趋势进行了展望。
王仲陈晓鸥
关键词:数据交换数据存取XML存储模式
共4页<1234>
聚类工具0