一种基于XML的PDF文档信息抽取系统的方法 本发明公开了一种基于XML的PDF文档信息抽取系统的方法,它是一种信息转化的方法,属于信息技术类,其步骤为:(1)DTD的设计,分析并选择出外部信息元数据和内部信息元数据;(2)实现对PDF文档的语义信息的抽取,先将提取... 张文德 宋艳娟 杨传耀 朱丹红 陈俊林文献传递 一种PDF文档到XML文档转换的方法 本发明公开了一种PDF文档到XML文档转换的方法,(一)中间文档生成模块(7):针对PDF样本文档(2)的内容,根据语义项和文本块之间的映射关系,系统自动生成标记语义项和信息块特征的中间XML文档(3);(二)规则生成模... 张文德 宋艳娟 陈振标 杨传耀 陈俊林 朱丹红文献传递 用TSVM对小样本集进行分类技术研究 随着网络信息的迅猛发展,信息处理已经成为人们获取有用信息不可缺少的工具,文本自动分类系统是信息处理的重要研究方向.本文介绍了当今世界上较先进的'变换支持向量机'(TSVM,transductive support vec... 杨传耀 张文德关键词:文本分类 TSVM 网络信息处理 文献传递 一种PDF文档到XML文档转换的方法 本发明公开了一种PDF文档到XML文档转换的方法,(一)中间文档生成模块(7):针对PDF样本文档(2)的内容,根据语义项和文本块之间的映射关系,系统自动生成标记语义项和信息块特征的中间XML文档(3);(二)规则生成模... 张文德 宋艳娟 陈振标 杨传耀 陈俊林 朱丹红文献传递 数字图书馆及其分类技术的研究 随着计算机和因特网的快速发展,网上信息的类型越来越丰富,可利用的资源也越来越丰富.因此迫切需要一种系统技术来管理数字信息资源,数字图书馆就是顺应这种需要而产生的.数字图书馆是一个新兴的,涉及到因特网、多媒体、数据仓库、数... 杨传耀关键词:数字图书馆 元数据 SVM 文献传递 对小样本集进行分类技术研究 被引量:3 2004年 随着网络信息的迅猛发展,信息处理已经成为人们获取有用信息不可缺少的工具,文本自动分类系统是信息处理的重要研究方向.本文介绍了当今世界上较先进的"变换支持向量机"(TSVM,transductive support vectormachines)技术,它与普通的"支持向量机"(SVM)相比,TSVM方法所需的样本量大大降低,它能有效地对小样本数据集进行分类,同时重点分析了实现它的关键技术、算法及其实现过程. 杨传耀 张文德关键词:信息处理 文本自动分类系统 TSVM