公共文化服务平台

一种安全验证模式下Deep Web爬虫的研究: 2010年; Deep Web信息大约是Surface Web信息的400到500倍,这些信息对传统搜索引擎不可见。Deep Web爬虫的研究,是搜索引擎获得Deep Web信息的重要步骤,仍处于研究的早期阶段。目前对于爬虫的研究,主要成果集中在Surface Web,而很少有对Deep Web爬虫的研究。分析Deep Web的访问模式,并在此基础上提出一种安全验证模式下Deep Web爬虫的算法。试验表明:该算法可以有效实现特定安全验证模式下的Deep Web信息的抓取。; 徐和祥张永忠胡运发; 关键词：DEEP WEB 爬虫信息抽取

基于元数据语义模型的数字资源Top-N检索被引量：4: 2010年; 提出一种以元数据为语义基础的用户查询模型用于数字资源的检索。通过改进传统关系库中的Top-N算法,以不同数据类型和元数据为语义基础,给出一种基于语义的相似度度量新方法。在此基础上开发一套智能检索系统,并将其用于上海教育资源库。应用结果表明,该系统可有效提高信息检索的准确度。; 徐和祥张世明; 关键词：元数据信息检索

kNN文本分类器类偏斜问题的一种处理对策被引量：36: 2009年; 类偏斜问题(class i mbalance problem)是数据挖掘领域的常见问题之一,人们提出了各种策略来处理这个问题.当训练样本存在类偏斜问题时,kNN分类器会将小类中的样本错分到大类,导致分类的宏F1指标下降.针对kNN存在的这个缺陷,提出了文本训练集的临界点(critical point,CP)的概念并对其性质进行了探讨,给出了求CP,CP的下近似值LA、上近似值UA的算法.之后,根据LA或UA及训练样本数对传统的kNN决策函数进行修改,这就是自适应的加权kNN文本分类.为了验证自适应的加权kNN文本分类的有效性,设计了2组实验进行对比:一组为不同的收缩因子间进行对比,可看做是与Tan的工作进行对比,同时用来证实在LA或UA上分类器的宏F1较好;另一组则是与随机重取样进行实验对比,其中,传统kNN方法作为对比的基线.实验表明,所提的自适应加权kNN文本分类优于随机重取样,使得宏F1指标明显上升.该方法有点类似于代价相关学习.; 郝秀兰陶晓鹏徐和祥胡运发; 关键词：文本分类 KNN

一种基于小波变换的鲁棒彩色图像水印算法(英文)被引量：1: 2008年; 随着网络化多媒体技术的迅速发展,安全的数据通信与传输需求日益增加,如卫星遥感、医疗图像、远程监控等领域都迫切需要安全的通信与传输.而数据完整性不能完全解决数据传输过程中的安全性问题,数字水印技术是一种解决该问题的方案,基于小波变换,提出了一种鲁棒的彩色数字水印算法.算法以一随机实值序列为水印,首先对彩色图像G分量进行三层小波变换,然后将水印嵌入到G分量的低频子带中.通过阈值选择比较水印嵌入前后G分量低频子带系数以提取水印.实验结果表明提出算法能抵抗多种不同类型攻击,如椒盐噪声、剪切、尺度、JPEG压缩、中值滤波、复制/粘贴等.; Nur Mohammad孙星明杨恒伏; 关键词：数字水印彩色图像小波变换

基于关联数字水印的无线传感器网络数据完整性保护: 以数据为中心的无线传感器网络越来越多地受到人们的关注,如何保证传感器数据的完整性成为一个重要的研究课题.提出一种基于关联数字水印的数据完整性保护方案.通过利用传感器源节点上感知数据之间的关联关系,计算缓冲域中数据之间的组...; 曹远福孙星明王保卫邓慧娟; 关键词：无线传感器网络完整性数字水印; 文献传递

针对同义词替换信息隐藏的检测方法研究被引量：10: 2008年; 基于同义词替换的文本信息隐藏方法,可以通过对载体中的同义词进行有选择的替换来嵌入隐藏信息.通过分析,发现这种方法嵌入隐藏信息后会导致载体文本中同义词结对概率的明显增加.基于此,提出了一种通过分析文本中同义词结对值来进行隐藏信息检测的算法.实验表明,该检测算法漏警率约为4%,虚警率约为9.8%,证明该检测算法可以有效地检测基于同义词替换的文本信息隐藏方法隐藏的信息.; 罗纲孙星明向凌云刘玉玲甘灿; 关键词：信息隐藏隐写分析同义词替换文本

基于特征选择及Condensing技术的文本取样被引量：1: 2009年; 作为一种基于实例的方法,k-近邻(kNN)分类器有大量的计算及存储需求.同时,训练数据分布的不均衡,也会导致kNN分类器的性能下降.针对这些缺陷,文中提出特征选择与Condensing技术相结合的取样方法,以达到下述目的.在减少kNN分类的计算量及存储量的同时,保证分类器的性能.首先由传统的特征选择方法产生训练集里每类训练数据的特征.再根据文档自身的类特征,结合Condensing策略移去多余的训练实例.大量实验表明,用该方法所取得的样本作为训练集,不仅极大减少kNN方法的时空开销,而且降低噪声,提高分类器性能.; 郝秀兰陶晓鹏王述云徐和祥胡运发; 关键词：文本分类

基于移位变换的句子层自然语言信息隐藏算法被引量：2: 2009年; 针对现有的句子层自然语言信息隐藏方法存在的问题,提出一种基于句子层移位变换规则的中文自然语言信息隐藏算法.首先利用汉字数学表达式对中文文本信号数字化;然后通过句子的移位变换改变句子词序以嵌入秘密信息.实验结果和分析表明,该算法实现简单、编码容量较大,同时秘密信息隐藏在自然语言文本句子层词序变换中,不改变文本语法、语义和风格,具有较好的隐蔽性.; 刘玉玲孙星明辛国江; 关键词：信息隐藏自然语言

篇章层自然语言数字水印方法: 2010年; 通过引入扩展频谱技术对水印信息进行编码,提出一种篇章层的自然语言数字水印方法。抽取文本中所有命名实体构成一个向量空间,根据密钥选择一个子空间用于嵌入信息,通过指代消解技术修改子空间内命名实体的个数实现信息嵌入。通过比较最终提取的信息向量与原始水印信息所生成的向量判断是否嵌入了水印信息。实验结果表明该算法具有较好的鲁棒性,能抵抗一些常见的主动攻击。; 刘玉玲辛国江; 关键词：数字水印扩展频谱指代消解

基于匹配区域特征的相似字符串匹配过滤算法被引量：10: 2010年; 相似字符串匹配过滤算法因其适合大库查找而被广泛应用,为通过提高过滤算法的过滤效率加快匹配速度,提出一种基于匹配区域特征的过滤算法.该算法将模式串和文本串分割成固定长度为kq+1的逻辑块,并从各块中提取了2个新的匹配区域特征:q-gram命中的均匀性和q-gram有效命中的区域性.新算法利用这些新特征优化了传统过滤标准,提高了算法的过滤效率;并改进了QUASAR中基于分块策略的过滤区确定方案.实验结果表明,新算法与改进前相比有效地加快了匹配速度,尤其在误差率较小时改进效果更佳.; 孙德才孙星明张伟刘玉玲

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

国家自然科学基金(60736016)