国家自然科学基金(60736016) 作品数:15 被引量:87 H指数:5 相关作者: 孙星明 胡运发 刘玉玲 郝秀兰 陶晓鹏 更多>> 相关机构: 湖南大学 复旦大学 湖南网络工程职业学院 更多>> 发文基金: 国家自然科学基金 国家重点基础研究发展计划 国家教育部博士点基金 更多>> 相关领域: 自动化与计算机技术 更多>>
一种安全验证模式下Deep Web爬虫的研究 2010年 Deep Web信息大约是Surface Web信息的400到500倍,这些信息对传统搜索引擎不可见。Deep Web爬虫的研究,是搜索引擎获得Deep Web信息的重要步骤,仍处于研究的早期阶段。目前对于爬虫的研究,主要成果集中在Surface Web,而很少有对Deep Web爬虫的研究。分析Deep Web的访问模式,并在此基础上提出一种安全验证模式下Deep Web爬虫的算法。试验表明:该算法可以有效实现特定安全验证模式下的Deep Web信息的抓取。 徐和祥 张永忠 胡运发关键词:DEEP WEB 爬虫 信息抽取 基于元数据语义模型的数字资源Top-N检索 被引量:4 2010年 提出一种以元数据为语义基础的用户查询模型用于数字资源的检索。通过改进传统关系库中的Top-N算法,以不同数据类型和元数据为语义基础,给出一种基于语义的相似度度量新方法。在此基础上开发一套智能检索系统,并将其用于上海教育资源库。应用结果表明,该系统可有效提高信息检索的准确度。 徐和祥 张世明关键词:元数据 信息检索 kNN文本分类器类偏斜问题的一种处理对策 被引量:36 2009年 类偏斜问题(class i mbalance problem)是数据挖掘领域的常见问题之一,人们提出了各种策略来处理这个问题.当训练样本存在类偏斜问题时,kNN分类器会将小类中的样本错分到大类,导致分类的宏F1指标下降.针对kNN存在的这个缺陷,提出了文本训练集的临界点(critical point,CP)的概念并对其性质进行了探讨,给出了求CP,CP的下近似值LA、上近似值UA的算法.之后,根据LA或UA及训练样本数对传统的kNN决策函数进行修改,这就是自适应的加权kNN文本分类.为了验证自适应的加权kNN文本分类的有效性,设计了2组实验进行对比:一组为不同的收缩因子间进行对比,可看做是与Tan的工作进行对比,同时用来证实在LA或UA上分类器的宏F1较好;另一组则是与随机重取样进行实验对比,其中,传统kNN方法作为对比的基线.实验表明,所提的自适应加权kNN文本分类优于随机重取样,使得宏F1指标明显上升.该方法有点类似于代价相关学习. 郝秀兰 陶晓鹏 徐和祥 胡运发关键词:文本分类 KNN 一种基于小波变换的鲁棒彩色图像水印算法(英文) 被引量:1 2008年 随着网络化多媒体技术的迅速发展,安全的数据通信与传输需求日益增加,如卫星遥感、医疗图像、远程监控等领域都迫切需要安全的通信与传输.而数据完整性不能完全解决数据传输过程中的安全性问题,数字水印技术是一种解决该问题的方案,基于小波变换,提出了一种鲁棒的彩色数字水印算法.算法以一随机实值序列为水印,首先对彩色图像G分量进行三层小波变换,然后将水印嵌入到G分量的低频子带中.通过阈值选择比较水印嵌入前后G分量低频子带系数以提取水印.实验结果表明提出算法能抵抗多种不同类型攻击,如椒盐噪声、剪切、尺度、JPEG压缩、中值滤波、复制/粘贴等. Nur Mohammad 孙星明 杨恒伏关键词:数字水印 彩色图像 小波变换 基于关联数字水印的无线传感器网络数据完整性保护 以数据为中心的无线传感器网络越来越多地受到人们的关注,如何保证传感器数据的完整性成为一个重要的研究课题.提出一种基于关联数字水印的数据完整性保护方案.通过利用传感器源节点上感知数据之间的关联关系,计算缓冲域中数据之间的组... 曹远福 孙星明 王保卫 邓慧娟关键词:无线传感器网络 完整性 数字水印 文献传递 基于特征选择及Condensing技术的文本取样 被引量:1 2009年 作为一种基于实例的方法,k-近邻(kNN)分类器有大量的计算及存储需求.同时,训练数据分布的不均衡,也会导致kNN分类器的性能下降.针对这些缺陷,文中提出特征选择与Condensing技术相结合的取样方法,以达到下述目的.在减少kNN分类的计算量及存储量的同时,保证分类器的性能.首先由传统的特征选择方法产生训练集里每类训练数据的特征.再根据文档自身的类特征,结合Condensing策略移去多余的训练实例.大量实验表明,用该方法所取得的样本作为训练集,不仅极大减少kNN方法的时空开销,而且降低噪声,提高分类器性能. 郝秀兰 陶晓鹏 王述云 徐和祥 胡运发关键词:文本分类 基于移位变换的句子层自然语言信息隐藏算法 被引量:2 2009年 针对现有的句子层自然语言信息隐藏方法存在的问题,提出一种基于句子层移位变换规则的中文自然语言信息隐藏算法.首先利用汉字数学表达式对中文文本信号数字化;然后通过句子的移位变换改变句子词序以嵌入秘密信息.实验结果和分析表明,该算法实现简单、编码容量较大,同时秘密信息隐藏在自然语言文本句子层词序变换中,不改变文本语法、语义和风格,具有较好的隐蔽性. 刘玉玲 孙星明 辛国江关键词:信息隐藏 自然语言 篇章层自然语言数字水印方法 2010年 通过引入扩展频谱技术对水印信息进行编码,提出一种篇章层的自然语言数字水印方法。抽取文本中所有命名实体构成一个向量空间,根据密钥选择一个子空间用于嵌入信息,通过指代消解技术修改子空间内命名实体的个数实现信息嵌入。通过比较最终提取的信息向量与原始水印信息所生成的向量判断是否嵌入了水印信息。实验结果表明该算法具有较好的鲁棒性,能抵抗一些常见的主动攻击。 刘玉玲 辛国江关键词:数字水印 扩展频谱 指代消解 基于匹配区域特征的相似字符串匹配过滤算法 被引量:10 2010年 相似字符串匹配过滤算法因其适合大库查找而被广泛应用,为通过提高过滤算法的过滤效率加快匹配速度,提出一种基于匹配区域特征的过滤算法.该算法将模式串和文本串分割成固定长度为kq+1的逻辑块,并从各块中提取了2个新的匹配区域特征:q-gram命中的均匀性和q-gram有效命中的区域性.新算法利用这些新特征优化了传统过滤标准,提高了算法的过滤效率;并改进了QUASAR中基于分块策略的过滤区确定方案.实验结果表明,新算法与改进前相比有效地加快了匹配速度,尤其在误差率较小时改进效果更佳. 孙德才 孙星明 张伟 刘玉玲半监督的文本分类——两阶段协同学习 被引量:1 2009年 传统的分类器仅使用有标签的数据进行训练,然而,有标签的实例通常因昂贵、耗时而难以获得,从而造成标注瓶颈问题.半监督学习通过大量的无标签数据与有标签数据相结合来创建性能良好的分类器,从而解决标注瓶颈问题.由于半监督的学习需要较少的人工介入,而精确率又较高,因此无论在理论上还是实践上都具有意义.本文在对已有的半监督学习算法进行研究的基础上,针对有标签数据相当少时,无法使用统计方法进行标注置信度评价的情况,提出了基于kNN和SVM的二阶段协同学习,实验证实该方法是有效的. 郝秀兰 胡运发关键词:半监督学习 文本分类 KNN SVM