细粒度图像分类是计算机视觉领域的一大分类任务,其难点在于如何通过类别监督信息自主地找到判别性区域.提出一种新的通道-空间融合注意力模块,基于该模块设计了一种新的Swin Transformer算法SwinT⁃NCSA(a Swin Transformer based on a novel channel⁃spatial attention module),分别从通道维和空间维同时提取特征,再将其融入到Swin Transformer模型中以提高其小尺度中多头注意力信息的提取能力.SwinT⁃NCSA算法特别关注了对分类有用的区域,同时忽视对分类无用的背景区域,以此在细粒度图像分类任务中达到较高的分类准确率.在FGVC Aircraft飞机数据集、CUB-200-2011鸟类数据集和Stanford Cars车类数据集3个公共数据集上的实验表明,SwinT⁃NCSA算法可以分别取得93.3%、88.4%和94.7%的准确率,优于同类算法.