YOLOv10模型改进-卷积层改进-第18篇:YOLOv10改进策略【卷积层】| ViViT视觉Transformer卷积

发布时间:2026/7/1 1:26:39
YOLOv10模型改进-卷积层改进-第18篇:YOLOv10改进策略【卷积层】| ViViT视觉Transformer卷积 一、本文介绍本文记录的是利用ViViT(Vision Transformer)的卷积改进方案改进YOLOv10的特征提取部分。ViViT将Transformer应用于图像领域,通过自注意力机制捕获全局依赖关系。二、ViViT模块介绍2.1 设计出发点传统卷积神经网络缺乏全局建模能力,ViViT通过自注意力机制实现全局特征交互。2.2 模块结构ViViT块:图像分块:将图像划分为多个patch线性投影:将每个patch映射到特征向量位置编码:添加位置信息多头自注意力:捕获全局依赖前馈网络:非线性变换三、ViViT的实现代码importtorchimporttorch.nnas