经典模型回顾——CNN / RNN / Attention,为什么要走到 Self-Attention?

发布时间:2026/7/5 14:20:16
经典模型回顾——CNN / RNN / Attention,为什么要走到 Self-Attention? 前置知识:第02篇的激活函数与归一化 / 第01篇的矩阵乘法引言:Transformer 不是凭空诞生的站在 2026 年回看,Transformer 似乎理所当然。但 Attention Is All You Need(2017)发表之前,NLP 的王者是 RNN/LSTM,CV 的基石是 CNN。这一篇我们追溯一下为什么要走到 Self-Attention——不是为了考古,而是为了理解注意力机制设计的必然性。你只有知道 CNN 和 RNN 的局限,才能真正理解为什么 Self-Attention 的设计是这样的。路线图:CNN(局部特征)→ RNN(序列递推)→ LSTM(门控改进) ↓ ↓ 局部特征算力高效 长期依赖仍难捕捉 ↓ ↓ ┌────────────────────┘ ↓ Self-Attention(全局 + 并行)一、CNN:卷积的本质是"局部视野"1.1 1D 卷积怎么工作用最简单的话说:卷积核在序列上滑动,每个位置计算一小段窗口内的加权和