为什么我还是无法理解transformer?

2025-06-25 04:55:14

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。

反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。

总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。

为什么我还是无法理解transformer?
广告位810*200
相关阅读
Visual Studio 是不是坑了一代人?为什么?

Visual Studio 是不是坑了一代人?为什么?

我认为正相反,它启发了一代人,让大家知道,可以有ide这么个...

2025-06-28
家里闲置一台电脑主机,怎么配置成服务器?

家里闲置一台电脑主机,怎么配置成服务器?

提示:本篇文章2756字符,阅读大约需要7分钟。 写在前面在...

2025-06-28
什么是你去了台湾才知道的事?

什么是你去了台湾才知道的事?

我去过台湾三次,最大的感受是,本来以为两岸同根同源都说普通话...

2025-06-28
冬天也要穿胸罩吗?

冬天也要穿胸罩吗?

坦白局…你们的冬天真的都不穿内衣啊?是这样的,今天不小心碰到...

2025-06-28
原神什么时候适配鸿蒙?

原神什么时候适配鸿蒙?

拖到了现在,终于开始测试了。 之前问过,一直听说原神在等a...

2025-06-28