注意力机制的本质|Self-Attention|Transformer|QKV矩阵

注意力机制的本质|Self-Attention|Transformer|QKV矩阵

Xiao_Ya__

1153人浏览 · 2024-06-02 15:51:50

Xiao_Ya__ · 2024-06-02 15:51:50 发布

Attention Is All You Need

-Ashish Vaswani

1.Self-Attention是个啥，自己注意自己？

2.Q、K、V又是什么？

3.为什么它们要叫query、key、value，它们有什么关系？

先来看一个问题，假设现在有一个键值对(Python字典)

自然地，推断其体重在43~48之间，但是还需要定量计算体重预测值。

由于57到56、58的距离一样，所以一种方法是取它们对应体重的平均值。

因为57距离56、58最近，我们自然会非常“注意”它们，所以分给它们的注意力权重各为0.5。不过没有用上其它的(Key,Value)，似乎应该调整一下注意力权重，但权重如何计算？

假设用a(q,k)来表示q与k对应的注意力权重，则体重预测值f(q)为

a是任意能刻画相关性的函微，但需要归一化，我们以高斯核（注意力分数）为例(包括softmax函数) 。

通过这种方式我们就可以求得体重估计值，这也就是注意力机制(Attention)。

所以把上面的q叫做query（请求），k叫做key（键），v叫做value(值) 。

q、k、v都为多维的情况也是类似的 ——假设现在给出的q是二维的

由于q1和k1都是二维向量

注意力分数a(q,ki)可以是以下几种

以点积模型为例

q2也是类似的，不再赘述

为了方便，用矩阵来表示

为了缓解梯度消失的问题，还会除以一个特征维度

把这一系列操作形象地称为缩放点积注意力模型（scaled dot-product attention)

4.如果Q、K、V是同一个矩阵会发生什么？

没错，那就是自注意力（Self-Attention)

用X来表示这个矩阵

则可以表示为如下式子

但在实际运用中可能会对X先做不同的线性变换再输入，比如(Transformer)模型

这可能是因为X转换空间后能更加专注注意力的学习。

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

UFW防火墙安全指南

UFW（Uncomplicated Firewall）是Ubuntu/Debian系统中简化防火墙管理的工具，通过直观命令帮助用户有效控制网络流量，提升系统安全性。文章详细介绍了UFW的基本命令，包括启停防火墙、添加规则、限制连接速率和日志配置等操作，并提供了安全最佳实践，如默认拒绝策略、IP地址限制和服务级规则管理。同时，还涵盖高级配置技巧，例如多网络接口设置、规则优先级调整、IPv6支持及与f

Java转AI大模型一文彻底搞懂大模型RAG

6年Java程序员，因公司做AI，所以转行AI大模型开发，刚学完RAG的基本概念和基本用法，给大家分享一下，让大家少走弯路

cover

API文档详解：结构、格式与最佳实践全解析

所有评论(0)

查看更多评论

Xiao_Ya__

已为社区贡献18条内容