Transformer 模型
什么是 Transformer 模型?

Transformer 模型是一种神经网络架构,专用于处理文本等序列数据,但也可应用于其他类型的数据。不同于 RNN 等以往的模型,Transformer 可以同时处理整个序列,因此更快速、更高效。在生成式 AI 领域,Transformer 彻底改变了文本生成、翻译和摘要等任务。

办公室中,戴着眼镜、面带微笑、正在使用电脑处理工作的男性 IT 程序员肖像。
  • Transformer 与 RNN 对比
  • Transformer 模型的工作原理是什么?
  • Transformer 模型的工作原理是什么?- 第二部分
  • 与 HPE 合作
Transformer 与 RNN 对比

Transformer 和 RNN 的区别是什么?

Transformer 和循环神经网络 (RNN) 之间的主要区别在于它们的架构、数据处理机制以及处理序列数据长期依赖的效果。

1. 顺序处理与并行处理

RNN:逐元素处理输入序列,利用上一步的输出为下一步提供信息。这使得 RNN 本质上是顺序执行的,这意味着它们不能轻易执行计算并行化。

Transformer:使用一种称为自注意力的机制,该机制使它们能够一次查看整个序列。Transformer 因此能够并行处理序列的不同部分,这大大缩短了训练时间,尤其是对于长序列。

2. 处理长距离依赖

RNN:由于梯度消失/爆炸问题而难以解决长距离依赖。序列中的较早信息随时间传播时可能会逐渐消失,这使得 RNN 难以在长序列中保留重要的上下文信息。

Transformer:使用自注意力机制同时计算序列中所有单词之间的关系,能够更有效地对长距离依赖关系进行建模。注意力机制直接将相距遥远的单词联系起来,无需逐步处理。

3. 架构

RNN:该架构是循环的,意味着网络具有可以维持“隐藏状态”的循环结构,该状态将携带来自先前时间步长的信息。为了解决传统 RNN 问题,人们开发了 LSTM(长短期记忆网络)和 GRU(门控循环神经元)等变体,但其顺序性的本质仍然不变。

Transformer:由多头自注意力和前馈神经网络层组成,没有任何循环结构。没有隐藏状态从一个时间步长传递到下一时间步长这种概念,因为自注意力机制允许序列中的任意两个位置直接连接。

4. 训练效率

RNN:由于 RNN 按顺序处理数据,因此训练速度通常较慢。执行并行处理比较困难,因为每个时间步长都依赖于前一时间步长。

Transformer:由于具有并行处理能力,Transformer 可以更有效地进行训练,尤其是使用 GPU 和 TPU 等现代硬件时。它们能够以更高的计算效率处理大型数据集和长序列。

5. 记忆与计算复杂性

RNN:每次处理一个时间步长,因此对内存的要求较低。然而,其顺序性限制了它们有效处理长序列的能力。

Transformer:需要更多内存,尤其是在训练期间,因为它们存储所有标记对之间的注意力权重。注意力机制使它们的计算复杂度随序列长度呈二次方增长。

6. 用例

RNN:传统上用于语音识别、语言建模和时间序列预测等任务。LSTM 和 GRU 通常用于需要记忆长序列的任务。

Transformer:在自然语言处理 (NLP)、机器翻译、文本生成等许多任务中占据主导地位。BERT、GPT 和 T5 等模型均基于 Transformer 架构,该架构为多种多样的 NLP 任务设定了新的性能基准。

Transformer 模型的工作原理是什么?
Transformer 模型的工作模式如何。
Transformer 模型的工作模式如何。
点击图像以放大

Transformer 模型的工作原理是什么?

Transformer 结合使用了自注意力机制、位置编码和前馈网络。这种架构使它们能够有效地处理顺序数据并捕获输入的不同部分之间的长距离依赖关系。以下是对 Transformer 工作原理的详细解读:

1. 输入嵌入和位置编码

输入嵌入:在 Transformer 中,输入(例如句子中的一序列单词)首先被转换为嵌入向量,它们是大小固定的密集向量。这些嵌入向量表示标记(单词或子单词)的语义含义。

位置编码:由于 Transformer 架构没有捕获序列顺序的内置机制(与 RNN 不同),因此将位置编码添加到输入嵌入中。这些编码中注入了序列中各个标记位置的信息,它们通常是正弦函数或随着位置变化的学习嵌入。

这使得模型能够理解标记的相对和绝对位置。

2. 自注意力机制

自注意力机制是 Transformer 的核心组件,它允许模型权衡输入序列中每个标记相对于其他标记的重要性。对于每个标记,自注意力会确定它应该关注哪些其他标记。

Transformer 模型的工作原理是什么?- 第二部分
Transformer 模型的工作原理第二示意图。
Transformer 模型的工作原理第二示意图。
点击图像以放大

Transformer 模型的工作原理是什么?

自注意力机制的工作原理:

1. 输入变换:对于输入序列中的每个标记,模型会计算三个向量:查询 (Q)、键 (K) 和值 (V),它们均来自标记嵌入。这些向量是通过线性变换学习得到的。

  • 查询 (Q):确定对其他标记的关注程度。
  • 关键 (K):表示要关注的其他标记的内容。
  • 价值 (V):包含要提取或通过注意力机制传递的信息。

2. 注意力分数:标记之间的注意力分数是通过计算一个标记的查询向量与另一个标记的键向量的点积得到的。这衡量了一个标记与另一个标记之间的相关度或注意力程度。

为了稳定梯度,这些分数会根据键向量 dkd_kdk 维度的平方根进行缩放。

3. 加权和:注意力分数通过 softmax 函数传递,同时将它们转换为总和为 1 的概率。这些分数用于加权价值向量,得出一个加权和,其反映了每个标记相对于其他标记的重要性。

多头注意力机制:

Transformer 采用多头注意力机制,而不是单一的自注意力机制。它会创建多组 Query、Key 和 Value 向量(每组都是一个注意力头),每个头关注输入的不同方面。多头注意力的结果被拼接起来,并通过一个线性层传递。

这使得模型可以同时捕获标记之间不同类型的关系。

3. 前馈神经网络

经过自注意力机制处理后,每个标记的表示都会通过一个前馈神经网络 (FFN) 传递。这通常是一个具有 ReLU 激活函数的两层神经网络。FFN 独立应用于每个位置,并且所有位置都共享同一组权重。

Arduino

复制代码

\[

\text{FFN}(x) = \text{ReLU}(xW_1 + b_1)W_2 + b_2

\]

FFN 允许进一步变换标记表示并引入非线性,以提高模型的表现力。

4. 残差连接和层归一化

为了稳定训练并帮助梯度流动,在自注意力层和前馈层周围都使用了残差连接(也称为跳跃连接)。这意味着每个子层的输入都会添加到该子层的输出中,然后再传递给下一个子层。

每个残差连接之后都跟着层归一化,层归一化会对输出进行标准化,以减少内部协变量偏移并提高训练的稳定性。

5. 编码器和解码器架构

原始的 Transformer 架构包含两个主要组件:编码器 (Encoder) 和解码器 (Decoder)。然而,有些模型(如 BERT)仅使用编码器,而其他模型(如 GPT)仅使用解码器。

编码器:

编码器由多个完全相同的层组成,通常为 6-12 个。每层都包含两个主要组成部分:

  • 多头自注意力
  • 前馈神经网络

编码器接收输入序列并通过每一层对其进行处理,生成一个输出,该输出使用来自序列中其他标记的上下文信息对输入标记进行编码。

解码器:

解码器也由多个完全相同的层组成,并带有附加机制:

掩码多头自注意力:防止标记关注序列中的未来标记,这对于文本生成等自回归任务非常重要。

解码器还包括交叉注意力层,这些层将编码器的输出作为额外输入来指导生成流程。

6. 输出(对于语言模型)

对于语言建模或机器翻译等任务,解码器会逐个标记地生成输出序列。在最后一层,解码器的输出通过 softmax 函数传递,以生成涵盖词汇表的概率,从而使模型能够预测下一个标记或生成翻译。

7. 训练目标

掩码语言建模 (MLM):用于 BERT 等模型,会遮蔽输入序列中的随机标记,然后训练模型来预测它们。

因果语言建模 (CLM):用于 GPT 等模型,模型根据前一个标记来预测序列中的下一个标记。

Seq2Seq 目标:用于机器翻译等任务,模型会学习将输入序列映射到输出序列(例如,将句子从英语翻译成法语)。

与 HPE 合作

与 HPE 合作

HPE 提供了有助于创建、实施和运行多模态模型的产品和服务。

HPE Cray XD670

借助 HPE Cray XD670 提升 AI 性能。详细了解如何通过超级计算为您的企业训练 LLM、NLP 或多模态模型。

HPE 生成式 AI 实施服务

HPE 机器学习开发软件

Transformer 和 RNN 的区别是什么?

功能
RNN(包括 LSTM、GRU)
Transformer

处理方法

顺序

并行

处理长序列

难以处理长距离依赖

因自注意力表现突出

架构

循环、隐藏的状态

多头自注意力

训练效率

速度慢,难以并行化

速度更快,高度可并行

内存效率

内存要求较低

内存使用量高

常见应用

时间序列、早期 NLP 任务

NLP、翻译、文本生成等

Transformer 组件总结:

组件
描述

输入嵌入

将标记转换为固定大小的向量。

位置编码

添加标记在序列中位置的信息。

自注意力

计算所有标记之间的注意力分数以捕获依赖关系。

多头注意力机制

使用多个注意力头来捕捉不同的关系

前馈神经网络

将非线性变换应用于标记表示。

残差连接

有助于稳定训练并改善梯度流。

编码器

处理输入序列并生成上下文表示。

不同类型的 Transformer:

Transformer 有哪些不同类型?

这些 Transformer 模型被广泛应用于各个行业的商业应用,包括客户服务、内容生成、翻译、虚拟助手、推荐系统等。

模型类型
知名模型
主要功能

应用

基于编码器

BERT、RoBERTa、XLNet、ELECTRA

专注于理解文本(分类、NER 等)

需要理解文本的 NLP 任务

基于解码器

GPT (1, 2, 3, 4)、CTRL、OPT

已针对生成式任务(文本生成、对话)进行优化

文本生成、对话式 AI

编码器-解码器

T5、BART、mT5、Pegasus

结合理解和生成(机器翻译、摘要)

总结、翻译、回答问题

多模态

CLIP、DALL·E、FLAVA

处理多种数据类型(文本 + 图像)

图像生成、视觉文本任务

HPE Machine Learning Development Environment Software

为全球各团队提供支持,帮助他们安全、高效地开发、训练和优化 AI 模型。

相关主题

深度学习

AI 超级计算