|
- transformer 与 MLP 的区别是什么 ? - 知乎
个人认为Transformer、MLP、CNN、RNN的本质区别在于特征的交互方式不一样。MLP是通过全连接的方式让全局特征交互,CNN是通过卷积的方式让局部特征交互,RNN是通过隐藏状态的方式让半全局(指方向性)特征有记忆地交互,Transformer是通过attention的方式让全局特征有注意力地交互,因此,transformer这种
- transformer 与 MLP 的区别是什么 ? - 知乎
特征交互方式相似,但特征交互时的权重不一样。 做特征交互时,MLP和Transformer都可以全局建模(每一个输入单元都和每一个输出单元有交互),所以它们即能交互全局特征(low level feature)(在开始那几层),又能交互全局特征的组合(high level feature)(在后面层时)。
- 深度学习中有什么非常惊艳或者轻量级的Attention操作? - 知乎
reforemer中的local sensitive hash attention 直接将word进行hash近固定的范围,然后在hash值中进行attention,极大降低了时间复杂度,让bert也可以进行长文本处理。longformer的local attention 简单又直接,不对全部文本做attention直接对部分内容进行
- 如何评价清华提出的使用两个线性层的外部注意力External . . .
可以看出,这个方法(external attention(EA))确实解决了上面所说的两个问题,第一,他的时间复杂和输入呈线性相关;第二,由于他的视线使用MLP,所以数据集的所有样本都是参数共享的,就不存在只是捕获同一个样本的位置关系,另外稳重的Key Memory是从整个数据集中提取出来的,所以在做attention
- 如何理解现有的各种序列并行技术,Ulysses, Megatron-LM . . .
Megatron Tensor Parallelism对Transformers结构中的Self Attention和MLP(Linear)模块进行张量并行,从而可以这两个模块的权重和计算都平均地分摊到P个GPU上。 对MLP和Attention采用的张量并行策略,具体如下:
- CNN,Transformer,MLP 三大架构的特点是什么? - 知乎
MLP的特点: MLP是一种基本的前馈神经网络,由多个全连接层组成。每个神经元都与前一层的所有神经元连接,具有较强的表达能力和泛化能力。MLP在深度学习中的应用非常广泛,尤其是在分类和回归问题上表现出色。
- SwinTransformer原理源码解读
但是在节省计算的同时,也带来了2个问题,第一个就是只能attention到局部的信息,不能attention到更全局的信息, 第二个是在窗口之间相互独立,而图像的信息是连续的,这样建模势必会降低模型效果(用作者的话就是compute self-attention within local
- 如何评价Google最新提出的gMLP:MLP模型在CV和NLP . . .
摘要的attention-free把我逗笑了,这加的spatial gating unit不是attention是什么? 怎么重新起了个名字就不是attention了 编辑于 2021-05-18 13:45
|
|
|