古典的なDot product Attentionは大きな空間と時間の複雑さを持ち、効果は優れているが、画像と動画の入力データ量はテキストよりも多いことが多いため、これらの古典的なAttentionは高解像度画像での応用が制限されます。本論文では、これらの問題を解決し、パフォーマンスに大幅な劣化が生じないように、新しい線形のAttentionモジュールを提案します。 この論文の主な貢献点は次の通りです: 1) 新しい線形Attention方式を提案し、計算複雑度をからまで低減します 2) このAttentionメカニズムにより、Attentionとネットワークの組み合わせがより汎用的で柔軟になります; 3) 意味分割タスクにおいて、このAttentionメカニズムを導入することで、複数のベースラインでパフォーマンスが向上しました。 1 方法論 A.ドット積注意の定義 给定一个输入的特征向量 ,其中  代表特征长度, 代表特征维度。那么 Dot-Product Attention 通过点乘变换矩阵 、 以及  分别生成 Query Matrix、Key Matrix と Value Matrix ,其公式如下: ここで、Q と K の次元は同じでなければなりません。 在此基础上,引入一个归一化函数  来度量  和  的相似度 。而 Scaled...