DUICUO

Google は、書籍『罪と罰』全体を処理できる最新の NLP モデルをオープンソース化しました。

Transformer は、近年の NLP 分野で最も人気のあるモデルの 1 つと言えるでしょう。

  • 2017 年に Google は「Attention Is All You Need」というタイトルの論文を発表し、完全に Attention メカニズムに基づいた Transformer ネットワーク フレームワークを提案しました。
  • 2018年にGoogleはTransformerをベースにしたBERTモデルをオープンソース化し、NLP分野で大ヒットとなりました。
  • 2019 年、機械学習分野における最大のトレンドの 1 つは、Transformer ベースの自然言語モデルの継続的な成長と普及でした。
  • 2020年、自然言語処理分野におけるGLUEデータセットのリーダーボードによると、NvidiaのMegatron、GoogleのXLNet、MicrosoftのMT-DNN、FacebookのRobertaなど、最高のパフォーマンスを発揮したモデルのいくつかはTransformerをベースにしていました。

最近、Google は Transformer の「アップグレード版」である Reformer をリリースしました。

[[313328]]
[画像出典: VentureBeat; 所有者: VentureBeat]

Transformerよりも効率的

人工知能や機械学習モデルにとって、言語、音楽、音声、動画など、シーケンスデータは、特に幅広いコンテキストにおいて理解が困難です。例えば、人物や物体が動画から長時間消えてから再び現れる場合、多くのアルゴリズムはその外観を忘れてしまいます。

そこでGoogleは、この問題を解決するためにTransformerという機械翻訳モデルを開発しました。Transformerは数千語まで拡張可能なアーキテクチャで、音楽作曲、画像合成、文章単位のテキスト翻訳、文書要約といったタスクのパフォーマンスを大幅に向上させます。

他のディープニューラルネットワークと同様に、Transformerの接続層にはニューロン(数学関数)が含まれており、入力データからの信号を伝達し、各接続のシナプス強度(重み)をゆっくりと調整します。これは、すべての人工知能モデルが特徴を抽出し、予測を学習する方法です。しかし、Transformerは、各出力要素が各入力要素に関連付けられていることを独自に認識し、それらの間の重みは実際には動的に計算されます。

しかし、Transformerは完璧ではありません。大規模な環境にスケールアップすると、その限界が明らかになります。大規模なウィンドウアプリケーションのメモリ容量はギガバイトからテラバイトにまで及ぶため、モデルは数行のテキスト処理や短い楽曲の生成しかできません。

これを踏まえ、GoogleはTransformerの進化形としてReformerをリリースしました。Reformerは最大100万語の環境に対応し、わずか16GBのメモリを搭載した単一のAIアクセラレータチップで動作可能です。

[画像出典:論文]

雷峰ドットコム(WeChat公式アカウント:雷峰ドットコム)は、関連論文「Reformer:The Efficient Transformer」が2020年4月にエチオピアで開催される自然言語処理のトップカンファレンスであるICLR-2020(国際学習表現会議)に採択され、現在のモデルもオープンソース化されたことを知りました。

論文によれば、Reformer には主に以下の技術が含まれています。

  • まず、可逆層はモデル全体を通じて活性化関数のコピーを 1 つだけ保存するため、N 係数は消えます。
  • 次に、活性化関数はフィードフォワード層内で分割され、セグメントで処理されて DFF 係数が排除され、フィードフォワード層のメモリが節約されます。
  • 3つ目に、局所性感知ハッシュ(LSH、主に高次元の大規模データセットにおける高速な近似値検索に使用されるハッシュアルゴリズム)を活用します。具体的には、ハッシュ関数は任意のサイズのデータ​​を固定サイズの値にマッピングします。この関数は、すべての可能なベクトルペアを検索するのではなく、類似のベクトル(つまり、機械学習において人間が判読可能なデータを表す代数的構造)をマッチングします。

例えば、翻訳タスクでは、ネットワークの第1層からの各ベクトルが単語を表し、異なる言語で同じ単語に対応するベクトルは同じハッシュ値を得ることができます。ハッシュを割り当てる際には、シーケンスを並べ替え、要素のハッシュ値に従って分類することで並列処理が可能になります。これにより、長いシーケンスの複雑さが軽減され、計算負荷が大幅に軽減されます。

Reformer は小説全体を処理できます。

Reformerが実際に単一のGPUで実行でき、長いシーケンスを高速に学習できることを確認するため、研究者らは20層のReformerモデルをenwik8とimagenet64のデータセットで学習させました。実験の結果、ReformerはTransformerと同等のパフォーマンスを達成しながらも、メモリ効率が高く、長いシーケンスタスクの学習速度が速いことが示されました。

[画像出典:論文]

さらに、研究チームはReformerベースの画像およびテキストモデルを用いて、画像に欠けている詳細情報を生成し、小説『罪と罰』(約211,591語)の全文を処理する実験を行いました。この研究では、Reformerがフルフレーム画像をピクセル単位で生成し、1回のトレーニングラウンドで小説1冊分の長さのテキストを処理できることが示されました。

Googleの科学者Łukasz Kaiser氏とカリフォルニア大学バークレー校の学生Nikita Kitaev氏はともにこの研究に貢献し、ブログ記事に次のように書いている。

  • Reformer は極めて高い効率性を備えているため、現在主流のテキストフィールドのほとんどよりもはるかに大きなコンテキストウィンドウを持つデータに直接適用できます。Reformer がこれほど大規模なデータセットを処理できることは、コミュニティによるデータセット作成の刺激となるかもしれません。

著者らは、この技術をより幅広い分野(時系列予測や音楽、画像、動画生成など)に適用し、位置エンコーディングの処理を改善する計画があると報告されている。Łukasz Kaiser氏とNikita Kitaev氏は次のように付け加えた。

Reformer は、長いテキストや自然言語処理を超えて、Transformer モデルを使用する将来のアプリケーションの基盤を築くものと考えています。

2019年後半、VentureBeatはGoogleの上級副社長であるジェフ・ディーン氏にインタビューし、次のように述べています。

  • Googleは、より多くのコンテキストモデルの構築を依然として望んでいます。BERTのようなモデルは、現在数百語は処理できますが、1万語は処理できません。そのため、これはGoogleにとって今後の大きな焦点となるでしょう。

Reformer は、この方向への有望な第一歩であると思われます。

この記事はLeifeng.comからの転載です。転載をご希望の場合は、Leifeng.com公式サイトから許可を申請してください。