|
タンパク質構造は、タンパク質の機能を直接決定するため、配列よりも多くの情報を提供すると考えられることが多い。AlphaFold2による画期的な進歩により、研究用に多数の予測構造が公開されている。これらのタンパク質構造を、強力かつ汎用的な表現モデルを訓練するためにどのように活用するかは、価値ある研究方向である。 ウェストレイク大学の研究者たちは、Foldseekを用いてタンパク質構造を処理し、それを1次元の離散トークンにエンコードし、従来のアミノ酸配列と組み合わせて構造を考慮した語彙を構築しました。これにより、構造情報がモデルの入力に埋め込まれ、モデルの表現能力が向上しました。 本論文では、事前学習として、現在利用可能な最大数のタンパク質構造(アイデンティティフィルタリング後4,000万)を使用し、64個のA100グラフで3ヶ月間学習させ、最終的に6億5,000万個のパラメータ(3,500万バージョンを含む)を持つSaProtモデルをオープンソース化しました。実験結果では、SaProtが様々なタンパク質タスクにおいて、従来の配列モデルおよび構造モデルよりも優れた性能を示すことが示されています。 研究「SaProt: 構造を考慮した語彙によるタンパク質言語モデリング」のプレプリント版は、2024 年 3 月 21 日に bioRxiv プレプリント プラットフォームで公開されました。 論文リンク: https://www.biorxiv.org/content/10.1101/2023.10.01.560349v4 GitHub リンク: https://github.com/westlake-repl/SaProt 方法本論文では、Foldseekを用いてタンパク質をエンコードし、1次元の3Di構造配列を生成します(Foldseekの構造語彙を用い、各3Diトークンは異なる局所構造を表します)。これらの構造配列は、アミノ酸配列と同じ長さです。 そのため、本論文では、シンプルでありながら効果的な構造埋め込み手法を採用しています。これは、構造語彙とアミノ酸語彙の直積(ペアワイズ結合)を計算し、新しい構造認識語彙を構築する手法です。これにより、タンパク質の各部位において、そのアミノ酸の種類と対応する局所構造を新しい語彙の要素として統合することができ、モデルはタンパク質の配列情報と構造情報の両方を同時に考慮できるようになります。 この論文では、マスク言語モデルの事前トレーニングに Bert アーキテクチャを使用しています (トレーニングの詳細については、元の論文を参照してください)。 画像: 構造を考慮した語彙 実験方法の比較おそらく疑問となるのは、なぜこのエンコーディング構造が必要なのかということです。この論文では、異なるエンコーディング構造を用いた事前トレーニングの結果が示されています。 図: 異なるモデル構造を訓練するための損失曲線 左と右の図は、2 つの古典的なタンパク質構造モデリング手法を示しています。1 つは構造情報をバイアスにエンコードしてトランスフォーマーの注意マップに追加する手法 (Evoformer、Uni-Mol など)、もう 1 つはグラフ ニューラル ネットワークを使用してタンパク質の空間関係をモデル化する手法 (MIF、GearNet など) です。 ただし、損失グラフは、2 つのモデリング手法が MLM のトレーニング目標を使用して AF2 構造で事前トレーニングされると、モデルが非常に急速に過剰適合することを示しています (AF2 予測構造では予測損失が非常に低くなりますが、PDB の実際の構造では損失が停滞するか、さらには増加します)。 著者らは、AF2によって予測されたタンパク質構造に隠れたパターンが含まれているためだと推測しています。最初の2つの手法はタンパク質の3次元座標を直接モデル化するため、これらの隠れたパターンはモデルによって容易に認識され、情報漏洩を引き起こす可能性があります。これにより、モデルはタンパク質の進化情報を実際に学習することなく、容易に訓練目標を達成できます。 構造を考慮した語彙は、タンパク質構造を1次元構造配列にエンコードし、微細な座標値を無視しながら構造パターンを可能な限り保存します。そのため、モデルは隠れたパターンの影響を受けることなく、構造情報を効果的に活用できます。 ゼロショットテスト著者らは、タンパク質変異データセット (ProteinGym) と実際の人間の臨床疾患データセット (ClinVar) で SaProt のゼロショット機能をテストし、次のような結果を得ました。 図: ゼロショット実験結果 SaProt は両方のデータセットにおいてこれまでのすべての構造モデルと配列モデルを上回り、ゼロショットで変異を予測する優れた能力を実証しました。 教師あり微調整テストこの論文では、モデルのパフォーマンスをテストするためのさまざまな下流タスクについても取り上げており、その結果は次のとおりです。 図: 下流タスクの微調整結果 SaProt は、さまざまな下流タスクにわたって以前の配列および構造モデルよりも優れており、強力で多用途な表現機能を実証しています。 構造情報テスト4,000万個のタンパク質構造を学習したSaProtは、強力な表現能力を獲得しました。考えられる疑問の一つは、SaProtが単に学習によって性能が向上したのではなく、より多くの構造情報を学習したかどうかをどのようにして判断するかということです。 本論文では、SaProtとESM-2を残留物接触予測タスクでテストしています。著者らはモデルのバックボーンを固定し、単一の線形分類層のみを学習させました。実験結果は以下の通りです。 図: 接触予測タスクの結果 結果は、SaProtが構造トークンの埋め込みによりESM-2を大幅に上回る性能を示したことを示しています。これは、SaProtが非常に豊富な構造情報を有し、構造予測タスクにおいて優れた結果を達成できることを示しています。さらに、本論文では、以下に示すように、SCOPeデータベース上でαタンパク質とβタンパク質を視覚化しています。 図: SCOPeデータベースへの視覚化の埋め込み SaProt の視覚化ではアルファ タンパク質とベータ タンパク質が明確に区別されていますが、ESM-2 の視覚化では 2 つのタンパク質が混合されており、SaProt が構造変化を検出する強力な能力を持っていることが示されています。 さまざまな構造予測手法の比較AF2以外にも、ESMFoldなど、単一配列構造予測手法は数多く存在します。そこで本稿では、他の手法で予測された構造がSaProtの性能に及ぼす影響についても検証しました。結果は以下の通りです。 図: 異なる構造予測手法の微調整結果 テスト結果によると、SaProtはAF2構造で最も優れたパフォーマンスを発揮しますが(モデル自体はAF2構造で学習済み)、他の構造予測手法でもSaProtはESM-2などのモデルと同等のパフォーマンスを発揮できます。つまり、計算コストと時間コストを考慮すると、単一配列構造予測モデルもSaProtへの代替入力として使用できるということです。 制限事項SaProt はトレーニング後に優れたパフォーマンスを示しましたが、次のような改善の余地がまだいくつかあります。 Foldseek のデフォルトの構造語彙のサイズは 20 しかありません。より正確な構造エンコーディング モデルがあれば、構造表現語彙のサイズを増やすことで、モデルの構造活用能力がさらに向上するでしょうか? 計算上の制限により、SaProtは650MBのプロセッサでのみ学習されました。モデルサイズをさらに大きくできれば、パフォーマンスは向上するでしょうか? この論文では多くのタンパク質タスクをテストしましたが、タンパク質配列設計 (バックボーンが与えられた場合にアミノ酸配列を予測する) など、調査できるタスクは他にもあります。 |