AlphaFold2でのタンパク質立体構造予測

2021年7月に公開されてから話題となっているDeepMind社のAlphaFold2を試してみた。前回タンパク質の構造予測について整理をしたが、アミノ酸配列からタンパク質の立体構造を予測することはその機能の解明にとっても重要であり、試薬やワクチン開発も加速させることができる。

AlphaFold2とは

Alphabet傘下のイギリスのDeepmind社が開発した深層学習を使ったタンパク質の立体構造予測するためのAIアルゴリズム。DeepmindはAlphaGoでプロ囲碁棋士に勝利して2015年に注目を浴びたが、CEOのハサビス氏が大学時代から関心のあったタンパク質立体構造予測に向けて取り組み、2018年にはタンパク質構造予測精密評価のCASP13でAlphaFoldで優勝、同じく2020年のCASP14にAlphaFold2で優勝した。

AlphaFold2は深層学習を用いており、アミノ酸配列を入力として、立体構造を予測してPDBデータを出力する。構成は以下の図のようになっている。（本論文はこちら）

構造予測したいアミノ酸配列に対して、最初にMSA(Multipe Sequence Alignment)で類似する配列をデータベースから収集し、類似配列からの構造を鋳型(Template)をNNに入力する。次のEvoformerは、Self-attention機構で特徴抽出を行い、最後にStructure moduleでは抽出された特徴量を元に立体構造を表現する。Recyclingが下にあるのはこのプロセスを3回繰り返して、立体構造の精度を高めている。

従来の立体構造予測では、各原子の位置やエネルギー情報などを使用していたが、AlphaFold2が画期的なのは、そういった情報は使わずに、アミノ酸配列だけで予測ができるという点である。

使用方法

データの準備

今回、PDBJのページからがん抑制タンパク質のp53(PDB: 1OLG)でFASTAデータをダウンロードして使用。p53はDNAの転写を制御する転写因子で、がん細胞内ではDNAの転写を抑制させるように働く。

AlphaFold2の実行

最新のAlphaFold2は以下のGoogle Colabで公開されている。今回はここに先ほどの配列情報を入力した。4ドメインで構成されているので、4つのシーケンスをsequence_1から4に入力し、user_multimer_model_for_monomersのチェックボックスをOnにする。あとは基本的には実行するだけだが、run_relaxのチェックボックスはオフしている。（オンしていると、”ValueError:Minimization failed after 100 attempts.”というエラーが発生した）

https://colab.research.google.com/github/sokrypton/ColabFold/blob/main/AlphaFold2.ipynb

結果

公開されているPDBとAlphaFold2で出力したPDBをPyMolで重ね合わせをしてみる。青い色の部分がマッチ度が高いところで表示されており、複数ドメインにも関わらずかなり近い形で構造予測ができており、モデルの自信度を表しているpredicted LDDTも高い値が出ている。ただ、これはうまくできたケースであり、いくつか最近PDBに登録されたタンパク質を試してみたけど、全く当たらないものもあった。天然変性タンパク質などの予測など、まだまだ課題はあるらしい。