タンパク質は栄養素としては普段からよく使う言葉だが、その実態は20種類のアミノ酸がペプチド結合で繋がった鎖上の高分子。人の体には10万種類のタンパク質があると言われている。タンパク質はmRNAから翻訳されて生成される(セントラルドグマ)が、その後小さく折り畳まれてしまう(フォールディング)。この立体構造がタンパク質の機能に大きく影響している。ここでは立体構造解析について整理をする。

タンパク質の立体構造

タンパク質は4つの構造で表現される。タンパク質の立体構造は機能と深く密接している。塩基配列が違ったり、アミノ酸配列が違ってもタンパク質の立体構造は類似し、アミノ酸配列の類似度が20%程度でも立体構造が似ていることも多い。進化的に立体構造はアミノ酸配列よりも保存されている。

一次構造 ペプチド結合で鎖状に繋がったアミノ酸の並び方。
二次構造 三次元構造。らせん状のαヘリックスやシート状のβシートが代表的。
三次構造 幾何学的な立体構造。二次構造の間で結合したきちんとした立体構造。
四次構造 複数の三次構造が集合してできる構造。

立体構造データ

タンパク質の立体構造はX線結晶解析、核磁気共鳴法(NMR)、電子顕微鏡で測定される。得られた構造はPDBフォーマット、最近ではmmCIFフォーマットで保存される。mmCIFでは一行の文字列制限がなく、巨大分子も記載ができる。

実際にヘモグロビンの立体構造をmolmilというソフトで読み込んだものが以下の動画である。PDBjのページから立体構造をクリックすると自動的に立ち上がる。

立体構造の比較

タンパク質の機能を知るのに立体構造が重要だとすると、既知のタンパク質と比べてどれぐらい立体構造が似ているのかというのが、未知のタンパク質の機能を知る手掛かりとなる。立体構造の類似度は2つのタンパク質を重ね合わせし、対応するそれぞれの原子間をRMSD (Root Mean Square Deviation: 二上平均平方根) で計算する。

立体構造の予測

そもそも立体構造のデータを取ること自体がハードルがあり、X線解析では結晶にする必要があるなど、立体構造データの作成に制約も多い。特に膜タンパク質は結晶化が難しい。アミノ酸配列から立体構造予測をすることは研究者の関心が高い。立体構造予測は大きく2つに分けられる。デノボ法はテンプレートを使わずに予測する方法。分子の形によって決まるポテンシャル・エネルギーが最も安定するところを求めていく。もう一つのホモロジー・モデリング法はアミノ酸配列が似たタンパク質をの立体構造をテンプレートとして予測する方法で、使えるテンプレートがあれば、計算コストが低く精度も出る。

そして、最近は英DeepMind社の深層学習を使ったAlphaFold2が高精度で立体構造を予測できることで話題となっている。AlphaFold2は基本はテンプレートベースだが、テンプレートベースがなくてもある程度立体構造が予測ができるらしく、デノボ法としての性能ももつ。これまでの予測方法と異なり、エネルギーなどは予測に使わず、アミノ酸配列だけで立体構造を予測する。