NewsPicks上のすべての有料記事をご覧いただけます。
特定商取引法に基づく表記
NewsPicks編集部が制作する 記事コンテンツが 全て閲覧できるようになります。
海外メディアから 編集部が厳選した翻訳記事や The Wall Street Journal(日本版)で配信された記事を読むことが出来ます。
有料サービスについて詳しく見る
名刺または学生証をアップロード
※ 名刺等の情報は照合にのみ利用します
※ アップロードされた資料は公開されません
名刺等をアップロード
ANAマイレージクラブ情報の入力
AlphaFold2がタンパク質の四次構造予測コンペCASP14で、2位のプロDavid Bakerに倍以上の圧倒的なスコア差をつけて優勝。
今回はただ優勝したというだけではない。1年半前に優勝した時のAlphaFoldとは違い、結晶構造解析(つまり正解データ)並の精度が爆速で得られている事から、実質的にタンパク質構造予測問題を解決と言える。コンペ主催者が正式に"Solution"と認定した。
例えるなら、囲碁の必勝法発見ではなく、人間が勝てないレベルに到達、と同じ。
ただ、人同士の勝負を見せるのが仕事の棋士と違い、構造計算は結果を出すのが仕事なので、本格的な失業をもたらす。
構造解析並みの結果という事は、Structure-Based Drug Design (SBDD) による創薬に使えるレベルという事を指している。配列のわかっているタンパク質は約18億あるが、構造がわかっているのは17万しかないので、これで一気に解決する。今後、この手法の創薬は加速しそう。
タンパク質の立体構造はアミノ酸配列だけから決まるが(Anfinsenのドグマ、1973)、それを予測するという問題は、取り得る構造の自由度が10^300 を超えるオーダーととなるため(囲碁の局面数は10^170程度)、当てずっぽうの計算では天文学的な時間がかかるが、自然界では難なく折りたたまれる(Levinthalのパラドックス、1969)。
学習には128個のTPUv3(Tensor processing unit: Googleが開発した機械学習に特化した集積回路)を数週間使い、残基間距離でグラフ表現したものを類縁配列・マルチプルアラインメントし、残基ペアの表現学習を行ったとのこと。
論文、プログラム共に公開する予定。
今後は複数のタンパク質で構成される複合体の構造予測に期待がかかる。
次の山は無機物資の構造相図(温度・圧力依存性)を組成から予測する事かな。流石にこちらは電子軌道を加味する必要が出てきて難しいかな。
追記
少し修正しました。
普段AIやテクノロジーを語るピッカーの方々から、まともなコメントが一つもないのはなぜだ。
ただ、この分野のコンペティションは公正の為、「バランスの取れた」データセットを含む、きっちりとしたルールの元での、正解のあるゲームなので、フィールドユース (例えば創薬候補検討下での unseen sequences に対して)でのロバスト性はこれから評価ですねぇ 製薬会社に使ってもらうんでしょうかねぇ
学者的に次は、allosteric regulation (プログラミングの "if then 文" のタンパク質版みたいなものですかねぇ) の高精度予測ですかねぇ (データセット作るのがまず問題ですが) これにはまだ興味あるので、もう少し見守っていようと思います これが正確にわかると、細胞の機能分化 (あ、ips細胞とかのアレです) のメカニズムがタンパク質構造レベルでシミュレーション設計できるようになるでしょうねぇ
この「オリンピック業界」の排他的文化を体験した「部外者」としては、正直ニヤニヤ感はありますけどね(←これはevilなニヤニヤ)
アテンション使ったって事と、大場さんのコメントのみから表現手法 (難しい問題なので学習法3割、表現7割位の重要度ですかねぇ) を類推すると、もしかしてワタシ達が使った feature (rotamers) も (非明示的にでも) 使ってるのかも、と更にニヤニヤ 暇ができたら調べてみます (←これはいつものニヤニヤ)
最近の話題だと、新型コロナウイルスが細胞に感染するときには、細胞表面にあるタンパク質ACE2を認識します。これを認識する新型コロナウイルスの表面にも別のタンパク質Spikeがあります。つまり、タンパク質の構造がわかれば、どの構造の分子がタンパク質の機能を阻害するか、つまり薬の候補を探しやすくなります。
普通なら、実際にタンパク質を抽出して結晶化して計測して分析して……最高の計測機器だと数億円します。これくらいの性能の機器は、国内にも数台しかありません。
それが予測できるとしたら、本当に革命です。
4年くらい前にもAlphaFoldで話題になりましたが、今回のバージョンはさらに予測精度が飛躍的に上がったらしく、昨日の夜からタンパク質構造の研究者の間で話題になっています。まとめのページを載せます。
DeepMindのAlphaFold2、タンパク質立体構造予測コンペ(CASP14)でブッチギリ1位
https://togetter.com/li/1630461
50年前から科学界を悩ませてきた重要課題に対し
AIが常に高い精度で把握できるようになったというこのニュース。
DeepMindによる技術的な飛躍によって短時間かつ省資源の処理で
正確に予測することを可能にし、病気や治療法の理解が進むペースを
劇的に変える可能性があるとのこと。
結果的に治療法やワクチンの開発をスピードアップできるみたいな
生活に役立つAI導入が日本企業でも出てくるといいですね。
結晶化できないタンパク質も多い(の方が多い?)でしょうから、今後そういった実測困難なタンパク質の構造がどんどん解かれていくのでしょうね。生命活動の理解が進む!