新着Pick
889Picks
Pick に失敗しました

人気 Picker
atari、囲碁、スタクラ2に続き、タンパク質構造予測の世界でも。ある意味、ゲームの世界から初めて実用へ。

AlphaFold2がタンパク質の四次構造予測コンペCASP14で、2位のプロDavid Bakerに倍以上の圧倒的なスコア差をつけて優勝。

今回はただ優勝したというだけではない。1年半前に優勝した時のAlphaFoldとは違い、結晶構造解析(つまり正解データ)並の精度が爆速で得られている事から、実質的にタンパク質構造予測問題を解決と言える。コンペ主催者が正式に"Solution"と認定した。

例えるなら、囲碁の必勝法発見ではなく、人間が勝てないレベルに到達、と同じ。

ただ、人同士の勝負を見せるのが仕事の棋士と違い、構造計算は結果を出すのが仕事なので、本格的な失業をもたらす。

構造解析並みの結果という事は、Structure-Based Drug Design (SBDD) による創薬に使えるレベルという事を指している。配列のわかっているタンパク質は約18億あるが、構造がわかっているのは17万しかないので、これで一気に解決する。今後、この手法の創薬は加速しそう。

タンパク質の立体構造はアミノ酸配列だけから決まるが(Anfinsenのドグマ、1973)、それを予測するという問題は、取り得る構造の自由度が10^300 を超えるオーダーととなるため(囲碁の局面数は10^170程度)、当てずっぽうの計算では天文学的な時間がかかるが、自然界では難なく折りたたまれる(Levinthalのパラドックス、1969)。

学習には128個のTPUv3(Tensor processing unit: Googleが開発した機械学習に特化した集積回路)を数週間使い、残基間距離でグラフ表現したものを類縁配列・マルチプルアラインメントし、残基ペアの表現学習を行ったとのこと。

論文、プログラム共に公開する予定。
今後は複数のタンパク質で構成される複合体の構造予測に期待がかかる。

次の山は無機物資の構造相図(温度・圧力依存性)を組成から予測する事かな。流石にこちらは電子軌道を加味する必要が出てきて難しいかな。

追記
少し修正しました。
普段AIやテクノロジーを語るピッカーの方々から、まともなコメントが一つもないのはなぜだ。
人類にとってこれ以上ないくらい重要な課題です。分子構造が分かっても実際の形がわからないという問題が今まで数多くの人を悩ませ、結晶化や高エネルギーのX線を使ったイメージングなど様々な手法によって部分的に解決されてきた問題です。もしここにあるように「解決された」のであれば、生物学、医学、薬学などに計り知れない影響があります。具体的には薬の開発などにダイレクトにインパクトが出ます。
10年ちょっと位前に関連分野で一人PhD卒業させたのですが (今考えればほぼ機械学習的手法でした)、これは将来抜かれるな、とうすうす感じていましたねぇ それもあって (あとは業界の排他的文化に嫌気がさして) 続けませんでした よかったかもですねぇ

ただ、この分野のコンペティションは公正の為、「バランスの取れた」データセットを含む、きっちりとしたルールの元での、正解のあるゲームなので、フィールドユース (例えば創薬候補検討下での unseen sequences に対して)でのロバスト性はこれから評価ですねぇ 製薬会社に使ってもらうんでしょうかねぇ

学者的に次は、allosteric regulation (プログラミングの "if then 文" のタンパク質版みたいなものですかねぇ) の高精度予測ですかねぇ (データセット作るのがまず問題ですが) これにはまだ興味あるので、もう少し見守っていようと思います これが正確にわかると、細胞の機能分化 (あ、ips細胞とかのアレです) のメカニズムがタンパク質構造レベルでシミュレーション設計できるようになるでしょうねぇ




この「オリンピック業界」の排他的文化を体験した「部外者」としては、正直ニヤニヤ感はありますけどね(←これはevilなニヤニヤ)



アテンション使ったって事と、大場さんのコメントのみから表現手法 (難しい問題なので学習法3割、表現7割位の重要度ですかねぇ) を類推すると、もしかしてワタシ達が使った feature (rotamers) も (非明示的にでも) 使ってるのかも、と更にニヤニヤ 暇ができたら調べてみます (←これはいつものニヤニヤ)
「遺伝子は生命の設計図」と言われますが、正確には「遺伝子はタンパク質の設計図」で、タンパク質が実際の生命活動を担っています(血液中で酸素を運ぶヘモグロビン、筋肉を動かすミオシンなど)。

最近の話題だと、新型コロナウイルスが細胞に感染するときには、細胞表面にあるタンパク質ACE2を認識します。これを認識する新型コロナウイルスの表面にも別のタンパク質Spikeがあります。つまり、タンパク質の構造がわかれば、どの構造の分子がタンパク質の機能を阻害するか、つまり薬の候補を探しやすくなります。

普通なら、実際にタンパク質を抽出して結晶化して計測して分析して……最高の計測機器だと数億円します。これくらいの性能の機器は、国内にも数台しかありません。

それが予測できるとしたら、本当に革命です。

4年くらい前にもAlphaFoldで話題になりましたが、今回のバージョンはさらに予測精度が飛躍的に上がったらしく、昨日の夜からタンパク質構造の研究者の間で話題になっています。まとめのページを載せます。

DeepMindのAlphaFold2、タンパク質立体構造予測コンペ(CASP14)でブッチギリ1位
https://togetter.com/li/1630461
Googleの傘下でもあるDeepMindが
50年前から科学界を悩ませてきた重要課題に対し
AIが常に高い精度で把握できるようになったというこのニュース。

DeepMindによる技術的な飛躍によって短時間かつ省資源の処理で
正確に予測することを可能にし、病気や治療法の理解が進むペースを
劇的に変える可能性があるとのこと。

結果的に治療法やワクチンの開発をスピードアップできるみたいな
生活に役立つAI導入が日本企業でも出てくるといいですね。
これまでより速く精度が上がったのであれば何より。応用範囲は無限。
コロナのワクチン開発においてもmRNAを用いた手法が先行して結果を出し、バイオヘルスケアの分野においてもラボでの生物学的なプロセスではなく、情報処理能力の重要性が高まっているという認識が広まっている中で、非常にタイムリーな成果
アカデミー賞をテック企業(Netflix)が取ることの議論がありますが、ノーベル賞もテック企業になっていくと思います。オリンピックも今やメダルはプロアスリートです。
凄い。「同社は米国時間11月30日、そのAlphaFold(アルファフォールド)システムが、50年前から科学界を悩ませてきた重要課題だったタンパク質のフォールディング(折りたたみ)問題を解決したと発表した。今回のAlphaFoldの進歩は、疾患の理解や将来の創薬、製薬の分野で、大きな飛躍につながる可能性がある。」
大きな進歩です。
結晶化できないタンパク質も多い(の方が多い?)でしょうから、今後そういった実測困難なタンパク質の構造がどんどん解かれていくのでしょうね。生命活動の理解が進む!
Alphabet Inc.(アルファベット)は、2015年にGoogle Inc.及びグループ企業の持株会社として設立された、アメリカの多国籍コングロマリットである。 ウィキペディア
時価総額
124 兆円

業績