2024年10月9日、スウェーデン王立科学アカデミーは、2024年のノーベル化学賞を発表しました。今年の受賞者は、デイヴィッド・ベイカー(David Baker)が「計算によるタンパク質設計」で半分を受賞し、残りの半分は、デミス・ハサビス(Demis Hassabis)とジョン・ジャンパー(John M. Jumper)が「タンパク質構造予測」に対する業績で共同受賞しました。彼らの研究は、人工知能を活用してタンパク質の折り畳みを予測し、生物学やバイオテクノロジー、医薬品開発に大きな影響を与えました。
化学賞の前日に発表された同年のノーベル物理学賞は、「人工ニューラルネットワークによる機械学習を可能にする基礎的な発見と発明」に貢献した John Hopfield とGeoffrey Hinton が受賞しており、2日連続でAI関連の業績が賞をまたいで受賞したことに驚きを隠せません。
ベイカー・ハサビス・ジャンパーの3名は、ノーベル賞の登竜門と言われるクラリベイト引用栄養賞を2024年9月、ノーベル賞発表の直近に受賞しています。また、ハサビスは2024年の慶應医学賞も受賞しており、まさに話題を席巻している状況です。
今回の受賞の概略
タンパク質は、アミノ酸が鎖状につながり、その後、特有の三次元構造を形成します(図1)。この三次元構造は、タンパク質が機能を果たす上で非常に重要であり、特定の機能や相互作用を可能にしています。タンパク質の立体構造を理解することは、分子生物学やバイオテクノロジーの分野で重要な課題です。
古くから、X線結晶構造解析やクライオ電子顕微鏡解析といった技術を用いて、タンパク質の立体構造解析が行われてきました(図2)。これらの技術は、特定の有機分子がタンパク質の活性部位にどのように結合するかを明らかにし、医薬品の評価やタンパク質の触媒機能の解析に役立っています。しかし、こうした解析には、タンパク質の結晶化や巨大な装置の使用が必要であり、時間とコストがかかる点が大きな課題です。さらに、構造のモデリング(得られた電子密度マップにアミノ酸を埋め込む作業)も手間がかかります。
それにもかかわらず、これらの技術で得られた構造は非常に正確で、生体内でのタンパク質の実際の構造を再現しているため、タンパク質の構造データは非常に価値があります。現在、こうしたデータはProtein Data Bank (PDB)というデータベースに大量に蓄積されており、その重要性は計り知れません。
こうした状況で、David Bakerの業績が特に注目されます。Bakerは、計算によるタンパク質設計の分野で画期的な成果を挙げました。彼の研究グループは、新しいタンパク質を計算的に設計し、その構造と機能を実験的に確認するためのアプローチを開発しました 。特に、Bakerが開発したRosettaソフトウェアは、タンパク質の構造予測や設計に使われ、多くの研究者に広く利用されています 。彼の研究は、新規タンパク質のデザインだけでなく、酵素の設計や医療分野での応用にまで発展しています 。
次に、AlphaFoldの登場が、タンパク質構造予測における革新をもたらしました(図3)。Demis HassabisとJohn Jumperが開発したAlphaFoldは、アミノ酸の一次配列から三次元構造を予測するAIシステムです 。特に、AlphaFold2は、その高精度な構造予測能力で従来の解析手法に代わるものとなり、短期間で結果を得ることができるため、タンパク質研究において大きなブレイクスルーとなりました 。AlphaFoldは、装置やコストを大幅に削減し、医薬品開発や基礎生物学の研究に新たな可能性を切り開いています。
David Bakerの計算タンパク質設計と、AlphaFoldによるAIを使った構造予測は、現代のタンパク質科学を大きく進展させた二大業績として評価されています。
少々雑ながらも速報として、彼らの業績をもう少し紹介しましょう。
計算タンパク質設計とRosetta
David Bakerは、計算タンパク質設計の分野で最も著名な研究者の一人であり、彼が開発したRosettaソフトウェアは、タンパク質の構造予測や設計において非常に重要な役割を果たしています。Rosettaは、de novoタンパク質設計(自然界に存在しない新規タンパク質の設計)や既存のタンパク質の三次元構造予測に広く利用されています。
Rosettaは1990年代後半にBakerの研究グループによって開発されました。当初、Rosettaは主にアミノ酸配列からタンパク質の三次元構造を予測するためのツールとして使われました。これをab initio構造予測と呼び、既知のタンパク質構造のデータベースに依存せず、アミノ酸配列から直接タンパク質の構造を予測するものでした。1999年のCASP III(タンパク質構造予測コンテスト)では、このアプローチを利用して成功を収め、Rosettaはその後の計算タンパク質科学の進展において基礎的なツールとなりました[1]
2003年に発表された論文では、彼のチームはRosettaソフトウェアを用いて、93残基のα/βタンパク質Top7の設計と結晶学的検証に成功しました。この研究は、計算的に設計されたタンパク質の予測された構造が、実際に実験で確認された構造と一致することを実証し、タンパク質設計の分野に大きな一歩をもたらしました [2]。
また、Bakerはその後、酵素設計にも取り組み、2008年には新規のretro-aldol反応酵素を計算的に設計することに成功しました。これらの設計された酵素は、自然には存在しない反応を触媒する能力を持っており、計算技術によって生体触媒を新たに作り出すことが可能であることを示しました[3] 。
このようにBakerは2010年頃まで低分子を基質とする酵素の設計に注力していました。特に、彼のチームがDiels-Alder反応を触媒する酵素の設計に成功したことは大きな成果であり、化学的な基質との相互作用を理解するための重要なステップでした。しかし、その後、膜タンパク質やタンパク質間相互作用の研究が医薬品ターゲットとして重要視され、研究資金の面でも優位性があったため、彼の研究はその方向へシフトしていきました。
一方で、CASPにおいても、長年にわたりBaker研が1位を保持していましたが、2018年にはAlphaFoldが登場し、圧倒的な精度で優勝したことが象徴的な出来事です。
Alphafoldの登場
2021年、デミス・ハサビスらが率いるDeepMindは、AlphaFoldに関する論文をNature誌で発表し、同時にAlphaFoldのソースコードを無料で公開しました[4,5]。この動きは、科学界に大きな衝撃を与えました。特に、AlphaFold2の登場は、構造生物学者にとって革命的であり、タンパク質構造予測の精度と効率に対する期待を大きく超えるものでした。世界中の研究者がその性能と正確さに驚愕し、AlphaFold2は瞬く間に広く受け入れられるようになりました。
ケムステ(Chem-Station)でも、AlphaFold2に関する速報記事が掲載され、科学界での大きな話題となっています。AlphaFold2は、AI技術が生物学分野においてどれだけのインパクトを与えるかを示した代表例です。
この無料公開により、研究者たちはこの技術をすぐに利用できるようになり、構造生物学の研究がさらに加速しました。
2024年には、AlphaFoldの後継版であるAlphaFold3が登場し、さらなる進化を遂げました(図4)。AlphaFold3は、AlphaFold2と比べて計算スピードが大幅に向上しただけでなく、タンパク質とDNAやRNA、ペプチド、金属、低分子化合物とのドッキングが可能となり、創薬において非常に有用なツールへと進化しました。これにより、単にタンパク質構造を予測するだけでなく、他の分子との相互作用も解析できるようになり、創薬のプロセスが大幅に効率化されています。
この新たな技術も、化学コミュニティで注目され、ケムステ(Chem-Station)でも速報記事として取り上げられました。
・AlphaFold3の登場!!再びブレイクスルーとなりうるのか~実際にβ版を使用してみた~
AlphaFold3は、生物学的研究のみならず、医薬品開発の分野においてもその利便性と影響力を拡大し続けています。
AlphaFoldの原理概要
まず、AlphaFoldは、多重配列アライメント(MSA)という手法を用います。これは、入力されたアミノ酸配列と、それに相同的なアミノ酸配列を持つ多くの既存タンパク質の間でアミノ酸の相同性を評価するプロセスです。これにより、入力されたアミノ酸配列の特徴的なモチーフや、共進化しているアミノ酸を特定することが可能です。たとえば、特定のアミノ酸が同時に変異している場合、それらのアミノ酸は三次元構造内で物理的に近くに存在する可能性が高いことが分かります。
次に、PDB(Protein Data Bank)に登録されている既知のタンパク質構造を基に、AIがモデルを構築します。この過程では、機械学習が利用され、過去のデータから得られた構造情報を活用して、入力配列の折りたたみ方を予測します。AlphaFoldは、特にアミノ酸間の二面角や距離を予測する際に、このデータを効果的に活用します。
これらの手法により、AlphaFoldは高精度なタンパク質の三次元構造を短期間で予測できるようになっています。この技術は、従来の結晶化や大型装置を必要とする解析手法に比べ、大きな時間とコストの削減を実現しています。近年では構造解析を行わず、AlphaFoldの予測と、ドッキングシミュレーションで論文にデータを載せることも可能となっています。これでも十分良好なデータが得られています。
まとめ
AlphaFoldの登場とともに、AIを利用したタンパク質構造予測が注目され始め、Bakerはその流れに乗るのが遅れたとの印象を持たれることもあります。例えば、2023年に発表されたRFdiffusionは、Bakerの研究室がAI技術に追いつき、再び脚光を浴びるきっかけとなりましたが、AIブームの波に乗ってから発表されるまでに時間がかかったため、その点で彼は少し遅れを取ったと感じる人もいます。それにもかかわらず、今回のノーベル化学賞では、AlphaFoldとともにDavid Bakerが受賞し、その Prize Shareが1/2であった (Hassabis、Jumperはそれぞれ 1/4) ことは、計算タンパク質設計における彼の先駆的な業績を認める上で妥当であったと言えます。
最近の動向としては、2023年に発表されたRFdiffusionが、Rosettaの後継として注目されています。RFdiffusionは、AI技術を活用しており、特にタンパク質設計に特化したツールですが、低分子に対するドッキングにはまだ限界があるようです。これらの観点を踏まえ、Bakerの業績はAIの時代に対応しつつ、依然として計算タンパク質デザインの分野において大きな影響を与え続けています。
以上、速報として今回のノーベル化学賞について解説しました。毎回のことながら、「これって本当に化学なの?」という声が多く聞こえてきそうです。これまでは、生物寄りであっても化学的なアプローチを取って解決されたものが化学賞を受賞するケースがありました。そのため、もちろん、受賞の候補には挙げていましたが、ずばり予測までとは至りませんでした。
まあ、化学が多様な分野にまたがる学問であることを考えれば、それも一つの魅力です。化学は他分野と深く結びついているという意味で、この受賞も納得できるのではないでしょうか。
SNSでの予想結果については別の記事で取り上げます(ちなみに、すでに10万円失った気がしますが)。
PS 速報中の速報なので、誤字脱字などご容赦ください
参考文献
- Simons, K.T.; Bonneau, R.; Ruczinski, I.; Baker, D. Ab initio protein structure prediction of CASP III targets using ROSETTA. Proteins: Structure, Function, and Genetics 1999, 3, 171-176. DOI: 10.1002/(SICI)1097-0134(1999)3+<171::AID-PROT23>3.0.CO;2-1.
- Baker, D.; Sohlberg, P. Computational Protein Design: Improving Protein Stability, Folding, and Function. Science 2003, 302, 1364-1368. DOI: 10.1126/science.1093371.
- Jiang, L.; Althoff, E.A.; Clemente, F.R.; Doyle, L.; Röthlisberger, D.; Zanghellini, A.; et al. De novo computational design of retro-aldol enzymes. Science 2008, 319, 1387-1391. DOI: 10.1126/science.1152692.
- Jumper, J.; Evans, R.; Pritzel, A.; Green, T.; Figurnov, M.; Ronneberger, O.; et al. Highly accurate protein structure prediction with AlphaFold. Nature 2021, 596, 583-589. DOI: 10.1038/s41586-021-03819-2.
- Tunyasuvunakool, K.; Adler, J.; Wu, Z.; Green, T.; Zielinski, M.; Zidek, A.; et al. Highly accurate protein structure prediction for the human proteome. Nature 2021, 596, 590-596. DOI: 10.1038/s41586-021-03828-1.