[スポンサーリンク]

化学者のつぶやき

高選択的な不斉触媒系を機械学習で予測する

[スポンサーリンク]

2019年、イリノイ大学・Scott E. Denmarkらは、原料および触媒構造データを機械学習させ、不斉触媒反応における選択性予測を可能とするワークフローの確立に始めて成功した。また、これを用いて高不斉収率を示す触媒構造を予測することに成功した。これにより、経験則に依拠する不斉触媒系の最適化プロセスを、機械学習で代替できる可能性が示唆された。

“Prediction of higher-selectivity catalysts by computer-driven workflow and machine learning”
Zahrt, A. F.; Henle, J. J.; Rose, B. T.; Wang, Y.; Darrow, W. T.; Denmark, S. E. Science 2019, 363, eaau5631. DOI: 10.1126/science.aau5631

問題設定

新規有機合成法の開発は、経験的手法に大きく依存している。触媒設計も例外ではなく、反応機構が不明であること、ビッグデータのパターン把握における人間的限界、触媒選択における定量的ガイドラインの欠如などがハードルとなっている。特に不斉触媒においてはわずかなエネルギー差(ΔΔG~1 kcal/mol)が不斉収率(ee)に大きな影響を及ぼすこと、バックグラウンド反応の影響などを理由に、量子計算化学のみに依拠する最適化支援が困難とされている。

これについては、LipkowitzおよびKozlowskiが不斉触媒の3D-QSARを分子相互作用場法(MIF)によって取得するという萌芽的研究[1]を行っているものの、方法論としては普及していない。Sigmanらはこの課題に着目し、化学記述子の多変量回帰分析によって不斉触媒反応のパフォーマンス向上を目指す研究に長年取り組んでいる[2]。しかしながらいずれの系でも、教師データから遠く離れた領域のアウトプット予測は達成されていない

技術や手法のキモ

ケモインフォマティクスおよび機械学習を用い、上記課題の解決を試みることが本論文の目標となる。この戦略は、反応機構解析が不要、候補分子の立体/電子的特性を定量的に記述可能、実験データと記述子を比較することで妥当性が検証可能、などの利点を享受できる。

本論文の主張は、「ワークフローに従えば、現場ニーズを踏まえた二つの予測ができる」ということに集約される。

① 未検討の生成物―触媒の組み合わせが示すeeを予測できる
② 低ee反応を教師データとして用いても、高ee触媒を予測できる

ワークフローの具体的内容は下記の通り。各項目の詳細は次項で説明する。

(A) 触媒構造のin silicoライブラリを作る (B) 各触媒構造に対応する化学記述子を計算 (C) 触媒ライブラリから部分集合を選び、教師データとする (D) 実験データの収集 (E) 機械学習によって予測モデルを生成する (図は頭論文より引用)

今回の研究では、寺田・秋山触媒を用いる不斉N,S-アセタール形成法[4]がモデル反応として選択された。選定理由は以下の通りである。

・触媒の構造多様化が容易
・高収率・高再現性・室温・短時間反応なので迅速スクリーニングに向く
・触媒構造の違いにより幅広い不斉収率(0~99%ee)が出る

 

ワークフローの詳細

A) 触媒構造のin silicoライブラリを作る

Synthetic accessibilityを考慮に入れ、806種のリン酸触媒in silicoライブラリを構築した。403種は合成可能であることが報告されて入る構造、残りは市販試薬から合理的に考案可能な構造にしている。

B) 各触媒構造に対応する化学記述子を計算

配座異性体の三次元情報を反映している、低コストで計算可能、不斉触媒構造の微細な違いを捉えうるetc の特性が化学記述子には求められる。しかしながら既知の記述子を用いる限り、予測は全く上手く行かなかった。これは、記述子が触媒ごとに単一配座のみを考慮しているためだと考えられた。

そこでAverage Steric Occupancy(ASO)という記述子を新たに導入している。ASOは下記の手順で計算され、立体項に加えて配座異性体分布の影響を盛り込んだ記述子となっている。

  1. 各触媒ごとに配座異性体分布を計算で生成
  2. 触媒の配座異性体を同一座標系に定置
  3. 近接原子のvan der Waals半径内にある格子点を1、無ければ0とラベル
  4. 全ての配座異性体に対してiii)を行い、各格子点毎に値を平均する。これにより0 < ASO < 1の値となる。

冒頭論文より引用

ASO記述子を用いて触媒を表現すると、リン酸まわりは緑~基(ASO=中)、BINOL骨格まわりは青(ASO=高)、触媒から離れた格子点は赤(ASO=低)にラベルされる(下図)。つまり、活性中心(リン酸)周りは、配座異性の影響が大きいことが、視覚的にも理解される。

冒頭論文より引用

これに加えて電子的特性を盛り込むため、置換基の静電ポテンシャルマップも計算し、追加の記述子として用いた。結果として触媒1つあたり、16384パラメータを設定し、計算を行った。

C) 触媒ライブラリから代表部分集合を選び、教師データとする

開発現場では、反応そのものや機構について初期段階からは不可知であるという前提を踏まえ、教師データ候補のサンプリングをなるべくランダムに行う必要がある。この目的にKennard-Stoneアルゴリズムを用いている。こうして作られる教師データを論文中ではuniversal training set (UTS)と呼称している。これが十分にランダムであることは主成分分析によって評価される。

D) 実験データの収集

触媒43種×生成物25種(イミン5種×チオール5種)=1075反応を実施し、eeを測定した。

E) 機械学習によって予測モデルを生成する

475反応をテストデータ、残り600反応を教師データとしてランダムに選定し、機械学習を行った。Random Forest、LassoLarsなどいくつかのモデルを検討した中で、サポートベクターマシンが最もよい結果を示した。

機械学習モデルを用いたアウトプットの予測

① 未検討の生成物―触媒の組み合わせが示すee(ΔΔG)を予測する

触媒24種×生成物16種(イミン4種×チオール4種)=384サンプルを教師データとして、サポートベクターマシンによる学習モデルを生成した。残りのサンプルを下記の通り3分割してテストデータとし、それぞれの試験を通じてee値(ΔΔG値)の予測精度を評価した。

<I>テストデータ生成物+教師データ触媒:検討済触媒から未検討生成物の選択性を予測する想定(生成物9種×触媒24種=216反応)。

<II>教師データ生成物+テストデータ触媒:検討済生成物から未検討触媒の選択性を予測する想定(生成物16種×触媒19種=304反応)。

<III>テストデータ生成物+テストデータ触媒:未検討反応の性能を予測する想定(生成物9種×触媒19種=171反応)。

いずれも0.15-0.20 kcal/mol程度の平均偏差(MAD)にて、ee値(ΔΔG値)の予測が可能であった。ベスト触媒Aが与えるee値について、実験値と予測値を比較したものが下図になる。概ね±2%eeで良い一致を示しており、これは現行の量子化学計算による最高予測精度と同等か、それ以上の結果となっている。

② 低ee反応を教師データとして用いて、高ee触媒を予測する

実験データのうち、80%ee以下を示す718サンプルだけを集めて教師データとし、Deep feed-forward neural networkを用いた学習モデルを生成した。80%ee以上を与える残り357サンプルはテストデータとした。

このモデルを用いても、やはり触媒Aがベストな触媒として同定されてくる(ee値はテストデータに共通して含まれる生成物の平均値を示す)。次善として触媒B、Cが同定された。低選択性触媒(例えばD)についても性能予測が良い精度でなされている。

※ee値はテストデータに共通に含まれる生成物の平均値(散布図は冒頭論文より引用)

議論すべき点

  • 「不斉触媒反応の予測」という、かつて決定的手法が存在しなかったフィールドに対し、実用レベルの機械学習を持ち込み解決出来ることを示したマイルストーン的研究といえる。配座柔軟性を考慮に入れたモデル設計の重要性を指摘している点は、不斉触媒研究の大家ならではの実験センスの賜物に思える。
  • やはりそれなりの実験数は前提となるようだが、その事情から大流行した触媒反応を選択している点は見過ごせない。無数の既知反応形式からデータ数を稼ぎやすい反応形式を上手くピックアップできる土壌が既にあるため、概念実証を最速で行う目的にはスマートな選択といえる。
  • この手の問題解決に適した機械学習モデルは前例がなく、どれがいいのか分からなかった様子。こういう世界では、やはり手当たり次第モデルを試して上手く行くものを採用せざるを得ないのだろうと思われる。

次に読むべき論文は?

  • Doyleらによる触媒反応開発に対する機械学習の応用研究[4]。非不斉反応を標的とした場合の進め方の一つ。
  • 本論文の登場後、Sigmanらによる同様趣旨の論文がNatureに公開されている[5]。化学記述子としては、お得意の多変量回帰でよく使われるものを採用しており、予測可能な反応を複数実証している点が異なる。

参考文献

  1.  (a) K. B. Lipkowitz, M. Pradhan, J. Org. Chem. 2003, 68, 4648. doi:10.1021/jo0267697 (b) M. C. Kozlowski, S. L. Dixon, M. Panda, G. Lauri, J. Am. Chem. Soc. 2003, 125, 6614. doi:10.1021/ja0293195
  2. M. S. Sigman, K. C. Harper, E. N. Bess, A. Milo, Acc. Chem. Res. 2016, 49, 1292. doi:10.1021/acs.accounts.6b00194
  3. G. K. Ingle, M. G. Mormino, L. Wojtas, J. C. Antilla, Org. Lett. 2011, 13, 4822. doi:10.1021/ol201899c
  4.  (a) D. T. Ahneman, J. G. Estrada, S. Lin, S. D. Dreher, A. G. Doyle, Science 2018, 360, 186. DOI: 10.1126/science.aar5169; correction, DOI: 10.1126/science.aat7648  (b) M. K. Nielsen, D. T. Ahneman, O. Riera, A. G. Doyle, J. Am. Chem. Soc. 2018, 140, 5004.  doi:10.1021/jacs.8b01523
  5. J. P. Reid & Matthew S. Sigman, Nature, 2019, 571, 343. doi:10.1038/s41586-019-1384-z
  6. ソースコード公開場所:https://gitlab.com/SEDenmarkLab/ccheminfolib
Avatar photo

cosine

投稿者の記事一覧

博士(薬学)。Chem-Station副代表。国立大学教員→国研研究員にクラスチェンジ。専門は有機合成化学、触媒化学、医薬化学、ペプチド/タンパク質化学。
関心ある学問領域は三つ。すなわち、世界を創造する化学、世界を拡張させる情報科学、世界を世界たらしめる認知科学。
素晴らしければ何でも良い。どうでも良いことは心底どうでも良い。興味・趣味は様々だが、そのほとんどがメジャー地位を獲得してなさそうなのは仕様。

関連記事

  1. 『ほるもん-植物ホルモン擬人化まとめ-』管理人にインタビュー!
  2. Dihydropyridazinone環構造を有する初の天然物 …
  3. 電子不足トリプトファン誘導体を合成する人工酵素
  4. 【追悼企画】不斉酸化反応のフロンティアー香月 勗
  5. エノールエーテルからα-三級ジアルキルエーテルをつくる
  6. HACCP制度化と食品安全マネジメントシステムーChemical…
  7. 再転職の成功へ: 30代女性研究者が転職ミスマッチを克服した秘訣…
  8. 金属材料・セラミックス材料領域におけるマテリアルズ・インフォマテ…

注目情報

ピックアップ記事

  1. キラルLewis酸触媒による“3員環経由4員環”合成
  2. 西田 篤司 Atsushi Nishida
  3. バージェス試薬 Burgess Reagent
  4. アルツハイマー病の大型新薬「レカネマブ」のはなし
  5. フルエッギン Flueggine
  6. セブンシスターズについて① ~世を統べる資源会社~
  7. フリーデル・クラフツアルキル化 Friedel-Crafts Alkylation
  8. ニホニウムグッズをAmazonでゲットだぜ!
  9. トンネル構造をもつマンガン酸化物超微粒子触媒を合成
  10. Zoomオンライン革命!

関連商品

ケムステYoutube

ケムステSlack

月別アーカイブ

2019年10月
 123456
78910111213
14151617181920
21222324252627
28293031  

注目情報

最新記事

第23回次世代を担う有機化学シンポジウム

「若手研究者が口頭発表する機会や自由闊達にディスカッションする場を増やし、若手の研究活動をエンカレッ…

ペロブスカイト太陽電池開発におけるマテリアルズ・インフォマティクスの活用

持続可能な社会の実現に向けて、太陽電池は太陽光発電における中心的な要素として注目…

有機合成化学協会誌2025年3月号:チェーンウォーキング・カルコゲン結合・有機電解反応・ロタキサン・配位重合

有機合成化学協会が発行する有機合成化学協会誌、2025年3月号がオンラインで公開されています!…

CIPイノベーション共創プログラム「未来の医療を支えるバイオベンチャーの新たな戦略」

日本化学会第105春季年会(2025)で開催されるシンポジウムの一つに、CIPセッション「未来の医療…

OIST Science Challenge 2025 に参加しました

2025年3月15日から22日にかけて沖縄科学技術大学院大学 (OIST) にて開催された Scie…

ペーパークラフトで MOFをつくる

第650回のスポットライトリサーチには、化学コミュニケーション賞2024を受賞された、岡山理科大学 …

月岡温泉で硫黄泉の pH の影響について考えてみた 【化学者が行く温泉巡りの旅】

臭い温泉に入りたい! というわけで、硫黄系温泉を巡る旅の後編です。前回の記事では群馬県草津温泉をご紹…

二酸化マンガンの極小ナノサイズ化で次世代電池や触媒の性能を底上げ!

第649回のスポットライトリサーチは、東北大学大学院環境科学研究科(本間研究室)博士課程後期2年の飯…

日本薬学会第145年会 に参加しよう!

3月27日~29日、福岡国際会議場にて 「日本薬学会第145年会」 が開催されま…

TLC分析がもっと楽に、正確に! ~TLC分析がアナログからデジタルに

薄層クロマトグラフィーは分離手法の一つとして、お金をかけず、安価な方法として現在…

実験器具・用品を試してみたシリーズ

スポットライトリサーチムービー