[スポンサーリンク]

化学者のつぶやき

機械学習は、論文の流行をとらえているだけかもしれない:鈴木ー宮浦カップリングでのケーススタディ

[スポンサーリンク]

機械学習においては優れたモデルを作り、反応生成物や収率の予測に成功した結果を報告するのが通常ですが、機械学習を使ってうまくいかなかったことを報告した論文がJACSに発表されたので、詳細を見ていきます。

背景

機械学習は、多くの分野において活用され顕著な成功をもたらしてきた技術ですが、高い精度の予測には明確な規則と高い品質のデータセットが必要で、それらがない場合には機械学習による予測は、影響力がなくなってしまいます。これは化学でも言えることで、データセットに機械的に明確な反応例が十分含まれている場合には、精度よく反応性を予測することができ、学習データ外の化合物についても外挿することができます。一方、特異的なデータセットの選択や制御が難しい変数においては、機械学習はうまくいかなくなることがわかっています。例えば、合成ルートの策定では機械学習を使うと化学的に信じられない変換が提案されたり、合成収率の予測では人間や環境からの要素が強く、機械学習では不完全な予測になってしまうことがあります。

反応条件の最適化における基質や溶媒の選択にも重要な問題があり、機械学習が提案する最適な反応条件は、データセットとして入れた論文の反応条件の中でよく使われている条件を選択しているに過ぎず、機械知能は無いと主張されています。そこで論文の筆者らはこの問題を考えるために、 ヘテロアリール-ヘテロアリールかアリール-ヘテロアリール鈴木カップリングを題材として、ターゲットとする反応の最適化条件を機械学習で探索することを試みました。がしかしうまくいかず、機械学習の結果は、最も一般的な条件を示すだけでした(原著論文にもIntroductionでうまくいかなかったことが述べられています。)。

結果と考察

背景にてすでに結論が述べられてありますが、詳細を見ていきます。ターゲットにしたのは下記の反応で、リアクシスからデータセットを構築しました。その際、収率の記載がない反応、パラジウム化合物について記載がない反応、特許の反応例は除外し、16748反応の触媒、塩基、溶媒のデータと13337反応の触媒、塩基、溶媒に加えて温度のデータを使用しました。

テストデータとして機械学習のモデルが最も最適な条件が選択できるか試した反応 (出典:原著論文)

まず、取り込んだ反応の条件をヒストグラムとしてまとめました。触媒はPd(PPh3)4の使用がほとんどで、反応温度は80から109℃までで多くの反応が行われ、塩基は炭酸塩が多く使われています。溶媒については、他の要素ほど傾向が偏っていませんでした。このような結果から本研究では、溶媒と塩基からの予測に注力しました。具体的に過去の反応例から最も最適化された溶媒と塩基の組み合わせを学習させ、テストデータの反応について最適条件を正しく選択できるかモデルの正確性を調べました。

各条件の傾向 (出典:原著論文)

まず二つの隠れ層と二つの出力層(塩基と溶媒)を持つフィードフォワード・ニューラルネットワークにおいて予測を行いました。なお入力層(分子構造の記述方法)については、4種類の方法を試行しました。

  1. Morgan fingerprints
  2. RDKit library
  3. 1と2の組み合わせ
  4. 1のAutoencoder

結果としてはモデルの正答率は、塩基と溶媒の組み合わせを論文で報告されている数の順で並べた時にターゲットの反応が上位に入っている確率(人気順ベースライン)と変わらない結果となりました。そのためニューラルネットワークモデルは、単に論文での使用頻度の確立よりも大幅に的中精度を向上させることはないことが分かりました。

塩基/溶媒=7/7と7/13のカテゴリー別の正確性(top-1は6つのテスト反応について各モデルが1番目に正しい答えをはじき出す確率で、top-2,top-3はそれぞれ2番目までと3番目までに正しい答えがはじき出される確率) (出典:原著論文)

 

上段の溶媒の分け方: {alcohols, water/polar solvents, water/alcohols, water/amides, water, amides}, {water/aromatics, alcohols/aromatics, water/alcohols/aromatics}, {aromatics}, {ethers}, {water/ethers}, {other}

下段の溶媒の分け方: {water/ethers}, {ethers}, {water/alcohols/aromatics}, {water/amides}, {alcohols/aromatics}, {aromatics}, {amides}, {water/aromatics}, {low boiling polar aprotic solvents/water}, {water/alcohols}, {water}, {alcohols}, {other}

塩基の分け方:{carbonates}, {phosphates}, {fluorides}, {hydroxides}, {amines}, {acetates}, and {other/miscellaneous}

次にGraph Convolutional Networkと統計的な補正(PU-NNモデル)で精度を上げることを試みました。Graph Convolutional Networkは、ディープラーニングをグラフデータに適用する手法で化学においては分子の図(構造式)を直接取り扱うことができます。PU-NNモデルについては、報告例がない塩基と溶媒に関しても最適な条件についても考慮されるモデルです。

塩基/溶媒=7/7カテゴリーでの正確性 (出典:原著論文)

結果としては、一番目で正答できる確率は、50%以下であり、2,3番目までを見ても人気順ベースラインとあまり変わらない結果となりました。フィードフォワードについてもExtended Connectivity Circular FingerprintsMol2Vecを使用したモデルを構築しましたが、あまり変わらない結果となりました。

さらにモデルの正確性を向上させるために収率の情報を加えることにしました。この検討では、全ての塩基と溶媒の組み合わせに対して収率を予測し、ターゲットの反応の最適な条件が、収率の高い順の1位から3位に入っている確率を計算しました。結果、種々のインプットの方法でモデルを構築しましたが、どのモデルでも大差ない結果となりました。一方で予測された最も良いと悪い条件の収率の差は5から10%と実測値で得られている20-30%より低い値となりました。これは説明変数が収率に対して敏感に反応しないためであり、そのため正解が収率の高い順の1位から3位に入っている確率が低いこともつながっています。よってモデルによる予測は単純な人気順ベースラインよりも低い結果となりました。

収率予測の正確性 (出典:原著論文)

最後に3つの先行研究にて開発されたモデルを使って同様の試みを行いました。データセットについてリアクシスに加えて米国特許からも反応データを抽出して使用しました。結果、Rel-GATのみ人気順ベースラインよりも高い精度の結果が示されました。

先行研究にて開発されたモデルを使った予測の正確性 (出典:原著論文)

まとめ

結果として単純な指標である人気順ベースラインと比較して大幅に高い精度を持つモデルは発見されませんでした。この原因は、論文に掲載されている反応が機械学習を行う上ではフェアでないからであり、関連する研究分野において最もよく報告されている反応条件が選択されていたり、研究室において歴史的に好まれる基質や溶媒があるからだと推測されています。本研究のようなアプローチを行うためには、系統的に標準化され、繰り返し行った実験で得られた結果が必要であり、合成実験の全自動化などにおいてうまくいくとコメントされています。そのような複数の条件のデータが一般的になるまでは、機械学習のモデルは、論文での頻出度合いと比較して反応の傾向を考慮すべきだと提言しています。

コメント

紹介した内容は表層的でしたが機械学習のいろいろな手法が登場し、個人的には勉強になる内容でした。論文の内容としてはAIを使って精度の高い予測に成功した例を取り上げるのが一般的ですが、本研究ではうまくいかなかった例を提示し、その原因を考察している点が大変ユニークだと感じました。合成の研究においては、各研究室がそれぞれの設備や環境で実験を行い、論文の結果や考察のセクションでは示したいデータを自由にピックアップして報告しています。そのため論文の中では結果を比較できても、いろいろな論文からデータを抽出しても誤差が大きく、基質や溶媒を等しく繰り返し調べているわけではないのでモデルのデータセットとしては不適切であることがよくわかる一例だと思います。全ての反応研究において条件や論文の形式を規格化することは困難だと思いますが、規格化した条件で得られたデータでの議論に特化した論文誌があっても良いかと思います。

関連書籍

[amazonjs asin=”4764960230″ locale=”JP” title=”詳解 マテリアルズインフォマティクス 有機・無機化学のための深層学習 (近代科学社Digital)”] [amazonjs asin=”4526081922″ locale=”JP” title=”マテリアルズ・インフォマティクスII 機械学習を活用したマテリアルDX超入門”]

関連リンクと機械学習に関するケムステ過去記事

Avatar photo

Zeolinite

投稿者の記事一覧

ただの会社員です。某企業で化学製品の商品開発に携わっています。社内でのデータサイエンスの普及とDX促進が個人的な野望です。

関連記事

  1. 視覚を制御する物質からヒントを得た異性化反応
  2. 100年前のノーベル化学賞ーリヒャルト・ヴィルシュテッター
  3. 触媒的C-H活性化型ホウ素化反応
  4. UCリアクター「UCR-150N」:冷媒いらずで-100℃!
  5. 【5月開催】第八回 マツモトファインケミカル技術セミナー 有機金…
  6. 学生実験・いまむかし
  7. 研究室でDIY!~割れないマニホールドをつくろう~
  8. 植物の受精効率を高める糖鎖「アモール」の発見

注目情報

ピックアップ記事

  1. 空気下、室温で実施可能な超高速メカノケミカルバーチ還元反応の開発
  2. 【3月開催】第六回 マツモトファインケミカル技術セミナー 有機金属化合物「オルガチックス」の架橋剤としての利用-有機溶剤系での利用-
  3. ヒバリマイシノンの全合成
  4. 観客が分泌する化学物質を測定することで映画のレーティングが可能になるかもしれない
  5. 光触媒に相談だ 直鎖型の一級アミンはアンモニア水とアルケンから
  6. 青色LED和解:中村教授「日本の司法制度は腐ってる」
  7. 嵩高い非天然α,α-二置換アミノ酸をさらに嵩高くしてみた
  8. モータータンパク質に匹敵する性能の人工分子モーターをつくる
  9. NeoCube 「ネオキューブ」
  10. 有機合成化学協会誌2019年12月号:サルコフィトノライド・アミロイドβ・含窒素湾曲π電子系・ペプチド触媒・ジチオールラジアレン

関連商品

ケムステYoutube

ケムステSlack

月別アーカイブ

2022年4月
 123
45678910
11121314151617
18192021222324
252627282930  

注目情報

最新記事

第23回次世代を担う有機化学シンポジウム

「若手研究者が口頭発表する機会や自由闊達にディスカッションする場を増やし、若手の研究活動をエンカレッ…

ペロブスカイト太陽電池開発におけるマテリアルズ・インフォマティクスの活用

持続可能な社会の実現に向けて、太陽電池は太陽光発電における中心的な要素として注目…

有機合成化学協会誌2025年3月号:チェーンウォーキング・カルコゲン結合・有機電解反応・ロタキサン・配位重合

有機合成化学協会が発行する有機合成化学協会誌、2025年3月号がオンラインで公開されています!…

CIPイノベーション共創プログラム「未来の医療を支えるバイオベンチャーの新たな戦略」

日本化学会第105春季年会(2025)で開催されるシンポジウムの一つに、CIPセッション「未来の医療…

OIST Science Challenge 2025 に参加しました

2025年3月15日から22日にかけて沖縄科学技術大学院大学 (OIST) にて開催された Scie…

ペーパークラフトで MOFをつくる

第650回のスポットライトリサーチには、化学コミュニケーション賞2024を受賞された、岡山理科大学 …

月岡温泉で硫黄泉の pH の影響について考えてみた 【化学者が行く温泉巡りの旅】

臭い温泉に入りたい! というわけで、硫黄系温泉を巡る旅の後編です。前回の記事では群馬県草津温泉をご紹…

二酸化マンガンの極小ナノサイズ化で次世代電池や触媒の性能を底上げ!

第649回のスポットライトリサーチは、東北大学大学院環境科学研究科(本間研究室)博士課程後期2年の飯…

日本薬学会第145年会 に参加しよう!

3月27日~29日、福岡国際会議場にて 「日本薬学会第145年会」 が開催されま…

TLC分析がもっと楽に、正確に! ~TLC分析がアナログからデジタルに

薄層クロマトグラフィーは分離手法の一つとして、お金をかけず、安価な方法として現在…

実験器具・用品を試してみたシリーズ

スポットライトリサーチムービー