理化学研究所(理研)環境資源科学研究センター環境代謝分析研究チームの菊地淳チームリーダー、伊藤研悟特別研究員らの研究チームは、機械学習アルゴリズムの探索により、核磁気共鳴(NMR)化学シフトの予測を世界最高精度で達成した(理研プレスリリース9月12日)
NMRの化学シフト値を量子化学計算を用いて予測することはよく行われており、ChemDrawなどの構造式作画ツールでも簡単に化学シフト値を確認することができます。しかしながら、予測値を割り出す量子化学計算と実測値の間には多くの誤差があり、精度が高い予測値を得ることは容易ではありませんでした。そこで本研究では、量子化学計算と機械学習の組み合わせによりこの誤差を学習・補正することで、高精度に化学シフトを予測する手法を開発したそうです。
具体的には、
- 多様な化学構造を持つ150の化合物の化学シフト値をNMRによって実測、構造を同定
- NMRを測定した化合物の化学シフト値とスピン結合数を量子化学計算によって算出
- 実測と計算の誤差を目的変数Y、理論化学シフト、溶媒、結合定数などを説明変数Xとして機械に学習
- 91種類のアルゴリズムを使って計算の補正値を割り出し、実測値と比較・評価
- 学習に使用していない34の標品化合物と既報の海藻成分を使ってシグナル予測・帰属の汎用性を検証
ということを行った結果、5の従来の量子化学計算のみの手法および機械学習のみの手法よりも精度の高い、世界最高精度の化学シフトの予測が可能であることが明らかになりました。
学習に使用した150の化学物は、分子量がメチルアミン(31.058)から4-ニトロフェノール(139.110)までのC,H,O,S,Pを含む分子です。一方、5の検証に使った化合物は、(S)-2-Methylmalate(148.114)からL-Tyrosine(181.191)までのC,H,O,Sを含む低分子とヒジキの有機成分を使ったそうです。アルゴリズム別の平均誤差を示したグラフが、下の図であり、各アルゴリズムでの平均誤差を1Hと13Cでグラフに示されています。その結果をもとにアルゴリズムの評価を可視化したのが下部の図であり、図の中央青色で書かれているアルゴリズムが化学シフト値の予測に適していると言えます。
下の図は従来法と本研究のNMR化学シフト予測法の精度の比較した図で、左側は34の化合物の13C化学シフト値の誤差を量子化学計算(上)Mnovaの機械学習(中央)本研究(下)で比較した結果です。量子化学計算、Mnovaの機械学習では低磁場側で誤差が見えるものの、本研究ではそこが特に改善されています。右側の図は海藻成分のシグナルの量子化学計算(×)と本研究(*)を帰属付きでプロットしたものです。拡大されているTMAとβ-Glcのシグナルから本研究の手法実測値に近いポイントを示していることがわかります。
NMRは試料調製が簡単であることから分析データの蓄積に適しているため、この研究手法の応用範囲を広げるために、データの蓄積と応用範囲の探索が今後期待されます。本研究では、化学構造と分析値を計算+機械学習で補正していますが、化学構造と化学的物理的特性をも補正できるようになれば、企業では実験評価の時間とコストを最小限にすることができるため大変役に立つと考えられます。このようにAIやビックデータ解析は、化学の世界でもいろいろな応用が期待されていて、その中でも分かりやすい研究結果の一つだと思いました。
関連書籍
[amazonjs asin=”B075M3YFB4″ locale=”JP” title=”人工知能はこうして創られる”] [amazonjs asin=”4840814015″ locale=”JP” title=”AI創薬・ビッグデータ創薬”]関連リンク
- 報道発表資料: 理研によるプレスリリース
- Exploratory machine-learned theoretical chemical shifts can closely predict metabolic mixture signals:原著論文(オープンアクセス)
- Program Archive:研究チームが開発した機械学習や多変量解析スクリプト集