本記事では、AIや情報技術を用いた分子生成技術の有機分子設計における有用性や代表的手法について解説します。BRICSやGBGAといったケモインフォマティクス分野で発展してきたルールベースのアプローチ、そして近年急速に進化を遂げている機械学習ベースのアプローチについて取り上げます。ルールベースの手法では、既存の知識や規則を活用して簡易かつ効果的に分子候補を生成します。一方、RNNやGPT、VAEといった深層学習・生成モデルを用いた学習ベースの手法では、大量のデータと機械学習モデルの力を活用することでより高度な分子設計を可能にします。それぞれの特徴を理解し、利用目的に応じた手法選定が重要です。
はじめに
有機EL材料や有機半導体材料の開発など、新規の有機分子設計が製品差別化の肝となる開発テーマは多数存在します。一般に有機分子の設計は、先行研究や理論、経験則に基づき、構造の決定、合成経路設計から実験評価に至るまで研究者の試行錯誤によって実施されます。この一連のプロセスには、多大な時間と労力が必要となります。
コンピュータ上で分子を仮想的に発生させる技術である分子生成は、このような試行錯誤の効率化や成果の最大化のために非常に重要なツールです。創薬分野を始めとして、分子生成技術の活用は徐々に広がりつつあり、分子生成によって有望な分子を発見できた事例は多く報告されています。
本記事では、このような分子生成を活用する利点と技術の概要についてご紹介します。また、別の記事にて実用上重要となる観点をご共有します。
AIによる分子生成の利点
情報技術を用いた分子生成手法を利用しない場合、実験や既存の知見に基づいて分子構造を設計するのが一般的です。このプロセスには時間やコストがかかることが多く、また有機分子の候補が多様であるために重要な構造群を見落とすリスクもあります。
もちろん、実験や既存の知見が重要であることには代わりありませんが、AI分子生成の利用によってより効率的で成果の高い分子設計を行うことが可能になります。具体的には以下の2つの利点が挙げられます。
- 網羅性・多様性 : より広く多様な構造を検討することが可能に
- 効率性 : より短い時間で多くの構造を検討することが可能に
有機分子の候補は膨大であり、人手による検討では漏れが発生する可能性があります。コンピュータにより機械的に分子を生成することでこのような漏れを減らし、より広範囲の構造を効率的に検討することができます。また、候補の膨大さから可能性のある構造をすべて検討することは不可能です。機械学習による自動的な選定により検討の効率が上がり、これまで扱うことができなかった膨大な化学空間を扱うことが可能となります。
分子生成技術の概要と分子設計への活用
本節では分子生成技術の概要とそれらを活用した分子設計の方法についてご説明します。改めて、分子生成とはコンピュータ上で分子を仮想的に発生させる技術の総称です。分子生成は、生成方法や分子の表現方法等によって図1のように分類することができます。
ルールベースの分子生成手法では、分子を生成するためのルールをこれまでの知見に基づいて設計し、そのルールに則り分子を生成します。一方、学習ベースの手法ではニューラルネットワーク等の機械学習モデルを用いて分子の生成方法をデータから学習し、学習されたモデルを活用して分子を生成します。学習ベースの手法には有機分子を文字列 (SMILESなど) で表現し言語モデルを用いてSMILESを生成させる文字列ベースの手法と、分子をグラフとして表現し、原子や分子フラグメント同士の接続を直接生成するグラフベースの手法に大別されます。
また、分子生成を用いて有望な分子を設計していくためには、目的物性 (最適化したい物性) や制約条件(構造やコスト、特許など)を用いて分子の探索範囲を絞り込む必要があります。この際、目的物性を実験などで測定することにはコストがかかるため、少数の実験済みデータから目的物性を予測する機械学習モデルを構築し、そのモデルの予測値を目的物性の値として代用することが一般的です。またベイズ最適化のように、単なるモデルの予測値ではなく「活用」と「探索」のバランスを考慮した獲得関数の値を用いて分子を選定する場合もあります。
ルールベースの分子生成手法
ルールベースの分子生成手法は古くから利用されており、中でもBRICS (Breaking of Retrosynthetically Interesting Chemical Substructures) は非常に有名です。
BRICSでは、分子群に対して分割規則と再結合規則を定義し、それらの規則に基づき分子を生成します。そして、生成された分子に対して物性値を評価 (あるいは機械学習モデルで予測) することで有望な分子を抽出します。この一連の流れを図2に示します。
BRICSは候補分子を大量に高速生成できる一方、見込みの低い構造も大量に生成されることや、組み合わせが膨大なためすべての候補を考慮できないなど欠点もあります。しかし、なにより仕組みがシンプルで使いやすいという利点があります。
次にもう少し発展的な手法としてGBGA (Graph-Based Genetic Algorithm) という手法を紹介します。GBGAはグラフとしての分子表現と遺伝的アルゴリズムを分子生成へ応用した手法です。2つの分子をランダムに組み替える「交叉」とそれにより得られた分子の一部をランダムに変更する「変異」という2つの操作を定義し、それらにより次の世代の分子を生成します。交叉の候補は物性値 (あるいはその予測値、より厳密には適応度) に基づいて選ばれるため、優秀な分子の構造が次の世代に残りやすく、世代を重ねるごとにより物性値の優れた分子が多く生成されるようになるという特徴があります。
本記事はMI-6株式会社から提供された記事を引用し作成しています。