[スポンサーリンク]

一般的な話題

ゼロから学ぶ機械学習【化学徒の機械学習】

[スポンサーリンク]

hodaです。機械学習に興味があります。
突然ですが読者の皆さんは第13回ケムステVシンポジウム「創薬化学最前線」をご覧になりましたか?私も第13回Vシンポを見ていました。見ていないよという人も、一部講演がYou Tubeで今からも見られます。第13回のVシンポでは、AI・機械学習関連の研究のご講演がありました。

この記事では機械学習の初歩的な知識から、化学において重要な構造式を機械がどのように読み込むかについてお話しようと思います。

機械学習とは

図1 機械学習関連の言葉の分類(強化学習は教師なし学習に分けていることもありますが、今回は教師あり学習にも教師なし学習にも含まれていないとして分類しました。人工知能はAI(Artificial Intelligence)で、機械学習はML(Machine Learning)と略されます。)

 

機械学習に関連するいくつかワードを拾ってきて分けてみました。聞いたことのある言葉も入っているでしょうか。人工知能(AI)や機械学習と言った言葉はよく使われていますが、くくっていくと図1のように分類されます。機械学習により、コンピュータが与えられたデータに潜まれたパターンを分析し、その学習したパターンを利用して新たなデータに対して結果を予想することが可能になります。

ラベルがあるかないか

機械学習において、結果を予測するためにデータを集め、そのデータを処理する方法として次の2つが挙げられます。

教師あり学習(Supervised learning)
教師なし学習(Unsupervised learning)

教師あり学習、教師なし学習にはそれぞれたくさん種類があります。教師あり学習は、ラベルを元にモデルを作り未知のデータに対しても正しい予測ができるようにする汎化能力の習得を目標としています1。一方教師なし学習は、データ自体の背後にある構造や特徴を解析することを目的としています2。ここでいうラベルは、答に対応すると考えてもそれほど問題ありません。教師あり学習だけを用いてもモデルを作成し、未知データに対して予測を行うことができます。しかし、教師あり学習の前に教師なし学習でデータを処理することにより、そのままのデータを使うよりも人間が説明しやすくなったり、場合によっては教師あり学習の精度が向上させたりすることができます。他にも強化学習(Reinforcement learning)や半教師あり学習(半教師付き学習とも言う)が存在します。

教師あり学習の種類

教師あり学習は「分類(Classification)」と「回帰(Regression)」の大きく2種類に分けられます。クラス(例えば0と1)に分ける場合は分類を、連続した値から(線形または非線形に)予測する場合は回帰になります。

図2 分類のイメージ

図3 回帰のイメージ

分類のみに使うことができるアルゴリズムや、分類と回帰のどちらにも使うことができるアルゴリズムなど、各アルゴリズムに特徴があります。

・Random Forest
・AdaBoost
・Support Vector Machine (SVM)
・kNN(k近傍法)
・Neural Network
・Logistic Regression
・Liner Regression
など

教師なし学習の種類

クラスタリング(Clustering)や次元削減(Dimensionality reduction)などを行ったりします。

・PCA
・k-means
・t-SNE
など

機械学習の言語

プログラミング言語にはC/C++やJava、JavaScript、Swiftなどほかにもたくさんありますが、機械学習によく使われる言語は次の2つだと思います。

・Python
・R

特にPythonは比較的直感的なコードであるため、初心者にやさしい汎用型のプログラミング言語と言われています。汎用性があり、機械学習系のライブラリが豊富であるため機械学習などによく使われています。またR はデータ解析を得意としています。ちなみに筆者は執筆時点でPythonしかプログラミング言語を学んでいません。筆者がPythonを使っているのでここからはPythonの話ばかりになってしまうと思いますが、ご容赦ください。

化学で特に使うツール

ここまでは機械学習全般の話で、化学に限ったものではありません。
ここからは化学で特に使うツールについてです。化学において構造式は人間にたくさんの情報を与えてくれます。構造式は人間からすると視覚的にわかりやすいですが、機械にとっては構造式からうまく情報を取り込むことは難しいです。そこで構造式を機械に読み込ませる形に変換するための変換ツールが登場します。構造式の変換ツールの例として、SMILES(スマイルズと読む)が挙げられます3。SMILESはSimplified Molecular Input Line Entry Systemの略です。この表記により構造式を文字や記号を用いて1行の文字列にして情報を取り込めるようにします。そして、プログラミングやソフトウェアなどによってSMILESから構造式の画像を出すことができます。SMILESにはいくつか種類があるようなので、ここではcanonical SMILES4の例を示したいと思います。
SMILESで化合物を読み込み、計算や機械学習を行えるような形で構造情報を表す方法として、例えばfingerprints(フィンガープリントと読む)があります。fingerprintsにもいくつか種類があります。構造式をfingerprintsへ変換するアルゴリズム5, 6, 7のひとつであるECFP アルゴリズムのおおまかな流れは以下のようになっています。

  1. 水素原子以外の原子それぞれについて原子番号などの特徴を元に整数の識別子を割り当てる。
  2. それぞれの原子の識別子を隣接する原子の識別子の存在を反映して、識別子のアップデートを繰り返し行う。このことにより、部分構造の情報を加味した識別子が得られる。
  3. 重複した識別子を削除する。

ECFPs はExtended-connectivity fingerprintsの略で、上記のアルゴリズムの後に残った識別子がECFP fingerprintsです。
ここでは筆者が使ったことがあるfingerprintsのひとつであるMorgan fingerprintsの例を図4に示しました。Morgan fingerprintsは構造情報が0と1を大量に並べるビット列で表されます(fingerprintsの種類によって記述子の数やビット列、整数の列か異なります8)。複雑な化学構造式がシンプルな数字の並びだけで表現できるとは驚きですね。

図4 SMILESとfingerprintsの例(Emodinのcanonical SMILESは参考文献4から)

SMILES、fingerprintsについての詳しい説明はケムステの過去記事にもまとめられているのでご参照ください (SDF って何?〜化合物の表記法〜)。

終わりに

今回はとにかく機械学習に関して思いつく限りの基礎用語を挙げてみました。リスト方式で紹介した教師あり学習、教師なし学習の種類はまだまだたくさんありますし、1つ1つもそれぞれ特徴があります。まだまだ十分な情報ではありませんが、今回はここまでにしたいと思います。

続きは果たして作ったモデルはどのくらいよいのだろうか【化学徒の機械学習】

参考文献

[1] 杉山将 著, イラストで学ぶ 機械学習―最小二乗法による識別モデル学習を中心に, 2頁, 講談社, 2013

[2] 大曽根, 関, 米田 著, 現場で使える!Python機械学習入門, 136頁, 翔泳社, 2019

[3] 金子弘昌 著, 化学のためのPythonによるデータ解析・機械学習入門, 129頁, 134頁,オーム社, 2019

[4] Toluene (Compound), PubChem,

https://pubchem.ncbi.nlm.nih.gov/compound/Toluene#section=InChI-Key (最終閲覧日:2021年3月20日)

[5] Kensert, A.; Alvarsson, J.; Norinder, U.; Spjuth, O. Evaluating Parameters for Ligand-Based Modeling with Random Forest on Sparse Data Sets. J. Cheminform. 2018, 10 , 1–10. DOI: 10.1186/s13321-018-0304-9.

[6] Rogers, D.; Hahn, M. Extended-Connectivity Fingerprints. J. Chem. Inf. Model. 2010, 50, 742–754. DOI: 10.1021/ci100050t.

[7] A Practical Introduction to the Use of Molecular Fingerprints in Drug Discovery, https://towardsdatascience.com/a-practical-introduction-to-the-use-of-molecular-fingerprints-in-drug-discovery-7f15021be2b1 (最終閲覧日:2021年4月8日)

[8] Elton, D. C.; Boukouvalas, Z.; Butrico, M. S.; Fuge, M. D.; Chung, P. W. Applying Machine Learning Techniques to Predict the Properties of Energetic Materials. Sci. Rep. 2018, 8, 1–12. DOI: 10.1038/s41598-018-27344-x.

記事全体の参考

[9] 神崎洋治 著, 図解入門 最新人工知能がよ~くわかる本, 秀和システム, 2016

[10] 下田倫大 監訳, scikit-learnとTensorFlowによる実践機械学習, オライリー・ジャパン, 2018

[11] 中田秀基 訳, Pythonではじめる機械学習, オライリー・ジャパン, 2017

[12] Kebin P. Murphy, Machin Learning A Probabilistic Perspective, 2頁, 12頁, The MIT Press, 2012

Topの画像は写真ACから利用しています

関連書籍

図解入門 最新 人工知能がよーくわかる本

図解入門 最新 人工知能がよーくわかる本

神崎洋治
¥1,584(as of 02/24 00:26)
Release date: 2016/07/07
Amazon product information
scikit-learnとTensorFlowによる実践機械学習

scikit-learnとTensorFlowによる実践機械学習

Aurélien Géron
¥3,799(as of 02/23 14:28)
Amazon product information
Machine Learning: A Probabilistic Perspective (Adaptive Computation and Machine Learning series) (En...

Machine Learning: A Probabilistic Perspective (Adaptive Computation and Machine Learning series) (En...

Murphy, Kevin P.
¥16,946(as of 02/24 00:26)
Release date: 2012/09/07
Amazon product information

関連リンク

果たして作ったモデルはどのくらいよいのだろうか【化学徒の機械学習】

AI・機械学習関連

・SDFって何?~化合物の表記法~

・超合金粉末の製造方法の改善に機械学習が施試行される

・AIによる創薬に新たな可能性 その研究と最新技術に迫る ~米・Insitro社 / 英・ケンブリッジ大学の研究から~

・AIで世界最高精度のNMR化学シフト予測を達成

・日本で発展する化学向けAIと量子コンピューターテクノロジー

2021/04/19 一部修正

hoda

投稿者の記事一覧

大学院生です。ケモインフォマティクス→触媒

関連記事

  1. イミノアルキンと共役ジエンの形式的[4+1]アニュレーションによ…
  2. 【4月開催】 【第二期 マツモトファインケミカル技術セミナー開催…
  3. 2021年ノーベル化学賞ケムステ予想当選者発表!
  4. 【書籍】『これから論文を書く若者のために』
  5. 第25回ケムステVシンポ「データサイエンスが導く化学の最先端」を…
  6. シンクロトロン放射光を用いたカップリング反応機構の解明
  7. 第98回日本化学会春季年会 付設展示会ケムステキャンペーン Pa…
  8. 有機化学クロスワードパズル

注目情報

ピックアップ記事

  1. 頻尿・尿失禁治療薬「ベシケア」を米国で発売 山之内製薬
  2. 地域の光る化学企業たち-2
  3. 産業紙閲覧のすゝめ
  4. リチウムイオン電池の正極・負極≪活物質技術≫徹底解説セミナー
  5. 光で脳/神経科学に革命を起こす「オプトジェネティクス」
  6. 研究室でDIY!~エバポ用真空制御装置をつくろう~ ⑤ 最終回
  7. ノーベル週間にスウェーデンへ!若手セミナー「SIYSS」に行こう!
  8. 印民間で初の17億ドル突破、リライアンスの前3月期純益
  9. UV-Visスペクトルの楽しみ方
  10. 「海外PIとして引率する大気化学研究室」ーカリフォルニア大学アーバイン校より

関連商品

ケムステYoutube

ケムステSlack

月別アーカイブ

2021年4月
 1234
567891011
12131415161718
19202122232425
2627282930  

注目情報

最新記事

MEDCHEM NEWS 34-1 号「創薬を支える計測・検出技術の最前線」

日本薬学会 医薬化学部会の部会誌 MEDCHEM NEWS より、新たにオープン…

医薬品設計における三次元性指標(Fsp³)の再評価

近年、医薬品開発において候補分子の三次元構造が注目されてきました。特に、2009年に発表された論文「…

AI分子生成の導入と基本手法の紹介

本記事では、AIや情報技術を用いた分子生成技術の有機分子設計における有用性や代表的手法について解説し…

第53回ケムステVシンポ「化学×イノベーション -女性研究者が拓く未来-」を開催します!

第53回ケムステVシンポの会告です!今回のVシンポは、若手女性研究者のコミュニティと起業支援…

Nature誌が発表!!2025年注目の7つの技術!!

こんにちは,熊葛です.毎年この時期にはNature誌で,その年注目の7つの技術について取り上げられま…

塩野義製薬:COVID-19治療薬”Ensitrelvir”の超特急製造開発秘話

新型コロナウイルス感染症は2023年5月に5類移行となり、昨年はこれまでの生活が…

コバルト触媒による多様な低分子骨格の構築を実現 –医薬品合成などへの応用に期待–

第 642回のスポットライトリサーチは、武蔵野大学薬学部薬化学研究室・講師の 重…

ヘム鉄を配位するシステイン残基を持たないシトクロムP450!?中には21番目のアミノ酸として知られるセレノシステインへと変異されているP450も発見!

こんにちは,熊葛です.今回は,一般的なP450で保存されているヘム鉄を配位するシステイン残基に,異な…

有機化学とタンパク質工学の知恵を駆使して、カリウムイオンが細胞内で赤く煌めくようにする

第 641 回のスポットライトリサーチは、東京大学大学院理学系研究科化学専攻 生…

CO2 の排出はどのように削減できるか?【その1: CO2 の排出源について】

大気中の二酸化炭素を減らす取り組みとして、二酸化炭素回収·貯留 (CCS; Carbon dioxi…

実験器具・用品を試してみたシリーズ

スポットライトリサーチムービー