hodaです。今回は筆者の勉強用に読んだ機械学習関連の書籍を紹介します。
概要
本書は、化学・化学工学分野でPythonを使って機械学習を行うための入門書です。
これまでに蓄積してきた実験/製造データをデータ解析・機械学習を用いて分析することで、いままでとはまったく別のアプローチで材料開発を加速させたり、プロセス管理を効率化・安定化させたりすることができます。なぜなら、実験や製造データは、目に見えない、研究者・技術者の知識・知見・経験・勘の宝庫だからです。そして、データ解析・機械学習を用いることで、これらを目に見える形にすることができるからです。
読者が一から実践できるよう、Pythonのインストール方法、データ解析・機械学習の基本理論から、材料設計、分子設計、プロセス管理について実際にサンプルプログラムとサンプルデータセットを使った実践までを丁寧に解説しています。
(引用:オーム社HP)
対象者
・化学系、化学工学系でデータ解析や機械学習に挑戦したい人。
・ケモインフォマティクスやマテリアルズインフォマティクスの経験が多少ある中級者も。
・線形代数を少しでも学んだ大学生以上。
内容
本書は3部構成になっており、第1部で「Pythonと統計の基礎知識」、第2部で「データ解析・機械学習の基礎」、第3部で「化学・化学工学データでの実践のしかた」を学びます。
第1部では機械学習でよく用いられるプログラミング言語のPythonの基礎(第1章)と、ヒストグラムや散布図などデータの図示についての説明があります(第2章)。
第2部では、多変量データ、データの前処理、主成分分析、階層的クラスタリング、非線形の可視化手法といった多変量データとデータの可視化の説明があります(第3章)。さらに回帰分析、クラス分類といった化学データを用いたモデリングに必要な知識を学ぶことができます(第4章)。モデルの適用範囲、データ密度、アンサンブル学習法といった回帰モデル・クラス分類モデルの適用範囲についても述べられています(第5章)。
第3部では、材料設計、分子設計・医薬品設計、化学構造の表現方法、化合物群の扱い、化学構造の数値化・生成の他、化合物のデータセットを扱うときの注意点、具体的なデータセットを用いた解析を学びます(第6章)。また化学工学データを用いる機械学習として化学プラントにおける推定制御・ソフトセンサー、時系列データ解析の特徴、モデルの劣化と適応型ソフトセンサー、データ解析・機械学習による化学プラントのプロセス管理(異常検出・異常診断)といった時系列データの解析についても述べられています(第7章)。
サンプルコード、サンプルデータもダウンロード可能です。
感想
本書の構成は大きく分けると第1部、第2部がデータ解析・機械学習の基礎、第3部が化学や化学工学における機械学習の実践になっています。全体的に各コードに対しての説明が詳しいため、数値やパラメーターの変更がしやすく実践に非常に役立つと思いました。
第1部では、データの図示の章が筆者のお気に入りです。データの図示は視覚情報として重要であり、本書はデータの図示方法について簡潔にまとまっているので非常にわかりやすいです。
第2部では教師なし学習であるPCA、断層的クラスタリングなどや教師あり学習であるサポートベクターマシン、ランダムフォレストなどが具体的にどのようなデータ処理がなされていくのか説明されています(教師なし学習、教師あり学習については過去記事をご参照ください)。本書の対象者に「線形代数を少しでも学んだ大学生以上」と記載したのはこの部分で一部行列が出てくるからです。数式を避けることなくしっかりと説明されているという印象を受けたので、タイトルに「機械学習入門」と書かれてはいますが、初心者だけでなくデータ解析・機械学習の経験が多少ある中級者であっても勉強になる書籍であると思います。数式も少なくないということで、数学が得意でない人たちが心配するかもしれませんが、図も多く挿入されているので理解を助けてくれると思います。他にも回帰モデル・クラス分類モデルの適用範囲について1章分説明されており、さらに発展的な内容も含まれていて、推定モデルの適応範囲についても詳しく学ぶことができます。
第3部の「化学・化学工学データの実践のしかた」は特に実践を意識した構成になっていると感じました。材料設計における機械学習の例として樹脂材料などのデータを用いながら第2部までに学習したデータの図示、教師なし学習、教師あり学習、そしてモデルの適応範囲と実践でも行うであろう順番に沿って説明されており、初心者でも内容を追って行きやすいと思います。分子設計では特に必要な化学構造をPythonで扱うための説明も簡潔でわかりやすいです。また、薬理活性に関する機械学習の一例も紹介されています。化学工学系の機械学習としては時系列データ解析に焦点を当てており、化学プラントにおける適切な機械学習のモデル構築方法の一例が示されていると思います。
筆者はすべてのサンプルコードを動かしてみたわけではありませんが、サンプルコード、サンプルデータも充実しており、基礎から実践の具体例までが詰まっていると思いました。
関連書籍
正誤表
明治大学理工学部応用化学科・金子研のホームページに本書の正誤表が掲載されていました。
関連リンク
表紙の画像はオーム社HPから引用しました。