学術文献の出版大手Springer Natureが、機械学習のアルゴリズムに基づいてテキストを編纂した初の書籍「Lithium-Ion Batteries: A Machine-Generated Summary of Current Research」を出版しました。 (引用:GIZMODO4月15日)
この成果は、ドイツ、フランクフルトにあるゲーテ大学のApplied Computational Linguistics Lab(ACoLi:応用計算言語学研究室)所属のChristian Chiarcos博士のチームよるものです。ACoLiでは、AIをはじめとするコンピューターサイエンスを用いて、言語を自動的に処理を行える技術の開発を行っているようです。
今回取り上げる書籍、「Lithium-Ion Batteries: A Machine-Generated Summary of Current Research」は、下記の4章とPrefaceで構成されていて、Prefaceで出版に至った背景やテキストの自動生成の方法などが書かれています。
[amazonjs asin=”3030167992″ locale=”JP” title=”Lithium-Ion Batteries: A Machine-Generated Summary of Current Research”]まず自動生成抜きで本の構成についてみてみると、1から3章は、リチウムイオン電池を論ずる上でそれぞれ重要なコンポーネントであり、どれが欠けてもリチウムイオン電池は語れないと思います。また、最終章については、リチウムイオンバッテリー全体に関わる研究、例えば、熱暴走や寿命についてまとめられています。どの章にもイントロ、各論、結論、リファレンスという順序で構成されています。イントロでは、基礎的な背景から入り、さらに題材のマテリアルごとに詳しい解説が加えられています。そのため、専門外の自分にとっては、イントロを読むだけでも理解がかなり深まりそうです。各論は、トピックごとに実データを使いながら、パラグラフごとに短くまとめられています。特定のトピックに興味がある場合には、ここで参照されている論文を参照することがいい論文調査のスタートかもしれません。リファレンスは、直リンク付きのSpringerの論文だけでなく、ほかの出版社の雑誌に掲載されている論文も引用されています。
では肝心の出版に至った背景やテキストの自動生成の方法についてですが、Prefaceで書かれていることをかいつまんでまとめると、
- この本は、世界初の機械がテキストを生成した技術書である。具体的には自動的に化学とマテリアルサイエンス分野におけるリチウムイオンバッテリーの研究論文がSpringerLinkから集められ、アルゴリズムによって自動的にまとめられテキストが生成された。
- このテクノロジーの題材にリチウムイオン電池を選んだ理由は、この三年間でリチウムイオン電池に関する論文は53000以上も発表されていて、世界的にとても重要な研究テーマであるからである。そのためこのプロトタイプの本は、研究者がほしい現在の研究についてまとめられた概要である。
- 方法としては、1、ドキュメントのクラスター化 2、抽出要約 3、言葉の言いかえという流れをプログラミングして機械が行った。文章の生成に関しては、1、文体の標準化 2、文章構造の作成 3、文章の作成 4、校正という流れで行われた。
- 機械が収集した論文について基礎的な品質のチェックのみ、人間が行った。
といった内容です。この他にも20ページ以上あるPrefaceには、情報学の観点からこの研究の意義についてや将来の応用などについて書かれています。
肝心の機械が生成した英文についてですが、もちろん間違いや不自然な点などはなくリチウムイオン電池の専門外の自分でもとても読みやすいと感じました。難解な動詞や複雑な文章構造もなくむしろPrefaceのほうが読むのに苦労しましたほどです(Prefaceは情報学で本文は化学という違いもありますが。)。
以前のケムステニュースで論文を自動で収集し精査するNIMSの技術を紹介しましたが、この研究はその先を技術を示した結果だと言えます。基礎から最新の成果を網羅している参考書は、専門外や初学者にとっては大変役に立つもので、しかもどの分野にでも転用でき、いつでも最新の情報に更新されるということは、とても需要が高いと思います。この技術がさらに発展させれば、論文のイントロや背景を自動生成や、先行研究論文の参照抜けチェックなどもできてしまうかもしれません。論文調査、執筆活動の生産性を劇的に向上させる夢の技術である一方、カーナビを使うと道が覚えられなくなるように、これに頼りすぎると研究者の論文調査の手段や論文執筆能力の低下にもつながりかねないと思います。
出版社にとっては、自社の検索システムと組み合わせて新しいビジネスの可能性がある一方、自動生成の書籍、論文が増えた場合には、学術出版物とは何かという倫理的な問題に直面するのではないかと思います。
関連書籍
[amazonjs asin=”479812852X” locale=”JP” title=”自然言語処理の基本と技術 (仕組みが見えるゼロからわかる)”] [amazonjs asin=”4844368230″ locale=”JP” title=”未来IT図解 これからのAIビジネス”]関連リンク
- First machine-generated book published:idw ニュースによる解説
- Lithium-Ion Batteries:Springerの紹介ページ