電子論文が容易かつ大量に入手可能となった現在、その管理は最重要懸念事項です。ケムステでも各種文献管理法(Evernote、Mendeley、ReadCubeなど)をご紹介してきました。
しかし、専用ソフトを使う方法には一つだけ欠点があります。
「望みの論文を見つけ出すために、わざわざソフトを起動してフォーカスを移さなくてはならない」という一手間がかかるのです。
・・・それぐらいやれよ!という声が聞こえてきそうですが、何度も積み重なるとこれはこれでめんどくさいんで・・・。
筆者はWindowsユーザなのですが、問題の根源は「ダウンロードしたはずの論文を全文検索で見つけ出せないこと」にあると考えます。PDFの中身で検索が出来ないので、わざわざファイル名や保存フォルダに工夫を凝らさなくてはならない・・・こういう作業がが面倒だからこそ、論文管理ソフトの需要が出てくるのですね。
しかし世の中同じことで困っている人は多いはずだ!と思ったのでネットで調べてみたところ、ちゃーんと設定法がありましたよ(嬉)。
というわけでWindowsユーザ向けに、論文管理の一手としての「PDFを全文検索可能にする方法」をご紹介します。
PDFのインデックスを拾う設定に変更する
MacならばSpotlightシステムがあるので、PDFの中身も常時検索対象になります。この点はMacユーザが羨ましいかぎり。しかしWindowsにはなぜかそういう機能がありません。
デフォルトのWindows検索では、なぜPDFの中身を読んでくれないのか?
PDFからインデックス(検索目印となるテキスト情報)をOS側で拾っていないことがその理由です。
ならば、インデックスを拾う設定に変えてしまえばそれで事足りるというわけですね。
これを実現するのが「PDF iFilter」と呼ばれるソフト。
詳しい導入法はこちらのページや、関連リンクのページに書いてありますので参照ください。記事のとおりに設定を行えばOK。インデックスを取得するフォルダを選び(自分が論文をためこんでいる場所の選択を忘れずに!?)、そのあと「詳細設定」でインデックスの再構築を行います。これには少々時間がかかりますので、PCに詳しい人ならインデックス構築を速くする設定をしてみるのも良いでしょう。
再構築を忘れずに
少し待ってから「Win+F」のショートカットキーで検索窓を開き、適当なキーワードを入れると・・・・
なんとタイトルはもちろん、PDFの内容からも見事論文ファイルが引っかかるようになりました!
これで「あのときダウンロードした論文はどこにいったのだろう・・・?」と頭を悩ませる機会が減りますね。
スキャンしたPDFにはOCRをかけておこう
自炊書籍や古い論文など、画像をスキャンしたままPDFになっているもの(テキスト情報が含まれないPDF)は、そのままでは検索の対象にはなりません。
こういうものには光学文字認識(OCR)処理、つまり画像認識によってテキスト情報を抽出し、PDFを文字検索可能な形に変える処理が必要になります。
しかし日本語対応しつつ無料で認識精度も良い方法となると、さほど選択肢は多くありません。
筆者が試した限りでは、自炊PDF作成ソフト「かんたんPDFダイエット」の透明テキストPDF作成機能を使う方法が、Windows環境での最も簡単な方法だと思います。ファイル数が多いと時間はかかりますし、初期設定も少し手間ですがそこは我慢しましょう。公式ページの手順通りやれば問題ありません。
おわりに
いかがでしたか?
こういう設定にしておけば、PCの奥底に潜り込んでしまった論文でも、全文検索で掘り起こせるようになるわけです。
また片っ端からダウンロードした論文も、適当なフォルダに放り込んでおくだけで良くなります。いちいちファイル名を秩序だてて変更することは勿論、Evernoteに放り込む一手間すらもオサラバ!(・・・というか全文検索ぐらいは最初からOS側で実装しておいて欲しいと思うのは自分だけ?)
ともあれ、PDFの検索にお困りのWindowsユーザは是非お試しあれ!