前編では、なぜ紙の専門書をデジタル化してAIと組み合わせると便利なのかを紹介しました。
今回はいよいよ実務編。手元にある専門書を「紙」から「データ」に変えるためのステップを解説していきます。
これは獣医師だけでなく、医師・薬剤師・看護師・研究者など、専門書を頻繁に使うあらゆる職種の方にとって役立つ方法です。
- 「スキャンってどうやるの?」
- 「OCRソフトって何を使えばいいの?」
といった疑問にも答えながら、具体的なツールや工夫を紹介していきます。
OCR(光学文字認識)ってなに?
OCR(Optical Character Recognition)とは、画像や写真、PDFの中に写っている文字を読み取り、コピーや編集ができる文字データに変換する技術のことです。
原本は、紙の資料だけでなく、以下のような写真や画像でも問題ありません。
- スクリーンショットした画面
- 紙の資料を撮影した写真
OCRを使えば中の文字をそのままコピーしたり、文章として再利用したりできます。
最近ではスマートフォンやPDF編集ツール、画像編集サービスなどにもOCRが広く搭載されており、特別な機械がなくても手軽に使える身近な技術になっています。
裁断する?しない?
まずは、スキャンニングの前に専門書を裁断するか、しないかを決めます。
1.裁断する場合
スキャンニングの精度を上げるには、裁断するのがおすすめです。
裁断の作業にはとても手間がかかり、原本を残すことはできません。
しかし、スキャンニングの段階になると、スキャナーに任せておけるので手間と時間が短縮できます。また、裁断することでページの傾きや影が出にくく、スキャニングの精度も上がります。
裁断はカッターでの手作業ではとても時間がかかるので、大型の裁断機を使いましょう。
スキャナー選びのポイント
また、スキャナーは、ScanSnapシリーズのようなドキュメントスキャナーやADF(自動給紙装置)付きのプリンター複合機がおすすめです。
にゃーす1,000ページ近い専門書も短時間でPDF化できる
両面ADF機能付きのプリンター複合機でも代用できますが、ドキュメントスキャナーの方が紙詰まりなどのトラブルが少ないです。
また、各メーカーのフラグシップモデルはスムーズで安定した給紙が可能なため、複数枚が一度に巻き込まれてストップするといったトラブルは減ります。
2.裁断しない(非破壊スキャン)場合
絶版の専門書など、原本を残したい場合は、非破壊スキャンを行います。
ただし、非破壊スキャンには以下のようなデメリットができることもあります。
- ページを1枚ずつめくってスキャナーに置く必要があるため、作業時間がとてもかかる。
- 本の湾曲や影がOCR精度に悪影響を与える。
- 厚い本ではページの奥までしっかり読み込めないこともある。
非破壊スキャンのスキャナー選び
一般的な家庭用プリンタ複合機(フラットベットスキャナー)でできます。
他には、V字型の台に本を置いて、カメラで見開きごと撮影するタイプ(ブックスキャナー)を利用することもできます。ブックスキャナーは設置にスペースが必要で、スキャンの精度がやや落ちますが、専用の照明やソフトで歪み補正・反射除去をしてくれるモデルもあります。
OCRソフトの選択肢
最近ではスキャナー付属のソフトにOCR機能がついていることがほとんどです。
この場合、スキャンして保存する際にサーチャブルPDFやテキスト形式を選択するだけで済むことが多いです。
すでにPDFや画像データとして取り込んである資料を活用する場合は、「Adobe Acrobat」などのOCRソフトを使用する必要があります。
スキャンニングの工夫
1000ページ以上の本は、50枚や100枚ごとの切りのいい枚数で読み込ませると、あとで確認が楽です。
スキャン時のトラブルの大半は、複数枚が同時に巻き込まれてしまう事。その場合、読み込んだページ数がセットしたページ数よりも少なくなるので分かりやすいです。



1000ページ以上のPDF化はとても時間がかかります。エラーではないので気長に待ちましょう。
精度を上げる工夫
解像度は300dpiが推奨です。
医学・獣医学系の細かい文字や表も、これなら十分読み取れます。
400dpi以上になるとファイルサイズが格段に大きくなり、PDF化する際の処理時間が長くなったり、AIに読み込ませる際にエラーが出たりする可能性があります。
また、スキャン画像の傾きを補正したり、ノイズを除去したりするだけで、OCRの正確さは変わります。



OCRの精度は400dpi以上はあまり精度が変わらないと言われています。
日本語の専門書はスキャンの精度が落ちやすい
日本語は英語と比べてOCRの精度が下がります。特に医療分野では専門用語が多いため、誤字が増えます。
なので、にゃーすは洋書の専門書を取り寄せて利用することも多いです。



基礎的な専門書は洋書、マイナー領域の専門書は日本語の資料で補っています。
保存形式と整理のコツ
保存は「検索可能なPDF(サーチャブルPDF)」にするのが基本。
図形や表がない場合は、テキスト形式(txtやdocx)にした方がファイルサイズを小さくでき、GPTに取り込む際に便利です。
ファイル名やフォルダを科目ごと・領域ごとに整理しておくと、後で活用しやすくなります。
GPTなどのAIに読み込ませる場合、ファイルサイズに制限がありますので、ページ数が多い書籍の場合はファイルを分割しましょう。



目安は200〜300ページごと。
まとめ


ここまでで、紙の専門書を「使えるデータ」に変える流れをイメージできたと思います。
次回の後編では、このデータをGPTに組み込み、臨床・研究・教育でどのように応用できるのかを具体的に紹介していきます。


