ScanSnap S-1300を使用したPDF化のメモ

椙山女学園大学 三木邦弘

はじめに

 一杯の本棚を見て、来年の雑誌はどこに突っ込もうか?と困ったのがそ もそもの始まりです。本に限らずものが捨てられない性格なので、またその性 格も今更直らないと思うので、スキャンしてデジタル化すれば捨てられるだろ う、と言うことで始めました。取りあえずは中学や高校の頃から購入している CQ出版社の「トランジスター技術」と「インターフェース」を対象にしました。 自分でも信じられませんが、併せると900冊ぐらいあるはずです。でも本はだ め。切り裂くなんて残酷なことできません。またデジタル化してから読むこと は余りないだろうと考えています。

なぜS-1300か?

 とりあえずは900冊ぐらいあるのですが、いつの日か片付いてしまえば、 あとは毎月2冊しか増えません。ならばそれほどスピードはいらない、コンパ クトで安い方が良いと言うことになりました。また以前教授会資料のPDF化を 試みて挫折した事もあるので、本当に全部やるの?と言う不信感もありました ので。。。

 より上位のS-1500が使われる理由もよくわかります。まずS-1500の方が 高速です。でもそう言う速い機種の動くさまを見ていなければ、S-1300だって 結構早く感じられます。またS-1500にはAdobe Acrobatが付いてきます。PDFの 加工にはこのようなソフトが必要です。つまり、読み取ってできたPDFファイ ルに対して、

などができないと困ります。幸いな事にヨモギソフトウェアによるPDForsellと 言うフリーソフトが見つかりましたので、これでやっています。

 PDForsellはこれからまだ開発が進むと思いますが、現在のところリニア ライズ機能がありません。これは「Web表示用に最適化」をする機能とも言わ れるものです。大きなPDFファイルを全て読み込まずに表示に移れるようにす るもので、一冊を丸ごとPDF化した場合やさらにその中の指定ページを開こう とした場合に、すぐ表示されるようになります。無料で何とかしようと言う場 合は、少し操作が面倒ですが、Ghostscriptに入っているpdfoptコマンドを使 用して変換することができます。詳しくはこちらをご覧下さい。

S-1300のセットアップ

 付属のCD-ROMを入れてソフトのインストールをするのですが、文字認識 とファイル管理ソフトがやたらと大きいので入れていません。必要のある人は 入れたら良いでしょう。文字認識ソフトももう少し汎用的に使えるのならば入 れても良いのですが。。。

 読み取りの設定は、人それぞれでしょうが、「スーパーファイン カラー/ グレー 300dpi」の「圧縮率5」にしています。つまり読み取りは少し贅沢に 細かくやって、その代わりしっかり圧縮すると言うものです。細かい文字も画 面上で200%にして読めると言う感じです。「継続読み取りを有効」にして原稿 を読み終わったら終了でない方にしています。

100%の場合200%の場合

 USBは必ず2.0でつながるようにします。古い機器のために2.0を殺してい たところすごく遅い読み取りになりました。(ゆっくりと言うより休み休み読 み取る)

雑誌の付録のスキャン

 取りあえず練習のために雑誌の付録のスキャンから試みました。大きさ はB5以下のサイズです。ページ数は多くても120ページぐらいです。まず切り 離しですが、30〜32ページぐらいにちぎって、さらに背表紙の部分をよく切れ るはさみで切り落としました。で、そのままスキャンします。仕様ではS-1300 は10枚ぐらいですが、この程度(15枚程度)ならば問題ないようです。欲張ると すぐ重なったままスキャンしてしまいます。

 はさみで切り離す場合は、どうしてもがたがたな切り口になりますが、 読むのは中央の本文のところですから余り気になりません。表紙などで一面に 画像の場合は気になるかもしれませんが、それならば表紙だけちゃんと定規で 線を引いてから切れば良いでしょう。表紙や裏表紙に隣接するページはのりが かなり内側まで入っていますので、くっついていないか必ず確認をします。

 重なって出てきたら、すぐS-1300の本体の読み取り部分を開けます。す るとすぐ止ります。パソコンの画面の中止ボタンではなかなか止ってくれませ ん。開けると今読み取り中だったページは破棄されますので、もう一度セット して、またS-1300のScanボタンを押せば読み取りが再開されます。パソコンの 画面のボタンをクリックしなくても良いのです。大抵これで、後で何もしなく てもちゃんと読み取れます。もしかするとS-1500では高速すぎてこのような手 が使えないかもしれませんが、S-1300はそこそこの速さなので、余所見をして なければ大丈夫です。紙が傾いて斜めに入りそうになった場合もこれでやり直 せます。

 私は音楽を聞きながらでは、他の事が何もできない不器用な人間です。 頭がマルチタスクではないのでしょう。ただこのスキャンは音楽を聴きながら でもできました。♪♪♪

 スキャンされて出てきたページを重なっていないか見ます。ScanSnapの 通常の置き方?である先頭のページを一番下に逆さにの場合、ページ番号が左 下にあると、前のページのページ番号がすぐ次に出てきたページが上に乗って 見えなくなります。そういう場合は、出てきたページを右へ少しずらしてやる と、番号がずっと見えるので確認しやすくなります。S-1300はそんなに速くな いので、読み取りの際に注意をして確実に読ませるのが良いと思います。後で 修正するのは結構時間がかかります。

 ファイル名は、何年何月を先頭に付けた付録のタイトルにしています。

 読み取りが終了したら、読み取ったページ数ともともとのページ数を比 較します。場合によっては一致すれば終わりです。広告のページなどを削除す るには前述のPDForsellを使用します。

  1. PDForsellを起動したら、PDFファイルをドラッグ&ドロップで開きます。
  2. 複数のファイルを結合する場合は、それらを全てドロップすれば良いです。
  3. 付録のように余りページ数が無い場合は、「全分割」ボタンで一旦 全てのページをばらばらにします。このようにすると順番を入れ替えたり、 削除したり自由に編集できます。
  4. 最後に「結合して保存」を行ないます。
  5. PDForsellを終了します。現在のものでは、「全消去」をしても、 ファイルのロックが残るようで、元のPDFファイルの削除ができません。

「インターフェース」誌の読み取り

 1996年より「インターフェース」誌はA4版になりました。おかげで中身 はともかく重たくで、自立しないので、本棚の不良児です。この年の分からス キャンする事にしました。付録と違ってページ数も多いので、裁断機を購入し ました。(よく話題にあがるプラスのではなく中国製の「大型裁断機・ペーパー カッター」とamazonで言われる一万円ちょっとで買えるもの)カッターでしこ しこ切ると言うのもありますが、ここは時間優先にしました。一発で綺麗に切 れるので、すいすいとスキャンできます。

 裁断の前に表紙を背表紙と共に剥がします。そして表紙と背表紙をまと めてスキャンしています。少し背表紙の方が切れたりしますが大体入ります。 本体を裁断する際にどうしても斜めになります。でも気にするほどではありま せん。要するに最初にページと最後のページの幅が少し違うようになるだけで すから。見開きで綺麗な写真が掲載されているような雑誌などでは問題になる かもしれませんが。

 印刷の都合なのでしょうか、どの号もほとんど同じページ数ですね。確 認が楽です。ただ付録と違ってページ数が多いので編集の際には少し注意が必 要です。つまりPDForsellは現在のところ結合して保存に時間が掛かります。 どうもページ数に比例と言うより分割数の2乗に比例する感じで時間が掛かり ます。よって何も考えずにとりあえず「全分割」すると、かなり高性能のパソ コンをお持ちでも後悔する事になります。まずは問題点がないか矢印キーで進 めて行って、問題のページの所で「分割」ボタン、その次のところでまた「分 割」して、切り離しを最小限にすると良いです。

 大体一冊あたり30分かかります。できたファイルの大きさは70MBぐらいに なります。と言うことは1年分で840MB、人生80年とすると70GBぐらいで足りる ことになります。

 「インターフェース」誌の目次情報はCQ出版社の Webサイトにあります。例えばInterface 検索で検索できる他、このページに目次の一覧 のページへのリンクも用意されています。こちらの検索の方が機能的には良い のですが、その結果から直ぐにスキャンしたPDFファイルを見ることはできな いので、ここのデータを頂いて自分用の索引を作成しました。公開するものな らばWebサーバー上でCGIで作成するのですが、個人用ローカルとなると JavaScriptでやることになります。目次を表示してクリックすればそこのペー ジが開かれるようなHTMLのファイルを作成しました。(こんな感じ)データは別ファイル(index.js)に入っています。3年分で5千行ぐらいなので最 終的にはどうなるやら。XMLでかっこよくやりたかったけど、これまで使った ことがなかったのでパス。こちらの方が大容量になった場合対応してくれるな ら考えるけど。このデータを作成するための仕組みも一応あります。(変換のページ)

 iPadに持って行くことを考えると、PDFファイル自体に「しおり」として 目次情報を入れた方が良いかもしません。(iPadは持って居ないので未確認)そ こでPDFファイルに「しおり」情報を追加するソフトを探したのですが、有料 のものばかりで、かつ会話的に設定するという感じでした。HTMLファイルに目 次情報があるので、それを元に「しおり」を設定できないか?と言うことで、 PDForsellが使用しているiTextと言うライブラリーを利用してPDF add Bookmarkと言うソフトを作成しました。良 かったらご利用ください。

楽譜をスキャン

 私は大昔にある合唱団に所属していました。その頃の楽譜が結構ありま して、また紙が悪いのでかなり変色も進んでいます。これも片付けようとスキャ ンする事にしました。大抵B4片面使用なので半分に切ってスキャンします。変 色が進んでいると裏側も取り込まれてしまいます。またなぜか横文字の曲の楽 譜だとよく上下反対に入ります。

はがきをスキャン

 長年高校の部活動のOB会の幹事をしています。このはがきも何か捨てら れなくて残っていました。これもPDF化してOB会のホームページに載せました。 近頃はメールによる案内と併用していますが、メールで返ってきたものはこれ までwebページに掲載していましたが、はがきで返ってきたものはOB会の会場 で回覧するしかありませんでした。

 スキャンの際の注意点は、厚みがあるので欲張らないで、一回に付き10 枚未満でやることです。また両面で読み取ると通常半分削除することになりま す。PDForsellは削除すると一つ前のページになるので、一番最後から削除し ていくと効率よく作業が進みます。それならば最初から片面読み込みにすれば 良いと言う話もありますが。。。

年賀状や名刺のスキャン

 これも結構あります。どちらも両面読み取りをした 上で、両面を合わせたものを1ページにしたいと思いました。(例: 変換後)しかし、 なかなかそのようなソフトを見つける事ができませんでした。そのうち PDForsellで使用しているiTextと言うライブラリーのサンプルに、2ページを1 ページにする例がありましたので、自分で作る事にしました。できたソフトが PDF2on1です。よろしかったらご利用ください。 プログラムを作成したら疲れたので、まだ実際に年賀状には使用していません。 名刺は多分検索ができないと大変だし、コメントのようなものも付けたいので、 名刺管理用のソフトを使用した方が良いかもしれません。

 この2ページを合体させるソフトを元に小冊子印刷用のソフトを作成しました。A5やB6サイ ズのページを2つ合わせてA4やB5の紙に印刷し、二つ折りして冊子の形にする ためのものです。それぐらいプリンターの機能で大抵できるのですが、原稿が Wordの部分とExcelの部分からなり、奇数ページ目で切り替わると言う様な困っ た話がありましたので作りました。スキャンとは全然関係ありませんが、他に 載せるところもなかったのでここに。


もどる  by K.Miki (2011/1/7から最終変更は2014/6/23)