Jisui
書籍の裁断からスキャニング
- 購入したこの文庫本を裁断・スキャニングしてPDF保存ののちSonyReaderで読むのが今まで行っていた方法なのですが、今回はOCRして文字として認識させたものをReaderで読めるのかを実験してみました。
- 裁断前の文庫本
- 厚いのでカッターを用いてそれぞれ分割した
- 裁断機に載せたところ。
明るいのは照明で裁断位置の確認をしているところ
- 裁断機に載せたところを上からみた
- 裁断した文庫本
- DR-2510Cにて両面スキャン中
- DR-2510Cにて両面スキャン中のコンピュータ画面。
細かい設定は別にして、白黒両面400dpiで行っています。
ここからは、e.Typist体験版での処理になります。
- e.Typist体験版にてスキャンして保存したPDFデータの取込中
- e.Typist体験版にてレイアウト認識と文字認識
- e.Typist体験版にて文字認識の連続処理
あまり控えをとっていなかったので、e.Typist製品版にて再度必要なカット撮影をおこなう
- e.Typistにてデータを読み込んだところ。
この後、文字認識までは終了させています。
- e.Typistにてメニューから全文解析の実地。
この処理で認識した文字の誤字が判別できるようになります。
- e.Typistにて認識結果の画面にあるアイコンから全文解析の実地。
このコマンドのあることは後で気がつきました。
- 全文解析の結果、誤字等があると思われるヶ所が
赤文字で表示され、この後の編集が容易に行えるようになっている。
ここからは、読取革命Ver14の画面になります。
- 読み込んでレイアウト処理を行ったところです。
ノンブルは赤字で囲まれていて本文の認識とは
区別されている。
- 連続処理を行ったところ、レイアウト認識を
ミスして文字認識をしているページが数カ所ありました
- ノンブルと本文が綺麗に認識された。
但し、ルビは認識されない。
- 誤認識と思われる箇所は、グレーの背景文字となって表現されるが、ハッキリと言って見づらい。
この辺は、e.Typistに軍配が上がる。
但し、文字の修正は簡単に行うことが出来ます。
- 裁断前の文庫本
OCR結果の簡単な比較
- e.Typist Ver14と読取革命Ver14での簡単な比較です
- e.TypistからのText形式で出力したものです。
「txt」形式で保存すると、各ページに「ページの区切り」が入る。
- e.TypistからのWord形式で出力し、WordからText保存たものです。
スキャンした範囲ごとだと思いますが、その位置に改行が入って表示
- e.Typistからのrtf形式で出力し、ワードパッドからText保存たものです。
スキャンした範囲ごとだと思いますが、その位置に改行が入って表示されるが、改行幅が小さくこちらの方が読みやすいと思う。
(但し、好みの問題があります。)
- e.TypistからWord形式で出力したものです。
- e.Typistからrtf形式で出力したものをワードパッドで
表示したものです。
読取革命でも色々と試してみましたが、こちらはある程度クセがあるようです。
- 読取革命から「Word(本文)文書」形式で出力したものです。
ここで「Word文書」で保存すると、Wordでの見た目は
変わらないが、テキストボックス内に文字が表示されて
いる状態となる。
- 読取革命から「Word(本文)文書」形式で出力し、Wordからrtf形式で保存したものをワードパットで
読込んだものです。
- 読取革命から「Word(本文)文書」形式で出力し、WordからTxet形式で保存したものです。
「Word文書」で出力し、WordからText保存すると
何も出力されない。
- e.TypistからEPUB3形式で出力したものをSonyReaderで表示したものです。
ご覧のように全く読めません。
- e.Typistからrtf形式で保存したデータをワードパットで「テキストドキュメント」で保存したものをSonyReaderで
表示したものです。
- e.Typistからrtf形式で保存したデータをワードパットで「テキストドキュメント」で保存したものをSonyReaderで
文字を拡大表示したものです。
- KoboTouchではText表示は不可でした。
写真は無いですが、e.Typistから直接EPUB3形式で出力したデータは、KoboTouchでは□□□□□と表示されてしまい読むことが出来ませんでした。
次に、ChainLPを使ってepub形式で出力してみます。
- ChainLPでTextデータを読み込んでいるところ
- ChainLPでText形式で表示。
この状態でePub形式で保存するとSonyReaderで
横書での表示となるが、文字の拡大は可能である。
- ChainLPで画像として表示(下にあるタブで切替)。
この状態でePub形式で保存するとSonyReaderで
縦て書き表示されるが、文字の拡大は画像のため
不可である。
- e.TypistからのText形式で出力したものです。
まとめると
- e.Typistの場合は
e.Typistの読み取り制限は500ページである。
又、体験版ではOCRデータの保存は出来ない。
- 「rtf」形式で保存してもワードパットで縦書きで表示出来る。
- 「txt」形式で保存すると、各ページに「ページの区切り」が入る。
- 「txt」形式で保存する場合は、「ワードパット」からかでも「Word」からでも可能。
しかしながら違いはある。- 「Word」から保存した場合:
スキャンした範囲ごとだと思いますが、その位置に改行が入って表示
- 「ワードパット」から保存した場合は:
スキャンした範囲ごとだと思いますが、その位置に改行が入って表示されるが、改行幅が小さくこちらの方が読みやすいと思う。(但し、好みの問題があります。)
- 「Word」から保存した場合:
- 私の推奨は:
- rtf形式で保存したデータをワードパットで「テキストドキュメント」で保存する方法が良いように思われます。
- 但し、製品版で気がついたのですが、e.Typistの場合は直接EPUB3形式で直接保存が可能です。
- 読取革命の場合:
- スキャンして認識した後は、「Word(本文)文書」として保存する。
- その後、リッチテキストフォーマット形式で書き出し(縦書き情報は失われない)
- 「Word文書」で保存すると、リッチテキストフォーマット形式で書き出した場合縦書き情報が失われ、横書きとなる。
- 「rtf」形式で保存した文書をワードパットで開くと縦書き情報が失われ、横書きとなる。
但し、同じ文書をWordで開くと縦書きで表示出来るが、テキスト枠の中の文字として表示されるため「txt」形式で保存しても何も表示されない。
- Wordからtxt形式で保存するときは、「改行の挿入」は行わない。
- 従って、「Word(本文)文書」形式で保存し、そこから「txt」形式又は、「rtf」形式で保存を行うと良い。
- 私の推奨は:
- 「Word(本文)文書」形式で保存し、そこから「txt」形式で保存。
- Kobo eReaderの場合:
- zbf形式には未対応
- e.Typistから直接EPUB3形式で出力したものは、□□□□の表示
- ChainLPからText形式表示状態で出力したepub形式は、□□□□の表示
- ChainLPから画像として出力したepub形式は、当然ですが表示可能である。
- rtf形式で保存したデータをワードパットで「テキストドキュメント」で
保存したものは、?!??!の表示
- 結論:
- ここまで色々試してきましたが、作業に見合う効果はあまりなかったように感じます。
具体的には次のようなものが挙げられます。- 作業にはもの凄く時間がかかります。
慣れにもよりますが、今回のケースでは合計7時間位かかっています。 - ルビ文字が上手く表示されないため、今回の場合は削除しました。
- 今までは、PDF化の後、周囲の余白をトリミングして終わりです。
この場合は、本での表示状態と変わらず読むことが出来る。 - 今回のケースでは、上巻はe.TypistでOCRし、下巻は読取革命でOCR処理して
みましたが、共にText形式で読み込ませると、横書での表示となるため、
文庫本の縦書のイメージが強すぎて読むのに違和感があり、結局、縦書表示
出来る画像形式でのePubで読む事にしたため、OCR処理した意味が無い。
現在、上巻を読み始めたところですので、下巻を読み終えた後のOCR処理の
結果を後日追記する予定です。
- 作業にはもの凄く時間がかかります。
- ここまで色々試してきましたが、作業に見合う効果はあまりなかったように感じます。
a:4071 t:1 y:2