Jisui

TOP



書籍の裁断からスキャニング

  • 購入したこの文庫本を裁断・スキャニングしてPDF保存ののちSonyReaderで読むのが今まで行っていた方法なのですが、今回はOCRして文字として認識させたものをReaderで読めるのかを実験してみました。

    裁断前の文庫本
    1.  裁断前の文庫本

      厚いのでそれぞれ分割した
    2.  厚いのでカッターを用いてそれぞれ分割した

      裁断機に載せたところ
    3.  裁断機に載せたところ。
      明るいのは照明で裁断位置の確認をしているところ

      裁断機に載せたところ(上から)
    4.  裁断機に載せたところを上からみた

      裁断機した本
    5.  裁断した文庫本

      両面スキャン中
    6.  DR-2510Cにて両面スキャン中

      両面スキャン中その2
    7.  DR-2510Cにて両面スキャン中のコンピュータ画面。
      細かい設定は別にして、白黒両面400dpiで行っています。


      ここからは、e.Typist体験版での処理になります。

      e.Typist体験版にてデータの取込中
    8.  e.Typist体験版にてスキャンして保存したPDFデータの取込中

      レイアウト認識と文字認識
    9.  e.Typist体験版にてレイアウト認識と文字認識

      文字認識の連続処理
    10.  e.Typist体験版にて文字認識の連続処理


      あまり控えをとっていなかったので、e.Typist製品版にて再度必要なカット撮影をおこなう

      データを読み込んだところ
    11.  e.Typistにてデータを読み込んだところ。
      この後、文字認識までは終了させています。

      メニューから全文解析の実地
    12.  e.Typistにてメニューから全文解析の実地。
      この処理で認識した文字の誤字が判別できるようになります。

      アイコンから全文解析の実地
    13.  e.Typistにて認識結果の画面にあるアイコンから全文解析の実地。
      このコマンドのあることは後で気がつきました。

      全文解析の結果
    14.  全文解析の結果、誤字等があると思われるヶ所が
      赤文字で表示され、この後の編集が容易に行えるようになっている。


      ここからは、読取革命Ver14の画面になります。

      読み込んでレイアウト処理を行う
    15.  読み込んでレイアウト処理を行ったところです。
      ノンブルは赤字で囲まれていて本文の認識とは
      区別されている。

      レイアウト認識をミスして文字認識
    16.  連続処理を行ったところ、レイアウト認識を
      ミスして文字認識をしているページが数カ所ありました

      レイアウト枠を修正して再度認識させた
    17.  ノンブルと本文が綺麗に認識された。
      但し、ルビは認識されない。

      誤認識と思われる箇所は、グレーの背景文字となる
    18.  誤認識と思われる箇所は、グレーの背景文字となって表現されるが、ハッキリと言って見づらい。
      この辺は、e.Typistに軍配が上がる。
      但し、文字の修正は簡単に行うことが出来ます。


OCR結果の簡単な比較

  • e.Typist Ver14と読取革命Ver14での簡単な比較です

    e.TypistからのText出力
    1.  e.TypistからのText形式で出力したものです。
      「txt」形式で保存すると、各ページに「ページの区切り」が入る。

      e.Typist→Word→Text出力
    2.  e.TypistからのWord形式で出力し、WordからText保存たものです。
      スキャンした範囲ごとだと思いますが、その位置に改行が入って表示

      e.Typist→rtf→Text出力
    3.  e.Typistからのrtf形式で出力し、ワードパッドからText保存たものです。
      スキャンした範囲ごとだと思いますが、その位置に改行が入って表示されるが、改行幅が小さくこちらの方が読みやすいと思う。
      (但し、好みの問題があります。)

      e.Typist→Word出力
    4.  e.TypistからWord形式で出力したものです。

      e.Typist→rtf出力
    5.  e.Typistからrtf形式で出力したものをワードパッドで
      表示したものです。


      読取革命でも色々と試してみましたが、こちらはある程度クセがあるようです。

      読取革命→Word出力
    6.  読取革命から「Word(本文)文書」形式で出力したものです。
      ここで「Word文書」で保存すると、Wordでの見た目は
      変わらないが、テキストボックス内に文字が表示されて
      いる状態となる。

      読取革命→Word→rtf出力
    7.  読取革命から「Word(本文)文書」形式で出力し、Wordからrtf形式で保存したものをワードパットで
      読込んだものです。

      読取革命→Word→Text出力
    8.  読取革命から「Word(本文)文書」形式で出力し、WordからTxet形式で保存したものです。


      「Word文書」で出力し、WordからText保存すると
      何も出力されない。

      e.Typist→EPUB3出力
    9.  e.TypistからEPUB3形式で出力したものをSonyReaderで表示したものです。
      ご覧のように全く読めません。

      ワードパッド→Text出力
    10.  e.Typistからrtf形式で保存したデータをワードパットで「テキストドキュメント」で保存したものをSonyReaderで
      表示したものです。

      Textデータなので文字の拡大可能
    11.  e.Typistからrtf形式で保存したデータをワードパットで「テキストドキュメント」で保存したものをSonyReaderで
      文字を拡大表示したものです。

      TextをKoboTouchで表示したもの
    12.  KoboTouchではText表示は不可でした。


      写真は無いですが、e.Typistから直接EPUB3形式で出力したデータは、KoboTouchでは□□□□□と表示されてしまい読むことが出来ませんでした。


      次に、ChainLPを使ってepub形式で出力してみます。

      ChainLPでTextデータを読み込む
    13.  ChainLPでTextデータを読み込んでいるところ

      ChainLPでText形式で表示
    14.  ChainLPでText形式で表示。
      この状態でePub形式で保存するとSonyReaderで
      横書での表示となるが、文字の拡大は可能である。

      ChainLPで画像として表示
    15.  ChainLPで画像として表示(下にあるタブで切替)。
      この状態でePub形式で保存するとSonyReaderで
      縦て書き表示されるが、文字の拡大は画像のため
      不可である。



まとめると

  • e.Typistの場合は
    e.Typistの読み取り制限は500ページである。
    又、体験版ではOCRデータの保存は出来ない。

    1. 「rtf」形式で保存してもワードパットで縦書きで表示出来る。
    2. 「txt」形式で保存すると、各ページに「ページの区切り」が入る。
    3. 「txt」形式で保存する場合は、「ワードパット」からかでも「Word」からでも可能。
      しかしながら違いはある。
      1. 「Word」から保存した場合:
          スキャンした範囲ごとだと思いますが、その位置に改行が入って表示

      2. 「ワードパット」から保存した場合は:
          スキャンした範囲ごとだと思いますが、その位置に改行が入って表示されるが、改行幅が小さくこちらの方が読みやすいと思う。(但し、好みの問題があります。)
    • 私の推奨は:
    1. rtf形式で保存したデータをワードパットで「テキストドキュメント」で保存する方法が良いように思われます。

    2. 但し、製品版で気がついたのですが、e.Typistの場合は直接EPUB3形式で直接保存が可能です。



  • 読取革命の場合:
    1. スキャンして認識した後は、「Word(本文)文書」として保存する。
    2. その後、リッチテキストフォーマット形式で書き出し(縦書き情報は失われない)

    3. 「Word文書」で保存すると、リッチテキストフォーマット形式で書き出した場合縦書き情報が失われ、横書きとなる。

    4. 「rtf」形式で保存した文書をワードパットで開くと縦書き情報が失われ、横書きとなる。
      但し、同じ文書をWordで開くと縦書きで表示出来るが、テキスト枠の中の文字として表示されるため「txt」形式で保存しても何も表示されない。

    5. Wordからtxt形式で保存するときは、「改行の挿入」は行わない。

    6. 従って、「Word(本文)文書」形式で保存し、そこから「txt」形式又は、「rtf」形式で保存を行うと良い。

    • 私の推奨は:
    1. 「Word(本文)文書」形式で保存し、そこから「txt」形式で保存。

  • Kobo eReaderの場合:
    1. zbf形式には未対応
    2. e.Typistから直接EPUB3形式で出力したものは、□□□□の表示
    3. ChainLPからText形式表示状態で出力したepub形式は、□□□□の表示
    4. ChainLPから画像として出力したepub形式は、当然ですが表示可能である。
    5. rtf形式で保存したデータをワードパットで「テキストドキュメント」で
      保存したものは、?!??!の表示



  • 結論:
    1. ここまで色々試してきましたが、作業に見合う効果はあまりなかったように感じます。
      具体的には次のようなものが挙げられます。
      1. 作業にはもの凄く時間がかかります。
        慣れにもよりますが、今回のケースでは合計7時間位かかっています。
      2. ルビ文字が上手く表示されないため、今回の場合は削除しました。
      3. 今までは、PDF化の後、周囲の余白をトリミングして終わりです。
        この場合は、本での表示状態と変わらず読むことが出来る。
      4. 今回のケースでは、上巻はe.TypistでOCRし、下巻は読取革命でOCR処理して
        みましたが、共にText形式で読み込ませると、横書での表示となるため、
        文庫本の縦書のイメージが強すぎて読むのに違和感があり、結局、縦書表示
        出来る画像形式でのePubで読む事にしたため、OCR処理した意味が無い。


        現在、上巻を読み始めたところですので、下巻を読み終えた後のOCR処理の
        結果を後日追記する予定です。












認証コード(4197)









a:3989 t:1 y:0