私の講演に際して行ったアンケートで、用紙に記載された質問事項の転載を致します。
<質問事項>
紙の情報をテキスト化する方法を詳しく教えて下さい。
この部類の情報には、バインダーフィアイルに綴じられた手書きやワープロ書きの資料がまず挙げられる。さらにこれらの資料をマイクロフィルムで撮影した、アナログイメージデータがある。その内容は、やはり手書きの場合とワープロ印刷の両者が一般的です。そして最後は、MOやハードディスク上に保管されたデジタルイメージデータです。これらになると殆ど手書きはなくなり、ワープロ印刷の文書が中心になります。
さてこれらの情報をデジタル化する方法だが、まず元になる情報が、手書きかワープロ若しくは印刷物かでその流れが違ってきます(図1)。
対象が手書き情報だったときには、その形態が紙のまま、マイクロフィルム、MOやTIFなどのデジタルイメージ情報であろうとも、その処理は同じ流れとなります。作業的には、パートなどを活用した人海戦術でのデジタル文字入力作業と、文書データのTIFやなどのデジタルイメージデーター化の両方の作業が必要となります。デジタル文字入力とは、特に道具は選ばないが、MSワードなどを用いて、文書データを文字化することです。デジタルイメージ化とは、文書データをスキャナーなどで読み込み、コンピュータで扱えるイメージデータに変換することです。
当然既にデジタルイメージになっている文書は、仮にそのイメージデータの様式が、これから統一して行こうとするファイル様式と異なっていても、改めてスキャナーで処理をし直す必要はありません。大抵のイメージ様式にはその様式を変換するための道具(プログラム)が用意されているからです。不幸にして余りにも特殊なファイル様式を用いたデジタルイメージデータが残されていた場合には、専用プログラムを作成する必要があるかもしれない。しかし私などに言わせれば、技術的にはこの手の変換プログラムは、それほど難しいものではありません。
そして文字化したデジタルデータは、全文検索エンジンが検索用のインデックスを作成する検索用の元データとして用い、デジタルイメージデータは、検索されるページと対で、自動的にユーザー画面に表示される、閲覧用のデータとして用います。
これまで私が各所でこの考え方を示すと、「パートに文字入力させるのはよいが、そのチェック修正が大変だ」「結局入力ミス、変換ミスだらけで使えないデータを作る作業になるのではないか」などと、後ろ向きの発言が必ず起きました。しかしよく考えて欲しい、文字入力したテキストデータは、全文検索のインデックス作成用にしか用いません。少々の入力ミスや変換ミスがあっても、そのミスが三割以下なら差し支えないと私は考えています。
ところがこれまで各所で行ったこの取組では、精査までは行っていないが、全てが一割以下のミスで済んでいました。パート女性達の責任感と実力を侮ってはいけません。この取組をこれまで行った何処においても、作業を始めた当初は検査担当者達も、一生懸命文字入力結果の抜き取り検査などを行うのだが、二週間三週間と日が経つにつれ、そのチェックはかなりいい加減になる傾向にありました。そして終わりのころには、本当に粗い抜き取り検査の状況になる事が一般的でありました。品質管理の抜き取り検査の考え方に沿ったら、安定した品質の出来映えに対しては、当然の経緯と言うことも言えるが、パートの質を確保することさえ怠らなければ、殆ど危惧することはありません。
もう一つの紙文書のデータに、活字で作られてデータがある。出版物やタイプライター、ワープロで作成された文書です。これらの文書は既にデジタルイメージデータがあるので、まず閲覧用のデータ作成の必要はありません。精々これから行おうとする統一イメージファイル様式に変換する程度の作業で済みます。
一方全文検索用のインデックスを作成する元になる文字データ作りは、OCRプログラムを用いることで、殆ど人手を掛けなくて行うことが出来ます。昨今は、変換率99%を唄っているプログラムなどが軒並みだが、これはあくまでもスキャニングしたイメージデータの状態が良い場合の話です。
元々、MOやハードディスクにTIF形式などで残されてきたこれらのイメージファイルの殆どは、将来このような使い方をされるなど想定すらされていない中でのスキャニング作業でした。よってそのスキャン解像度も、300DPIいやそれ以下の解像度であることが普通です。このためにその変化率に高望みをすることは禁物であり、私は七割程度の変換が出来れば十分と考えています。
元々ゴミの山に捨てられていた文書類です。これらの文書類が七割もの補足率で見つけ出せるようになると思えば、御の字と思っているからです。