光学文字認識に精度向上をもたらした人工知能…Intelligent OCRの登場

1995年にはオフィスから紙が消えてなくなる――。

レザープリンターなどの研究で、関連産業に多大な影響を及ぼしてきた米パロアルト研究所(旧名称:Xerox Palo Alto Research Center)。その場所で責任者を務めていた物理学の巨匠ジョージ・ペイク氏は、1955年に冒頭のような未来を見通したという。すべての情報はデジタル化し、データを伝える媒体としての紙はオフィスで必要とされなくなる。そんな時代の到来を“予言”したのだ。しかし、その予言は的中することはなかった。2017年を迎えた現在でも、オフィスでは大量の紙が業務のために利用されている。

改めて書くことでもないかもしれないが、業務に利用される紙の資料やそこに書きこまれた情報は、企業にとっては必要不可欠、また有用なデータ群だ。例えば、経費精算のための領収書や、求職者から送られてきた履歴書などは各部署にとってなくてはならないものだし、紙に書かれた顧客アンケートは企業のサービスを向上させる上で貴重な財産となる。それら紙媒体に書かれた文字、つまりアナログ文字データをデジタルデータにすべて変換し、作業の効率化や自社の資産として活用したいと考えている企業は、決して少なくないはずだ。

とはいえ、オフィスに積み上げられたアナログ文字データをデジタルデータに変換する作業は、決して容易ではない。何より入力作業をするスタッフの人件費などコスト、そして時間がかかる。また入力作業における正確性の問題もでてくる。人間が作業する場合、どれだけ気をつけたとしても、ミスなく完璧に入力作業を延々とこなすというはほぼ不可能に近い。ミスが生まれれば、データの有効活用どころか、他の業務に支障が出たり、時に社内業務プロセス全般に影響が及ぶケースもおのずと生まれてくることになる。

人工知能技術が取り入れられた「知能型OCR」の登場

必要不可欠かつ有用だが、扱いが決して容易ではないアナログ文字データを正確かつ効率よくデジタルデータに変換できないか――そういう需要から期待を集めてきたテクノロジーがある。光学文字認識(Optical character recognition、以下OCR)だ。特に最近では、ニューラルネットワークなど人工知能技術が取り入れられた「知能型OCR」の登場に注目が集まっている。

これまで世界の各企業や研究団体からは、高速かつ高精度な認識が可能だとするOCRが相次いで公表されてきた。ただ実際のところは、悪筆、すなわちくずれた字やつぶれた字、汚い字を正確に認識することができないという“技術の壁”が存在した。加えて、丁寧に記述された手書き文字であっても、類似した形の文字を読み取る場合に「誤認識」が生じることが少なくなかったとも言われている。

日本語を例にとって端的に説明するならば、平仮名の「う」と、片仮名の「ラ」は形が似ている。それら似たような文字が乱暴に書かれていると、従来のOCRでは適切に認識することができなかったという訳だ。そこで技術的なブレイクスルーを達成するために採用されはじめたのが、ディープラーニングや機械学習などニューラルネットワーク、すなわち人工知能技術ということになる。

従来のソフトウェアプログラムでアナログ文字データを認識しようとすると、対象となる文字の特徴をエンジニアがすべて「記述」する必要があった。しかし、手書きとなれば字の特徴は人によって千差万別。ほぼ無限に存在することになる。そのすべてをプログラミングすることが不可能だということは、専門家でなくても容易に想像できよう。

OCR技術の発展が、企業に効率化、合理化をもたらす

一方、ニューラルネットワークはまったく異なったアプローチで、手書き文字の認識精度を高める。発想としては、手書き文字の情報サンプル(訓練データ)を大量に集め、それを機械に学ばせるというものだ。機械側は訓練データを学ぶうちに認識のためのルールを自ら考えだす。つまり、エンジニアが特徴をひとつひとつ書かなくても、「この文字は○○である」と自ら判断し出すということになる。

実際、ニューラルネットワークを使ったOCRは、音声認識や動作検出などと同様に、高い認識率を誇るとの評判だ。日本企業の導入事例も徐々に増えており、海外の一部銀行や郵便局では、小切手処理、住所確認など、重要な作業に採用されはじめているという報せもある。

OCR技術の発展が、企業に効率化、合理化をもたらすことは間違いない。さらに言えば、OCRそのものが新たなビジネスの源泉になる可能性もある。そのひとつに医療分野がある。

例えば、精度の高いOCRと音声合成技術(TTS)を組み合わせれば、視覚障害者が本や手書き文字を読む=聞くことができるようになる。実際、diotekという企業は、OCRとTTS技術を組み合わせ、視覚障害者専用の文字判読器「Nova CamReader」を開発。すでにリリースして好評を得ているという。

現在、OCRに「自然言語処理」などAI技術を取り入れ、認識率をさらに高めるための研究も行われているとのこと。いずれ技術が発展すれば、文脈から手書き文字を判断し、人間の誤字でさえ修正してくれる高度なOCRが登場する時代がくるかもしれない。そうなれば、企業のオフィス業務や医療分野に限らず、生活のさまざまなシーンで重宝されていくはずだ。