WEBマガジン

「クイックDXとしてのAI-OCRのススメ」

2020.08.28 株式会社オージス総研 コンサルティングサービス部  正木 威寛

DX(デジタルトランスフォーメーション)の概念は様々で、どのくらいの改革であればDXなのか明確な規定はありません。たとえばRPA、AI-OCR、IoT、5G、ドローン、VRなどの新技術を活用した業務改革をDXだという主張もあれば、業務をスクラップ&ビルドするくらいでないとDXではないという主張もあります。
本稿ではそのような議論に費やすよりも、早くDXの行動を開始することを目指し、速やかに取り組みを開始できる"クイックDX"のひとつとしてAI-OCRを紹介します。あわせてWithコロナだからこそAI-OCRによるDXの必要性についても解説します。

OCRとは

OCRは光学文字認識(Optical Character Recognition)の略で、もともとは紙に書かれた文字を機械で光学的に読み取り、コンピュータが処理できるデータに変換する装置一式を指します。近年では紙をスキャナでデジタル化したJPEGなどの画像ファイルからデータを読み取るOCRソフトウェアを単にOCRと呼ぶこともあります。OCRの歴史は古く、OCRの原理はコンピュータが登場する前の1900年代前半に発明されており、コンピュータがオフィスで使われ始めた1900年代半ばには商用のOCRが登場しました。OCRソフトウェアは、1990年代にヒューレット・パッカードの研究所が開発したTesseract(テッセラクト)が有名で、2005年にオープンソースとなり、ほぼ四半世紀経った現在もグーグルの支援によってメンテナンスされています。

OCRの原理

古くからあるOCRの原理は図 1のとおりで、テンプレートとして用意した文字と重ね合わせてその一致度で判定したり、文字を構成する縦線や横線などの直線や曲線といったパーツの数や位置との一致度で判定していました。しかしながら、どちらの原理も活字など綺麗な字しか読み取れず、日本語ではさらに読み取り精度が十分にでないという欠点があり、かなや漢字を含む自由な文字幅の手書き文字には対応できていませんでした。

図 1 古典的なOCRの原理
図 1 古典的なOCRの原理


OCRの種類

OCRには大きく分けて1ページ丸ごと読み取るタイプ、定型帳票、非定型帳票の3種類があります。1ページ丸ごと読み取るタイプはレイアウトに関係なく文字を読み取るので、ビッグデータ分析など用途は限られます。定型帳票は、固定レイアウトの指定したエリア(項目)を読み取るタイプで、一般的なデスクワークでもっともニーズが高いOCRです。非定型帳票は、受領する請求書のようにレイアウトが何種類もあるが読み取りたい項目は同じ場合に、それぞれのレイアウトを定義しなくてもOCRが該当する項目を見つけて読み取ることができます。項目を読み取る性能だけでなく、項目を見つける性能が求められます。

何故、今AI-OCRを検討すべきなのか

人工知能を様々な分野に適用した事例が2015年あたりから多くでてきました。たとえば顔認識や物体認識などの画像認識、スマートスピーカーの音声認識や音声合成、レコメンドエンジンやチャットBOTで使われる自然言語処理などがあります。四半世紀も変化のなかったOCRも例外ではなく、人工知能を取り入れたAI-OCRが2015年頃に商用化され、2019年頃より導入企業が急激に増えています。あるベンダーでは2019年の1年間で20倍近く導入企業数が増加しました。
それでは何故、AI-OCRにここまで関心が高いのでしょうか。その理由と、引き続きDXの一手として検討すべき理由について述べます。

IT化のラストワンマイルに手を打てるから

どの企業も長年に渡って業務のIT化に取り組み、ITを前提としない業務はほとんどなくなりました。それでも残った業務を自動化するソリューションとして2017年頃からRPA(Robotic Process Automation)の導入が盛んになりました。しかし、RPAが自動化できるのはあくまでコンピュータ上の操作であり、取引先などから紙で受け取る業務は残ってしまいました。業務のラストワンマイルとも言える、その紙で受け取る部分をIT化や自動化に改革できるソリューションとしてAI-OCRへの関心が高まったのです。
 AI-OCRの導入前と導入後の業務を比較したのが図 2です。上段が従来の人手による業務で、下段がAI-OCRを使った業務です。従来は、担当者は申込書や注文書など受領した紙を見ながらPCに打鍵を繰り返して入力します。1日にエントリーする枚数が多いと、専任のオペレータを複数名アサインすることもあります。下段のAI-OCRを活用して効率化すると、先ほどの紙とPCを行ったり来たりする打鍵作業がなくなり、紙をスキャンしてJPEGやPDFなどの電子ファイルにして、AI-OCRでそれを読み取ってシステムへ投入するだけに短縮されています。

図 2 AI-OCRによる業務効率化
図 2 AI-OCRによる業務効率化

劇的に性能が良くなったから

いくら関心が高くても、四半世紀前のOCRの性能では実用に耐えません。先述のとおり人工知能でそれ以前の原理のOCRでは想像できないくらいに性能が良くなり、従来のOCRが苦手だった漢字を含む自由な手書き文字も高精度で認識できる性能が実現できました。
図 3から図 5は、実際にAI-OCRで読み取った例です。それぞれの上段が元の画像で下段が読み取り結果です。図 3では一般的な高と髙(はしごだか)も区別できています。図 4では、自由記述で漢字、数字、記号が混在しており、文字間隔がばらばらですが正しく識別できています。図 5は古典的なマス目の記入項目で従来のOCRでは1文字単位で読み取るのですが、AI-OCRはマス目の線と文字を区別して数字だけを正しく読み取れていることがわかります。

図 3 AI-OCRの読み取り例1(はしごだか)
図 3 AI-OCRの読み取り例1(はしごだか)


図 4 AI-OCR読み取り例2(漢数記号混在、複数行)
図 4 AI-OCR読み取り例2(漢数記号混在、複数行)


図 5 AI-OCR読み取り例3(マス目)
図 5 AI-OCR読み取り例3(マス目)

導入や利用が容易になったから

商用のAI-OCRは基本的にはSaaS(クラウド)で提供されており、手続きが完了すれば自社でサーバー等を構築することなしに速やかに利用開始できます。この導入の手軽さもAI-OCRが歓迎されている理由のひとつです。読取エンジンは継続的に改良されており常に、クラウドで最新のOCRエンジンが利用できるのもメリットです。また機密性の高い帳票を読み取らせたい場合は、AI-OCRをセットアップしたサーバーを貸し出すアプライアンス方式の提供を用意しているベンダーもあります。
使い方も簡単で、帳票のどこの項目を読み取りたいのかを一度設定しておけば、その後は読み取らせたい帳票のアップロードと読み取り結果であるCSVをダウンロードするだけです。ベンダーによっては、読み取らせた後の確認画面を用意し、目視で確認・修正してからCSVのダウンロードをすることもできます。先ほどの図 3から図 5はその修正画面のスクリーンショットの一部で、下段の読み取り結果に誤りがある場合は編集できるようになっています。

新型コロナで改革が必要に迫られたから

2020年に新型コロナの感染拡大がありました。特効薬やワクチンがないため、一過性のパンデミックではなく "Withコロナ"として今後も感染が継続することを前提とした社会や企業の改革が必要となりました。具体的には"ソーシャルディスタンス"と"テレワーク"です。AI-OCRがどのように関係するのかというと、紙でのやり取りは衛生面や"ソーシャルディスタンス"を踏まえると極力減らす必要性があります。また、テレワークを推進するためには、担当者の自宅に紙を発送するよりも電子ファイルで送るほうが、効率性、セキュリティなどあらゆる面で現実的です。このことからAI-OCRは"Withコロナ"での即効性のある改革手段で、Withコロナの今だからこそ紙をやり取りしている双方の改革への理解が得られやすく、紙文化と決別する転機にすることができます。
WithコロナでのAI-OCRの導入前と導入後の業務を比較したのが図 6です。図 2では紙を渡していた側が自らPDF化してeメールなどで送信し、紙ではなくPDFで受領するところが違います。これにより紙を受領した側がスキャンしてAI-OCRで読み取れるファイルにする作業がなくなり、改善効果は一層高まります。

図 6 WithコロナでのAI-OCRによる業務効率化
図 6 WithコロナでのAI-OCRによる業務効率化

主要なAI-OCR

筆者が調べた先述の要件を満たすAI-OCRは表 1の上から2つです。どちらも日本企業で、手書き文字の読み取り精度が90%以上、ITスキルがそうでもない人でも使いやすいユーザーインタフェースを備え、SaaS(クラウド)で迅速に導入できます。参考として有名ベンダーであるアマゾン、マイクロソフト、グーグルのAI-OCRも併記しています。何れもユーザーインタフェースを持たずAPIだけで提供されており、業務での利用に欠かせない定型帳票には対応していませんので、定型帳票に対応するには自前でユーザーインタフェース部分を実装する必要があります。

表 1 AI-OCRベンダー
表 1 AI-OCRベンダー

グーグルのAI-OCRで実装してみた

ブランド力でしょうか。アマゾン、マイクロソフト、グーグルのAI-OCRで安価に実現できないかという問い合わせは社内外から頂きます。ユーザーインタフェースを自前で用意したとして、果たして目的の精度が得られるのか筆者がグーグルのGCP(Google Cloud Platform)のひとつであるGoogle Cloud Vision APIでやってみた実験結果をご紹介します。
図 3から図 5をGoogle Cloud Vision APIで読み取った結果が表 2です。前処理と後処理を手組して読み取り精度の向上を試みたのですが、この結果に限れば先述の国産AI-OCRよりも誤読や欠落が多いことがわかります。アルファベットと比較すると日本語は格段に難易度が高いので、餅は餅屋、日本語は日本のベンダーということでしょうか。


表 2 グーグル Cloud Vision APIでの読み取り結果
表 2 グーグル Cloud Vision APIでの読み取り結果

まとめ

すぐに取り組める"クイックDX"としてAI-OCRを紹介しました。繰り返しになりますが、Withコロナの今だからこそ紙をやり取りしている双方の改革への理解が得られやすく、紙文化と決別する転機だと思います。もし自社に紙文化が残っているのであればこれを機に検討をお勧めします。

参考リンク
「DX suite」 AI inside 2020年
https://inside.ai
「Tegaki」 コージェントラボ 2020年
https://www.tegaki.ai
「AWS - Amazon Textract」 Amazon 2020年
https://aws.amazon.com/jp/textract/
「Microsoft Azure - Computer Vision - 光学式文字認識 (OCR)」 Microsoft 2020年
https://docs.microsoft.com/ja-jp/azure/cognitive-services/computer-vision/concept-recognizing-text
「GCP(Google Cloud Platform) - Vision AI」 Google 2020年
https://cloud.google.com/vision/

*本Webマガジンの内容は執筆者個人の見解に基づいており、株式会社オージス総研およびさくら情報システム株式会社、株式会社宇部情報システムのいずれの見解を示すものでもありません。

『Webマガジン』に関しては下記よりお気軽にお問い合わせください。

同一テーマ 記事一覧

「BeforeコロナとWithコロナ、テレワークのここが違う」

2020.07.27 共通 株式会社オージス総研 コンサルティングサービス部  正木 威寛