原來OCR不只能辨識平面文字?完整介紹帶你認識OCR 3 大應用

  • LargitData
  • 十一月 13, 2020, 8:26 a.m.

自從1929年德國科學家Tausheck提出字元辨識的應用概念,至今光學字元辨識(OCR),結合人工智慧進行深度學習,為人們提供更精準的文字辨識服務。今天將帶您瞭解OCR的應用原理與流程,透過相關案例介紹,帶您認識這項技術帶來的便利之處。

OCR是什麼?將平面文字轉換成數位資訊的關鍵技術

光學字元識別OCR(Optical Character Recognition),是將圖片或掃描文字轉換為數位資料的一種技術。企業或公部門如果要數位轉型,傳統保存資訊的紙本形式已無法跟上資訊化的腳步,因此必須藉由OCR辨識技術,將過去的紙本文字轉成數位資訊,除此之外,OCR還可以用於車牌辨識、字跡辨識、RPA、破解驗證碼、檢驗違規廣告等多種應用。

OCR原理是什麼?OCR辨識流程7步驟

OCR主要的目標是從圖片中或掃描檔案中辨識出文字資訊。傳統OCR辨識流程主要有7個步驟:

 

步驟1:影像輸入

讀取平面文字。

步驟2:前期影像處理

將平面文件前後背景分開、留下黑色字體的前景,與白色的背景(二值化)、降噪處理後, 再進行傾斜修正。

步驟3:分割字元
分析裝置將平面中的所有文字、數碼和標點符號分別切割。

步驟4:單字細線化
將字體線條變細,判讀字元結構,消除多餘的資料量,避免造成文字誤判。  

步驟5:抓取單字的特徵點
分析裝置透過多種方法尋找字元中最具特徵的部分,判讀字元的意思,並進行編碼。  

步驟6:比對校正
將辨識編碼後的字元,與文字資料庫進行比對,找出最接近的文字。  

步驟7:輸出辨識結果
完成整個分析辨識過程,再輸出OCR的文字檔案。

 

傳統OCR辨識技術的限制

然而,因為技術限制,傳統OCR辨識有著3個明顯缺點:

1.對平面文件的工整度要求極高
辨識系統需要平面文件的版面結構有明顯樣板,且前背景可分性佳,對於前背景複雜(如廣告DM)的文字版面則無法進行辨識。

2.需要文字清晰可辨
辨識系統對於字型變化,或畫面模糊受干擾時的辨識能力會急遽下降。

3.字元分割能力的好壞將決定辨識結果
字元分割對辨識系統而言是關鍵環節,因此若出現字元扭曲、字與字之間有筆畫連繫、雜訊過多的情況下,容易出現字元分割不精準,進而影響文字辨識錯誤。

結合人工智慧的OCR辨識系統,藉由深度學習提升辨識精準度

隨著人工智慧的技術發展不斷突破,與OCR光學辨識結合後,大幅優化OCR的作業流程,更改善了前面提到技術限制造成的缺點,創造出2大優勢:

1.不受排版影響

對比傳統OCR技術,極需要求平面文件的排版工整度,新型態的OCR結合人工智慧,即使辨識畫面歪斜、字句非縱橫平整排列,甚至連電視、影片中的文字,都能清楚辨識,打破OCR只能辨識掃描文件的限制。

2.持續優化

透過深度學習搭建的人工智慧OCR模組,可隨著處理過的文件量增加,加強辨別錯字的辨識能力,自我學習優化。


3大OCR技術應用-影像、手寫辨識文字資訊

OCR技術不只可辨識平面文字,將其輸出成電子文件,透過同樣的原理,產生3種延伸應用:

1.圖片轉文字

從圖片或掃描文件中辨別所需資訊,如保單資料;生活中隨手拍的書籍雜誌片段、筆記內容,都可透過OCR辨識技術,將圖片轉換為數字資料。

2.自動化

加入OCR 到RPA自動化流程,運用程式取代繁雜瑣碎的工作。

3.智慧監控
對於電視或影像中提及的文字進行辨別分析,可以快速監控所有新聞與廣告,檢查廣告是否合規, 或電視新聞內是否有提及與公司品牌相關之名詞。

 

OCR光學字元辨識系統|大數軟體,運用人工智慧OCR,將繁瑣重複的工作自動化

大數軟體推出的OCR光學字元辨識系統, 是透過深度學習打造的辨識模型,具有精準的文字辨別能力, 能夠偵測圖片中的表格與文字,一鍵可將所有圖檔轉化成有用的數據資料, 可以用於企業客戶文件自動審查、電視與雜誌輿情監控等服務,幫助您快速有效的做出正確決策,帶領企業向上提升。

歡迎聯繫我們,詢問更多OCR服務。