KR102488049B1

KR102488049B1 - 딥러닝 모델 기반 문자정보 자동인식 시스템 및 자동인식 방법

Info

Publication number: KR102488049B1
Application number: KR1020200145809A
Authority: KR
Inventors: 이태경; 김준영
Original assignee: 고등기술연구원연구조합
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2023-01-12
Also published as: KR20220060162A

Abstract

본 발명은 딥러닝 모델 기반 문자정보 자동인식 장치 및 자동인식 방법에 관한 것으로, 본 발명의 일 실시예에 따른 딥러닝 모델 기반 문자정보 자동인식 시스템은, 공정배관계장도(P&ID) 이미지가 입력되는 입력 모듈; 상기 공정배관계장도(P&ID)의 이미지에 포함된 문자의 위치에 대한 좌표 및 상기 문자 위치 좌표에 배치된 문자 영역 이미지를 추출하는 문자검출 모듈; 상기 문자검출 모듈에서 상기 문자 영역 이미지를 수신하여, 상기 문자 영역 이미지에 포함된 문자를 예측하는 문자인식 모듈; 및 상기 문자검출 모듈에서 추출된 상기 문자 위치 좌표 및 상기 문자인식 모듈에서 예측된 문자를 출력하는 문자출력 모듈을 포함할 수 있다. 본 발명에 의하면, 딥러닝 모델을 기반으로 입력받은 이미지 형식의 공정배관계장도(P&ID)에서 다양한 문자정보를 자동으로 인식하고 인식된 문자정보를 리스트화하여 기존의 엔지니어가 수작업으로 작업할 때 발생하는 오류를 최소화할 수 있다.

Description

딥러닝 모델 기반 문자정보 자동인식 시스템 및 자동인식 방법{AUTOMATIC RECOGNITION SYSTEM OF TEXT INFORMATION BASED ON DEEP LEARNING MODEL AND AUTOMATIC RECOGNITION METHOD}

본 발명은 딥러닝 모델 기반 문자정보 자동인식 장치 및 자동인식 방법에 관한 것으로, 더욱 상세하게는 딥러닝 모델을 기반으로 입력받은 이미지 형식의 공정배관계장도(P&ID, piping and instrumentation diagram)에 포함된 다양한 문자 정보를 자동으로 인식할 수 있는 딥러닝 모델 기반 문자정보 자동인식 시스템 및 자동인식 방법에 관한 것이다.

공정배관계장도(P&ID, piping and instrumentation diagram)는 플랜트 엔지니어링 산업에서 이용되는 핵심 도면이며, 플랜트를 구성하는 기기와 배관 및 계장 정보를 담고 있다. 이러한 공정배관계장도(P&ID)는, 플랜트의 규모에 따라 수백 장이나 수천 장일 수 있다.

국내 플랜트 운영 기업은 플랜트의 긴 수명주기에 따라 오래전에 EPC 기업으로부터 넘겨받은 수많은 공정배관계장도(P&ID)를 하드카피로 보관하거나 또는 단지 스캔된 이미지 형식으로 관리한다. 그에 따라 실질적으로 디지털화된 데이터를 활용하지 못하는 문제가 있다.

종래에는, 상기와 같이, 이미지 형식의 공정배관계장도(P&ID)를 디지털화하기 위해 다수의 숙련된 엔지니어가 직접 도면을 확인하고 수작업으로 재모델링을 진행하고 있다.

이렇게 공정배관계장도(P&ID)를 재모델링하는 과정에서 수많은 오류가 발생할 수 있고, 다수의 숙련된 엔지니어의 불필요한 시간이 소요되는 문제가 있다.

대한민국 등록특허 제10-2150204호 (2020.08.25.) 대한민국 공개특허 제10-2020-0068073호 (2020.06.15.) 대한민국 공개특허 제10-2020-0065613호 (2020.06.09.)

본 발명이 해결하고자 하는 과제는, 이미지 형식의 공정배관계장도(P&ID)를 자동으로 디지털화 할 수 있는 딥러닝 모델 기반 문자정보 자동인식 시스템 및 자동인식 방법을 제공하는 것이다.

본 발명의 일 실시예에 따른 딥러닝 모델 기반 문자정보 자동인식 시스템은, 공정배관계장도(P&ID) 이미지가 입력되는 입력 모듈; 상기 공정배관계장도(P&ID)의 이미지에 포함된 문자의 위치에 대한 좌표 및 상기 문자 위치 좌표에 배치된 문자 영역 이미지를 추출하는 문자검출 모듈; 상기 문자검출 모듈에서 상기 문자 영역 이미지를 수신하여, 상기 문자 영역 이미지에 포함된 문자를 예측하는 문자인식 모듈; 및 상기 문자검출 모듈에서 추출된 상기 문자 위치 좌표 및 상기 문자인식 모듈에서 예측된 문자를 출력하는 문자출력 모듈을 포함할 수 있다.

상기 입력 모듈은, 입력된 공정배관계장도(P&ID) 이미지의 크기를 설정된 크기로 변환할 수 있다.

상기 문자검출 모듈은, 문자 객체가 가지는 연결성을 학습한 VGG(Visual Geometry Group) 및 순환신경망(RNN, recurrent neural network) 딥러닝 모델을 이용하여 상기 공정배관계장도(P&ID) 이미지에서 상기 문자 위치 좌표 및 문자 영역 이미지를 추출할 수 있다.

상기 문자검출 모듈은, 상기 공정배관계장도(P&ID) 이미지에서 가로 방향에 대한 문자 영역 및 세로 방향에 대한 문자 영역을 추출할 수 있다.

상기 문자인식 모듈은, 상기 문자 영역 이미지에서 이미지 변형, 특성 추출, 문자 순서 모델링 및 정보 예측을 통해 문자의 정보를 인식할 수 있다.

상기 문자인식 모듈은, STN(Spatial Transformer Network) 모델을 사용하여 상기 문자 영역 이미지 내에 포함된 기형적이거나 변형(Deformation)되어 있는 문자를 인식하여 이러한 문자를 노멀라이즈(normalize)하는 상기 이미지 변형을 수행할 수 있다.

상기 문자인식 모듈은, 상기 문자 영역 이미지에서 CNN(Convolutional Neural Network) 모델 중 정확도와 안정성이 높은 ResNet 기반의 모델을 사용하여 문자의 특성을 추출할 수 있다.

상기 문자인식 모듈은, BiLSTM(Bidirectional Long Short Therm Memory) 모델을 사용하여 문자를 구성하는 문자 간의 순서를 모델링할 수 있다.

상기 문자인식 모듈은, Attn(Attention-based Sequence Prediction) 모델을 이용하여 문자 간의 순서가 모델링된 정보를 기반으로 문자의 내용을 예측할 수 있다.

한편, 본 발명의 일 실시예에 따른 딥러닝 모델 기반 문자정보 자동인식 방법은, 공정배관계장도(P&ID) 이미지가 입력되고 입력된 상기 공정배관계장도(P&ID) 이미지의 크기를 설정된 크기로 변환하는 단계; 상기 공정배관계장도(P&ID)의 이미지에 포함된 문자의 위치에 대한 좌표 및 상기 문자 위치 좌표에 배치된 문자 영역 이미지를 추출하는 단계; 상기 문자 영역 이미지에 포함된 문자를 예측하는 단계; 및 상기 문자 위치 좌표 및 상기 문자인식 모듈에서 예측된 문자를 출력하는 단계를 포함할 수 있다.

상기 문자 영역 이미지를 추출하는 단계는, 상기 공정배관계장도(P&ID) 이미지에서 가로 방향에 대한 문자 영역을 추출하는 단계; 상기 공정배관계장도(P&ID) 이미지를 회전하는 단계; 상기 공정배관계장도(P&ID) 이미지에서 세로 방향에 대한 문자 영역을 추출하는 단계; 상기 공정배관계장도(P&ID) 이미지에서 가로 방향 및 세로 방향의 문자 영역에 대한 좌표를 검출하는 단계; 및 검출된 상기 좌표에 대한 정보를 이용하여 가로 방향 및 세로 방향의 문자 영역에 대한 문자 영역 이미지를 분리하여 추출하는 단계를 포함할 수 있다.

상기 문자를 예측하는 단계는, STN(Spatial Transformer Network) 모델을 사용하여 상기 문자 영역 이미지 내에 포함된 기형적이거나 변형(Deformation)되어 있는 문자를 인식하고, 문자를 노멀라이즈(normalize)하는 상기 문자 영역 이미지를 변형하는 단계; 상기 문자 영역 이미지에서 CNN(Convolutional Neural Network) 모델 중 ResNet 기반의 모델을 사용하여 문자의 특성을 추출하는 단계; 상기 문자 영역 이미지에서 RNN(Recurrent Neural Network) 모델 중 BiLSTM(Bidirectional Long Short Therm Memory) 모델을 사용하여 문자 간의 순서를 모델링하는 단계; 및 상기 문자 영역 이미지에서 Attn(Attention-based Sequence Prediction) 모델을 이용하여 문자 간의 순서가 모델링된 정보를 기반으로 문자의 내용을 예측하는 단계를 포함할 수 있다.

본 발명에 의하면, 딥러닝 모델을 기반으로 입력받은 이미지 형식의 공정배관계장도(P&ID)에서 다양한 문자정보를 자동으로 인식하고 인식된 문자정보를 리스트화하여 기존의 엔지니어가 수작업으로 작업할 때 발생하는 오류를 최소화할 수 있다.

또한, 엔지니어가 도면의 규모에 따라 1장의 도면 내에 포함된 문자 정보를 수작업으로 작업할 때 소요되는 시간을 딥러닝 모델을 기반으로 문자를 인식함으로써, 단순 반복 작업에 투입되는 시간을 줄일 수 있어, 업무 효율성을 향상시킬 수 있는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 딥러닝 모델 기반 문자정보 자동인식 시스템에서 이미지 형식의 공정배관계장도(P&ID)의 예시를 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 딥러닝 모델 기반 문자정보 자동인식 시스템을 도시한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 딥러닝 모델 기반 문자정보 자동인식 방법의 세부 흐름을 도시한 흐름도이다.

이하에서는 본 발명을 구현하기 위한 구체적인 실시예에 대하여 도면을 참조하여 상세히 설명하도록 한다.

아울러 본 발명을 설명함에 있어서 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.

또한, 어떤 구성요소가 다른 구성요소에 '연결', '지지', '접속', '공급', '전달', '접촉'된다고 언급된 때에는 그 다른 구성요소에 직접적으로 연결, 지지, 접속, 공급, 전달, 접촉될 수도 있지만 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.

본 명세서에서 사용된 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로 본 발명을 한정하려는 의도로 사용된 것은 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함한다.

또한, 본 명세서에서 상측, 하측, 측면 등의 표현은 도면에 도시를 기준으로 설명한 것이며 해당 대상의 방향이 변경되면 다르게 표현될 수 있음을 미리 밝혀둔다. 마찬가지의 이유로 첨부 도면에 있어서 일부 구성요소는 과장되거나 생략되거나 또는 개략적으로 도시되었으며, 각 구성요소의 크기는 실제 크기를 전적으로 반영하는 것이 아니다.

또한, 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 이와 같은 용어들에 의해 한정되지는 않는다. 이 용어들은 하나의 구성요소들을 다른 구성요소로부터 구별하는 목적으로만 사용된다.

명세서에서 사용되는 "포함하는"의 의미는 특정 특성, 영역, 정수, 단계, 동작, 요소 및/또는 성분을 구체화하며, 다른 특정 특성, 영역, 정수, 단계, 동작, 요소, 성분 및/또는 군의 존재나 부가를 제외시키는 것은 아니다.

도 1은 본 발명의 일 실시예에 따른 딥러닝 모델 기반 문자정보 자동인식 시스템(100)에서 이미지 형식의 공정배관계장도(P&ID)의 예시를 도시한 도면이고, 도 2는 본 발명의 일 실시예에 따른 딥러닝 모델 기반 문자정보 자동인식 시스템(100)을 도시한 블록도이다.

공정배관계장도(P&ID)는, 기기, 배관, 계장 심볼과 다양한 문자 정보가 포함된다. 기기, 배관, 계장 심볼과 문자 정보는 서로 얽혀있어, 심볼에 대한 속성과 태그 정보가 포함된 문자를 인식하기가 어렵다. 심볼들이 노이즈로 작용할 수 있으며, 이미지 전체 크기에 비해 문자의 상대적인 크기가 매우 작고, 이미지 한 장에서 인식해야 하는 문자 객체수가 최소 수백 개이기 때문이다.

따라서 사전에 문자 형상의 데이터베이스를 기반으로 템플릿을 매칭하는 광학문자인식(OCR, optical character recognition) 기술은 공정배관계장도(P&ID)에 포함된 문자를 인식하는 정확도가 떨어질 수 있다.

따라서 본 실시예에 따른 딥러닝 모델 기반 문자정보 자동인식 시스템(100)을 통해 공정배관계장도(P&ID)에 포함된 문자를 인식하여 디지털화할 수 있다. 이러한 딥러닝 모델 기반 문자정보 자동인식 시스템(100)은, 입력 모듈(110), 문자검출 모듈(120), 문자인식 모듈(130) 및 문자출력 모듈(140)을 포함한다.

입력 모듈(110)은, 이미지 형식의 공정배관계장도(P&ID)가 입력되고, 입력된 공정배관계장도(P&ID)를 설정된 크기로 변환한다.

입력 모듈(110)은, 공정배관계장도(P&ID)의 이미지가 입력되고, 입력된 공정배관계장도(P&ID)를 로드하여 이미지의 비율을 유지하면서 가로 및 세로 중 짧은 쪽의 길이가 설정된 길이가 되도록 크기를 변환한다. 예컨대, 입력 모듈(110)은 공정배관계장도(P&ID)의 이미지를 가로 및 세로 길이 중 짧은 쪽 길이가 2500픽셀이 되도록 크기를 변환한다.

상기와 같이, 입력 모듈(110)은 크기가 변형된 이미지 형식의 공정배관계장도(P&ID)를 문자검출 모듈(120)로 전송한다.

문자검출 모듈(120)은, 이미지 형식의 공정배관계장도(P&ID)에서 문자의 가로 방향에 대한 연결성을 추론하여 문자 영역을 검출한다.

문자검출 모듈(120)은, 문자 객체가 가지는 연결성을 학습한 VGG(Visual Geometry Group) 및 RNN(Recurrent Neural Network) 딥러닝 모델을 사용하여 이미지의 가로 방향 문자 영역을 검출한다. 문자검출 모듈(120)은 가로 방향 문자 영역을 검출한 다음, 공정배관계장도(P&ID) 이미지를 90도 회전하고, 세로 방향 문자 영역을 검출한다.

여기서, VGG 모델은 단위 문자 형상의 특성을 학습한 딥러닝 모델이고, RNN 모델은, 전체 문자의 형상에서 보이는 특성인 단위 문자들 간의 연결성(Connectionist)을 학습한 딥러닝 모델이다.

문자검출 모듈(120)은 상기와 같이, 가로 방향 문자 영역 및 세로 방향 문자 영역을 검출한 다음, 검출된 공정배관계장도(P&ID)의 이미지 내에서 문자 영역들의 좌표를 종합하여 단일 텍스트 파일(*.txt)로 저장한다. 이때, 문자검출 모듈(120)은, 단일 텍스트 파일(*.txt)에 포함된 좌표를 이용하여 공정배관계장도(P&ID)의 이미지에서 문자가 배치된 문자 영역을 분리하고, 분리된 문자 영역을 이미지로 생성하여 생성된 문자 영역 이미지를 저장한다.

문자인식 모듈(130)은, 문자검출 모듈(120)에서 검출된 문자 영역 이미지에서 이미지 변형, 특성 추출, 문자 순서 모델링, 정보 예측을 통해 문자의 정보를 인식한다.

문자인식 모듈(130)은, 문자검출 모듈(120)에서 생성된 문자 영역 이미지에서 문자를 인식한다. 문자 영역 이미지에서 문자의 인식률을 높이기 위해 STN(spatial transformer network) 모델을 이용한다. 문자인식 모듈(130)은, 문자 영역 이미지에서 문자 형상을 식별하고 문자 형상을 노멀라이즈(normalize)한다.

그리고 문자인식 모듈(130)은 노멀라이즈된 문자 영역 이미지에서 CNN(Convolutional Neural Network) 모델 중 정확도와 안정성이 높은 ResNet 기반의 모델을 사용하여 문자의 특성을 추출한다.

이때, 추출된 문자 특성에 대한 맵(map)은 단어를 구성하는 각 문자에 대한 특성 정보를 가지고 있지만, 문자 간의 순서가 정확하지 않을 수 있다. 따라서 문자인식 모듈(130)은, RNN(Recurrent Neural Network) 모델 중 정확도가 가장 높다고 알려진 BiLSTM(Bidirectional Long Short Therm Memory) 모델을 사용하여 문자를 구성하는 문자 간의 순서를 모델링한다.

그리고 문자인식 모듈(130)은, Attn(Attention-based Sequence Prediction) 모델을 이용하여 문자 간의 순서가 모델링된 정보를 기반으로 문자의 내용을 예측하고, 예측된 문자 내용에 대한 결과를 출력한다.

문자출력 모듈(140)은, 검출된 문자 영역의 좌표와 문자의 내용 정보를 종합하여 출력한다.

즉, 문자출력 모듈(140)은, 문자검출 모듈(120)에서 생성된 문자 영역 좌표와 문자인식 모듈(130)에서 생성된 문자 영역 이미지의 문자 내용 정보를 합쳐 문자 인식 파일을 출력한다. 이때, 문자출력 모듈(140)은 문자 인식 파일을 텍스트 파일(예컨대, csv 파일)로 출력한다.

기존의 광학문자인식 기술을 이용하여 공정배관계장도(P&ID) 이미지에서 문자를 인식하는 것이 쉽지 않고, 공정배관계장도(P&ID) 이미지에서 문자가 있는 부분을 분리하여 개별로 광학문자인식 기술을 이용하더라도 공정배관계장도(P&ID) 이미지에 포함된 문자의 절대적인 크기가 작기 때문에 문자의 인식률이 저조하다.

또한, 기존의 이미지 내에서 문자를 인식하기 위한 딥러닝 STR(Scene Text Recognition) 모델들은 컬러 이미지 내에 존재하는 몇 개의 문자 객체가 모양이 변형되더라도 정확하게 인식하는 데에 초점이 맞춰져 있어, 정형화된 문자들이 수많은 심볼 및 선 객체들과 섞여 있는 공정배관계장도(P&ID) 이미지에서 기존 STR 모델들을 사용해 문자를 한 번에 인식하는 것이 쉽지 않다.

그에 반해, 본 발명의 일 실시예에 따른 딥러닝 모델 기반 문자정보 자동인식 시스템(100)은, 노이즈가 많은 대형 이미지에서 한 번에 복수 개의 문자 영역을 검출하는데 적합한 VGG + RNN 기반 모델을 이용하고, 공정배관계장도(P&ID)의 문자를 학습시킨 후, 파라미터와 하이퍼 파라미터 교정을 통해 공정배관계장도(P&ID) 이미지에서 문자를 검출하는데 최적화할 수 있다.

또한, 본 실시예에 따른 딥러닝 모델 기반 문자정보 자동인식 시스템(100)은, 검출된 문자 영역 이미지에서 문자 인식에 작은 노이즈가 있더라도, 문자 인식을 수행할 수 있도록 문자 형상 변형, 문자 특성 추출, 문자 순서 모델링 및 문자 내용 예측의 단계로 구성된 문자 인식 모델에 공정배관계장도(P&ID)의 문자를 학습시킨 후, 파라미터 및 하이퍼 파라미터 교정을 거쳐 문자 인식을 최적화한다.

도 3은 본 발명의 일 실시예에 따른 딥러닝 모델 기반 문자정보 자동인식 방법의 세부 흐름을 도시한 흐름도이다.

도 3을 참조하여, 본 실시예에 따른 딥러닝 모델 기반 문자정보 자동인식 방법의 세부 흐름에 대해 설명한다.

먼저, 입력 모듈(110)은, 공정배관계장도(P&ID) 이미지를 로드한다(S111). 공정배관계장도(P&ID) 이미지는 도 1에 도시된 바와 같이, 하나의 큰 이미지에 작은 문자들이 포함된 이미지일 수 있다.

그리고 입력 모듈(110)은, 로드된 공정배관계장도(P&ID) 이미지의 크기를 설정된 크기로 변환한다(S113). 공정배관계장도(P&ID) 이미지는 비율을 유지한 상태에서, 가로 및 세로 길이 중 짧은 쪽의 길이가 2500픽셀이 되도록 크기를 변환한다.

상기와 같이, 크기가 변환된 공정배관계장도(P&ID) 이미지는 문자검출 모듈(120)로 전송된다.

문자검출 모듈(120)은, 공정배관계장도(P&ID) 이미지를 전송받아 문자가 포함된 영역을 검출한다(S121).

본 단계에서의 문자검출은, 문자 객체가 가지는 연결성을 학습한 VGG(Visual Geometry Group) 및 RNN(Recurrent Neural Network) 딥러닝 모델을 사용하며, 먼저, 가로 방향의 문자 영역을 검출한다.

문자검출 모듈(120)은 가로 방향의 문자 영역이 검출되면, 공정배관계장도(P&ID) 이미지를 90도 회전시킨다(S123). 공정배관계장도(P&ID) 이미지를 90도 회전시키는 것은, 공정배관계장도(P&ID) 이미지에서 세로 방향으로 기재된 문자를 검출하기 위한 것으로, 문자의 방향에 따라 시계방향 또는 반시계방향으로 회전될 수 있다. 물론, 공정배관계장도(P&ID) 이미지는 문자가 정방향으로 바르게 배치되는 방향으로 회전된다.

문자검출 모듈(120)은, 공정배관계장도(P&ID) 이미지가 90도 회전되면, 회전된 공정배관계장도(P&ID) 이미지에서 문자를 다시 검출한다(S125).

본 단계에서의 문자검출은 단계 S121에서와 같이, 문자 객체가 가지는 연결성을 학습한 VGG(Visual Geometry Group) 및 RNN(Recurrent Neural Network) 딥러닝 모델을 사용하며, 세로 방향의 문자 영역을 검출한다.

문자 영역의 검출이 완료되면, 문자검출 모듈(120)은, 단계 S121 및 S125에서 검출된 문자 영역 좌표 정보를 종합하여 추출한다(S127). 문자 영역의 좌표 정보는, 공정배관계장도(P&ID) 이미지에서 어느 위치에 문자가 배치되어 있는지에 대한 정보일 수 있다. 문자검출 모듈(120)은 추출된 문자 영역의 좌표 정보를 별도의 단일 문자 파일로 저장한다.

문자검출 모듈(120)은 추출된 문자 좌표 정보를 이용하여 공정배관계장도(P&ID) 이미지에서 문자가 배치된 위치의 문자 영역들을 별도로 분리하고, 분리된 문자 영역들을 각각 이미지로 생성하여 문자 영역 이미지를 저장한다(S129). 여기서, 본 단계는, 단계 S127에서 추출된 문자 영역 좌표 정보를 이용하여, 단계 S113에서 크기가 변환된 공정배관계장도(P&ID) 이미지를 받아 문자 영역 이미지를 생성하여 저장한다.

문자인식 모듈(130)은, 문자검출 모듈(120)에서 단계 S129에서 생성된 문자 영역 이미지를 수신하고, 수신된 문자 영역 이미지를 변형한다(131).

문자 영역 이미지의 변형은, STN(Spatial Transformer Network) 모델을 사용하여 문자 영역 이미지 내에 포함된 기형적이거나 변형(Deformation)되어 있는 문자를 인식하여 이러한 문자를 노멀라이즈(normalize)한다.

그리고 문자인식 모듈(130)은 문자 영역 이미지에서 문자의 특성(feature)을 추출한다(S133).

문자의 특성 추출은, 문자 영역 이미지에서 CNN(Convolutional Neural Network) 모델 중 정확도와 안정성이 높은 ResNet 기반의 모델을 사용한다.

문자의 특성 추출이 완료되면, 문자인식 모듈(130)은, 문자 간의 순서를 모델링한다(S135).

단계 S133에서, 문자인식 모듈(130)은, 문자 특성을 추출하여 각 문자에 대한 특성에 대한 정보를 가질 수 있지만, 문자 간의 순서가 정확하지 않을 수 있다. 그에 따라 문자인식 모듈(130)은, RNN(Recurrent Neural Network) 모델 중 정확도가 가장 높다고 알려진 BiLSTM(Bidirectional Long Short Therm Memory) 모델을 사용하여 문자를 구성하는 문자 간의 순서를 모델링한다.

이렇게 단계 S135에서 문자 간의 순서가 모델링되면, 문자 영역 이미지에 포함된 문자들을 예측한다(S137).

문자인식 모듈(130)은, 문자들을 예측하기 위해 Attn(Attention-based Sequence Prediction) 모델을 이용하여 문자 간의 순서가 모델링된 정보를 기반으로 문자의 내용을 예측한다. 그리고 문자인식 모듈(130)은, 예측된 문자 내용에 대한 결과를 출력한다.

공정배관계장도(P&ID) 이미지에 복수 개의 문자 영역이 배치된 경우, 단계 S121 내지 S137의 과정이 여러 번 반복되어 수행될 수 있다.

문자출력 모듈(140)은 상기와 같이, 공정배관계장도(P&ID) 이미지에서 문자에 대해 인식이 완료되면, 단계 S127에서 저장된 문자 영역들의 좌표가 저장된 단일 텍스트 파일과 단계 S137에서 출력된 문자 내용에 대한 결과를 종합하고(S141), 문자 인식 파일을 CSV(Comma Separated Value) 형식으로 출력한다(S143).

위에서 설명한 바와 같이 본 발명에 대한 구체적인 설명은 첨부된 도면을 참조한 실시예에 의해서 이루어졌지만, 상술한 실시예는 본 발명의 바람직한 예를 들어 설명하였을 뿐이므로, 본 발명이 상기 실시예에만 국한되는 것으로 이해돼서는 안 되며, 본 발명의 권리범위는 후술하는 청구범위 및 그 등가개념으로 이해되어야 할 것이다.

100: 딥러닝 모델 기반 문자정보 자동인식 시스템
110: 입력 모듈
120: 문자검출 모듈
130: 문자인식 모듈
140: 문자출력 모듈

Claims

공정배관계장도(P&ID) 이미지가 입력되는 입력 모듈;
상기 공정배관계장도(P&ID)의 이미지에 포함된 문자의 위치에 대한 좌표 및 상기 문자 위치 좌표에 배치된 문자 영역 이미지를 추출하는 문자검출 모듈;
상기 문자검출 모듈에서 상기 문자 영역 이미지를 수신하여, 상기 문자 영역 이미지에 포함된 문자를 예측하는 문자인식 모듈; 및
상기 문자검출 모듈에서 추출된 상기 문자 위치 좌표 및 상기 문자인식 모듈에서 예측된 문자를 종합하여 출력하는 문자출력 모듈을 포함하며;
상기 문자인식 모듈은, 상기 문자 영역 이미지에서 이미지 변형, 특성 추출, 문자 순서 모델링 및 정보 예측을 통해 문자의 정보를 인식하는, 딥러닝 모델 기반 문자정보 자동인식 시스템.
청구항 1에 있어서,
상기 입력 모듈은, 입력된 공정배관계장도(P&ID) 이미지의 크기를 설정된 크기로 변환하는,
딥러닝 모델 기반 문자정보 자동인식 시스템.
공정배관계장도(P&ID) 이미지가 입력되는 입력 모듈;
상기 공정배관계장도(P&ID)의 이미지에 포함된 문자의 위치에 대한 좌표 및 상기 문자 위치 좌표에 배치된 문자 영역 이미지를 추출하는 문자검출 모듈;
상기 문자검출 모듈에서 상기 문자 영역 이미지를 수신하여, 상기 문자 영역 이미지에 포함된 문자를 예측하는 문자인식 모듈; 및
상기 문자검출 모듈에서 추출된 상기 문자 위치 좌표 및 상기 문자인식 모듈에서 예측된 문자를 종합하여 출력하는 문자출력 모듈을 포함하며;
상기 문자검출 모듈은, 문자 객체가 가지는 연결성을 학습한 VGG(Visual Geometry Group) 및 순환신경망(RNN, recurrent neural network) 딥러닝 모델을 이용하여 상기 공정배관계장도(P&ID) 이미지에서 상기 문자 위치 좌표 및 문자 영역 이미지를 추출하는, 딥러닝 모델 기반 문자정보 자동인식 시스템.
청구항 3에 있어서,
상기 문자검출 모듈은, 상기 공정배관계장도(P&ID) 이미지에서 가로 방향에 대한 문자 영역 및 세로 방향에 대한 문자 영역을 추출하는,
딥러닝 모델 기반 문자정보 자동인식 시스템.
삭제
청구항 1에 있어서,
상기 문자인식 모듈은, STN(Spatial Transformer Network) 모델을 사용하여 상기 문자 영역 이미지 내에 포함된 기형적이거나 변형(Deformation)되어 있는 문자를 인식하여 이러한 문자를 노멀라이즈(normalize)하는 상기 이미지 변형을 수행하는, 딥러닝 모델 기반 문자정보 자동인식 시스템.
청구항 1에 있어서,
상기 문자인식 모듈은, 상기 문자 영역 이미지에서 CNN(Convolutional Neural Network) 모델 중 정확도와 안정성이 높은 ResNet 기반의 모델을 사용하여 문자의 특성을 추출하는, 딥러닝 모델 기반 문자정보 자동인식 시스템.
청구항 1에 있어서,
상기 문자인식 모듈은, BiLSTM(Bidirectional Long Short Therm Memory) 모델을 사용하여 문자를 구성하는 문자 간의 순서를 모델링하는, 딥러닝 모델 기반 문자정보 자동인식 시스템.
청구항 1에 있어서,
상기 문자인식 모듈은, Attn(Attention-based Sequence Prediction) 모델을 이용하여 문자 간의 순서가 모델링된 정보를 기반으로 문자의 내용을 예측하는, 딥러닝 모델 기반 문자정보 자동인식 시스템.
공정배관계장도(P&ID) 이미지가 입력되고 입력된 상기 공정배관계장도(P&ID) 이미지의 크기를 입력 모듈을 통해 설정된 크기로 변환하는 단계;
상기 공정배관계장도(P&ID)의 이미지에 포함된 문자의 위치에 대한 좌표 및 문자 위치 좌표에 배치된 문자 영역 이미지를 문자검출 모듈을 통해 추출하는 문자 영역 이미지를 추출하는 단계;
상기 문자 영역 이미지에 포함된 문자를 문자인식 모듈을 통해 예측하는 문자를 예측하는 단계; 및
상기 문자 위치 좌표 및 상기 문자인식 모듈에서 예측된 문자를 종합하여 문자출력 모듈을 통해 출력하는 단계를 포함하며;
상기 문자인식 모듈은, 상기 문자 영역 이미지에서 이미지 변형, 특성 추출, 문자 순서 모델링 및 정보 예측을 통해 문자의 정보를 인식하는, 딥러닝 모델 기반 문자정보 자동인식 방법.
청구항 10에 있어서,
상기 문자 영역 이미지를 추출하는 단계는,
문자검출 모듈을 통해 상기 공정배관계장도(P&ID) 이미지에서 가로 방향에 대한 문자 영역을 추출하는 단계;
상기 공정배관계장도(P&ID) 이미지를 회전하는 단계;
상기 공정배관계장도(P&ID) 이미지에서 세로 방향에 대한 문자 영역을 추출하는 단계;
상기 공정배관계장도(P&ID) 이미지에서 가로 방향 및 세로 방향의 문자 영역에 대한 좌표를 검출하는 단계; 및
검출된 상기 좌표에 대한 정보를 이용하여 가로 방향 및 세로 방향의 문자 영역에 대한 문자 영역 이미지를 분리하여 추출하는 단계를 포함하는, 딥러닝 모델 기반 문자정보 자동인식 방법.
청구항 10에 있어서,
상기 문자를 예측하는 단계는,
문자인식 모듈에서 STN(Spatial Transformer Network) 모델을 사용하여 상기 문자 영역 이미지 내에 포함된 기형적이거나 변형(Deformation)되어 있는 문자를 인식하고, 문자를 노멀라이즈(normalize)하는 상기 문자 영역 이미지를 변형하는 단계;
상기 문자 영역 이미지에서 CNN(Convolutional Neural Network) 모델 중 ResNet 기반의 모델을 사용하여 문자의 특성을 추출하는 단계;
상기 문자 영역 이미지에서 RNN(Recurrent Neural Network) 모델 중 BiLSTM(Bidirectional Long Short Therm Memory) 모델을 사용하여 문자 간의 순서를 모델링하는 단계; 및
상기 문자 영역 이미지에서 Attn(Attention-based Sequence Prediction) 모델을 이용하여 문자 간의 순서가 모델링된 정보를 기반으로 문자의 내용을 예측하는 단계를 포함하는, 딥러닝 모델 기반 문자정보 자동인식 방법.