KR102488049B1 - 딥러닝 모델 기반 문자정보 자동인식 시스템 및 자동인식 방법 - Google Patents

딥러닝 모델 기반 문자정보 자동인식 시스템 및 자동인식 방법 Download PDF

Info

Publication number
KR102488049B1
KR102488049B1 KR1020200145809A KR20200145809A KR102488049B1 KR 102488049 B1 KR102488049 B1 KR 102488049B1 KR 1020200145809 A KR1020200145809 A KR 1020200145809A KR 20200145809 A KR20200145809 A KR 20200145809A KR 102488049 B1 KR102488049 B1 KR 102488049B1
Authority
KR
South Korea
Prior art keywords
character
image
module
information
deep learning
Prior art date
Application number
KR1020200145809A
Other languages
English (en)
Other versions
KR20220060162A (ko
Inventor
이태경
김준영
Original Assignee
고등기술연구원연구조합
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고등기술연구원연구조합 filed Critical 고등기술연구원연구조합
Priority to KR1020200145809A priority Critical patent/KR102488049B1/ko
Publication of KR20220060162A publication Critical patent/KR20220060162A/ko
Application granted granted Critical
Publication of KR102488049B1 publication Critical patent/KR102488049B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • G06V30/422Technical drawings; Geographical maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

본 발명은 딥러닝 모델 기반 문자정보 자동인식 장치 및 자동인식 방법에 관한 것으로, 본 발명의 일 실시예에 따른 딥러닝 모델 기반 문자정보 자동인식 시스템은, 공정배관계장도(P&ID) 이미지가 입력되는 입력 모듈; 상기 공정배관계장도(P&ID)의 이미지에 포함된 문자의 위치에 대한 좌표 및 상기 문자 위치 좌표에 배치된 문자 영역 이미지를 추출하는 문자검출 모듈; 상기 문자검출 모듈에서 상기 문자 영역 이미지를 수신하여, 상기 문자 영역 이미지에 포함된 문자를 예측하는 문자인식 모듈; 및 상기 문자검출 모듈에서 추출된 상기 문자 위치 좌표 및 상기 문자인식 모듈에서 예측된 문자를 출력하는 문자출력 모듈을 포함할 수 있다. 본 발명에 의하면, 딥러닝 모델을 기반으로 입력받은 이미지 형식의 공정배관계장도(P&ID)에서 다양한 문자정보를 자동으로 인식하고 인식된 문자정보를 리스트화하여 기존의 엔지니어가 수작업으로 작업할 때 발생하는 오류를 최소화할 수 있다.

Description

딥러닝 모델 기반 문자정보 자동인식 시스템 및 자동인식 방법{AUTOMATIC RECOGNITION SYSTEM OF TEXT INFORMATION BASED ON DEEP LEARNING MODEL AND AUTOMATIC RECOGNITION METHOD}
본 발명은 딥러닝 모델 기반 문자정보 자동인식 장치 및 자동인식 방법에 관한 것으로, 더욱 상세하게는 딥러닝 모델을 기반으로 입력받은 이미지 형식의 공정배관계장도(P&ID, piping and instrumentation diagram)에 포함된 다양한 문자 정보를 자동으로 인식할 수 있는 딥러닝 모델 기반 문자정보 자동인식 시스템 및 자동인식 방법에 관한 것이다.
공정배관계장도(P&ID, piping and instrumentation diagram)는 플랜트 엔지니어링 산업에서 이용되는 핵심 도면이며, 플랜트를 구성하는 기기와 배관 및 계장 정보를 담고 있다. 이러한 공정배관계장도(P&ID)는, 플랜트의 규모에 따라 수백 장이나 수천 장일 수 있다.
국내 플랜트 운영 기업은 플랜트의 긴 수명주기에 따라 오래전에 EPC 기업으로부터 넘겨받은 수많은 공정배관계장도(P&ID)를 하드카피로 보관하거나 또는 단지 스캔된 이미지 형식으로 관리한다. 그에 따라 실질적으로 디지털화된 데이터를 활용하지 못하는 문제가 있다.
종래에는, 상기와 같이, 이미지 형식의 공정배관계장도(P&ID)를 디지털화하기 위해 다수의 숙련된 엔지니어가 직접 도면을 확인하고 수작업으로 재모델링을 진행하고 있다.
이렇게 공정배관계장도(P&ID)를 재모델링하는 과정에서 수많은 오류가 발생할 수 있고, 다수의 숙련된 엔지니어의 불필요한 시간이 소요되는 문제가 있다.
대한민국 등록특허 제10-2150204호 (2020.08.25.) 대한민국 공개특허 제10-2020-0068073호 (2020.06.15.) 대한민국 공개특허 제10-2020-0065613호 (2020.06.09.)
본 발명이 해결하고자 하는 과제는, 이미지 형식의 공정배관계장도(P&ID)를 자동으로 디지털화 할 수 있는 딥러닝 모델 기반 문자정보 자동인식 시스템 및 자동인식 방법을 제공하는 것이다.
본 발명의 일 실시예에 따른 딥러닝 모델 기반 문자정보 자동인식 시스템은, 공정배관계장도(P&ID) 이미지가 입력되는 입력 모듈; 상기 공정배관계장도(P&ID)의 이미지에 포함된 문자의 위치에 대한 좌표 및 상기 문자 위치 좌표에 배치된 문자 영역 이미지를 추출하는 문자검출 모듈; 상기 문자검출 모듈에서 상기 문자 영역 이미지를 수신하여, 상기 문자 영역 이미지에 포함된 문자를 예측하는 문자인식 모듈; 및 상기 문자검출 모듈에서 추출된 상기 문자 위치 좌표 및 상기 문자인식 모듈에서 예측된 문자를 출력하는 문자출력 모듈을 포함할 수 있다.
상기 입력 모듈은, 입력된 공정배관계장도(P&ID) 이미지의 크기를 설정된 크기로 변환할 수 있다.
상기 문자검출 모듈은, 문자 객체가 가지는 연결성을 학습한 VGG(Visual Geometry Group) 및 순환신경망(RNN, recurrent neural network) 딥러닝 모델을 이용하여 상기 공정배관계장도(P&ID) 이미지에서 상기 문자 위치 좌표 및 문자 영역 이미지를 추출할 수 있다.
상기 문자검출 모듈은, 상기 공정배관계장도(P&ID) 이미지에서 가로 방향에 대한 문자 영역 및 세로 방향에 대한 문자 영역을 추출할 수 있다.
상기 문자인식 모듈은, 상기 문자 영역 이미지에서 이미지 변형, 특성 추출, 문자 순서 모델링 및 정보 예측을 통해 문자의 정보를 인식할 수 있다.
상기 문자인식 모듈은, STN(Spatial Transformer Network) 모델을 사용하여 상기 문자 영역 이미지 내에 포함된 기형적이거나 변형(Deformation)되어 있는 문자를 인식하여 이러한 문자를 노멀라이즈(normalize)하는 상기 이미지 변형을 수행할 수 있다.
상기 문자인식 모듈은, 상기 문자 영역 이미지에서 CNN(Convolutional Neural Network) 모델 중 정확도와 안정성이 높은 ResNet 기반의 모델을 사용하여 문자의 특성을 추출할 수 있다.
상기 문자인식 모듈은, BiLSTM(Bidirectional Long Short Therm Memory) 모델을 사용하여 문자를 구성하는 문자 간의 순서를 모델링할 수 있다.
상기 문자인식 모듈은, Attn(Attention-based Sequence Prediction) 모델을 이용하여 문자 간의 순서가 모델링된 정보를 기반으로 문자의 내용을 예측할 수 있다.
한편, 본 발명의 일 실시예에 따른 딥러닝 모델 기반 문자정보 자동인식 방법은, 공정배관계장도(P&ID) 이미지가 입력되고 입력된 상기 공정배관계장도(P&ID) 이미지의 크기를 설정된 크기로 변환하는 단계; 상기 공정배관계장도(P&ID)의 이미지에 포함된 문자의 위치에 대한 좌표 및 상기 문자 위치 좌표에 배치된 문자 영역 이미지를 추출하는 단계; 상기 문자 영역 이미지에 포함된 문자를 예측하는 단계; 및 상기 문자 위치 좌표 및 상기 문자인식 모듈에서 예측된 문자를 출력하는 단계를 포함할 수 있다.
상기 문자 영역 이미지를 추출하는 단계는, 상기 공정배관계장도(P&ID) 이미지에서 가로 방향에 대한 문자 영역을 추출하는 단계; 상기 공정배관계장도(P&ID) 이미지를 회전하는 단계; 상기 공정배관계장도(P&ID) 이미지에서 세로 방향에 대한 문자 영역을 추출하는 단계; 상기 공정배관계장도(P&ID) 이미지에서 가로 방향 및 세로 방향의 문자 영역에 대한 좌표를 검출하는 단계; 및 검출된 상기 좌표에 대한 정보를 이용하여 가로 방향 및 세로 방향의 문자 영역에 대한 문자 영역 이미지를 분리하여 추출하는 단계를 포함할 수 있다.
상기 문자를 예측하는 단계는, STN(Spatial Transformer Network) 모델을 사용하여 상기 문자 영역 이미지 내에 포함된 기형적이거나 변형(Deformation)되어 있는 문자를 인식하고, 문자를 노멀라이즈(normalize)하는 상기 문자 영역 이미지를 변형하는 단계; 상기 문자 영역 이미지에서 CNN(Convolutional Neural Network) 모델 중 ResNet 기반의 모델을 사용하여 문자의 특성을 추출하는 단계; 상기 문자 영역 이미지에서 RNN(Recurrent Neural Network) 모델 중 BiLSTM(Bidirectional Long Short Therm Memory) 모델을 사용하여 문자 간의 순서를 모델링하는 단계; 및 상기 문자 영역 이미지에서 Attn(Attention-based Sequence Prediction) 모델을 이용하여 문자 간의 순서가 모델링된 정보를 기반으로 문자의 내용을 예측하는 단계를 포함할 수 있다.
본 발명에 의하면, 딥러닝 모델을 기반으로 입력받은 이미지 형식의 공정배관계장도(P&ID)에서 다양한 문자정보를 자동으로 인식하고 인식된 문자정보를 리스트화하여 기존의 엔지니어가 수작업으로 작업할 때 발생하는 오류를 최소화할 수 있다.
또한, 엔지니어가 도면의 규모에 따라 1장의 도면 내에 포함된 문자 정보를 수작업으로 작업할 때 소요되는 시간을 딥러닝 모델을 기반으로 문자를 인식함으로써, 단순 반복 작업에 투입되는 시간을 줄일 수 있어, 업무 효율성을 향상시킬 수 있는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 딥러닝 모델 기반 문자정보 자동인식 시스템에서 이미지 형식의 공정배관계장도(P&ID)의 예시를 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 딥러닝 모델 기반 문자정보 자동인식 시스템을 도시한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 딥러닝 모델 기반 문자정보 자동인식 방법의 세부 흐름을 도시한 흐름도이다.
이하에서는 본 발명을 구현하기 위한 구체적인 실시예에 대하여 도면을 참조하여 상세히 설명하도록 한다.
아울러 본 발명을 설명함에 있어서 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.
또한, 어떤 구성요소가 다른 구성요소에 '연결', '지지', '접속', '공급', '전달', '접촉'된다고 언급된 때에는 그 다른 구성요소에 직접적으로 연결, 지지, 접속, 공급, 전달, 접촉될 수도 있지만 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
본 명세서에서 사용된 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로 본 발명을 한정하려는 의도로 사용된 것은 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함한다.
또한, 본 명세서에서 상측, 하측, 측면 등의 표현은 도면에 도시를 기준으로 설명한 것이며 해당 대상의 방향이 변경되면 다르게 표현될 수 있음을 미리 밝혀둔다. 마찬가지의 이유로 첨부 도면에 있어서 일부 구성요소는 과장되거나 생략되거나 또는 개략적으로 도시되었으며, 각 구성요소의 크기는 실제 크기를 전적으로 반영하는 것이 아니다.
또한, 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 이와 같은 용어들에 의해 한정되지는 않는다. 이 용어들은 하나의 구성요소들을 다른 구성요소로부터 구별하는 목적으로만 사용된다.
명세서에서 사용되는 "포함하는"의 의미는 특정 특성, 영역, 정수, 단계, 동작, 요소 및/또는 성분을 구체화하며, 다른 특정 특성, 영역, 정수, 단계, 동작, 요소, 성분 및/또는 군의 존재나 부가를 제외시키는 것은 아니다.
도 1은 본 발명의 일 실시예에 따른 딥러닝 모델 기반 문자정보 자동인식 시스템(100)에서 이미지 형식의 공정배관계장도(P&ID)의 예시를 도시한 도면이고, 도 2는 본 발명의 일 실시예에 따른 딥러닝 모델 기반 문자정보 자동인식 시스템(100)을 도시한 블록도이다.
공정배관계장도(P&ID)는, 기기, 배관, 계장 심볼과 다양한 문자 정보가 포함된다. 기기, 배관, 계장 심볼과 문자 정보는 서로 얽혀있어, 심볼에 대한 속성과 태그 정보가 포함된 문자를 인식하기가 어렵다. 심볼들이 노이즈로 작용할 수 있으며, 이미지 전체 크기에 비해 문자의 상대적인 크기가 매우 작고, 이미지 한 장에서 인식해야 하는 문자 객체수가 최소 수백 개이기 때문이다.
따라서 사전에 문자 형상의 데이터베이스를 기반으로 템플릿을 매칭하는 광학문자인식(OCR, optical character recognition) 기술은 공정배관계장도(P&ID)에 포함된 문자를 인식하는 정확도가 떨어질 수 있다.
따라서 본 실시예에 따른 딥러닝 모델 기반 문자정보 자동인식 시스템(100)을 통해 공정배관계장도(P&ID)에 포함된 문자를 인식하여 디지털화할 수 있다. 이러한 딥러닝 모델 기반 문자정보 자동인식 시스템(100)은, 입력 모듈(110), 문자검출 모듈(120), 문자인식 모듈(130) 및 문자출력 모듈(140)을 포함한다.
입력 모듈(110)은, 이미지 형식의 공정배관계장도(P&ID)가 입력되고, 입력된 공정배관계장도(P&ID)를 설정된 크기로 변환한다.
입력 모듈(110)은, 공정배관계장도(P&ID)의 이미지가 입력되고, 입력된 공정배관계장도(P&ID)를 로드하여 이미지의 비율을 유지하면서 가로 및 세로 중 짧은 쪽의 길이가 설정된 길이가 되도록 크기를 변환한다. 예컨대, 입력 모듈(110)은 공정배관계장도(P&ID)의 이미지를 가로 및 세로 길이 중 짧은 쪽 길이가 2500픽셀이 되도록 크기를 변환한다.
상기와 같이, 입력 모듈(110)은 크기가 변형된 이미지 형식의 공정배관계장도(P&ID)를 문자검출 모듈(120)로 전송한다.
문자검출 모듈(120)은, 이미지 형식의 공정배관계장도(P&ID)에서 문자의 가로 방향에 대한 연결성을 추론하여 문자 영역을 검출한다.
문자검출 모듈(120)은, 문자 객체가 가지는 연결성을 학습한 VGG(Visual Geometry Group) 및 RNN(Recurrent Neural Network) 딥러닝 모델을 사용하여 이미지의 가로 방향 문자 영역을 검출한다. 문자검출 모듈(120)은 가로 방향 문자 영역을 검출한 다음, 공정배관계장도(P&ID) 이미지를 90도 회전하고, 세로 방향 문자 영역을 검출한다.
여기서, VGG 모델은 단위 문자 형상의 특성을 학습한 딥러닝 모델이고, RNN 모델은, 전체 문자의 형상에서 보이는 특성인 단위 문자들 간의 연결성(Connectionist)을 학습한 딥러닝 모델이다.
문자검출 모듈(120)은 상기와 같이, 가로 방향 문자 영역 및 세로 방향 문자 영역을 검출한 다음, 검출된 공정배관계장도(P&ID)의 이미지 내에서 문자 영역들의 좌표를 종합하여 단일 텍스트 파일(*.txt)로 저장한다. 이때, 문자검출 모듈(120)은, 단일 텍스트 파일(*.txt)에 포함된 좌표를 이용하여 공정배관계장도(P&ID)의 이미지에서 문자가 배치된 문자 영역을 분리하고, 분리된 문자 영역을 이미지로 생성하여 생성된 문자 영역 이미지를 저장한다.
문자인식 모듈(130)은, 문자검출 모듈(120)에서 검출된 문자 영역 이미지에서 이미지 변형, 특성 추출, 문자 순서 모델링, 정보 예측을 통해 문자의 정보를 인식한다.
문자인식 모듈(130)은, 문자검출 모듈(120)에서 생성된 문자 영역 이미지에서 문자를 인식한다. 문자 영역 이미지에서 문자의 인식률을 높이기 위해 STN(spatial transformer network) 모델을 이용한다. 문자인식 모듈(130)은, 문자 영역 이미지에서 문자 형상을 식별하고 문자 형상을 노멀라이즈(normalize)한다.
그리고 문자인식 모듈(130)은 노멀라이즈된 문자 영역 이미지에서 CNN(Convolutional Neural Network) 모델 중 정확도와 안정성이 높은 ResNet 기반의 모델을 사용하여 문자의 특성을 추출한다.
이때, 추출된 문자 특성에 대한 맵(map)은 단어를 구성하는 각 문자에 대한 특성 정보를 가지고 있지만, 문자 간의 순서가 정확하지 않을 수 있다. 따라서 문자인식 모듈(130)은, RNN(Recurrent Neural Network) 모델 중 정확도가 가장 높다고 알려진 BiLSTM(Bidirectional Long Short Therm Memory) 모델을 사용하여 문자를 구성하는 문자 간의 순서를 모델링한다.
그리고 문자인식 모듈(130)은, Attn(Attention-based Sequence Prediction) 모델을 이용하여 문자 간의 순서가 모델링된 정보를 기반으로 문자의 내용을 예측하고, 예측된 문자 내용에 대한 결과를 출력한다.
문자출력 모듈(140)은, 검출된 문자 영역의 좌표와 문자의 내용 정보를 종합하여 출력한다.
즉, 문자출력 모듈(140)은, 문자검출 모듈(120)에서 생성된 문자 영역 좌표와 문자인식 모듈(130)에서 생성된 문자 영역 이미지의 문자 내용 정보를 합쳐 문자 인식 파일을 출력한다. 이때, 문자출력 모듈(140)은 문자 인식 파일을 텍스트 파일(예컨대, csv 파일)로 출력한다.
기존의 광학문자인식 기술을 이용하여 공정배관계장도(P&ID) 이미지에서 문자를 인식하는 것이 쉽지 않고, 공정배관계장도(P&ID) 이미지에서 문자가 있는 부분을 분리하여 개별로 광학문자인식 기술을 이용하더라도 공정배관계장도(P&ID) 이미지에 포함된 문자의 절대적인 크기가 작기 때문에 문자의 인식률이 저조하다.
또한, 기존의 이미지 내에서 문자를 인식하기 위한 딥러닝 STR(Scene Text Recognition) 모델들은 컬러 이미지 내에 존재하는 몇 개의 문자 객체가 모양이 변형되더라도 정확하게 인식하는 데에 초점이 맞춰져 있어, 정형화된 문자들이 수많은 심볼 및 선 객체들과 섞여 있는 공정배관계장도(P&ID) 이미지에서 기존 STR 모델들을 사용해 문자를 한 번에 인식하는 것이 쉽지 않다.
그에 반해, 본 발명의 일 실시예에 따른 딥러닝 모델 기반 문자정보 자동인식 시스템(100)은, 노이즈가 많은 대형 이미지에서 한 번에 복수 개의 문자 영역을 검출하는데 적합한 VGG + RNN 기반 모델을 이용하고, 공정배관계장도(P&ID)의 문자를 학습시킨 후, 파라미터와 하이퍼 파라미터 교정을 통해 공정배관계장도(P&ID) 이미지에서 문자를 검출하는데 최적화할 수 있다.
또한, 본 실시예에 따른 딥러닝 모델 기반 문자정보 자동인식 시스템(100)은, 검출된 문자 영역 이미지에서 문자 인식에 작은 노이즈가 있더라도, 문자 인식을 수행할 수 있도록 문자 형상 변형, 문자 특성 추출, 문자 순서 모델링 및 문자 내용 예측의 단계로 구성된 문자 인식 모델에 공정배관계장도(P&ID)의 문자를 학습시킨 후, 파라미터 및 하이퍼 파라미터 교정을 거쳐 문자 인식을 최적화한다.
도 3은 본 발명의 일 실시예에 따른 딥러닝 모델 기반 문자정보 자동인식 방법의 세부 흐름을 도시한 흐름도이다.
도 3을 참조하여, 본 실시예에 따른 딥러닝 모델 기반 문자정보 자동인식 방법의 세부 흐름에 대해 설명한다.
먼저, 입력 모듈(110)은, 공정배관계장도(P&ID) 이미지를 로드한다(S111). 공정배관계장도(P&ID) 이미지는 도 1에 도시된 바와 같이, 하나의 큰 이미지에 작은 문자들이 포함된 이미지일 수 있다.
그리고 입력 모듈(110)은, 로드된 공정배관계장도(P&ID) 이미지의 크기를 설정된 크기로 변환한다(S113). 공정배관계장도(P&ID) 이미지는 비율을 유지한 상태에서, 가로 및 세로 길이 중 짧은 쪽의 길이가 2500픽셀이 되도록 크기를 변환한다.
상기와 같이, 크기가 변환된 공정배관계장도(P&ID) 이미지는 문자검출 모듈(120)로 전송된다.
문자검출 모듈(120)은, 공정배관계장도(P&ID) 이미지를 전송받아 문자가 포함된 영역을 검출한다(S121).
본 단계에서의 문자검출은, 문자 객체가 가지는 연결성을 학습한 VGG(Visual Geometry Group) 및 RNN(Recurrent Neural Network) 딥러닝 모델을 사용하며, 먼저, 가로 방향의 문자 영역을 검출한다.
문자검출 모듈(120)은 가로 방향의 문자 영역이 검출되면, 공정배관계장도(P&ID) 이미지를 90도 회전시킨다(S123). 공정배관계장도(P&ID) 이미지를 90도 회전시키는 것은, 공정배관계장도(P&ID) 이미지에서 세로 방향으로 기재된 문자를 검출하기 위한 것으로, 문자의 방향에 따라 시계방향 또는 반시계방향으로 회전될 수 있다. 물론, 공정배관계장도(P&ID) 이미지는 문자가 정방향으로 바르게 배치되는 방향으로 회전된다.
문자검출 모듈(120)은, 공정배관계장도(P&ID) 이미지가 90도 회전되면, 회전된 공정배관계장도(P&ID) 이미지에서 문자를 다시 검출한다(S125).
본 단계에서의 문자검출은 단계 S121에서와 같이, 문자 객체가 가지는 연결성을 학습한 VGG(Visual Geometry Group) 및 RNN(Recurrent Neural Network) 딥러닝 모델을 사용하며, 세로 방향의 문자 영역을 검출한다.
문자 영역의 검출이 완료되면, 문자검출 모듈(120)은, 단계 S121 및 S125에서 검출된 문자 영역 좌표 정보를 종합하여 추출한다(S127). 문자 영역의 좌표 정보는, 공정배관계장도(P&ID) 이미지에서 어느 위치에 문자가 배치되어 있는지에 대한 정보일 수 있다. 문자검출 모듈(120)은 추출된 문자 영역의 좌표 정보를 별도의 단일 문자 파일로 저장한다.
문자검출 모듈(120)은 추출된 문자 좌표 정보를 이용하여 공정배관계장도(P&ID) 이미지에서 문자가 배치된 위치의 문자 영역들을 별도로 분리하고, 분리된 문자 영역들을 각각 이미지로 생성하여 문자 영역 이미지를 저장한다(S129). 여기서, 본 단계는, 단계 S127에서 추출된 문자 영역 좌표 정보를 이용하여, 단계 S113에서 크기가 변환된 공정배관계장도(P&ID) 이미지를 받아 문자 영역 이미지를 생성하여 저장한다.
문자인식 모듈(130)은, 문자검출 모듈(120)에서 단계 S129에서 생성된 문자 영역 이미지를 수신하고, 수신된 문자 영역 이미지를 변형한다(131).
문자 영역 이미지의 변형은, STN(Spatial Transformer Network) 모델을 사용하여 문자 영역 이미지 내에 포함된 기형적이거나 변형(Deformation)되어 있는 문자를 인식하여 이러한 문자를 노멀라이즈(normalize)한다.
그리고 문자인식 모듈(130)은 문자 영역 이미지에서 문자의 특성(feature)을 추출한다(S133).
문자의 특성 추출은, 문자 영역 이미지에서 CNN(Convolutional Neural Network) 모델 중 정확도와 안정성이 높은 ResNet 기반의 모델을 사용한다.
문자의 특성 추출이 완료되면, 문자인식 모듈(130)은, 문자 간의 순서를 모델링한다(S135).
단계 S133에서, 문자인식 모듈(130)은, 문자 특성을 추출하여 각 문자에 대한 특성에 대한 정보를 가질 수 있지만, 문자 간의 순서가 정확하지 않을 수 있다. 그에 따라 문자인식 모듈(130)은, RNN(Recurrent Neural Network) 모델 중 정확도가 가장 높다고 알려진 BiLSTM(Bidirectional Long Short Therm Memory) 모델을 사용하여 문자를 구성하는 문자 간의 순서를 모델링한다.
이렇게 단계 S135에서 문자 간의 순서가 모델링되면, 문자 영역 이미지에 포함된 문자들을 예측한다(S137).
문자인식 모듈(130)은, 문자들을 예측하기 위해 Attn(Attention-based Sequence Prediction) 모델을 이용하여 문자 간의 순서가 모델링된 정보를 기반으로 문자의 내용을 예측한다. 그리고 문자인식 모듈(130)은, 예측된 문자 내용에 대한 결과를 출력한다.
공정배관계장도(P&ID) 이미지에 복수 개의 문자 영역이 배치된 경우, 단계 S121 내지 S137의 과정이 여러 번 반복되어 수행될 수 있다.
문자출력 모듈(140)은 상기와 같이, 공정배관계장도(P&ID) 이미지에서 문자에 대해 인식이 완료되면, 단계 S127에서 저장된 문자 영역들의 좌표가 저장된 단일 텍스트 파일과 단계 S137에서 출력된 문자 내용에 대한 결과를 종합하고(S141), 문자 인식 파일을 CSV(Comma Separated Value) 형식으로 출력한다(S143).
위에서 설명한 바와 같이 본 발명에 대한 구체적인 설명은 첨부된 도면을 참조한 실시예에 의해서 이루어졌지만, 상술한 실시예는 본 발명의 바람직한 예를 들어 설명하였을 뿐이므로, 본 발명이 상기 실시예에만 국한되는 것으로 이해돼서는 안 되며, 본 발명의 권리범위는 후술하는 청구범위 및 그 등가개념으로 이해되어야 할 것이다.
100: 딥러닝 모델 기반 문자정보 자동인식 시스템
110: 입력 모듈
120: 문자검출 모듈
130: 문자인식 모듈
140: 문자출력 모듈

Claims (12)

  1. 공정배관계장도(P&ID) 이미지가 입력되는 입력 모듈;
    상기 공정배관계장도(P&ID)의 이미지에 포함된 문자의 위치에 대한 좌표 및 상기 문자 위치 좌표에 배치된 문자 영역 이미지를 추출하는 문자검출 모듈;
    상기 문자검출 모듈에서 상기 문자 영역 이미지를 수신하여, 상기 문자 영역 이미지에 포함된 문자를 예측하는 문자인식 모듈; 및
    상기 문자검출 모듈에서 추출된 상기 문자 위치 좌표 및 상기 문자인식 모듈에서 예측된 문자를 종합하여 출력하는 문자출력 모듈을 포함하며;
    상기 문자인식 모듈은, 상기 문자 영역 이미지에서 이미지 변형, 특성 추출, 문자 순서 모델링 및 정보 예측을 통해 문자의 정보를 인식하는, 딥러닝 모델 기반 문자정보 자동인식 시스템.
  2. 청구항 1에 있어서,
    상기 입력 모듈은, 입력된 공정배관계장도(P&ID) 이미지의 크기를 설정된 크기로 변환하는,
    딥러닝 모델 기반 문자정보 자동인식 시스템.
  3. 공정배관계장도(P&ID) 이미지가 입력되는 입력 모듈;
    상기 공정배관계장도(P&ID)의 이미지에 포함된 문자의 위치에 대한 좌표 및 상기 문자 위치 좌표에 배치된 문자 영역 이미지를 추출하는 문자검출 모듈;
    상기 문자검출 모듈에서 상기 문자 영역 이미지를 수신하여, 상기 문자 영역 이미지에 포함된 문자를 예측하는 문자인식 모듈; 및
    상기 문자검출 모듈에서 추출된 상기 문자 위치 좌표 및 상기 문자인식 모듈에서 예측된 문자를 종합하여 출력하는 문자출력 모듈을 포함하며;
    상기 문자검출 모듈은, 문자 객체가 가지는 연결성을 학습한 VGG(Visual Geometry Group) 및 순환신경망(RNN, recurrent neural network) 딥러닝 모델을 이용하여 상기 공정배관계장도(P&ID) 이미지에서 상기 문자 위치 좌표 및 문자 영역 이미지를 추출하는, 딥러닝 모델 기반 문자정보 자동인식 시스템.
  4. 청구항 3에 있어서,
    상기 문자검출 모듈은, 상기 공정배관계장도(P&ID) 이미지에서 가로 방향에 대한 문자 영역 및 세로 방향에 대한 문자 영역을 추출하는,
    딥러닝 모델 기반 문자정보 자동인식 시스템.
  5. 삭제
  6. 청구항 1에 있어서,
    상기 문자인식 모듈은, STN(Spatial Transformer Network) 모델을 사용하여 상기 문자 영역 이미지 내에 포함된 기형적이거나 변형(Deformation)되어 있는 문자를 인식하여 이러한 문자를 노멀라이즈(normalize)하는 상기 이미지 변형을 수행하는, 딥러닝 모델 기반 문자정보 자동인식 시스템.
  7. 청구항 1에 있어서,
    상기 문자인식 모듈은, 상기 문자 영역 이미지에서 CNN(Convolutional Neural Network) 모델 중 정확도와 안정성이 높은 ResNet 기반의 모델을 사용하여 문자의 특성을 추출하는, 딥러닝 모델 기반 문자정보 자동인식 시스템.
  8. 청구항 1에 있어서,
    상기 문자인식 모듈은, BiLSTM(Bidirectional Long Short Therm Memory) 모델을 사용하여 문자를 구성하는 문자 간의 순서를 모델링하는, 딥러닝 모델 기반 문자정보 자동인식 시스템.
  9. 청구항 1에 있어서,
    상기 문자인식 모듈은, Attn(Attention-based Sequence Prediction) 모델을 이용하여 문자 간의 순서가 모델링된 정보를 기반으로 문자의 내용을 예측하는, 딥러닝 모델 기반 문자정보 자동인식 시스템.
  10. 공정배관계장도(P&ID) 이미지가 입력되고 입력된 상기 공정배관계장도(P&ID) 이미지의 크기를 입력 모듈을 통해 설정된 크기로 변환하는 단계;
    상기 공정배관계장도(P&ID)의 이미지에 포함된 문자의 위치에 대한 좌표 및 문자 위치 좌표에 배치된 문자 영역 이미지를 문자검출 모듈을 통해 추출하는 문자 영역 이미지를 추출하는 단계;
    상기 문자 영역 이미지에 포함된 문자를 문자인식 모듈을 통해 예측하는 문자를 예측하는 단계; 및
    상기 문자 위치 좌표 및 상기 문자인식 모듈에서 예측된 문자를 종합하여 문자출력 모듈을 통해 출력하는 단계를 포함하며;
    상기 문자인식 모듈은, 상기 문자 영역 이미지에서 이미지 변형, 특성 추출, 문자 순서 모델링 및 정보 예측을 통해 문자의 정보를 인식하는, 딥러닝 모델 기반 문자정보 자동인식 방법.
  11. 청구항 10에 있어서,
    상기 문자 영역 이미지를 추출하는 단계는,
    문자검출 모듈을 통해 상기 공정배관계장도(P&ID) 이미지에서 가로 방향에 대한 문자 영역을 추출하는 단계;
    상기 공정배관계장도(P&ID) 이미지를 회전하는 단계;
    상기 공정배관계장도(P&ID) 이미지에서 세로 방향에 대한 문자 영역을 추출하는 단계;
    상기 공정배관계장도(P&ID) 이미지에서 가로 방향 및 세로 방향의 문자 영역에 대한 좌표를 검출하는 단계; 및
    검출된 상기 좌표에 대한 정보를 이용하여 가로 방향 및 세로 방향의 문자 영역에 대한 문자 영역 이미지를 분리하여 추출하는 단계를 포함하는, 딥러닝 모델 기반 문자정보 자동인식 방법.
  12. 청구항 10에 있어서,
    상기 문자를 예측하는 단계는,
    문자인식 모듈에서 STN(Spatial Transformer Network) 모델을 사용하여 상기 문자 영역 이미지 내에 포함된 기형적이거나 변형(Deformation)되어 있는 문자를 인식하고, 문자를 노멀라이즈(normalize)하는 상기 문자 영역 이미지를 변형하는 단계;
    상기 문자 영역 이미지에서 CNN(Convolutional Neural Network) 모델 중 ResNet 기반의 모델을 사용하여 문자의 특성을 추출하는 단계;
    상기 문자 영역 이미지에서 RNN(Recurrent Neural Network) 모델 중 BiLSTM(Bidirectional Long Short Therm Memory) 모델을 사용하여 문자 간의 순서를 모델링하는 단계; 및
    상기 문자 영역 이미지에서 Attn(Attention-based Sequence Prediction) 모델을 이용하여 문자 간의 순서가 모델링된 정보를 기반으로 문자의 내용을 예측하는 단계를 포함하는, 딥러닝 모델 기반 문자정보 자동인식 방법.
KR1020200145809A 2020-11-04 2020-11-04 딥러닝 모델 기반 문자정보 자동인식 시스템 및 자동인식 방법 KR102488049B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200145809A KR102488049B1 (ko) 2020-11-04 2020-11-04 딥러닝 모델 기반 문자정보 자동인식 시스템 및 자동인식 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200145809A KR102488049B1 (ko) 2020-11-04 2020-11-04 딥러닝 모델 기반 문자정보 자동인식 시스템 및 자동인식 방법

Publications (2)

Publication Number Publication Date
KR20220060162A KR20220060162A (ko) 2022-05-11
KR102488049B1 true KR102488049B1 (ko) 2023-01-12

Family

ID=81607140

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200145809A KR102488049B1 (ko) 2020-11-04 2020-11-04 딥러닝 모델 기반 문자정보 자동인식 시스템 및 자동인식 방법

Country Status (1)

Country Link
KR (1) KR102488049B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102598210B1 (ko) * 2023-05-09 2023-11-02 주식회사 위엠비 엔지니어링 도면의 도면 정보 인식방법, 도면 정보 인식시스템, 컴퓨터 프로그램

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102144464B1 (ko) * 2020-03-04 2020-08-14 주식회사 로민 문서분류장치 및 문서분류방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200068073A (ko) 2018-11-27 2020-06-15 경성대학교 산학협력단 심층학습 전처리를 통한 도면 문자 인식 성능 개선 방법
KR102177550B1 (ko) 2018-11-30 2020-11-11 도프텍(주) 이미지화된 pid 도면에서 설계 정보를 자동으로 인식하여 분류하는 방법
KR102193403B1 (ko) * 2019-02-20 2020-12-21 경북대학교 산학협력단 도면 상에서 외곽선 및 표제 제거 방법을 포함하는 딥러닝 기반 학습 데이터 생성 방법 및 학습 데이터 생성 시스템
KR102150204B1 (ko) 2019-07-03 2020-08-31 경성대학교 산학협력단 변형 vgg 모델의 전처리를 이용한 부품도면 문자 인식 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102144464B1 (ko) * 2020-03-04 2020-08-14 주식회사 로민 문서분류장치 및 문서분류방법

Also Published As

Publication number Publication date
KR20220060162A (ko) 2022-05-11

Similar Documents

Publication Publication Date Title
US11195007B2 (en) Classification of piping and instrumental diagram information using machine-learning
WO2020005541A1 (en) Machine learning analysis of piping and instrumentation diagrams
KR102177550B1 (ko) 이미지화된 pid 도면에서 설계 정보를 자동으로 인식하여 분류하는 방법
US20200175211A1 (en) Method of automatically recognizing and classifying design information in imaged pid drawing and method of automatically creating intelligent pid drawing using design information stored in database
JP2005242579A (ja) 文書処理装置、文書処理方法、および文書処理プログラム
JP2018151748A (ja) 画像処理装置、画像処理方法、テンプレート作成装置、物体認識処理装置及びプログラム
US20230029045A1 (en) Automatic image classification and processing method based on continuous processing structure of multiple artificial intelligence model, and computer program stored in computer-readable recording medium to execute the same
KR20190072074A (ko) 악성 코드 검출 방법 및 시스템
US20230154213A1 (en) Systems and methods for open vocabulary object detection
JP7451373B2 (ja) 図面構造化システムおよび図面構造化方法
KR102488049B1 (ko) 딥러닝 모델 기반 문자정보 자동인식 시스템 및 자동인식 방법
CN116245513A (zh) 基于规则库的自动化运维系统及其方法
CN114120299A (zh) 信息获取方法、装置、存储介质及设备
CN114005126A (zh) 表格重构方法、装置、计算机设备及可读存储介质
JP6784791B2 (ja) 視覚的関係を推論することによる工業検査シートのデジタル化
Hinduja et al. Enhanced Character Recognition using Deep Neural Network-A Survey
Yadav et al. A robust approach for offline English character recognition
WO2017058252A1 (en) Detecting document objects
US20230110558A1 (en) Systems and methods for detecting objects
EP3477547B1 (en) Optical character recognition systems and methods
CN116486228A (zh) 一种基于改进yolov5模型的纸质药盒钢印字符识别方法
CN116778497A (zh) 一种人手井编号识别方法、装置、计算机设备和存储介质
Manzoor et al. A novel system for image text recognition and classification using deep learning
JP2009146245A (ja) 画像照合方法及び画像照合装置並びに画像照合プログラム
Villena Toro et al. Automated and customized cad drawings by utilizing machine learning algorithms: A case study

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant