KR20200065613A

KR20200065613A - 이미지화된 pid 도면에서 설계 정보를 자동으로 인식하여 분류하는 방법

Info

Publication number: KR20200065613A
Application number: KR1020180152246A
Authority: KR
Inventors: 강성오; 백흠경; 이을범
Original assignee: 도프텍(주); 포항공과대학교 산학협력단
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2020-06-09
Also published as: KR102177550B1

Abstract

본 발명은 짧은 시간에 높은 정확도로 설계 요소 집계하여 설계 정보를 디지털화하기 위해 이미지화된 P&ID 도면을 자동으로 Digital화 하여 설계정보를 인식하고 분류하는 방법을 제공하는데 주된 목적이 있다.
상기한 목적을 달성하기 위해 이미지화된 P&ID 도면에서 설계 정보를 자동으로 인식하여 분류하는 방법으로서, 상기 이미지화된 P&ID 도면에서 심볼영역을 추출하고 상기 심볼영역에서 해당하는 심볼(Symbol)의 원점과 연결점을 설정한 후 심볼을 데이터베이스에 자동으로 등록하는 단계; 상기 이미지화된 P&ID 도면에서 상기 사전 등록한 심볼을 인식하여 추출하고 추출된 심볼은 상기 이미지화된 P&ID 도면에서 제거하는 심볼을 인식하여 추출하는 단계; 상기 심볼이 제거된 이미지화된 P&ID 도면에서 픽셀 단위가 아닌 Blob단위로 계산하는 슬라이딩 윈도우(Sliding Window) 방법을 이용하여 라인을 인식하여 추출하는 단계; 상기 심볼이 제거된 이미지화된 P&ID 도면에서 종횡비(Aspect Ratio)를 계산하여 텍스트가 존재하는 영역을 계산한 후 해당 영역에서 텍스트를 인식하여 추출하는 단계; 상기 추출된 텍스트들 중 Drawing 영역에서 검출되는 텍스트는 사전 정의된 속성 분류 체계를 통해 각각의 속성으로 분류하는 단계; 상기 추출된 심볼, 라인을 가장 인접한 거리 기준으로 상기 추출된 텍스트의 속성과 연계시키고, 상기 추출된 심볼이 장치(equipment)인 경우, 상기 텍스트에서 인식된 장치 이름을 기준으로 연계시키는 단계;를 포함한다.

Description

이미지화된 PID 도면에서 설계 정보를 자동으로 인식하여 분류하는 방법 {Method of automatically recognizing and classifying information of design in imaged PID drawings}

본 발명은 이미지 P&ID에서 설계 정보를 자동으로 인식하여 저장하는 방법으로서, 상세하게는 이미지 P&ID 도면의 심볼(Symbol), 라인(line), 텍스트(text)를 인식한 다음, 인식된 설계 정보를 분류 및 연계하여 저장하는 방법에 관한 것이다.

통상적으로 엔지니어링 기업과 정유업체, 화학업체 등은 설계도면을 AutoCAD등의 CAD 도면 형식과 PDF 또는 Hard Copy 형식으로 보유하고 있다. 최근 4차산업혁명으로 AI 및 빅데이터 기술이 확산되고 있는 상황에서 조선산업 및 플랜트 엔지니어링 산업 전반에 상기 기술을 적용하기 위해서는 상기 PDF 또는 Hard Copy 형식으로 보유하고 있는 데이터의 디지털화가 필수적으로 필요하다.

시공사 종래 설계 도면의 디지털화 과정을 살펴보면, 먼저, 고객사로부터 설계 작성된 PNG, JPG, PDF등 이미지 파일화된 P&ID (이하 "이미지화된 P&ID"라 함) 도면이 시공사로 접수되면, 시공사에서는 설계 엔지니어가 상기 이미지 파일화 된 P&ID 도면을 새로운 P&ID 도면으로 작성하게 된다.

여기서, 상기 P&ID란 “Piping & Instrument Drawing”의 약어로써, 어떤 공정의 설비나 배관, 전기계장 등을 일목요연하게 다이어그램 형식으로 표현한 공정흐름도를 의미하며, P&ID를 작성하는 설계 프로그램으로는 인터그래프(Intergraph)사의 SP P&ID(SmartPlant P&ID), 아베바(Aveva)사의 Aveva P&ID, 오토데스크(AutoDesk)사의 AutoCAD Plant P&ID 등이 있다.

상기 시공사에서 작성되는 P&ID 도면에는 자재 및 물량이 기재되며, 이러한 도면을 기초로 자재 물량을 엔지니어가 컴퓨터에서 실행되는 자재산출 프로그램을 통해 물량 데이터를 집계하여 자재명세서(BOM)를 생성하고, 자재명세서를 통해 견적을 산출한다.

그런데, 상기한 종래 설계도면의 디지털화 과정은 디지털화 된 설계 도면과 이미지화된 도면을 육안으로 비교하여 오류를 점검하는 정도로 밖에 활용되지 못하였고, 이는 가장 중요한 정보이면서도 설계의 자동화 등을 위해 필요한 데이터를 활용하는데 상당한 문제가 있었다. 즉, 이미지화된 P&ID 도면과 작성된 새로운 도면들을 일일이 비교하면서 이미지화된 P&ID 도면상에 기재된 자재 중 새로운 도면으로 작성되지 않고 누락된 것이 있는지, 산출하지 않은 아이템이 있는지 등을 일일이 확인해야만 하는 설계 Product간 상호 정합성 체크의 어려움의 문제점이 있다.

또한, 새로운 도면을 작성하면서 밸브 등을 포함한 모든 자재 아이템을 다 작성해야만 하므로 새로운 도면의 작성 및 물량을 기입하는데 불필요한 많은 시간이 소요되며, 배관의 레이아웃 등이 변경되는 경우 산출 자재의 수정 및 그 업데이트 관리가 매우 어려운 문제점이 있다.

이러한 문제점으로 인해 실제 기업체에서는 대부분 산출 결과에 대한 체크를 면밀하게 수행하지 못하고 있는 실정으로서, 자재 산출에 대한 정확성 및 신뢰성이 현저하게 낮은 수준이며, 이러한 자재 물량산출의 오차로 인해 공사에 지연을 초래하는 등 많은 문제점을 야기시키고 있다.

상기의 종래의 방법에 따라 이미지 형식의 기존 도면 자료의 디지털화 지원 기술 수요가 증가하고 관련 산업 파급성은 높지만, 단기간 수익 창출이 어려워 도면 자동인식 기술의 개발이 더딘 실정이다.

본 발명은 이러한 종래의 문제점을 해결하기 위하여 개발된 것으로서, 설계의 FEED(Front-End Engineering Design)과정 중 Equipment와 Symbol의 디지털화 및 견적 산출에 있어서, 이미지화된 P&ID 도면에서 자동으로 설계정보를 인식 및 추출하여 보다 정확하고 신속하게 디지털화할 수 있고, 이 자동인식된 설계 정보를 이용해 P&ID 설계 도면 작성에 효과적으로 활용할 수 있도록 하는데 주된 목적이 있다.

상기 목적을 달성하기 위한 본 발명은 이미지화된 P&ID 도면에서 설계 정보를 자동으로 인식하여 분류하는 상기 목적을 달성하기 위한 본 발명은 이미지화된 P&ID 도면에서 설계 정보를 자동으로 인식하여 분류하는 방법으로서, 상기 이미지화된 P&ID 도면에서 라인(line)과 텍스트(text)를 제거한 후 심볼영역을 추출하고 해당 심볼영역에서 심볼(symbol)과 심볼의 원점, 연결점을 데이터베이스에 자동으로 등록하는 단계; 상기 이미지화된 P&ID 도면에서 상기 사전 등록한 심볼을 4방향으로 인식하여 추출하고 추출된 심볼은 상기 이미지화된 P&ID 도면에서 제거하는 단계; 상기 심볼이 제거된 이미지화된 P&ID 도면에서 Trim line을 제거하고 Sliding Window 방법을 이용하여 라인을 인식하여 추출하는 단계; 상기 심볼이 제거된 이미지화된 P&ID 도면에서 Aspect Ratio를 계산하여 텍스트가 존재하는 영역을 계산한 후 해당 영역에서 OCR로 텍스트를 인식하여 추출하는 단계; 상기 추출된 텍스트들 중 Drawing 영역에서 검출되는 텍스트는 사전 정의된 속성 분류 체계를 통해 각각의 속성으로 분류하는 단계; 상기 추출된 심볼, 라인이 가지는 속성 값과 상기 텍스트에서 해당 심볼, 라인과 가장 인접한 거리의 분류된 속성을 연계시키고, 상기 추출된 심볼 중 장치의 경우, 상기 텍스트에서 인식된 장치 이름을 기준으로 연계시키는 단계;를 포함한다.

또한, 상기 추출된 설계정보를 연계시키는 단계에 이어 심볼을 라인의 Flow mark 순서대로 재배열하여 토폴로지를 생성하는 단계를 더 포함할 수 있다.

또한, 상기 추출된 설계정보 및 토폴로지를 호환 가능한 XML 형식의 중간 파일로 생성할 수 있다.

또한, 부가 심볼이 등록된 심볼을 우선 검사하고, 심볼 중 장치(equipment)를 먼저 검사하고, 장치 영역 주변에서 노즐(nozzle)을 찾아 추출하여 인식률을 높일 수 있다.

또한, 상기 심볼을 인식하는 단계에서 인식된 심볼과 저장된 심볼의 특징점을 비교하여 인식된 심볼의 일치도가 설정한 임계값보다 높은 경우에만 저장된 심볼로 인식하는 것을 특징으로 할 수 있다.

또한, 상기 라인을 인식하여 추출하는 단계에서 상기 추출된 심볼의 연결점과 라인, 라인과 라인이 연결되어있지만 좌표가 다른 경우, 픽셀단위로 좌표 보정하여 라인을 추출할 수 있다.

또한, 상기 텍스트를 인식하는 방법으로 인식하지 못한 경우, 해당 텍스트 이미지를 저장하고 저장된 이미지에서 문자 매핑하여 OCR을 Training하여 인식률을 높일 수 있다.

상기 방법을 거쳐 자동으로 도면을 디지털화한다면, 짧은 시간에 높은 정확도로 설계 요소 집계하여 도면의 생성, 자재산출, 기본 설계 정보인 Equipment 리스트, Line 리스트, Instrument 리스트 산출등의 대부분 업무를 자동으로 생성하는 것이 가능하며, 고급 엔지니어들이 수작업으로 설계 요소를 계산하는 단순하고 반복된 작업을 배제하여 업무 생산성 향상에 도움이 된다.

또한, 이미지화된 P&ID에서 직접 도면을 그렸던 기존의 방법보다 상기 방법으로 생성된 데이터를 활용하여 도면을 자동으로 생성하게 된다면, 설계 Product 정합성이 유지되어 설계 품질을 향상시킬 수 있다. 이는 종래에 육안으로 일일이 확인하며 도면을 그렸던 것으로부터 발생하던 플랜트 엔지니어링 업체의 시간 낭비, 항목 누락, 오기등의 문제점을 해결해준다.

또한, 3D 모델링 후 정확도를 검증할 때에 있어서, 저장된 데이터와 비교할 수 있으므로 신속하며 정확하게 작성된 도면의 정확도를 검증할 수 있다.

도 1은 본 발명의 이미지화된 P&ID 도면의 실시예를 도시한 도면.
도 2는 본 발명에 따른 분류방법을 설명한 순서도.
도 3은 본 발명의 심볼 등록에 있어서 원점과 연결점을 설정하는 단계를 나타낸 예시도.
도 4는 본 발명의 설계정보 중 심볼을 인식하는 단계를 나타낸 예시도.
도 5는 본 발명의 이미지화된 P&ID 도면의 심볼을 제거한 후의 실시예를 도시한 도면.
도 6은 본 발명의 설계정보 중 라인을 인식하는 단계를 나타낸 예시도.
도 7은 본 발명의 설계정보 중 텍스트를 인식하는 단계에서 텍스트 영역을 추출한 것을 나타낸 예시도.
도 8은 본 발명의 추출된 심볼과 라인을 설계 정보와 연계하는 단계를 나타낸 예시도.
도 9는 본 발명의 Flow mark 순서대로 재배열하는 단계를 나타낸 예시도.
도 10은 본 발명의 중간파일로 생성되는 데이터베이스의 Hierarchy 구조를 나타낸 도면.

이하에서 첨부된 도면을 참조로 본 발명에 따른 이미지화된 P&ID 도면에서 설계 정보를 자동으로 인식하여 분류하는 방법을 보다 상세히 설명한다.

그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 참고로, 본 발명을 설명함에 있어서 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

도 1은 이미지화된 P&ID 도면의 실시예로 심볼, 라인, 텍스트가 모두 포함된 도면이다. 상기 심볼이란 Drawing 영역에서 라인과 텍스트를 제외하고 자재를 도식화한 것으로, 장치(Equipment), 계장(Instrument), 피팅류(Fitting), OPC(Operation page connection)등으로 이루어져있다. 도1은 밸브(100), 계장(110), 장치(120), 장치에 부착되어 있는 노즐(Nozzle)(130), OPC(140)등의 심볼로 구성되어 있다. 상기 OPC는 상기 도면과 연결된 타 도면을 표시하는 심볼로, 프로세스의 방향을 나타내는 방향 표시와 함께, 상기 OPC 내부에는 연결되는 P&ID 도면의 번호가 기재된다. 상기 라인은 도1에서 심볼들과 이어져있는 직선 부분으로, 프로세스 라인(Process line)과 유틸리티 라인(Utility line)으로 구성되어 있다. 상기 프로세스 라인(Process line)은 플랜트의 메인 작업이 이루어지는 배관라인이고, 상기 유틸리티 라인(Utility line)은 전기신호, 제어 라인 등 프로세스 라인의 동작을 돕기위한 라인이다. 상기 텍스트는 상기 심볼 및 라인을 설명하는 부분으로 장치를 설명하기 위한 텍스트(150), 라인을 설명하는 Line Number(160)등이 있다.

앞서 설명한 바와 같이 종래에는 이미지 파일, 통상적으로 PDF 파일 형태로 된 P&ID 도면을 설계 엔지니어들이 일일이 새로운 P&ID 도면으로 재작성했고, 이에 따라 설계 Product간 데이터가 불일치하며 FEED(Front-End Engineering Design) 데이터를 조기에 Setup하는데 있어서 불필요한 시간이 소요되었고, 이는 특히 해외 Project를 진행하는 데에 있어서 큰 문제점을 야기하였다.

이러한 문제점을 해결하고 초기 FEED 과정에서 짧은 시간, 높은 정확도를 통해 설계 요소를 집계하여 견적업무에 활용하고, 고급 엔지니어들의 단순 반복 작업을 배제하여 업무 생산성을 향상하며 설계 품질을 개선하기 위해 본 발명은 다음과 같은 자동 분류방법을 제공한다.

도 2는 본 발명에 따른 이미지화된 P&ID 도면에서 설계 정보를 자동으로 인식하여 분류하는 방법의 순서도이다.

먼저, 심볼 예상 영역에서 인식 대상이 되는 심볼을 등록한다(S200). 여기서 심볼 예상 영역은 전체 도면에서 Contour 알고리즘을 통해 자동으로 추출한다. 자동 추출된 심볼 영역에서 사전에 정의한 분류체계에 따라 심볼 리스트를 작성하고, 이를 바탕으로 데이터베이스에 심볼을 등록한다.

상기 심볼 예상 영역을 추출하는 Contour 알고리즘은 동일한 색 또는 색상 강도를 가진 부분의 가장 자리 경계를 연결하여 추출하는 것으로 본 발명에서는 도면의 여백과 심볼영역을 구별하여 심볼 예상 영역을 추출한다. 도면에서 사용자가 인식할 심볼들을 하나씩 등록하는 것은 시간이 많이 소요되는 비효율적인 작업으로, 심볼 예상 영역을 추출하는 것은 소요되는 시간을 줄이기 위함이다.

도 3은 심볼을 데이터베이스에 등록할 때에 있어서, 심볼에 심볼의 원점과 연결점 등 연결정보를 설정하는 것을 나타낸 예시도이다. 해당 예시도의 심볼은 밸브 심볼로서, 중앙의 적색 점(300)이 원점, 양측의 청색 점(310)이 연결점이다. 심볼에 연결정보를 설정하는 이유는 인식된 심볼의 연결점의 좌표를 통해 라인을 인식할 때 시작점을 설정할 수 있고, 이러한 연계 정보를 이용하여 향후 P&ID 설계도면을 자동으로 작성하는데 이용할 수 있기 때문이다.

상기 심볼을 등록하는 단계에서 심볼이 복수개의 부가 심볼로 집합을 이루고 있는 경우, 상기 집합을 이루고 있는 부가 심볼들을 포함하여 하나의 심볼로 등록하는 것을 특징으로 할 수 있다. 이로 인해 심볼의 특징이 뚜렷하게 되어 후행하는 단계인 심볼을 인식하는데 있어 인식률이 높아지므로 크기가 작은 부분을 하나의 심볼로 등록하지 않고 집합을 이루고 있는 부가 심볼들을 하나의 심볼로 등록한다.

다음으로, 상기 심볼이 저장된 데이터베이스를 바탕으로 이미지화된 P&ID 도면에서 심볼을 인식하여 추출한다(S210). 이 때, 인식된 심볼은 이미지화된 P&ID 도면에서 제거한다. 이를 통해, 후행 심볼을 인식하는데 걸리는 시간을 줄일 수 있고 오인식률도 낮출 수 있고, 후행 단계인 라인을 인식할 때에 있어서 심볼을 라인으로 잘못 인식하는 경우를 방지할 수 있다.

심볼을 인식하는 방법으로 도면을 0, 90, 180, 270도로 회전시켜 심볼 하나씩 도면에서 인식하는 방법을 사용할 수 있다. 4방향으로 심볼을 인식한다면 방향만 다른 상기 심볼이 등록된 데이터베이스에서 등록되지 않은 심볼까지도 인식할 수 있어 인식률을 높일 수 있다. 또한, 인식된 심볼이 제거되므로써, 심볼을 하나씩 검색하여도 크게 시간이 소모되지 않는다.

상기 심볼을 인식하는 단계에서 인식된 심볼과 저장된 심볼의 특징점을 비교하여 인식된 심볼의 일치도가 사용자가 설정한 임계값보다 높은 경우에만 저장된 심볼로 인식하게 할 수 도 있다(320). 이 방법을 통해 사용자가 임의로 임계값을 설정해 인식속도와 인식률을 조절할 수 있다.

상기 심볼 인식단계에서 상기 부가 심볼이 등록된 심볼을 우선 검사하는 것을 특징으로 하여 심볼을 인식하고 도면에서 제거한다. 부가 심볼을 포함한 심볼을 우선적으로 인식하면 중복 인식을 줄여 인식률을 높일 수 있기 때문이다. 또한 기본 심볼을 먼저 인식하여 오인식 할 수 있는 것을 방지할 수 있다.

또한, 상기 심볼을 인식하는 단계에서 심볼의 크기, 도면의 복잡도에 따라 심볼의 이미지맵을 확대/축소하여 비교하여 심볼을 인식하여 추출할 수 있다.

상기 심볼을 인식하여 추출하는 단계에서 심볼 중 장치(equipment)를 먼저 검사하고, 장치 영역 주변에서 노즐(nozzle)을 찾아 추출하는 것을 특징으로 할 수 있다. 일반적으로 노즐은 장치 주변에 위치하므로 장치 영역 주변에서 노즐을 찾으며, 노즐의 심볼은 작아서 전체 Drawing 영역에서 인식할 경우 오인식 확률이 높지만, 심볼 중 장치를 먼저 인식하고 이를 제거한 후 장치 주변에서 노즐을 찾아 추출한다면 노즐의 인식률이 높아져 전체 심볼의 인식률을 향상시킬 수 있다.

도 4는 심볼을 인식하는 초기 단계로 png확장자명으로 이미지화된 P&ID에서 심볼을 하나씩 비교하는 것을 나타낸 예시도이다. PSD 심볼이 13개, DCS INSTRUMENT는 28개, LOCAL MOUNT INSTRUMENT는 64개 인식하여 추출하였고, 현재는 우측에 표시된 Insertion Blind Open 심볼(400)을 검색 중인 상태이다.

도 5는 이미지화된 P&ID 도면의 심볼을 제거한 후의 실시예를 도시한 것으로 도 2와 비교하였을 때 심볼이 제거된 것을 알 수 있다. 이를 통해 심볼을 인식하는데 있어서 인식속도를 높여주고, 라인을 인식할 때, 심볼을 라인으로 잘못 인식하는 경우를 방지한다는 것은 상기한 바와 같다.

다음으로, 이미지화된 P&ID 도면에서 상기 제거된 심볼의 연결점에 연결되어 있는 라인을 슬라이딩 윈도우(Sliding Window) 방법을 이용하여 인식하여 추출한다(S220). 라인 인식전 상기 이미지화된 도면에서 Trim Line과 같은 작은 객체를 제거한다.

도 6은 상기 슬라이딩 윈도우 방법으로 라인을 인식하는 것을 나타낸 예시도이다. 슬라이딩 윈도우 방법이란 픽셀 단위가 아닌 Blob단위로 계산하여 라인을 인식하는 것으로 픽셀 단위로 인식하는 방식보다 인식에 걸리는 시간이 단축된다. 인식된 심볼(600)을 기준으로 심볼의 연결점에서 슬라이딩 윈도우(610)를 상하/좌우로 이동시켜 라인을 인식하고, 좌/우로 이동하다 선을 찾지 못하면 끝점에서 상/하로 라인을 찾도록 한다. 슬라이딩 윈도우에 일정 부분이상 점유되어도 라인으로 인식되기 때문에 픽셀이 떨어져 있어도 라인으로 인식이 가능하다. 슬라이딩 윈도우의 길이는 사용자가 임의로 조정할 수 있으므로 인식 정확도와 속도를 조절하여 사용할 수 있다.

상기 라인의 좌표를 추출할 때에 있어서 라인과 심볼이 연결되는 심볼의 연결점의 좌표와 라인의 끝점의 좌표는 이미지 상의 심볼과 라인의 두께로 인해 정확히 일치하지 않을 수 있다. 이 경우 픽셀 단위로 떨어져 있는 라인과 심볼을 심볼의 연결점 좌표로 미세조정해준다. 이는 본 발명의 데이터베이스를 이용하여 새로운 P&ID를 생성할 때에 정확히 라인과 심볼을 연결시키기 위해 필요하다. 해당 미세조정은 라인과 라인 사이에서도 동일한 방법으로 적용하여 수평선/수직선 자체 두께로 인해 중심이 연결되지 않을 때 이를 연결되도록 처리한다.

다음으로, 상기 심볼이 제거된 이미지화된 P&ID 도면에서 종횡비(Aspect Ratio)를 계산하여 텍스트가 존재하는 영역을 계산한 후 해당 영역에서텍스트를 인식하여 추출한다(S230). 텍스트를 인식하는 방법은 OCR(Optical Character Reader)과 같은 기존의 텍스트 인식 프로그램을 사용할 수 있다. OCR 구현원리는 공지된 것이므로 상세한 설명은 생략한다. OCR외의 공지된 텍스트 인식 방법을 사용할 수 있음은 당연하다. 라인, 심볼과 텍스트가 혼재하는 P&ID 도면의 특성 상 텍스트만 존재하는 일반 문서에 비해 텍스트 인식률이 떨어진다. 따라서 도면에서 문자 종횡비를 계산하여 텍스트가 존재하는 영역을 추출하여 해당 영역의 텍스트만 인식하는 방법이 필요하다.

도7은 상기 텍스트 영역을 계산하는 방법을 표현한 예시도이며, 영역을 계산하는 방법은 우선 외곽선을 추출하여 라인과 Instrument Bubble을 제거한다. 그 후 인식된 부분이 Bounding Box가 미리 설정해둔 종횡비를 벗어나면 그부분을 제거하고, 인식된 부분이 설정해둔 종횡비 범위 내라면 텍스트 영역으로 남겨둔다. 상기 텍스트 영역으로 인식된 부분을 미리 설정해둔 임계값까지 팽창(Dilate)시켜 다음 인식된 부분도 텍스트 영역이라고 판별된다면 남겨두는 방식으로 전체 텍스트 영역의 Contour Bounding Box를 생성하여 전체 텍스트 영역을 추출한다. 텍스트 영역을 설정하여 추출하는 이유는 해당 텍스트 영역을 설계 정보 단위로 인식하여 후행 단계인 텍스트에서 추출된 속성 정보를 분류하여 연계하는데 이용하기 위함이다.

상기 방법으로 텍스트가 존재하는 영역을 추출하면 추출한 영역의 이미지에서 텍스트를 OCR을 적용하여 텍스트를 인식한다. 다만 현재 최고 수준의 OCR도 인식률이 100%가 되지 않아 오인식이나 미인식이 발생하므로 텍스트를 Training시켜 인식률을 높일 필요가 있다. 상기 텍스트를 인식하는 방법으로 인식하지 못한 경우, 먼저 해당 텍스트 이미지를 저장하고 각각의 이미지에서 문자를 매핑한다. 문자를 매핑하는 방법으로는 상기 이미지의 문자와 가장 유사한 문자를 매핑하거나 사용자가 일일이 해당되는 문자를 지정하는 방법을 사용할 수 있다. 그 후 매핑 데이터를 이용하여 Training Data를 생성하고 생성한 Training Data를 데이터베이스화하여 텍스트 인식에 적용한다.

다음으로, 추출된 텍스트들 중 Drawing 영역에서 검출되는 텍스트는 사전 정의된 속성 분류 체계를 통해 각각의 속성으로 분류한다(S240). 상기 Drawing 영역은 도면의 설명부가 아닌 심볼과 라인의 집합으로 이루어진 부분으로, 영역을 구분한 이유는 분류하여야 할 속성이 다를 수 있기 때문이다. 텍스트가 Drawing 영역 외의 Note, Revision Data, Title Block, Description영역에서 검출되는 경우, 각 인식할 요소의 영역을 설정 후 검출되는 텍스트가 영역에 포함되는지 여부를 확인하여 인식 요소로 판별한다.

Drawing 영역에서 검출되는 텍스트의 속성은 Line Number, Size, Tag Number, Instrumnet Type, Serial Number, Serial Number, P&ID Name 등으로 나뉜다. 해당 속성은 사용자에 따라 임의로 지정할 수 있다. Line Number는 사업주 지정 양식을 따르는데 Size, Fluid, Serial Number, Insulation 등의 구분자로 조합된다. Size는 Size를 구성하는 텍스트는 숫자,특수문자(/,") 등의 조합으로 이루어져 있으며, Tag Number는 알파벳, 숫자, 특수문자(-,/,")등의 조합으로 이루어져 있고, Instrument Type은 프로젝트에 명시된다.

도 7는 라인 넘버를 추출하여 속성 정보를 분류하는 실시예로서, Fluid(700), Unit(710), Sequence(720), Material(730), Size(740), Insulation(750)등의 속성정보로 분류된다.

다음으로, 각 심볼이 가질 수 있는 속성 정보를 사전 정의하고 인식된 심볼과 라인이 가지는 속성 타입에 맞는 속성들을 도면에서 찾아 가장 가까운 속성과 연결시킨다(S250). 속성들을 연계시킴으로써, 견적을 산출할 때 필요한 장치와 수량을 파악할 수 있고, 향후 새로운 P&ID 제작할 때 심볼 및 라인을 모델링하고 상기 심볼 및 라인을 설명하는 텍스트를 현출할 수 있다. 속성 정보를 사전에 정의함으로써, 심볼에 불필요하거나 잘못된 속성을 연계하는 오류를 방지할 수 있다. 추출된 심볼, 라인을 가장 인접한 거리 기준으로 상기 추출된 텍스트의 속성과 연계시키고, 상기 추출된 심볼이 장치(equipment)인 경우, 상기 텍스트에서 인식된 장치 이름을 기준으로 연계시킨다. 장치의 경우, 장치의 이름은 Description 영역에 있는 Description을 사용한다.

심볼 및 라인 속성은 Process/Utility line, Reducer, Equipment, Nozzle, Instrument, OPC로 나눌 수 있다. 해당 속성은 사용자에 따라 임의로 지정할 수 있다. Process/Utility line은 텍스트열에서 분류한 속성 중 Line Number, Reducer은 Main Size x Sub Size, Equipment과 Nozzle은 Tag Number, Instrument는 Type, Serial Number, OPC는 P&ID Number을 사용한다.

도 8은 추출된 심볼과 라인을 연계하는 단계에 대해 설명하기 위한 실시예로 800은 심볼 중 장치(Equipment)로 Description영역에 있는 "E-234-009"가 장치이름으로 해당 장치와 연계된 것을 나타낸 것이다. 810은 라인으로 인식된 라인과 가장 가까운 "P-234-03303-CD3D-2"-N", "P-234-03305-CD3D-3"-N"가 Line Number로 연계된 것을 표현한 것이며, 820은 Pressure Safety Valve의 심볼로 "PSV 2907"가 Instrument의 Type과 Serial Number로 연계된 것을 묘사한 것이다.

본 발명을 통해 속성 정보와 연계된 설계 정보를 바탕으로 자재명세서(BOM)을 작성하거나 Equipment, Instrument등을 이용하여 FEED 과정에서 필요한 설계 견적을 자동으로 산출할 수 있다. 다만 추가로 객체와 개체 통합에 의한 토폴로지 생성을 통해 XML 형식의 중간 파일을 생성하여, 추후에 자동으로 P&ID을 작성하는데 활용할 수 있다.

도 9는 설계정보를 연계시키는 단계에 이어 재귀호출 기법을 통하여 라인과 라인에 연결된 심볼을 연결하고 연결된 심볼을 라인의 From-to 순서대로 재배열하여 객체와 객체 통합에 의해 토폴로지 생성하는 것을 도식화한 것이다. 먼저 인식 객체간의 연계 관계를 다음과 같이 정의한다. Process/Utility Line은 장치에서 시작해서 장치에서 끝나는 경우, 라인에서 시작해서 장치에서 끝나는 경우, 라인에서 시작해서 라인에서 끝나는 경우가 있다. 그 외에 장치는 그에 종속되는 노즐(Nozzle)을 갖으며, P&ID 도면은 다른 P&ID와 연계성을 가진다.

상기 재귀호출 기법(recursive algorithm)은 임의의 함수가 자신을 호출하는 것을 의미하며, 본 발명에서는 임의의 심볼 또는 라인이 상기 저장된 연결정보를 이용하여 연결된 다른 심볼 또는 라인을 호출하고, 상기 과정이 계속적으로 반복되어 라인과 라인에 연결된 심볼을 연결하여 From-to 순서대로 재배열한다.

토폴로지를 생성하는 방법은 우선 라인과 라인에 연결되어있는 각 심볼을 연결하고 연결된 심볼을 라인의 Flow mark에 따라 재배열한다. 라인과 라인에 연결되어있는 각 심볼을 연결하는 과정에서 연결이 끊어진 경우 중심선 기준으로 좌표 조정을 하여 연결성을 확보하는 작업이 필요하다. Flow mark에 따라 From-to 순서대로 정렬되는 방법은 라인 리스트의 From 또는 to와 연결되어 있는 라인을 시작점으로 하여 From-to를 연결하는 라인 혹은 객체를 찾아 순서대로 정렬하였다. 도 9에서 Flow mark 방향으로 정렬하기 전에는 상기 심볼을 인식하는 과정에서 2번과 3번의 동일한 심볼이 연속하여 추출되는 등 심볼이 순서 없이 정렬되어 토폴로지로 형성할 수 없었으나, Flow mark 방향으로 정렬함에 따라 좌측에서 우측으로 순서대로 정렬되었다. From-to 순서대로 토폴로지 생성을 하지 않는다면, 본 발명의 방법으로 생성된 데이터베이스를 바탕으로 새로운 P&ID 작성시 좌표점으로만 무작위로 심볼을 모델링하여야 하는데, 이로 인해 상기 이미지화된 P&ID 도면과 다른 도면이 생성될 수 있다. 따라서 새로운 P&ID 도면을 작성할때, 수작업으로 이루어지던 설계 도면 작성 작업을 자동으로 하기 위해서 토폴로지 생성은 필요하다.

라인 추출시에는 Process line과 Utility line을 구별하지 않았으나 토폴로지 생성과정에서 이를 구별하는 것을 특징으로 할 수 도 있다. 라인을 구별하는데 있어서 원래 오기된 부분이 있거나 인식이 잘못된 부분이 있을 수 있는데 객체를 연결하는 과정에서 Process line과 Utility line에 연결되는 객체에 따라 구별하는게 가장 정확하기 때문이다. 연결되는 객체가 Instrument인 경우에 해당 라인은 Utility line이고 그 외의 경우는 Process line으로 분류한다.

장치를 연결하는 과정에서 노즐이 장치에 붙어있는 경우도 있고 형상 내에 포함되어 있는 경우가 있어 장치 형상과 겹치는 노즐을 찾아 장치에 연결시킨다. 이는 노즐이 일반적으로 장치 근처에서 작은 형상으로 있기 때문이다.

OPC에 나타나는 P&ID Number을 이용하여 다른 P&ID와 연결시는 과정을 포함시킬 수 있다. OPC에 나타는 P&ID 이름과 실제 파일 이름이 서로 다른 경우 이 둘 의 관계를 정립하는 설정이 필요하다. 또한 하나의 P&ID에 연결되는 P&ID가 여러 개 있을 수 있으므로 P&ID에 연결되는 P&ID 정보를 저장하여 다른 페이지에 있는 P&ID 정보를 쉽게 획득할 수 있도록 한다.

다음으로, 추출된 설계정보 및 토폴로지를 호환 가능한 XML 형식의 중간 파일로 생성하는 것을 특징으로 할 수 도 있다. 도 10은 중간파일로 생성된 객체 간의 연계를 통해 구축한 토폴로지의 Hierarchy 구조의 예시도이다. Equipment에 대해서는 장치 번호가 저장되고 상기 저장된 장치 번호에 "p1,p2,v1,v2"의 순서대로 저장된 노즐이 연계된 것을 도식화하였다. 이와 같은 방법으로 라인 넘버가 "8"-DMW-UW10029-AR5W-HC"인 라인에 심볼이 "FOO41, Valve, Reducer, Foo41" 순서대로 연계된 것을 보여준다.

Claims

이미지화된 P&ID 도면에서 설계 정보를 자동으로 인식하여 분류하는 방법으로서,
상기 이미지화된 P&ID 도면에서 심볼영역을 추출하고 상기 심볼영역에서 해당하는 심볼(Symbol)의 원점과 연결점을 설정한 후 심볼을 데이터베이스에 자동으로 등록하는 단계;
상기 이미지화된 P&ID 도면에서 상기 사전 등록한 심볼을 인식하여 추출하고 추출된 심볼은 상기 이미지화된 P&ID 도면에서 제거하는 심볼을 인식하여 추출하는 단계;
상기 심볼이 제거된 이미지화된 P&ID 도면에서 픽셀 단위가 아닌 Blob단위로 계산하는 슬라이딩 윈도우(Sliding Window) 방법을 이용하여 라인을 인식하여 추출하는 단계;
상기 심볼이 제거된 이미지화된 P&ID 도면에서 종횡비(Aspect Ratio)를 계산하여 텍스트가 존재하는 영역을 계산한 후 해당 영역에서 텍스트를 인식하여 추출하는 단계;
상기 추출된 텍스트들 중 Drawing 영역에서 검출되는 텍스트는 사전 정의된 속성 분류 체계를 통해 각각의 속성으로 분류하는 단계;
상기 추출된 심볼, 라인을 가장 인접한 거리 기준으로 상기 추출된 텍스트의 속성과 연계시키고, 상기 추출된 심볼이 장치(equipment)인 경우, 상기 텍스트에서 인식된 장치 이름을 기준으로 연계시키는 단계;를 포함하는 이미지화된 P&ID 도면에서 설계 정보를 자동으로 인식하여 분류하는 방법
청구항 1에 있어서,
상기 심볼을 등록하는 단계는, 심볼이 복수개의 부가 심볼로 집합을 이루고 있는 경우, 상기 집합을 이루고 있는 부가 심볼들을 포함하여 하나의 심볼로 등록하고,
상기 심볼을 인식하여 추출하는 단계는, 상기 부가 심볼이 포함되어 등록된 심볼을 우선 검사하여 인식하는 것을 특징으로 하는 이미지화된 P&ID 도면에서 설계 정보를 자동으로 인식하여 분류하는 방법
청구항 1에 있어서,
상기 심볼을 인식하여 추출하는 단계는, 상기 사전 등록한 심볼을 0, 90, 180, 270도로 회전하여 심볼 하나씩 도면에서 인식하여 추출하는 것을 특징으로 하는 이미지화된 P&ID 도면에서 설계 정보를 자동으로 인식하여 분류하는 방법
청구항 1에 있어서,
상기 심볼을 인식하여 추출하는 단계는, 심볼 중 장치(equipment)를 먼저 검사하고, 장치 영역 주변에서 노즐(nozzle)을 찾아 추출하는 것을 특징으로 하는 이미지화된 P&ID 도면에서 설계 정보를 자동으로 인식하여 분류하는 방법
청구항 1에 있어서,
상기 심볼을 인식하여 추출하는 단계는, 인식된 심볼과 상기 심볼 등록 단계에서 등록된 심볼의 특징점을 비교하여 인식된 심볼의 일치도가 설정한 임계값보다 높은 경우에만 등록된 심볼로 인식하는 것을 특징으로 하는 이미지화된 P&ID 도면에서 설계 정보를 자동으로 인식하여 분류하는 방법
청구항 1에 있어서,
상기 라인을 인식하여 추출하는 단계는, 상기 추출된 심볼과 라인이 이어지지만 좌표가 상이하거나, 라인과 라인이 이어지지만 좌표가 상이한 경우, 픽셀단위로 좌표를 보정하여 라인을 추출하는 것을 특징으로 하는 이미지화된 P&ID 도면에서 설계 정보를 자동으로 인식하여 분류하는 방법
청구항 1에 있어서,
상기 텍스트를 인식하여 추출하는 단계는, 상기 텍스트를 OCR로 인식하고, 상기 텍스트를 정확하게 인식하지 못한 경우, 상기 미인식 되거나 오인식된 텍스트를 정확하게 매핑하여 OCR을 Training하는 것을 특징으로 하는 이미지화된 P&ID 도면에서 설계 정보를 자동으로 인식하여 분류하는 방법
청구항 1에 있어서,
상기 추출된 설계정보를 연계시키는 단계는, 재귀호출 기법을 통하여 라인과 라인에 연결된 심볼을 연결하고 연결된 심볼을 라인의 From-to 순서대로 재배열하여 토폴로지를 생성하는 단계를 더 포함하는 것을 특징으로 하는 이미지화된 P&ID 도면에서 설계 정보를 자동으로 인식하여 분류하는 방법
청구항 2에 있어서,
상기 추출된 설계정보 및 토폴로지를 호환 가능한 XML 형식의 파일로 생성하는 것을 특징으로 하는 이미지화된 P&ID 도면에서 설계 정보를 자동으로 인식하여 분류하는 방법
청구항 2에 있어서,
상기 토폴로지를 생성하는 단계는, 상기 라인에 연결되어 있는 객체가 심볼 중 Instrument라면 Utility line, 그 외에는 Process line으로 분류하는 것을 특징으로 하는 이미지화된 P&ID 도면에서 설계 정보를 자동으로 인식하여 분류하는 방법
청구항 2에 있어서,
상기 토폴로지를 생성하는 단계는, 상기 추출된 텍스트의 OPC(Operating page connection)에 나타나는 P&ID No를 이용하여 다른 P&ID와 연결시키는 것을 특징으로 하는 이미지화된 P&ID 도면에서 설계 정보를 자동으로 인식하여 분류하는 방법