KR102083786B1

KR102083786B1 - 문자열 식별 방법 및 장치, 그리고 이를 이용한 디스플레이 영상 식별 시스템

Info

Publication number: KR102083786B1
Application number: KR1020180109368A
Authority: KR
Inventors: 김상우; 구교권; 이상준
Original assignee: 포항공과대학교 산학협력단
Priority date: 2018-09-13
Filing date: 2018-09-13
Publication date: 2020-04-23

Abstract

문자열 식별 방법 및 장치 그리고 이를 이용한 디스플레이 영상 식별 시스템이 개시된다. 상기 문자열 식별 방법 및 장치 그리고 이를 이용한 디스플레이 영상 식별 시스템은 문자열을 포함하는 영상 이미지를 생성하는 영상 제공 장치, 영상 이미지를 출력하고, 사용자로부터 문자열 속성 정보를 입력 받는 양방향 디스플레이 장치 및 문자열 속성 정보를 수신하여 FCN 모델에 의해 영상 이미지 내 개별 문자의 종류를 식별함으로써, 문자 사이의 간격 및 사용자 입력 정보에 따라 색상 표식을 생성하여, 중첩에 의한 식별 오류를 방지하고, 컨볼루셔널 계층(Convolution layer)만을 사용하는 FCN 모델에 의해 FCN 출력 이미지 생성을 위한 계산량 및 계산 시간이 감소된 고속, 고정밀 및 고신뢰성의 문자열 식별 방법 및 장치 그리고 이를 이용한 디스플레이 영상 식별 시스템을 제공할 수 있다.

Description

문자열 식별 방법 및 장치, 그리고 이를 이용한 디스플레이 영상 식별 시스템{METHOD AND APPARATUS FOR IDENTIFYING STRING AND SYSTEM FOR IDENTIFYING DISPLAING IMAGE USING THEREOF}

본 발명은 문자열 식별 방법 및 장치, 그리고 이를 이용한 디스플레이 영상 식별 시스템에 관한 것으로, 더욱 상세하게는 영상 이미지에서의 문자열의 위치 및 종류를 식별하는 문자열 식별 방법 및 장치, 그리고 이를 이용한 디스플레이 영상 식별 시스템에 관한 것이다.

최근 무인화 기술의 발전에 따라, 영상 이미지에서 텍스트를 인식하는 문자열 인식(scene text recognition) 기술이 주목 받고 있다.

이에 종래에는 문자열 인식을 위한 여러 가지 영상 처리 기법들이 개발되고 있다. 그 중 하나로 규칙 기반의 영상처리 기법이 있다. 하지만, 규칙 기반의 영상 처리 기법은 기반이 되는 수치 설계가 요구되며, 수치들을 설계하는 전문가의 기술에 의한 영향을 많이 받는다. 또한, 규칙 기반의 영상 처리 기법은 영상 이미지의 가변성을 반영하지 못하여 정확도가 떨어지는 문제가 있다.

이러한 문제점을 보완하기 위해 최근에는 딥러닝(Deep Learning) 학습을 이용한 영상 처리 기법이 다수 개발되고 있다.

딥러닝 기반의 영상 처리 기법으로는 컨볼루션 신경망(Convolutional Neural Network)을 활용한 기계학습 기반의 영상처리 기법이 주로 개발되고 있다.

일반적으로, 컨볼루션 신경망 기반의 문자열 인식 기술은 문자열 후보영역을 추출하기 위해 슬라이딩 윈도우(sliding window) 또는 (region proposal) 등의 전처리 과정을 필요로 한다. 따라서, 사용자가 컨볼루션 신경망 기반의 문자열 인식 기술을 이용하여 다양한 크기 및 각도(orientation)의 문자열을 인식할 경우, 추출된 후보군들에 대해 컨볼루션 신경망 기반의 문자열 인식 기술을 여러번 시행해야 하기 때문에 계산 복잡도가 증가하는 단점이 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은 고속, 고정밀 및 고신뢰성의 문자열 식별 방법을 제공하는 데 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은 고속 및 고신뢰성의 문자열 식별 장치를 제공하는 데 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은 고속 및 고신뢰성의 디스플레이 영상 식별 시스템을 제공하는 데 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 문자열 정보를 포함하는 영상 이미지 내 개별 문자의 종류를 식별하는 문자열 식별 방법은, 외부 장치로부터 상기 영상 이미지 내 개별 문자에 대한 위치 정보 및 카테고리 정보를 포함하는 문자열 속성 정보를 수신하는 단계, 상기 문자열 속성 정보가 반영된 색상 표식을 포함하는, 영상화 된 GTD(Ground Truth Data) 이미지를 생성하는 단계, 상기 GTD 이미지를 이용하여 지도 학습 기반의 딥러닝 알고리즘(Deep-Learning Algorithm) 모델을 학습하는 단계, 상기 외부 장치로부터 신규 수신된 신규 영상 이미지에 상기 학습된 딥러닝 알고리즘 모델을 적용하여 출력 이미지를 획득하는 단계, 상기 출력 이미지를 후처리하여 상기 신규 영상 이미지 내 문자열 정보를 인식하는 단계를 포함한다.

이때, 상기 GTD 이미지를 생성하는 단계는, 상기 영상 이미지 내 문자열 사이의 간격에 따라 상기 색상 표식의 크기를 조절하는 단계를 포함할 수 있다.

여기서, 상기 색상 표식은 원형으로 제공될 수 있다.

또한, 원형으로 제공되는 상기 색상 표식의 반경은 제1 문자 및 상기 제1 문자와 인접한 제2 문자 사이의 최소 거리에 따라 설정될 수 있다.

상기 지도 학습 기반의 딥러닝 알고리즘(Deep-Learning Algorithm) 모델은 컨볼루셔널 계층(Convolutional layer)로 이루어진 FCN(Fully Convolutional Network) 모델을 포함할 수 있다.

이때, 상기 FCN 모델은 상기 GTD 이미지 내 적어도 하나의 픽셀이 상기 개별 문자의 위치를 나타내는 상기 색상 표식 내에 위치할 경우, 상기 픽셀의 카테고리 정보에 대응하는 라벨링 정보로 0이 아닌 적어도 하나의 값(non-zero)을 생성할 수 있다.

반면, 상기 FCN 모델은 상기 GTD 이미지 내 적어도 하나의 픽셀이 상기 개별 문자의 위치를 나타내는 상기 색상 표식 외부에 위치할 경우, 상기 픽셀의 카테고리 정보에 대응하는 라벨링 정보로 0 값(zero)을 생성할 수 있다.

상기 문자열 식별 방법에 따르면, 상기 신규 영상 이미지 및 상기 FCN 모델로부터 출력된 상기 출력 이미지의 크기가 동일할 수 있다.

상기 획득한 상기 FCN 출력 이미지를 후처리하는 단계는, 상기 신규 영상 이미지 내의 문자열 개수를 아는 경우, 상기 문자열 개수를 K 값으로 사용하는 K 평균 알고리즘(K-means Algorithm)을 이용하여, 상기 출력 이미지의 라벨링 정보가 0이 아닌 적어도 하나의 값(non-zero)을 클러스터링(Clustering)하는 단계를 포함할 수 있다.

또한, 상기 획득한 상기 출력 이미지를 후처리하는 단계는, 상기 신규 영상 이미지 내의 문자열 개수를 모르는 경우, 상기 출력 이미지의 라벨링 정보가 0이 아닌 적어도 하나의 값(non-zero)에 대해 연결 성분 분석(Connected Component Analysis)을 진행하는 단계를 포함할 수 있다.

상기 외부 장치는 양방향 디스플레이 장치를 포함할 수 있다.

또한, 상기 문자열 속성 정보는 사용자로부터 입력된 정보일 수 있다.

상기 목적을 달성하기 위한 본 발명의 다른 실시예에 따른 문자열 식별 장치는 프로세서(processor) 및 상기 프로세서(processor)를 통해 실행되는 적어도 하나의 명령이 저장된 메모리(memory)를 포함하고, 상기 적어도 하나의 명령은, 외부 장치로부터 상기 영상 이미지 내 개별 문자에 대한 위치 정보 및 카테고리 정보를 포함하는 문자열 속성 정보를 수신하도록 하는 명령, 상기 문자열 속성 정보가 반영된 색상 표식을 포함하는, 영상화 된 GTD(Ground Truth Data) 이미지를 생성하도록 하는 명령, 상기 GTD 이미지를 이용하여 지도 학습 기반의 딥러닝 알고리즘(Deep-Learning Algorithm) 모델을 학습하도록 하는 명령, 상기 외부 장치로부터 수신된 신규 영상 이미지에 상기 학습된 딥러닝 알고리즘 모델을 적용하여 출력 이미지를 획득하도록 하는 명령 및 상기 출력 이미지를 후처리하여 상기 신규 영상 이미지 내 문자열 정보를 인식하도록 하는 명령을 포함한다.

여기서, 상기 색상 표식은 원형으로 제공되며, 상기 색상 표식의 반경은 제1 문자 및 상기 제1 문자와 인접한 제2 문자 사이의 최소 거리에 따라 설정될 수 있다.

상기 지도 학습 기반의 딥러닝 알고리즘(Deep-Learning Algorithm) 모델은 컨볼루셔널 계층(Convolutional layer)로 이루어진 FCN(Fully Convolutional Network) 모델로 제공될 수 있다.

여기서, 상기 FCN 모델은 기 GTD 이미지 내 적어도 하나의 픽셀이 상기 개별 문자의 위치를 나타내는 상기 색상 표식 내에 위치할 경우, 상기 픽셀의 카테고리 정보에 대응하는 라벨링 정보로 0이 아닌 적어도 하나의 값(non-zero)을 생성하고, 상기 GTD 이미지 내 적어도 하나의 픽셀이 상기 개별 문자의 위치를 나타내는 상기 색상 표식 외부에 위치할 경우, 상기 픽셀의 카테고리 정보에 대응하는 라벨링 정보로 0 값(zero)을 생성할 수 있다.

상기 문자열 식별 장치에 따르면, 상기 신규 영상 이미지 및 상기 FCN 모델로부터 출력된 상기 출력 이미지의 크기가 동일할 수 있다.

또한, 상기 출력 이미지는, 상기 신규 영상 이미지 내의 문자열 개수를 아는 경우, 상기 문자열 개수를 K 값으로 사용하는 K 평균 알고리즘(K-means Algorithm)을 이용하여, 상기 출력 이미지의 라벨링 정보가 0이 아닌 적어도 하나의 값(non-zero)을 클러스터링(Clustering) 함으로써 후처리 될 수 있다.

반면, 상기 출력 이미지는, 상기 신규 영상 이미지 내의 문자열 개수를 모르는 경우, 상기 출력 이미지의 라벨링 정보가 0이 아닌 적어도 하나의 값(non-zero)에 대해 연결 성분 분석(Connected Component Analysis)을 수행하여 후처리 될 수 있다.

상기 목적을 달성하기 위한 본 발명의 또다른 실시예에 따른 디스플레이 영상 식별 시스템은 문자열 정보를 촬영한 상기 적어도 하나의 촬영 이미지를 획득하는 영상 제공 장치, 적어도 하나의 상기 촬영 이미지를 수신하여 영상 이미지로 출력하고, 사용자로부터 상기 영상 이미지의 문자열 내 개별 문자들의 위치 정보 및 카테고리 정보를 포함하는 속성 정보를 수신하여 저장하는 양방향 디스플레이 장치 및 상기 양방향 디스플레이 장치로부터 신규 영상 이미지를 수신하고, 학습된 FCN(Fully Convolutional Network) 모델을 이용하여 상기 신규 영상 이미지 내 문자열 정보를 식별하는 문자열 식별 장치를 포함하되, 상기 문자열 식별 장치는 프로세서(processor) 및 상기 프로세서(processor)를 통해 실행되는 적어도 하나의 명령이 저장된 메모리(memory)를 포함하고, 상기 적어도 하나의 명령은, 상기 양방향 디스플레이 장치로부터 상기 속성 정보를 수신하도록 하는 명령, 상기 속성 정보가 반영된 색상 표식을 포함하는, 영상화 된 GTD(Ground Truth Data) 이미지를 생성하도록 하는 명령, 상기 GTD 이미지를 이용하여 상기 FCN 모델을 학습하도록 하는 명령, 상기 신규 영상 이미지에 상기 학습된 FCN 모델을 적용하여 출력 이미지를 획득하도록 하는 명령 및 상기 출력 이미지를 후처리하여 상기 신규 영상 이미지 내 문자열 정보를 인식하도록 하는 명령을 포함한다.

여기서, 상기 양방향 디스플레이 장치는 사용자로부터 마우스, 키보드, 터치 스크린 중 적어도 하나를 통해 입력된 상기 속성 정보를 수신할 수 있다.

또한, 상기 색상 표식은 원형으로 제공되며, 상기 색상 표식의 반경은 제1 문자 및 상기 제1 문자와 인접한 제2 문자 사이의 최소 거리에 따라 설정될 수 있다.

본 발명의 실시예에 따른 문자열 식별 방법 및 장치 그리고 이를 이용한 디스플레이 영상 식별 시스템은, 적어도 하나의 GTD 이미지에 의해 훈련된 FCN 학습 모델을 제공함으로써, 신규 영상 이미지 내 신뢰도 높은 문자열을 식별하는 고정밀의 문자열 식별 방법 및 장치 그리고 이를 이용한 디스플레이 영상 식별 시스템을 제공할 수 있다.

또한, 상기 문자열 식별 방법 및 장치 그리고 이를 이용한 디스플레이 영상 식별 시스템은, 적어도 하나의 GTD 이미지에 의해 훈련된 FCN 학습 모델을 제공함으로써, 완전 연결 계층(Fully-Connected layer)을 사용하는 기존의 CNN(Convolutional Neural Network) 학습 대비 FCN 출력 이미지 생성을 위한 계산량 및 계산 시간이 감소된, 고속의 문자열 식별 방법 및 장치 그리고 이를 이용한 디스플레이 영상 식별 시스템을 제공할 수 있다.

또한, 상기 문자열 식별 방법 및 장치 그리고 이를 이용한 디스플레이 영상 식별 시스템은 사용자로부터 입력된 개별 문자의 위치 정보를 바탕으로, 영상 이미지 내 문자열 사이의 간격을 고려한 특정 크기의 색상 표식을 제공함으로써, 영상 이미지 상에 적어도 일부분이 겹친 문자들의 식별이 가능한 고신뢰성의 문자열 식별 방법 및 장치 그리고 이를 이용한 디스플레이 영상 식별 시스템을 제공할 수 있다.

도 1은 본 발명의 실시예에 따른 디스플레이 영상 식별 시스템을 나타낸 블록 구성도이다.
도 2는 본 발명의 실시예에 따른 디스플레이 영상 식별 시스템 내 양방향 디스플레이 장치가 출력한 영상 이미지이다.
도 3은 본 발명의 실시예에 따른 디스플레이 영상 식별 시스템 내 문자열 식별 장치의 블록 구성도이다.
도 4는 본 발명의 실시예에 따른 문자열 식별 장치를 이용한 문자열 식별 방법의 순서도이다.
도 5는 본 발명의 실시예에 따른 문자열 식별 장치에 의해 생성된 GTD 이미지들이다.
도 6은 본 발명의 실시예에 따른 문자열 식별 방법을 설명하기 위한 GTD 이미지의 색상 정보에 따른 클라스 정보 및 라벨링 정보를 나타낸 표이다.
도 7은 본 발명의 실시예에 따른 문자열 식별 방법의 FCN 모델 개념도이다.
도 8은 본 발명의 실시예에 따른 학습된 신규 입력 영상 이미지에 FCN 모델을 적용한 FCN 출력 이미지이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

본 출원에서 영상 이미지는 분석 대상이 되는 이미지일 수 있다. 예를 들어, 영상 이미지 혹은 사진 이미지를 포함할 수 있다.

또한, GTD 이미지는 프로세서에 의해 수행되는 딥러닝 알고리즘을 학습시키기 위한 이미지일 수 있다.

메모리는 GTD 이미지에 대해 부여된 카테고리 라벨링 정보를 저장할 수 있다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

도 1은 본 발명의 실시예에 따른 디스플레이 영상 식별 시스템을 나타낸 블록 구성도이다.

도 1을 참조하면, 디스플레이 영상 식별 시스템은 영상 제공 장치(1000), 양방향 디스플레이 장치(3000) 및 문자열 식별 장치(5000)를 포함할 수 있다.

영상 제공 장치(1000)는 적어도 하나의 영상 이미지를 촬영하는 장치일 수 있다. 실시예에 따르면, 영상 제공 장치(1000)는 카메라일 수 있으며, 영상 이미지는 적어도 하나의 문자열을 포함하는 이미지일 수 있다.

영상 제공 장치(1000)는 적어도 하나의 영상 이미지를 후술될 양방향 디스플레이 장치(3000)로 송신할 수 있다.

도 2는 본 발명의 실시예에 따른 디스플레이 영상 식별 시스템 내 양방향 디스플레이 장치가 출력한 영상 이미지이다.

도 2를 참조하면, 양방향 디스플레이 장치(3000)는 영상 제공 장치(1000)로부터 수신된 적어도 하나의 영상 이미지를 출력할 수 있다.

이후, 양방향 디스플레이 장치(3000)는 사용자로부터 입력된 문자열 속성 정보를 후술될 문자열 식별 장치(5000)로 송신할 수 있다. 여기서, 문자열 속성 정보는 개별 문자들의 위치 및 카테고리(숫자 또는 알파벳) 정보를 포함할 수 있다.

보다 구체적으로 설명하면, 양방향 디스플레이 장치(3000)는 사용자로부터 개별 문자들의 위치를 입력 받을 수 있다. 실시예에 따르면, 사용자는 마우스, 키보드, 터치 스크린 중 적어도 하나를 이용하여 양방향 디스플레이 장치(3000)로부터 출력된 개별 문자의 위치를 결정할 수 있다. 이때, 사용자로부터 결정된 개별 문자들의 위치 정보는 양방향 디스플레이 장치(3000)로부터 출력되는 영상 이미지 상에 X 지점으로 표시될 수 있다. 이후, 양방향 디스플레이 장치(3000)는 생성된 개별 위치정보들을 후술될 문자열 식별 장치(5000)로 송신할 수 있다.

또한, 양방향 디스플레이 장치(3000)는 사용자로부터 입력된 개별 문자들의 카테고리 정보를 수신할 수 있다. 카테고리 정보는 영상 이미지 내 개별 문자들의 종류를 식별하기 위한 정보일 수 있다. 예를 들어, 카테고리 정보는 숫자 또는 알파벳 정보를 포함할 수 있다. 이후, 양방향 디스플레이 장치(3000)는 생성된 개별 카테고리 정보들을 후술될 문자열 식별 장치(5000)로 송신할 수 있다.

도 3은 본 발명의 실시예에 따른 디스플레이 영상 식별 시스템 내 문자열 식별 장치의 블록 구성도이다.

도 3을 참조하면, 문자열 식별 장치(5000)는 양방향 디스플레이 장치(3000)로부터 수신된 문자열 속성 정보를 바탕으로, GTD 이미지를 생성할 수 있다. 이후, 문자열 식별 장치는 GTD 이미지를 바탕으로 FCN 모델을 학습하여, 영상 제공 장치 또는 양방향 디스플레이 장치로부터 수신된 신규 영상 이미지 내 개별 문자의 위치 및 종류를 식별할 수 있다.

보다 구체적으로 설명하면, 문자열 식별 장치(5000)는 적어도 하나의 프로세서(5100) 및 메모리(5500)를 포함할 수 있다.

프로세서(5100)는 메모리(5500)에 저장된 프로그램 명령(program command)을 실행할 수 있다. 프로세서(5100)는 중앙 처리 장치(Central Processing Unit, CPU), 그래픽 처리 장치(Graphics Processing Unit; GPU) 또는 본 발명에 실시예에 따른 방법들이 수행되는 전용 프로세서를 의미할 수 있다.

프로세서(5100)는 후술될 메모리(5500)에 저장된 명령을 변경할 수 있다. 실시예에 따르면, 프로세서(5100)는 기계 학습에 의해 메모리(5500)의 정보를 갱신할 수 있다. 다시 말하면, 프로세서(5100)는 기계 학습에 의해 메모리(5500)에 저장된 명령을 변경할 수 있다.

메모리(5500)는 휘발성 저장 매체 및/또는 비휘발성 저장 매체로 구성될 수 있다. 예를 들어, 메모리(5500)는 읽기 전용 메모리(read only memory; ROM) 및/또는 랜덤 액세스 메모리(random access memory; RAM)로 구성될 수 있다.

메모리(5500)는 적어도 하나의 명령을 저장할 수 있다. 보다 구체적으로 설명하면, 메모리(5500)는 프로세서(5100)에 의해 실행되는 적어도 하나의 명령을 저장할 수 있다.

실시예에 따르면, 메모리(5500)는 양방향 디스플레이 장치(3000)로부터 영상 이미지 및 영상 이미지 내 문자열 속성 정보를 수신하는 명령, 사용자로부터 획득한 문자열 속성 정보를 바탕으로 적어도 하나의 GTD 이미지를 생성하는 명령, 적어도 하나의 GTD 이미지를 이용하여 FCN 모델을 학습하는 명령 및 학습된 FCN 모델을 이용하여 신규 영상 이미지의 문자열 정보를 식별하는 명령을 포함할 수 있다.

또한, 메모리(5500)는 GTD 이미지의 문자열 속성 정보 및 후술될 라벨링 정보를 저장할 수 있다. 문자열 속성 정보 및 라벨링 정보에 대해서는 하기 문자열 식별 장치를 이용한 문자열 식별 방법의 설명 시 보다 구체적으로 설명하겠다.

이상 본 발명의 실시예에 따른 디스플레이 영상 식별 시스템을 살펴보았다. 이하에서는 본 발명의 실시예에 따라, 메모리(5500) 명령에 의해 동작하는 문자열 식별 장치(5000)를 이용한 문자열 식별 방법을 보다 자세히 설명하겠다.

도 4는 본 발명의 실시예에 따른 문자열 식별 장치를 이용한 문자열 식별 방법의 순서도이다.

도 4를 참조하면, 문자열 식별 장치(5000) 내 프로세서(5100)는 메모리(5500)에 저장된 명령에 따라, 양방향 디스플레이 장치(3000)로부터 문자열 속성 정보를 수신할 수 있다(S1000). 여기서, 문자열 속성 정보는, 앞서 설명된 바와 같이 사용자로부터 입력 받은 정보로써, 영상 이미지 내 개별 문자에 대한 위치 정보 및 카테고리 정보를 포함할 수 있다. 예를 들어, 카테고리 정보는 개별 문자의 숫자 또는 알파벳 정보일 수 있다.

프로세서(5100)는 수신된 문자열 속성 정보를 메모리(5500)에 저장할 수 있다.

이후, 프로세서(5100)는 수신된 문자열 속성 정보를 바탕으로, GTD 이미지를 생성할 수 있다(S3000). 다시 말하면, 프로세서(5100)는 개별 문자들의 위치 정보 및 카테고리 정보를 포함하는 GTD 이미지를 생성할 수 있다.

여기서, GTD 이미지는 검은색의 배경에 특정 색상의 표식이 매핑된 이미지로써, 딥러닝(Deep-Learning) 기반의 데이터 알고리즘 학습을 위한 훈련 데이터(Training Data)로 이용될 수 있다. 딥러닝 기반의 데이터 알고리즘 학습에 대해서는 하기에서 보다 구체적으로 설명하겠다.

도 5는 본 발명의 실시예에 따른 문자열 식별 장치에 의해 생성된 GTD 이미지들이다.

도 5를 참조하여 GTD 이미지 생성을 위한 프로세서(5100)의 수행 방법을 보다 구체적으로 설명하면, 프로세서(5100)는 수신된 문자열 속성 정보 중 개별 문자의 위치 정보를 이용하여, 상기 위치 정보와 대응되는 지점에 표식을 디스플레이 할 수 있다. 다시 말하면, 프로세서(5100)는 개별 문자의 위치를 표식으로 표시할 수 있다.

이때, 프로세서(5100)는 문자열 내 개별 문자들 사이의 거리에 따라, 표식의 크기를 결정할 수 있다.

실시예에 따르면, 프로세서(5100)가 원형의 표식을 제공할 경우, 상기 원의 반경(r_i)은 문자열 내 개별 문자들 사이의 거리에 따라, 결정될 수 있다. 예를 들어, 원의 반경(r_i)은 하기 [수학식 1]과 같이, 산출될 수 있다.

[수학식 1]

r _i : 원의 반경

d _ij : i번째 문자 및 j번째 문자 사이의 거리

: i번째 문자 및 j번째 문자 사이의 최소 거리

다시 말하면, 프로세서(5100)는 특정 문자에 있어서, 인접하는 문자와의 간격의 최소 거리를 4로 나누어 원의 반경(r_i)을 산출할 수 있다. 예를 들어, 문자열 내 개별 문자의 간격이 동일할 경우, 프로세서(5100)는 개별 문자 별로 동일한 직경의 원형 표식을 사용할 수 있다.

본 발명의 실시예에 따른 문자열 식별 방법에서는 프로세서(5100)가 사용자로부터 입력된 위치 정보를 바탕으로 문자 사이의 간격을 고려하여 GTD 이미지를 생성함으로써, 중첩된 문자가 제공될 경우에도 개별 문자로 인식이 가능한 고성능의 문자열 식별 방법을 제공할 수 있다.

이후, 프로세서(5100)는 특정 문자의 위치를 나타내는 상기 표식 내 카테고리 정보에 대응되는 색상을 채워 넣을 수 있다(S3500). 이에 따라, 프로세서(5100)는 문자열 속성 정보가 색상 표식으로 표현된 GTD 이미지를 생성할 수 있다.

프로세서(5100)는 생성된 GTD 이미지를 픽셀 레벨로 분류(Pixel Level Classification)하여, 매핑(mapping) 분석을 실시할 수 있다. 다시 말하면, 프로세서(5100)는 생성된 GTD 이미지를 이용하여, 딥러닝 기반의 데이터 알고리즘의 매핑(mapping)을 학습할 수 있다. 실시예에 따르면, 프로세서(5100)는 FCN 모델의 매핑(mapping) 구조를 학습할 수 있다(S5000). FCN 모델의 학습 방법은 하기 도 6 내지 도 8을 참조하여 보다 구체적으로 설명하겠다.

도 6은 본 발명의 실시예에 따른 문자열 식별 방법을 설명하기 위한 GTD 이미지의 색상 정보에 따른 클라스 정보 및 라벨링 정보를 나타낸 표이다.

도 6을 참조하면, 프로세서(5100)는 생성된 GTD 이미지로부터 특징을 추출할 수 있다(S5100). 실시예에 따르면, 프로세서(5100)는 GTD 이미지의 라벨링(labeling) 정보(Y_j)를 생성할 수 있다. 여기서, 라벨링 정보(Y_j)는 GTD 이미지를 구성하는 각 픽셀(Pixel) 갖는 카테고리 정보를 정수 또는 이산값(discrete value)으로 나타낸 값일 수 있다. 이에 따라, 프로세서(5100)는 GTD 이미지 내 개별 픽셀(pixel)의 특징을 라벨링 정보(Y_j)로 표현하여 후술될 FCN 모델의 입력값으로 사용함으로써, 상기 해당 픽셀(pixel)에 대한 카테고리 정보를 추출할 수 있다.

보다 구체적으로 설명하면, 프로세서(5100)는 GTD 이미지 내 적어도 하나의 픽셀을 X_ij로 표현할 수 있다. 이때, 인덱스 i는 세로 정보(height)일 수 있으며, 인덱스 j는 가로 정보(width)일 수 있다.

이후, 프로세서(5100)는 훈련 데이터인 GTD 이미지의 형태를 색상 정보가 반영된 벡터 정보로 변환할 수 있다.

일 실시예에 따르면, 프레임(frame) 단위의 GTD 이미지가 24bit의 컬러 이미지일 경우, 프로세서(5100)는 GTD 이미지를 3차원 벡터(Xn={X_ij:∈{(R,G,B): R, G, B=0,…, 255}) 형식으로 표현할 수 있다.

다른 실시예에 따르면, 프레임 단위의 GTD 이미지가 8bit의 컬러 이미지일 경우, 프로세서(5100)는 GTD 이미지를 3차원 벡터(Xn={X_ij:∈{0,…, 255}) 형식으로 표현할 수 있다.

이때, GTD 이미지 내 적어도 하나의 픽셀(X_ij)이 클라스 정보(class information) 내 특정 클라스(class)의 위치를 나타내는 색상 표식 내에 위치할 경우, 프로세서(5100)는 상기 픽셀(Xij)을 해당 클라스(class)에 대응하는 라벨링 정보(Y_j)를 생성할 수 있다. 실시예에 따르면, 상기 라벨링 정보(Y_j)는 적어도 하나의 '0'이 아닌 값일 수 있다.

반면, GTD 이미지 내 적어도 하나의 픽셀(X_ij)이 색상 표식 외부에 위치할 경우, 프로세서(5100)는 상기 픽셀(X_ij)을 배경 정보로 판단할 수 있다. 이에 따라, 프로세서(5100)는 상기 픽셀(X_ij)의 라벨링 정보(Y_j)를 '0'으로 설정할 수 있다.

여기서, 클라스 정보(class information)는 사용자로부터 입력된 카테고리 정보들의 합집합일 수 있다. 따라서, 다시 말하면, 프로세서(5100)는 GTD 이미지 내 적어도 하나의 픽셀(X_ij)을 사용자로부터 입력된 카테고리 정보에 대응하는 라벨링 정보(Y_j)를 설정할 수 있다.

이후, 프로세서(5100)는 GTD 이미지 내 라벨링 정보를 이용하여 딥러닝 기반의 데이터 알고리즘을 학습할 수 있다. 딥러닝 기반의 데이터 알고리즘을 학습하는 방법은 하기에서 보다 구체적으로 설명하겠다.

도 7은 본 발명의 실시예에 따른 문자열 식별 방법의 FCN 모델 개념도이다.

도 7을 참조하면, 프로세서는 앞서 설명한 바와 같이, GTD 이미지 내 라벨링 정보(Y_j)를 이용하여 딥러닝 기반의 데이터 알고리즘을 학습할 수 있다. 실시예에 따르면, 프로세서는 FCN 모델을 학습할 수 있다(S5500).

FCN 모델은 GTD 이미지 픽셀 내 개별 문자의 존재 여부를 확인하는 모델일 수 있다. 여기서, FCN 모델은 지도 학습(Supervised Learning)을 통해 학습이 갱신될 수 있다.

보다 구체적으로 설명하면, FCN(Fully Convolutional Network) 모델은 완전하게 연결된 계층(fully connected layer)을 사용하지 않고, 콘볼루션 계층(convolution layer)만으로 이루어진 콘볼루셔널 신경망(Convolutional Neural Network, CNN)일 수 있다.

여기서, 컨볼루션 계층(convolution layer)은 컨볼루션(convolution) 연산 및 풀링(Pooling) 연산을 수행할 수 있다. 컨볼루션(convolution) 연산은 3차원 배열의 GTD 이미지로부터 패턴화 될만한 특징들을 추출하는 연산일 수 있으며, 풀링(Pooling) 연산은 추출된 상기 특징들 중 학습 데이터로 사용될 특징들을 선별하여 축소시키는 연산일 수 있다. 실시예에 따르면, FCN 모델은 2X2의 필터의 max pooling을 적용한 5개의 컨볼루션 계층(convolution layer)들로 구성될 수 있다.

또한, FCN 모델은 디컨볼루션 레이어(deconvolutional layer)에 의해, 풀링(pooling) 연산의 출력을 업샘플링(upsampling) 할 수 있다. 이에 따라, FCN 모델은 신규 입력된 영상 이미지와 최종 디컨볼루션 레이어(F)의 출력 이미지의 크기가 공간적으로 동일하게 제공될 수 있다. 다시 말하면, 본 발명의 실시예에 따른 FCN 모델은 입력 영상 이미지와 출력 영상 이미지의 크기가 동일하게 제공할 수 있다.

FCN 모델은 훈련에 의해 최종 디컨볼루션 레이어(F) 값에 활성 함수를 적용하여 출력층의 결과값인 예측 맵(Prediction Map)의 총합을 1로 정규화할 수 있다. 이에 따라, FCN 모델은 입력된 라벨링 정보(Y_j)를 포함하는 GTD 이미지의 해당 픽셀의 출력 값이 특정 카테고리 정보로 분류될 확률을 추출할 수 있다. 예를 들어, 활성 함수로는 softmax 함수가 적용될 수 있다.

또한, FCN 모델은 손실 함수를 적용하여, 학습 데이터로 사용된 특징들의 손실 값을 산출할 수 있다. 이후, FCN 모델은 산출된 손실 값을 매개변수에 반영함으로써, FCN 모델의 학습을 갱신할 수 있다. 예를 들어, 손실 함수로는 크로스 엔트로피 손실(Cross Entropy Loss)이 적용될 수 있다. 이에 따라, FCN 모델은 산출된 크로스 엔트로피 손실(Cross Entropy Loss)을 Adam optimization을 이용하여 적용함으로써, 최적화될 수 있다.

도 8은 본 발명의 실시예에 따른 학습된 신규 입력 영상 이미지에 FCN 모델을 적용한 FCN 출력 이미지이다.

도 8을 참조하면, 프로세서는 GTD 이미지에 의해 학습된 FCN 모델을 이용하여, 신규 영상 이미지의 FCN 출력 이미지를 생성할 수 있다(S7000).

다시 도 4를 참조하면, 프로세서(5100)는 생성된 FCN 출력 이미지를 기반으로 간단한 후처리를 진행할 수 있다(S9000).

일 실시예에 따르면, 신규 영상 이미지 내의 문자열 개수를 아는 경우, 프로세서(5100)는 문자열 개수를 K 값으로 사용하는 K 평균 알고리즘(K-means Algorithm)을 이용하여 FCN 출력 이미지의 라벨링 정보(Y_j)가 0이 아닌 적어도 하나의 값(non-zero)을 클러스터링(Clustering) 할 수 있다. 여기서, 클러스터링(Clustering)은 유사한 데이터들을 그룹으로 분류하는 기법일 수 있다.

다른 실시예에 따르면, 신규 영상 이미지 내의 문자열 개수를 모르는 경우, 프로세서(5100)는 FCN 출력 이미지의 라벨링 정보(Y_j)가 0이 아닌 적어도 하나의 값(non-zero)에 대해 연결 성분 분석(Connected Component Analysis)을 진행하여, 신규 영상 이미지 내 문자열을 인식할 수 있다. 이에 따라, 프로세서(5100)는 갱신된 FCN 모델을 이용하여, 양방향 디스플레이 장치(3000)로부터 제공되는 신규 영상 이미지 내 개별 문자를 식별할 수 있다.

이상 본 발명의 실시예에 따른 문자열 식별 방법 및 장치 그리고 이를 이용한 디스플레이 영상 식별 시스템을 살펴보았다. 상기 문자열 식별 방법 및 장치 그리고 이를 이용한 디스플레이 영상 식별 시스템은 문자열을 포함하는 영상 이미지를 생성하는 영상 제공 장치, 영상 이미지를 출력하고, 사용자로부터 문자열 속성 정보를 입력 받는 양방향 디스플레이 장치 및 문자열 속성 정보를 수신하여 FCN 모델에 의해 영상 이미지 내 개별 문자의 종류를 식별함으로써, 문자 사이의 간격 및 사용자 입력 정보에 따라 색상 표식을 생성하여, 중첩에 의한 식별 오류를 방지하고, 컨볼루셔널 계층(Convolution layer)만을 사용하는 FCN 모델에 의해 FCN 출력 이미지 생성을 위한 계산량 및 계산 시간이 감소된 고속, 고정밀 및 고신뢰성의 문자열 식별 방법 및 장치 그리고 이를 이용한 디스플레이 영상 식별 시스템을 제공할 수 있다.

또한, 본 발명의 실시예에 따른 문자열 식별 방법 및 장치는 앞서 설명된 디스플레이 영상 식별 시스템에만 국한되어 제공되지 않고, 슬라브 및 빌렛의 제품번호 인식이 요구되는 철강 제조 공정 분야를 포함한 기타 문자열 식별이 요구되는 다양한 산업군에 적용할 수 있다.

본 발명의 실시예에 따른 방법의 동작은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 프로그램 또는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산 방식으로 컴퓨터로 읽을 수 있는 프로그램 또는 코드가 저장되고 실행될 수 있다.

또한, 컴퓨터가 읽을 수 있는 기록매체는 롬(rom), 램(ram), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다. 프로그램 명령은 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.

본 발명의 일부 측면들은 장치의 문맥에서 설명되었으나, 그것은 상응하는 방법에 따른 설명 또한 나타낼 수 있고, 여기서 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 상응한다. 유사하게, 방법의 문맥에서 설명된 측면들은 또한 상응하는 블록 또는 아이템 또는 상응하는 장치의 특징으로 나타낼 수 있다. 방법 단계들의 몇몇 또는 전부는 예를 들어, 마이크로프로세서, 프로그램 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 이용하여) 수행될 수 있다. 몇몇의 실시예에서, 가장 중요한 방법 단계들의 하나 이상은 이와 같은 장치에 의해 수행될 수 있다.

이상 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

1000: 영상 제공 장치 3000: 양방향 디스플레이 장치
5000: 문자열 식별 장치 5100: 메모리
5500: 프로세서

Claims

문자열 정보를 포함하는 영상 이미지 내 개별 문자의 종류를 식별하는 문자열 식별 방법에 있어서,
외부 장치로부터 상기 영상 이미지 내 개별 문자에 대한 위치 정보 및 카테고리 정보를 포함하는 문자열 속성 정보를 수신하는 단계;
상기 문자열 속성 정보가 반영된 색상 표식을 포함하는, 영상화 된 GTD(Ground Truth Data) 이미지를 생성하는 단계;
상기 GTD 이미지를 이용하여 지도 학습 기반의 딥러닝 알고리즘(Deep-Learning Algorithm) 모델을 학습하는 단계;
상기 외부 장치로부터 신규 수신된 신규 영상 이미지에 상기 학습된 딥러닝 알고리즘 모델을 적용하여 출력 이미지를 획득하는 단계; 및
상기 출력 이미지를 후처리하여 상기 신규 영상 이미지 내 문자열 정보를 인식하는 단계를 포함하되,
상기 GTD 이미지를 생성하는 단계는,
상기 영상 이미지 내 문자열 사이의 간격에 따라 상기 색상 표식의 크기를 조절하는 단계를 포함하는, 문자열 식별 방법.
삭제
청구항 1항에 있어서,
상기 색상 표식은 원형으로 제공되는, 문자열 식별 방법.
청구항 3항에 있어서,
원형으로 제공되는 상기 색상 표식의 반경은 제1 문자 및 상기 제1 문자와 인접한 제2 문자 사이의 최소 거리에 따라 설정되는, 문자열 식별 방법.
청구항 1항에 있어서,
상기 지도 학습 기반의 딥러닝 알고리즘(Deep-Learning Algorithm) 모델은 컨볼루셔널 계층(Convolutional layer)로 이루어진 FCN(Fully Convolutional Network) 모델을 포함하는, 문자열 식별 방법.
청구항 5항에 있어서,
상기 FCN 모델은 상기 GTD 이미지 내 적어도 하나의 픽셀이 상기 개별 문자의 위치를 나타내는 상기 색상 표식 내에 위치할 경우, 상기 픽셀의 카테고리 정보에 대응하는 라벨링 정보로 0이 아닌 적어도 하나의 값(non-zero)을 생성하는 문자열 식별 방법.
청구항 5항에 있어서,
상기 FCN 모델은 상기 GTD 이미지 내 적어도 하나의 픽셀이 상기 개별 문자의 위치를 나타내는 상기 색상 표식 외부에 위치할 경우, 상기 픽셀의 카테고리 정보에 대응하는 라벨링 정보로 0 값(zero)을 생성하는, 문자열 식별 방법.
청구항 5항에 있어서,
상기 신규 영상 이미지 및 상기 FCN 모델로부터 출력된 상기 출력 이미지의 크기가 동일한, 문자열 식별 방법.
청구항 1항에 있어서,
상기 획득한 상기 출력 이미지를 후처리하는 단계는,
상기 신규 영상 이미지 내의 문자열 개수를 아는 경우, 상기 문자열 개수를 K 값으로 사용하는 K 평균 알고리즘(K-means Algorithm)을 이용하여, 상기 출력 이미지의 라벨링 정보가 0이 아닌 적어도 하나의 값(non-zero)을 클러스터링(Clustering)하는 단계를 포함하는, 문자열 식별 방법.
청구항 1항에 있어서,
상기 획득한 상기 출력 이미지를 후처리하는 단계는,
상기 신규 영상 이미지 내의 문자열 개수를 모르는 경우, 상기 출력 이미지의 라벨링 정보가 0이 아닌 적어도 하나의 값(non-zero)에 대해 연결 성분 분석(Connected Component Analysis)을 진행하는 단계를 포함하는, 문자열 식별 방법.
청구항 1항에 있어서,
상기 외부 장치는 양방향 디스플레이 장치를 포함하는, 문자열 식별 방법.
청구항 1항에 있어서,
상기 문자열 속성 정보는 사용자로부터 입력된 정보인, 문자열 식별 방법.
프로세서(processor); 및
상기 프로세서(processor)를 통해 실행되는 적어도 하나의 명령이 저장된 메모리(memory)를 포함하고,
상기 적어도 하나의 명령은,
외부 장치로부터 영상 이미지 내 개별 문자에 대한 위치 정보 및 카테고리 정보를 포함하는 문자열 속성 정보를 수신하도록 하는 명령,
상기 문자열 속성 정보가 반영된 색상 표식을 포함하는, 영상화 된 GTD(Ground Truth Data) 이미지를 생성하도록 하는 명령,
상기 GTD 이미지를 이용하여 지도 학습 기반의 딥러닝 알고리즘(Deep-Learning Algorithm) 모델을 학습하도록 하는 명령,
상기 외부 장치로부터 수신된 신규 영상 이미지에 상기 학습된 딥러닝 알고리즘 모델을 적용하여 출력 이미지를 획득하도록 하는 명령, 및
상기 출력 이미지를 후처리하여 상기 신규 영상 이미지 내 문자열 정보를 인식하도록 하는 명령을 포함하되,
상기 색상 표식은 원형으로 제공되며,
상기 색상 표식의 반경은 제1 문자 및 상기 제1 문자와 인접한 제2 문자 사이의 최소 거리에 따라 설정되는, 문자열 식별 장치.
삭제
청구항 제13항에 있어서,
상기 문자열 속성 정보는 사용자로부터 입력된 정보인, 문자열 식별 장치.
청구항 13항에 있어서,
상기 지도 학습 기반의 딥러닝 알고리즘(Deep-Learning Algorithm) 모델은 컨볼루셔널 계층(Convolutional layer)로 이루어진 FCN(Fully Convolutional Network) 모델로 제공되는, 문자열 식별 장치.
청구항 16항에 있어서,
상기 FCN 모델은
상기 GTD 이미지 내 적어도 하나의 픽셀이 상기 개별 문자의 위치를 나타내는 상기 색상 표식 내에 위치할 경우, 상기 픽셀의 카테고리 정보에 대응하는 라벨링 정보로 0이 아닌 적어도 하나의 값(non-zero)을 생성하고,
상기 GTD 이미지 내 적어도 하나의 픽셀이 상기 개별 문자의 위치를 나타내는 상기 색상 표식 외부에 위치할 경우, 상기 픽셀의 카테고리 정보에 대응하는 라벨링 정보로 0 값(zero)을 생성하는, 문자열 식별 장치.
청구항 16항에 있어서,
상기 신규 영상 이미지 및 상기 FCN 모델로부터 출력된 상기 출력 이미지의 크기가 동일한, 문자열 식별 장치.
청구항 13항에 있어서,
상기 출력 이미지는,
상기 신규 영상 이미지 내의 문자열 개수를 아는 경우, 상기 문자열 개수를 K 값으로 사용하는 K 평균 알고리즘(K-means Algorithm)을 이용하여, 상기 출력 이미지의 라벨링 정보가 0이 아닌 적어도 하나의 값(non-zero)을 클러스터링(Clustering) 함으로써 후처리되는, 문자열 식별 장치.
청구항 13항에 있어서,
상기 출력 이미지는,
상기 신규 영상 이미지 내의 문자열 개수를 모르는 경우, 상기 출력 이미지의 라벨링 정보가 0이 아닌 적어도 하나의 값(non-zero)에 대해 연결 성분 분석(Connected Component Analysis)을 수행하여 후처리되는, 문자열 식별 장치.
문자열 정보를 촬영한 적어도 하나의 촬영 이미지를 획득하는 영상 제공 장치;
적어도 하나의 상기 촬영 이미지를 수신하여 영상 이미지로 출력하고, 사용자로부터 상기 영상 이미지의 문자열 내 개별 문자들의 위치 정보 및 카테고리 정보를 포함하는 속성 정보를 수신하여 저장하는 양방향 디스플레이 장치; 및
상기 양방향 디스플레이 장치로부터 신규 영상 이미지를 수신하고, 학습된 FCN(Fully Convolutional Network) 모델을 이용하여 상기 신규 영상 이미지 내 문자열 정보를 식별하는 문자열 식별 장치를 포함하되,
상기 문자열 식별 장치는
프로세서(processor); 및
상기 프로세서(processor)를 통해 실행되는 적어도 하나의 명령이 저장된 메모리(memory)를 포함하고,
상기 적어도 하나의 명령은,
상기 양방향 디스플레이 장치로부터 상기 속성 정보를 수신하도록 하는 명령,
상기 속성 정보가 반영된 색상 표식을 포함하는, 영상화 된 GTD(Ground Truth Data) 이미지를 생성하도록 하는 명령,
상기 GTD 이미지를 이용하여 상기 FCN 모델을 학습하도록 하는 명령,
상기 신규 영상 이미지에 상기 학습된 FCN 모델을 적용하여 출력 이미지를 획득하도록 하는 명령, 및
상기 출력 이미지를 후처리하여 상기 신규 영상 이미지 내 문자열 정보를 인식하도록 하는 명령을 포함하되,
상기 색상 표식은 원형으로 제공되며,
상기 색상 표식의 반경은 제1 문자 및 상기 제1 문자와 인접한 제2 문자 사이의 최소 거리에 따라 설정되는, 디스플레이 영상 식별 시스템.
청구항 21항에 있어서,
상기 양방향 디스플레이 장치는
사용자로부터 마우스, 키보드, 터치 스크린 중 적어도 하나를 통해 입력된 상기 속성 정보를 수신하는, 디스플레이 영상 식별 시스템.
삭제