KR101749539B1 - 캐니 연산자의 가변적 임계값을 적용한 문자 추출 장치 및 방법 - Google Patents

캐니 연산자의 가변적 임계값을 적용한 문자 추출 장치 및 방법 Download PDF

Info

Publication number
KR101749539B1
KR101749539B1 KR1020160018488A KR20160018488A KR101749539B1 KR 101749539 B1 KR101749539 B1 KR 101749539B1 KR 1020160018488 A KR1020160018488 A KR 1020160018488A KR 20160018488 A KR20160018488 A KR 20160018488A KR 101749539 B1 KR101749539 B1 KR 101749539B1
Authority
KR
South Korea
Prior art keywords
image
telephone number
intermediate image
user gesture
generating
Prior art date
Application number
KR1020160018488A
Other languages
English (en)
Inventor
서영건
강정현
Original Assignee
경상대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경상대학교산학협력단 filed Critical 경상대학교산학협력단
Priority to KR1020160018488A priority Critical patent/KR101749539B1/ko
Application granted granted Critical
Publication of KR101749539B1 publication Critical patent/KR101749539B1/ko

Links

Images

Classifications

    • G06K9/3258
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/041Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/0486Drag-and-drop
    • H04M1/72522
    • H04M1/72552
    • G06K2209/01

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Telephone Function (AREA)
  • Image Analysis (AREA)

Abstract

전화 번호 추출 장치가 개시된다. 개시된 전화 번호 추출 장치는 촬영된 영상에서 전화 번호가 포함된 영역을 정밀하게 판단하고, 해당 영역에서 전화 번호를 추출할 수 있다. 전화 번호 추출 장치는 촬영된 영상의 히스토그램의 중앙값을 계산하고, 계산된 중앙값을 이용하여 캐니 연산자의 두 임계값을 결정한다. 결정된 임계값은 해당 영상의 특성을 반영하므로, 전화 번호 추출 장치는 전화 번호를 추출해야할 영상이 변경된 경우에도 전화 번호가 포함된 영역을 정확히 판단할 수 있다. 전화 번호 추출 장치는 추출된 전화 번호를 디스플레이 하고, 사용자로부터 제스쳐를 수신할 수 있다.

Description

캐니 연산자의 가변적 임계값을 적용한 문자 추출 장치 및 방법{APPARATUS AND METHOD FOR EXTRACTING TEXT APPLYING ADAPTIVE THRESHOLD VALUE OF CANNY OPERATOR}
하기의 실시예들은 영상에서 문자를 추출하는 장치 및 방법에 관한 것으로, 구체적으로는 캐니 연산자를 이용하여 문자를 추출하는 장치 및 방법에 관한 것이다.
대중화된 스마트폰의 대부분이 카메라를 구비하고 있다. 따라서, 스마트폰의 사용자들은 텍스트가 포함된 표지판 등을 손쉽게 촬영할 수 있다.
씬 텍스트 추출(Scene text extraction)은 전화 번호 등의 텍스트가 포함된 영상에서 해당 텍스트를 추출하는 기술이다. 씬 텍스트 추출 기법은 영상으로부터 중요한 정보를 추출할 수 있기 때문에 중요하다. 영상에서 중요한 정보를 추출할 수 있다면, 추출된 정보를 저장하거나, 추출된 정보를 가공하여 추가적인 동작을 수행할 수 있다.
씬 텍스트 추출을 위한 여러 가지 기법들도 제안되었는데, MSER(Maximally Stable Extremal Regions), EEMSER(Edge-Enhanced MSER), 캐니 연산자(Canny Operator)를 이용한 기법 등이 대표적이다.
그러나, 이러한 기법들을 이용한 경우에도 전체 영상 중에서 텍스트가 포함된 영역을 정확히 판단하는 것은 어려운 기술적 과제로 생각되었다.
하기의 예시적 실시예들은 전화 번호가 포함된 영상에서 전화 번호가 위치하는 영역을 정확하게 판단하는 것을 목적으로 한다.
하기의 예시적 실시예들은 전화 번호가 포함된 영상에서 전화 번호를 정확히 추출하는 것을 목적으로 한다.
하기의 예시적 실시예들은 전화 번호가 포함된 영상에서 전화 번호를 정확히 인식하는 것을 목적으로 한다.
예시적 실시예에 따르면, 전화 번호가 포함된 영상을 수신하는 수신부, 상기 영상에 MSER(Maximally stable extremal regions) 기법을 적용하여 제1 중간 영상을 생성하는 MSER 기법 적용부, 상기 영상의 밝기(brightness) 히스토그램에서 중앙값(median value)을 계산하고, 상기 중앙값을 이용하여 캐니 연산자의 임계값을 결정하는 임계값 결정부, 상기 결정된 임계값을 이용하여 상기 영상에 캐니 연산을 수행하여 제2 중간 영상을 생성하는 캐니 연산자 적용부, 상기 제1 중간 영상과 상기 제2 중간 영상을 곱하여 최종 영상을 생성하고, 상기 최종 영상에서 상기 전화 번호를 추출하는 후처리부 및 상기 추출된 전화 번호에 대한 사용자 제스쳐를 수신하고 상기 수신된 사용자 제스쳐에 따른 동작을 수행하는 사용자 인터페이스부를 포함하는 전화 번호 추출 장치가 제공된다.
여기서, 상기 사용자 인터페이스부는 상기 추출된 전화 번호를 터치 스크린에 상기 영상에 오버레이하여 디스플레이하고, 상기 오버레이된 전화 번호에 대한 터치를 상기 사용자 제스쳐로 수신할 수 있다.
그리고, 상기 사용자 제스쳐가 임계 시간보다 더 긴 시간의 터치인 경우에, 상기 사용자 인터페이스부는 상기 추출된 전화 번호로 전화 통화를 시도할 수 있다.
또한, 상기 사용자 제스쳐가 오른쪽 방향의 드래그인 경우에, 상기 사용자 인터페이스부는 상기 추출된 전화 번호로 문자 메시지의 전송을 시도할 수 있다.
여기서, 상기 사용자 제스쳐가 왼쪽 방향의 드래그인 경우에, 상기 사용자 인터페이스부는 상기 추출된 전화 번호를 연락처에 등록할 수 있다.
그리고, 상기 임계값 결정부는 하기 수학식 1에 따라서 캐니 연산자의 임계값을 결정할 수 있다.
[수학식 1]
제1 임계값 = 0.66
Figure 112016015756948-pat00001
중앙값
제2 임계값 = 1.33
Figure 112016015756948-pat00002
중앙값
또한, 상기 후처리부는 상기 제1 중간 영상과 상기 제2 중간 영상을 곱하여 제3 중간 영상을 생성하는 제3 중간 영상 생성부, 상기 제2 중간 영상의 외곽선을 늘려 제4 중간 영상을 생성하는 제4 중간 영상 생성부, 상기 제4 중간 영상을 반전하고, 상기 제3 중간 영상과 상기 반전된 제4 중간 영상을 곱하여 상기 최종 영상을 생성하는 최종 영상 생성부를 포함할 수 있다.
또 다른 예시적 실시예에 따르면, 전화 번호가 포함된 영상을 수신하는 단계, 상기 영상에 MSER(Maximally stable extremal regions) 기법을 적용하여 제1 중간 영상을 생성하는 단계, 상기 영상의 밝기(brightness) 히스토그램에서 중앙값(median value)을 계산하고, 상기 중앙값을 이용하여 캐니 연산자의 임계값을 결정하는 단계, 상기 결정된 임계값을 이용하여 상기 영상에 캐니 연산을 수행하여 제2 중간 영상을 생성하는 단계, 상기 제1 중간 영상과 상기 제2 중간 영상을 곱하여 최종 영상을 생성하고, 상기 최종 영상에서 상기 전화 번호를 추출하는 단계, 상기 추출된 전화 번호에 대한 사용자 제스쳐를 수신하는 단계 및 상기 수신된 사용자 제스쳐에 따른 동작을 수행하는 단계를 포함하는 전화 번호 추출 방법이 제공된다.
여기서, 상기 추출된 전화 번호를 터치 스크린에 상기 영상에 오버레이하여 디스플레이하는 단계를 더 포함하고, 상기 사용자 제스쳐를 수신하는 단계는 상기 오버레이된 전화 번호에 대한 터치를 상기 사용자 제스쳐로 수신할 수 있다.
그리고, 상기 사용자 제스쳐가 임계 시간보다 더 긴 시간의 터치인 경우에, 상기 수신된 사용자 제스쳐에 따른 동작을 수행하는 단계는 상기 추출된 전화 번호로 전화 통화를 시도할 수 있다.
또한, 상기 사용자 제스쳐가 오른쪽 방향의 드래그인 경우에, 상기 수신된 사용자 제스쳐에 따른 동작을 수행하는 단계는 상기 추출된 전화 번호로 문자 메시지의 전송을 시도할 수 있다.
여기서, 상기 사용자 제스쳐가 왼쪽 방향의 드래그인 경우에, 상기 수신된 사용자 제스쳐에 따른 동작을 수행하는 단계는 상기 추출된 전화 번호를 연락처에 등록할 수 있다.
그리고, 상기 임계값을 결정하는 단계는 하기 수학식 2에 따라서 캐니 연산자의 임계값을 결정할 수 있다.
[수학식 2]
제1 임계값 = 0.66
Figure 112016015756948-pat00003
중앙값
제2 임계값 = 1.33
Figure 112016015756948-pat00004
중앙값
또한, 상기 전화 번호를 추출하는 단계는 상기 제1 중간 영상과 상기 제2 중간 영상을 곱하여 제3 중간 영상을 생성하는 단계, 상기 제2 중간 영상의 외곽선을 늘려 제4 중간 영상을 생성하는 단계, 상기 제4 중간 영상을 반전하고, 상기 제3 중간 영상과 상기 반전된 제4 중간 영상을 곱하여 상기 최종 영상을 생성하는 단계를 더 포함할 수 있다.
하기의 예시적 실시예들에 따르면, 전화 번호가 포함된 영상에서 전화 번호가 위치하는 영역을 정확하게 판단할 수 있다.
하기의 예시적 실시예들에 따르면, 전화 번호가 포함된 영상에서 전화 번호를 정확히 추출할 수 있다.
하기의 예시적 실시예들에 따르면 전화 번호가 포함된 영상에서 전화 번호를 정확히 인식할 수 있다.
도 1은 예시적 실시예에 따라서 영상 내에서 텍스트가 포함된 영역을 추출하는 개념을 도시한 도면이다.
도 2는 예시적 실시예에 따라서 영상의 밝기 히스토그램의 중앙값을 이용하여 캐니 연산자의 임계값을 결정하는 전화 번호 추출 장치의 구조를 도시한 블록도이다.
도 3은 예시적 실시예에 따른 후처리부의 구체적인 구성을 도시한 블록도이다.
도 4는 씬 텍스트 추출에 사용되는 예제의 이미지를 도시한 도면이다.
도 5는 예시적 실시예에 따라서 중앙값을 계산하는 방법을 도시한 의사 코드이다.
도 6은 예시적 실시예에 따른 중간 영상들을 도시한 도면이다.
도 7은 또 다른 예시적 실시예에 따른 중간영상들을 도시한 도면이다.
도 8은 예시적 실시예에 따른 최종 영상을 도시한 도면이다.
도 9는 예시적 실시예에 따라 텍스트 영역을 추출한 것을 도시한 도면이다.
도 10은 예시적 실시예에 따라서 영상 내에서 텍스트가 포함된 영역을 추출하는 방법을 단계별로 설명한 순서도이다.
도 11은 또 다른 예시적 실시예에 따라서 후처리를 수행하는 구성들 단계별로 설명한 순서도이다.
이하, 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 예시적 실시예에 따라서 영상 내에서 텍스트가 포함된 영역을 추출하는 개념을 도시한 도면이다.
광고판, 벽보, 교통 표지판 등의 매체은 많은 정보를 포함하고 있으며, 이러한 정보들은 대부분 텍스트 형태로 해당 매체에 포함된다. 따라서, 사용자가 이러한 정보를 메모하거나, 해당 정보를 스마트폰 등의 디바이스에 저장하려는 경우에는 사용자가 디바이스에 구비된 카메라를 이용하여 매체를 촬영하고, 촬영후 수작업으로 해당 정보를 텍스트 형태로 변환해야 했다.
예시적 실시예에 따르면, 정보를 포함한 매체를 촬영하고, 촬영된 영상에서 텍스트 형태의 정보를 손쉽게 추출할 수 있다. 또한, 정보의 종류에 따라서 적절한 동작을 추가적으로 수행할 수도 있다.
예를 들어, 매체(110)에 전화 번호(130)가 포함된 경우, 사용자가 디바이스(140)를 이용하여 촬영한 영상에는 전화 번호(150)가 인식된다. 전화 번호(150)가 인식된 경우, 사용자는 간단한 제스쳐를 입력하여 해당 전화 번호로 전화를 걸거나, 문자메시지를 전송하거나, 해당 전화 번호를 주소록에 등록할 수 있다.
이와 같이 매체(110)에 포함된 텍스트(130)를 인식하기 위해서는 먼저 텍스트(130)가 위치하는 영역(120)을 정확히 판단하는 것이 우선적인 기술적 과제이다.
도 2는 예시적 실시예에 따라서 영상의 밝기 히스토그램의 중앙값을 이용하여 캐니 연산자의 임계값을 결정하는 전화 번호 추출 장치의 구조를 도시한 블록도이다.
예시적 실시예에 따르면, 전화 번호 추출 장치(200)는 카메라(210), 수신부(220), MSER 기법 적용부(230), 임계값 결정부(240), 캐니 연산자 적용부(250), 후처리부(260) 및 사용자 인터페이스부(270)를 포함한다.
카메라(210)는 전화 번호 등의 텍스트 정보가 포함된 영상을 촬영한다.
수신부(220)는 카메라(210)로부터 전화 번호 등의 텍스트 정보가 포함된 영상을 수신한다.
도 4의 (a)는 전화 번호 등의 텍스트 정보를 추출하는 예제를 설명하기 위한 예시적 이미지를 도시한 도면이다.
MSER 기법 적용부(230)는 수신된 영상에 MSER(Maximally stable extremal regions) 기법을 적용하여 제1 중간 영상을 생성한다. MSER 기법은 촬영된 영상 내에서, 서로 유사한 특성을 가진 영역을 구분하는 기법의 하나이다. 일측에 따르면, MSER 기법 적용부(230)는 도 4의 (a)에 도시된 이미지에 MSER 기법을 적용하여 도 6의 (b)에 도시된 제1 중간 영상을 생성할 수 있다.
임계값 결정부(240)는 영상의 밝기(brightness) 히스토그램을 이용하여 캐니 연산자의 임계값을 결정한다. 도 4의 (b)는 도 4의 (a)에 도시된 영상의 히스토그램을 도시한 도면이다. 가로축은 도 4의 (a)에 도시된 영상에서 각 픽셀이 가지는 값을 나타내고, 세로축은 해당하는 값의 픽셀의 빈도를 나타낸다.
일측에 따르면, 임계값 결정부(240)는 밝기 히스토그램에서 중앙값(median value)를 계산할 수 있다. 여기서, 중앙값은 주어진 값들을 크기의 순서대로 정렬했을 때, 가장 중앙에 위치하는 값을 의미한다. 일측에 따르면, 임계값 결정부는 하기 도 5에 도시된 알고리즘에 따라서 중앙값(median value)를 결정할 수 있다.
또한, 임계값 결정부(240)는 계산된 중앙값을 이용하여 캐니 연산자의 임계값을 결정할 수 있다. 여기서, 캐니 연산자는 영상내의 외곽선을 검출하기 위한 방법의 하나로, 두 개의 임계값을 사용하여 영상내의 픽셀들을 3개의 군(group)으로 구분한다. 일측에 따르면, 임계값 결정부(240)는 하기 수학식 1에 따라서, 캐니 연산자의 두 임계값을 결정할 수 있다.
[수학식 1]
제1 임계값 = 0.66
Figure 112016015756948-pat00005
중앙값
제2 임계값 = 1.33
Figure 112016015756948-pat00006
중앙값
수학식 1에서, 계수인 '0.66'과 '1.33'은 휴리스틱(heuristic)한 방법에 의해 결정된 계수이다.
수학식 1과 같이 영상의 중앙값에 따라 캐니 연산자의 임계값을 결정하면, 각 영상의 특성을 반영하여 임계값을 적응적(adaptive)으로 결정할 수 있다. 따라서, 각 영상의 외곽선을 정확히 추출할 수 있다.
캐니 연산자 적용부(250)는 결정된 2개의 임계값을 이용하여 촬영된 영상에 캐니 연산(영상내의 픽셀들을 3개의 군으로 구분)을 수행하여 제2 중간 영상을 생성한다. 일측에 따르면, 캐니 연산자 적용부(250)는 도 4의 (a)에 도시된 이미지에 캐니 연산을 수행하여 도 6의 (a)에 도시된 제1 중간 영상을 생성할 수 있다.
후처리부(260)는 제1 중간 영상과 제2 중간 영상을 곱하여 최종 영상을 생성하고, 생성된 최종 영상에서 전화 번호를 추출한다. 후처리부(260)의 구체적인 구성에 대해서는 이하 도 3을 참조하여 설명한다.
도 3은 예시적 실시예에 따른 후처리부의 구체적인 구성을 도시한 블록도이다. 예시적 실시예에 따른 후처리부(260)는 제3 중간 영상 생성부(310), 제4 중간 영상 생성부(320) 및 최종 영상 생성부(330)를 포함할 수 있다.
제3 중간 영상 생성부(310)는 제1 중간 영상과 제2 중간 영상을 곱하여 제3 중간 영상을 생성할 수 있다. 구체적으로 설명하면, 제3 중간 영상 생성부(310)는 크로스 연산(cross operation)을 이용하여 제3 중간 영상을 생성할 수 있다. 크로스 연산은 각각의 영상이 포함하는 픽셀들의 밝기값(brightness value)들의 곱으로 정의된다. 제3 중간 영상 생성부(310)는 도 6에 도시된 제1 중간 영상과 제2 중간 영상을 크로스 연산하여 도 7의 (a)에 도시된 제3 중간 영상을 생성할 수 있다.
제4 중간 영상 생성부(320)는 제2 중간 영상의 외곽선을 늘려(expanding edge) 제4 중간 영상을 생성할 수 있다. 도 7의 (b)는 도 6의 (a)에 도시된 제2 중간 영상의 외곽선을 늘려서 생성된 제4 중간 영상을 도시한 도면이다.
최종 영상 생성부(330)는 제4 중간 영상을 반전(reverse)하고, 제3 중간 영상과 반전된 제4 중간 영상을 곱하여 최종 영상을 생성한다. 일측에 따르면, 최종 영상 생성부(330)는 도 6의 (b)에 도시된 제4 중간 영상을 반전하고, 반전된 제4 중간 영상과 도 5의 (a)에 도시된 제2 중간 영상을 곱하여 도 8의 (a)에 도시된 최종 영상을 생성할 수 있다.
후처리부(260)는 최종 영상에서 텍스트 영역을 쉽게 추출할 수 있도록 여러 가지 후처리를 수행한다. 일측에 따르면, 후처리부(260)는 도 8의 (a)에 도시된 최종 영상에 기하학적 연산(geometric operation)을 수행하여 도 8의 (b)에 도시된 영상을 생성할 수 있다. 또한, 후처리부(260)는 도 7의 (b)에 도시된 영상을 반전하고, 반전된 영상의 각 픽셀값을 2의 보수(2's complement)로 변환하고, 도 6의 (b)에 도시된 영상과 곱(AND)연산을 수행할 수 있다. 또한, 도 8의 (a)에 도시된 영상에 기반하여 CCs(Connected Components)를 생성할 수 있다. 후처리부(260)는 비텍스트 영역(non-text area)에 위치하는 것으로 판단된 CC는 SW(Stroke Width) 정보를 이용하여 제거할 수 있다.
후처리부(260)는 도 8의 (b)에 도시된 영상에서 표시된 텍스트가 전부인지 여부를 판단하기 위하여 텍스트들을 흰색으로 연결할 수 있다. 도 9의 (a)는 텍스트들이 흰색으로 연결된 영상을 도시한 것이다. 후처리부(260)는 도 9의 (a)에 도시된 영상에서 흰색의 상하좌우를 포함하는 영역을 찾아 텍스트가 포함된 텍스트 영역을 찾을 수 있다. 도 9의 (b)는 도 4의 (a)에 도시한 영상에서 텍스트가 포함된 텍스트 영역을 표시한 것이다.
후처리부(260)는 텍스트가 포함된 텍스트 영역에서 텍스트를 손쉽게 추출할 수 있다. 일측에 따르면, 영상에 포함된 텍스트는 전화 번호일 수 있다.
사용자 인터페이스부(270)는 추출된 전화 번호를 터치 스크린에 디스플레이 할 수 있다. 일측에 따르면, 사용자 인터페이스부(270)는 촬영된 영상을 터치 스크린에 디스플레이하고, 추출된 전화 번호는 영상 위에 오버레이하여 디스플레이 할 수 있다.
사용자 인터페이스부(270)는 추출된 전화번호에 대한 사용자 제스쳐를 수신할 수 있다. 일측에 따르면, 사용자 제스쳐는 오버레이된 전화 번호에 대한 터치일 수 있다.
예를 들어, 사용자 제스쳐는 임계 시간보다 더 긴 시간의 터치(long touch)일 수 있다. 이 경우에, 사용자 인터페이스부(270)는 추출된 전화번호로 전화 통화를 시도할 수 있다.
또는, 사용자 제스쳐는 오른쪽 방향으로의 드래그일 수 있다. 이 경우에, 사용자 인터페이스부(270)는 추출된 전화 번호로 문자 메시지의 전송을 시도할 수 있다.
또는, 사용자 제스쳐는 왼쪽 방향으로의 드래그일 수 있다. 이 경우에, 사용자 인터페이스부(270)는 추출된 전환 번호를 연락처에 등록할 수 있다.
도 10은 예시적 실시예에 따라서 영상 내에서 텍스트가 포함된 영역을 추출하는 방법을 단계별로 설명한 순서도이다.
단계(1010)에서, 전화 번호 추출 장치는 카메라를 이용하여 촬영된 영상을 수신한다. 일측에 따르면, 이 영상은 전화 번호와 같은 텍스트 형태의 정보를 포함할 수 있다.
단계(1020)에서, 전화 번호 추출 장치는 수신된 영상에 MSER(Maximally stable extremal regions) 기법을 적용하여 제1 중간 영상을 생성한다. 전화 번호 추출 장치는 도 4의 (a)에 도시된 이미지에 MSER 기법을 적용하여 도 6의 (b)에 도시된 제1 중간 영상을 생성할 수 있다.
단계(1030)에서, 전화 번호 추출 장치는 영상의 밝기(brightness) 히스토그램을 이용하여 캐니 연산자의 임계값을 결정한다. 일측에 따르면, 전화 번호 추출 장치는 도 5에 도시된 알고리즘에 따라서 밝기 히스토그램에서 중앙값(median value)를 계산하고, 수학식 2에 따라서 캐니 연산자의 두 임계값을 결정할 수 있다.
[수학식 2]
제1 임계값 = 0.66
Figure 112016015756948-pat00007
중앙값
제2 임계값 = 1.33
Figure 112016015756948-pat00008
중앙값
수학식 2과 같이 영상의 중앙값에 따라 캐니 연산자의 임계값을 결정하면, 각 영상의 특성을 반영하여 임계값을 적응적(adaptive)으로 결정할 수 있다. 따라서, 각 영상의 외곽선을 정확히 추출할 수 있다.
단계(1040)에서, 전화 번호 추출 장치는 영상에 캐니 연산을 수행하여 제2 중간 영상을 생성한다. 일측에 따르면, 전화 번호 추출 장치는 도 4의 (a)에 도시된 이미지에 캐니 연산을 수행하여 도 6의 (a)에 도시된 제1 중간 영상을 생성할 수 있다.
단계(1050)에서, 전화 번호 추출 장치는 제1 중간 영상과 제2 중간 영상을 곱하여 최종 영상을 생성하고, 최종 영상에서 전화 번호를 추출한다. 이하 도 11을 참고하여 단계(1050)을 구체적으로 설명한다.
도 11은 또 다른 예시적 실시예에 따라서 후처리를 수행하는 구성들 단계별로 설명한 순서도이다.
단계(1110)에서, 전화 번호 추출 장치는 제1 중간 영상과 제2 중간 영상을 곱하여 제3 중간 영상을 생성할 수 있다. 일측에 따르면, 전화 번호 추출 장치는 도 6에 도시된 제1 중간 영상과 제2 중간 영상을 크로스 연산하여 도 7의 (a)에 도시된 제3 중간 영상을 생성할 수 있다.
단계(1120)에서, 전화 번호 추출 장치는 제2 중간 영상의 외곽선을 늘려(expanding edge) 제4 중간 영상을 생성한다. 도 7의 (b)는 도 6의 (a)에 도시된 제2 중간 영상의 외곽선을 늘려서 생성된 제4 중간 영상을 도시한 도면이다.
단계(1130)에서, 전화 번호 추출 장치는 제4 중간 영상을 반전시킬 수 있다.
단계(1140)에서, 전화 번호 추출 장치는 제3 중간 영상과 반전된 제4 중간 영상을 곱하여 최종 영상을 생성한다. 일측에 따르면, 전화 번호 추출 장치는 도 6의 (b)에 도시된 제4 중간 영상을 반전하고, 반전된 제4 중간 영상과 도 5의 (a)에 도시된 제2 중간 영상을 크로스 연산하여 도 8의 (a)에 도시된 최종 영상을 생성할 수 있다.
또한, 전화 번호 추출 장치는 도 8의 (a)에 도시된 최종 영상에 기하학적 연산(geometric operation)을 수행하여 도 8의 (b)에 도시된 영상을 생성할 수 있다.
전화 번호 추출 장치는 도 8의 (b)에 도시된 영상에서 표시된 텍스트가 전부인지 여부를 판단하기 위하여 텍스트들을 흰색으로 연결할 수 있다. 도 9의 (a)는 텍스트들이 흰색으로 연결된 영상을 도시한 것이다.
전화 번호 추출 장치는 도 9의 (a)에 도시된 영상에서 흰색의 상하좌우를 포함하는 영역을 찾아 텍스트가 포함된 텍스트 영역을 찾을 수 있다. 도 9의 (b)는 도 4의 (a)에 도시한 영상에서 텍스트가 포함된 텍스트 영역을 표시한 것이다.
전화 번호 추출 장치는 텍스트가 포함된 텍스트 영역에서 텍스트를 손쉽게 추출할 수 있다. 일측에 따르면, 영상에 포함된 텍스트는 전화 번호일 수 있다.
전화 번호 추출 장치는 추출된 전화 번호를 터치 스크린에 디스플레이 할 수 있다. 일측에 따르면, 전화 번호 추출 장치는 촬영된 영상을 터치 스크린에 디스플레이하고, 추출된 전화 번호는 영상 위에 오버레이하여 디스플레이 할 수 있다.
단계(1060)에서, 전화 번호 추출 장치는 사용자 제스쳐를 수신한다. 일측에 따르면 사용자 제스쳐는 오버레이된 전화번호에 대한 터치일 수 있다.
단계(1070)에서, 전화 번호 추출 장치는 사용자 제스쳐에 따른 동작을 수행한다.
예를 들어, 사용자 제스쳐는 임계 시간보다 더 긴 시간의 터치(long touch)일 수 있다. 이 경우에, 전화 번호 추출 장치는 추출된 전화번호로 전화 통화를 시도할 수 있다.
또는, 사용자 제스쳐는 오른쪽 방향으로의 드래그일 수 있다. 이 경우에, 전화 번호 추출 장치는 추출된 전화 번호로 문자 메시지의 전송을 시도할 수 있다.
또는, 사용자 제스쳐는 왼쪽 방향으로의 드래그일 수 있다. 이 경우에, 전화 번호 추출 장치는 추출된 전환 번호를 연락처에 등록할 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
 
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
220: 수신부
230: MSER 기법 적용부
240: 임계값 결정부
250: 캐니 연산자 적용부
260: 후처리부
270: 사용자 인터페이스부

Claims (15)

  1. 전화 번호가 포함된 영상을 수신하는 수신부;
    상기 영상에 MSER(Maximally stable extremal regions) 기법을 적용하여 제1 중간 영상을 생성하는 MSER 기법 적용부;
    상기 영상의 밝기(brightness) 히스토그램에서 중앙값(median value)을 계산하고, 상기 중앙값을 이용하여 캐니 연산자의 임계값을 결정하는 임계값 결정부;
    상기 결정된 임계값을 이용하여 상기 영상에 캐니 연산을 수행하여 제2 중간 영상을 생성하는 캐니 연산자 적용부;
    상기 제1 중간 영상과 상기 제2 중간 영상을 곱하여 최종 영상을 생성하고, 상기 최종 영상에서 상기 전화 번호를 추출하는 후처리부; 및
    상기 추출된 전화 번호에 대한 사용자 제스쳐를 수신하고 상기 수신된 사용자 제스쳐에 따른 동작을 수행하는 사용자 인터페이스부
    를 포함하는 전화 번호 추출 장치.
  2. 제1항에 있어서,
    상기 사용자 인터페이스부는 상기 추출된 전화 번호를 터치 스크린에 상기 영상에 오버레이하여 디스플레이하고, 상기 오버레이된 전화 번호에 대한 터치를 상기 사용자 제스쳐로 수신하는 전화 번호 추출 장치.
  3. 제2항에 있어서, 상기 사용자 제스쳐가 임계 시간보다 더 긴 시간의 터치인 경우에,
    상기 사용자 인터페이스부는 상기 추출된 전화 번호로 전화 통화를 시도하는 전화 번호 추출 장치.
  4. 제2항에 있어서, 상기 사용자 제스쳐가 오른쪽 방향의 드래그인 경우에,
    상기 사용자 인터페이스부는 상기 추출된 전화 번호로 문자 메시지의 전송을 시도하는 전화 번호 추출 장치.
  5. 제2항에 있어서, 상기 사용자 제스쳐가 왼쪽 방향의 드래그인 경우에,
    상기 사용자 인터페이스부는 상기 추출된 전화 번호를 연락처에 등록하는 전화 번호 추출 장치.
  6. 제1항에 있어서,
    상기 임계값 결정부는 하기 수학식 1에 따라서 캐니 연산자의 임계값을 결정하는 전화 번호 추출 장치.

    [수학식 1]

    제1 임계값 = 0.66
    Figure 112016015756948-pat00009
    중앙값
    제2 임계값 = 1.33
    Figure 112016015756948-pat00010
    중앙값
  7. 제1항에 있어서, 상기 후처리부는
    상기 제1 중간 영상과 상기 제2 중간 영상을 곱하여 제3 중간 영상을 생성하는 제3 중간 영상 생성부;
    상기 제2 중간 영상의 외곽선을 늘려(expanding edge) 제4 중간 영상을 생성하는 제4 중간 영상 생성부;
    상기 제4 중간 영상을 반전하고, 상기 제3 중간 영상과 상기 반전된 제4 중간 영상을 곱하여 상기 최종 영상을 생성하는 최종 영상 생성부
    를 포함하는 전화 번호 추출 장치.
  8. 전화 번호가 포함된 영상을 수신하는 단계;
    상기 영상에 MSER(Maximally stable extremal regions) 기법을 적용하여 제1 중간 영상을 생성하는 단계;
    상기 영상의 밝기(brightness) 히스토그램에서 중앙값(median value)을 계산하고, 상기 중앙값을 이용하여 캐니 연산자의 임계값을 결정하는 단계;
    상기 결정된 임계값을 이용하여 상기 영상에 캐니 연산을 수행하여 제2 중간 영상을 생성하는 단계;
    상기 제1 중간 영상과 상기 제2 중간 영상을 곱하여 최종 영상을 생성하고, 상기 최종 영상에서 상기 전화 번호를 추출하는 단계;
    상기 추출된 전화 번호에 대한 사용자 제스쳐를 수신하는 단계; 및
    상기 수신된 사용자 제스쳐에 따른 동작을 수행하는 단계
    를 포함하는 전화 번호 추출 방법.
  9. 제8항에 있어서,
    상기 추출된 전화 번호를 터치 스크린에 상기 영상에 오버레이하여 디스플레이하는 단계
    를 더 포함하고, 상기 사용자 제스쳐를 수신하는 단계는
    상기 오버레이된 전화 번호에 대한 터치를 상기 사용자 제스쳐로 수신하는 전화 번호 추출 방법.
  10. 제9항에 있어서,
    상기 사용자 제스쳐가 임계 시간보다 더 긴 시간의 터치인 경우에,
    상기 수신된 사용자 제스쳐에 따른 동작을 수행하는 단계는 상기 추출된 전화 번호로 전화 통화를 시도하는 전화 번호 추출 방법.
  11. 제9항에 있어서,
    상기 사용자 제스쳐가 오른쪽 방향의 드래그인 경우에,
    상기 수신된 사용자 제스쳐에 따른 동작을 수행하는 단계는 상기 추출된 전화 번호로 문자 메시지의 전송을 시도하는 전화 번호 추출 방법.
  12. 제9항에 있어서,
    상기 사용자 제스쳐가 왼쪽 방향의 드래그인 경우에,
    상기 수신된 사용자 제스쳐에 따른 동작을 수행하는 단계는 상기 추출된 전화 번호를 연락처에 등록하는 전화 번호 추출 방법.
  13. 제8항에 있어서,
    상기 임계값을 결정하는 단계는 하기 수학식 2에 따라서 캐니 연산자의 임계값을 결정하는 전화 번호 추출 방법.

    [수학식 2]

    제1 임계값 = 0.66
    Figure 112016015756948-pat00011
    중앙값
    제2 임계값 = 1.33
    Figure 112016015756948-pat00012
    중앙값
  14. 제8항에 있어서, 상기 전화 번호를 추출하는 단계는
    상기 제1 중간 영상과 상기 제2 중간 영상을 곱하여 제3 중간 영상을 생성하는 단계;
    상기 제2 중간 영상의 외곽선을 늘려(expanding edge) 제4 중간 영상을 생성하는 단계;
    상기 제4 중간 영상을 반전하고, 상기 제3 중간 영상과 상기 반전된 제4 중간 영상을 곱하여 상기 최종 영상을 생성하는 단계
    를 포함하는 전화 번호 추출 방법.
  15. 제8항 내지 제14항 중에서 어느 하나의 항의 방법을 실행시키기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체.
KR1020160018488A 2016-02-17 2016-02-17 캐니 연산자의 가변적 임계값을 적용한 문자 추출 장치 및 방법 KR101749539B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160018488A KR101749539B1 (ko) 2016-02-17 2016-02-17 캐니 연산자의 가변적 임계값을 적용한 문자 추출 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160018488A KR101749539B1 (ko) 2016-02-17 2016-02-17 캐니 연산자의 가변적 임계값을 적용한 문자 추출 장치 및 방법

Publications (1)

Publication Number Publication Date
KR101749539B1 true KR101749539B1 (ko) 2017-06-21

Family

ID=59281692

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160018488A KR101749539B1 (ko) 2016-02-17 2016-02-17 캐니 연산자의 가변적 임계값을 적용한 문자 추출 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101749539B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003163736A (ja) * 2001-11-26 2003-06-06 Sharp Corp カメラ付き携帯端末

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003163736A (ja) * 2001-11-26 2003-06-06 Sharp Corp カメラ付き携帯端末

Similar Documents

Publication Publication Date Title
US9584729B2 (en) Systems and methods for improving video captured using mobile devices
EP3232371A1 (en) Object recognition method, object recognition device, and classifier training method
CN110706150A (zh) 图像处理方法、装置、电子设备及存储介质
US9542735B2 (en) Method and device to compose an image by eliminating one or more moving objects
CN111582085A (zh) 单据拍摄图像识别方法及装置
US9275448B2 (en) Flash/no-flash imaging for binarization
JP2011045078A (ja) カメラベースの文書画像処理のための適応的ボケ除去
CN107622504B (zh) 用于处理图片的方法和装置
JP5832656B2 (ja) 画像中のテキストの検出を容易にする方法及び装置
WO2017197593A1 (en) Apparatus, method and computer program product for recovering editable slide
KR20130066819A (ko) 촬영 이미지 기반의 문자 인식 장치 및 방법
US10452943B2 (en) Information processing apparatus, control method of information processing apparatus, and storage medium
CN111539269A (zh) 文本区域的识别方法、装置、电子设备和存储介质
JPWO2018180578A1 (ja) 画像処理装置、撮像装置、画像処理方法、およびプログラム
JP2016029546A (ja) 画像処理装置、画像処理方法、および画像処理プログラム
US9171357B2 (en) Method, apparatus and computer-readable recording medium for refocusing photographed image
JP5656768B2 (ja) 画像特徴量抽出装置およびそのプログラム
CN106485246B (zh) 字符识别方法及装置
CN111754414A (zh) 一种图像处理方法、装置和用于图像处理的装置
US10373329B2 (en) Information processing apparatus, information processing method and storage medium for determining an image to be subjected to a character recognition processing
EP2930687B1 (en) Image segmentation using blur and color
FR2984668A3 (fr) Procede de traitement de sequence video sur les terminaux mobiles en temps reel
KR101749539B1 (ko) 캐니 연산자의 가변적 임계값을 적용한 문자 추출 장치 및 방법
KR101592087B1 (ko) 배경 영상의 위치를 이용한 관심맵 생성 방법 및 이를 기록한 기록 매체
JP6467817B2 (ja) 画像処理装置、画像処理方法、およびプログラム

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant