KR101645994B1 - 문자 인식 영역 검출 장치 및 문자 인식 방법 - Google Patents
문자 인식 영역 검출 장치 및 문자 인식 방법 Download PDFInfo
- Publication number
- KR101645994B1 KR101645994B1 KR1020090133374A KR20090133374A KR101645994B1 KR 101645994 B1 KR101645994 B1 KR 101645994B1 KR 1020090133374 A KR1020090133374 A KR 1020090133374A KR 20090133374 A KR20090133374 A KR 20090133374A KR 101645994 B1 KR101645994 B1 KR 101645994B1
- Authority
- KR
- South Korea
- Prior art keywords
- character
- detecting
- area
- region
- user
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000001514 detection method Methods 0.000 claims abstract description 38
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/041—Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/0486—Drag-and-drop
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0488—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
Abstract
문자 인식 영역 검출 및 문자 인식 기술을 개시한다. 이 기술은 사용자의 간단한 조작에 의해 입력되는 사용자 지정 위치를 기반으로 영역을 확장하면서 문자 인식 영역을 검출하고, 검출된 문자 인식 영역에 대한 문자 인식을 수행함으로써 사용자가 정확하게 문자 영역을 지정하지 않고도 문자 인식 영역을 검출할 수 있어 사용자 편의성을 향상시킬 수 있다.
휴대용 단말기, 문자 인식, 사용자 지정 위치, 문자 인식 영역
Description
본 발명은 문자 인식에 관련한 기술로, 특히 문자 인식을 위한 영역을 검출하는 문자 인식 영역 검출 장치 및 검출된 문자 인식 영역내에 포함되는 문자를 인식하는 문자 인식 방법에 관한 것이다.
카메라를 구비한 휴대용 단말기 등에 의해 촬영된 영상으로부터 문자를 인식하기 위해서는 인식하고자 하는 문자의 위치를 먼저 알아야 한다. 제한된 메모리 및 CPU 용량을 가지는 휴대용 단말기가 영상으로부터 문자 영역을 자동으로 찾는 방법은 정확도나 속도면에서 신뢰성이 떨어진다. 이에 따라, 통상적으로 사용자가 직접 문자 영역을 지정하는 방법을 사용하고 있다.
사용자가 직접 문자 영역을 지정하는 방법은 휴대용 단말기에 구비된 카메라를 이용해 영상을 촬영할 때 휴대용 단말기의 화면에서 제시하는 사각 영역안에 문자가 위치하도록 카메라의 위치 및 줌을 조절하여 촬영하는 방법과, 휴대용 단말기에 구비된 카메라에 의해 촬영된 영상이 표시되는 화면에서 사용자가 직접 문자 인식할 사각 영역을 지정하는 방법이 있다.
그러나, 휴대용 단말기의 화면에서 제시하는 사각 영역안에 문자가 위치하도록 카메라의 위치 및 줌을 조절하여 촬영하는 방법은 사용자가 카메라의 위치와 줌을 정확하게 조절해야 하므로 사용자 조작이 쉽지않다. 문자 인식은 문자 영역의 정확한 지정이 최종 결과에 큰 영향을 미치기 때문에 카메라의 위치와 줌이 정확하게 조절되지 않을 경우 원하는 문자 인식 결과를 얻지 못할 가능성이 크다.
한편, 영상이 표시되는 화면에서 사용자가 직접 문자를 인식할 사각 영역을 지정하는 방법은 카메라의 위치 및 줌을 조절하여 촬영하는 방법에 비해 사용자 조작이 상대적으로 용이하나, 영상이 표시되는 화면에서 사용자가 문자 인식 영역을 정확하게 지정해야만 원하는 문자 인식 결과를 얻을 수 있다.
문자 인식을 위한 문자 영역을 검출함에 있어서, 사용자의 간단한 조작에 의해 입력되는 사용자 지정 위치를 기반으로 문자 인식 영역을 검출함으로써 사용자가 정확하게 문자 영역을 지정하지 않고도 문자 인식 영역을 검출할 수 있도록 하는 기술을 제공한다.
일 양상에 따르면, 문자 인식 영역 검출 장치가 사용자 지정 위치로부터 영역을 확장하면서 최초 문자 영역을 검출하고, 검출된 최초 문자 영역으로부터 영역을 확장하면서 전체 문자 영역을 검출한다.
또 다른 양상에 따르면, 문자 인식 방법이 사용자 지정 위치로부터 영역을 확장하면서 최초 문자 영역을 검출하고, 검출된 최초 문자 영역으로부터 영역을 확장하면서 전체 문자 영역을 검출하고, 검출된 전체 문자 영역에 포함된 문자들을 인식한다.
사용자의 간단한 조작에 의해 입력되는 사용자 지정 위치를 기반으로 영역을 확장해가면서 문자 인식 영역을 검출함으로써 사용자가 정확하게 문자 영역을 지정하지 않고도 문자 인식 영역을 검출할 수 있어 사용자 편의성을 향상시킬 수 있다.
이하, 첨부된 도면을 참조하여 기술되는 바람직한 실시예를 통하여 본 발명 을 당업자가 용이하게 이해하고 재현할 수 있도록 상세히 기술하기로 한다.
본 발명 실시예들을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명 실시예들의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.
본 발명 명세서 전반에 걸쳐 사용되는 용어들은 본 발명 실시예에서의 기능을 고려하여 정의된 용어들로서, 사용자 또는 운용자의 의도, 관례 등에 따라 충분히 변형될 수 있는 사항이므로, 이 용어들의 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1 은 본 발명에 따른 문자 인식 영역 검출 장치의 일 실시예의 구성을 도시한 블럭도이다. 도 1 에 도시한 바와 같이, 이 실시예에 따른 문자 인식 영역 검출 장치(100)는 위치 검출부(110)와, 최초 문자 영역 검출부(120)와, 전체 문자 영역 검출부(130)를 포함하여 이루어진다.
위치 검출부(110)는 사용자 지정 위치를 검출한다. 이 때, 사용자 지정 위치는 영상이 출력되는 터치 스크린상에서의 사용자 터치 또는 터치 앤 드래그 동작에 의해 입력되는 점 또는 선 또는 기호 또는 도형의 시작점 또는 끝점 또는 중간점 또는 꼭지점 또는 중심점 중 어느 하나일 수 있다. 도 2 는 사용자 지정 위치 입력을 위한 점 또는 선 또는 기호 또는 도형의 예들을 도시한 도면이다.
상기 위치검출부(110)는 영상이 출력되는 터치 스크린상에서의 사용자 터치 또는 터치 앤 드래그 동작에 의해 입력되는 점 또는 선 또는 기호 또는 도형의 시작점 또는 끝점 또는 중간점 또는 꼭지점 또는 중심점 중 어느 하나를 검출함에 의 해 사용자 지정 위치를 검출할 수 있다.
최초 문자 영역 검출부(120)는 위치 검출부(110)에 의해 검출되는 사용자 지정 위치로부터 특정 거리내에 존재하는 최초 문자 영역을 검출한다. 이 때, 사용자 지정 위치와 문자와의 관계를 다음과 같이 나눌 수 있다.
첫번째는 도 3 에 도시한 바와 같이 사용자 지정 위치가 문자에 겹치는 경우, 두번째는 도 4 에 도시한 바와 같이 사용자 지정 위치로부터 특정 거리내에 적어도 하나의 문자가 있는 경우, 세번째는 도 5 에 도시한 바와 같이 사용자 지정 위치로부터 특정 거리내에 문자가 있으나, 그림 등의 비문자가 사용자 지정 위치에 더 가까운 경우, 네번째는 도 6 에 도시한 바와 같이 사용자 지정 위치로부터 특정 거리내에 문자가 없는 경우이다.
최초 문자 영역 검출부(120)는 문자 구성 요소 후보를 선정하고, 선정된 문자 구성 요소 후보들 중 비문자 구성 요소들을 제거하여 문자 구성 요소들을 검출하고, 이들 중에서 최초 문자 영역을 검출한다. 최초 문자 영역 검출부(120)가 최초 문자 영역을 검출하는 실시예들은 추후 구체적으로 설명한다.
전체 문자 영역 검출부(130)는 최초 문자 영역 검출부(120)에 의해 검출된 최초 문자 영역으로부터 영역을 확장하면서 전체 문자 영역을 검출한다. 최초 문자 영역으로부터 영역을 확장한다는 의미는 최초 문자 영역으로부터 상/하/좌/우/양 사선 방향에 대해 문자 영역들이 존재하는지를 검사한다는 것을 의미한다. 예컨대, 연결 구성 요소 분석(Connected Component Analysis) 기법을 이용해 문자 단위로 영역을 확장하면서 전체 문자 영역을 검출할 수 있다.
이 때, 영역 확장 범위가 너무 크면 문자 영역 판단을 위한 계산량이 늘어 속도가 느려지고, 영역 확장 범위가 너무 작으면 문자 영역 판단이 불가능할 수 있으므로, 화면 대비 적정한 비율(예컨대, 가로 방향 1/m, 세로 방향 1/n, m 및 n은 양의 정수)로 영역 확장 범위를 결정한다.
한편, 전체 문자 영역 검출부(130)가 최초 문자 영역과 주변 영역(상/하/좌/우/양 사선 방향의 근접 영역)간의 영역 특성 유사도를 비교함에 의해 전체 문자 영역을 검출할 수 있다. 예컨대, 상기 영역 특성 유사도가 색상 또는 명도 또는 채도 히스토그램의 유사도일 수도 있고, 외곽선 필터(Edge Filter)나 스트록 필터(Stroke Filter) 출력 특성 또는 'Markov Model'이나 'Support Vector Machine' 등의 기계 학습 알고리즘에 의해 미리 학습된 분류 특성과의 유사도일 수도 있다.
이 실시예에 따른 문자 인식 영역 검출 장치(100)는 위치 검출부(110)를 통해 사용자 지정 위치를 검출하고, 최초 문자 영역 검출부(120)를 통해 검출된 사용자 지정 위치로부터 특정 거리내에 존재하는 최초 문자 영역을 검출하고, 전체 문자 영역 검출부(130)를 통해 최초 문자 영역으로부터 영역을 확장하면서 전체 문자 영역을 검출함으로써 문자 인식을 위한 영역을 최종적으로 검출한다.
이 실시예에 따른 문자 인식 영역 검출 장치(100)에 의해 검출된 전체 문자 영역에 대해 문자 인식 장치(도면 도시 생략)가 문자 인식을 수행하고, 화면 출력함으로써 문자 인식 결과가 얻어진다. 이 실시예에 따른 문자 인식 영역 검출 장치(100)는 문자 인식 장치와 별도의 장치로 또는 문자 인식 장치의 일부 구성으로 구현될 수 있다.
따라서, 이 실시예에 따른 문자 인식 영역 검출 장치는 사용자의 간단한 조작에 의해 입력되는 사용자 지정 위치를 기반으로 영역을 확장하면서 문자 인식 영역을 검출함으로써 사용자가 정확하게 문자 영역을 지정하지 않고도 문자 인식 영역을 검출할 수 있어 사용자 편의성을 향상시킬 수 있게 된다.
부가적인 양상에 따르면, 최초 문자 영역 검출부(120)가 전체 영상내에 존재하는 문자 구성 요소 후보들을 검출하고, 비문자 구성 요소들이 제거된 문자 구성 요소들 중 사용자 지정 위치로부터 특정 거리내에 존재하는 적어도 하나의 문자 구성 요소의 경계 박스(Bounding Box)를 최초 문자 영역으로 결정하도록 구현할 수 있다.
이 실시예는 영상에 포함되는 문자들의 크기 편차가 클 때 유용한 실시예로, 전체 영상을 분석하여 문자 구성 요소들을 검출하고, 이들 중에서 사용자 지정 위치로부터 특정 거리내에 존재하는 적어도 하나의 문자 구성 요소의 경계 박스(Bounding Box)를 최초 문자 영역으로 결정하도록 한 것이다.
부가적인 양상에 따르면, 최초 문자 영역 검출부(120)가 사용자 지정 위치를 중심으로 하는 가상의 윈도우내에 존재하는 문자 구성 요소 후보들을 검출하고, 비문자 구성 요소들이 제거된 문자 구성 요소들 중 사용자 지정 위치로부터 특정 거리내에 존재하는 적어도 하나의 문자 구성 요소의 경계 박스(Bounding Box)를 최초 문자 영역으로 결정하도록 구현할 수도 있다.
이 실시예는 영상에 포함되는 문자들의 크기 편차가 거의 균일할 때 유용한 실시예로, 사용자 지정 위치를 중심으로 하는 가상의 윈도우내의 영상을 분석하여 문자 구성 요소들을 검출하고, 이들 중에서 사용자 지정 위치로부터 특정 거리내에 존재하는 적어도 하나의 문자 구성 요소의 경계 박스(Bounding Box)를 최초 문자 영역으로 결정하도록 한 것이다. 이 때, 가상의 윈도우내에 문자 구성 요소가 존재하지 않을 경우 영역을 확장하여 최초 문자 영역을 검출할 수 있다.
부가적인 양상에 따르면, 최초 문자 영역 검출부(120)가 기호 또는 도형의 시작점 또는 끝점 또는 중간점 또는 꼭지점 또는 중심점들 중 적어도 세개의 점에 의해 형성되는 가상의 다각형 또는 폐곡선내에 존재하는 문자 구성 요소 후보들을 검출하고, 비문자 구성 요소들이 제거된 문자 구성 요소들 중 사용자 지정 위치로부터 특정 거리내에 존재하는 적어도 하나의 문자 구성 요소의 경계 박스(Bounding Box)를 최초 문자 영역으로 결정하도록 구현할 수도 있다.
이 실시예는 사용자 지정 위치 입력으로 적어도 세개의 점을 추출할 수 있는 기호 또는 도형이 입력된 경우 유용한 실시예로, 적어도 세개의 점에 의해 형성되는 가상의 다각형 또는 폐곡선내의 영상을 분석하여 문자 구성 요소들을 검출하고, 이들 중에서 사용자 지정 위치로부터 특정 거리내에 존재하는 적어도 하나의 문자 구성 요소의 경계 박스(Bounding Box)를 최초 문자 영역으로 결정하도록 한 것이다. 이 때, 세개의 점에 의해 형성되는 가상의 다각형 또는 폐곡선내에 문자 구성 요소가 존재하지 않을 경우 영역을 확장하여 최초 문자 영역을 검출할 수 있다.
한편, 위의 실시예들에서 사용자 지정 위치와 문자 구성 요소간의 거리는 사용자 지정 위치 입력을 위한 점 또는 선 또는 기호 또는 도형의 시작점 또는 끝점 또는 중간점 또는 꼭지점 또는 중심점 중 어느 하나로부터 문자 구성 요소의 경계 박스(Bounding Box)의 중심점까지의 거리에 의해 계산될 수 있다.
도 7 은 본 발명에 따른 문자 인식 방법의 일 실시예를 도시한 흐름도이다. 예컨대, 카메라가 구비된 휴대용 단말기를 이용해 사용자가 문자 인식할 영상을 촬영하였다 가정하자. 휴대용 단말기의 터치 스크린상에 영상이 표시된 상태에서 사용자가 사용자 지정 위치를 입력하면, 휴대용 단말기가 위치 검출단계(710)에서 사용자 지정 위치를 검출한다.
이 때, 사용자 지정 위치는 영상이 출력되는 터치 스크린상에서의 사용자 터치 또는 터치 앤 드래그 동작에 의해 입력되는 점 또는 선 또는 기호 또는 도형의 시작점 또는 끝점 또는 중간점 또는 꼭지점 또는 중심점 중 어느 하나일 수 있다.
상기 위치 검출단계(710)에서 휴대용 단말기가 영상이 출력되는 터치 스크린상에서의 사용자 터치 또는 터치 앤 드래그 동작에 의해 입력되는 점 또는 선 또는 기호 또는 도형의 시작점 또는 끝점 또는 중간점 또는 꼭지점 또는 중심점 중 어느 하나를 검출함에 의해 사용자 지정 위치를 검출할 수 있다.
그 다음, 휴대용 단말기가 최초 문자 영역 검출단계(720)에서 위치 검출단계(710)에 의해 검출되는 사용자 지정 위치로부터 특정 거리내에 존재하는 최초 문자 영역을 검출한다.
이 때, 최초 문자 영역 검출단계(720)에서 휴대용 단말기가 문자 구성 요소 후보를 선정하고, 선정된 문자 구성 요소 후보들 중 비문자 구성 요소들을 제거하여 문자 구성 요소들을 검출하고, 이들 중에서 최초 문자 영역을 검출할 수 있다.
그 다음, 휴대용 단말기가 전체 문자 영역 검출단계(730)에서 최초 문자 영 역 검출단계(720)에 의해 검출된 최초 문자 영역으로부터 영역을 확장하면서 전체 문자 영역을 검출한다.
최초 문자 영역으로부터 영역을 확장한다는 의미는 최초 문자 영역으로부터 상/하/좌/우/양 사선 방향에 대해 문자 영역들이 존재하는지를 검사한다는 것을 의미한다. 예컨대, 연결 구성 요소 분석(Connected Component Analysis) 기법을 이용해 문자 단위로 영역을 확장하면서 전체 문자 영역을 검출할 수 있다.
이 때, 영역 확장 범위가 너무 크면 문자 영역 판단을 위한 계산량이 늘어 속도가 느려지고, 영역 확장 범위가 너무 작으면 문자 영역 판단이 불가능할 수 있으므로, 화면 대비 적정한 비율(예컨대, 가로 방향 1/m, 세로 방향 1/n, m 및 n은 양의 정수)로 영역 확장 범위를 결정한다.
한편, 전체 문자 영역 검출단계(730)에서 최초 문자 영역과 주변 영역(상/하/좌/우/양 사선 방향의 근접 영역)간의 영역 특성 유사도를 비교함에 의해 전체 문자 영역을 검출할 수 있다. 예컨대, 상기 영역 특성 유사도가 색상 또는 명도 또는 채도 히스토그램의 유사도일 수도 있고, 외곽선 필터(Edge Filter)나 스트록 필터(Stroke Filter) 출력 특성 또는 'Markov Model'이나 'Support Vector Machine' 등의 기계 학습 알고리즘에 의해 미리 학습된 분류 특성과의 유사도일 수도 있다.
그 다음, 휴대용 단말기가 문자 인식단계(740)에서 전체 문자 영역 검출단계(730)에 의해 검출된 전체 문자 영역에 포함된 문자들을 인식한다. 따라서, 이 실시예에 따른 문자 인식 방법은 사용자 지정 위치를 검출하고, 검출된 사용자 지정 위치로부터 특정 거리내에 존재하는 최초 문자 영역을 검출하고, 검출된 최초 문자 영역으로부터 영역을 확장하면서 전체 문자 영역을 검출하고, 검출된 전체 문자 영역에 포함되는 문자들을 인식하는 과정을 통해 영상으로부터 문자를 인식한다.
즉, 이 실시예에 따른 문자 인식 방법은 사용자의 간단한 조작에 의해 입력되는 사용자 지정 위치를 기반으로 영역을 확장하면서 문자 인식 영역을 검출하고, 검출된 문자 인식 영역에 포함되는 문자들을 인식함으로써 사용자가 정확하게 문자 영역을 지정하지 않고도 문자 인식 영역을 검출하고, 검출된 문자 인식 영역에 대한 문자 인식을 수행할 수 있어 사용자 편의성을 향상시킬 수 있게 된다.
부가적인 양상에 따르면, 휴대용 단말기가 최초 문자 영역 검출단계(720)에서 전체 영상내에 존재하는 문자 구성 요소 후보들을 검출하고, 비문자 구성 요소들이 제거된 문자 구성 요소들 중 사용자 지정 위치로부터 특정 거리내에 존재하는 적어도 하나의 문자 구성 요소의 경계 박스(Bounding Box)를 최초 문자 영역으로 결정하도록 구현할 수 있다.
이 실시예는 영상에 포함되는 문자들의 크기 편차가 클 때 유용한 실시예로, 전체 영상을 분석하여 문자 구성 요소들을 검출하고, 이들 중에서 사용자 지정 위치로부터 특정 거리내에 존재하는 적어도 하나의 문자 구성 요소의 경계 박스(Bounding Box)를 최초 문자 영역으로 결정하도록 한 것이다.
부가적인 양상에 따르면, 휴대용 단말기가 최초 문자 영역 검출단계(720)에서 사용자 지정 위치를 중심으로 하는 가상의 윈도우내에 존재하는 문자 구성 요소 후보들을 검출하고, 비문자 구성 요소들이 제거된 문자 구성 요소들 중 사용자 지 정 위치로부터 특정 거리내에 존재하는 적어도 하나의 문자 구성 요소의 경계 박스(Bounding Box)를 최초 문자 영역으로 결정하도록 구현할 수도 있다.
이 실시예는 영상에 포함되는 문자들의 크기 편차가 거의 균일할 때 유용한 실시예로, 사용자 지정 위치를 중심으로 하는 가상의 윈도우내의 영상을 분석하여 문자 구성 요소들을 검출하고, 이들 중에서 사용자 지정 위치로부터 특정 거리내에 존재하는 적어도 하나의 문자 구성 요소의 경계 박스(Bounding Box)를 최초 문자 영역으로 결정하도록 한 것이다. 이 때, 가상의 윈도우내에 문자 구성 요소가 존재하지 않을 경우 영역을 확장하여 최초 문자 영역을 검출할 수 있다.
부가적인 양상에 따르면, 휴대용 단말기가 최초 문자 영역 검출단계(720)에서 기호 또는 도형의 시작점 또는 끝점 또는 중간점 또는 꼭지점 또는 중심점들 중 적어도 세개의 점에 의해 형성되는 가상의 다각형 또는 폐곡선내에 존재하는 문자 구성 요소 후보들을 검출하고, 비문자 구성 요소들이 제거된 문자 구성 요소들 중 사용자 지정 위치로부터 특정 거리내에 존재하는 적어도 하나의 문자 구성 요소의 경계 박스(Bounding Box)를 최초 문자 영역으로 결정하도록 구현할 수도 있다.
이 실시예는 사용자 지정 위치 입력으로 적어도 세개의 점을 추출할 수 있는 기호 또는 도형이 입력된 경우 유용한 실시예로, 적어도 세개의 점에 의해 형성되는 가상의 다각형 또는 폐곡선내의 영상을 분석하여 문자 구성 요소들을 검출하고, 이들 중에서 사용자 지정 위치로부터 특정 거리내에 존재하는 적어도 하나의 문자 구성 요소의 경계 박스(Bounding Box)를 최초 문자 영역으로 결정하도록 한 것이다. 이 때, 세개의 점에 의해 형성되는 가상의 다각형 또는 폐곡선내에 문자 구성 요소가 존재하지 않을 경우 영역을 확장하여 최초 문자 영역을 검출할 수 있다.
한편, 위의 실시예들에서 사용자 지정 위치와 문자 구성 요소간의 거리는 사용자 지정 위치 입력을 위한 점 또는 선 또는 기호 또는 도형의 시작점 또는 끝점 또는 중간점 또는 꼭지점 또는 중심점 중 어느 하나로부터 문자 구성 요소의 경계 박스(Bounding Box)의 중심점까지의 거리에 의해 계산될 수 있다.
이상에서 설명한 바와 같이 본 발명은 사용자의 간단한 조작에 의해 입력되는 사용자 지정 위치를 기반으로 영역을 확장하면서 문자 인식 영역을 검출함으로써 사용자가 정확하게 문자 영역을 지정하지 않고도 문자 인식 영역을 검출할 수 있어 사용자 편의성을 향상시킬 수 있으므로, 상기에서 제시한 본 발명의 목적을 달성할 수 있다.
본 발명은 첨부된 도면에 의해 참조되는 바람직한 실시예를 중심으로 기술되었지만, 이러한 기재로부터 후술하는 특허청구범위에 의해 포괄되는 범위 내에서 본 발명의 범주를 벗어남이 없이 다양한 변형이 가능하다는 것은 명백하다.
도 1 은 본 발명에 따른 문자 인식 영역 검출 장치의 일 실시예의 구성을 도시한 블럭도
도 2 는 사용자 지정 위치 입력을 위한 점 또는 선 또는 기호 또는 도형의 예들을 도시한 도면
도 3 은 사용자 지정 위치가 문자에 겹치는 경우의 일 예를 도시한 도면
도 4 는 사용자 지정 위치로부터 특정 거리내에 적어도 하나의 문자가 있는 경우의 일 예를 도시한 도면
도 5 는 사용자 지정 위치로부터 특정 거리내에 문자가 있으나, 비문자가 사용자 지정 위치에 더 가까운 경우의 일 예를 도시한 도면
도 6 은 사용자 지정 위치로부터 특정 거리내에 문자가 없는 경우의 일 예를 도시한 도면
도 7 은 본 발명에 따른 문자 인식 방법의 일 실시예를 도시한 흐름도
<도면의 주요 부분에 대한 부호의 설명>
100 : 문자 인식 영역 검출 장치 110 : 위치 검출부
120 : 최초 문자 영역 검출부 130 : 전체 문자 영역 검출부
Claims (18)
- 사용자 지정 위치를 검출하는 위치 검출부와;상기 위치 검출부에 의해 검출되는 사용자 지정 위치로부터 특정 거리내에 존재하는 최초 문자 영역을 검출하는 최초 문자 영역 검출부와;상기 최초 문자 영역 검출부에 의해 검출된 최초 문자 영역으로부터 영역을 확장하면서 전체 문자 영역을 검출하는 전체 문자 영역 검출부를; 포함하고,상기 최초 문자 영역 검출부가:상기 위치 검출부에 의해 검출되는 사용자 지정 위치를 중심으로 하는 가상의 윈도우내에 존재하는 문자 구성 요소 후보들을 검출하고, 검출된 문자 구성 요소 후보들 중 비문자 구성 요소들을 제거하여 문자 구성 요소들을 검출하고, 검출된 문자 구성 요소들 중 사용자 지정 위치로부터 특정 거리내에 존재하는 적어도 하나의 문자 구성 요소의 경계 박스(Bounding Box)를 최초 문자 영역으로 결정하는 문자 인식 영역 검출 장치.
- 제 1 항에 있어서,상기 위치검출부가:영상이 출력되는 터치 스크린상에서의 사용자 터치 또는 터치 앤 드래그 동작에 의해 입력되는 점 또는 선 또는 기호 또는 도형의 시작점 또는 끝점 또는 중간점 또는 꼭지점 또는 중심점 중 어느 하나를 검출함에 의해 사용자 지정 위치를 검출하는 문자 인식 영역 검출 장치.
- 삭제
- 삭제
- 삭제
- 사용자 지정 위치를 검출하는 위치 검출부와;상기 위치 검출부에 의해 검출되는 사용자 지정 위치로부터 특정 거리내에 존재하는 최초 문자 영역을 검출하는 최초 문자 영역 검출부와;상기 최초 문자 영역 검출부에 의해 검출된 최초 문자 영역으로부터 영역을 확장하면서 전체 문자 영역을 검출하는 전체 문자 영역 검출부를; 포함하고,상기 최초 문자 영역 검출부가:상기 위치 검출부에 의해 검출되는 기호 또는 도형의 시작점 또는 끝점 또는 중간점 또는 꼭지점 또는 중심점들 중 적어도 세개의 점에 의해 형성되는 가상의 다각형 또는 폐곡선내에 존재하는 문자 구성 요소 후보들을 검출하고, 검출된 문자 구성 요소 후보들 중 비문자 구성 요소들을 제거하여 문자 구성 요소들을 검출하고, 검출된 문자 구성 요소들 중 사용자 지정 위치로부터 특정 거리내에 존재하는 적어도 하나의 문자 구성 요소의 경계 박스(Bounding Box)를 최초 문자 영역으로 결정하는 문자 인식 영역 검출 장치.
- 제 1 항에 있어서,상기 전체 문자 영역 검출부가:최초 문자 영역과 주변 영역간의 영역 특성 유사도를 비교함에 의해 전체 문자 영역을 검출하는 문자 인식 영역 검출 장치.
- 제 7 항에 있어서,상기 영역 특성 유사도가:색상 또는 명도 또는 채도 히스토그램의 유사도인 문자 인식 영역 검출 장치.
- 제 7 항에 있어서,상기 영역 특성 유사도가:미리 학습된 분류 특성과의 유사도인 문자 인식 영역 검출 장치.
- 사용자 지정 위치를 검출하는 위치 검출단계와;상기 위치 검출단계에 의해 검출되는 사용자 지정 위치로부터 특정 거리내에 존재하는 최초 문자 영역을 검출하는 최초 문자 영역 검출단계와;상기 최초 문자 영역 검출단계에 의해 검출된 최초 문자 영역으로부터 영역을 확장하면서 전체 문자 영역을 검출하는 전체 문자 영역 검출단계와;상기 전체 문자 영역 검출단계에 의해 검출된 전체 문자 영역에 포함된 문자들을 인식하는 문자 인식단계를; 포함하고,상기 최초 문자 영역 검출단계에서:사용자 지정 위치를 중심으로 하는 가상의 윈도우내에 존재하는 문자 구성 요소 후보들을 검출하고, 검출된 문자 구성 요소 후보들 중 비문자 구성 요소들을 제거하여 문자 구성 요소들을 검출하고, 검출된 문자 구성 요소들 중 사용자 지정 위치로부터 특정 거리내에 존재하는 적어도 하나의 문자 구성 요소의 경계 박스(Bounding Box)를 최초 문자 영역으로 결정하는 문자 인식 방법.
- 제 10 항에 있어서,상기 위치 검출단계에서:영상이 출력되는 터치 스크린상에서의 사용자 터치 또는 터치 앤 드래그 동작에 의해 입력되는 점 또는 선 또는 기호 또는 도형의 시작점 또는 끝점 또는 중간점 또는 꼭지점 또는 중심점 중 어느 하나를 검출함에 의해 사용자 지정 위치를 검출하는 문자 인식 방법.
- 삭제
- 삭제
- 삭제
- 사용자 지정 위치를 검출하는 위치 검출단계와;상기 위치 검출단계에 의해 검출되는 사용자 지정 위치로부터 특정 거리내에 존재하는 최초 문자 영역을 검출하는 최초 문자 영역 검출단계와;상기 최초 문자 영역 검출단계에 의해 검출된 최초 문자 영역으로부터 영역을 확장하면서 전체 문자 영역을 검출하는 전체 문자 영역 검출단계와;상기 전체 문자 영역 검출단계에 의해 검출된 전체 문자 영역에 포함된 문자들을 인식하는 문자 인식단계를; 포함하고,상기 최초 문자 영역 검출단계에서:기호 또는 도형의 시작점 또는 끝점 또는 중간점 또는 꼭지점 또는 중심점들 중 적어도 세개의 점에 의해 형성되는 가상의 다각형 또는 폐곡선내에 존재하는 문자 구성 요소 후보들을 검출하고, 검출된 문자 구성 요소 후보들 중 비문자 구성 요소들을 제거하여 문자 구성 요소들을 검출하고, 검출된 문자 구성 요소들 중 사용자 지정 위치로부터 특정 거리내에 존재하는 적어도 하나의 문자 구성 요소의 경계 박스(Bounding Box)를 최초 문자 영역으로 결정하는 문자 인식 방법.
- 제 10 항에 있어서,상기 전체 문자 영역 검출단계에서:최초 문자 영역과 주변 영역간의 영역 특성 유사도를 비교함에 의해 전체 문자 영역을 검출하는 문자 인식 방법.
- 제 16 항에 있어서,상기 영역 특성 유사도가:색상 또는 명도 또는 채도 히스토그램의 유사도인 문자 인식 방법.
- 제 16 항에 있어서,상기 영역 특성 유사도가:미리 학습된 분류 특성과의 유사도인 문자 인식 방법.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090133374A KR101645994B1 (ko) | 2009-12-29 | 2009-12-29 | 문자 인식 영역 검출 장치 및 문자 인식 방법 |
US12/946,307 US8503780B2 (en) | 2009-12-29 | 2010-11-15 | Apparatus for detecting text recognition region and method of recognizing text |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090133374A KR101645994B1 (ko) | 2009-12-29 | 2009-12-29 | 문자 인식 영역 검출 장치 및 문자 인식 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20110076625A KR20110076625A (ko) | 2011-07-06 |
KR101645994B1 true KR101645994B1 (ko) | 2016-08-05 |
Family
ID=44187662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020090133374A KR101645994B1 (ko) | 2009-12-29 | 2009-12-29 | 문자 인식 영역 검출 장치 및 문자 인식 방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8503780B2 (ko) |
KR (1) | KR101645994B1 (ko) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5598325B2 (ja) * | 2010-12-29 | 2014-10-01 | コニカミノルタ株式会社 | 文字検出装置、文字検出方法、およびコンピュータプログラム |
CN102682025B (zh) * | 2011-03-16 | 2014-03-19 | 中兴通讯股份有限公司 | 一种web图片评论添加和显示方法及装置 |
JP5800626B2 (ja) * | 2011-07-29 | 2015-10-28 | オリンパス株式会社 | 画像処理装置、画像処理方法、及び画像処理プログラム |
US8942484B2 (en) | 2011-09-06 | 2015-01-27 | Qualcomm Incorporated | Text detection using image regions |
CN103679168B (zh) * | 2012-08-30 | 2018-11-09 | 北京百度网讯科技有限公司 | 文字区域检测方法及装置 |
KR101295000B1 (ko) * | 2013-01-22 | 2013-08-09 | 주식회사 케이지모빌리언스 | 카드 번호의 영역 특성을 이용하는 신용 카드의 번호 인식 시스템 및 신용 카드의 번호 인식 방법 |
US9496922B2 (en) | 2014-04-21 | 2016-11-15 | Sony Corporation | Presentation of content on companion display device based on content presented on primary display device |
JP6128092B2 (ja) * | 2014-10-10 | 2017-05-17 | コニカミノルタ株式会社 | 履歴生成装置及び履歴生成方法 |
US9524430B1 (en) * | 2016-02-03 | 2016-12-20 | Stradvision Korea, Inc. | Method for detecting texts included in an image and apparatus using the same |
CN107346428A (zh) * | 2017-05-24 | 2017-11-14 | 上海视马艾智能科技有限公司 | 一种ic表面字符识别方法与装置 |
GB201804383D0 (en) | 2018-03-19 | 2018-05-02 | Microsoft Technology Licensing Llc | Multi-endpoint mixed reality meetings |
CN111242109B (zh) * | 2020-04-26 | 2021-02-02 | 北京金山数字娱乐科技有限公司 | 一种手动取词的方法及装置 |
CN112925419A (zh) * | 2021-03-31 | 2021-06-08 | 读书郎教育科技有限公司 | 一种基于平板指尖查词的结果筛选方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100836197B1 (ko) * | 2006-12-14 | 2008-06-09 | 삼성전자주식회사 | 동영상 자막 검출 장치 및 그 방법 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3442847B2 (ja) * | 1994-02-17 | 2003-09-02 | 三菱電機株式会社 | 文字読取装置 |
US6151426A (en) * | 1998-10-01 | 2000-11-21 | Hewlett-Packard Company | Click and select user interface for document scanning |
JP4146993B2 (ja) | 2000-11-10 | 2008-09-10 | 株式会社リコー | 図書情報提供装置、図書情報提供方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2002199302A (ja) | 2000-12-27 | 2002-07-12 | Nippon Telegr & Teleph Corp <Ntt> | 文字情報提供システム及び文字情報提供方法及びその方法を実現するプログラムを記録した記録媒体 |
US6826305B2 (en) * | 2001-03-27 | 2004-11-30 | Ncr Corporation | Methods and apparatus for locating and identifying text labels in digital images |
KR100584344B1 (ko) | 2003-06-10 | 2006-05-26 | 삼성전자주식회사 | 영상입력부를 가진 휴대용 단말기에서 문자를 인식하는 방법 |
KR100667156B1 (ko) | 2004-12-10 | 2007-01-12 | 한국전자통신연구원 | 휴대형 카메라로 획득한 문자영상의 문자영역선택을 통한문자인식 장치 및 그 방법 |
JP4839076B2 (ja) | 2005-12-09 | 2011-12-14 | 日本電信電話株式会社 | 映像中文字認識装置、映像中文字認識方法、プログラム、及び記録媒体 |
KR100764175B1 (ko) * | 2006-02-27 | 2007-10-08 | 삼성전자주식회사 | 맞춤형 방송 서비스를 위한 동영상의 중요 자막을 검출하는장치 및 방법 |
KR20080099385A (ko) | 2007-05-09 | 2008-11-13 | 유니챌(주) | 문자 인식을 통한 미디어 컨텐츠 검색 및 출력 시스템과 그방법 |
KR101291195B1 (ko) | 2007-11-22 | 2013-07-31 | 삼성전자주식회사 | 문자인식장치 및 방법 |
JP2010057017A (ja) * | 2008-08-29 | 2010-03-11 | Konica Minolta Business Technologies Inc | 画像処理装置および画像処理方法 |
US20100293460A1 (en) * | 2009-05-14 | 2010-11-18 | Budelli Joe G | Text selection method and system based on gestures |
-
2009
- 2009-12-29 KR KR1020090133374A patent/KR101645994B1/ko active IP Right Grant
-
2010
- 2010-11-15 US US12/946,307 patent/US8503780B2/en not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100836197B1 (ko) * | 2006-12-14 | 2008-06-09 | 삼성전자주식회사 | 동영상 자막 검출 장치 및 그 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR20110076625A (ko) | 2011-07-06 |
US8503780B2 (en) | 2013-08-06 |
US20110158532A1 (en) | 2011-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101645994B1 (ko) | 문자 인식 영역 검출 장치 및 문자 인식 방법 | |
WO2020187173A1 (zh) | 异物检测方法、异物检测装置和电子设备 | |
US8768006B2 (en) | Hand gesture recognition | |
KR101247147B1 (ko) | 디지털 영상 획득 장치에서의 얼굴 탐색 및 검출 | |
KR101304083B1 (ko) | 화면 가이드라인을 기반으로 하는 선택적 텍스트 인식 | |
KR101304084B1 (ko) | 제스처 기반의 선택적인 텍스트 인식 | |
US20070281734A1 (en) | Method, system and apparatus for handset screen analysis | |
US8175380B2 (en) | Apparatus and method for improving text recognition capability | |
US20120092329A1 (en) | Text-based 3d augmented reality | |
CN105303156B (zh) | 字符检测装置、方法及程序 | |
KR101606469B1 (ko) | 이미지 분석방법, 특히 이동 단말기용 이미지 분석방법 | |
US10878268B2 (en) | Information processing apparatus, control method thereof, and storage medium | |
KR20100099005A (ko) | 히스토그램 분석을 이용한 영상 분류 방법 및 장치, 이를 이용한 문자 인식 방법 및 장치 | |
KR20120010875A (ko) | 증강 현실 객체 인식 가이드 제공 장치 및 방법 | |
CN104766354B (zh) | 一种增强现实绘图的方法及移动终端 | |
JP2005267480A (ja) | 認識対象切出し装置および方法 | |
CN107330441B (zh) | 火焰图像前景提取算法 | |
KR20110014450A (ko) | 얼굴 인식률 개선 장치 및 방법 | |
JP2013171309A (ja) | 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム | |
CN112507767A (zh) | 脸部辨识方法及其相关电脑系统 | |
KR20100114190A (ko) | 터치스크린을 통한 카메라 영상의 문자열 인식 시스템 및 그 방법 | |
JP6156740B2 (ja) | 情報表示装置及び入力情報補正プログラム並びに入力情報補正方法 | |
KR101329492B1 (ko) | 카메라 렌즈를 조절하여 인식할 문자열을 영상의 중앙에 인식 가능한 크기로 위치시키는 장치 및 그 방법 | |
EP4109334A1 (en) | Character selection method and apparatus employing character recognition, and terminal device | |
KR101761641B1 (ko) | 엣지 라인을 검출하여 분할선을 획득하는 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20190730 Year of fee payment: 4 |