KR101468231B1 - 라벨 검색 방법 및 장치 - Google Patents

라벨 검색 방법 및 장치 Download PDF

Info

Publication number
KR101468231B1
KR101468231B1 KR1020090085937A KR20090085937A KR101468231B1 KR 101468231 B1 KR101468231 B1 KR 101468231B1 KR 1020090085937 A KR1020090085937 A KR 1020090085937A KR 20090085937 A KR20090085937 A KR 20090085937A KR 101468231 B1 KR101468231 B1 KR 101468231B1
Authority
KR
South Korea
Prior art keywords
character
label
region
image
characters
Prior art date
Application number
KR1020090085937A
Other languages
English (en)
Other versions
KR20110028034A (ko
Inventor
황성택
안희범
이귀상
김수형
양형정
박종현
임준식
김정식
이명훈
정종문
Original Assignee
삼성전자주식회사
전남대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사, 전남대학교산학협력단 filed Critical 삼성전자주식회사
Priority to KR1020090085937A priority Critical patent/KR101468231B1/ko
Priority to US12/879,624 priority patent/US8587685B2/en
Publication of KR20110028034A publication Critical patent/KR20110028034A/ko
Application granted granted Critical
Publication of KR101468231B1 publication Critical patent/KR101468231B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

본 발명은 휴대용 단말에서 라벨을 검색하는 방법에 관한 것으로, 카메라를 통해 촬영된 라벨 영상을 획득하고, 상기 라벨 영상에 포함된 문자를 추출하고, 상기 추출된 문자를 인식하고, 복수의 라벨 및 상기 복수의 라벨 정보를 포함하는 라벨 데이터베이스에서 상기 인식된 문자를 포함하는 하나 이상의 라벨을 검출하여, 상기 검출된 라벨을 포함하는 예비 라벨 후보군을 구성하고, 상기 라벨 영상의 영상 특징을 검출하고, 상기 검출된 영상 특징과 유사한 영상 특징을 가지는 하나 이상의 라벨을 상기 예비 라벨 후보군에서 검출하여 최종 라벨 후보군을 구성하고, 상기 최종 라벨 후보군에 포함된 각 라벨 및 상기 각 라벨에 대응하는 상세 정보를 제공한다.
라벨, 문자 인식, 영상 특징

Description

라벨 검색 방법 및 장치{METHOD AND APPARATUS FOR SEARCHING A LABEL}
본 발명은 휴대용 단말에 관한 것으로, 특히, 휴대용 단말을 이용한 라벨 검색 방법 및 장치에 관한 것이다.
최근의 휴대용 단말은 저전력, 고효율, 저렴한 가격의 하드웨어들이 개발됨에 따라 단순 음성 통화에서 영상 저장, 재생, 데이터 통신 및 영상 처리 기술 등을 적용한 응용분야로 그 영역이 확대되고 있다. 이러한 하드웨어적 기술의 발전을 바탕으로 휴대용 단말은 고해상도의 카메라를 구비할 수 있게 되었으며, 이를 이용한 다양한 기능이 제공되고 있다. 예를 들어, 카메라를 통해 촬영된 영상을 이용한 문자 인식, 바코드 인식, 얼굴 인식 등의 기능이 제공된다.
한편, 와인에 대한 사람들의 관심이 증가하면서 수요가 증가하고 있다. 국내의 연간 와인 소비량은 해마다 성장하며 평균 25%의 성장률을 기록하고 있다. 국내의 와인 제조 및 수입 와인에 대한 소비량도 함께 증가하고 있으며, 2010년에는 국내 와인 시장이 4억 1300만 달러 규모로 성장할 것이라는 조사결과가 나왔다. 이렇게 와인에 대한 관심과 소비가 증가하면서 와인의 정보를 제공하는 와인 포털이 생겨나고 있으며 온라인 판매 및 다양한 오프라인 활동 및 커뮤니티활동이 활발하게 일어나고 있다.
이와 같이 와인에 대한 관심이 급증함에 따라, 각종 와인 관련 서비스가 새롭게 생겨나고 있으며, 가장 일반적인 서비스는 웹서비스를 통해 와인의 대한 정보를 제공하는 것이다. 하지만 사용자들의 요구는 점점 다양해지고 언제 어디서나 필요할 때 와인에 대한 정보를 제공받고자 한다.
와인은 생산자, 생산지, 포도 품종, 생산 연도 등에 따라 맛, 종류, 가격이 다양하며, 이러한 와인 정보는 와인을 선택하는 기준이 된다. 와인의 라벨은 와인 정보에 따라 고유의 디자인으로 표현되기 때문에, 소비자는 와인 라벨을 통해 와인을 구별하고, 와인에 대한 정보를 획득하게 된다. 그런데 생산자 또는 브랜드가 동일하면서 와인의 종류가 다른 경우에도 라벨은 서로 유사한 형태를 띠고 있어 이를 구별하기 위해서는 전문적인 지식이 필요하다.
따라서 휴대용 단말을 이용해 와인 라벨을 인식하고, 인식된 결과를 이용해 해당 라벨을 검색하여 사용자에게 와인에 대한 정보를 제공할 수 있다면, 와인에 대한 지식이 없는 사용자에게 언제 어디서라도 와인에 대한 정보를 제공할 수 있을 것이다.
종래의 와인 정보 제공 방법은 와인 라벨에 바코드를 부착하여 바코드를 인식하여 와인을 구분하고, 해당 정보를 제공하였다. 하지만 종래의 방법은 와인 병에 직접 바코드를 부착해야 하기 때문에 추가적인 비용이 발생하였고, 바코드를 읽기 위한 별도의 바코드 리더기가 필요하게 되어 일반 사용자의 접근이 쉽지 않다.
상기한 문제점을 해결하기 위해 본 발명은 장소나 시간에 관계없이 언제 어디서라도 와인 라벨을 검색하여 와인에 대한 정보를 제공할 수 있는 방법 및 장치를 제공한다.
그리고 본 발명은 휴대용 단말에 구비된 카메라를 통해 획득한 와인 라벨 영상을 이용하여 해당 와인 라벨을 검색할 수 있는 방법 및 장치를 제공한다.
그리고 본 발명은 와인에 대한 정보를 빠르고 정확하게 제공할 수 있는 방법 및 장치를 제공한다.
한편, 본 발명은 라벨 검색 장치의 라벨 검색 방법에 있어서, 카메라를 통해 촬영된 라벨 영상을 획득하는 과정과, 상기 라벨 영상에 포함된 문자를 추출하고, 상기 추출된 문자를 인식하는 과정과, 복수의 라벨 및 상기 복수의 라벨 정보를 포함하는 라벨 데이터베이스에서 상기 인식된 문자를 포함하는 하나 이상의 라벨을 검출하여, 상기 검출된 라벨을 포함하는 예비 라벨 후보군을 구성하는 과정과, 상기 라벨 영상의 영상 특징을 검출하는 과정과, 상기 검출된 영상 특징과 유사한 영상 특징을 가지는 하나 이상의 라벨을 상기 예비 라벨 후보군에서 검출하여 최종 라벨 후보군을 구성하는 과정과, 상기 최종 라벨 후보군에 포함된 각 라벨 및 상기 각 라벨에 대응하는 상세 정보를 제공한다.
본 발명은 일상생활에서 필수품으로 사용되고 있는 휴대용 단말, 예를 들어, 휴대폰이나 PDA(Personal Digital Assistant) 등을 이용하여 와인 라벨을 검색할 수 있게 함에 따라, 장소나 시간에 관계없이 언제 어디서라도 와인 라벨을 검색하여 와인에 대한 정보를 제공할 수 있다. 그리고 본 발명은 휴대용 단말에 구비된 카메라를 통해 획득한 와인 라벨 영상을 이용하여 해당 와인 라벨을 검색할 수 있다. 또한 본 발명은 와인에 대한 정보를 빠르고 정확하게 제공할 수 있다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다. 도면에서 동일한 구성요소들에 대해서는 비록 다른 도면에 표시되더라도 가능한 한 동일한 참조번호 및 부호로 나타내고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어서, 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명은 생략한다.
와인의 종류는 다양하며 각기 서로 다른 라벨들을 보유하고 있다. 하지만 생산자 또는 브랜드가 동일한 경우 라벨은 서로 유사한 형태를 띠고 있어 초보자가 이를 구별하는 것이 쉽지 않다. 더욱이 동일한 단어를 포함하고 있지만, 전체적인 디자인이 상이하여 다른 라벨로 구분되는 복수의 와인 라벨들도 존재하기 때문에 라벨을 구분하고, 해당 라벨에 포함된 정보를 올바르게 파악하는 더욱더 어렵다.
본 발명은 와인 라벨과 같이 문자를 포함하며 특정 형태의 도안으로 이루어진 라벨을 촬영한 영상을 이용해 빠르고 정확하게 라벨을 인식하고, 해당 라벨을 검색하여 사용자에게 관련 정보를 제공하기 위한 것이다.
이를 위해 본 발명은 촬영을 통해 획득한 라벨 영상에서 문자를 추출하여 문 자 인식을 수행하고, 그 결과로 라벨 데이터베이스를 검색하여 동일한 문자를 포함한 표준 라벨 영상들을 검출하고, 이들을 포함하는 예비 라벨 후보군을 구성한다. 그리고 라벨 영상에서 라벨 도안의 특징을 나타내는 영상 특징을 검출하고, 예비 라벨 후보군에서 유사한 영상 특징을 포함하는 표준 라벨 영상들을 검출하여 사용자에게 제공한다. 이때, 검출된 표준 라벨 영상과 관련된 다양한 정보, 예를 들어, 해당 라벨에 대응하는 상품, 기업 정보등을 제공할 수도 있다.
이하에서는 본 발명의 이해를 돕기 위해 여러 종류의 라벨 중에 와인 라벨을 구분하는 경우를 예로 들어 설명하지만, 다른 종류의 라벨을 예를 들어, 다양한 음료수의 라벨, 의류 상표, 기업 상표 등을 구분하는 경우에도 유사하게 적용할 수 있다.
본 발명의 일 실시예에서, 휴대용 단말은, 단말에 장착된 디지털 카메라를 통해 와인 라벨 영상들을 획득하고 전처리 과정을 통해 와인 라벨에 표기된 문자를 인식하고 인식된 문자를 검색하여 얻어진 예비 라벨 후보군들 중 라벨 영상 검색을 통해 가장 유사한 라벨 영상순으로 사용자에게 와인의 정보를 제공한다.
와인 병에 부착된 와인 라벨을 인식하는 경우 와인 병의 곡면으로 인해, 와인 라벨 영상은 와인 라벨의 중심에서 좌우 방향으로 멀어질수록 조명의 형태가 변화하는 불규칙 특성을 가지게 된다. 이에 따라 문자 영역 검출 및 이진화 과정에서 배경과 문자 영역을 정확하게 분할하는 것이 쉽지 않으며, 이에 따라, 문자 영역의 손상이 발생하여 문자의 형태를 인지하는 것이 어려울 수 있다. 이러한 결과는 문자 고유의 의미 정보를 희석시키며 인식과정에서 오인식의 중요한 원인을 제공한 다. 따라서 와인 병의 곡면 라벨의 구조적 특징을 분석하여 정확한 구조의 문자 영역의 검출 및 이진화가 필요하다.
문자 인식을 위한 접근 방법은 크게 세 가지로 분류된다. 첫 번째, 문자 분할 과정 없이 단어 전체를 하나의 단위로 보고 인식하는 방법, 두 번째, 문자의 분할 과정에서 높은 신뢰도를 갖는 단 하나의 분할 결과를 생성하는 방법, 세 번째, 여러 분할 결과를 인식과정으로 넘겨줌으로써 인식과 함께 단어 분할 결과를 정하도록 하는 방법이다.
첫 번째 접근 방법인 단어 단위 인식방법은, 사용되는 단어의 개수가 극히 제한적인 응용분야에서는, 단어 간의 패턴거리가 크고 정밀하지 않은 특징만으로도 높은 인식성능을 얻을 수 있어서 유용하게 사용되기도 한다. 그러나 대부분의 응용분야에서는 사용되는 단어의 수가 많으며, 이는 결국 단어 간의 패턴거리가 가깝고 유사단어가 많이 존재함으로써 문자 인식에 가까운 정밀한 특징의 사용이 요구되기 때문에 결국 그 장점이 없어지는 특성을 가지고 있다.
두 번째 방법은 외적분할(External Segmentation)방법으로 불리며 처리속도가 빠르기 때문에 비교적 문자 분할이 쉬운 인쇄체 단어 인식에서 폭넓게 사용되어 왔다. 그러나 잘못된 문자분할의 경우 수정할 수 없기 때문에 분할 과정에서 오류가 발생한다면 전체적인 인식 과정에 치명적인 영향을 미치는 특성이 있다.
세 번째 방법은 내적분할(Internal Segmentation)방법으로 불리며 여러 문자분할 결과를 수용함으로써 문자 인식의 성능은 향상되지만 여러 번의 인식을 수행해야하므로 처리속도에 대한 부담이 큰 단점이 있다. 하지만 대부분의 문자 인식기 는 높은 인식 성능을 위해 여러 가지 제약 사항이 있기 때문에 사용에 불편함이 있다. 따라서 인식의 정확성을 높이기 위해 내적분할 방법을 사용하되 인식과정에서 처리속도의 부담을 최대한 줄일 수 있도록 신뢰성 높은 문자 분할 방법이 필요하다.
그리고 문자 인식에 사용되는 영상은 각각의 문자 조각 영역들로 이루어진다. 때문에 하나의 문자는 여러 개로 분리될 수 있고, 이러한 문자 조각 영역의 분리는 이진화 영상과 문자 조각 각각의 위치 값을 기반으로 이루어진다.
따라서 본 본 발명은 이진화 영상과 문자 조각 각각의 위치 값을 기반으로 조합 문자를 생성하고 생성된 조합 문자들과 기준 문자의 유사도를 측정하여 최적의 문자 조합을 추출하고 후처리를 통해 인식률 높인다.
와인 라벨에 포함된 문자를 인식하여 검색되어진 결과는 단일 또는 다수의 와인 라벨을 포함하는 후보군을 생성한다. 후보군 중 와인 라벨 영상과 가장 유사한 와인 라벨을 찾기 위해 본 발명은 와인 라벨에서 얻을 수 있는 영상 특징들을 이용한다.
이러한 본 발명이 적용되는 라벨 검색 장치의 일예를 도1에 도시하였다. 라벨 검색 장치는 휴대용 단말, 예를 들어, 휴대폰, PDA 등에 구비될 수 있다. 도1을 참조하면, 라벨 검색 장치는 검색부(10), 문자 인식부(20), 영상 비교부(30), 카메라(40), 라벨 데이터베이스(50), 메모리부(60), 표시부(70), 키입력부(80)를 포함한다.
키입력부(80)는 카메라(40)의 촬영을 제어하는 셔터키와, 각종 기능키, 숫자 키등을 포함하여, 사용자가 임의의 키를 누름으로써 발생하는 각종 키 입력에 대응하는 키 데이터를 검색부(10)로 출력한다.
메모리부(60)는 검색부(10)의 처리 및 제어를 위한 프로그램, 참조 데이터, 갱신 가능한 각종 보관용 데이터 등을 저장하며, 검색부(10)의 워킹 메모리(working memory)로 제공된다. 그리고 예비 라벨 후보군 및 최종 라벨 후보군을 저장한다.
라벨 데이터베이스(50)는 각종 와인 라벨에 대응하는 표준 와인 라벨 영상과, 각 와인 라벨에 포함되는 라벨 문자열들과, 각 와인 라벨에 대응하는 와인에 대한 상세 정보를 포함한다. 상세 정보는 해당 와인의 종류, 생산지, 생산 시기, 생산 지역, 역사 등을 포함한다. 그리고 라벨 데이터베이스(50)는 각각의 표준 와인 라벨 영상에 대한 영상 특징을 저장한다.
카메라(40)는 검색부(10)의 제어에 따라, 피사체를 촬영하여 생성된 영상을 문자 인식부(20)와 영상 비교부(30)로 출력한다. 즉, 사용자가 와인 라벨을 카메라(40)로 촬영함에 따라 와인 라벨 영상이 획득되며, 획득된 와인 라벨 영상은 문자 인식부(10)와 영상 비교부(30)로 출력된다.
문자 인식부(20)는 검색부(10)의 제어에 따라, 입력된 와인 라벨 영상에서 문자 영역을 검출하기 위해 와인 라벨 영상을 웨이블릿 변환하여 수평, 수직, 대각선의 주파수 변환 성분을 분석한다. 세 가지의 주파수 성분에서 주파수 변화가 큰 부분이 문자 영역이라 할 수 있다. 문자 인식부(20)는 문자 영역을 검출한 뒤 문자와 배경을 분리하는 이진화 과정을 수행한다. 이에 따라 문자 영역은 라벨 영상에 서의 문자 그 자체를 의미하게 되며, 이진화에는 적응적 임계 알고리즘이 이용될 수 있다. 문자 인식부(20)는 이진화된 문자 영역을 문자별로 분할하고, 신경망을 이용하여 각 문자를 인식하여, 인식된 문자를 이용해 하나 이상의 후보 문자열을 구성한다. 그리고 문자 인식부(20)는 후보 문자열과 라벨 데이터베이스(50)에 등록된 와인 라벨 문자열을 비교하여 유사도가 가장 높은 와인 라벨 문자열을 최종 인식 결과로 검색부(10)로 출력한다.
검색부(10)는 라벨 검색 장치의 전반적인 동작을 제어하며, 문자 인식부(20)에서 입력되는 최종 인식 결과를 이용해, 라벨 데이터베이스(50)에서 인식된 와인 라벨 문자열이 포함된 하나 이상의 와인 라벨을 검색하고, 검색된 와인 라벨에 대응하는 표준 와인 라벨 영상을 포함하는 예비 라벨 후보군을 구성한다. 그리고 검색부(10)는 촬영으로 획득한 와인 라벨 영상과 유사한 표준 와인 라벨 영상을 예비 라벨 후보군에서 찾기 위해 영상 비교부(30)를 제어한다.
영상 비교부(30)는 카메라(40)에서 입력된 와인 라벨 영상의 영상 특징을 추출한다. 이때 영상 특징은 문자 인식부(20)에서 추출된 문자 영역의 크기 특징과, 와인 라벨 영상의 색상 특징과, 문자의 도안 특징을 포함한다. 그리고 영상 비교부(30)는 추출된 영상 특징과 예비 라벨 후보군에 포함된 표준 와인 라벨 영상의 영상 특징의 유사도를 계산하고, 유사도가 높은 표준 와인 라벨 영상들을 포함하는 최종 라벨 후보군을 구성하여 검색부(10)로 출력한다.
검색부(10)는 최종 라벨 후보군에 포함되는 표준 와인 라벨 영상 및 해당 와인 정보를 라벨 데이터베이스(50)에서 검출하여 표시부(70)에 디스플레이함으로써, 사용자에게 와인 라벨 검색 결과 및 와인 정보를 제공한다.
상기와 같이 구성되는 라벨 검색 장치의 동작 과정을 도3 내지 도5에 도시하였다. 도3은 본 발명의 일 실시에에 따른 라벨 검색 장치의 전반적인 라벨 검색 과정을 나타낸 도면이고, 도4a 및 도4b는 본 발명의 일 실시예에 따른 문자 인식부(20)의 동작 과정을 나타낸 도면이며, 도5는 본 발명의 일 실시에에 따른 영상 비교부(30)의 동작 과정을 나타낸 도면이다.
라벨 검색 장치는 사용자가 키입력부(80)등을 통해 와인 라벨 검색을 요청하면, 카메라(40)를 활성시킨다. 사용자는 검색하고자 하는 와인 병에 부착된 와인 라벨을 라벨 검색 장치에 구비된 카메라(40)를 이용해 촬영한다.
이에 따라 라벨 검색 장치는 도3의 101단계에서 도6과 같이 와인 라벨 영상을 획득하게 된다. 카메라(40)는 라벨 영상을 문자 인식부(20)와 영상 비교부(30)에 출력한다. 이후, 검색부(10)는 103단계에서 문자 인식부(20)를 제어하여 라벨 영상에서 문자를 추출하여 문자 인식이 수행되게 한다. 이에 따른 문자 인식부(20)의 동작 과정을 도2와 도4a 및 도4b를 참조하여 설명한다.
도2는 본 발명의 일 실시예에 따라 문자 인식부(20)의 구성을 나타낸 도면이다. 도2를 참조하면, 문자 인식부(20)는 문자 영역 검출 모듈(21)과, 문자 분할 모듈(22)과, 문자 인식 모듈(23)을 포함한다.
도4a 및 도4b를 참조하면, 문자 인식부(20)는 카메라(40)를 통해 라벨 영상이 입력됨에 따라 201단계에서 라벨 영상을 획득하게 된다. 그리고 문자 인식부(20)는 와인 라벨 영상에 포함된 문자를 성공적으로 검출하기 위해 라벨 영상을 웨이블릿 변환한 후에 고주파 영역의 방향성분을 분석하여 후보 문자 영역의 확장하고, 그룹핑과 수직 및 수평 히스토그램을 이용하여 정확한 문자 영역을 검출한다. 그리고 문자 인식부(20)는 적응적 경계 알고리즘을 이용해 검출된 문자 영역에 대한 이진화를 수행한다.
이에 따라, 문자 인식부(20)의 문자 영역 검출 모듈(21)은 203 단계에서 문자 영역 검출을 위해 라벨 영상에서의 그레이 스케일 성분을 이용하여 웨이블릿 변환을 수행한다. 그리고 문자 영역 검출 모듈(21)은 205단계로 진행하여 웨이블릿 변환 후 마지막 레벨에서 고주파(HF) 성분인 수직(V), 수평(H), 그리고 대각(D) 성분을 포함하고 있는 영역의 방향성분을 이용하여 후보 영역을 생성한다. 영역의 그룹핑은 수직, 수평 그리고 대각 특성에 따라서 3개의 서로 다른 서브 마스크를 적용하여 문자 영역을 방향성분에 의해 확장할 수 있다. 이때, 와인 라벨에서 와인을 대표하는 문자는 대략적으로 영상의 중심부분에 위치하고 있다고 가정하며, 사용된 알고리즘의 일예는 표1과 같다.
-1 step: computing mean value in HFV, HFH, and HFD
detecting direction component(V,H,D)
if(mean x C<coef) img[][] = 255;
else img[][] = 0;
-2 step: region grouping
HFV: 1x11
HFH: 11x1
HFD: 3x5
-3 step: text region detection
If (V∩(HUD)) textregion;
else background;
도7a 내지 도7e는 본 발명의 일예에 따른 후보 문자 영역의 검출 결과를 나타낸 것이다. 도7a는 와인 라벨 영상 원본이고, 도7b는 도7a의 와인 라벨 영역에서 추출된 후보 문자 영역의 수평 방향 확장을 나타낸 것이고, 도7c는 도7a의 와인 라벨 영역에서 추출된 후보 문자 영역의 수직 방향 확장을 나타낸 것이고, 도7d는 도7a의 와인 라벨 영역에서 추출된 후보 문자 영역의 대각 방향 확장을 나타낸 것이다. 그리고 도7e는 표 1과 같은 알고리즘에 의해 도7b 내지 도7c를 이용하여 최종적으로 도출된 후보 문자 영역 검출 결과를 나타낸 것이다.
웨이블릿 변환 결과의 고주파 성분 분석에 의해 검출된 후보 문자 영역에 대하여 문자 영역 검출 모듈(21)은 수직 및 수평 영역 히스토그램의 특성을 분석하여 실제 문자 영역을 검출한다. 그리고 문자 영역 검출 모듈(21)은 적응적 경계 알고리즘을 적용하여 검출된 실제 문자 영역에 대하여 배경 영역과 문자 영역으로 분할을 수행한다. 이렇게 분할된 문자 영역은 실제 문자를 나타내는 영역에 해당한다. 예를 들어, 도8에서 “BLUE NUN"을 구성하는 영역을 의미하는 것이다.
일반적으로 와인 병과 같은 곡면 영상에서는 조명의 특성이 중심 영역 부분에서 밝고 좌우 영역으로 멀어질수록 어두워지는 특성을 가지고 있다. 따라서 본 발명에서는 이진화를 수행하기 위하여 적응적 임계 알고리즘을 적용하여 이진화를 수행하였다. 그리고 이러한 이진화 처리 결과의 일예를 도8에 나타내었다.
도4a로 돌아와서, 문자 인식부(20)의 문자 분할 모듈(22)은 207단계에서 문자 영역 검출 모듈(21)에 의해 검출된 문자 영역의 기울기를 보정하고, 208단계로 진행하여 문자 분할을 수행한다.
분할 기반 문자 인식 방식에 있어서 기울기 보정은 매우 중요하다. 잘못 적용된 기울기 보정은 입력 문자열 자체를 사용할 수 없을 정도로 왜곡시키기도 하는데, 이러한 왜곡은 잘못된 문자 분할을 유도하고 결국 인식 실패의 요인이 된다.
문자 인식과 관련된 기울기 보정은 기본적으로 입력된 전체 문자열에서 직선성분들을 추출한 뒤 추출된 성분들의 기울기를 구함으로써 가능하다. 본 발명에서는 직선성분 추출을 위해 수평 런(run)을 이용한다.
도9는 본 발명이 일 실시예에 따라 정의되는 구간의 기울기를 나타낸 것이다. 도9를 참조하면, 이진 문자 영역을 구성하는 수평 런에 있어서, 런의 길이가 평균 런 길이보다 큰 경우 해당 런을 삭제한다(352). 그리고 남은 런들을 연결하여 하나의 구간(354)을 만든다. 런의 개수가 1인 구간, 즉, 싱글런(351)으로 이루어진 구간(354)은 특별한 정보가 없다고 판단하여 무시하고, 둘 이상의 런으로 구성되는 구간(354)에서의 기울기(353)를 측정하고 보정한다. 이때, 포함된 런의 개수가 많은 구간(354)은 보다 큰 정보를 가지고 있다고 판단하여 런의 수만큼 기울기에 가중치를 준다.
전체 런의 개수를 n, 전체 구간의 수를 m 이라 하고, 각 구간의 런의 개수를
Figure 112009056096009-pat00001
, 각 구간이 기울기를
Figure 112009056096009-pat00002
라 할 때, 직선성분의 평균 기울기
Figure 112009056096009-pat00003
는 수학식 1과 같다.
Figure 112009056096009-pat00004
문자 분할 모듈(22)은 수학식 1과 같이 산출된 평균 기울기를 이용해 그리고 이진 문자 영역을 보정한다. 평균 기울기만큼 보정한 일예를 도10a와 도10b에 나타내었다. 도10a는 원본 이진 문자 영역이고, 도10b는 기울기가 보정된 문자 영역을 나타낸 것이다.
기울기 보정이 완료되면 문자 분할 모듈(22)은 209단계에서 기본 문자 분할을 위해 음절 사이의 접촉점에서 발생하는 특징을 이용하여 분할 후보 점을 찾는다. 영문자의 경우 접촉 부분에서 계곡(valley)을 이루는 경우가 확률적으로 높게 나타난다. 이러한 특성을 이용하여 수평 런 구조에서 두 개 이상의 상위 런을 가진 경우 두 상위 런 사이의 중점을 분할점으로 설정한다.
이에 따라 도10b에서 도출된 문자 영역에서 존재하는 분할점들을 도11a에 나타내었다. 그런데 도11a를 참조하면 불필요한 분할점들이 찾아진 것을 확인할 수 있다. 불필요한 분할점들은 분할점을 기준으로 위 또는 아래 구간이 닫혀 있거나, 분할점을 기준으로 y축 방향으로 연결된 화소가 긴 경우이다. 따라서 문자 분할 모듈(22)은 이러한 분할점들을 제거하고 남은 분할점을 기준으로 문자 영역을 분할한다. 불필요한 분할점이 제거된 상태를 도11b에 도시하였다.
본 발명에서는 도출된 문자 영역에 포함된 문자열을 적정수준으로 초과 분할 한 후 필요에 따라 인식 과정에서 재조합 한다. 그런데 문자 영역이 너무 많은 영역으로 분할된다면 인식 과정에서 처리속도에 큰 부담이 발생하게 된다. 때문에 분할된 영역 중에서 하나의 문자를 구성하는 영역이 분할된 경우 분할된 영역을 재조합한다면 인식 과정에서 처리시간을 단축시킬 수 있다.
이에 따라 문자 분할 모듈(22)은 분할된 각 영역의 평균 화소수를 기준으로, 분할된 영역을 잡음 영역, 문자 조각 영역, 유효 문자 영역으로 구분한다. 유효 문자 영역은 임의의 문자를 구성하며, 문자 인식률을 높일 수 있는 영역이다. 잡음 영역은 문자를 구성하는 영역이 아니거나 영역의 크기가 기준치 보다 작은 영역으로, 문자 인식의 정확도를 높이지도 않으면서 인식 속도를 저하시킬 수 있기 때문에 제거된다. 문자 조각 영역은 임의의 문자를 구성하는 유효한 영역이지만 해당 문자에서 분리된 영역으로, 대부분 수직선상에 관련 문자의 나머지 영역이 존재한다. 따라서 분할된 각 영역의 연결 화소의 수가 임계 범위 이내이면 동일한 수직선상에 존재하는 다른 유효 문자 영역에 재조합된다. 만약, 동일 수직선상에 다른 유효 문자 영역이 존재하지 않는 경우 잡음 영역으로 판단되어 제거된다.
도4a 및 도4b에서 211단계 내지 221단계는 이러한 문자 재조합 과정을 나타낸 것이다. 도4a의 211단계에서 문자 분할 모듈(22)은 분할된 영역의 화소수가 최대 임계치 이상인지 확인한다. 상기 최대 임계치는 분할된 각 영역의 평균 화소수를 기준으로 정해진 것으로 예를 들어, 평균 화소수의 30%가 될 수 있다. 분할된 영역의 화소수가 최대 임계치 이상이면 문자 분할 모듈(22)은 213단계로 진행하여 해당 영역을 유효 문자 영역으로 판단하고 221단계로 진행한다.
만약, 분할된 영역의 화소수가 최대 임계치보다 작으면 문자 분할 모듈(22)은 215단계로 진행하여, 분할된 영역의 화소수가 최소 임계치보다 작은지 확인한다. 확인 결과 작으면, 문자 분할 모듈(22)은 219단계로 진행하여 해당 영역을 잡음 영역으로 판단하여 삭제하고 221단계로 진행한다. 이때, 최소 임계치는 평균 화소수의 10%가 될 수 있다. 분할된 영역의 화소수가 최소 임계치 이상이고 최대 임계치보다 작으면, 문자 분할 모듈(22)은 217단계로 진행하여 해당 영역을 문자 조각 영역으로 판단하고, 221단계로 진행한다. 221단계에서 문자 분할 모듈(22)은 문자 조각 영역 및 유효 문자 영역을 재조합하여 최종 문자 분할을 완료한다.
이후, 문자 인식부(20)의 문자 인식 모듈(23)은 223단계에서 최종적으로 분할된 문자 영역, 즉, 분할 문자 영역을 이용해 가능한 모든 조합의 문자, 즉, 입시 조합 문자를 생성한다.
본 발명에 따라 분할 문자 영역이 총 M개 일 때, M은 라벨에 포함된 문자열을 구성하는 문자의 개수 N보다 크다. 그리고 이하에서 M 개의 분할 문자 영역 각각은 Si로 표기하며, i는 0부터 M까지의 자연수이다.
본 발명에 따른 단어 인식 알고리즘은 이들 분할 문자 영역에 부과된 다음의 두 가지 가정에 기반을 두고 있다. 첫 번째는 Si 는 한 문자의 일부분 또는 전체를 나타낸다는 것이고, 두 번째는 하나의 문자는 최대 α 개의 이미지 조각으로 구성된다는 것이다. 첫 번째 가정은 Si가 두 개 이상의 문자들의 부분 이미지로 구성될 수 없음을 암시하고 있다. 이 가정은 라벨에 포함된 문자열을 구성하는 문자 영역을 여러 개의 조각으로 분리한 후, 문자열 내의 문자들과 대응되는 최적의 그룹들 로 구성된 조합을 찾는 단어 인식 알고리즘의 기반을 이루고 있다.
도12a 및 12b는 와인 라벨 영상에 포함된 문자열“Volnay”에 해당하는 문자 영역이 8개의 조각으로 과다 분할된 예를 보여주고 있다. 본 발명에 따른 단어 인식 알고리즘은 8개의 이미지 조각 중 처음 세 개의 이미지 조각들로 이루어진 "V"와 나머지 각각의 글자 "olnay" 구성된 최적의 조합을 찾는 것을 목표로 한다.
이에 따라 문자 인식 모듈(23)은 문자 분할 모듈(22)에서 분할 문자 영역들로부터 가능한 모든 조합을 찾는다. 과분할을 통한 인식 방법은 도13과 같이 분할된 순서대로 분할 문자 영역에 대한 조합을 수행하여 인식결과를 추출하게 된다. 이러한 인식결과를 인식 대상 문자와 비교하기 위해서는 조합이 가능한 문자집합을 선택하여 조합 문자를 생성하여야 한다.
여기서 조합이 가능한 문자집합이란 다음과 같다. 인식 결과를 R이라 하고 조합된 문자의 인식결과를 r(a,b)로 정의하였을 때(여기서 a는 조합이 시작되는 조각, b는 조합에 사용된 조각의 수) r(0,3)과 r(1,1)은 조합이 불가능하다. 그 이유는 r(0,3)에서 0,1,2번 조각을 이용하여 조합을 수행하였으므로 1번 조각을 사용하는 r(1,1)은 조합에 사용 될 수 없다. 이러한 조건을 만족하는 문자 조합을 생성하여 후처리 과정에서 사용하게 된다.
M개의 분할 문자 영역으로부터 조합을 생성하기 위해서는 우선 인식하고 하는 단어의 개수의 최소치와 최대치에 대한 정보가 주어져야 한다.
본 실시예에서는 와인 라벨명에 해당하는 단어들만을 인식 대상으로 제한하 였기 때문에 단어의 최소 개수는 1이고, 최대 개수는 3이 된다. 이러한 단어 개수 P에 대한 정보를 가지고 가능한 조합을 찾아 그에 대한 정보를 조합행렬 생성한다. 조합 행렬의 크기는 다음과 같이 귀납적 방법으로 계산할 수 있다.
마지막 조각 SM으로 가능한 조합의 수는 1이다. SM-1에서 가능한 조합은 {SM, SM-1}, {GM, M-1} 이므로 가능한 조합의 수는 2이다. 이때, GM과 M-1은 SM 및 SM-1이 조합된 글자이다. SM-2에서 가능한 조합은 {SM-2, SM, SM-1}, {SM-2, GM, M-1}, {GM-1, M-2, SM}, {GM, M-1, M-2} 이므로 가능한 조합의 수는 4이다. SM-3에서 가능한 조합은 {SM-3, SM-2, SM, SM-1}, {SM-3, SM-2, GM, M-1}, {SM-3, GM-1, M-2, SM}, {SM-3, GM, M-1, M-2}, {GM-2, M-3, SM, SM-1}, {GM-2, M-3, GM, M-1}, {GM-1, M-2, M-3, SM}이므로 가능한 조합의 수는 7이다. 여기서 SM-3에서 가능한 조합의 수는 SM-2에서 가능한 조합의 수와, SM-1에서 가능한 조합의 수와, SM에서 가능한 조합의 수의 합이다. 그러므로 S1에서 가능한 조합의 수는 S2에서 가능한 조합의 수와, S3에서 가능한 조합의 수와, S4에서 가능한 조합의 수를 모두 합한 값이 된다. 각 Si에 대응하는 조합의 수만큼 임시 조합 문자가 생성되는 것이다.
또한 조합 행렬은 조합의 수를 계산한 방법과 같이 동적 프로그래밍(Dynamic Programming)기법 으로 구할 수 있다. SM-3에서 조합 행렬은 SM-2, SM-1 , SM 조합 행렬의 앞에 각각 SM-3, GM-2, M-3, GM-1, M-2, M-3을 추가하면 되므로 추가적인 행렬 계산에 소요되는 시간을 최소화 할 수 있다. 또한 제안한 단어 인식 알고리즘은 동적 프로그래밍 기법에 의해 만들어진 각 조합들과 사전상의 각 단어들을 매칭하여 인식을 하기 때문에 이미지 조각의 수 이 주어졌을 때 생성되는 조합의 수는 제안된 방법의 단어 인식 속도와 매우 밀접한 관련이 있다.
문자 인식 모듈(23)은 상기와 같은 과정을 찾은 조합들 중 최적의 조합을 찾는다. 조합 행렬의 각 행은 크기 P인 단어와 정합 될 수 있는 조합을 나타내고 하나의 조합 Si 와 사전 Dn 상의 크기N인 단어와 정합하기에 앞서, 문자 인식 모듈(23)에서 그 조합의 각 원소 Gn, 즉, 생성된 조합 문자에 대한 문자 인식을 선행한다. 이때 그룹 Gn의 인식 대상을 사전 Dn을 구성하는 단어들의 n번째 위치에 존재하는 문자들로 이루어진 유니그램 dn(N) 상의 문자들로 제한한다.
분할 문자 영역의 수가 증가할수록 처리 시간이 기하급수적으로 증가하기 때문에, 분할 문자 영역의 수가 많은 것은 휴대 단말에서 와인 라벨에서 추출된 필기체 문자들의 인식을 어렵게 만드는 요인 중 하나이다. 이러한 문제를 해결하기 위하여 인식 결과에 따른 임시 조합 문자와 임시 조합 문자의 인식결과를 비교하여 문자 인식 모듈(23)은 225단계에서 최적의 조합 문자 후보군을 추출하게 된다.
다시 말해, 문자 인식 모듈(23)은 225단계에서 본 발명에 따라 생성된 각 임시 조합 문자에 대한 방향 성분 특징(directional segment feature)을 추출하고, 추출된 방향 성분 특징을 기반으로 MLP(Multi Layer Perceptron)을 선행하여 해당 임시 조합 문자를 특정 문자로 임시 인식하고, 상기 특정 문자에 대한 정확도를 SVD(Singular Value Decomposition)로 평가하여, 조합 문자 후보군을 구성한다. 이때, 상기 정확도는 조합 문자와 상기 특정 문자 간의 유사도가 높을수록 높으며, 조합 문자 후보군에 속하는 조합 문자는 일정 정도 이상의 정확도 순위를 가지는 조합 문자이다.
인식 과정에서 사용된 MLP는 인식결과만을 도출 할뿐 입력 영상, 즉, 조합 문자와 인식 결과간의 유사도를 계산하지 않는다. 그러나 인식과정이 매우 간단하여 처리시간을 최소화할 수 있는 장점이 있다. SVD는 인식 결과를 도출할 때 유사도를 추출할 수 있지만 많은 연산량을 필요로 한다. 본 발명에서는 이러한 문제를 해결하기 위하여 MLP와 SVD를 적절히 결합한다.
즉, MLP에 사용된 입력 영상의 특징을 F(I)라하고 인식 결과 C에 대응하여 데이터베이스에 저장된 특징을 F(C)라 할 때, 문자 인식 모듈(23)은 F(I)와 F(C)를 SVD로 평가하여 유사도를 측정하는 것이다. 그리고 조합에 사용된 문자들의 유사도를 평균하여 조합 문자의 유사도로 한다.
이때 주목할 점은 MLP와 SVD를 결합한 경우의 문자 인식에 소요되는 시간이 SVD만을 사용했을 경우의 소요되는 시간 보다 짧아 질 수 있다는 것이다.
영어 알파벳을 인식하고, MLP의 처리시간 시간을 T(M), SVD를 처리시간 시간을 T(S)라 할 때, 본 발명에 따라 MLP와 SVD를 결합하였을 경우, 문자 인식에 소요되는 시간 T는 수학식 2와 같다.
T = T(M)+(T(S)/26)
T가 수학식2와 같이 결정되는 것은, 임의의 조합 문자에 대해 MLP를 수행한 결과로 26개의 알파벳 중 해당 알파벳을 결정하고, 임의의 조합 문자와 결정된 알 파벳을 SVD로 평가하여 유사도를 계산하기 때문이다.
SVD만을 사용했을 경우에 처리 시간은 T(S)이기 때문에, T(M) < (T(S)/26)*25를 유지한다면 최종적인 문자 인식 소요 시간을 단축할 수 있다.
방향 성분 특징은 각 화소가 문자 영역에서 좌우 성분과 대각 성분을 고려하여 특징을 추출하므로 문자의 스큐(skew)에 강건한 특징을 추출할 수 있고 처리 과정이 간단하여 처리 시간을 최소화 할 수 있다. 그리고 방향성분 특징 추출과정에서 대각 성분을 측정하기 위하여 영상을 45도 회전하여 측정하게 되는데 영상 회전은 처리 시간 증가와 영상의 특성이 변할 수 있어 대각 성분의 값을 영상을 회전하지 않고 삼각 함수를 이용하여 근사하였다. 방향 성분 특징의 처리 단계는 다음과 같이 나눌 수 있다.
먼저, 각 화소(x,y)에 대하여 수평 방향 성분(Hxy)을 계산한다. 그리고 각 화소(x,y)에 대하여 수직 성분(Vxy)을 계산한다. 이후 수평 방향 성분(Hxy)과 수직 성분(Vxy)을 가지고 기여도 (Dxy)를 계산하다.
특징 추출 과정에서 문자 영역의 형태 및 크기 변화를 주지 않고 특징을 추출하기 위하여 문자 영역의 크기에 독립적인 성질을 가지는 비선형 분할을 수행하였다. 비선형 분할은 선형 분할에 비해 처리과정이 복잡하지만 문자 영역을 변환하는 과정을 생략할 수 있고 문자 영역의 크기에 변화에 따른 왜곡도 극복할 수 있다.
비선형 분할 과정은 다음과 같이 나눌 수 있다. 먼저, 문자 영역의 수평방향 히스토그램과 수직 방향 히스토그램을 계산한다. 그리고 각각의 히스토그램에 대하여 총 합을 구하고 나누고자 하는 메시(mesh)의 크기(N)로 나누어 각각의 임계값을 구한다. 이후 각각의 히스토그램에 대하여 임계값의 크기에 따라 분할하고, 수평 분할 값과 수직 분할 값으로 원영상을 분할한다.
비선형 분할 수행 시 분할 크기를 다양하게 추출하여 비교 분석하였고 가장 높은 성능은 보인 5x7의 메시를 사용하였고 특징 벡터 차원의 수는 5x7(35)개 이다.
그리고 상술한 바와 같이 조합 문자와 인식 결과의 정확도를 평가하기 위한 유사도 평가를 위해 특이값 분해(SVD: singular value decomposition)와 코사인 유사도(Cosine Similarity)를 이용한다. 선형대수학에서 특이값 분해는 직사각행렬을 분해하는 중요한 방법 중 하나로 신호처리와 통계학 분야에서 많이 쓰인다. 또한 특이값 분해는 행렬의 스펙트럼 이론을 임의의 직사각행렬에 대해 일반화한 것으로 볼 수 있다. 스펙트럼 이론을 이용하면 직교 정사각행렬을 고유값을 기저로 하여 대각행렬로 분해할 수 있다.
행렬 M을 실수 또는 복소수의 집합 K의 원소로 이루어진 m × n 행렬이라 가정하자. 이때, M은 다음 수학식 2와 같이 세 행렬의 곱으로 나타낼 수 있다.
여기서 U는 m × m 유니터리 행렬이고, m × n 행렬 Σ는 대각선에 음수가 아닌 수를 갖고 나머지는 모두 0인 행렬이며 V*은 V의 켤레행렬이라고도 하며, n × n 유니터리 행렬을 가리킨다. 이와 같은 세 행렬의 곱으로 나타내는 것을 M의 특이값 분해라고 한다. 일반적으로 Σi, i는 큰 값이 더 앞에 오도록 쓰며, 이렇게 쓸 경우 Σ는 M에 따라 유일하게 결정된다.
Figure 112009056096009-pat00005
사전에 있는 문자들에 대하여 SVD를 통해 획득된 특이값(singular value)과 입력되는 문자의 특징 벡터간의 코사인 유사도를 계산하게 되며 코사인 유사도가 작은 값을 가질수록 유사도가 높은 문자로 판단하게 된다. 코사인 유사도는 수학식 4와 같이 나타낼 수 있다.
Figure 112009056096009-pat00006
상기와 같은 과정으로 조합 문자 후보군의 추출이 완료되면, 문자 인식 모듈(23)은 227단계에서 조합 문자 후보군의 문자들을 조합하여 복수의 후보 문자열을 생성하고, 229단계로 진행한다. 이때, 조합 문자 후보군에는 복수의 조합 문자 중 유사도가 높은 순으로 미리 정해진 개수의 조합 문자가 포함되도록 구성할 수 있다. 229단계에서 문자 인식 모듈(23)은 후보 문자열들과 라벨 데이터베이스를 비교하여 유사도가 가장 높은 후보 문자열을 최종 인식 결과로 출력한다.
도14에 조합 문자 후보군(401)과, 조합 문자 후보군(401)의 조합 문자에 의해 생성된 후보 문자열(403)과, 후보 문자열(403)들과 라벨 데이터베이스(50)를 비교 과정을 나타낸 후처리 결과(405)와, 후처리 결과를 합산하여 높은 순위 순으로 결과를 나타낸 후처리 결과 합산 및 정렬 리스트(407)의 일예를 나타내었다.
상기한 도4a 및 도4b의 과정에 의해 문자 인식이 완료되면, 문자 인식부(20)는 그 결과를 검색부(10)로 전달한다. 도3으로 돌아가서, 검색부(10)는 문자 인식부(20)로부터 최종 인식 결과로 입력된 후보 문자열을 이용해 105단계에 라벨 데이터베이스를 검색하여, 107단계에서 후보 문자열을 포함한 와인 라벨들로 이루어진 예비 라벨 후보군을 구성한다. 이는 와인 라벨의 특성상 동일한 문자열을 포함하면서도 문자의 도안이 상이함에 따라 서로 다른 라벨로 구분될 수 있기 때문이다.
이후, 검색부(10)는 영상 비교부(30)를 제어하여, 109단계에서 라벨 영상에 대한 영상 특징이 파악한다. 그리고 검색부(10)는 영상 비교부(30)와 연동하여, 영상 비교부(30)에 의해 검출된 영상 특징을 이용해 111단계에서 예비 라벨 후보군에서 유사도가 높은 라벨을 검색하여 최종 라벨 후보군을 구성한다.
이에 따른 영상 비교부(30)의 동작 과정을 도5를 참조하여 설명한다. 도5에 도시된 바와 같이, 301단계에서 영상 비교부(30)는 라벨 영상에서 문자 영역의 크기를 검출한다. 와인 라벨에 있는 문자의 모양과 크기는 각양각색이다. 따라서 상기 문자 인식 과정에서 검출된 전체 문자 영역 자체가 이미지를 구분할 수 있는 특징이 될 수 있다. 라벨 영상의 크기는 촬영하는 거리에 따라 달라 질수 있기 때문에 문자 영역의 가로 길이, 세로 길이의 비율을 크기 특징으로 정의한다. 이때, 문자 영역의 가로 길이는 와인 라벨에 포함되는 문자열 전체의 가로 길이이며, 세로 길이 역시 문자열 전체의 세로 길이이다. 예를 들어, 도15에서 문자 영역(501)의 가로 세로 길이 비율이 크기 특징이 되는 것이다.
이후, 영상 비교부(30)는 303단계에서 라벨 영상의 색상 특징을 검출한다. 내용기반 영상 검색에서 가장 많이 사용되는 특징은 색상이다. RGB채널의 색상은 빛에 의한 값의 변화가 심하기 때문에 색상의 유사도가 낮게 계산되는 경우가 많다. 그래서 RGB채널보다 빛에 둔감한 HSV채널로 색상을 변경하는 것이 바람직하다. 수학식 5, 수학식 6, 수학식 7은 RGB를 HSV로 각각으로 변환할 때 사용된다.
Figure 112009056096009-pat00007
Figure 112009056096009-pat00008
Figure 112009056096009-pat00009
본 발명은 색상 특징 도출시 색상히스토그램을 사용한다. HSV 색상공간의 히스토그램에서 H성분 값은 18개의 구간으로 나누어지고, S성분은 3개의 구간으로 나누어지고, V성분은 8개의 구간으로 나누어짐에 따라 총 432차원의 색상 히스토그램이 정의된다.
영상 비교부(30)는 라벨 영상을 구성하는 픽셀 중 각각의 히스토그램에 해당 하는 픽셀의 개수를 세서 색상 특징을 추출한다.
이후, 영상 비교부(30)는 305단계에서 문자의 도안을 검출한다. 문자에 대한 모양 특징을 추출하기 위해서는 먼저 문자의 경계를 검출해야 한다. 문자의 크기는 다양하기 때문에 정규화를 위해 문자 영역의 크기를 도15와 같이 미리 정해진 크기, 예를 들어 256 × 256의 크기로 변환한 후 에지를 추출한다. 문자 도안의 특징을 추출하기 위해 에지 검출 이미지에서 수평 프로젝션 히스토그램을 사용하였다. 수평 성분을 사용하면 문자의 개수와 문자의 종류에 따라 히스토그램의 양이 변하기 때문에 유사도를 측정할 수 있다.
영상 비교부(30)는 상기와 같이 라벨 영상에서 영상 특징 추출이 완료되면, 307단계에서 추출된 영상 특징과, 예비 라벨 후보군에 포함된 각 표준 와인 라벨 영상의 영상 특징을 비교하고, 유사도가 높은 표준 라벨 영상을 검색하여 최종 라벨 후보군을 구성한다.
본 발명에서는 세 가지 특징의 유사도 합을 영상 특징 유사도로 사용한다. 첫 번째 특징인 문자 영역의 크기는 비율의 차를 유사도로 사용하였고, 두 번째와 세 번째 특징인 색상히스토그램과 에지히스토그램은 유클리디언 디스턴스를 유사도로 사용하였다.
영상 특징 유사도 계산 방법은 수학식 7 내지 수학식 10과 같다. 하기 수학식에서 Q는 라벨 영상에서 추출된 영상 특징이고, D는 라벨 데이터베이스에 포함된 표준 라벨 영상의 영상 특징값이다. r은 크기 특징을 의미하고, CH와 EH는 각각 색상히스토그램과 에지 히스토그램을 의미한다. 색상 특징과 도안 특징 각각의 유사 도 값의 정규화를 위해 색상 히스토그램은 이미지의 전체 픽셀수로 나눈 히스토그램 값을 계산하였고, 에지 히스토그램은 한 행의 열 개수인 256으로 나눈 히스토그램 값의 유클리디언 디스턴스를 계산 후 다시 행의 개수인 256으로 나누었다. w는 각 특징의 가중치이다. simr은 크기 특징에 대한 유사도이고, simc는 색상 특지에 대한 유사도이고, sime는 도안 특징에 대한 유사도 이며, sim은 최종적인 영상 특징 유사도를 의미한다. 수학식 8 내지 수학식 11에 의해 계산된 값이 작을수록 유사도는 높다.
simr=Qr-Dr
Figure 112009056096009-pat00010
Figure 112009056096009-pat00011
Figure 112009056096009-pat00012
도3으로 돌아와서, 영상 비교부(30)가 최종 라벨 후보군을 검색부(10)로 제공하면, 검색부(10)는 최종 라벨 후보군에 포함된 표준 와인 라벨 영상 및 와인 라벨에 대응하는 와인 정보를 표시부(70)를 통해 제공한다. 이에 대한 일 예를 도16에 도시하였다.
도16은 촬영된 라벨 영상(601)에 대한 와인 라벨 검색 결과(603)를 나타낸다. 도16에서는 와인 라벨 검색 결과(603)에 라벨 데이터베이스(50)에서 검출된 복수의 표준 와인 라벨 영상만이 포함되어 있으나 와인 라벨 영상을 선택하면 해당 와인 정보가 라벨 데이터베이스(50)에서 검출되어 디스플레이된다. 그리고 복수의 표준 와인 라벨 영상은 유사도가 높은 순으로 디스플레이될 것이다.
상술한 본 발명의 설명에서는 구체적인 실시예에 관해 설명하였으나, 여러 가지 변형이 본 발명의 범위에서 벗어나지 않고 실시할 수 있다. 예를 들어, 라벨 데이터베이스가 라벨 검색 장치에 포함되는 경우를 예로 들었으나, 상기 라벨 데이터베이스는 별도의 장치에 구비될 수도 있다. 이 경우, 라벨 검색 장치는 통신을 통해 라벨 데이터베이스에 접속하여 필요 정보를 획득한다. 따라서 본 발명의 범위는 설명된 실시예에 의하여 정할 것이 아니고 특허청구범위와 특허청구범위의 균등한 것에 의해 정해 져야 한다.
도1은 본 발명의 일 실시예에 따른 라벨 검색 장치의 구성을 나타낸 도면,
도2는 본 발명의 일 실시예에 따른 문자 인식부의 구성을 나타낸 도면,
도3은 본 발명의 일 실시예에 따른 라벨 검색 장치의 동작 과정을 나타낸 도면,
도4a 및 4b는 본 발명의 일 실시예에 따른 문자 인식부의 동작 과정을 나타낸 도면,
도5는 본 발명의 일 실시예에 따른 영상 비교부의 동작 과정을 나타낸 도면,
도6은 본 발명의 일 실시예에 따른 라벨 영상을 나타낸 도면,
도7a 내지 도7e는 본 발명의 일 실시예에 따른 문자 영역 검출 과정을 나타낸 도면,
도8은 본 발명의 일 실시예에 따른 이진화 결과를 나타낸 도면,
도9는 본 발명의 일 실시예에 따른 기울기를 나타낸 도면,
도10a 및 도10b는 본 발명의 일 실시예에 따른 기울기 보정예를 나타낸 도면,
도11a 및 도11b는 본 발명의 일 실시예에 따른 문자 영역 분할예를 나타낸 도면,
도12a 및 도12b는 본 발명의 일 실시예에 문자 영역 분할 결과를 나타낸 도면,
도13은 본 발명의 일 실시예에 따른 조합 문자 생성 과정을 나타낸 도면,
도14는 본 발명의 일 실시예에 따른 인식 결과를 나타낸 도면,
도15는 본 발명의 일 실시예에 따른 문자 도안 특징을 나타낸 도면,
도16은 본 발명의 일 실시예에 따른 라벨 검색 결과 화면을 나타낸 도면.

Claims (14)

  1. 라벨 검색 장치의 라벨 검색 방법에 있어서,
    카메라를 통해 촬영된 라벨 영상을 획득하는 과정과,
    상기 라벨 영상에 포함된 문자를 추출하고, 상기 추출된 문자를 인식하는 과정과,
    복수의 라벨 및 상기 복수의 라벨 정보를 포함하는 라벨 데이터베이스에서 상기 인식된 문자를 포함하는 하나 이상의 라벨을 검출하여, 상기 검출된 라벨을 포함하는 예비 라벨 후보군을 구성하는 과정과,
    상기 라벨 영상의 영상 특징을 검출하는 과정과,
    상기 검출된 영상 특징과 유사한 영상 특징을 가지는 하나 이상의 라벨을 상기 예비 라벨 후보군에서 검출하여 최종 라벨 후보군을 구성하는 과정과,
    상기 최종 라벨 후보군에 포함된 각 라벨 및 상기 각 라벨에 대응하는 상세 정보를 제공하는 과정을 포함함을 특징으로 하는 라벨 검색 방법.
  2. 제1항에 있어서, 상기 문자 인식 과정은
    상기 라벨 영상을 웨이블릿 변환한 후 수평 주파수 변환 성분, 수직 주파수 변환 성분, 대각선 주파수 변환 성분을 이용하여 문자 후보 영역을 추출하는 단계와,
    상기 문자 후보 영역을 이진화하여 실제 문자를 구성하는 문자 영역과 배경 영역으로 분리하여, 상기 문자 영역을 검출하는 단계와,
    상기 문자 영역의 기울기를 보정하는 단계와,
    상기 문자 영역을 복수의 분할 문자 영역으로 분할하는 단계와,
    상기 복수의 분할 문자 영역을 이용하여 복수의 조합 문자를 생성하는 단계와,
    상기 복수의 조합 문자를 이용하여 복수의 후보 문자열을 구성하는 단계와,
    상기 복수의 후보 문자열과 상기 라벨 데이터베이스에 포함된 라벨 문자열을 비교한 결과, 유사도가 가장 높은 후보 문자열을 최종 인식 결과로 출력하는 단계를 포함함을 특징으로 하는 라벨 검색 방법.
  3. 제2항에 있어서, 상기 문자 영역의 기울기를 보정하는 단계는 상기 문자 영역을 구성하는 복수의 수평 런(run)에 있어서, 임의의 런의 길이가 평균 런 길이보다 큰 경우 해당 런을 삭제하고, 남은 런들을 연결하여 하나의 구간을 생성하고, 런의 개수가 1인 구간은 특별한 정보가 없다고 판단하여 무시하고, 둘 이상의 런으로 구성되는 구간에서의 기울기를 측정하고 보정하는 단계임을 특징으로 하는 라벨 검색 방법.
  4. 제3항에 있어서, 상기 문자 영역을 복수의 분할 문자 영역으로 분할하는 단계는,
    상기 문자 영역을 상기 수평 런의 특징을 이용해 복수개의 영역으로 분할하 는 단계와,
    상기 분할된 영역의 화소수가 최대 임계치 이상이면 유효 문자 영역으로 판단하고, 상기 화소수가 최대 임계치보다 작고 최소 임계치 이상이면 문자 조각 영역으로 판단하고, 상기 화소수가 최소 임계치보다 작으면 잡음 영역으로 판단하는 단계와,
    상기 잡음 영역은 삭제하고, 상기 문자 조각 영역을 동일한 수직선상에 존재하는 유효 문자 영역에 결합시킴으로써, 상기 문자 영역을 상기 복수의 분할 문자 영역으로 분할하는 단계를 포함함을 특징으로 하는 라벨 검색 방법.
  5. 제4항에 있어서, 상기 복수의 조합 문자를 생성하는 단계는
    상기 분할 문자를 조합하여 복수의 임시 조합 문자를 생성하는 단계와,
    상기 복수의 임시 조합 문자 각각에 대하여 MLP(Multi Layer Perceptron)을 선행하여 상기 임시 조합 문자를 특정 문자로 임시 인식하고, 상기 특정 문자에 대한 정확도를 SVD(singular value decomposition)로 평가하여, 유사도가 순위가 일정 순위 이상인 조합 문자들을 포함하는 상기 복수의 조합 문자를 생성하는 단계를 포함함을 특징으로 하는 라벨 검색 방법.
  6. 제5항에 있어서, 상기 라벨 영상의 영상 특징을 검출하는 과정은
    상기 라벨 영상에서 상기 문자 영역의 가로 길이와 상기 문자 영역의 세로 길이의 비를 크기 특징으로 검출하는 단계와,
    상기 라벨 영상의 색상 특징을 검출하는 단계와,
    상기 라벨 영상에 포함된 문자의 경계를 검출하여 도안 특징을 검출하는 단계를 포함함을 특징으로 하는 라벨 검색 방법.
  7. 제6항에 있어서, 상기 라벨은 와인 라벨임을 특징으로 하는 라벨 검색 방법.
  8. 라벨 검색 장치에 있어서,
    카메라와,
    복수의 라벨 및 상기 복수의 라벨에 대한 정보를 포함하는 라벨 데이터베이스와,
    상기 카메라를 통해 획득된 라벨 영상에 포함된 문자를 추출하고, 상기 추출된 문자를 인식하여 인식 결과를 출력하는 문자 인식부와,
    상기 문자 인식부에서 입력되는 상기 인식 결과를 이용해 상기 라벨 데이터베이스에서 상기 인식된 문자를 포함하는 하나 이상의 라벨을 검출하고, 상기 검출된 라벨을 포함하는 예비 라벨 후보군을 구성하는 검색부와,
    상기 라벨 영상의 영상 특징을 검출하고, 상기 검출된 영상 특징과 유사한 영상 특징을 가지는 하나 이상의 라벨을 상기 예비 라벨 후보군에서 검출하여 최종 라벨 후보군을 구성하는 영상 비교부를 포함하며,
    상기 검색부가 상기 최종 라벨 후보군에 포함된 각 라벨 및 상기 각 라벨에 대응하는 상세 정보를 제공함을 특징으로 하는 라벨 검색 장치.
  9. 제8항에 있어서, 상기 문자 인식부는
    상기 라벨 영상을 웨이블릿 변환한 후 수평 주파수 변환 성분, 수직 주파수 변환 성분, 대각선 주파수 변환 성분을 이용하여 문자 후보 영역을 추출하고, 상기 문자 후보 영역을 이진화하여 실제 문자를 구성하는 문자 영역과 배경 영역으로 분리하여, 상기 문자 영역을 검출하는 문자 영역 검출 모듈과,
    상기 문자 영역의 기울기를 보정하고, 상기 문자 영역을 복수의 분할 문자 영역으로 분할하는 문자 분할 모듈과,
    상기 복수의 분할 문자 영역을 이용하여 복수의 조합 문자를 생성하고, 상기 복수의 조합 문자를 이용하여 복수의 후보 문자열을 구성하고, 상기 복수의 후보 문자열과 상기 라벨 데이터베이스에 포함된 라벨 문자열을 비교한 결과, 유사도가 가장 높은 후보 문자열을 최종 인식 결과로 출력하는 문자 인식 모듈을 포함함을 특징으로 하는 라벨 검색 장치.
  10. 제9항에 있어서, 상기 문자 분할 모듈은 상기 문자 영역을 구성하는 복수의 수평 런(run)에 있어서, 임의의 런의 길이가 평균 런 길이보다 큰 경우 해당 런을 삭제하고, 남은 런들을 연결하여 하나의 구간을 생성하고, 런의 개수가 1인 구간은 특별한 정보가 없다고 판단하여 무시하고, 둘 이상의 런으로 구성되는 구간에서의 기울기를 측정하고 보정함을 특징으로 하는 라벨 검색 장치.
  11. 제10항에 있어서, 상기 문자 분할 모듈은 상기 문자 영역을 상기 수평 런의 특징을 이용해 복수개의 영역으로 분할하고, 상기 분할된 영역의 화소수가 최대 임계치 이상이면 유효 문자 영역으로 판단하고, 상기 화소수가 최대 임계치보다 작고 최소 임계치 이상이면 문자 조각 영역으로 판단하고, 상기 화소수가 최소 임계치보다 작으면 잡음 영역으로 판단하고, 상기 잡음 영역은 삭제하고, 상기 문자 조각 영역을 동일한 수직선상에 존재하는 상기 유효 문자 영역에 결합시킴으로써, 상기 문자 영역을 상기 복수의 분할 문자 영역으로 분할함을 특징으로 하는 라벨 검색 장치.
  12. 제11항에 있어서, 상기 문자 인식 모듈은 상기 분할 문자를 조합하여 복수의 임시 조합 문자를 생성하고, 상기 복수의 임시 조합 문자 각각에 대하여 MLP(Multi Layer Perceptron)을 선행하여 상기 임시 조합 문자를 특정 문자로 임시 인식하고, 상기 특정 문자에 대한 정확도를 SVD(singular value decomposition)로 평가하여, 유사도가 순위가 일정 순위 이상인 조합 문자들을 포함하는 상기 복수의 조합 문자를 생성함을 특징으로 하는 라벨 검색 장치.
  13. 제12항에 있어서, 상기 영상 비교부는 상기 라벨 영상에서 상기 문자 영역의 가로 길이와 상기 문자 영역의 세로 길이의 비를 크기 특징으로 검출하고, 상기 라벨 영상의 색상 특징을 검출하고, 상기 라벨 영상에 포함된 문자의 경계를 검출하여 도안 특징을 검출함으로써, 상기 영상 특징을 검출함을 특징으로 하는 라벨 검 색 장치.
  14. 제13항에 있어서, 상기 라벨은 와인 라벨임을 특징으로 하는 라벨 검색 장치.
KR1020090085937A 2009-09-11 2009-09-11 라벨 검색 방법 및 장치 KR101468231B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020090085937A KR101468231B1 (ko) 2009-09-11 2009-09-11 라벨 검색 방법 및 장치
US12/879,624 US8587685B2 (en) 2009-09-11 2010-09-10 Method and apparatus for retrieving label

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090085937A KR101468231B1 (ko) 2009-09-11 2009-09-11 라벨 검색 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20110028034A KR20110028034A (ko) 2011-03-17
KR101468231B1 true KR101468231B1 (ko) 2014-12-04

Family

ID=43730170

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090085937A KR101468231B1 (ko) 2009-09-11 2009-09-11 라벨 검색 방법 및 장치

Country Status (2)

Country Link
US (1) US8587685B2 (ko)
KR (1) KR101468231B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220159154A (ko) * 2021-05-25 2022-12-02 한국전력공사 설비제원 인식 장치 및 방법

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120281919A1 (en) * 2011-05-06 2012-11-08 King Abdul Aziz City For Science And Technology Method and system for text segmentation
JP5887715B2 (ja) * 2011-05-23 2016-03-16 セイコーエプソン株式会社 画像処理装置および画像処理方法
US9494566B2 (en) * 2011-09-27 2016-11-15 VineSleuth, Inc. Systems and methods for evaluation of wine characteristics
GB2508013B (en) * 2012-11-19 2020-12-16 Cyberliver Ltd Alcohol management system
CN104766057B (zh) * 2015-03-31 2018-02-02 安徽创世科技股份有限公司 一种字符识别方法
US10339410B1 (en) * 2016-01-13 2019-07-02 Snap Inc. Color extraction of a video stream
JP6401806B2 (ja) * 2017-02-14 2018-10-10 株式会社Pfu 日付識別装置、日付識別方法及び日付識別プログラム
JPWO2019159518A1 (ja) * 2018-02-15 2021-01-28 パナソニックIpマネジメント株式会社 加熱調理器および加熱調理システム
CN109002824B (zh) * 2018-06-27 2021-11-12 淮阴工学院 一种基于OpenCV的建筑图纸标签信息检测方法
KR102544781B1 (ko) * 2018-08-08 2023-06-19 삼성전자주식회사 우선 순위에 기반하여 상품과 관련된 정보를 제공하는 방법 및 그 전자 장치
US10970578B2 (en) * 2019-02-07 2021-04-06 Johnson Controls Fire Protection LP System and method for extracting information from a non-planar surface
US11227176B2 (en) * 2019-05-16 2022-01-18 Bank Of Montreal Deep-learning-based system and process for image recognition
CN110929720B (zh) * 2019-10-28 2022-11-04 杭州电子科技大学 一种基于logo匹配和ocr的元器件检测方法
US11620839B2 (en) * 2019-11-14 2023-04-04 Walmart Apollo, Llc Systems and methods for detecting text in images
KR102382962B1 (ko) * 2019-12-09 2022-04-06 재단법인대구경북과학기술원 영상의 세그먼트 처리 방법 및 세그먼트 처리 방법을 수행하는 장치
US11861922B2 (en) * 2020-04-17 2024-01-02 Zebra Technologies Corporation System and method for extracting target data from labels
TWI769809B (zh) * 2021-05-06 2022-07-01 廣達電腦股份有限公司 內容擷取系統及內容擷取方法
CN113297977B (zh) * 2021-05-26 2023-12-22 奥比中光科技集团股份有限公司 活体检测方法、装置及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090093573A (ko) * 2008-02-29 2009-09-02 한국과학기술원 영상으로부터 얻은 정보를 이용하여 인터넷을 검색하는장치 및 그 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4413633B2 (ja) * 2004-01-29 2010-02-10 株式会社ゼータ・ブリッジ 情報検索システム、情報検索方法、情報検索装置、情報検索プログラム、画像認識装置、画像認識方法および画像認識プログラム、ならびに、販売システム
US7831141B2 (en) * 2007-03-29 2010-11-09 Sony Ericsson Mobile Communications Ab Mobile device with integrated photograph management system
US8943420B2 (en) * 2009-06-18 2015-01-27 Microsoft Corporation Augmenting a field of view

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090093573A (ko) * 2008-02-29 2009-09-02 한국과학기술원 영상으로부터 얻은 정보를 이용하여 인터넷을 검색하는장치 및 그 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220159154A (ko) * 2021-05-25 2022-12-02 한국전력공사 설비제원 인식 장치 및 방법
KR102628553B1 (ko) * 2021-05-25 2024-01-25 한국전력공사 설비제원 인식 장치 및 방법

Also Published As

Publication number Publication date
US20110063468A1 (en) 2011-03-17
KR20110028034A (ko) 2011-03-17
US8587685B2 (en) 2013-11-19

Similar Documents

Publication Publication Date Title
KR101468231B1 (ko) 라벨 검색 방법 및 장치
CN111325203B (zh) 一种基于图像校正的美式车牌识别方法及系统
US8750616B2 (en) Character image extracting apparatus and character image extracting method
US8744196B2 (en) Automatic recognition of images
Bensefia et al. Writer identification by writer's invariants
US8295600B2 (en) Image document processing device, image document processing method, program, and storage medium
US8208765B2 (en) Search and retrieval of documents indexed by optical character recognition
JP5202148B2 (ja) 画像処理装置、画像処理方法、及びコンピュータプログラム
CN101520783B (zh) 基于图像内容的关键词搜索方法和装置
Khan et al. Handwritten bangla digit recognition using sparse representation classifier
US6763137B1 (en) Recognition and clustering of connected components in bi-level images
US6917708B2 (en) Handwriting recognition by word separation into silhouette bar codes and other feature extraction
CN106372624B (zh) 人脸识别方法及系统
Clausner et al. Icfhr 2018 competition on recognition of historical arabic scientific manuscripts–rasm2018
CN113254654A (zh) 模型训练、文本识别方法、装置、设备和介质
Rosyda et al. A review of various handwriting recognition methods
US10217020B1 (en) Method and system for identifying multiple strings in an image based upon positions of model strings relative to one another
CN113947773A (zh) 文字识别模型的训练方法及装置
Zhang et al. OCR with the Deep CNN Model for Ligature Script‐Based Languages like Manchu
Vaidya et al. Marathi numeral recognition using statistical distribution features
KR101176963B1 (ko) 간판 영상 문자 인식 및 후처리 시스템
Madhavaraj et al. Improved recognition of aged Kannada documents by effective segmentation of merged characters
Mahastama et al. Optical character recognition for printed javanese script using projection profile segmentation and nearest centroid classifier
KR101800975B1 (ko) 필기체가 인식되어 생성된 전자문서의 공유 방법 및 그 장치
Kataria et al. CNN-bidirectional LSTM based optical character recognition of Sanskrit manuscripts: A comprehensive systematic literature review

Legal Events

Date Code Title Description
N231 Notification of change of applicant
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20171030

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20181030

Year of fee payment: 5