KR101849933B1 - 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치 - Google Patents

공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치 Download PDF

Info

Publication number
KR101849933B1
KR101849933B1 KR1020160180190A KR20160180190A KR101849933B1 KR 101849933 B1 KR101849933 B1 KR 101849933B1 KR 1020160180190 A KR1020160180190 A KR 1020160180190A KR 20160180190 A KR20160180190 A KR 20160180190A KR 101849933 B1 KR101849933 B1 KR 101849933B1
Authority
KR
South Korea
Prior art keywords
symbol
covariance
module
image
descriptor
Prior art date
Application number
KR1020160180190A
Other languages
English (en)
Inventor
양형정
도루녹
이귀상
김수형
Original Assignee
전남대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전남대학교산학협력단 filed Critical 전남대학교산학협력단
Priority to KR1020160180190A priority Critical patent/KR101849933B1/ko
Application granted granted Critical
Publication of KR101849933B1 publication Critical patent/KR101849933B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/273Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion removing elements interfering with the pattern to be recognised
    • G06K9/346
    • G06K9/46
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06K2209/01
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

본 발명은 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치에 관한 것으로, 음악을 재생하기 위해 음악 시트를 기계가 이해할 수 있는 형식으로 자동변환, 재구성 및 인식하기 위해 음악 기호에 대한 인식모델을 제시하여 악보를 인식하는 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치에 관한 것이다.
상술한 바에 의하면, 악보의 음악기호와 템플릿 간의 유사성 계산하여 음악 기호에 대한 인식모델을 제시하여 가장 좋은 후보를 선택할 수 있는 효과가 있다.

Description

공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치{Apparatus of Covariance-matching-based Model for musical-symbol recognition}
본 발명은 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치에 관한 것으로, 더욱 상세하게는 음악을 재생하기 위해 음악 시트를 기계가 이해할 수 있는 형식으로 자동변환, 재구성 및 인식하기 위해 음악 기호에 대한 인식모델을 제시하여 악보를 인식하는 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치에 관한 것이다.
종래, 국내공개특허 제10-2014-0144876호에 의하면, 필기 인식을 이용한 악보 그리기 방법에 있어서, 광학식문자판독(OCR; Optical Character Recognition)을 이용하여 악보 영상을 디지털 형식의 악보로 변환하는 과정과, 필기 입력에 따라 디지털 형식의 악보를 편집하는 과정을 포함함을 특징으로 한다.
최근들어 기술의 발전에 따라 신속하고 정확한 정보를 위해 많은 부분에서 디지털화가 요구되고 있고, 음악에서도 예외는 아니다. 광학악보인식은 인쇄된 악보의 디지털화를 통해 음악의 연주, 분석, 비교, 편곡, 작곡에 이르기까지 다양한 분야에서 컴퓨터를 이용할 수 있게 한다. 하지만 다수의 광학악보인식 애플리케이션에서 악보인식의 정확률에 영향을 미치는 가사 영역의 추출이나 인식을 고려하지 않았고, 광학 악보 인식시 가사가 음악 기호와 접촉되거나 겹칠 경우 악보의 인식률이 떨어지며, 연산과정이 복잡한 문제가 있었다.
광학음악인식(Optical Music Recognition;OMR)시스템은 자동으로 데이터를 XML같은 기계-판독 포맷으로 변경하였으나, 이러한 처리는 음악 스타일, 기호 표기 및 다른 왜곡의 많은 변화로 인해 인식의 어려운 문제점이 있다.
또한 악보수가 연속적으로 증가하기 때문에, 악보를 저장하고 보존하기는 어려운 문제가 있다. 디지털화된 해결책의 일이지만 클래식 곡 대중화 작업에 많은 시간이 걸리고 가격이 비싸다. 악보를 이해할 수 있는 스마트폰, 로봇 등의 컴퓨터나 다른 인공기계를 만들기가 최소의 비용으로 최고의 솔루션이 될 수 있다.
따라서, 음악을 재생하기 위해 음악 기호에 대한 인식모델을 제시할 필요가 있다.
본 발명의 목적은 전술한 점들을 감안하여 안출된 것으로, 악보의 음악기호와 템플릿 간의 유사성을 계산하여 음악을 재생하기 위해 음악 기호에 대한 인식모델을 제시하기 위한 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치를 제공함에 있다.
또한 기호의 특성을 설명한 자신의 공분산 기술자를 보유하여 음악기호를 인식하는 공분산 기술자 퍼지 모델을 사용하여 인식의 결과로 음악시트를 자동으로 변환, 재구성하는 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치를 제공함에 있다.
이러한 기술적 과제를 달성하기 위한 본 발명은 악보 영상을 이진화하여 오선을 추출하는 전처리부; 상기 이진화 이미지에서 검정 픽셀과 임의 대상물의 경계 픽셀까지의 거리를 계산하여 기호의 두께정보를 제공하는 공분산 기술자 추출부; 및 추출된 공분산 기술자를 이용하여 사전 정의된 템플릿에서 매칭되는 기호 사이의 유사성을 식별하도록 하는 공분산 매칭부;를 포함할 수 있다.
바람직하게 공분산 매칭부의 매칭결과를 상기 템플릿과 대상 기호 사이의 유사성의 정도를 나타내는 가능성 정도를 후보로 생성하여 검증하도록 하는 적합성 판단부;를 더 포함할 수 있다.
또한 바람직하게 전처리부는 입력되는 악보영상을 이진화 처리하는 이진화 모듈; 상기 이진화 처리결과, 오선과 마디선 정보를 이용하여 악보영상의 왜곡을 보정하도록 하는 왜곡 보정모듈;을 포함하며, 오선을 감지하는 오선감지모듈; 상기 오선의 공간과 높이정보를 평가하여 오선을 제거하는 오선정보 추출모듈; 및 상기 오선이 제거된 이미지에서 기호의 인접한 섹션을 고유 섹션으로 그룹화하는 기호 분할모듈; 을 포함할 수 있다.
공분산 기술자 추출부는 이진화 이미지에서 검정 픽셀로부터 수평 및 수직 방향에 따른 임의의 다른 대상물의 경계 픽셀까지의 최소거리를 나타내는 거리 맵을 계산하여 기호 모양의 두께 정보를 제공할 수 있고, 컬러, 이미지 경사도 및 에지 방향의 영역 R로부터의 맵핑인 특징벡터의 요소를 검정 픽셀의 좌표(x,y)로 선택하도록 하는 좌표선택모듈; 상기 x 좌표에 기호영역의 폭(w)을 적용하고, 상기 y 좌표에 공분산 매트릭스의 대각선에 배율인수를 제거하는 높이(h)를 적용하도록 하는 분수적용모듈; 이진화 이미지에서 검정 픽셀로부터 수평 및 수직방향에 따른 대상물의 경계 픽셀까지의 최소거리인 거리 맵을 생성하는 거리 맵 생성모듈; 상기 검정 픽셀과 대상물의 경계 사이의 거리를 나타내는 기호 모양의 두께정보를 제공하는 기호두께 정보제공모듈;을 포함할 수 있다.
또한 바람직하게 공분산 매칭부는 추출된 공분산 기술자를 이용하여 기호가 매칭되어 사전 정의된 템플릿의 기호를 찾도록 하는 기호 매칭모듈; 대상 기호의 공분산 매트릭스와 템플릿 기호의 공분산 매트릭스의 거리를 계산하는 산출모듈; 및 기호가 클래스 분류에 속할 가능성을 나타내는 가능성 등급으로 유사성을 변환하도록 하는 가능성 변환모듈;을 포함할 수 있다.
또한 바람직하게 적합성 판단부는 공분산 기술자와 각 기호의 이미지에서 검은색 픽셀의 분포의 구역화 기능으로 인식 성능을 비교하여 거리 맵의 거리가 가장 작은 클래스를 인식결과로 선택할 수 있고, 악보의 마디 수를 세고, 마디 안의 박자 수를 계산하여 최종 인식결과로 선택하도록 할 수 있다.
상술한 바에 의하면, 악보의 음악기호와 템플릿 간의 유사성 계산하여 음악 기호에 대한 인식모델을 제시하여 가장 좋은 후보를 선택할 수 있는 효과가 있다.
도 1은 본 발명의 일실시예에 따른 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치의 구조를 나타낸 예시도이고,
도 2는 본 발명의 일실시예에 따른 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치의 기호 인식 모델을 나타낸 예시도이다.
도 3은 본 발명의 일실시예에 따른 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치의 구성도이다.
도 4는 본 발명의 일실시예에 따른 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치의 오선 제거를 나타낸 예시도이다.
도 5는 본 발명의 일실시예에 따른 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치의 세분화 결과를 나타낸 예시도이다.
도 6은 본 발명의 일실시예에 따른 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치의 R영역 공분산 매트릭스를 나타낸 예시도이다.
도 7은 본 발명의 일실시예에 따른 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치의 거리 맵을 나타낸 예시도이다.
도 8은 본 발명의 일실시예에 따른 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치의 음악 기호를 나타낸 예시도이다.
도 9는 본 발명의 일실시예에 따른 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치에서 거리가 ln2/p보다 작은 영역을 나타낸 예시도이다.
도 10은 본 발명의 일실시예에 따른 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치의 시간 측정정보를 나타낸 예시도이다.
도 11은 인쇄된 스캔 이미지와 고밀도 기호가 인쇄된 이미지의 예시도이다.
도 12는 동일한 데이터에서 두 개의 캡처된 이미지를 나타낸 예시도이다.
도 13은 본 발명의 일실시예에 따른 화이트 노트의 1/8 쉼표와 1/16 쉼표 이진화 결과를 나타낸 예시도이다.
도 14는 잘못된 세분화 경우를 나타낸 예시도이다.
본 발명의 구체적 특징 및 이점들은 첨부도면에 의거한 다음의 상세한 설명으로 더욱 명백해질 것이다. 이에 앞서 본 발명에 관련된 공지 기능 및 그 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는, 그 구체적인 설명을 생략하였음에 유의해야 할 것이다.
본 발명의 일실시예에 따르면, 오선 검출, 제거, 기호 분할, 기호 분류 및 사후 처리로 구성될 수 있다.
본 발명에서는 국부 임계값 이진화 방법으로 이진화된 악보 이미지가 오선 위치의 검출에 사용된다. 오선 제거 및 프리미티브 검출이 적절하게 수행될 수 있도록 변형된 LAG(Line Adjacency Graph)가 생성되어 수직 런-길이를 섹션으로 그룹화한다. 이때 프리미티브는 음표머리(note heads), 마디 선(Bar lines), 줄기(stems), 점(dot)이고, 이러한 프리미티브는 악보 기호를 미리 정의된 개체로 분할하는데 사용될 수 있다.
공분산-매칭 프로세스는 각 객체에 대한 공분산 기술자를 추출한다. 두 개의 공분산 매트릭스 사이의 거리가 계산되어 이들 객체와 템플릿 사이의 유사성을 식별한다. 또한 퍼지 모델(fuzzy model)을 적용하여 유사도를 가능한 정도로 변환하고 3개의 가설을 선택한다. 마지막으로 글로벌 정보로부터 구문 규칙이 생성되어 결정을 내릴 수 있도록 각 가설을 검증한다. 본 실시예에서 제안된 구조는 도 1에 도시된 바와 같고, 기호 인식 모델은 도 2에 도시된 바와 같다. 본 발명에서는 도 2와 같은 기호 인식 단계에 초점을 맞춘다.
이하, 첨부 도면을 참조하여 설명하면 다음과 같다.
도 3은 본 발명의 일실시예에 따른 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치의 구성도이다.
도 3에 도시된 바와 같이, 본 발명의 일실시예에 따른 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치는 전처리부(100), 공분산 기술자 추출부(200), 공분산 매칭부(300), 적합성 판단부(400)를 포함할 수 있다.
-전처리부(100)-
전처리부(100)는 악보 영상을 이진화하여 오선을 감지, 추출, 왜곡보정 및 기호 분할을 하는 구성이다. 기호 분할시에는 오선 제거 및 프리미티브 검출이 수행될 수 있도록 인접한 섹션을 고유 섹션으로 연결하여 그룹화된 LAG정보를 생성하도록 한다. 이러한 기호 세분화는 연결되어 그룹화된 LAG 정보에서 기본요소를 검색하여 음표와 연결된 빔과 점으로 세분화할 수 있다.
본 실시예에 따른 전처리부(100)는 악보 영상을 전처리하는 구성으로, 입력되는 악보영상을 이진화처리하는 이진화 모듈(110), 오선을 감지하는 오선감지모듈(120), 오선의 공간과 높이정보를 평가하여 오선을 제거하는 오선 추출모듈(130), 이진화 처리결과, 오선과 마디선 정보를 이용하여 악보영상의 왜곡을 보정하도록 하는 왜곡 보정모듈(140), 오선 제거 및 프리미티브 검출이 수행될 수 있도록 인접한 섹션을 고유 섹션으로 연결하여 그룹화된 LAG정보를 생성하여 기호를 분할하도록 하는 기호 분할모듈(150)을 포함할 수 있다.
오선정보 추출모듈은 이진화된 악보 영상에서 오선 정보를 추출하는 구성이다. 이러한 오선정보 추출모듈은 오선을 감지하고, 오선의 공간과 높이정보를 평가하여 오선정보를 추출하도록 하는 기능을 수행할 수 있다.
전처리부(100)는 공분산 기술자(covariance descriptor)의 추출전 전처리 단계에 있어서, 먼저 오선 탐지 및 제거와 기호 분할을 수행할 수 있다.
전처리부의 기호 분할모듈에서는 오선 제거 및 프리미티브 검출이 적절하게 수행 될 수 있도록 변형된 LAG가 생성되어 수직 런 길이를 섹션으로 그룹화할 수 있다.
여기서, 음표 머리(note heads), 마디 선(bar lines), 줄기(sterms), 점(dots)을 프리미티브라 할 수 있다. 이러한 프리미티브는 음악 기호를 미리 정의된 개체로 분할하는데 사용할 수 있다.
또한, 이진화 처리된 악보영상이 오선과 마디선 위치의 검출에 사용된다. 이러한 오선과 마디선 정보를 이용하여 악보영상의 왜곡을 보정하도록 한다.
악보영상의 왜곡을 보정하기 위하여, 우선 오선을 검출한 후, 악보 마디가 오선 중 첫 번재 선과 다섯 번째 선에 이어져 있다는 특성을 이용하여 마디를 검출한다. 다음으로 오선영역을 마디선 정보를 이용하여 마디와 마디 사이의 각 지역영역으로 나눈 후 영역단위로 수평이 되도록 영역을 재배치하여 왜곡을 보정한다.
악보를 촬영한 이미지를 그래프로 사용하고 오선은 악보의 왼쪽 여백에서 오른쪽 여백까지 연결된 경로로 간주된다. 이러한 오선은 본질적으로 악보의 유일한 검은 색 객체이기 때문에 식별된 경로는 픽셀을 통과하는 전체 경로가 선호되는 경우 두 여백 사이의 최단 경로이다.
본 실시예에 따른 기호 분할모듈은 LAG를 생성하여 오선이 제거된 이미지에서 객체를 분할한다. 이때 LAG 모델은 검정색 런 길이 인코딩(RLE)을 사용하여 구성 요소 라벨링을 연결하는 것이다. 즉, 유사한 크기의 인접한 섹션을 고유한 섹션으로 그룹화하도록 한다.
이미지의 그래프 모델에서 하나의 픽셀을 노드로 사용하는 대신 RLE로 생성된 검정색 세그먼트를 사용하여 LAG모델에 노드를 만들 수 있다. 오선 위치정보는 오선 감지중에 얻을 수 있다. 오선에 속하는 모든 픽셀은 음악 기호 내부에 있는 필라멘트에도 속하기 때문에 제거할 수 없다. 즉, 이러한 모든 픽셀을 제거하면 음악 기호의 파손으로 인해 객체 세분화에 치명적인 결과가 발생한다. 따라서, 이 단계에서 LAG의 기능은 유사한 크기의 인접한 섹션을 고유한 섹션으로 그룹화한다.
도 4는 본 발명의 일실시예에 따른 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치의 오선 제거를 나타낸 예시도이다.
음악 기호 내부에 위치한 섹션과 구분되는 한 섹션으로 전달되는 오선에 연결된 모든 픽셀, 따라서, 도 4에 보여지는 것처럼 음악기호를 깨지 않고 오선을 쉽게 제거할 수 있게 된다.
도 5는 본 발명의 일실시예에 따른 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치의 세분화 결과를 나타낸 예시도이다.
기호 세분화는 연결된 구성요소를 기반으로 한다. 세분화 결과는 모든 기호가 서로 분리되어야 하며 하나 이상의 줄기(stem)가 포함되어야 한다. LAG 정보에서 음표 머리, 마디 선, 줄기 및 점과 같은 기본 요소(프리미티브, 이하 기본 요소라 함)의 후보를 검색하려고 시도할 수 있다. 이 기본 요소는 빔 노트(빔으로 연결된 두 개의 음표) 또는 음표 머리와 접촉되는 점과 같은 특별한 경우를 처리하는데 사용된다. 도 5는 세분화 결과의 몇 가지 예를 보여준다.
-공분산 기술자 추출부(200)-
공분산 기술자 추출부(200)는 전처리부(100)의 기호 분할 과정에서 각 객체에 대한 영역을 얻은 후에 공분산 기술자를 추출하도록 하는 구성으로서, 이진화 이미지에서 검정 픽셀과 임의 대상물의 경계 픽셀까지의 거리를 계산하여 기호의 두께정보를 제공할 수 있다.
즉, 이진화 이미지에서 검정 픽셀로부터 수평 및 수직 방향에 따른 임의의 다른 대상물의 경계 픽셀까지의 최소거리를 나타내는 거리 맵을 계산하여 기호 모양의 두께 정보를 제공할 수 있다.
이러한 공분산 기술자 추출부(200)는 좌표선택모듈(210), 분수적용모듈(220), 거리 맵 생성모듈(230), 기호두께 정보제공모듈(240)을 포함할 수 있다.
좌표선택모듈(210)은 컬러, 이미지 경사도 및 에지 방향의 영역 R로부터의 맵핑인 특징벡터의 요소를 검정 픽셀의 좌표(x,y)로 선택하도록 하는 구성이고, 분수적용모듈(220)은 x 좌표에 기호영역의 폭(w)을 적용하고, y 좌표에 공분산 매트릭스의 대각선에 배율인수를 제거하는 높이(h)를 적용하도록 하는 구성이며, 거리 맵 생성모듈(230)은 이진화 이미지에서 검정 픽셀로부터 수평 및 수직방향에 따른 대상물의 경계 픽셀까지의 최소거리인 거리 맵을 생성하는 구성이고, 기호두께 정보제공모듈(240)은 검정 픽셀과 대상물의 경계 사이의 거리를 나타내는 기호 모양의 두께정보를 제공하는 구성이다.
공분산 기술자 추출부(200)는 분할 과정에서 각 객체에 대한 영역을 얻은 후에 공분산 기술자를 추출하도록 한다. 공분산 기술자(covariance descriptor)는 회색 이미지에서 한 객체에 대해 영역 R이 있다고 가정하면, 이 객체 구조의 공분산 매트릭스 CR은 다음과 같이 계산될 수 있다.
Figure 112016128080842-pat00001
여기서, S는 R영역에서 픽셀 수이고,
Figure 112016128080842-pat00002
은 영역 R의 모든 점으로부터 계산된 해당 영역의 평균이다. 공분산 CR은 대칭 매트릭스이며 대각선 요소는 각 특징의 분산을 나타내고 다른 요소는 각각의 상관관계를 나타낸다.
도 6은 본 발명의 일실시예에 따른 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치의 R영역 공분산 매트릭스를 나타낸 예시도이다.
특징 벡터
Figure 112016128080842-pat00003
는 컬러, 이미지 경사도(image gradient) 및 에지 방향과 같은 영역 R로부터 임의의 종류의 맵핑일 수 있고, 공분산 매트릭스 CR은 도 6에 도시된 바와 같이, 직사각형 영역뿐만 아니라 임의의 종류의 영역으로부터 계산될 수 있다.
임의의 영역의 공분산 매트릭스는 동일한 크기 d x d를 가지며, 여기서 d는 특징 벡터
Figure 112016128080842-pat00004
의 크기이다. 따라서, 공분산 매트릭스는 그 크기 또는 정규화 특성값을 고려할 필요가 없는 임의의 영역 특성을 나타낼 수 있다. 공분산 매트릭스는 강도 값의 동일한 시프트로 변화하는 조명 조건에서 불변하다. 이러한 특성은 각각의 카메라 캡쳐에 대한 조도의 변화가 적은 2진 화상의 경우에도 유지될 수 있다.
음악 기호의 모양은 일반적으로 회색 이미지보다 이진 이미지에서 더 선명하게 표시된다. 이진화 이미지에서 검정(또는 흰색) 필셀만으로 공분산 매트릭스를 계산하면 처리 비용도 절약된다. 그러므로, 이진화된 이미지에서 어떤 음악기호의 특성을 나타내기 위해 공분산 기술자를 적용할 수 있다. 이진화 이미지에서 공분산 매트릭스의 추출은 컬러 또는 그레이 스케일 이미지의 추출과 약간 다르다.
다음과 같이 검은 픽셀만 고려한다.
Figure 112016128080842-pat00005
S는 R 영역의 검정 픽셀 수이고, 검정 픽셀의 위치에 의해 이진 영상에서의 물체 형태가 결정되므로, 흰색 픽셀을 무시하더라도 정보의 손실이 발생하지 않는다. 그러므로, 검정 픽셀들의 위치 또는 공간 정보는 이 프로세스를 위해 더욱 중요하다. 특징 벡터
Figure 112016128080842-pat00006
의 처음 두 요소를 검정 픽셀의 좌표 x와 y로 선택한다.
공분산 매트릭스 요소들의 값이 평균화되더라도, 곱셈 연산자는 영역 R의 크기가 커질 때 공분산 매트릭스 요소들의 값을 증가시킨다.
좌표 x와 y를 사용하는 대신에 분수 x/w와 y/h를 사용한다. 여기서 w는 기호영역의 폭이고, h는 공분산 매트릭스의 대각선에 배율 인수를 제거하는 높이이다. 그러나 좌표 정보만으로는 기호 모양을 특성화하기에 충분하지 않다. 이에 기호의 두께를 보여주기 때문에, 거리-맵 값을 검정 픽셀의 한 특징으로 사용하였다.
R.Kimmel, N. Kiryati, and A.M.Bruckstein, "Distance maps and weighted distance transform" Journal of Mathematical Imaging and Vision, Special Issue on Topology and Geometry in Computer Vision, 6:223-233,1996.에 의한 거리 변환을 이용하여 이진 영상의 거리 맵을 계산할 수 있다.
거리 맵의 값은 현재의 검정 픽셀로부터 수평 및 수직 방향을 따르는 임의의 다른 흰색 픽셀까지의 최소거리를 나타낸다.
도 7은 본 발명의 일실시예에 따른 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치의 거리 맵을 나타낸 예시도이다.
도 7에 의하면, 객체 경계에 속하는 픽셀은 하나로 변환되는 반면, 적색 셀의 픽셀은 2로 변환된다. 거리 맵의 값은 검정 픽셀이 검정색 영역의 중심으로 떨어지는 깊이 또는 검정색 픽셀과 대상물의 경계 사이의 거리를 나타내므로 기호 모양의 두께 정보를 제공한다. 예를 들어, 검정색 음표와 흰색 음표는 모양이 비슷하지만 검정색 영역의 깊이가 다르다. 많은 음악 기호는 검정색 음표, 전체 및 절반 기호와 같은 두꺼운 모양을 가졌지만 흰색이 아닌 전체 음표 및 평면과 같은 다른 모양은 가늘다. 그러므로 기호 모양의 두께에 관한 정보는 음악기호를 구별하는데 매우 유용하다.
검정 픽셀과 원점을 연결하는 벡터의 차수에 대한 공간적 정보는 네 번째 특징으로 고려된다. 이러한 특징 벡터는 다음과 같다.
Figure 112016128080842-pat00007
여기서, dst(x,y)는 (x,y)에서 거리 맵의 값이다. 따라서, 공분산 매트릭스 CRB는 4 x 4 대칭 매트릭스이다.
-공분산 매칭부(300)-
공분산 매칭부(300)는 추출된 공분산 기술자를 이용하여 기호가 매칭되어 사전 정의된 템플릿을 찾는데 사용될 수 있도록 한다. 즉, 추출된 공분산 기술자를 이용하여 사전 정의된 템플릿에서 매칭되는 기호 사이의 유사성을 식별하도록 하는 구성이다.
이러한 공분산 매칭부(300)는 기호 매칭모듈(310), 산출모듈(320), 가능성 변환모듈(330)을 포함할 수 있다. 기호 매칭모듈(310)은 추출된 공분산 기술자를 이용하여 기호가 매칭되어 사전 정의된 템플릿의 기호를 찾도록 하는 구성이다. 산출모듈(320)은 대상 기호의 공분산 매트릭스와 템플릿 기호의 공분산 매트릭스의 거리를 계산하는 구성이다. 가능성 변환모듈(330)은 기호가 클래스 분류에 속할 가능성을 나타내는 가능성 등급으로 유사성을 변환하도록 하는 구성이다.
첫째, 대상 기호의 공분산 매트릭스와 템플릿 기호의 공분산 매트릭스 사이의 거리(distance)를 계산하고, 이로써 그들 사이의 비유사성은 이 거리에 의해 식별된다.
다음으로 거리 값은 템플릿과 대상 기호 사이의 유사성의 정도를 나타내는 가능성 정도를 생성하는데 사용된다.
세가지 가설 가능성 템플릿이 세가지 가설로 선택되고 마지막으로 가장 높은 점수를 가진 구문 규칙을 만족하는 가설이 최상의 결과로 선택된다.
공분산 매칭부(300)의 거리 산출모듈(310)은 두 공분산 매트릭스 간의 거리를 산출한다.
템플릿과 테스트 대상 기호의 공분산 매트릭스를 구한 후, 클래스 간의 거리 또는 비 유사성을 계산하여 분류에 가장 잘 맞는 것을 찾는다. 다음의 수학식4를 사용하여 두 공분산 매트릭스 사이의 거리를 계산할 수 있다.
Figure 112016128080842-pat00008
여기서,
Figure 112016128080842-pat00009
는 다음의 공식에 의해 정의되는 두 개의 공분산 매트릭스 Ci와 Cj의 일반화된 고유치로 다음의 식과 같다.
Figure 112016128080842-pat00010
여기서, xk는 일반화된 고유벡터를 나타낸다. 일반화된 고유값
Figure 112016128080842-pat00011
는 다음 방정식의 해이다.
Figure 112016128080842-pat00012
다음의 수식은 거리 행렬(distance metric)을 만족시킨다.
Figure 112016128080842-pat00013
공분산 매칭부(300)의 가능성 변환모듈(320)은 기호가 클래스 분류에 속할 가능성을 나타내는 가능성 등급으로 유사성을 변환하도록 하는 구성이다.
도 8은 본 발명의 일실시예에 따른 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치의 음악 기호를 나타낸 예시도이다.
가능 정도(Possibility degree)로서, 가장 작은 거리를 가진 템플릿을 선택하면, 가장 좋은 일치를 찾는 것이 쉽다. 그러나 2개 이상의 템플릿은 노이즈로 인해 유사한 거리를 가질 수 있지만, 모든 유형의 음악 기호는 도 8에 나타낸 바와 같이, 스타일 및 형상의 변형을 갖는다. 그러므로, 큰 거리를 갖는 2개의 기호가 다르다는 것을 나타내지 않는다는 것을 인식하는 것이 중요하다.
거리 하나 만으로는 기호 s가 클래스 Sk의 멤버로 분류될 수 있는지 여부를 결정하기에는 불충분하다. 그러므로 모델을 사용하여 기호 s가 클래스 Sk에 속할 가능성을 나타내는 가능성 등급 Pk(S)으로 유사성을 변환해야한다.
더 높은 가능성 등급 Pk(S)은 기호 s가 클래스 Sk에 속할 가능성이 높음을 나타낸다. 가능성 등급 Pk(S)은 각 클래스의 트레이닝 데이터 세트로부터 얻어진 가능성 분포로부터 계산될 수 있다. 트레이닝 데이터는 각 클래스에서 다양한 종류의 모양을 가진 음악 기호의 이미지를 포함한다. 이때 음악 기호의 이미지는 http://gamera.informatik.hsnr.de/addons/musicstaves.index.html에서의 Gamera Project의 데이터에서 수동으로 선택되는 700개 이상의 음악 기호 이미지를 포함할 수 있다.
본 실시예에 따른 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치는 가능성 분포 pdk는 다음의 지수 분포에 따라 기술된다.
Figure 112016128080842-pat00014
여기서, x는 거리이고, 매개 변수 p는 각 클래스 Sk의 변형 크기를 나타내며 다음과 같이 계산된다.
Figure 112016128080842-pat00015
이때, max(dk)는 클래스 Sk에 속하는 유효성 확인 데이터 세트의 기호 최대 거리이다.
도 9는 본 발명의 일실시예에 따른 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치에서 거리(distance)가 ln2/p보다 작은 영역을 나타낸 예시도이다.
도 9에 의하면, 거리가 ln2/p보다 작은 영역은 분포의 50%를 차지한다.
이 영역을 검증 데이터에서 클래스 Sk의 모든 기호와 대응하도록 다음과 같이 매개변수 p를 얻기 위해 할당한다.
Figure 112016128080842-pat00016
모든 클래스 Sk의 p값은 음악 스타일 및 형태에 대한 상이한 변형에 기인하여 다르다. 예를 들어, 이러한 기호들은 많이 변하지 않기 때문에 p는 검정색이 아닌 클래스 기호에 대해 클 것이지만, 도 8에 표시된 바와 같이 4분의 1 쉼표 기호의 경우 작을 것이다. 따라서, 검정 음표 클래스보다 1/4 쉼표 클래스를 할당하는 것이 "더 쉽다".
예를 들어, 현재 테스트 기호가 1/4 쉼표기호인 경우, 1/4 쉼표 및 검정 음표 클래스와 동일한 거리가 있는 경우 다음이 적용된다.
x=1이고, 4분의 1 쉼표 클래스에 대해 pqr=1.2로 가정하고, 검정 음표 클래스에 대해 pbn=1.5로 가정하고, 수학식 (6)을 이용하면, pdqr=0.36 및 pdbn=0.33이 된다. 따라서 현재 기호가 검정 음표 기호가 아닌 1/4 쉼표 기호로 할당될 확률이 높아진다.
-적합성 판단부(400)-
적합성 판단부(400)는 공분산 매칭부의 매칭결과를 상기 템플릿과 대상 기호 사이의 유사성의 정도를 나타내는 가능성 정도를 후보로 생성하여 검증하도록 하는 구성이다. 이러한 적합성 판단부(400)는 공분산 기술자와 각 기호의 이미지에서 검은색 픽셀의 분포의 구역화 기능으로 인식 성능을 비교하여 거리 맵의 거리가 가장 작은 클래스를 인식결과로 선택하도록 할 수 있다. 악보의 마디 수를 세고, 마디 안의 박자 수를 계산하여 최종 인식결과로 선택하도록 할 수 있다.
또한, 공분산 기술자와 구역화 기능(각 기호의 이미지에서 검은색 픽셀의 분포)을 사용하여 인식 성능을 비교한 것으로 가장 작은 거리의 첫 번째 가설을 사용하여 거리가 가장 작은 클래스를 인식결과로 선택하여 공분산 기술자의 성능을 조사할 수 있다.
또한 동일한 수의 박자로 악보의 마디수를 세어 사전 가능성을 계산하여 가능성 정도와 사전 가능성의 합에 관한 최대값을 갖는 후보가 최종 인식결과로 선택하는데, 마디 안의 박자 수를 계산하여 최종 인식결과로 선택할 수 있다.
또한 인식결과 중, 가장 높은 점수를 가지는 구문 규칙을 만족하는 후보가 최상의 결과로 선택되도록 할 수 있다.
음악 악보에 있어 시간 규칙과 같은 요소는 마디(bar) 당 허용되는 박자(beat) 수를 나타내는 구성요소이다. 동일한 피치(pitch)의 다른 기호는 다른 멜로디를 만들어내는 다른 박자를 가질 수 있다. 예를 들어, 하나의 검은 색 음표에는 1 박자, 한 개의 흰색 음표에는 2 박자, 단일 플래그 음에는 0.5 박자가 있다.
도 10은 본 발명의 일실시예에 따른 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치의 시간 규칙정보를 나타낸 예시도이다.
그러므로 최종 단계에서 결정을 내릴 수 있도록 시간 규칙(time measure)을 찾는 것이 중요하다. 도 10에서 흰색 음표와 검은 색 음표를 혼동하기 쉽지만 시간 규칙값은 이 모음에서 4 박자가 발생해야한다는 것을 나타내므로 검은 색 가설은 제외된다.
본 실시예에 따르면 공분산-매칭 과정으로 시간 규칙을 위한 3가지 가설을 생성한다. 각각의 가설에 대해 동일한 수의 박자로 악보의 마디(bar) 수를 세어 사전 가능성을 계산한다. 가능성 정도와 사전 가능성의 합에 관한 최대값을 갖는 가설은 시간 규칙면에서 최종등급으로 결정될 것이다.
의사결정 단계에서는 기호에 적합한 클래스에 해당하는 가설을 검증하는데 사용되는 음악 구문 규칙을 설명하면, 다음과 같다.
마디 당 박자 수가 시간 규칙값과 일치해야한다. 그 마디 안의 모든 기호에 대한 모든 가설 조합을 가진 모든 마디에 대해 이 규칙을 검사한다.
목적 함수는 다음과 같다.
Figure 112016128080842-pat00017
N은 마디 안의 기호 수로 나타낸다.
Figure 112016128080842-pat00018
의 최대값을 생성하는 조합이 마디 안 기호의 최종 클래스로 선택된다.
실험결과, 제안된 시스템을 평가하기 위해 스마트폰의 카메라로 찍은 50장의 인쇄된 스캔 이미지와 30장의 중학교 음악 텍스트 북을 포함하는 데이터베이스가 사용되었다. 이 이미지는 멀티 노트, 멀티 빔, 멀티 플래그를 포함하지 않는 모도 포닉 악보이다.
도 11은 인쇄된 스캔 이미지와 고밀도 기호가 인쇄된 캡쳐 이미지의 예시도이다.
도 11의 이미지에는 21개 클래스에 속하는 4000개 이상의 기호가 포함되어 있다. 캡쳐 이미지의 해상도가 2448*3264이고, 스캔 이미지의 해상도는 1328*1898이다. 악보 기호에 대한 템플릿 이미지는 다음의 데이터에서 수집되었다.
http://gamera.informatik.hsnr.de/addons/musicstaves.index.html에서의 Gamera Project의 데이터에서 수동으로 선택되는 700개 이상의 음악 기호 이미지를 포함할 수 있다.
본 실시예에 따른 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치의 성능을 상용 프로그램인 Smart Score, 변형가능한 LAG(DLAG) 및 SVM과 비교함으로써 성능을 시험하였다.
Smart Score는 http://www.musitek.com/smartscore-piano.html이고, 변형 가능한 LAG는 H.N.Bui, "Camera-based Printed Music Score Recognition Using Deformable Line Adjacency Graph", M.D thesis, Chonnam National University, Gwangju, South Korea.이며, SVM은 A.Rebelo, G. Capela, and J.S.Cardoso, "Optical recognition of music symbols:Acomparative study", Int.J.Doc. Anal.Recognit., vol.13, no.1, p.19-31, Mar.2010이다. 여기서, SVM은 제안된 모델과 동일한 교육 데이터를 사용하고 MATLAB의 SVM 도구상자가 구현에 사용되었다.
표 1은 제안된 방법에 대한 인쇄된 스캔 이미지 및 캡처된 스캔 이미지의 평균 정확도를 나타낸다.
인쇄된 스캔 이미지 캡처된 스캔 이미지
Smart Score 96% 65.84%
DLAG 94.3% 82.61%
SVM 96.48% 86.73%
제안 발명 97.44% 96.22%
제안된 방법의 정확도는 두 데이터 세트 모두에서 가장 높은 것으로 나타났다. 캡처된 스캔 이미지의 정확도는 인쇄된 스캔 이미지의 정확도보다 1%정도 낮지만, DLAG, SVM 및 Smart Score의 정확도는 각각 12%, 10% 및 31% 감소하는 것으로 나타났다.
4가지 방법 모두가 인쇄된 스캔 이미지와 유사한 성능을 나타내지만 제안된 방법은 다른 세가지 방법과 비교하여 캡처된 스캔 이미지의 성능이 우수한 것으로 나타났다.
도 12는 데이터에서 두 개의 캡처된 이미지를 나타낸 예시도이다. 이들은 서로 다른 조명 조건과 카메라의 시야로 캡쳐하였으나 동일한 인식 결과를 갖는다. 이러한 예는 본 발명에 따른 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치에서 조도와 기호 크기의 작은 변화에 있어서도 안정적임을 보여준다.
21개의 기호 클래스에 대해 제안된 방법으로 스캔된 이미지와 캡쳐된 이미지의 최종 인식 오류율은 표 2에 나타낸 바와 같다.
Figure 112016128080842-pat00019
스캔된 이미지와 캡쳐된 이미지 모두에 대해 제안된 발명의 오류율은 싱글 검정 노트(shingle black note), 싱글 화이트 노트(single white note), 싱글 플래그 노트(single flag note) 및 싱글 빔 노트(single beam note)와 같은 중요한 기호의 경우 5% 미만이다. 또한, 다른 기호의 에로율도 15%보다 작다.
일반적으로 스캔한 이미지와 캡쳐한 이미지의 오류율은 매우 유사하다. 그러나 시간 측정(22번) 인식이 아직 완벽하지는 않다(오류율의 10% 이상). 올바르지 않은 시간 측정 인식은 마디(bar)당 잘못된 박자(beat) 수를 생성하여 의사결정 단계에서 부정확한 목적 함수를 유도한다. 안타깝게도, 스캔된 이미지가 아닌 싱글 플래그(5와 6)는 부정확한 시간 측정의 경우에 가장 자주 나타나는 기호이며, 캡쳐된 이미지의 싱글 플래그 노트와 비교하여 더 높은 오류율을 발생시킨다. 의사결정단계는 잘못된 이진화 또는 잘못된 세분화의 경우 시스템의 성능을 향상시키는데 매우 유용하다.
도 13은 본 발명의 일실시예에 따른 화이트 노트의 1/8 쉼표와 1/16 쉼표 이진화 결과를 나타낸 예시도이다. 도 13에 도시된 바와 같이, 화이트 노트(3번 및 4번)는 이진화 후에 검은 색 음으로 볼 수 있기 때문에, 흰색 노트와 검은 색 노트를 구별하기가 혼란스럽다. 다행히도 이 두 기호는 박자 수는 다르기 때문에 의사 결정 단계에서 기호를 수정하는 데 이 기호를 사용할 수 있다. 1/8 쉼표 기호(17번)와 1/16 쉼표 기호(18번)의 경우에도 같은 상황이 발생한다.
도 14는 잘못된 세분화 경우를 나타낸 예시도이다. 도 14에 도시된 바와 같이, 잘못된 세분화로 인해 기호가 흰색 노트처럼 템플릿과 다르게 표시될 수도 있다. 이 경우, 흰색 노트는 연결선으로 하나의 기호로 합쳐진다. 공분산 매칭과정은 여전히 세가지 가설 중에서 화이트 노트 클래스를 제한한다. 그 후, 이 마디 안의 박자 수를 계산함으로써, 의사결정 단계는 화이트 노트 가설을 최종 인식결과로 선택한다.
표 3은 공분산 기술자와 구역화(zoning) 기능을 사용하여 인식 성능을 비교한 것으로 가장 작은 거리의 첫 번째 가설을 사용한다.
구역화 기능(zoning feature)은 각 기호의 이미지에서 검은 픽셀의 분포로 설명된다. 본 실험에서는 거리가 가장 작은 클래스를 인식 결과로 선택하여 공분산 기술자의 성능을 조사하였다.
Figure 112016128080842-pat00020
대부분의 경우, 공분산 기술자의 정확도는 구역화 기능(zoning feature)의 정확도보다 높다. 4분면 정지 기호(19번)의 경우, 구역화 기능의 정확도는 공분산 설명자의 정확도보다 3% 높은 것으로 나타났다. 이 기호는 "고정된" 모양이 없는 유일한 기호이다. 즉, 데이터 세트의 기호 사이에 모양이 많이 변형되어 있음을 의미한다.
표 4는 제안 모델의 처리 시간을 보여준다.
Figure 112016128080842-pat00021
공분산 일치를 기반으로 하는 인식 단계는 1328 x 1898 크기의 이미지의 경우 1.5초만 필요로 한다. 전처리 단계(오선 감지, 수정, 제거, 가사 제거 등)을 포함한 전체 시스템은 약 3초 가량 소요되며, 이 성능은 모바일 응용프로그램에서 허용된다.
본 발명의 일실시예에 따르면 LAG와 공분산 매칭 방법을 기반으로 한 새로운 OMP시스템을 제안한다. 이러한 시스템은 단음 악보(monophonic music score)의 캡쳐된 이미지를 인식하도록 설계되었다. 이진화 및 분류 단계의 부정확성 및 불확실성은 구조 정보를 공분산 매칭 프로세스와 통합하여 해결할 수 있다. 이러한 제안발명은 오류를 수정할 수 있으며, 최종 성능이 향상될 수 있다.
또한, 이미지를 캡처할 때, 공분산 매칭은 음악 기호의 모양과 작은 조명 변화의 변화에 안정적이다. 제안된 모델은 또한 완전 자동이며, 매개 변수 종속성은 제한적이다. 현재 시스템의 유망한 결과는 허용 가능한 처리 시간을 가진 모바일 애플리케이션에 사용될 수 있다.
그러나 이 시스템은 완벽하게 추출할 수 없는 글로벌 정보(global information)에 좌우된다. 또한 사선 기호의 변형을 가질 수 있고, 변형된 기호는 "고정된" 모양의 기호보다 할당하기가 쉽다.
이상으로 본 발명의 기술적 사상을 예시하기 위한 바람직한 실시예와 관련하여 설명하고 도시하였지만, 본 발명은 이와 같이 도시되고 설명된 그대로의 구성 및 작용에만 국한되는 것이 아니며, 기술적 사상의 범주를 일탈함이 없이 본 발명에 대해 다수의 변경 및 수정이 가능함을 당업자들은 잘 이해할 수 있을 것이다. 따라서, 그러한 모든 적절한 변경 및 수정과 균등물들도 본 발명의 범위에 속하는 것으로 간주되어야 할 것이다.
100 : 전처리부 110 : 이진화 모듈
120 : 오선감지모듈 130 : 오선 추출모듈
140 : 왜곡보정모듈 150 : 기호 분할모듈
200 : 공분산 기술자 추출부 210 : 좌표 선택모듈
220 : 분수적용모듈 230 : 거리 맵 생성모듈
240 : 기호 두께정보 제공모듈 300 : 공분산 매칭부
310 : 기호 매칭모듈 320 : 거리 산출모듈
330 : 가능성 변환모듈 400 : 적합성 판단부

Claims (9)

  1. 악보 영상을 이진화하여 오선을 추출하는 전처리부;
    상기 악보 영상을 이진화한 이미지에서 검정 픽셀과 임의 대상물의 경계 픽셀까지의 거리를 계산하여 기호의 두께정보를 제공하는 공분산 기술자 추출부; 및
    추출된 공분산 기술자를 이용하여 사전 정의된 템플릿에서 매칭되는 기호 사이의 유사성을 식별하도록 하는 공분산 매칭부;를 포함하며,
    상기 공분산 기술자 추출부는 컬러, 이미지 경사도 및 에지 방향의 영역 R로부터의 맵핑인 특징벡터의 요소를 검정 픽셀의 좌표(x,y)로 선택하도록 하는 좌표선택모듈;
    상기 x 좌표에 기호영역의 폭(w)을 적용하고, 상기 y 좌표에 공분산 매트릭스의 대각선에 배율인수를 제거하는 높이(h)를 적용하도록 하는 분수적용모듈;
    이진화 이미지에서 검정 픽셀로부터 수평 및 수직방향에 따른 대상물의 경계픽셀까지의 최소거리인 거리 맵을 생성하는 거리 맵 생성모듈;
    상기 검정 픽셀과 대상물의 경계 사이의 거리를 나타내는 기호 모양의 두께정보를 제공하는 기호두께 정보제공모듈;을 포함하는 것을 특징으로 하는 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치.
  2. 제 1 항에 있어서,
    상기 공분산 매칭부의 매칭결과를 상기 템플릿과 대상 기호 사이의 유사성의 정도를 나타내는 가능성 정도를 후보로 생성하여 검증하도록 하는 적합성 판단부;를 더 포함하는 것을 특징으로 하는 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치.
  3. 제 1 항에 있어서,
    상기 전처리부는,
    입력되는 악보영상을 이진화 처리하는 이진화 모듈; 및
    상기 이진화 처리결과, 오선과 마디선 정보를 이용하여 악보영상의 왜곡을 보정하도록 하는 왜곡 보정모듈;을 포함하는 것을 특징으로 하는 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치.
  4. 제 1 항에 있어서,
    상기 전처리부는,
    오선을 감지하는 오선감지모듈;
    상기 오선의 공간과 높이정보를 평가하여 오선을 제거하는 오선정보 추출모듈; 및
    상기 오선이 제거된 이미지에서 기호의 인접한 섹션을 고유 섹션으로 그룹화하는 기호 분할모듈; 을 포함하는 것을 특징으로 하는 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치.
  5. 제 1 항에 있어서,
    상기 공분산 기술자 추출부는,
    이진화 이미지에서 검정 픽셀로부터 수평 및 수직 방향에 따른 임의의 다른 대상물의 경계 픽셀까지의 최소거리를 나타내는 거리 맵을 계산하여 기호 모양의 두께 정보를 제공하는 것을 특징으로 하는 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치.
  6. 삭제
  7. 제 1 항에 있어서,
    상기 공분산 매칭부는,
    추출된 공분산 기술자를 이용하여 기호가 매칭되어 사전 정의된 템플릿의 기호를 찾도록 하는 기호 매칭모듈;
    대상 기호의 공분산 매트릭스와 템플릿 기호의 공분산 매트릭스의 거리를 계산하는 산출모듈; 및
    기호가 클래스 분류에 속할 가능성을 나타내는 가능성 등급으로 유사성을 변환하도록 하는 가능성 변환모듈;을 포함하는 것을 특징으로 하는 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치.
  8. 제 2 항에 있어서,
    상기 적합성 판단부는,
    상기 공분산 기술자와 각 기호의 이미지에서 검은색 픽셀의 분포의 구역화 기능으로 인식 성능을 비교하여 거리 맵의 거리가 가장 작은 클래스를 인식결과로 선택하도록 하는 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치.
  9. 제 2 항에 있어서,
    상기 적합성 판단부는,
    악보의 마디 수를 세고, 마디 안의 박자 수를 계산하여 최종 인식결과로 선택하도록 하는 것을 특징으로 하는 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치.
KR1020160180190A 2016-12-27 2016-12-27 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치 KR101849933B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160180190A KR101849933B1 (ko) 2016-12-27 2016-12-27 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160180190A KR101849933B1 (ko) 2016-12-27 2016-12-27 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치

Publications (1)

Publication Number Publication Date
KR101849933B1 true KR101849933B1 (ko) 2018-04-19

Family

ID=62087665

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160180190A KR101849933B1 (ko) 2016-12-27 2016-12-27 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치

Country Status (1)

Country Link
KR (1) KR101849933B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102197215B1 (ko) 2019-10-10 2020-12-31 주식회사 삼천리기계 절삭공구 체결용 홀더
CN112926603A (zh) * 2021-03-26 2021-06-08 平安科技(深圳)有限公司 乐谱识别方法、装置、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009086928A (ja) * 2007-09-28 2009-04-23 Toshiba Information Systems (Japan) Corp データ処理装置及びデータ処理方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009086928A (ja) * 2007-09-28 2009-04-23 Toshiba Information Systems (Japan) Corp データ処理装置及びデータ処理方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102197215B1 (ko) 2019-10-10 2020-12-31 주식회사 삼천리기계 절삭공구 체결용 홀더
CN112926603A (zh) * 2021-03-26 2021-06-08 平安科技(深圳)有限公司 乐谱识别方法、装置、设备及存储介质
CN112926603B (zh) * 2021-03-26 2024-01-23 平安科技(深圳)有限公司 乐谱识别方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN104751187B (zh) 抄表图像自动识别方法
US9665768B2 (en) Process of handwriting recognition and related apparatus
JP4323328B2 (ja) 取り込み画像データから文字列を識別して抜出するシステムおよび方法
WO2017031716A1 (zh) 自然场景图像中手写体数学公式结构分析与识别方法
Su et al. An effective staff detection and removal technique for musical documents
CN109740606B (zh) 一种图像识别方法及装置
CN110503054B (zh) 文本图像的处理方法及装置
CN107622271B (zh) 手写文本行提取方法及系统
Zahour et al. Text line segmentation of historical arabic documents
CN111539330B (zh) 一种基于双svm多分类器的变电站数显仪表识别方法
Garz et al. A binarization-free clustering approach to segment curved text lines in historical manuscripts
CN109190625A (zh) 一种大角度透视变形的集装箱箱号识别方法
CN111242899A (zh) 基于图像的瑕疵检测方法及计算机可读存储介质
JP2005148987A (ja) オブジェクト識別方法とその装置、プログラム及び記録媒体
CN110415296A (zh) 一种有阴影光照下矩形状电器件的定位方法
CN109389115A (zh) 文本识别方法、装置、存储介质和计算机设备
CN112241730A (zh) 一种基于机器学习的表格提取方法和系统
JP3228938B2 (ja) 分布マップを用いる画像の分類方法及び装置
KR101849933B1 (ko) 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치
Ramirez et al. Automatic recognition of square notation symbols in western plainchant manuscripts
De Stefano et al. Layout measures for writer identification in mediaeval documents
CN116596921B (zh) 一种焚烧炉渣分选方法及系统
CN111145314B (zh) 一种结合地名标注的扫描电子地图地名符号的提取方法
CN112001359B (zh) 基于模式识别和最优分配的启发式多叉线修补方法
CN114387600A (zh) 文本特征识别方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant