KR100190737B1

KR100190737B1 - 객체 인식 장치 및 방법

Info

Publication number: KR100190737B1
Application number: KR1019950010254A
Authority: KR
Inventors: 마텐 볼레 루돌프; 허드슨 콘넬 조나단; 하스 노르만; 모한 라케쉬; 타우빈 가브리엘
Original assignee: 포만 제프리 엘; 인터내셔널 비지네스 머신즈 코포레이션
Priority date: 1994-04-29
Filing date: 1995-04-28
Publication date: 1999-06-01
Also published as: CN1092375C; CA2144404C; JPH07302343A; DE69518947T2; CN1123940A; KR950029983A; ES2151000T3; EP0685814A2; JP3369772B2; EP0685814A3; ATE196695T1; CA2144404A1; US5546475A; AU1503495A; EP0685814B1; AU685904B2; DE69518947D1

Abstract

본 밭명은 영상 처리를 이용하여 영상 내에 포함된 객체를 인식하는 장치 및 시스템에 관한 것이다. 장면을 조명하는 광원(source)을 포함한다. 상기 조명 광원을 제어하는 것에 의해 객체가 높은 레벨로 조명될 경우 장면의 제 1 디지탈 영상을, 또한 낮은 레벨로 조명될 경우 장면의 제 2 디지탈 영상을 얻을 수 있다. 알고리즘을 사용하여 상기 두개의 얻어진 디지탈 영상을 비교하므로써, 상기 장면의 배경 영상으로부터 객체 영상이 분리된다. 그리고 나서, 상기 객체의 처리된 영상(특징을 특성화하는데 사용될 수 있음)은 저장된 기준 영상에 비교된다. 정합될 경우 객체가 인식된다. 또한 본 발명의 시스템은 객체를 크기 및 갯수에 상관없이 인식할 수 있고 원래 인식되도록 프로그램되지 않은 객체도 인식하도록 학습될 수 있다.

Description

객체 인식 장치 및 방법.

제 1 도는 본 발명의 바람직한 실시예의 블럭도.

제 2 도는 본 발명에 따른 객체 인식 방법의 바람직한 실시예를 나타내는 흐름도.

제 3 도는 하나의 장면을 객체 영상과 배경 영상으로 분리시키는 것을 나타낸 도면.

제 4 도는 영상 분리 및 영상내의 객체 인식을 위한 장치의 바람직한 실시예의 블럭도.

제 5 도는 목표 객체 영상을 분리하는 바람직한 방법의 흐름도.

제 6 도는 기준 또는 목표 객체 특성을 특성화하는 바람직한 방법의 흐름도.

제 7 도는 객체 특징 특성을 (면적/길이) 표준화하는 바람직한 방법을 나타내는 흐름도.

제 8 도는 면적/길이 표준화된 목표 객체 특성을 하나 이상의 표준화된 기준 객체 면적 특성에 비교하는 것을 예시하는 도면.

제 9 도는 새로운 영상을 인식할 수 있도록 본 발명에 따른 장치를 조절하는 바람직한 방법(알고리즘)을 나타내는 흐름도.

제 10 도는 객체의 추출된 다수의 특성을 나타내는 블럭도.

제 11 도는 텍스처 특성을 막대그래프로 나타내고 표준화하는 것을 나타내는 흐름도.

제 12 도는 경계 형상 특성을 막대그래프로 나타내고 표준화하는 것을 나타내는 흐름도.

제 13 도는 중량 측정 기구를 나타내는 블럭도.

제 14 도는 객체 영상을 분리하므로써 결정되는 두개의 상이 한 영역을 갖고 이들 영역이 인식 알고리듬에서 구체화되는 영상을 나타내는 도면.

제 15 도는 영상화된 농산물의 가장 근사한 식별 순위를 나타내는 본 발명에 따른 장치에 대한 사용자 인터페이스.

제 16 도는 앞서 설치되고 저장된 모든 아이콘 영상 서브세트를 조사하므로써 사용자가 객체를 식별하는 수단과 상기 서브세트가 선택되는 수단을 나타내는 도면.

제 17 도는 객체의 중량을 이용하여 객체의 가격을 결정하는 본 발명의 바람직한 실시예를 나타낸 도면.

* 도면의 주요부분에 대한 부호의 설명

100: 본 발명에 따른 장치 110: 광원

120 : 카메라 144:메모리 저장 장치

200 :알고리즘 142:프레임 그래버

140: 컴퓨터 170: 중량 측정 장치

160: 대화형 입력 장치 164: 스크린

162 : 조절 기구

본 발명은 컴퓨터화된 광학 스캐닝 장치를 사용하여 객체를 인식(즉, 식별(identify), 분류(Classifying), 등급 매김(grading), 확인(verifying))하는 장치 및 방법에 관한 것으로, 특히 영상 처리(image Processing)를 사용하여 부피를 가진 객체를 인식하는 조절가능한 장치 및 방법에 관한 것이다. 객체 인식용 영상처리시스템은 종래로 부터 있어왔다. 이들 시스템은 흔히 인식을 수행하기 위해 막대그래프(histogram)를 사용한다.

일반적으로 사용되는 막대그래프 방법중 하나는 객체를 포함하는(컬러) 영상을 표현하기 위해 그레이 스케일 막대그래프(gray scale histogram) 혹은 컬러 막대그래프를 이용한다. 그후, 막대그래프는 기준 영상의 막대그래프에 직집 비교된다. 혹은, 막대그래프의 특징(feature)이 추출되어 기준 객체(reference objects)를 포함하는 영상의 막대그래프로부터 추출된 특성과 비교된다.

기준 막대그래프 혹은 기준 막대그래프의 특징은 일반적으로 컴퓨터 메모리에 저장된다.

종래의 기술에서는 영상속의 목표객체(target object)가 원하는 객체인지 확인하고, 가능하면 기준 막대그래프와 비교하여 그 모양의 질에 따라 객체의 등급을 매기거나 분류하기위해 이들 방법을 수행하였다. 또 다른 용도로는 목표 영사 객체 막대그래프를 다수의 기준 영상 객체 막대그래프와 비교하여 목표 영상 객체를 식별하는 것을 들 수 있다.

본 명세서에서는, 식별을 기준 객체 세트 혹은 분류(class)가 주어진 경우 목표 객체가 어느 기준 객체인가 또는 목표 객체가 어느 기준 분류에 속하는가를 결정 정의한다. 분류또는 등급 매김은 목표 객체가 특성 객체인지를 알아내는 것 혹은 객체의 질이 어떤 정량적 값(some quantitatively value)을 가지는지를 단정하는 것으로 정의된다.

여기서 상기 분류중 하나는 거절(reject) 분류일 수 있으며 이것은 객체의 품질이 매우 나쁜 것을 의미하거나 객체가 미리 정의된 분류에 속하지 않는다는 것을 의미한다.

한편, 확인(verifying)은 목표 객체가 특정한 객체인 것으로 알려진 경우 이것이 참인지 혹은 거짓인지를 판단하는 것으로 정의된다. 인식(recognizing)은 식별, 분류, 등급매

김 혹은 확인을 모두 포함하는 개념이다.

대량 항목(bulk items)이라 함은 수퍼마겟, 식료품 가게, 소매상 및 하드웨어 상점에서 대량으로 판매되는 항목을 포함한다. 그 예로 농산물(과일 및 채소), 설탕, 커퍼콩, 캔디, 못, 너트, 보올트, 통상의 하드웨어, 일반 부품들 및 포장 상품등을 들수 있다.

영상 처리에서 디지탈 영상이란 곧 카메라로부터 입력된 화면을 화소(picture elements)라고 부르는 고정된 숫자(a fixed number of location)로 나누고 이들 화상 구성요소에서의 영상 값을 고정된 가지수의 값으로 양자화(quantizing)하여 이산 형태로 변환시킨 아날로그 영상이다.

디지탈 영상은 컴퓨터 알고리즘에 의해 처리되어 또 다른 영상을 만들어낼 수도 있다.

이들 영상은 메모리에 저장될 수 있으며 영상화된 객체에 관한 정보를 결정하는데 사용될 수 있다.

디지탈 영상의 화상 구성요소를 화소(pixel)라고 부른다.

영상 처리 및 컴퓨터 비젼(computer vision)이라 함은 컴퓨터를 이용하여 디지탈 영상을 처리함으로써 영상을 변화시키거나 영상화된 객체의 ,예를 들면 종류, 위치 등과 같은 영상 특성으로부터 영상을 얻는 것을 말한다.

장면(scene)은 관심있는 하나 이상의 객체와 rm 객체와 함께 영상화된 주위 배경을 포함한다. 이들 배경은 카메라로부터 관심있는객체보다 일반적으로 더 멀리 위치한다.

분리(segment)(또는 객체/배경 분리라고도 부름)는 장면 영상을 분리된 객체와 배경 영상으로 분리하는 것을 말하며 즉 배경에 속하는 영상의 화소들로 부터 객체에 속하는 영상의 화소를 식별한다. 이때 분리된 객체 영상은 전체 장면의 원래 영상내에서 객체를 구성하는 화소의 집합이다. 분리된 객체 영상의 면적은 객체 영상내의 화소의 수로 나타낼 수 있다.

조명(illumination)은 장면 및 그 안에 포함된 객체를 조사하는 빛을 말한다. 전체 장면의 조명은 영상내의 각 객체의 영상의 조명을 직접 결정하며 따라서 비디오 카메라등의 영상 기구에 의해 받아들여 지는 객체의 반사광을 직접 결정한다.

주변의 조명(ambient illumination)은 객체를 영상화하기 위해 특별히 사용된 특수 조명(special light)을 제외한 임의의 광원(light source)으로부터 방출되는 조명을 말한다. 예를 들어, 실외의 태양광이라든가 실내의 전등과 같이 주변에 존재하는 광원으로 인한 빛을 말한다.

눈부심(glare)이나 거울 반사(specular reflection) 는 반짝이는 객체(거울이나 전시용 거울, 혹은 국부적으로 그런 특성을 갖는 객체)로부터 반사되는 빛으로서 광량이 높다.

반짝임의 색은 대개의 경우 (객체의 자연색에 반대되는) 조명 색을 띤다.

영상의 임의의 특성으로 정의되는 영상 특징은 컴퓨터에 의해 추출될 수 있다. 특징은 전형적으로 특정 영역 즉, R0-R1내에 놓일수 있는 수치 값을 가진다.

종래에는, 막대그래프가 영상내의 전체 이미지 혹은 윈도우(서브 이미지)에 걸쳐 계산되었다. 영상 특징의 막대 그래프는 영상이나 윈도우에 대한 특성 값의 분포를 수치적 으로 표현한 것이다. 특징 막대그래프는 특징 영역 R0-R1을 M 개의 간격 (bins)으로나누고 각 영상 화소에 대한 특징을 산출하므로써 얻을 수 있다. 특징 막대 그래프는 단순히 각 간격에 들어가는 영상 화소 혹은 윈도우 화소의 갯수를 세어서 구할수 있다.

영상 특징은 컬러(color) 및 텍스처(texture)를 포함하지만 거기에 한정되는 것은 아니다. 컬러는 예를 들면 화소의 색상(hue) 및 채도(saturation) 또는 다른 색 표현(이후에 설명됨)으로 나타내어지는 2 차원적 특성이지만 종종 적색(red), 녹색(green) 및 청색(blue)(RGB)의 양과 같은 3차원 특성으로 여겨지기도 한다. 종래에 (1)RGB 공간,(2)반대(opponent) 컬러 공간, (3)먼셸(Munsell)(H,V,C 컬러 공간, (4)색상, 채도 및 명도(H,S,I) 공간을 포함하는 다양한 컬러 표현법이 사용되었다. (4)의 경우 먼셸 공간과 마찬가지로, 색상란 화소의 색상(적색으로부터 청색 또는 녹색으로)을 말하고, 채도란 컬러의 농도(즉, 초록색계로부터 짙게 포화된 녹색까지)이고, 명도란 어떤 화소가그레이 스케일 영상에서 나타내게 되는 밝기를 말한다.

한편, 텍스처는 수치적으로 표현하기 어려운 시각적 영상특성으로서 하나의 화소에 의해 결정될 수 있는 특성이 아니고 소정의 영상 데이타 영역(Patch)에 의해 결정되는 특성이다. 영상 영역의 텍스처는 영역내에서의 공간적 밝기 변화로 나타내어진다. 이것은 흰꽃엉겅퀴(artichoke)나 혹은 핀카플(pincapples)상의 패턴과 같이 반복적인 패턴이거나 파슬리(parsley) 잎의 패턴과 같이 더 불규칙한 패턴 일 수 있다.

이들은 각각 구조적 텍스처 및 통계적 텍스처로 불린다. 2차원 평면영상의 바둑판 무늬와 같이 완전히 규칙적인 배열에서부터 검은 무늬에 반점이 섞인 화이트 잡음에 이르기까지 텍스처의 범위는 매우 넓다. 형상 텍스처에 대한 연구는 과거 삼년동안 계속되어온 과제이며 이를 위해 일차원 또는 고차원의 계산법에 개발되었다. 그러나, 종래의 기술에 의하면 텍스처 특성을 막대그래프화하는 방법 아직 개발되어 있지 않다.

영상에서 어떤 경계의 형상(shape of some boundary)은 다수의 경계 화소의 특성이다. 경계 형상은 곡률과 같은 부분 특징으로 간주된다. 예를 들어 사과는 대체로 일정한 곡률값을 갖는 경계를 가진다. 반면에, 오이의 경계 형상은 작은 값의 곡률을 갖는 부분, 작은 음의 값인 곡률을 갖는 부분 및 큰 곡률을 갖는 두 부분의 경계 형상(오이의 양 끝부분)을 갖는다. 곡률 이외의 다른 경계 형상 측정법이 사용될 수 있다.

종래에는 객체를 식별하기 위해 컬러 막대그래프를 이용하였다. 목표 객체의 컬러 영상이 (R,G,B)로 주어진 경우 막대그래프를 위해 사용된 컬러 표현은 반대 컬러 표현법으로서,「rg = R-G, by = 2*B-R-G, wb = R+G+B으로 변환된다. wb축은 8개의 구역으로 나누어지며 「rg와 by축은 16개의 구역으로 나누어진다. 따라서 2048개의 영역을 가지는 3차원 막대그래프를 구성할 수 있다. 종래의 시스템은 목표 영상 막대그래프를 이미 저장되어 있는 66개의 기준 영상 막대그래프와 정합시킨다. 이미 저장되어 있는 66개의 기준 영상 막대그래프 세트는 고정되어 있으므로 학습가능한 시스템이 아니었다. 즉, 어느 한 순간에 인식되지 못한 목표 영상은 그후에도 마찬가지로 인식되지못한다.

켈리(Kelly)와 클레인(Klein)에게 특허 허여된 미합중국 특허 제 5,060,290 호는 그레이 스케일 막대그래프를 이용한 아몬드의 등급 매김 방법을 개시하고 있다, 수확된 아몬드에 일정한 조명을 비추고 선형 카메라 옆을 통과시킨다.

그레이 스케일 막대그래프는 16단계로 양자화되고 영상처리된다.

예상할 수 있는 가장 큰 아몬드의 크기가 1700화소이므로 막대그래프를 1700으로 나누어 정규화한다. 막대그래프에서 다섯 가지의 특성이 얻어진다. (1) 피크(peak)의 최대 그레이 값,(2) 막대그래프의 범위,(3) 피크에서의 화소의 수, (4)피크 오른쪽의 화소의 수, (5) 빈 4의 화소의 수등이 그것이다. 룩업 이블을 통해 8 디지탈의 코드가 발생되며 만일 상기 코드가 라이브러리 (library)내에 존재하면 아몬드가 합격된다. 이 시스템 또한 학습이 불가능하다. 합격가능한 질의 아몬드 외양은 알고리즘에서 하드웨어적으로 코딩되어 있으므로, 새로운 아몬드가 제시되었을 때, 이 아몬드를 기존 것과 다르게 매길 수 있도록 학습될 수 없다.

오까다등(Okada et al)에게 특허 허여된 미합중국 특허 제4,735,323 호는 검사하고자 하는 객체의 정렬및 운반에 관해 설명하고 있다. 이 시스템은 특히 오렌지의 등급 매김에 그 주안점을 두고 있다.

운송된 오렌지에 미리 정의된 파장 영역 내의 빛으로 조명을 가한후, 반사광을 받아서 이것을 전기적 신호로 바꾼다. 64개의 구역으로 나누어진 레벨 막대그래프가 발생되며, 이 때

레벨=(전체 반사광의 강도)/(오렌지에 의해 반사되는 녹색광의 강도)이다.

이 막대그래프의 중간값 N이 결정되고, 이것이 오렌지의 색을 나타내는 것으로 간주된다. N을 근거로 하여 오렌지를 네가지 등급 즉, 매우 좋음,좋음, 괜찮음, 불량의 네가지로 나눌 수 있으며, 원하는 경우에는 보다 세분화하여 구분할 수 있다. 그러나 이 시스템 역시 각기 다른 오렌지의 모양이 알고리즘 영상에 하드웨어적으로 코딩화 되어 있으므로 학습이 불가능이다.

그레이 스케일이나 컬러 막대그래프를 사용하게 되면 영상 내의 객체에 대한 등급 매김이나 확인이 매우 효과적으로 이루어질 수 있다. 그 주된 이유는 막대그래프가 위치나 객체의 자세에 무관한 가장 효과적인 표현법이기 매문이다.

그러나 막대그래프에 근거한 객체 인식이 이루어지기 위해서는 일정한 조건이 만족되어야 한다. 그것은 (1) 영상내의 객체의 크기를 대략적으로 알아야 한다 (2) 객체의 가려진 부분이 비교적 적어야 한다(객체의 대부분이 화면에 나타나야 한다) (3) 기준 객체의 막대그래프와 목표 객체의 막대그래프가 얻어질 때 조명의 차이가 거의 없어야 한다

(4) 목표 객체가 배경으로부터 용이하게 분리될 수 있어야 한다. 이러한 조건 하에서 목표 객체를 기준 객체와 비교하는 다수의 방법이 기존의 연구에서 개시된 바 있다.

종래의 기술에서는 배경의 변화, 관점의 변화, 객체의 가려짐, 영상 해상도의 변화등에 관하여 덜 민감하게 반응하게 하기 위한 여러가지 연구가 진행되었다. 그러나 조명 조건에 대한 연구는 기존의 연구에서도 많이 다루어지지 않았으며 기준 객체 막대그래프를 얻을 때와 목표 객체 막대그래프를 얻을 때의 조명의 컬러가 달라지는 경우 원하는 결과를 얻지 못하는 경우가 많았다. 영상의 RGB 값은 조명색의 변화에 매우 민감하다, 결과적으로 영상의 컬러 막대그래프는 조명의 변화에 따라(조명 주다수의 변화에 따라) 급격히 변한다. 더욱이 이들 기존의 기술에서 목표 객체는 배경으로부터 분리되지 않았으며 따라서 영상의 막대그래프는 면적 표준화가 되지 않았다. 그러므로 화소의 크기에 대한 객체의 크기가 변하면 컬러 막대그래프가 급격히 변하므로 정확한 인식을 위해서는 인식하고자 하는 객체의 크기가 기준 객체의 크기와 정확히 같아야만 했다. 또한 배경에 해당하는 부분은 무채색(예를 들면 검은색)을 띠어야 했으며 적어도 객체에 나타나지 않은 컬러를 띠어야만 했으며 그렇지 않은 경우의 컬러 막대그래프는 심각하게 영향을 받았다,

미합중국 특허 제 5,060,290 호에 개시된 것과 같은 기술은 영상 내의 아몬드의 크기가 일반적으로 예상되는 크기와 크게 다른 경우에는 적용될 수 없다. 이는 제안된 시스템이 객체를 배경으로부터 명확히 분리하지 못하기 때문이다 제안된 시스템은 아몬드의 등급을 매기기 위해서만 사용되고, 아몬드를 땅콩 따위로부터 식별하는 일등은 할수 없다.

마찬가지로, 미합중국 특허 제 4,735.323 호에 개시된 것과 같은 기술은 다른 등급의 오렌지를 식별하는 데만 적용 가능하다. 이 방법에 의하면 홍당무도 매우 큰 오렌지로 인식된다. 이 시스템은 한면에 한 종류 이상의 과일에 대해 인식하도록 설계되지 않았다.

요약하면, 농업 분야에서 기존의 기술은 대부분 미합중국 특허 제 4,735,323 호 및 제 5,060,290 호와 같은 종류의 기술로서 농산물을 분류/등급 매김하는 기술이다. 이러한 기존의 방법은 이들 농산물이 스캐너를 한면에 하나씩 통과할 때에만 제기능을 발위할 수 있다. 또 한 분류/등급 매김하고자 하는 객체의 대략적인 크기(최소의 가능한 객체 크기에서 최대의 가능한 객체크기까지)를 미리 알고 있을 것을 조건으로 한다. 이들 시스템은 한번에 한 종류 이상의 항목이 동시에 스캔닝되거나 한번에 하나 이상의 객체가 스캔닝되는 경우에는 정상적인 동작을 하지 못하게 된다.

더욱이 기존의 기술은 흔히 기계적으로 비싼 환경을 필요로 하는 경우도 있으며 조명에 대해서도 업격한 조건이 요구되어 항목은 사전 정의된 위치로만 운송되야 하는 경우가 많았다. 이들 장치들은 한가지모양(둥근 형태, 타원형 등)의 물건을 인식하도록 설계되었으며 다른 객체를 인식하는 것이 불가능하거나 대단히 힘들었다. 이런 경향은 생강과 같은 불규칙적인 모양을 한 객체의 경우에 특히 더하였다. 이런 여러가지 이유로 인해 기존의 기술로는 여러 종류의 농산물을 구별하는 것이 곤란하였다.

또한 비록 사람의 조력에 의하거나 컴퓨터의 개입을 통해 새로운 항목을 추가하고 낡은 항목을 삭제하는 것이 가능하였지만 기존의 기술중 어느것도 학습이 불가능하였다. 즉 기존 시스템은 이 시스템내에 원래 프로그램된 객체이외의 객체를 인식하도록 학습될 수 없고, 시스템내의 원래 프로그램되어진 객체를 더이상 인식하지 않도록 지시될수 없다.

종래의 기술이 특히 한계에 부딪친 분야중 하나가 농산물 체크아웃(check-out)이다. 체크 아웃에 대한 현재의 방법은 문제점을 내포하고 있다. 신선한 농산물에 가격표(Price lookup:PLU)를 붙이는 일은 소비자와 소매상/도매상들이 싫어하는 일이다. 농산물을 미리 포장하는 것은 포장단계에서의 비용 및 쓰레기 처리 문제, 포장된 형태에 따라 농산물의 질을 살펴볼 수 없다는 문제 때문에 바람직하지 않은 방법이다.

농산물의 체크 아웃 절차는 식료품 가게가 처음 등장한 이후 거의 변하지 않았다. 판매 시점(point of sale,POS)에서 출납원은 농산물의 종류, 중량및 수량을 알아야 하며 가격을 결정해야 한다. 현재 가격 결정은 각각의 해당 농산물에 관련된 가격표를 일일이 손으로 입력 하여 곁정하고 있다. 이들 코드는 POS 단계에서 프린트된 목록의 형태로 사용한다.

농산물 체크 아웃 단계에서 여러 문제점이 존재한다.

(1) 가게에서 손실이 발생한다. 먼저, 출납원이 무의식중에 잘못된 코드를 입력할 수도 있다. 이것이 고객에제 유리한 쪽으로 작용하면, 이 고객은 이러한 사용을 출납원에 알리려 하지 않을 것이다.

두번째로, 출납원이 자신과 가까운 친구나 친지에게 고의로 저가의 농산물 가격 고드를 입력할 수도 있다.

(2) 농산물 체크 아웃 절차가 농산물 확인에 따른 문제로 인해 지연된다.

(3) 모든 초보 출납원은 농산물 이름, 농산물의 외형, PLU 코드를 익혀야 한다.

이에 본 발명은 상기한 바와 같은 문제점을 감안하여 이루어진 것으로, 본 발명의 목적은 농산물과 같은 객체를 인식하는데 있어서 보다 향상된 장치 및 방법을 제공하는 것이다.

본 발명의 다른 목적은 농산물등의 객체를 인식하는 데 있어서 보다 향상된 학습 가능 장치 및 방법을 제공하는 것이다.

본 발명의 또 다른 목적은 물건을 파는 상점 또는 판매점에서 농산물등의 객체를 인식 및 가격 책정할 수 있는 보다 향상된 장치 및 방법을 제공하는데 있다.

또한 본 발명의 다른 목적은 자동화된 농산물 식별을 위한 항상된 사용자 인터페이스 장치 및 방법을 제공하는 것을 목표로 한다.

이상과 같은 목적을 갖는 본 발명은 어떤 장면내에 포함된 객체를 인식하는데 있어서 영상 처리를 이용한 장치 및 방법에 관한 발명이다. 본 밭명에 따른 장치는 영상에 조명을 가하기 위한 조명 광원(ilIuminatin source)을 포함한다. 상기 조명을 제어하여 높은 레벨의 조명을 가한채 첫번째 디지탈 영상을 찍고 다음으로 보다 낮은 레벨의 조명을 가한채 두번째 디지탈 영상을 얻는다. 적당한 알고리즘을 수행시킴으로서 얻어진 두 영상을 비교하여 장면내의 객체 혹은 객체들을 배경과 분리시킨다. 처리된 영상은 특징 추출을 위해 사용될 수 있으며 또한 이미 저장되어 있는 기준 영상과 비교된다. 객체와 정합

(match)되는 기준 객체가 있는 경우 목표 객체는 기준 객체로 인식된다,

이러한 방법을 통해서도 일치하는 기준 객체가 없는 경우에는 상기 객체는 인식되지 않은 것으로 인식하여 새로운 고유 명칭으로 메모리에 저장된다. 이때 일정한 원칙에 따라 저장하도록 하므로써 이후 상기 객체가 영상화될 경우 기준 객체로서 인식 가능하도록 한다. 이렇게 하여 과거에 알려지지 않은 객체라도 이후부터는 인식할 수 있게 학습된다.

객체 영상은 기준 영상과 비교되기 전에 정규화되므로 객체의 크기나 수등에 관계없이 객체를 인식할 수 있다.

사용자 인터페이스나 객체의 다른 특징(이를테면 중량등)을 측정하는 장치등이 선택적으로 본 발명의 장치와 함께 사용될 수 있다.

이하 본 발명을 첨부된 도면을 참조하여 상세히 설명한다.

제 1 도에 도시된 시스템(100)는 하나 이상의 객체(131)를 자동으로 인식하는데 영상 처리 장치를 사용하는 본 발명의 바람직한 실시예를 나타낸다

주파수가 일정한 광원(110)이 객체(131)을 조명한다. 상기 빛은 다색광(non-monochromatic)이며, 따라서 적외선 및 자외선 주파수 영역을 포함할 수 있다. 일정한 주파수 분포를 갖는 다색광은 객체(131)의 컬러가 각기 다른 영상 사이의 빛의 변화로 인해 변화하지 않으며 주어진 객체의 저장된 영상은 이후 상기 객체로부터 얻어진 영상에 정합됨을 보장한다. 본 실시예에서의 광원은 플래쉬 튜브 마우저(flash tubes mouser) U-4425이거나, 혹은 두개의 GE 쿨-화이트 형광 전구(cool-white fluoresecent bulbs) (22와트와 30와트) 즉, GE FC8T9-CW 와 GE FC12T9-CW이다. 이러한 광원들은 이미 공지되어 있다

비디오 입력 장치(120)가 반사되는 광선을 영상으로 전환시키는데 사용된다. 일반적으로, 이러한 영상은 이차원적이다. 본 실시예에서의 비디오 입력 장치는 컬러 카메라이나, 광선을 영상으로 전환시킬수 있는 어떠한 종류의 장치도 가능하다. 이러한 카메라는 주로 CCD 카메라이거나 CID 카메라이다. 컬러 카메라 출력은 RGB, HSI, YC 혹은 이들 이외의 컬러 표현 형식일 수 있다. 일반적으로 즐겨 사용되는 카메라는 소니 카드-카메라 CCD-C35YC 혹은 소니 XC-999이다. 상기 비디오 입력 장치(120)도 마찬가지로 공지되어 있다,

본 발명에서는 바람직한 감지 형태로 컬러 영상이 선택되었다.

그러나 다른 감지 형태도 가능하다. 예를들어 적외선 혹은 자외선 영상,(예를 들면 대량 분광기로 측정가능한) 냄새/향기, 열 감쇄 특성, 초음파 혹은 자기 공명 영상, DNA, 기본 주파수 혹은 객체의 딱딱한 정도, 굳은 정도 등을 이용할 수도 있다. 이들 형태는 객체(131)를 조명, 측정, 혹은 표본화하는 공지된 방법과 영상을 생성하기 위한 호환성 영상 장치(120)으로 가능하다.

객체(131)는 영상화되어 시스템(100)에 의해 인식된다. 객체(131)는 하나 이상의 항목으로 이루어 질 수도 있다. 물론 객체(131)는 예를 들면 하나 이상의 사과와 같이 한가지 유형(종류)인 것이 가장 좋지만, 곡물 상자(객체 A)와 사과(객체 B)와 같이 다른 종류의 객체들로 구성될 수 있다. 시스템(100)는 이것을 (1)객체 A, (2)객체 B, (3)객체 A와 객체 B, 혹은 (4)인식 불가능으로 판단할 수 있다. 목표 객체는사실상 어떤것도 본 장치에 의해 영상화될 수 있지만, 농산물(과일과 채소), 하드웨어, 상자에 포장된 농산물등과 같이 대량 항목(bulk item)이 바람직하다.

계산 장치(140)는 일반적으로 컴퓨터(140)로서, 비디오 입력장치(120)에 의해 생성되어 프레임 그래버(142)에 의해 컴퓨터(140)에 호환가능한 형태로 디지탈화된 영상을 처리하는 데 이용된다.

영상 처리는 알고러즘(200)에 의해 수행된다. 또 다른 계산장치(140)로는 퍼스널 컴퓨터 혹은 워크-스테이션(workstations)등이 있다. 계산 장치(140)는 하나 이상의 디지탈 신호 처리기로도 구현할 수 있으며, 계산 장치 단독으로 동작하거나 다른 컴퓨터 내에 설치되는 경우도 가능하다. 또한 이 계산 장치(140)는 알고리즘(200)를 구현할 수 있는 임의의 특정 하드웨어일 수도 있다. 권장할만한 구성으로는 IBM 밸류포인트 컴퓨터(valuepoint computer)나 POS 캐쉬 레지스터의 IBM 4690 시리즈내에 장착된 데이타트랜슬레이션(Datatranslation) DT 2871프레임 그래버 보드(frame grabber board)에 결합된 데이타트랜슬레이션 DSP 보드 DT 2878이 있다. 프레임 그래버(142)는 카메라(120)로부터의 영상 신호를 디지탈화하는 장치이다. 만일 카메라(120)이 디지탈 카메라인 경우에는 별도의 프레임 그레버(142)가 필요하지 않다. 디지타이저는 컴퓨터(140)로부터 분리되거나 그 내부에 내장될 수 있다. 영상은 표준 메모리 장치(144)에 저장될 수 있다. 상기한 개시로부터 본 발명의 분야에 숙련된 기술을 가진 자라면 다른 등가의 계산 장치(140)와 프레임 그래버(142)를 개발할 수 있을 것이다.

출납원(cashier)등의 사용자와 인터페이스하기 위하여 계산 장치(140)에 선택 사양적인 대화형 출력 장치(160)가 연결될 수 있다.

출력 장치(160)는 사용자의 의사 결정(164)을 도울 수 있는 스크린과, 시스템(100)로 하여금 새로운 객체를 인식하도록 학습시키는 메카니즘(162)을 포함할 수 있다. 선택사양으로서 주어지는 중량 측정 장치(170)는 계산 장치(140)로 객체(131)의 질량이나 밀도등을 입력값으로 제공할 수 있다. 이에 관해서는 다음에 설명한다(제 13 도 참조).

제 2 도는 계산 장치 혹은 컴퓨터(140)에 의해 수행되는 알고리즘(200)의 흐름도이다.

단계(210)에서 인식 목표 영상 객체가 카메라(120)에 의해 영상화된다. 이와 같은 영상화 과정은 잘 알려져 있다. 인식 목표 객체(131)의 영상은 단계(220)에서 배경으로부터 분리된다. 단계(220)의 목표는 인식 목표 객체(131)를 배경으로부터 분리함으로써 시스템(100)가 분리된 객체(131)의 영상 화소의 특성(charateristics)을 배경 영상으로부터 추출해 낼 수 있게 하는 데 있다. 단계(230)에서는 객체(131)의 하나 이상의 특성(featuer)이 분리된 객체로부터 화소 단위로 계산된다, 단계(240)에서는 이들 픽셀단위로 계산된 특징 세트를 특성화(charaterization)한다. 단계(250)에서는 이들 특성치거 면적, 길이, 크기 혹은 객체(131)가 영상에서 차지하는 위치에 따라 변화하지 않도록 이들 값을 정규화하여 객체(131)가 여러 다른 위치에서 영상화되었을 경우에도 같은 객체로서 인식되도록 한다. 영상에서 객체(131)에 의해 점유된 분리부(segments)에 의해 특성치를 정규화하는 바람직한 방법으로는 특징 특성치가 계산되는 수를 세는 방법이다. (제 7 도에 이것에 대해 더욱 자세히 설명되어 있다. 정규화하는 바람직한 수단은 면적 혹은 길이를 이용하는 것이다). 단계(260)에서는 횟수-정규화된 객체의 특성치가 메모리(270)내에 저장되어 있는 횟수-정규화된 기준 객체의 특성치와 비교된다. 메모리(270)은 저장 장치(144) 혹은 컴퓨터(140) 내에 설치될 수도 있다(제 8 도의 설명을 참조할 것). 단계(251)에서는 면적 정규화된 객체의 특성치가 컴퓨터 메모리(270)에 저장된다. 저장 장치(255)는 새로운 기준 객체영상을 저장하여 다른 인식 목표 객체(131)를 인식하는 데 이용하게 할 수 있으므로 이 단계에서 시스템(100)의 학습이 수행된다(제 15 도의 설명참조).

단계(220)에서는 객체 영상을 배경 영상으로부터 분리한다.

인식 목표 객체에 대해 영상의 배경에 포함된 효과 및 잡음과 무관하게 인식 가능 객체의 특성을 처리하기 위해 본 단계를 수행한다. 제 3 도는 목표 객체를 배경 영상으로부터 분리하는 데 이용되는 두가지 방법(각각 제 3a 도와 제 3b 도 참조)을 설명한다.

제 3a 도에 두가지 장면을 나타내었다. 첫번째 장면(310)은 카메라(120)의 시계(the field of view)내에 어떠한 객체도 존재하지 않는 배경 영상(311)을 나타낸다. 두번째 장면(320)은 배경 영상(311)과 하나 이상의 객체(131)을 모두 포함한다. 여기서 영상화된 객체(130)의 화소는 장면 영상(320)내의 객체(131)가 존재하는 영역에서 배경 영상(311)의 화소를 대체한다. 따라서 장면(320)은 배경 영상(311)에 객체(131)가 존재하는 장면이다.

장면(310)과 장면(320)을 화소 단위로 비고하여 객체 영상(130)을 장면의 배경 영상(311)으로부터 분리해 낼 수 있다. 만일 영상(320)내에 주어진 한 화소에 대해 그 밝기가 영상(310)의 해당 화소의 밝기와 다르다면 이 화소는 객체 영상(130)에 속하는 것이다. 만일 영상(320)내에 주어진 한 화소에 대해 그 밝기가 영상(3l0)의 해당 화소의 밝기와 같다면 그 화소는 배경 영상(311)에 속하는 것이다(제 5 도의 설명 참조).

제 3b 도는 배경 및 이에 포함된 하나 이상의 객체 영상을 나타낸 것이다. 제 3b 도의 영상(330)은 광원(110)이 꺼진 상태에서(객체(131) 및 배경(311)을 포함하는) 장면의 영상이다. 따라서, 영상(330)은 주변 조명이 가해진 배경 영상(311)이다. 또한 영상(330)에는 배경을 가리는 객체(135)를 포함하고 있다. 광원(110)이 꺼진 상태이므로 객체 영상(l35)은 장면 영상(330)에서 어두운 채로 나타나게 된다.

제 3b도의 영상(340)은 광원(110)이 켜진 상태에서 얻어진 것이다. 이 경우, 광원(110)은 객체를 카메라 시계에서 주변 조명의 빛보다 강하게 비춘다. 따라서 객체 영상(130)은 영상(340)에서 밝게 나타나게 된다.

제 4 도는 원하는 장면의 영상화, 물리적인 배경(312)의 배경 영상(311)으로부터 객체 영상의 분리, 객체(131)의 인식을 위한 장치(400)를 나타내는 블럭도이다. 본 장치(400)의 구성 요소(401)는 1994년 출원된 Object Imaging System' 이라는 제목의 미합중국 특허 출원 번호 xxx 에 설명되어 있으며, 이 출원 명세서는 본 명세서에서 참조로서 인용된다.

장치(400)는 객체(131)를 광원(110)과 카메라(120) 위에 두어 객체(131)의 영상이 아래로부터 위로 올려보는 영상이 되도록 한다.

장치(400)는 객체(131)를 지지대(405)로 지지하며 객체가 카메라로부터 고정된 일정한 거리(407)만큼 떨어지도록 유지한다. 또한, 장치(400)은 반짝이는 객체(예를 들면 플라스틱 백등)를 영상화하기 위해 참조 번호(4l0), 및 (420)의 필터를 사용하여 반짝임을 감소시킨다.

장치(400)는 광원(110) 및 카메라(120)를 에워싸는 불투명 케이스로 구성되어 있다. 케이스는 객체(131)을 항해 하나의 개구(403)을 가지고 있다. 개구(403)는 객체(131)가 카메라(120)에 의해 영상화되고 및 광원(110)에 의해 비춰지는데 문제가 없도록 충분히 커야 한다. 개구는 사각, 원형 혹은 이들 이외의 어떤 모양이라도 상관 없다. 개구(403)에는 투명한 덮개(405)가 장착되어 카메라에 의한 촬영 및 광원에 의한 조명이 용이하도록 유리등으로 구성된다. 덮개(405)는 목표 객체(131)를 올려놓을 수 있어야 한다. 객체를 덥개(405)에 올려놓음으로써 카메라로부터 객체(131)까지의 거리(407)가 일정하게 유지되며 반복적인 영상화가 가능하게 된다.

객체(131)의 영상으로부터(객체(131) 자체로 부터 또한 아마도 주위의 플라스릭 백으로 부터)반짝임을 제거하기 위해 편광처리를 한 카메라 렌즈를 사용하거나 편광 필터를 카메라(120)의 롄즈 앞에 장착할 수 있다. 두번째 편광 필터(410)은 광원(110)과 개구(403) 사이에 장착한다. 따라서 객체(131)에 도달하는 빛은 편광되어 있다. 이와 달리, 빚은 편광기에 의해 완전히 에워싸일 수 있다. 만일 빛이 (카메라플래시처럼) 상자에 의해 부분적으로 둘러싸이거나 (사진 스포트라이트처럼) 반사장치에 의해 부분적으로 둘러싸였다면, 편광기는 상술한 광조립체에서 빛이 통과하는 개구에만 배치되면 된다. 첫번째 필터(410)의 편광 방향은 두번째 필터(420)의 편광 방향과 직교하도록 되어있다. 객체에 의해 반사되는 반사광은 객체에 분사되는 빛과 반대 방향으로 편광됨은 잘 알려진 사실이다. 따라서 편광 필터(420)을 이용하여 영상의 반짝임을 줄일 수 있다. 또한 필터 (410)로 편광되어 있는 광원(110)으로 객체(131)을 조명하여 객체의 반짝임을 줄일 수 있다. 객체(131)로부터 반사되는 반사광의 극성은 편광기(420)와 직교방향으로 된다. 따라서, 편광기(410)와 직교 관계인 편광기(420)를 통해 객체(131)을 촬영하게 되면 객체 영상(130)의 반짝임의 양을 줄일 수 있다.

광원 제어부(450)는 광원을 끄거나 켤 수 있고 또한 광원(110)의 빛의 강도를 조절할 수도 있다. 광원 제어부(450)는 컴퓨터(140)상에 설치될 수도 있고, 광원(110)에 직접 연결할 수도 있으며 별도의 장치로 마련할 수도 있다. 제어부(450)는 스트로브에서와 같은 타이밍장치로 광원(110)의 일부일 수도 있으며, 카메라나 컴퓨터 혹은 이들 모두와 동기될 수도 있다. 광원 스위칭 제어부(450)는 일반적으로 흔히 사용되는 장치이다.

제 2 도의 분리 단계(220)는 장면으로부터 객체 영상을 분리하는 바람직한 방법을 나타내는제 5 도에서 더욱 자세히 설명되어 있다.

단계(510)에서 객체(131)를 광원(110)을 켜거나 보다 높은 레벨로 조명한 채 영상화하여 첫번째 영상을 얻는다. 이때 광원 제어부(450)를 이용하여 광원(110)을 조절한다.

단계(520)에서 광원(110)을 끄거나 보다 낮은 레벨로 조명한채 영상화하여 두번째 영상을 얻는다. 두번째 영상에 나타난 객체가 첫번째 영상에 나타난 객체보다 어둡게 나타나도록 광원(110)을 조절하여야 한다. 본 단계를 실행하여 객체 영상(130)이 다음 단계에서 배경 영상(311)으로부터 분리될 수 있다.

또한 객체(131), 배경(312), 영상 입력 장치(120)는 단계(510) 및 단계(520)에서 같은 위치에 있도록 하여 첫번째 영상과 두번째 영상이 동일한 위치에 있도록 하여야 한다. 각 화소가 좌측 상단에서부터 우축 하단에까지 차례로 번호가 매겨져 있고 마치 책을 읽는 것처럼 각각의 화소에 대해 차례로 처리가 이루어진다고 가정하자. 정합(registration)이란 첫번째 영상에서 각각의 번호가 매겨진 화소가 두번째 영상에서 마찬가지로 번호가 매겨진 화소의 해당 번호에 그대로 일치하는 것을 의미한다. 첫번째 및 두번째 영상을 얻는 시간 간격을 작게하거나 정지 배경(312) 영상의 정지된 객체(131)를 영상화함으로써 적절한 정합을 얻을 수 있다.

첫번째 영상 및 두번째 영상을 얻는 순서는 바뀌어도 상관없으므로 단계(520)가 단계(510) 이전에 수행되어도 무방하다.

알고리즘(220)에서의 단계(530)에서 첫번째 및 두번째 영상이 프레임 그래버(142)에 의해 디지탈화된다. 컴퓨터(140)에서 첫번째 디지탈 영상에 포함된 각각의 모든 화소(each and every pixel)가 두번째 디지탈 영상에 포함된 해당 위치의 화소와 비교된다. 이러한 화소 단위의 비교는 영상 처리 분야에서 잘 알러져 있다. 예를 들어, 각 쌍(each point)에 포함되어 비교되는 화소는 서로 대응해야 하나(즉, 제각기의 영상에서 동일한 위치에 있어야 하나), 영상에서 포함된 이러한 대응 화소 상들은 어느 순서로도 비교될 수 있다. 또한, 다른 비교 방법이 사용될 수도 있는데 예를 들면 하나 컬러 하나 이상씩의 혹은 둘 컬러 하나이상씩의 화소가 비교될 수 있다.

단계(540)에서 첫번째 영상내의 화소가 두번째 영상 내의 해당 화소에 비해 일정한 값 T 이상 밝은지에 대한 검사가 이루어진다. 매 화소에 대해 만일 첫번째 영상의 화소가 해당 두번째 영상 화소에 비해 T 이상 밝다면 알고리즘(220)은 단계(542)로 분기하여 이 화소가 객체(131)에 해당하는 것으로 판단한다. 유사하게, 만일 화소 비교에 의해 첫번째 영상 화소가 해당 두번째 영상 화소에 비해 T 이상 밝지 않다면 알고리즘(220)은 단계(544)로 분기하며, 이 화소가 물리적 배경(312)의 영상(311)에 해당하는 것으로 판단한다.

오차 T 값은 상수일 수도 있다. 허용가능한 오차값 T는 최대 영상 밝기의 5% 이다. 또한 영상내의 화소의 위치에 의하거나 어두운 영상내의 화소의 밝기에 의해 T 값이 변할 수도 있다. T 값을 위치에 따라 변화시킴으로써 광원(110)으로부터의 불규칙한 조명의 영향을 보상할 수 있다. 어두운 영역에서의 T 값을 변화시켜 낮은 반사도를 가지는 객체(예를 들어 검은 객체)에 대한 식별력을 항상시킬 수 있다. T값은 고정된 값이거나 장치에 의해 시간에 따라 변화하는 값으로 할 수도 있다, 예를 들어 광원(110)이 노후하거나 혹은(전구에 공급되는 AC 전압의 변이와 같은) 다른 이유로 밝기가 감소하는 경우 T값을 변경시키는 것이 필요할 것이다. 이러한 T 의 재계산은 객체가 포함되지 않은 배경만의(하나는 배경(312)을 강하게 조명하고, 하나는 약하게 조명함) 영상쌍을 이용하여 수행될 수 있다. 객체가 없으므로 두 배경 영상은 같은 밝기로 나타나야 한다(일반 조명에 의한 배경만 나타난다). 그러나 실제로는 광원이 높은 밝기로 스위칭된 경우 광원(110)이 배경(312)를 약하게 비추게 된다. 따라서 상기 대응쌍들은 비교함에 있어 사용될 오차 T 가 설정될 수 있다. 오차 T 는 한 쌍의 배경 영상내의 화소중 극히 일부분만이 단계(540)의 검사를 통과할 수 있도록 설정될 수 수 있다. 예를들어 바람직한 실시예에서는 공차 T 가 10%미만의 화소 쌍만이 공차 T 를 넘는 밝기차를 갖도록 설정된다.

바람직한 실시예에서는 단계(530) 및 단계(540)가 영상 내의 각각의 화소에 대하여 실시되였다. 결과적으로 객체(131)에 해당하는 화소는 분리된 객체 영상(130)과 같게 된다. 특히 분리된 객체 영상에서, 두번째 영상내의 대응 화소보다 더 밝은 첫번째 영상의 모든 화소는, 첫번째 영상에서 이들 화소가 위치하였던 위치에서 분리된 객체 영상으로 모아진다. 따라서 분리된 객체 영상은 배경(312)로부터 분리된 객체(131)의 원하는 영상에 일치된다. 원하는 경우에는 영상내의 각 화소에 대하여 여러 가지 알려진 영상 처리 기술을 적용할 수도 있다.

마찬가지 방법으로 배경(312)에 대응하는 화소는 분리된 영상 화면(311)으로 모아진다. 특히 두번째 영상에서의 대응 화소에 비해 실질적으로 밝지 않은 첫번째 영상의 모든 화소는 첫번째 영상내에서 이들 화소가 위치하였던 위치에 나타나게 된다(바람직한 실시예에서는 실질적으로 밝음이란 해당 화소간의 밝기가 오차 T 보다 큰 것을 의미한다). 분리된 배경 영상은 배경 영상(311)으로부터 객체 영상(130)을 제거한 것과 같다. 필요한 경우에는 분리된 배경 영상내의 나머지 화소 즉, 제거된 객체 화소 위치에 대응하는 화소)를 잘 알려진 다른 영상처리 기술에 의해 처리할 수도 있다.

객체(130)의 영상만 필요로 하는 경우에는 배경 영상(311)을 얻기 위한 단계(544)는 수행하지 않아도 된다. 마찬가지로 배경(312)만 필요로 하는 경우에는 단계(542)는 수행하지 않아도 된다.

또 다른 실시예에서 객체(131)의 반투명 부분(예를 ,들면 플라스틱 커버등)은 단계 (552), 및 (554), 및 (556)을 수행하여 객체의 불투명한 부분으로부터 분리될 수도 있다. 이 실시예에서, 단계(542)는 단계(540)로 분기하는 대신 단계(552)로 분기한다. 단계(552) 이전에, 첫번째 영상 내의 화소가 두번째 영상내의 대응 화소보다 밝은지의 여부가 이미 결정된다. 단계(552)에서는 두번째 영상(낮은 조명하의 객체(131))의 객체(130)에 화소가 두번째 오차 값 V 보다 밝은지 결정한다. 밝은 경우에는 분기(553)가 취하여지고 이 객체 화소는 객체(130)의 반투명한 부분에 해당되게 된다.(이 객체는 이 화소 위치에서 반투명한데, 그 이유는 광(110)이 낮은 조명 상태로 전환되었을 때 약간의 주변광만이 이 객체(130)를 통과하여 이 위치에서 촬상(image)되었기 때문이다. 밝지 않은 경우에는 분기(555)가 취해지고 화소는 객체(130)의 불투명한 부분(556)에 해당되게 된다(주변광은 객체의 불투명한 부분을 통해 전혀 측정되지 않거나 혹은 V 미만의 양만이 측정된다) V값은 두번째 영상에 속하는 각 화소에 대해 상수값일 수도 있고 두번째 영상에서의 그 화소의 위치에 따라 변하는 값일 수도 있다. V값은 앞에서 설명한 바와 마찬가지로 배경 영상(135)만에 의해,95%에서 85% 정도의 배경 영상이 V보다 밝도록, 설정될 수 있다. 바람직한 V값은 최대 영상 밝기의 20%이다.

단계(554)에서는 반투명 객체 영상이 생성된다. 이 단계에서는 두번째 영상내의 V 값보다 밝은 하나의 화소에 대응하는 첫번째 영상의 각 화소(객체에 속하는 화소)는 객체의 반투명한 부분에 해당하며 반투명 객체영상에 저장된다. 첫번째와 두번째 영상이 이와같이 처리된 후에는 단지 객체(130)의 반투명한 부분만이 반투명 객체양상 영역에 포함된것이다. 필요한 경우에는 반투명한 객체영상의 나머지 부분에 대해서 특정 값이 할당될 수 있다

단계(556)에서는 불투명 객체 영상이 생성된다. 이 단계에서는 두번째 영상내의 해당화소보다 V와 같거나 보다 어두운 하나의 화소에 대응하는 첫번째 영상의 각 화소(객체에 속하는 화소)는 객체 화상(130)의 불투명한 부분에 해당하며 불투명 객체영상(556)에 저장된다.

첫번째와 두번째 영상이 이와같이 처리된 후에는 단지 객체(130)의 불투명한 부분만이 불투명 객체영상 영역에 포함될 것이다. 필요한 경우에는 불투명한 객체 영상의 나머지 부분에 대해서 특정 값이 할당될 수있다.

객체(130)의 불투명한 영상만 필요로 하는 경우, 단계(554)는 수행하지 않아도 된다. 마찬가지로 객체(130)의 반 투명한 부분에 대한 영상만 필요로 하는 경우, 단계(556)는 수행하지 않아도 된다.

또 다른 실시예에서 단계(552)는 단계(540)와 결합되고 단계(542) 및 단계(130)는 제거된다. 곁과적으로 반투명한 객체 영상 혹은 불투명한 객체 영상(혹은 이들 모두)이 얻어지지만 분리된 전체 객체 영상(130)은 얻어지지 않는다.

단계(552), 및 (554) 및 (556) 와 이전 단계를 결합하는 것도 본 발명에 속한다.

영상이 분리된 후에는(220) 하나 이상의 목표 객체 특징(target object features)의 계산이 이루어진다. 제 2 도의 단계(230)를 참조하라. 계산 단계(230)은 컴퓨터(140)에 의해 이루어지며 목표 객체의 특징을 결정하기 위해 이용된다. 이러한 결정은 단계(220)에서 얻어진 목표 객체의 분리된 영상(130)에 대해서만 단계(230)를 수행하는 신규한 과정을 통해 성취된다. 분리된 목표 객체 영상의 각 화소에 대해 특성이 결정된다. 예를 들어, 이러한 특징은 한 화소의 색상 자체에 의해서만 얻어질 수도 있고 그 화소 및 이와 인접한 다른 화소와의 관계에 의해서도 얻어질 수 있다. 특성은 색상, 형태, 텍스처, 목표 객체의 밀도등을 의미하며, 이들 이외에도 여러 특징들이 존재할 수 있다. 일반적으로 이러한 특징은 하나 이상의 특징치(feature values)로서 나타낼 수 있다.

특징이 결정된 후(230) 이들 특징 혹은 일련의 특징은 특성화(characterize)되어야 한다(240). 특성화에 있어 주로 사용되는 방법중 하나로 막대그래프 방법을 들 수 있다(240). 아래 제 6 도의 설명 막대그래프 방법 이외에도 여러 다양한 방법이 있을 수 있다.

예를 들어, 중간특징치(median feature value), 계산된 특징치의 일차 통계 지수(평균치) 및/또는 이차 이상의 통계 지수(분산, 표준편차등), 또는 계산된 특징치를 통해 얻어질 수 있는 어느 통계 지수라도 특성화에 사용될 수 있다. 이들 이외의 특성화는 본 발명이 속하는 분야의 전문가라면 쉽게 유추할 수 있을 것이다.

알고리즘(200) 중 정규화 과정(250)은 객체로부터 얻어진 특성화된 특성(Characterized features)이 객체 영상의 크기와 무관하게 하는 과정이다. 또한 하나의 영상 내에 여러개의 객체가 포함된 경우에도 본 과정을 통해 객체의 수에 무관하게 객체를 인식하게 된다. 정규화 과정 (250)은 하나의 계산된 특징 특성치 (computed feature characterization)뿐 아니라 여러 특성치에 대해서도 실행될 수 있다.

바람직한 정규화 과정은 영상내의 객체의 면적이나 길이에 대한 것으로서 이경우 객체의 면적은 객체 영상이 차지하는 화소의 수로로서 정의할수 있으며(아래 제 7 도의 설명 참조) 객체의 길이는 객체 영상의 경계선상의 화소의 수로서 정의할 수 있다(아래 제 12도의 설명 참조).

이외에도 예를 들어 분리된 객체 이미지로 부터 도출된 임의의 다른 특성에 입각한 정규화와 같이 여러가지 정규화 방법이 있을 수 있으며 이들 또한 본 발명의 범위에 속한다.

본 발명의 또 다른 신규한 사향은 시스템(100)의 학습 기능을 들 수 있다. 목표 영상 객체의 정규화된 특성치(normalized charaterization)가 미리 저장된 기준 정보(reference information)와 일치하지 않는 경우(260 단계), 이 객체는 인식되지 않는다. 이런 경우 장치는 정규화된 특성치가 어떤 저장 조건(storage criteria)을 만족하는지(255) 검사하게 된다(251). 만일 정규화된 특성치가 저장 조건을 만족하는 경우에는(255) 이 특성치는 목표 영상 객체와 관련된 다른 정보와 함께 기준 정보로서 저장된다(270). 따라서,이 객체(131)가 다음번에 시스템(100)에 의해 영상화되면, 이 객체는 저장된 기존 정보와 비교되어 인식될 것이다. 제 9 도에 대한 설명을 참조하라. 학습을 통해 시스템(100)은 이 시스템이 인식하도록 하드-와이어(hardn wire) 즉 사전프로그램(preprogram)되지 않은 객체에 대해서도 인식할 수 있는 능력을 가지게 되며 결과적으로 보다 더 유연한 장치로 된다. 이미 인식된 객체에 대한 정보를 기준 정보로서 저장하기 전에 이것을 정규화하여 이후에 기준 정보를 얻는데 사용된 객체의 수와 다른 갯수의 객체(131)가 영상화되더라도 이를 인식할 수 있게 한다.

저장 조건은 시스템(100)의 설계에 의해 설정될 수 있는 모든 종류의 저장 조건이 가능하다. 저장 조건(255)을 선택하거나 만들어내는 능력은 사용자 인터페이스(160)을 통해 사용자에게 일임될 수도 있다. 가장 단순한 저장 조건의 예로서 미인식된 객체의 모든 정보를 데이타 베이스(270)에 그대로 저장하는 조건을 생각할 수 있다. 혹은 (1)영상(210)의 화질이 좋은가의 여부, (2)영상의 많은 영역을 목표 객체가 차지하고 있는가의 여부, (3)특성치가 데이타 베이스 내에 이미 저장된 다른 목표 객체들에 대한 기준의 특성치와(제 8 도에 기술된 단계(840)의 의미로) 충분한 유사성을 가지는지의 여부 등이다.

알고리즘(200)중 단계(260)에서 목표 객체의 정규화된 특성치가 기준 객체의 하나 혹은 그 이상의 특성치와 비교된다(200 단계).

목표 객체의 특성치를 구하는 방법에 의해 비교 방법이 달라지게 되며, 특성치를 구하는 방법에 대해서는 위의 단계(240)에서 이미 예시한 바있다.

주로 사용되는 비교법중 하나(260)는 면적 혹은 길이 정규화된 막대그래프를 비교하는 방법이다.

기준 객체의 하나 이상의 특성치가 메모리 저장 장치에에 저장되며(270 단계), 저장 장치는 컴퓨터(140)내에 설치될 수도 있고 별도의 메모리 저장 장치(144)를 둘 수도 있다. 바람직한 방법(270)으로는 객체 특성을 특성화하는 일련의 면적 정규화된 특성치 막대그래프(a series of area normalized feature histograms)를 저장하는 방법이다.

이들 일련의 면적 정규화된 막대그래프 각각에는 유일한 객체 유형 식별자(unique object type identifier)가 연관된다. 면적 정규화된 특성 막대그래프를 저장하는 바람직한 방법은 정규화된 특징 막대그래프 즉, 상이한 특성값의 정규화된 발생 빈도의 벡터(a vector of normalized feature histograms)를 사용하는 것이다.

제 6 도에 하나의 특성에 대한 막대그래프를 구하는 방법이 흐름도 형태로 도시되어 있다. 이 예에서 사용된 특징은 색상이지만, 이외에도 분리된 목표 객체 영상으로부터 얻을수 있는 어떤 정보라도 이용할수 있다. 본 발명에서는분리된 객체 영상(130)으로부터만 특징을 추출하는 것을 염두에 두어야 한다. 특징 막대그래프는 또한 분리된 객체에 대한 다른 정보로 부터 도출될 수 있다. 예를 들면, 색상은 컬러맵의 다른 특성으로 부터 도출될 수 있다.

막대그래프를 구성하기 위해, 먼저 객체에 대한 영상화(제 2도의 단계 210)가 이루어지고(제 2도의 단계 210) 목표 객체(130)에 대한 분리가 이루어진다(단계 220). 그런 다음 통상의 방법(230)에 의해 막대그래프화하고자 하는 특성이 계산/결정되는데 이는 주로 화소 단위로 이루어진다(혹은 하나 컬러 하나씩의 화소에 대해 행하여 질 수도 있으며 일정한 크기의 부분으로 나누어서 계산할 수도 있다). 그후 통상의 방법에 의해 특성 F1의 막대그래프(650)를 구성한다(단계 640).

일례로서, M개 구간의 막대그래프 어레이가 0 으로 초기화된다. 그 후 화소단위로 각 화소의 색상을 계산한다.

개개의 화소에 대해 계산된 색상을 양자화하여 이것이 M개의 구간 중 어느 하나, 예를들어 Bin(x)에 속하도록 한다. 이때 Bin(x)의 값은 하나 증가한다 (Bin(x) = 이전 Bin(x)+1). 이러한 과정은 분리된 객체 영상(130)내의 모든 화소에 대해 수행되거나 이들 화소의 선택된 서브세트에 대해 실행된다.

색상 막대그래프(650)는 분리된 객체 영상(130)내에서 컬러 표현(색상)이 분포되었는가를 나타낸다. 다시 말해, 각 구간의 내용은 객체 영상(130)내에 얼마나 많은 화소가 상기 구간에 의해 표현되는 색을 가지고있는가를 나타낸다, F1이 다른 특성을 나타내는 경우에는 각 구간의 내용은 객체 영상(130)내에서 이 특징이 어떻게 분포되어 있는지를 나타낸다. 각 구간의 내용은 객체 영상(130)내에 얼마나 많은 화소가 상기 구간에 의해 표현되는 특성 값을 갖는지를 나타낸다.

제 7 도는 막대그래프 특징을 정규화하는 과정을 나타내며 또한 이들 정규화된 특성 막대그래프가 객체 영상(131)의 크기나 수에 영향을 받지 않는 것을 보여 주고 있다.

영상(320)은 하나의 분리된 객체(131) 영상(130)이 분리된 컬러 영상이며, 영상(720)은 객체가 3개인 경우의 분리된 컬러영상으로, 3 개의 분리된 객체 이미지(130)를 보여준다. 제 6 도에 나타낸 바와 같은 방법으로 하나 이상의 특성(F1)이 계산되어 두개의 막대그래프(745) 및 (740)을 각각 얻었다. 단계(750)에서는 각각의 막대그래프(745,740)가 동일한 정규화 방법에 의해 정규화되었다. 본 발명은 종 종래와 달리 각 영상(320,720)내의 객체(130)의 분리된 영상을 정규화하므로, 결과적 인 정규화된 막대그래프(760,770)는 동일하다. 이러한 결과는 다수의 객체(131)를 포함하는 영상(720)의 막대그래(740)의 각 구간내에서의 화소 계수 값이 소수의 객체(131)를 포함하는 계수값에 비해 크더라도 마찬가지이다.(하나의 영상(720)에서의 객체(131)가 다른 영상(720)에서의 객체(131)보다 크더라도 결과는 동일함을 유의해야 한다.) 예를 들어, 면적 정규화는 대략 동일한 정규화된 막대 그래프(760,770)를 생성하는데, 그 이유는 분리된 영상이 제각기의 막대그래프에 기여하는 정도는 그의 면적에 의해 나뉘어 지기 때문이다.

면적 1은 컬러 영상(320)내의 분리된 객체 영상 면적(130)을 나타내며, 막대그래프(745)의 모든 구간의 값을 더하여 구할 수 있다.

면적 2는 영상(720)내의 분리된 객체 영상 면적(130)을 나타내며 동일한 방법으로 구할 수 있다. 막대그래프(745)의 각 구간의 값을 면적 1의 값으로 나누어서 정규화된 막대그래프(760)을 구할 수 있으며 막대그래프(770)을 구하는 경우에도 동일한 방법으로 구할 수 있다. 상기 면적 정규화된 막대그래프(770)는 막대그래프(740)를 구간마다 면적2로 나눔으로써 계산된다. 이와 같이 계산 행하여 진 후, 면적 정규화된 막대그래프(760)는 면적 정규화된 막대그래프(770)에 거의 동일하며, 제 8 도에 도시된 바와 같이 용이하게 비교된다(260).

분리된 객체 영상(130)에 대해서 얻을 수 있는 모든 종류의 성질에 대하여 정규화가 가능하다. 면적, 길이, 크기 등이 그 예이다.

객체의 형태를 나타내는 여러가지 종류의 척도에 대하여 정규화를 할 수있으며 그 예로는 이차 및 삼차 모멘트, 경계 사각형의 크기, 객체 영상(130)의 볼록 형상 등을 들 수 있다.

제 8 도는 알고리즘(200)중 분리된 객체 영상(130)을 하나 이상의 미리 저장된 정규화된 기준 특성치(760,770)와 비교하는(840) 단계(260)를 나타낸다. 특성치(810)는 목표 객체를 포함하는 어떤 분리된 영상의 정규화된 기준 특성치를 나타낸다. 이 특성치는 제 7도에서 설명한 바와 같이 하여 얻어진다. 블럭(820)은 제 9 도에서 설명한 방법으로 얻어진 정규화된 기준 특성치들의 리스트(데이타 베이스)이다.

각각의 정규화된 기준 특성치 표현은 참조번호(831) ...(837)등으로 표시되었다. 본 예에서는 단지 일곱개의 정규화된 기준 특성치를 나타내었으나 실제 이용에 있어서는 수백 혹은 수천개로 매우 커질 수 있다.

각각의 객체는 반드시 하나 이상의 정규화된 기준 특성치를 가져야 하지만, 둘 이상의 값을 갖는 것도 가능하다. 블럭(820)내의 각각의 면적 정규화된 특성치에는 이 정규화된 특성치가 유래된 객체의 식별자가 연관된다. 특성치(810) 및 기준 특성치(820)는 하나의 특성치로 제한되지 않고 다중 특성치로 표현될 수 있다. 이 경우, 목표 객체의 영상으로 부터 다중 특성치가 얻어지며, 각각의 기준 객체는 다중 특성치에 의해 표현된다 이 경우 역시 각각의 이러한 특성치 집합에는 유일한 객체 식별자가 연관된다,(제 1c 도의 설명 참조)

블럭(840)은 목표 특성치를 기준 특성치와 비고 정합하는 방법을 나타낸다. 바람직한 특성치 비교 정합 방법은 목표 막대 그래프와 기준 막대그래프의 거리 측정치(distance measure) L1을 구하는 것이다. 예를 들어, 목표 막대그래프(810)를 벡터 T 라 하고 기준 막대그래프를 R1 에서부터 RN 이라 하자. 이 경우 목표 막대그래프와 가장 잘 일치하는 것은 T와 R1...RI...RN간의 거리 L1(Manhattan 거리라고도함)을 최소로 만드는 RI으로 정의된다. 즉, RI는 다음 식을 최소로 하는 기준 막대그래프이다.

Dist (T-RJ),...., J=1,2,...,N

이러한 정합 알고리즘은 최단 이웃 분류범(nearest neighbor classification)이라 불린다. 통상의 거리 측정 특성을 보여주는 어떤 거리 측정 기법(종래 기술)도 여기서 사용될 수 있다. 또한 막대그래프 교집합(histogram intersection)과 같이 거리 측정치로서의 성질을 가지지 않는 측정치를 사용하는 것도 가능하다. 목표 막대 그래프 T 및 기준 막대그래프 R1...RN 의 구성 요소(component)에는 가중치가 부여될 수 있어, 구성요소 마다의(component-wise) 가중치 거리 측정이 행하여 질 수 있다.

목표 객체와 기준 객체가 다중 막대그래프로 표현되는 경우, 바람직한 표현법은 다중 접합 막대그래프(multiple concatenated histograms) T 와 R' ... RN' 을 포함하는 고차 벡터(higher dimensional vector)로 표현하는 것이다. 이러한 접합 목표 막대 그래프 T' 에 최적의 접합 기준 막대그래프는 T' 와 R1'...RN' 간의 거리 L1 이 최소가 되는 집합 기준 막대그래프 RI' 로 정의된다. 이 경우, 거리 L1 에서, 상이한 가중치가 상이한 특징 막대그래프를 표현하는 상이한 서브벡터에 할당될 수 있다. 이 경우에도 앞에서와 마찬가지로 어느 거리 방법이라도 사용될 수 있으며, 거리 속성을 갖지 않는 측정 방법, 예를 들어 막대그래프 교집합등도 사용될 수 있다. 목표 막대그래프 T' 및 기준 막대그래프 R1',.. RN'의 구성요소에는 가중치가 부여 될 수 있어, 구성요소 마다의 가중치 거리 측정이 행하여 질 수 있다.

본 발명에서는 도시된 객체(131)가 한 가지 유형일 것을 의도하였다. 객체 A와 객체 B등 두종류 이상의 객체가 제공되는 경우에는 예측할 수 없는 결과를 초래할 수 있다, 가장 가능성있는 결과는 인식불가능으로 판단되는 것이나 객체를 인식하는 수단으로 거리를 사용하므로 인식 결과는 (1)객체 A,(2)객체 B,(3)객체 A 이거나 객체 B등으로 인식될 수도 있다. (3)과 같은 인식 결과는 Grand Snlith 사과와 Golden Delicious 사과의 경우과 같이 섞여있는 객체가 유사한 외관을 갖는 경우 나타날 수 있다. 블럭(820)의 데이타 베이스내에 포함된 다른 객체 C로 인식될 가능성은 거의 없다.

제 9 도는 소정의 저장 조건(255)을 만즉시키는 접합 기준 막대그래프를, 객체의 이상을 기준 영상으로서 기억 장치(270)에 추가하여 시스템을 학습시키는 방법 단계(910)를 보여주는 흐름도이다. 학습 방법(910)에 의해 시스템(100)은 본래 기억 장치(270)에 저장되지 않았던 새로운 객체/향목에 대해서도 학습할 수 있다. 학습 과정(910)은 인식되지 않는 객체/항목의 영상(920)을 시스템에 제공하는 것으로 시작한다. 앞에서 설명한 바와 같이 영상이 분리되고(220) 막대그래프화(640)하기 위한 특징들이 결정된 후(230) 정규 막대그래프(750)가 비교된다(260). 목표 정규화 막대그래프가 기억 장치내의 기준 정규화 막대그래프와 일치하는 경우에는 목표 영상이 인식된다. 일치하지 않는 경우 방법(910)은 목표 정규화 막대그래프가 저장 조건(255)을 만족시키는지 체크하게 된다. 저장 조건이 만족되지 않으면, 방법(910)은 종료한다(940). 목표 정규화 표준 막대그래프가 저장 조건(255)을 만족시키는 경우에는 이우 다시 영상화된 경우 인식할 수 있게 하기 위해 막대 그래프를 기억 장치(270)에 저장한다.

객체 131)의 영상(920)을 획득할 때, 차후에 이 객체(131)의 다른 실예를 인식할 시에 사용하는 여러가지 장치 및 방법을 그대로 사용하는 것이 중요하다. 제 4 도에 이와 같은 장치(편광 필터(410)와 카메라 롄즈의 편광막)의 바람직한 실시예가 설명되어 있다. 객체 (131)는 예상하지 못한 반사 효과(이를테면 눈부심등)를 보일 수 있으므로 편광은 객체의 인식 및 학습 과정에서 매우 중요하다.

대화형 입출력 장치(160)를 통해서도 학습이 가능한데 직접 물건을 다루는 직원이나 통제실에서 전 과정을 통제하는 관리인에 의해 학습이 이루어진다. 이하 제 15 도와 관련하여 이에 관해 설명한다.

하나의 영상으로부터 둘 이상의 특징을 추출해 내고 객체 인식 과정에서 둘 이상의 특성치를 이용하는 방법에 대한 흐름도를 제 10 도에 나타내었다. 이 방법은 객체(130) 및 배경(311)의 영상(320)으로부터 시작한다. 앞에서와 마찬가지로 목표 영상(130)이 배경 영상(311)으로부터 분리된다(220). 앞에서 색상 F1(230)을 추출해 낸 것과 마찬가지 방식으로 분리된 목표 영상(320)으로부터 다수의 특징을 추출해 낸다. 블럭(1010...1020)은 추출된 다수의 특징을 나타낸다 이러한 특징으로는 채도(saturation ), 명도( intensi ty ), 텍스처(texture)(제 11 도에서 설명), 경계 형상(boundary shape), 밀도(density)등이 있다. 색상에 있어서는 HSI 표현이 본 발명의 목표에 적합하다. 이외에도 RGB, Munsell, 반대 표현법등 색상 표현법이 있다.

F1-FN의 특징들이 추출된 후에는 이들을 막대그래프화하고 정규화한다. 앞에서 설명한 면적 정규화 이의에도 여러 종류의 정규화방법이 있으며, 특성마다 적당한 정규화 방법을 사용하는 것이 바람직하다. 제 12도의 형상 막대그래프의 예를 참조하라.

단계(840)에서는 F1-FN까지 추출된 특징을 각각 비교한다.

이에 관하여는 제 8 도에서 이미 설명하였다. (특성(Fl-FN)의) N개의 막대그래프는 하나의 긴 막대그래프로 집합되고 목표 집합 막대그래프와 기준 집합 막대그래프간의 거리에 입각하여 비교된다. 이러한 가중치 계산에 있어, 각각의 막대그래프에 대해 각기 다른 가중치 w1-wN을 주어 계산할 수도 있다. 이와 달리, 거리 측정에 있어, 접합 막대그래프의 각각의 구성요소에 개별적인 가중치가 부여될 수 있다. 앞서 설명한 바와 같이 특징 F1-FN은 색상, 명도, 채도, 텍스처, 형상등을 포함하며 이들은 각기 그 객체에 대한 식별력이 다르므로 이들 특징에 대해 가중치 wl-wN이 사용될 수도 있다. 또한, 개개의 특성(예를 들어,F1)의 모든 구성요소가 동일한 식별력을 갖는 것은 아니다. 따라서, 개개의 특징 막대그래프는 구성요소 단위로 상이하게 가중치 부여될 수 있다,

제 11 도에 객체 인식을 위한 특성으로서 텍스처를 사용한 경우에 대해 나타내었다. 블럭(210)은 텍스처(1120) 특징을 나타내는 객체/항목에 대한 영상을 나타낸다. 앞에서와 마찬가지로 객체 영상을 배경으로부터 분리시킨 후(220), 단계(1140)에서 분리된 영상으로부터 텍스처 특성을 계산한다. 이 텍스처 계산(1140)에는 종래의 어느 텍스처 측정기법도 사용될 수 있다. 그러나, 본 발명에서는 바람직하게 신규한 두가지 계산법을 사용한다.

제 1 의 바람직한 텍스처 계산 수단은 신규한 텍스처 측정방법 A로서, 이 A는 먼저 임계치 Tb를 설정하고 분리된 객체를 종래의 알려진 기술에 의해 이진 영상(binary image)으로 변환한다. 만일 영상의 밝기가 Tb보다 큰 경우에는 이진 영상을 1로 하고 Tb보다 작은 경우에는 이진 영상을 0으로 한다. 이외에도 다른 이진화 수단을 이용할 수 있다. 결과적으로 얼룩진 흑백 영상을 얻을 수 있는데 각각의 얼룩(blob)은 폭(width)과 길이(length)로서 특성화될 수 있다. 하나의 얼룩에 대한 텍스처 측정치(WE)는 다음과 같이 정의된다.

폭(width )

특이성(eccentricity) = 폭/길이

이것은 영역 계산(region calculations)을 사용하여 구한 텍스처 측정치이다.

제 2 의 바람직한 신규의 텍스처 측정방법 B는 다음과 같다.

즉, 영상이 종래의 방법을 사용하여 [-1 2 1] 마스크로 콘벌브(convolve)되며, 이 콘벌루션은 수직 및 수평 양방향에 대해 수행되는데 각각 Vconv, Hconv로서 나타낸다. 콘벌루션의 결과 어떤 임계치 T2를 넘는 화소 x에서, 다음의 크기(magnitude) 및 방향(direction)을 가지는 벡터가 텍스처 측정치로서 정의된다.

크기 = sqrt( Vconv(x)**2 * Hconv(x)**2)

방향 = arctan(Vconv(x) / Hconv(x))

이것은 에지 계산(edge calculations)을 사용하여 결정되는 텍스처 측정치이다.

텍스처 특징은 신규한 방식; 즉, 분리된 객체 영상(1120)만에 대해 막대그래프화 될 수 있다. 앞서 설명한 바와 같이, 텍스처 측정치는 분리된 영상에 대해 막대그래프화된다. 텍스처 측정방법 A의 경우,(폭-특이성) 막대그래프로 표현되며, 이때 폭 및 특이성은 앞에서 설명한 바와 같다. 텍스처 측정 방법 B의 경우,(크기-방향) 막대그래프로 표현되며, 이때 크기 및 방향은 앞에서 설명한 바와 같다. 방향 막대그래프의 경우, 방향 막대그래프에서 최대 방향을 계산하고, 이 피크치가 중앙에 오도록 전체 막대그래프를 순환 자리이동(cyclically shift)시키면, 이 방향 막대그래프는 객체의 위치 및 각도에 무관하게 일정하게 된다.

텍스처 막대그래프는 계수값(count)에 의해 정규화된다. 여기서, 계수는 분리된 객체 영상(1120)내의 각각의 화소일 수도 있고, 분리된 객체 영상(1120)에서 실제로 텍스처 특징을 갖는 화소일 수도 있다. 본 기술 분야에서 통상의 지식을 지닌 자라면, 이 텍스처 영역으로부터 추출된 다른 형상 측정치가 사용될 수도 있음을 인식할 것이다.

제 1도 도는 인식 특징으로서 형상을 사용하는 방법 단계를 나타내는 흐름도이다. 먼저 앞에서와 마찬가지로 영상(210)에서 인식하고자 하는 객체를 분리시킨다(220). 다음으로 객체영상(130)내의 어느 화소가 경계 화소인지 결정한다(1210). 화수 P의 인접 화소중 하나 이상의 화소가 배경 영상(311)에 속하면 이 화소 P는 경계화소에 해당한다. 다음으로 각각의 경계화소 P에 대하여 경계 형상 속성(boundary shape property) (1220)을 결정한다. 본 발명에서 사용한 바람직한 영상 척도로는 화소 P에서의 국부 경계 곡률(loca1 boundary curvature)이다. P 점을 중심으로 그 주위의 몇개의 경계화소를 일부분으로 하는 원의 반경 R을 컴퓨터(140)로 계산한다. 곡률 1/R은 화소 P에서의 국부적인 변화의 정도를 나타낸다. 곡률 0은 직선 경계를 나타내며, 높은 곡률은 국부적으로 꼬불꼬불한 경계를 나타낸다. 사과는 대체로 일정한 곡률을 가지며, 오이는 낮은 곡률을 가지는 부분, 낮은음의 곡률을 가지는 부분, 두개의 높은 곡률을 가지는 부분(오이의 끝부분)으로 이루어진다. 이외에도 여러 가지 형상 측정치(shape measures)을 정의할 수 있다.

다음으로 경계 형상 특성을 막대그래프화한다(1230). 이러한 막대그래프화는 경계화소 P의 계산된 경계 속성에 입각하여 행하여진다. 여기에서는 전체 영역에 대해 막대그래프화하지 않고, 객체 영상(130)의 경계를 구성하는 화소 P의 집합에 대해 막대그래프화한다.

형상 막대그래프에 대한 정규화는 길이 정규화를 행하며, 막대그래프(1235)의 각 구간을 전체 경계 화소의 수로 나눈다. 하나의 객체 영상(130)에 대한 길이 정규화 형상 막대그래프는 다수의 객체 영상(130)에 대한 길이 정규화 막대그래프와 동일하다. 길이 정규화 객체 영상 경계 형삭 막대그래프는 본 발명의 신규한 특성이다.

객체 영상의 경계 길이와 관련된 다른 정규화 방법이 가능하다.

밀도는 중요한 인식 특성으로 이용될 수 있다.

일파운드의 흰 양파와 일 파운드의 버섯의 중량은 같으나 버섯의 경우 양파보다 더 큰 부피를 갖는다.

따라서, 중량과 부피간의 관계는 매우 중요하다. 객체의 밀도를 구하는 식은 다음과 같다.

밀도 = 중량 (객체 131) / 부피 (객체 131)

제 13 도는 객체(131)의 중량 측정 장치(170)에 연결된 컴퓨터(140)의 블럭도이다. 중량 측정 장치(17o)에서 측정된 중량은 컴퓨터(140)에 전달된다. 바람직한 실시예에서 시스템(100)는 다음과 같이 정의된 밀도 특성을 사용한다.

밀도 = 중량(객체(130)) / 면적(분리된 객체(131))

여기에서 정의한 밀도는 통상적인 의미의 밀도와 다르며, 오히려 압력 개념에 해당한다. 이것을 평균 투사 밀도(average projected density) 라고 한다.

객체(131)의 실제 밀도는 개략적으로구할수있다. 객체(130)의 경계 윤곽선(boundary contour(s))은 타원으로 근사화될 수 있으며, 객체(131)의 부피(volumn(s))는 근사화된 타원을 회전시켜 얻어지는 타원체로 근사화될 수 있다. 따라서 중량/부피의 공식을 사용해서 개략적인 밀도를 구할 수 있다.

2차원 평면상에 투사된 객체 영상(130)으로부터 부피를 유추하는 여타의 수단도 본 발명의 범주에 속한다.

동일한 특징 F1(예를 들면 색상)을 표현하는 다중 막대그래프를 통해 목표 객체를 인식할 수도 있다. 제 14도는 분리된 객체 영상(130)이 두개의 상이한 영역, 즉 잎사귀(1410)와 포도송이(1420)로 구성된 영상(1405)을 나타낸다. 영상(1405)는 객체(130)와 배경(311)을 포함한다. 객체 영상(130)은 첫번째 객체 영역(1410)과 두번째 객체 영역(1420)으로 분리된다. 이들 객체 영역은 분리 알고리즘을 사용하여 정의된다. 바람직한 알고리즘은 또한 면적 정규화 색상 막대그래프를 구하여 두개 이상의 명확히 구분되는 피크값이 존재하면, 이 객(1420) 영역에 대응하여 앞에서 설명한 바와 같이 기준 막대그래프와 비교된다. 이때 영역(l410) 및 (1420)의 상대적인 위치(1430)를 정보화하여 객체를 인식하는 데 이용할 수도 있다(제 8 도 참조).

이와 같은 방법으로 전 영역이 균일한 색상을 지니지 않은 객체에 대해서도 인식을 할 수 있다. 전형적인 예로서 잎사귀 부분을 가진 당근을 들 수 있다.

제 15 도는 선택사양적 사용자 인터페이스(optioal human interface)(160)를 나타낸다.

사용자 인터페이스는 디스플레이 장치(164)를 가지고 있으며 이것을 통해 객체(131)의 여러 가지 가능한 정체(identities)(1510, 1520, 1530, 1540,)를 그림으로(혹은 다른 방법으로) 보여준다(164). 대개의 경우 인식하고자 하는 객체(131)는 기준 데이타 베이스(270)와 비교하여(260) 어느 객체에 해당하는지 식별할 수있다. 그러나 어떤 경우에는 목표 객체 정규화 막대그래프가 둘 이상의 기준 막대그래프에 대략 동일하여 둘 이상의 기준 막대그래프에 정합하는 경우가 있다. 이 경우에는 종래기술과는 달러 사용자 인터페이스(160)에 의해 사용자가 직접 최종 결정을 하게 할 수 있다. 바람직한 실시예에서는 사용자 인터페이스(160)가 네가지 혹은 그 이하의 선택(l510,1520,1530,1540)을 제공한다. 차후에 설명하듯이 1개 이상의 선택이 선택사양적으로 요구될 수 있다. 사용자는 접촉, 음성, 마우스, 키보드등의 수단을 통해 결정 결과를 컴퓨터(140)에 전달한다.

또한 사용자는 인터페이스 수단(버튼)(162)을 통해 막대그래프가 기준 막대그래프에 추가되어야 할지의 여부, 즉, 시스템이 이 데이터에 대해 학습하여 객체(131)의 실례가 장차 이 시스템(100)에 제공되었을 때 객체 실례를 인식(혹은 더 낫게 인식)할 수 있도록 해야 하는지의 여부를 지시할 수 있다.

제 16 도는 브라우징 키(browsing key)와 같이 사용자가 객체의 정체를 식별하게 해주는 기능을 제공하는 인터페이스(160)을 나타낸다. 브라우징 키란, 사용자가 지정한 키워드나 키 특징에 의해 데이타 베이스(820)내에 저장된 객체 정체에 대한 검색 범위를 점점 좁혀 나갈수 있는 키를 말한다.이런 키의 예로서 화면(1610)에 디스플레이 되는 바와 같이 Red(1612 ), Green(1613 ), Yellow(1614 ), Brown(16l5 ), Round(1616) Straight(1617). Leafy(1618), Apple(1619 ), Cytrus Fruits(1620), Peppers(162l), Potatos(1622) 등이 있다. 사용자는 접촉, 음성, 마우스, 키보드 등의 수단을 통해 정보를 입력할 수 있다.

키 (1600 )는 화면(1610 )과 같은 형태 이지만 디스플레이되는 키(16l2-1622)와 내용이 보다 상세한 다른 화면으로 응답하거나 최종적인 결정이 내려질수 있는 화면(1630)을 표시한다. 만일 키(1619)(예를 들어 사과)가 선택되었다면 사용자 인터페이스(1600)는 사용자에게 화면(1630)을 제공하여 객체(131)의 정체에 대한 보다 세부적인 사항(스케치, 사진, 문장)(1631-1641)을 제공한다.

사용자는 여러 가지 다양한 입력 수단을 통해 스크린상에서 선택할 수 있다, 다른 사용자 친숙 방법 혹은 수단(human-friendly method or means)이 사용될 수도 있다.

제 17 도는 선택사양으로서 객체의 가격을 산정하는 시스템(100)의 블럭도를 나타낸 것이다. 중량 측정 장치(170)는 객체(131)의 중량을 측정하는 데 사용된다. 시스템(100)은 이제까지 설명한 방법으로 객체를 인식한다. 일단 객체가 인식되면 객체의 가격을 결정할 수 있다. 객체의 가격을 책정하는데 있어서 필요한 경우 중량(170)와 갯수정보가 이용되기도 한다 객체의 가격은 메모리(144)에 저장된다. 가격장치(1710)는 사용자에게 가격을 표시하기 위해 시스템(100)에 연결된다. 가격 장치(1710)는 프린터 장치, 디스플레이 장치 혹은 다른 임의의 유형의 가격 통신 수단이 될 수 있다.

대화형 출력장치(160)에 가격을 표시하는 것도 물론 가능하다.

가격이 파운드(pound)에 의해 지정된 경우 컴퓨터(140)는 가격을 다음과 같이 계산한다.

가격 = 중량 * (객체(131)의 파운드당 가격)

가격이 갯수에 의해 지정된 경우 컴퓨터(140)는 가격을 다음과 같이 계산한다.

가격 = 갯수 * (객체(131)의 개당 가격)

항목의 갯수는 사용자가 직집 입력하거나 장치적으로 추정될 수도 있다.

사용자가 직접 항목의 갯수를 입력하는 경우 물건이 갯수단위로 팔리게 되면 시스템(100)는 사용자에게 갯수를 입력하도록 프롬프트를 표시한다. 갯수를 자동으로 추정하는 데에는 두가지 방법이 있다.

a) 시스템(100)이 메모리상에 객체(131)의 평균 중량을 미리 저장하고 있다가 객체(131)의 정체가 분리된 객체 영상(130)으로부터 확인된후 다음 식으로 갯수를 계산한다.

갯수 = 중량 / 평균 중량(객체(131))

b) 시스템(100)은 분리된 객체 영상(130)의 갯수를 추정한다.

갯수 = 분리된 객체 영상(130)의 갯수

Claims

소정 시간 주기 동안 일정한 다색광 주파 분포(a non-monochromatic light frequency)를 갖는 것으로서 객체(object)를 조명하는(for illuminating) 광원(a light source)과; 목표 객체 영상과 배경 영상을 포함하는 장면 영상 (an scene image including a target object image and a background image)을 생성하는 시각 입력 장치(visual input device), 메모리 저장 장치, 상기 장면 영상내의 배경 영상으로부터 객체 영상을 분리하는(for segmenting) 알고리즘을 구비한 컴퓨터 장치(a computer system)와 분리된 기준 객체와 연관된 특성(feature)을 제각기 갖는 것으로서, 상기 컴퓨터 메모러 저장 장치내에 저장되는 다수의 정규화된 기준특성치 (a plurality of reference normalized characterization)와 상기 알고리즘에 의해 상기 장면으로 부터 분리된 목표 객체 영상의 특징을 제각기 갖는 하나 이상의 정규화된 목표 특성치(one or more target normalized characterizations)을 포함하여, 정규화된 목표 특성치와 하나 이상의 정규화된 기준 특성간의 비교를 통해 목표 및 기준 특성치가 정합할 때, 상기 목표 객체가 연관된 기준 객체로서 인식되도록 구성한 객체 인식 장치.
제 1 항에 있어서, 상기 특징은 색상(hue)인 객체 인식 장치.
제 1 항에 있어서, 상기 특성치는 막대그래프(histograms)인 객체 인식 장치.
제 1 항에 있어서, 상기 특성치는 색상 막대그래프인 객체 인식 장치.
객체와 배경으로 구성되는 장면을 조명하고, 소정 시간 주기동안 일정한 다색광 주파수 분포를 갖고, 제 1 조명 레벨과 상기 제1 조명 레벨보다 낮은 제 2 조명 레벨로 상기 장면을 조명하도록 제어되는 광윈(a light source)과; 메모리 저장 장치(a Memory storage)와, 목표 객체 영상 및 배경 영상을 포함하는 장면 영상을 생성하는 시각적 입력 장치(a visual input device)와, 상기 제 1 조명 레벨로 얻어진 장면 영상과 상기 제 2 조명 레벨로 얻어진 장면 영상을 비교하므로써 상기 장면 영상내에서 목표 객체 영상을 배경 영상으로부터 분리하는 알고리즘을 구비한 컴퓨터 장치(a computer system)와, 분리된 기준 객체와 연관된 특징을 제각기 갖는 것으로서, 컴퓨터 메모리 저장 장치에 저장되는 다수의 정규화된 기준 막대그래프(a pluralily of reference normalized histograms)와; 분리된 목표 객체 영상의 특성을 제각기 갖는 것으로서, 상기 정규화된 기준 막대그래프와 동일한 방식으로 정규화되는 하나 이상의 정규화된 목표 막대그래프(one or more target normalized histograms)를 포함하여, 상기 정규화된 목표 막대그래프와 상기 하나 이상의 정규화된 기준 막대그래프간의 비교를 통해 상기 정규화된 목표 막대그래프와 기준 막대그래프의 특징이 정합된 경우 상기 목표 객체가 연관된 기준 객체로서 인식되도록 구성한 객체 인식 장치
제 5 항에 있어서, 상기 정규화가 면적 정규화(area nomalization)인 객체 인식장치.
제 5 항에 있어서, 상기 정규화가 길이정규화(length normalization) 객체 인식 장치.
제 5 항에 있어서, 상기 정규화는 분리된 객체 영상으로부터 추출된 측정치(a measure)에 관한 정규화인 객체 인식 장치.
제 5 항에 있어서, 상기 특징은 색상이고, 상기 색상 특징은 면적 정규화되는 객체 인식 장치.
제 5 항에 있어서, 상기 특징은 채도(saturation)이고, 상기 채도 특성은 면적 정규화되는 객체 인식 장치.
제 9 항에 있어서, 제 2의 특징은 채도이고, 분리된 영상의 정규화된 객체 채도 막대그래프도 정규화된 기준 채도 막대그래프에 정합되어야 객체가 인식되는 객체 인식 장치
제 5 항에 있어서, 상기 특징은 텍스처(texture)이고, 따라서 목표 텍스처 막대 그래프가 기준 텍스처 막대그태프에 정합되어야 목표 객체가 인식되는 객체 인식 장치
제 12 항에 있어서, 상기 텍스처는 영역 계산(region calculation)을 사용하여 결정되는 객체 인식 장치.
제 12 항에 있어서, 상기 텍스처는 에지 계산(edge calculation)에 의해 결정되는 객체 인식 장치.
제 7 항에 있어서, 상기 특징은 형상(shape)이고, 따라서 목표 형상 막대그래프가 기준 형상 막대그래프에 정합되어야만 상기 목표 객체가 인식되는 객체 인식 장치.
제5항에 있어서, 목표 객체의 중량을 측정하는 장치(a scale)와: 컴퓨터 메모리에 저장되는 분리된 기준 객체의 평균 투사 밀도(a reference segmented object average projected density of the object)와, 분리된 목표 객체 투사 밀도(target segmented object projected density)를 더 포함하여, 상기 목표 객체 투사 밀도는 상기 기준 투사 밀도가 정합되어야 상기 목표 객체가 식별되도록 구성한 객체 인식 장치.
제 16 항에 있어서, 상기 평균 투사 밀도는 객체의 중량을 객체의 면적으로 나눔으로써 산출되는 객체 인식 장치.
제5항에 있어서, 상기 목표 및 기준 객체 영상은 모두 편광 필터(a polarizing filter)를 통해서 얻어지는 객체 인식 장치.
제 5 항에 있어서, 상기 목표 객체는 둘 이상의 목표 영역 특성을 갖고, 상기 각 목표 영역 특성은 상기 목표 객체상의 서로 다른 영역을 나타내고, 각각의 목표 영역 특징 막대그래프 및 상기 영역 특징의 상대적인 위치가 컴퓨터 메모리 저장 장치에 저장된 각각의 기준 영역 특성 막대 그래프에 정합된 경우 목표 객체가 인식되는 객체 인식 장치.
제 19 항에 있어서, 상기 목표 객체 영역 특징이 상대적인 위치에 놓이고, 상기 상대적인 위치가 저장된 상대적인 위치에 정합되어야 목표 객체가 인식되는 객체 인식 장치.
제 5 항에 있어서, 객체가 없는 제 1 영상과 객체가 있는 제 2 영상을 얻고 상기 제 1 영상이 상기 제 2 영상과 일치하는 화소 영역에서(at pixel locations) 상기 제 2 영상으로부터 상기 제 1 영상을 냄으로써, 객체 영상으로부터 배경 영상을 제거하여 목표 객체의 면적을 판정하는 객체 인식 장치.
제 5 항에 있어서, 광원이 오프(off)되었을때 제 1 영상이 얻어지고, 광원이 온(on)되었을때 제 2 영상이 얻어지며, 상기 목표 객체 영상은 상기 제1 영상에서 어둡고 상기 제 2영상에서 더 밝은 화소를 선택하므로써 분리되는 기체 인식 장치.
제 5 항에 있어서, 상기 객체가 대량 항목(bulk items)이고, 상기 비디오 입력 장치는 컬러 비디오 카메라(color video camera)인 객체 인식 창치.
제 5 항에 있어서, 상기 객체가 농산물(produce)이고, 상기 비디오 입력 장치는 컬러 비디오 카메라인 객체 인식 장치.
소정 시간동안 일정한 다색광 주파수 분포를 가지며, 제 1조명 레벨과 상기 제 1 조명레벨보다 낮은 제 2 조명 레벨로 객체 및 배경으로 구성된 장면을 조명하도록 제어되는 광원(a light source)과, 메모리 저장 장치와, 목표 객체 영상 및 배경 영상을 포함하는 장면 영상을 생성하는 시각적 입력 장치와, 상기 제 1 조명 레벨에서 얻어진 장면 영상을 상기 제 2 조명 레벨에서 얻어진 장면 영상과 비교하므로써 상기 장면 영상내의 배경 영상으로부터 목표 객체영상을 분리하는 알고리즘을 구비한 컴퓨터 장치(a computer system)와; 분리된 기준 객체와 연관된 특징을 제각기 갖는 것으로서, 상기 컴퓨터 메모리 저장 장치내에 저장되는 다수의 정규화된 기준 막대그래프(a plurality of reference normalized histograms ) 와, 분리된 목표 객체 영상의 특성을 제각기 갖는 것으로서, 상기 정규화된 기준 막대그래프와 동일한 방법으로 정규화되는 하나 이상의 정규화된 목표 막대그래프(one or more target normalized histograms)와, 인식되지 않은 목표 객체 영상이 저장 조건 세트(a set of storage criteria)를 만족시키는지를 판정하는 수단(a means fof determining)을 포함하여, 정규화된 목표 막대그래프와 하나 이상의 정규화된 기준 막대래프간의 비교를 통해, 상기 목표 및 기준 막대그래프 특징이 정합되지 않은 경우 상기 목표 객체가 연관된 기준 객체로 인식되지 않고, 상기 목표 객체가 상기 저장 조건을 만족시킬 경우 상기 정규화된 목표 막대그래프가 상기 메모러 저장장치내에 저장되도록 구성한 객체 인식 장치,
제 25 항에 있어서, 사용자 인터페이스(user interface)를 통해 사용자가 객체를 식별하는 객체 인식 장치.
제 26 항에 있어서, 상기 사용자 인터페이스는 사용자에게 두개 이상의 가능한 객체 정체의 선택(a selection of two or or more possible identities of the object)을 제공하는 객체 인식 장치.
제 26 항에 있어서, 상기 사용자 인터페이스가 접촉 스크린(touch screen)인 객체 인식 장치.
제 26 항에 있어서, 상기 사용자 인터페이스가 음성 인식 장치(voice recognition system)인 객체 인식 장치.
제 26 항에 있어서, 상기 사용자 인터페이스는 사용자가 객체를 선택하므로써 브라우징(browse)이 가능케 하는 객체 인식 장치.
제 25 항에 있어서, 객체의 중량을 측정하는 장치를 더 포함하며, 상기 대량 항목의 가격이 객체의 중량과 인식에 근거하여 단정되도록 한 객체 인식 장치.
소정의 시간 주기 동안 일정한 다색광 주파수 분포를 갖는 광원으로 객체를 조명하는 단계와, 시각적 입력 강치와, 메모리 저장 장치와, 장면의 배경 영상으로부터 객체 영상을 분리하는 알고리즘을 구비한 컴퓨터 장치로 목표 객체 영상 및 배경 영상으로 구성되는 장면 영상을 생성하는 단계와: 분리된 목표 객체 영상의 특성을 제각기 갖는 것으로서 상기 알고리즘에 의해 얻어지는 하나 이상의 정규화된 목표 특성치와, 분리된 기준 객체와 연관된 특성을 갖고 제각기 갖는 것으로서 메모리 저장 장치내에 저장된 하나 이상의 정규화된 기준 특성치를 비교하는 단계와, 상기 하나 이상의 정규화된 목표 특성치가 상기 하나 이상의 정규화된 기준 특성과 정합될때 상기 목표 객체를 기준 객체로서 인식하는 단계를 포함하는 객체 인식 방법.