KR20020075918A

KR20020075918A - 비주얼 어텐션 시스템

Info

Publication number: KR20020075918A
Application number: KR1020027010652A
Authority: KR
Inventors: 스텐티포드프레더릭워릭마이클
Original assignee: 브리티쉬 텔리커뮤니케이션즈 파블릭 리미티드 캄퍼니
Priority date: 2000-02-17
Filing date: 2001-02-08
Publication date: 2002-10-07
Also published as: JP2003523587A; KR100821847B1; EP1281164B1; CN1214349C; CN1430767A; CA2400085C; EP1281164A2; AU2001232029A1; WO2001061648A2; US6934415B2; WO2001061648A3; US20020081033A1; CA2400085A1; JP4732660B2

Abstract

본 발명은 비주얼 어텐션 시스템에 관한 것으로, 사전 트레이닝 없이 장면내 이웃간의 유사성을 찾는데 어려움을 측정하여 가시 장면내 가장 현저한 특징을 식별하고, 상기 장면내 나머지 대부분과 유사한 영역내 픽셀은 낮은 비주얼 어텐션 메저를 얻어내며, 반면 상기 이미지의 다른 부분과 유사성이 거의 없는 영역은 높은 비주얼 어텐션 메저를 얻을 것이고, 본 발명은 상기 이미지 부분간의 비유사성을 발견하기 위해 실험 및 에러 프로세스를 이용하며 존재할 수 있는 예외의 속성을 미리 알 필요가 없고, 상기 방법은 픽셀간의 종속성 처리의 이용을 방지하며 각각의 픽셀을 위해 간단한 병렬 실시를 할 수 있고, 본 발명은 건강검진, 품질제어 프로세스에서의 예외 패턴 탐색, 및 간판 및 광고의 가시성의 측정을 위한 비주얼 인간환경공학의 분석에서의 폭넓은 응용을 가지며, 본 발명은 가변 이미지 압축율을 제공하기 위해 이미지 프로세서에 대한 상당한 특징의 메저를 제공하는 것을 특징으로 한다.

Description

비주얼 어텐션 시스템{VISUAL ATTENTION SYSTEM}

본 발명은 비디오 시퀀스 또는 정적 이미지내에 포함된 특징적인(salient) 오브젝트를 배치하기 위한 시스템에 관한 것으로, 배타적이진 않지만 특히, 이미지 압축시스템에 의해 사용하기 위한 시스템에 관한 것이다.

인간의 비주얼 눈-두뇌 지각시스템은 대부분의 자동화 시스템에서 요구되는 사전 트레이닝없이 보여지는 장면의 가장 중요한 특징들 또는 일부 측면에서 배경 또는 주위 사람들과 다른 오브젝트를 식별하는데 매우 우수하다. 그러나, 예를 들어 작업이 매우 반복적이고 데이터가 대량인 경우, 자동화가 필요한 일부 애플리케이션이 있다. 특수한 예로는 암세포를 식별하기 위한 의료 도말표본의 정밀검사가 있다. 그러한 상황에서, 대량의 샘플이 검사되어야 하고 예외(anomaly)가 드문 경우, 인간 관찰자는 부주의해질 수 있고 탐색하고 있는 바로 그 특징을 스쳐지나갈 수도 있다.

한 이미지내에서 구별되는 오브젝트를 자동으로 식별하는 시스템은 또한 예를 들어 가시 장면내에서 주요 오브젝트의 위치식별, 정보기호의 설계 및 배치, 및 장기간이고 고가인 비주얼 디스플레이 장비의 인간 실험에 대한 대역과 같은 많은 다른 목적으로 바람직하다.

비주얼 어텐션을 측정하기 위한 현존 시스템들은 이전에 지정된 특징들(예를들어, 컬러, 강도, 방위)을 이미지로부터 추출한 후, 높은 어텐션 영역을 식별하기 위해 분류자(예를 들어 뉴럴 네트워크)를 트레이닝한다. 이들 트레이닝가능한 모델들은 이미지내에서 탐색될 특징의 선택에 매우 의존적이고, 상기 시스템을 설계 및 테스트하기 위해 사용된 비주얼 재료와 거의 유사하지 않은 새로운 비주얼 재료를 처리할 방법을 가지고 있지 않다. 역설적으로, 특징은 단순히 트레이닝된 시스템 등에 의해서 식별되기에 너무 예외적일 수도 있다. 상기 시스템은 또한 미리 선택된 특징들을 프로세스하기 위해 상당한 계산 자원을 필요로 하고, 또한 프로시저의 범주가 확장되고 더 많은 특징들이 추가됨에 따라서 이러한 부담은 제한없이 증가된다.

공지된 이미지 압축시스템의 대부분은 단순히 일정한 압축율, 그래서 일정한 압축품질로 이미지를 압축할 수 있다는 단점을 갖는다. 공지된 가변속도 압축시스템은 이미지내 관심 영역에 따라서 압축율을 자동으로 가변시킬 수 없다. 대부분의 경우, 관심영역만을 고품질로 압축하는 동안 (배경과 같은) 이미지의 나머지부분을 단지 저품질로 압축하기에 충분하게 된다. 압축 품질 및 이미지 화일 크기가 서로 종속적임에 따라서, 압축된 이미지 화일에 필요한 전체 공간량을 감소시킬 수 있다. 전문 웹디자이너에 의해 사용되는 기술 중의 하나는 이미지 배경을 JPEG를 이용하여 압축하기전에 단순히 흐릿하게 만드는 것이다. 이것은 배경이 연속적인 톤으로 만들어지도록 하여 이미지내 높은 공간주파수량을 감소시킨다. 상기 방법으로 미리 프로세스된 이미지는 흐릿해지지 않은 이미지와 비교하여 흐릿해진 양에 따라 최대 30%만큰 감소된 그 기억공간 요구를 가질 수 있다. 손으로 흐릿해진 이미지는 매우 노동집약적이고, 이미지에 따라서 작업할 충분한 공간을 보존하지 못할 수도 있다.

JPEG(Joint Picture Experts Group)은 새로운 이미지 압축표준 JPEG 2000상에서 작업하고 있고, 이는 또한 이미지내 관심 영역을 이미지의 잔여부분보다 고품질로 압축하기 위해 지정하도록 한다. 그러나, 관심 영역의 자동 식별은 여전히 문제점이 있다.

본 발명에 따르면, 비주얼 어텐션 영역을 식별하기 위해 비주얼 이미지를 처리하는 방법이 제공되고, 상기 방법은:

각각이 값을 갖는 픽셀들의 한 어레이로서 이미지를 저장하는 단계;

상기 어레이로부터 테스트 픽셀을 선택하는 단계;

각각의 테스트 픽셀에 대해서, 상기 테스트 픽셀에 이웃하는 하나 이상의 이웃 픽셀 시퀀스를 선택하는 단계;

상기 어레이로부터 비교 픽셀을 선택하는 단계;

상기 테스트 픽셀에 대해 선택된 이웃 픽셀 시퀀스가 갖는 각각의 위치 관계와 동일한 선택된 비교 픽셀에 대한 각각의 위치 관계를 갖는 상기 비교 픽셀에 이웃하는 픽셀 시퀀스를 식별하는 단계;

상기 선택된 이웃 시퀀스의 값과 상기 식별된 시퀀스의 값을 소정 매치 기준에 따라서 비교하는 단계; 및

상기 비교결과가 미스매치인 테스트 픽셀에 대해 실시된 비교 횟수에 따라서 각각의 테스트 픽셀에 대한 비주얼 어텐션 메저(measure)를 생성하는 단계를 포함한다.

상기 방법은 또한 이미지 시퀀스에 적용될 수 있다.

적절한 구성에서, 각각의 비교 픽셀에 대해서, 만일 상기 테스트 픽셀에 이웃하는 하나 이상의 선택된 픽셀이 상기 비교 픽셀에 이웃하는 대응 픽셀과 유사하지 않은 강도값을 갖는 경우, 예외값이 증가되고, 모든 선택된 픽셀이 상기 테스트 픽셀에 이웃하는 대응 픽셀과 대체로 유사한 값을 갖는 비교 픽셀이 선택될 때까지 동일한 테스트 픽셀과 함께 추가 비교 픽셀을 이용하여 상기 프로세스가 반복되며, 그러한 경우 추가 이웃 시퀀스가 선택되고 상기 프로세스가 반복된다.

만일 높은 예외값을 이전에 생성한 이웃 픽셀 시퀀스가 후속 테스트 픽셀의 분석을 위해 선택되는 경우 상기 프로세스가 가장 효과적으로 동작한다는 것을 밝혀냈다. 따라서, 대개 상기 프로세스는 높은 예외값이 생성된 이웃 시퀀스 패턴을 저장하는 단계, 및 후속 테스트 픽셀을 위해서 상기 후속 테스트 픽셀에 대해 상기 저장된 이웃 시퀀스와 동일한 각각의 위치 관계를 갖는 이웃 시퀀스를 선택하는 단계를 포함한다.

본 발명의 다른 측면에 따르면, 비주얼 어텐션 영역을 배치하기 위해서 비주얼 이미지 또는 상기 이미지의 시퀀스를 처리하는 장치가 제공되고, 상기 장치는

각각이 값을 갖는 픽셀들의 한 어레이로서 이미지를 저장하는 수단;

상기 어레이로부터 테스트 픽셀을 선택하는 수단;

상기 테스트 픽셀에 이웃하는 이웃 픽셀 시퀀스를 선택하는 수단;

상기 어레이로부터 비교 픽셀을 선택하는 수단;

상기 테스트 픽셀에 대해 선택된 이웃 픽셀 시퀀스가 갖는 각각의 위치 관계와 동일한 선택된 비교 픽셀에 대한 각각의 위치 관계를 갖는 상기 비교 픽셀에 이웃하는 픽셀 시퀀스를 식별하는 수단;

상기 선택된 이웃 시퀀스의 값과 상기 식별된 시퀀스의 값을 소정 매치 기준에 따라서 비교하는 수단; 및

매치하지 않는 시퀀스를 식별하는 비교 횟수에 따라서 각각의 테스트 픽셀에 대한 비주얼 어텐션 메저를 생성하는 수단을 포함한다.

상기 장치는 대개 적절하게 프로그래밍된 범용 컴퓨터로 실시된다.

본 발명은 또한, 본 발명의 방법을 실시하도록 프로그래밍된 컴퓨터, 및 디지털 컴퓨터의 내부 메모리로 직접 로딩가능한 컴퓨터 프로그램 프로덕트까지 확장되고, 상기한 단계를 실시하기 위한 소프트웨어 코드부를 포함한다.

다른 측면에 따르면, 본 발명은 컴퓨터 가용한 매체상에 저장된 컴퓨터 프로그램 프로덕트를 제공하고, 상기 프로덕트는

컴퓨터가 각각이 값을 갖는 픽셀들의 한 어레이로서 이미지를 저장하도록 하는 컴퓨터 가독 프로그램 수단;

상기 컴퓨터가 상기 어레이로부터 테스트 픽셀을 선택하도록 하는 컴퓨터 가독 프로그램 수단;

각각의 테스트 픽셀에 대해서, 상기 컴퓨터가 상기 테스트 픽셀에 이웃하는 이웃 픽셀 시퀀스를 선택하도록 하는 컴퓨터 가독 프로그램 수단;

상기 컴퓨터가 상기 어레이로부터 비교 픽셀을 선택하도록 하는 컴퓨터 가독프로그램 수단;

상기 컴퓨터가 상기 테스트 픽셀에 대해 선택된 이웃 픽셀 시퀀스가 갖는 각각의 위치 관계와 동일한 선택된 비교 픽셀에 대한 각각의 위치 관계를 갖는 상기 비교 픽셀에 이웃하는 픽셀 시퀀스를 식별하도록 하는 컴퓨터 가독 프로그램 수단;

상기 컴퓨터가 상기 선택된 이웃 시퀀스의 값과 상기 식별된 시퀀스의 값을 소정 매치 기준에 따라서 비교하도록 하는 컴퓨터 가독 프로그램 수단; 및

상기 컴퓨터가 비교결과가 미스매치인 비교 회수에 따라서 각각의 테스트 픽셀에 대한 비주얼 어텐션 메저를 생성하도록 하는 컴퓨터 가독 프로그램 수단을 포함한다.

본 발명은 최대 예외값을 갖는 픽셀을 포함하는 영역의 식별에 의해 가시 장면내 주요 서브젝트를 식별하기 위해 사용될 수도 있다. 상기 오브젝트를 나타내는 픽셀에 대해 생성된 예외값과 가시 장면의 다른 부분에 대해 생성된 예외값의 비교에 의해 상기 장면내 소정 오브젝트에 제공된 비주얼 어텐션 메저를 판정하기 위해 사용될 수도 있다.

상기 프로세스의 반복적인 특성은 병렬처리에 적합하고, 여러 테스트 픽셀이 서로 동시에 처리될 수도 있으며, 각각의 테스트 픽셀에 대해서, 여러 이웃 픽셀 시퀀스 또한 병렬로 처리될 수 있다는 점에 유의해야 한다.

장면의 유사한 성분들간의 강도 변화를 줄이기 위해서, 값의 비교는 대개 매치하는 것으로 간주되는 2개 픽셀 사이의 값의 차이를 작게 하고, 상기에서 사용된 용어 "대체로 유사한"은 상기 문맥으로 이해되어야 한다. 이러한 임계값 차이값은서로 다른 사이클에서 가변될 수도 있고, 성분들간의 적당한 차별성을 생성하는 그 값들은 저장되고 상기 프로세스의 다음 사이클에서 재사용된다.

컬러 이미지를 위해서, 강도값은 3-성분(레드, 그린, 블루) 벡터가 될 수도 있다. 대신, 색상, 색차, 휘도 등과 같은 다른 컬러 공간이 사용될 수도 있다.

본 발명은 장면내 이웃간의 유사성을 발견하는데 있어 어려움을 측정하여 가시 장면내 특징(saliency)을 식별한다. 상기 장면의 나머지 대부분과 유사한 영역내 픽셀은 낮은 비주얼 어텐션 메저를 얻고, 따라서 어텐션 가치가 있는 것으로 간주되지 않는다. 반면, 상기 이미지의 다른 부분과 유사성이 거의 없는 영역은 얻어진 예외값이 매우 커짐에 따라서 높은 비주얼 어텐션 메저를 얻을 것이다.

본 발명은 이미지 부분들간의 비유사성을 발견하기 위해 실험 및 에러 프로세스를 이용하고, 특징을 판정하기 위해 미리 예외의 속성을 알 필요가 없다. 상기 방법은 픽셀간의 종속성 처리 이용을 방지하고 각각의 픽셀을 위해 간단한 병렬 실시를 할 수 있다.

지금부터 도면을 참조하여 예의 방법으로 적절한 실시예를 설명할 것이다.

도 1은 프로세스를 개략적으로 도시하는 도면,

도 2a는 픽셀(x_j,y_j)의 2개 세트에 대한 비교 프로세스를 설명하는, 본 발명에 따른 방법에 의해 프로세스되는 한 이미지를 나타내는 도면,

도 3a는 본 발명에 따른 방법에 의해 프로세스되는 제 2 이미지를 나타내는 도면,

도 2b 및 도 3b는 상기 이미지들을 위해 생성된 예외값의 매핑을 나타내는 도면,

도 4는 본 발명을 실시할 수 있는 범용 컴퓨터의 기본 구성요소를 개략적으로 도시하는 도면,

도 5a-5b는 본 발명에 따른 이미지 코더를 도시하는 도면,

도 6a-6c는 본 발명에 따른 이미지 디코더를 도시하는 도면,

도 7은 4:1:1 다운샘플링 방법을 도시하는 도면,

도 8은 한 이미지를 블럭 및 블럭 패딩으로 분리하는 단계를 도시하는 도면,

도 9는 지그재그 스캐닝을 도시하는 도면,

도 10은 하측에서 상측으로, 그리고 좌측에서 우측으로 이미지를 프로세스하는 단계를 나타내는 도면,

도 11은 비-간삽된 데이터스트림의 한 예를 나타내는 도면, 및

도 12는 처리속도를 증가시키기 위한 비교 픽셀 그룹의 선택예를 도시하는 도면이다.

도 4에 도시된 구성요소는 스캐너와 같은 입력수단(41), 중앙처리장치(CPU; central processing unit)(42), 비주얼 디스플레이 유닛(VDU; visual display unit) 또는 프린터(43)와 같은 출력장치, 메모리(44), 및 연산 프로세서(45)를 포함한다. 상기 메모리는 기억장치(440,444-446), 레지스터(441,447-449), 및 카운터(442,443)를 포함한다. 컴퓨터를 제어하기 위한 데이터 및 프로그램은 메모리(44)내에 저장된다. CPU(42)는 이러한 정보를 이용하여 컴퓨터의 작용을 제어한다.

이제 도 1 및 도 4를 참조하면, 분석될 이미지(40)는 입력수단(41)에 의해 액세스되고, 픽셀(x)의 어레이(A)로서 이미지 기억장치(440)에 디지털 형태로 저장되며, 이 때 각각의 픽셀은 주어진 컬러 강도(r_x,g_x,b_x)를 갖고, 그레이 레벨 이미지인 경우 싱글 그레이 스케일 강도값(t_x)을 갖는다.

다음, 어레이(A)로부터 픽셀(x)이 선택되고(스텝 1), 그 강도값((r_x,g_x,b_x) 또는 t_x)은 테스트 픽셀 레지스터(441)내에 저장된다. 동시에 여러 테스트 픽셀이 프로세스될 수도 있지만, 설명을 위해 본 명세서에서는 하나만을 고려할 것이다.

예외 카운터(442)에 저장된 예외 카운트(c_x) 및 (비교 카운터(443)에 저장된) 픽셀 비교 횟수 카운트(I_x)는 모두 0으로 설정된다(스텝 2).

다음, 탐색전략은 CPU(42)에 의해 선택되고(스텝 3,4,5), 이웃그룹정의 기억장치(444)에 제공된다. 각각의 상기 전략은 한 세트의 색차 임계값(△r_x,△g_x,△b_x)(또는 그레이 레벨 이미지인 경우 단일 임계값(△t_i))(스텝 3) 및 이웃 그룹 정의(스텝 4,5)를 구비한다.

색채도값(HSV; hue saturation value) 공간(△h_x,△s_x,△v_x)내 컬러 이미지에 대해 동작하는 본 발명의 또다른 실시예에서, 색차 임계값은 좀더 상세하게 후술되는 바와 같이 사용된다. 컬러 이미지에 대한 본 발명의 한 실시예에서 사용되는 임계값은 픽셀간의 비교가 수행되는 컬러 공간에 종속될 것이다.

본 발명의 다른 실시예에서, 색차 임계값이 미리 정해지고, 새로운 이웃그룹 정의전략의 각각의 선택과 함께 변경되지 않는다.

처음, CPU(42)에 의해 탐색전략이 무작위로 생성될 것이다 - 만일 상기 전략이 색차를 식별하기에 적당하지 않다면 사이클이 거절될 것이고(후술되는 스텝 9) 새로운 전략이 선택된다. 성공적인 전략은 후속되는 재사용을 위해 탐색전략 기억장치(445)에 저장될 수 있다(스텝 11).

스텝 3에서 선택된 색차 임계값은 2개 픽셀이 유사한 것으로 간주되는지 여부를 판정한다. 색차 임계값은 임의의 최소값을 초과해야 하고, 그렇지 않으면 유사하지 않은 것으로 검출될 것이지만, 만일 그 값이 너무 크다면 너무 많은 유사성이 발견될 것이다.

이웃그룹을 정의하기 위해서, 반경(u_x)은 임의의 범위내에서 무작위로 선택된다(스텝 4). 이 값은 연산 프로세서(45)에 의해 픽셀 유사성 비교가 이루어질 x의 이웃 범위를 결정한다. u_x에 대한 범위는 비주얼 어텐션을 설정하는 특징의 스케일에 의해 결정되고, 상기 스케일은 이미지가 분석될 목적에 따를 것이다. 색차 임계값을 이용함에 따라서, 상기 선택은 이러한 한계내에서 무작위적이고, 차별성을 제공하지 못한 선택은 거절된다(스텝 9).

이미지 기억장치(440)로부터 테스트 픽셀 x의 이웃에서 일련의 n 픽셀(x_j)이 선택된다(스텝 5). 다시, 이러한 선택은 무작위적이고,

(여기서 j=1,...,n이고, x₀=x)

이 되도록 선택된다.

선택이 무작위이기 때문에, 픽셀의 시퀀스는 반드시 서로 이웃할 필요가 없거나 또는 어느 정도까지는 이웃할 수 있다.

이러한 시퀀스의 예는 도 2에서 도시되는데, (박스로 도시되는) 테스트 픽셀은 이것과 관련되는 (음영으로 도시되는) 시퀀스를 가진다. 일반적으로 n=3이고, u_x=1이다. 어떤 경우에 u_X는 j와 함께 변경된다: 이것은 선택된 어떤 픽셀이 테스트 픽셀 x_j에 근접하는 것을 확실히 하는 동시에 픽셀이 넓은 영역에서 선택되도록 한다. dist(x_j, x_(j-1))의 값은 픽셀 크기와 같은 어떤 적합한 유닛으로 정의된다. 이웃 시퀀스의 정의는 이웃그룹정의 기억장치(neighbour group definition store)(444)에 저장된다.

본 발명의 또 다른 실시예에서 테스트 픽셀(x)의 이웃에서 n픽셀의 시퀀스는 영상 기억장치(440)로부터 선택되고(스텝 5), 선택은 다음과 같다:

여기서 j=1, ...,n이고 x₀=x이다.

탐색전략 기억장치(445)에 저장된 색차 임계값(△r_x,△g_x,△b_x)과 이웃 픽셀 시퀀스 정의(x_j)를 포함하고 그 결과 전 테스트 픽셀상에서 높은 이상 스코어를 얻는(스텝 11에서 언급됨) 미리 생성된 탐색전략은 CPU(42)에 의해 우선적으로 선택되고, 이러한 저장된 기준의 공급이 고갈되면 임의로 생성된 후보가 이웃 그룹 정의 기억장치(444)에 프로세서(42)에 의해 공급된다. 이러한 메카니즘은 프로세서의 실패 반복의 수를 감소시키고 현재 이미지에서 미스매치를 강조하는 특징을 재사용하는 것에 의해 어텐션의 오브젝트 근방에서 이상 값을 향상 시킨다.

유사하게, 많은 유사 이미지가 처리될 때(예를 들어, 움직이지 이미지 또는 의료 도말표본 테스트와 같은 유사 이미지의 다른 큰 세트가 처리될 때), 사전 테스트에서 높은 이상 스코어를 얻는 테스트 시퀀스는 탐색전략 기억장치(445)에서 검색될 수 있다.

픽셀(y)은 아이덴티티(identity)가 (도 2에서 박스로 도시되는) 비교 픽셀 레지스터(447)에 저장되는 현재 비교 픽셀에서 임의로 선택된다(스텝 6).

비교 카운터(443)에 저장된 I_x의 값은 증가된다(스텝 7). 그때 이웃 그룹 정의 레지스터(444)의 내용은 테스트 그룹(x_j)를 형성하는 세트 픽셀(레지스터 448)과 비교 그룹(y_j)를 형성하는 세트 픽셀(레지스터 449)를 형성하기 위해 연산 프로세서(45)에 의해 사용되고, 테스트 그룹에서 대응되는 픽셀(x_j)이 테스트 픽셀(x)를 가질때 비교 그룹의 각각의 픽셀(y_j)은 비교 픽셀(y)과 동일한 위치 관계를 가진다(스텝 9). 그때 연산 프로세서(45)는 이웃 그룹 정의 기억장치(444)에서 검색되는 임계값을 이용하여 (음영으로 도시됨) 대응되는 픽셀(y_j)과 (도 2에서 음영되는)각각의 픽셀을 비교한다.

픽셀(y)은 만일,, 및이면 테스트픽셀(x)과 유사하게 동일해진다.

그레이 레벨 이미지에 대해서는이다.

또 다른 실시예에서는 HSV 칼라 스페이스 픽셀(y)에서 실행되는 연산이 테스트 픽셀(x)과 유사하게 동일해진다:

,및

여기서이다. Z는 h_x에 따른 임계의 실험 테이블에서 저장된다. 이 결과 △h_x의 값이 v_x및 s_x의 값보다 더 크다.

두 이미지에 대한 본 발명의 작동 방법을 가속시키기 위해 비교 픽셀(y)은 테스트 픽셀(x)과 매치되도록 선택된다(예를 들면, 이들이 '화이트' 또는 '블랙' 중 하나인가를 배경 픽셀에서 무시).

칼라 또는 그레이 레벨 이미지에 대해 작동 속도는 비교 픽셀 기억장치(446)에서 저장되는 비교 그룹에서 비교 픽셀(y)를 선택하는 것에 의해 증가된다. 비교 그룹은 도 12에서 도시되는 것처럼 선택된다. 일단 비주얼 어텐션의 측정이 비교 그룹에서 모든 픽셀에 대해 발생되면, 새로운 비교 그룹은 비주얼 어텐션의 높은 측정이 발생된 픽셀과 근접한 픽셀로부터 선택된다.

만일 테스트 그룹에서 모든 픽셀(x_j)이 비교 그룹에서 대응되는 픽셀(y_j)과 유사하면, 처리는 새로운 비교 기준(스텝 4,5)과 새로운 비교 픽셀(y)(스텝 6)를 선택하는 것에 의해 반복된다. 만일 (도 2에서 설명하는 바와같이) 테스트 그룹에서 하나 이상의 픽셀(x_j)이 비교 그룹에 대응되는 픽셀(y_j)과 유사하지 않으면, 상기 유사 정의에 따라, 이상 카운트 레지스터(442)에서 저장된 카운트(C_x)는 증가된다(스텝 10). 또 다른 비교 픽셀(y)은 임의로 선택되고 비교 픽셀 레지스터(447)안에 저장되며 이웃 그룹 정의 기억장치(444)에서 검색된 이웃 그룹 정의는 테스트 그룹 레지스터(448)에 저장된 테스트 그룹과 비교하기 위해 비교 그룹 레지스터(449)에서 새로운 비교 이웃 그룹을 공급하도록 이용된다. 픽셀(x_j)의 세트는 이미지의 다른 부분과 매치되는 것이 연속적으로 실패하는 한 테스트 그룹 레지스터(448)에서 유지된다. 이러한 세트는 매치의 발생이 실패할수록 더욱 구별되는 x 장소의 구별되는 특징을 가진다. 비교 픽셀(y)이 테스트 픽셀(x)과 매치되지 않을수록, 임의의 카운트(442)에서 저장된 임의의 값(c_x)은 더욱 크게 된다. 반대로, 테스트 픽셀(x)과 매치될 수록, 임계값(L)이 비교 카운트(443)에 도달할때 임의의 값은 더욱 낮아진다. 각 시간의 임의의 값(C_x)이 비교되면 그 처리는 테스트 픽셀(x)에 대한 매치를 제공하지 않는 임의로 선택된 픽셀의 비율 측정으로 간주한다.

처리가 연속될때, 성공한 탐색기준(즉 다시 말하면, △r_x, △g_x,△b_x및 △u_x의 값의 비교, 및 c_x의 높은 값을 발생시키는 이웃 시퀀스)는 명확해진다. 만일 n 픽셀(x_j)의 시퀀스와 대응하는 색차 임계값(△r_x, △g_x, △b_x)이 매치가 발견되기전에 임계값(M)에 도달하기 위해 임의의 카운트(442)에서 저장된 c_x의 임의의 값을 발생시키면, 이웃 그룹 정의 기억장치(444)에 저장된 탐색전략은 이미 저장되지 않았다면 차후에 사용하기 위해 탐색전략 기억장치(445)에 카피된다(스텝 11). 높은 임의의 값을 가지는 기준은 또 다른 사이클에서 선택되는 적합한 값을 이용하기 위해 탐색전략 기억장치(445)를 이용한다. 일단 매치가 발견되면, 처리는 탐색전략 기억장치(445)에서 검색하거나 또는 임의로 생성하는 것에 의해 이웃 그룹 정의 기억장치(444)에 저장된 새로운 탐색전략(색차 임계값 및 이웃 설정)와 다시 시작한다.

비교 카운터(443)에서 저장된 반복값(I_x)이 임계값(L)에 도달하면, 반복 처리는 정지하고(스텝 8) 임의의 카운터(442)에서 저장된 현재 임의의 값(c_x)은 픽셀(x)에 대한 임의의 값처럼 출력 유닛(43)에서 출력된다. 이 최종 임의의 값(c_x)은 테스트 픽셀에 대한 비주얼 어텐션의 측정값이고 픽셀(x)의 임의로 선택된 이웃의 본질적인 특징(예를 들면, 색)이 임의로 선택된 픽셀(y)의 대응되는 이웃과 매치되지 않는 시도수이다. c_x에 대한 높은 값은 이미지의 레스트와 픽셀(x)이 미스매치되는 높은 정도를 나타내고 그 결과 픽셀(x)은 비주얼 어텐션의 오브젝트의 일부분이 된다.

일반적으로 출력 유닛(43)은 프린터, 비주얼 디스플레이 장치와 같은 수단에 의해 디스플레이하기 위해 또는 나중에 도 5 내지 도 11를 참조하여 기술되는 이미지 압축과 같은 다음의 처리를 위해 각 픽셀의 임의의 값을 저장하는 저장 매체이다.

비록 본 발명은 3개의 값(R,G,B/H,S,V) 또는 단일 값 포인트(그레이 레벨 이미지)를 가지는 2차원 이미지를 참조하여 기술하지만 본 방법은 p값 포인트를 가지는 n차원 이미지로 확장할 수 있음을 이해하여야 한다.

p값 포인트를 이용하는 경우 두 픽셀이 상기에서 기술된 그레이 레벨 R, G, B 및 H, S, V 이미지에 대한 스텝 9와 유사한지를 평가하는 기능은 p값과 비교되도록 확장된다.

n-차원 이미지의 경우 이웃 픽셀의 선택은 스텝 5에서 이웃 그룹을 선택하도록 n차원 거리 측정을 이용하여 만들어진다. 이러한 방법으로 본 발명의 방법은 시간과 관련된 차원중 하나에서 비디오 시퀀스로 연속적인 프레임의 시퀀스를 적용할 수 있다.

지금부터 본 발명의 두 실시예를 기술한다. 도 2a는 몇몇의 수직 특징과 한개의 대각선 특징을 가지는 단색 이미지를 설명한다. 도 2a에서는 수직 특징중 하나에서 픽셀과 이웃 설정을 형성하는 픽셀의 그룹이 다른 수직 특징의 이웃 픽셀과 매치됨을 알 수 있다. 그러나, 대각선 특징의 부분을 형성하는 픽셀은 다른 특징의 픽셀과 매치되지 않는다. 대각선 특징에서 픽셀이 어디에 있든지 테스트 픽셀이나 비교 픽셀의 이웃 픽셀이 특징의 단부 이상으로 확장하면 매치를 생성할 수 없다. 따라서, 어떤 이웃 세트에 대한 매치를 얻을 수 있는 가능성은 수직 특징중 하나의 부분을 형성하는 픽셀보다 대각선 특징의 부분을 형성하는 픽셀에서는 매우작아진다.

실시예에서 픽셀은 규칙적인 직선의 모자이크를 형성하지만, 처리는 또 다른 배열의 픽셀에서도 적합하다. 만일 배열이 규칙적이지 않으면, 비교 픽셀(y)과 각 픽셀(y_j)의 위치 관계는 테스트 픽셀(x)과 각 픽셀(x_j)의 위치 관계와 정확하게 동일하지 않지만, 각각의 픽셀은 정확하게 대응하는 위치와 가장 이웃할 수 있다.

처리는 다른 절차에 관해 몇몇의 장점을 가진다. 첫째로 처리는 이미지의 내용에 관해 가정하지 않고 측정 처리의 일부와 같은 내용에 관련된 유용한 특징을 추출할 수 있고 그러면 어떤 이미지에서 자료를 적용할 수 있다. 둘째로, 처리는 픽셀의 어떤 형태를 직사각형 배열, 나선형 배열 또는 비규칙적 패턴중 하나와 동일하게 적용한다. 세째로, 처리는 또 다른 픽셀과 관련된 연산에 상관없이 각 픽셀(x_i)에 적용할 수 있고 그러면 많은 픽셀과 평행하게 동시적으로 적용할 수 있다. 이것은 평행 실시 결과가 비디오 자료에서 실시간 또는 더욱 빠르게 얻어질 수 있음을 의미한다. 네째로, 알고리즘은 시도가 소프트웨어 처리에 일반적으로 부여되는 엄격함을 가지지 않는 장점을 가지는 진화 절차를 기초로 한다. 어떤 사이클에서는 중복(예를 들어, 동일한 픽셀을 하나 이상 포함하는 이웃 픽셀(x_j)의 시퀀스)을 포함하기 때문에 유용한 결과가 생성되지 않는다. 어떤 사이클은 이러한 시퀀스를 구별시킬 필요없이, 구별되는 특징을 구별하지 않는 어떤 다른 사이클과 같이 동일한 방법으로 거절된다. 이것은 시도에 대한 실용적인 후보를 정확하게 구성하는데 필요한 연산 부담을 효과적으로 제거한다.

하기에서 기술되는 실시예에서, 처리는 1과 0을 구성하는 흑백 이미지를 적용한다. 이 경우 △t_i=1/2, n=3, L=100 및 u_i=1이다. 제 1 실시예(도 2a, 도 2b)는 다른 모양으로 둘러싸여질때 어떤 유형의 모양에서 발생되는 "팝아웃(popout)"의 전형적인 문제점을 나타낸다.

도 2a에서 각 픽셀에 추정되는 비주얼 어텐션의 측정을 도 2b의 차트로 도시한다. 수직 스케일은 각 픽셀에 대한 (시도수(L)의 비율을 표현하는)임의의 값을 나타낸다. 임의의 값(c_i)은 수직바 보다 대각선 바에서 훨씬 높음을 알 수 있다.

도 3a는 수직라인의 그룹이 넓게 분리되는 다른 라인과 놓여질때 비주얼 어텐션상의 클러스터링(clustering) 효과를 설명한다. 본 발명의 처리를 이용하는 결과는 도 3b에서 도시된다. 다시, 클러스터링된 라인은 높은 임의의 스코어를 생성한다.

이것은 처리에서 조사되는 임의의 특성을 미리 알 필요가 없음을 나타낸다. 임의의 특성은 (도 2a와 같이)방향, (도 3a와 같이)간격, 모양, 길이, 칼라 또는 다른 특성일 수 있다.

본 발명은 다수의 분야에서 널리 적용된다. 첫째로, 가시 장면에서 기본 물체의 확인은 여과되지 않은 시각 내용의 분류에서 필수적인 첫번째 단계이고 - 또한 이것은 가장 어렵다. 일단 이 단계가 얻어지면, 특징의 인식을 확인하기 위한 수동 태깅(tagging), 템플릿 매칭의 범위 또는 다른 자동 기술을 실행한다.

본 발명의 방법을 이용하는 이미지 압축의 방법을 도 5 내지 도 11를 참조하여 설명한다; 첫째로 본 발명에 따른 이미지 데이터의 압축 방법의 개략적인 설명을 도 5a 및 도 5b를 참조하여 설명한다.

DCT(discrete cosine transform)를 이용하는 이미지의 압축은 알려져 있다. JPEG와 같은 많은 이미지 압축 알고리즘은 이러한 압축을 이용하고 그 성능이 잘 됨은 증명되었다. DCT를 이용하는 원리는 이미지에서 픽셀이 2차원 신호로 간주되고, 이것이 DCT 수단에 의해 주파수 도메인으로 변형되는 것이다. 색과 명암에 변화가 적은 이미지의 영역은 낮은 공간 주파수를 가지는 영역이고 반면에 색과 명암에 변화가 큰 영역은 높은 공간 주파수를 가지는 영역이다. 연구 결과 인간의 눈은 높은 공간 주파수에 매우 민감하지 않기 때문에, 높은 공간 주파수는 압축용으로 사용된다. 낮은 공간 주파수에 관한 정보를 가지는 것이 매우 중요하기 때문에, 높은 공간 주파수는 전송할 필요가 없고 또는 현저한 질을 가지는 오리지널 이미지를 복원하기 위해 저장할 필요도 없다. 높은 압축율에 대해, 공간 주파수와 사람의 민감도의 모델이 사용되는데, 이것은 어떤 주파수에 대한 필터로서 간주될 수 있다.

표준 압축 알고리즘은 배경보다 높은 품질을 가지고 압축할 수 있도록 이미지에서 자동적으로 특정되는 관심 영역을 허용하지 않으며 따라서 최적의 압축이 되지 않는다. 만일 이미지가 n바이트의 크기를 가지는 것이 필요하면, 전체 이미지는 필요한 파일 크기와 만나도록 동일한 품질을 가지며 압축되고, 이 경우 품질은 매우 저하되고 불만족스럽게 된다. 이미지에서 일부는 언제나 더욱 관심을 가지는데 그 부분은 소수이다. 이미지를 초상화로 간주하면, 보통 사람에 대해 관심을 가지며 배경에는 관심을 가지지 않는다. 그래서 배경은 매우 높은 압축율(낮은 품질)을 가지며 압축하고 나머지 이미지는 매우 낮은 압축율(높은 품질)을 가지며 압축할 수 있는 장점을 가진다. 이미지가 일정한 압축율를 가지며 압축되어 평균 압축일이 동일하면, 생성된 파일 크기는 동일하다. 그러나, 변형가능한 압축율을 가지고 압축된 이미지는 압축 뷰어(viewer)를 제공하고 이 이미지는 전체 이미지에 대해 일정한 압축율을 가지고 압축된 이미지보다 더 잘 보인다.

본 발명의 방법은 사용자가 이미지의 다른 부분에 대해 품질의 다른 레벨을 이용하여 이미지를 압축할 수 있도록 한다. 품질의 레벨은 VA-맵(Visual Attention Map)(30)을 이용하는 이미지에서 어떤 영역에 대해 결정되고, 이것은 초기에 생성된다. 압축후, VA-맵(30)은 압축 이미지 데이터의 일부를 형성한다.

입력 이미지는 RGB이미지 이다. 예를들면, 이것의 픽셀은 3개의 베이스 칼라인 레드, 그린 및 블루의 합을 나타낸다. 세 베이스 칼라의 각각은 비록 단색 이미지가 동등하게 사용될지라도 0과 25사이의 정수를 나타낸다.

입력 이미지는 YCbCr-칼라 공간으로 변형되고 동시에 성분 휘도(luminance)(Y)와 색차(chrominance)(Cb 및 Cr)로 분해된다. 사람의 눈이 색보다 밝기 변화에 민감하기 때문에, 두 칼라 성분(Cb 및 Cr)은 4:1:1 다운샘플을 이용하여 다운샘플링된다.

그때 성분은 8×8픽셀 블록(32)으로 세그먼트되고, 성분 각각은 압축 알고리즘으로 처리된다. 모든 성분(Y,Cb,Cr)에 대해, 각 방향에서 샘플의 수는 다음 처리에 대해 완전한 픽셀 블록을 제공하기 위해 8의 배수가 된다. 만일 입력 이미지가 이러한 필요성을 만족하지 못하면, 인위적으로 부가적인 샘플이 블록에서 빈 픽셀 공간을 채우도록 한다. 다운 샘플링때문에, x 및 y 방향에서 블록의 수는 나중에 설명하는 바와같이 Y성분에 대해 2의 배수가 된다.

블록은 FDCT(Forward DCT)(14)에 의해 주파수 도메인으로 변형된다. 그 결과 계수는 정량기(16)에 의해 양자화된다. 양자화는 데이터를 감소시키고 이미지 압축의 해답이 된다. 양자화후 이미지는 더이상 에러없이 재구성되지 않는다. 그러나, 사람의 민감도를 특정 주파수로 표현하는 양자화표(18)를 이용하여, 에러를 상당히 적게 할 수 있다. 양자화의 레벨은 양자화 계수(20)에 의해 영향을 받는데, 이것은 이미지용 VA-맵(30)에 따라 품질의 레벨을 변경시키도록 이용한다.

양자화후, 각각의 블록은 지그재그-스캐너(22)에 의해 64-차원 벡터로 전환된다. 이것은 벡터의 시작(낮은 인덱스)에서 저 공간 주파수용 계수를 부과하고 끝(높은 인덱스)에서 고 공간 주파수용 계수를 부과한다. 보통 양자화의 결과 고주파수용 계수가 0이면, 지그재그-스캐닝 처리에 의해 긴 주파수의 0이 생성된다. 그때 지그재그-벡터는 실행길이 인코더(24)와 인코더되고 그 결과 두개의 어레이, 실행길이 어레이(26)와 레벨 어레이(28)가 저장된다. 마지막으로, 모든 블록이 처리될때, 이러한 두 어레이는 엔트로피 인코더(50)에 의해 엔트로피 인코더되고 바이트 어레이(52)는 이미지에 관한 일반적인 정보 및 VA-맵(30)과 함께 출력 파일에 기록된다.

도 6a 및 도 6b를 참조하여 이미지의 디코딩(감압)에 대해 지금부터 기술한다. 코더 및 인고터의 각 부분의 기능은 도 7 내지 도 11를 참조하여 기술한다.

이미지 데이터의 디코딩과 이미지의 재구성은 상기에서 기술된 코딩 처리의 역순이다. 바이트 어레이(52)에서 이미지 데이터는 엔트로피 디코더(60)에 의해 디코더된 첫번째 엔트로피이고 그 결과는 단일 8×8블록용 어레이로 세그먼트된다. 그때 단일 블록(26,28)용 어레이는 역 지그재그-스캐너(64)를 이용하는 8×8 샘플 메트릭스와 같이 재정리되거나 VA-맵(30)에서 얻어진 정보와 함께 적합한 양자화표(18)를 이용하는 반정량기에 의해 반정량되는 실행-길이 디코더(62)에 의해 실행길이 디코더된다. 그때 데이터는 IDCT(inverse discrete cosine transformer)(67)에 의해 주파수 도메인에서 성분 샘플값으로 변형되고 그 결과는 각 성분에 대한 다른 어레이로 저장된다. 마지막으로, 세 성분 어레이는 최종 이미지를 구성하도록 이용된다. Cb 및 Cr 성분은 LIF(linear interpolation filter)(68,69)를 이용하여 업 샘플된다. 그 결과의 이미지는 블록 패딩때문에 오리지널 이미지보다 더 크고, 이미지는 이것의 오리지널 크기에서 잘려진다.

오리지널 R,G,B 이미지에서 8×8 픽셀 블록(32)의 정보는 도 7과 도 8를 참조하여 상세하게 기술한다.

RGB값에서 Y,Cb,Cr값으로의 변형은 하기의 수학식으로 얻어진다.

R,G,B는 [0,255]의 범위이다. Y, Cb, Cr은 [0.255]의 범위이다. R, G, B 및 Y, Cb, Cr은 정수이다.

Cb 및 Cr 성분은 4:1:1 다운 샘플링 설계를 이용하여 다운 샘플된다. x 및 y방향의 모든 두번째 픽셀에서, 모든 세 성분이 저장된다. 픽셀의 나머지 부분에서는 Y성분만이 저장된다. 이것은 네개의 Y 샘플에 대해 하나의 Cb 샘플과 하나의 Cr 샘플이 존재함을 의미한다. 이 다운 샘플링은 도 7에서 개략적으로 설명된다. Cb 및 Cr 어레이는 Y어레이의 크기의 4분의 1이다. 이것은 인간의 눈이 색(Cb, Cr)보다 밝기(Y) 변화에 더욱 민감하기 때문이다.

상기한 바와 같은 다운샘플링은 2의 인수만큼 데이터양을 감소시킨다.

다운샘플링 및 모든 성분이 8 ×8 픽셀블럭으로 나누어짐으로 인하여, 이후 과정에 요구되는 샘플의 수는 모든 성분이 x 방향 및 y 방향으로 8배 되어야 한다.

도 7에서 보는 바와 같이, 8 ×8 샘플의 블럭을 형성하기 위해, Cb 및 Cr성분에 대해 16 ×16 입력샘플(RGB 샘플)의 어레이가 필요한 반면 Y성분에 대해 8 ×8 입력샘플(RGB 샘플)의 어레이가 필요하다. 16 ×16 입력샘플 어레이는 매크로 블럭 (macro block)이라 한다. 색성분의 관심있는 레벨은 매크로 블럭을 형성하는 4 샘플블럭의 VA 맵에서 정의된 최대 관심 레벨로 정의된다.

x 및 y방향의 8 ×8 픽셀블럭의 수는 다음 방정식에 의해 주어진다.

이 방정식에서, 폭은 각각 입력 이미지의 x 방향 입력샘플(픽셀) 수이고, 높이는 y 방향 입력샘플(픽셀) 수이다. 샘플이 경계에서 더해진 후 이미지에 요구되는 샘플의 총 수는 다음과 같이 계산된다.

경계에서 더해지는 샘플의 수는 다음과 같이 계산된다.

공간 주파수가 생성되지 않도록 추가적인 샘플이 더해져야 한다. 이것은 경계 샘플과 함께 주파수를 확장하여 얻어진다. 이것은 보충하기가 쉽고 수평 또는 수직 주파수를 자동적으로 생성하지 않는다. 하지만, 한 방향의 고주파수는 여전히 생성되고, 경계에서 이미지의 내용에 의존한다. 우선, 모든 열이 경계에서 최종 샘플 값에 더해지고 행이 그 후에 더해진다. 이미지로부터 8 ×8 픽셀블럭의 형성이 도 8에 도시된다.

이미지의 압축을 풀기 위한 상기 색변환의 역변환은 다음과 같다.

역 색변환에서, R, G, B의 결과값은 라운딩으로 인해 유효범위[0, 255]를 초과할 수 있다. 그러므로, 초과값은 각각 최소 및 최대값에 고정된다.

이산 코사인 변환은 샘플을 주파수 영역으로 변환하는데 사용된다. 변환기(14)에서 사용된 전진 이산 코사인 변환(FDCT)은 다음과 같이 정의된다.

성분 샘플 s_x,y는 각 샘플에서 128을 뺌으로써 '0'주위에 중심을 맞추도록 FDCT 연산 이전에 DC 레벨 이동된다.

이미지를 압축해제하기 위해, 역 이산 코사인 변환자(67)에서 사용된 역 이산 코사인 변환은 다음과 같이 정의된다.

역 DC 레벨 이동을 위해, IDTC 연산 후 각 샘플 s_x,y에 128을 더한다.

정량기(16)는 다음과 같이 작동한다. 변환자(16)의 64개의 각 DCT계수는 정량화 표(18)에 저장된 값을 사용하여 정량기(16)에 의해 정량화 된다. 각 계수에 대한 정량기 스텝 크기 S_u,v는 비주얼 어텐션 맵(30)에서 정의된 품질의 레벨을 나타내는 정량화 계수가 곱해진 정량화 표의 대응하는 요소 Q_u,v로부터 연산된다. 정량화 표는 인간의 눈의 공간 주파수 감도를 나타내고 경험적으로 얻어진다. 두 개의 다른 정량화 표는 휘도성분(Y)과 색성분(Cb 및 Cr)으로 사용된다. 일반적으로,인간의 눈이 색보다 휘도의 에러에 대해 더 민감하기 때문에 색계수의 정량화에 대한 스텝 크기는 휘도에 대한 것보다 크다.

정량화는 다음으로 정의된다.

인자 q_l은 비주얼 어텐션 맵(10)에서 정의된 품질 레벨 인자이다. 본 발명의 실시예에서, 비주얼 어텐션 맵은 네 개의 품질 레벨을 지원하고, 이 레벨은 2 비트를 사용하여 저장되며, 품질 레벨 인자를 정의하는 적합한 수에 사상된다. 각 품질 레벨에 대한 품질 레벨 인자는 압축 이미지 파일에 저장된다.

이미지의 압축을 풀기 위한 역 정량화 함수가 다음과 같이 정의된다.

본 발명의 상기 실시예에서, 휘도계수에 대한 정량화 표는 다음과 같이 정의되고,

색계수에 대한 정량화 표는 다음과 같이 정의된다.

정량화 후, 64개의 계수는 특히 고주파 계수에 대해 많은 "0"값을 포함한다. 긴 연속적 "0"값을 생성하기 위해, 64개의 계수는 8 ×8 행렬에서 64개의 차원벡터로 전환되고, 도 9에 도시된 지그재그 스캐너(22)에 의한 지그재그 시퀀스에서 재정렬된다.

지그재그 스캐닝에 의한 벡터가 긴 연속적 "0"값을 포함하여, 데이타의 양을 줄이기 위해 실행길이코딩이 사용된다.

벡터의 각 값은 실행레벨조합이라 하는 두 개의 출력값에 의해 나타내지고, 하나는 선행하는 "0"값의 수를 정의하고 하나는 일련의 "0"값에 따르는 "0"이 아닌 값의 레벨(값)을 정의한다. 최종 실행길이 인코딩된 "0"값에 따르는 모든 값들이 벡터에서 "0"인 경우, 특정 실행길이조합 (0,0)이 사용된다. 이 특정 조합은 블럭조합(EOB)의 종단이라 한다.

이산 코사인 변환의 특성상, 벡터의 제 1성분은 변환된 이미지 데이타의 DC계수이다. DC계수는 AC계수와 달리 취급된다. 인코딩 될 값은 이전의 DC항과 현재 DC항의 차이이다. 이것은 후속 엔트로피 인코딩에서 데이타의 양을 줄이는 인코딩을 위해 더 작은 수를 처리한다. 실행 및 레벨에 대한 두 값은 인코더(24)에 의해 두 개의 어레이로 출력되고, 모든 8 ×8 픽셀블럭이 처리된 실행길이 어레이(26)와 레벨 어레이(28)는 데이타의 양을 더 줄이기 위해 엔트로피 인코더(50)에 의해 사용된다.

레벨은 다음식으로 계산된다.

여기서,

블럭 k의 지그재그 벡터의 i성분

블럭번호

압축을 풀기 위해, 역 레벨인코딩은 다음과 같이 계산된다.

여기서,

블럭 k의 지그재그 벡터의 i성분

블럭번호

실행길이 인코딩의 한 실시예는 다음과 같다: 상기 실시예의 실행레벨 조합은 (r,l)과 같이 표현되며, r은 "0"의 실행길이이고 l은 "0"값을 따르는 레벨이다.

실행길이 인코딩에 대한 입력 벡터를

{-126,26,43,2,2,1,1,0,0,0,1,0,0,-1,-1,0,0,0,0,0,...,0}(총 64개)

및 선행 DC항을 -119라 하자. 실행길이 인코딩된 데이타는

(0,-7), (0,26), (0,43), (0,2), (0,2), (0,1), (0,1), (3,1), (2,-1), (0,-1), (0,0) 이 된다.

두 개의 출력 벡터는 다음과 같이 된다.(그레이 값들은 이전 블럭의 값이다.)

{...,2,4,0,23,0,0,0,0,0,0,0,0,3,2,0,0}(실행벡터)

및

{...,-1,1,2,-1,0,-7,26,43,2,2,1,1,1,-1,-1,0}(레벨벡터)

실행길이 인코딩 후, 실행벡터 및 레벨벡터는 조합되어 도 5b에 도시된 바와 같이 엔트로피 인코더에 의해 인코딩된 엔트로피가 된다. 이것은 픽셀당 비트의 수를 감소시킨다. 엔트로피 인코딩은 가장 빈번히 일어나는 실행레벨 조합에 대해수정 허프만 표에 의해 수행된다. 빈번한 조합을 나타내는데 사용되는 코드에 대한 비트의 수는 실행레벨 조합이 일어날수록 더 낮고 더 빈번하다. 이미지 파일의 크기를 최소로 유지하기 위해, 고정된 테이블이 사용된다.

이 표는 커다란 테스트 이미지 세트로부터 경험적으로 얻어졌다. 일부 이미지에서, 동적 허프만 코드표는 더 작은 화일 크기를 유도할 수도 있지만, 대부분의 경우, 본 발명의 이 실시예에서 사용된 허프만 코드표는 가장 작은 화일 크기를 유도할 것이다.

다음과 같은 구조를 이용하여 모든 실행 레벨 조합이 인코딩된다.

·만일 인코딩하기 위한 실행 레벨 조합을 위한 허프만 코드표내에 엔트리가 있다면, 상기 표로부터 코드가 사용될 것이다. 양레벨 및 음레벨을 인코딩하기 위해서, 부호비트는 상기 표로부터 취해진 코드 앞에 놓인다.

·특정 실행 레벨 조합을 위한 허프만표에 엔트리가 없다면, 다음의 표준 코딩구조가 사용되어야 한다.

표준 코딩은 부호비트를 1로 설정하여 실현되고, 2개의 가능한 이스케이프(ESC1,ESC2) 마커 중 하나가 뒤에 오게 된다. 다음 6비트는 부호없는 바이너리 코드인 실행길이를 나타내고, 마지막으로 레벨이 이어진다. 상기 레벨은 부호있는 바이너리 코드로 인코딩될 것이다.

만일 상기 레벨이 [-127,127]내에 있는 경우, ESC1 마커가 사용되고 상기 레벨은 8비트를 이용하여 인코딩된다.

만일 상기 레벨이 [-255,255]내에 있는 경우, ESC2 마커가 사용되고 상기 레벨은 9비트를 이용하여 인코딩된다.

이 단계에서, 상기 레벨은 [-255,255]를 초과할 수 없고, 이는 최대 9비트만이 상기 레벨을 인코딩하기에 충분하기 때문이다. 사실, 계수의 최대 절대값은 200보다도 작을 것이다.

대부분의 공용 실행 레벨 조합에서, 다음의 표로 정의한 바와 같은 허프만 코드가 사용된다. 이 표는 실행 및 레벨에 의해 분류되고, 인코딩을 위해 사용될 수 있다. 상기 인코더는 대응하는 허프만 코드를 찾아보기 위해 실행-레벨-조합을 이용한다.

실행	레벨	코드 길이	허프만 코드워드	16비트 코드(바이너리)
0	1	2	11	0000 0000 0000 0011
0	2	4	0100	0000 0000 0000 0100
0	3	5	00101	·
0	4	7	0000110	·
0	5	8	00100110	·
0	6	8	00100001
0	7	10	0000001010
0	8	12	000000011101
0	9	12	000000011000
0	10	12	000000010011
0	11	12	000000010000
0	12	13	0000000011010
0	13	13	0000000011001
0	14	13	0000000011000
0	15	13	0000000010111
0	16	14	00000000011111
0	17	14	00000000011110
0	18	14	00000000011101
0	19	14	00000000011100
0	20	14	00000000011011
0	21	14	00000000011010
0	22	14	00000000011001
0	23	14	00000000011000
0	24	14	00000000010111
0	25	14	00000000010110
0	26	14	00000000010101
0	27	14	00000000010100
0	28	14	00000000010011
0	29	14	00000000010010
0	30	14	00000000010001
0	31	14	00000000010000
0	32	15	000000000011000
0	33	15	000000000010111
0	34	15	000000000010110
0	35	15	000000000010101
0	36	15	000000000010100
0	37	15	000000000010011
0	38	15	000000000010010
0	39	15	000000000010001
0	40	15	000000000010000
1	1	3	011
1	2	6	000110
1	3	8	00100101
1	4	10	0000001100
1	5	12	000000011011
1	6	13	0000000010110
1	7	13	0000000010101
1	8	15	000000000011111
1	9	15	000000000011110
1	10	15	000000000011101

1	11	15	000000000011100
1	12	15	000000000011011
1	13	15	000000000011010
1	14	15	000000000011001
1	15	16	0000000000010011
1	16	16	0000000000010010
1	17	16	0000000000010001
1	18	16	0000000000010000
2	1	4	0101
2	2	7	0000100
2	3	10	0000001011
2	4	12	000000010100
2	5	13	0000000010100
3	1	5	00111
3	2	8	00100100
3	3	12	000000011100
3	4	13	0000000010011
4	1	5	00110
4	2	10	0000001111
4	3	12	000000010010
5	1	6	000101
5	2	10	0000001001
5	3	13	0000000010010
6	1	6	000111
6	2	12	000000011110
6	3	16	0000000000010100
7	1	6	000100
7	2	12	000000010101
8	1	7	0000111
8	2	12	000000010001
9	1	7	0000101
9	2	14	00000000010001
10	1	8	00100111
10	2	13	0000000010000
11	1	8	00100011
11	2	16	0000000000011010
12	1	8	00100010
12	2	16	0000000000011001
13	1	8	00100000
13	2	16	0000000000011000
14	1	10	0000001110
14	2	16	0000000000010111
15	1	10	0000001101
15	2	16	0000000000010110
16	1	10	0000001000
16	2	16	0000000000010101
17	1	12	000000011111
18	1	12	000000011010
19	1	12	000000011001
20	1	12	000000010111

21	1	12	000000010110
22	1	13	0000000011111
23	1	13	0000000011110
24	1	13	0000000011101
25	1	13	0000000011100
26	1	13	0000000011011
27	1	16	0000000000011111
28	1	16	0000000000011110	·
29	1	16	0000000000011101	·
30	1	16	0000000000011100	·
31	1	16	0000000000011011	0000 0000 0001 1011
EOB	S = 0	2	10	마커(Marker)
ESC1	S = 1	2	10	마커
ESC2	S = 1	6	000001	마커

동일한 정보가 이미지 데이터의 디코딩을 위해 사용된다. 여기서는 상기의 표가 코드 길이로 분류되어 있다. 이 표는 엔트로피 디코더(60)(도 6b)에 의해 사용되는데, 상기 엔트로피 디코더는 수신된 코드와 그 코드 길이를 이용하여 실행-레벨-조합을 조사한다.

실행	레벨	코드 길이	허프만 코드 단어	16비트 코드(bin.)
0	1	2	11	0000 0000 0000 0011
EOB	S = 0	2	10	마커
ESC1	S = 1	2	10	마커
1	1	3	011	0000 0000 0000 0011
0	2	4	0100	0000 0000 0000 0100
2	1	4	0101	·
0	3	5	00101	·
3	1	5	00111	·
4	1	5	00110
1	2	6	000110
5	1	6	000101
6	1	6	000111
7	1	6	000100
ESC2	S = 1	6	000001	마커
0	4	7	0000110
2	2	7	0000100
8	1	7	0000111
9	1	7	0000101
0	5	8	00100110
0	6	8	00100001
1	3	8	00100101
3	2	8	00100100
10	1	8	00100111
11	1	8	00100011
12	1	8	00100010
13	1	8	00100000
0	7	10	0000001010
1	4	10	0000001100
2	3	10	0000001011
4	2	10	0000001111
5	2	10	0000001001
14	1	10	0000001110
15	1	10	0000001101
16	1	10	0000001000
0	8	12	000000011101
0	9	12	000000011000
0	10	12	000000010011
0	11	12	000000010000
1	5	12	000000011011
2	4	12	000000010100
3	3	12	000000011100
4	3	12	000000010010
6	2	12	000000011110
7	2	12	000000010101
8	2	12	000000010001
17	1	12	000000011111
18	1	12	000000011010
19	1	12	000000011001
20	1	12	000000010111
21	1	12	000000010110

0	12	13	0000000011010
0	13	13	0000000011001
0	14	13	0000000011000
0	15	13	0000000010111
1	6	13	0000000010110
1	7	13	0000000010101
2	5	13	0000000010100
3	4	13	0000000010011
5	3	13	0000000010010
10	2	13	0000000010000
22	1	13	0000000011111
23	1	13	0000000011110
24	1	13	0000000011101
25	1	13	0000000011100
26	1	13	0000000011011
0	16	14	00000000011111
0	17	14	00000000011110
0	18	14	00000000011101
0	19	14	00000000011100
0	20	14	00000000011011
0	21	14	00000000011010
0	22	14	00000000011001
0	23	14	00000000011000
0	24	14	00000000010111
0	25	14	00000000010110
0	26	14	00000000010101
0	27	14	00000000010100
0	28	14	00000000010011
0	29	14	00000000010010
0	30	14	00000000010001
0	31	14	00000000010000
9	2	14	00000000010001
0	32	15	000000000011000
0	33	15	000000000010111
0	34	15	000000000010110
0	35	15	000000000010101
0	36	15	000000000010100
0	37	15	000000000010011
0	38	15	000000000010010
0	39	15	000000000010001
0	40	15	000000000010000
1	8	15	000000000011111
1	9	15	000000000011110
1	10	15	000000000011101
1	11	15	000000000011100
1	12	15	000000000011011
1	13	15	000000000011010
1	14	15	000000000011001
1	15	16	0000000000010011
1	16	16	0000000000010010
1	17	16	0000000000010001
1	18	16	0000000000010000

6	3	16	0000000000010100
11	2	16	0000000000011010
12	2	16	0000000000011001
13	2	16	0000000000011000
14	2	16	0000000000010111
15	2	16	0000000000010110
16	2	16	0000000000010101
27	1	16	0000000000011111
28	1	16	0000000000011110	·
29	1	16	0000000000011101	·
30	1	16	0000000000011100	·
31	1	16	0000000000011011	0000 0000 0001 1011

허프만 코드의 일부 예시는 다음과 같다.

실행, 레벨	S	허프만 코드/마커	실행	레벨
(0, -130)	1	0000001(ESC2)	000000	1 0111 1110
(26, -127)	1	10(ESC1)	011010	1000 0001
(0, -1)	1	11
(0, 1)	0	11
(10, 1)	0	0010 0111
(0, 0)	0	10

본 발명의 이 실시예에서 사용된 방법에 의해 압축된 이미지의 모든 성분은 아래서 위로, 좌에서 우로의 방식으로 처리된다. 이것은 성분의 첫번째 블럭이 입력 이미지의 하단 좌측 코너에 있고, 다음 블럭은 그 우측에 있는 식으로 블럭라인의 끝까지 계속된다는 것을 의미한다. 다음 블럭라인은 이전 블럭라인의 위에 있고, 모든 블럭라인은 좌측에서 시작한다. 이러한 프로세스가 도 10에 도시되어 있다.

엔트로피 인코딩까지 각각의 블럭이 개별적으로 처리됨에 따라서, 블럭 데이터스트림을 형성하는 많은 서로 다른 방법이 있다. 모든 이미지 데이터를 실제로 수신하기전에 이미지가 디코딩될 필요가 없어짐에 따라서, 비-간삽 구조는 알고리즘을 단순하게 하고 처리시간을 단축하기 때문에 선택되었다. 이것은 Y 성분의 모든 블럭이 먼저 처리되고 저장되며, 다음에 Cb 성분에 대한 모든 블럭이, 마지막으로 Cr 성분에 대한 모든 블럭이 처리되고 저장된다는 것을 의미한다. 개선된 디코딩/인코딩도 가능하고, 이것이 후술되어 있다. 결과적인 데이터스트림이 도 11에 도시되어 있다.

본 발명의 상기 방법을 사용하여 압축된 이미지는 본 실시예에서 (본 명세서에서 VACIMG 화일이라 하는) 다음의 화일 포맷으로 저장된다.

본 발명의 이 실시예는 관심있는 서로 다른 레벨로 압축하기 위해 이미지내에 서로 다른 영역을 한정하는 비주얼 어텐션 맵(Visual Attention Map)을 이용하여 이미지를 압축한다. 원하는대로 더 많은(또는 더 적은) 레벨이 사용될 수 있지만, 본 실시예에서는 4개 레벨이 이용된다. 관심있는 각각의 레벨에 대응하는 영역은 그 자체 압축율로 각각 압축되어, 이미지의 다른 부분보다 더 높은 압축율(및 더 낮은 품질)로 배경을 압축하도록 한다. 다음, 압축된 이미지는 화일내에 저장되고, 상기 화일 또한 비주얼 어텐션 맵을 포함한다. 고압축 비율이 본 발명의 실시예의 목적중 하나이므로, 이미지에 대해 필요한 만큼 적은 정보가 파일에 저장된다. 이미지에 대한 모든 일반적인 정보가 우선 파일에 전달되고 비주얼 어텐션 맵을 거쳐 압축 이미지 데이타가 된다. 이미지에 대한 일반적인 정보는 x 및 y 방향 샘플의 수와 모든 네 개의 가능한 레벨로 이루어진다. 적용예가 파일이 VACIMG 파일인지 검사하도록, 파일신호는 일반적인 이미지 정보 앞에 삽입된다.

하기 표는 VBACIMG 이미지에 의해 사용된 파일형식의 개략적 설명이다.

바이트 수	이름	바이트 길이	기능
0-5	-	6	파일신호:"VACIMG"
6-7	폭	2	x 방향 샘플의 수
8-9	높이	2	y 방향 샘플의 수
10	레벨 0	1	레벨 0에 대한 정량화 인자(배경)
11	레벨 1	1	레벨 1에 대한 정량화 인자(전경, 저i)
12	레벨 2	1	레벨 2에 대한 정량화 인자(전경, 중i)
13	레벨 3	1	레벨 3에 대한 정량화 인자(전경, 고i)
14-i	VA 맵	k	비주얼 어텐션 맵
i-n	데이타	d	이미지 데이타

모든 바이트는 표준 윈도우 비트 할당을 사용하여 바이트 단위로 파일에 기록된다. 파일은 문자 'V','A','C','I','M' 및 'G'을 나타내는 6바이트로 시작한다. 그리고 샘플의 수와, 부호가 없는 16비트 정수로 저장되는 폭 및 높이가 다음에 온다. 가장 중요한 바이트가 우선 온다. 부호가 없는 8비트 정수 번호로 저장되는 네 개의 품질 레벨이 그 뒤를 따른다. 관심있는 레벨(즉, 압축 레벨)을 저장하는 비주얼 어텐션 맵 즉, VA 맵이 다음에 온다. 비주얼 어텐션 맵은 8 ×8 픽셀블럭당 2비트로 나타내진다. x 및 y 방향 블럭의 수는 상기 방정식에 의해 주어지고, 하기 비주얼 어텐션 맵에 의해 사용되는 바이트의 수를 계산하는데 사용된다.

결국, 모든 압축이미지 데이타가 뒤따른다. 압축이미지 데이타에 사용된 바이트수는 디코더로는 알 수 없다. 디코더는 이미지를 재구성하기 위해 제공된 모든 바이트를 사용해야 하고 파일의 끝이 도착하면 자동적으로 디코딩을 멈춘다.

비주얼 어텐션 맵의 사용은 이미지의 향상된 디코딩을 가능케 하고, 여기서 이미지의 가장 흥미로운 부분이 우선 디코딩된다. 이미지 성분의 DCT 계수를 저장하기 위해 비간삽 구조를 사용하는 대신, 블럭을 재구성하는 모든 정보가 데이타 흐름에서 서로 가까워지도록 간삽 구조를 사용할 수 있다. 이것은 수신기가 완성된 파일을 받기 전에 압축해제를 시작하고 수신된 이미지를 개조하는 것을 가능하게 한다. 이것은 월드 와이드 웹(WWW), WAP(wireless application protocol)폰 또는 비디오폰과 같은 기술에 특히 유용하다. JPEG은 이미지 압축에 기초한 비주얼 어텐션을 사용하여 얻을 수 있는 이점이 있지만, 이미 향상된 인코딩을 제공한다. 가장 중요한 블럭(레벨 3 블럭)이 우선 보내지고, 다음으로 레벨 2 블럭, 레벨 1 블럭 및 마지막으로 배경블럭(레벨 0 블럭)이 뒤를 잇는다. 이것은 수신기가 많은 이미지의 "메시지"를 일찍 수신하고 충분한 정보가 수신되면 데이타의 흐름을 자를 수 있다는 것을 의미한다. 대부분의 적용예에서, 이미지는, 예를 들어 좌측하단 구석에서 시작하고 이미지를 상향으로 한줄씩 스캔하는, 픽셀의 고정된 시퀀스 형태로 보내진다. 따라서 이미지의 "메시지'를 얻기 위해, 모든 이미지가 전달되어 재구성될 때 까지 기다려야 한다. 비주얼 어텐션 맵은 중요한 픽셀을 우선 보내고, 다음으로 중요한 픽셀 및 나머지를 보낼 수 있게 하여, 메시지를 얻기에 정보가 충분하면 데이타의 흐름을 끊을 수 있다. 이러한 기술은 좁은 대역폭 전산망에서도 적합한 품질로 비디오 흐름을 전송할 수 있게 한다. 특히, 비디오폰에서, 이 기술은 약간의 배경정보를 잃고 낮은 대역폭에서 이미지를 제공한다.

대역폭이 모든 이미지를 전송하기에 좁은 경우, 디코더와 인코더는 언제든지 블럭의 전송을 멈출 수 있고, 가장 중요한 블럭만 전송한다. 수신기에서 향상된 이미지를 얻기위해, 배경도 업데이트 하도록 전체 이미지가 이따금 전송되어야 한다. 하지만, 대부분의 경우 새로운 블럭으로 교체될 수 없을때 가장 중요한 블럭만 교체하고 이전 이미지의 배경블럭을 사용하기에 충분하다.

VA맵에서 낮은 비주얼 어텐션 레벨로 인해 낮은 정량화 레벨로 디코딩된 블럭을 자동적으로 흐리게 하는 것이 가능하다. 이것은 저장이나 대역폭에 대한 부담없이 디코딩된 이미지의 지각성을 향상시킨다.

본 발명의 다른 적용예는 눈에 잘 띄게 하기 위해 설계 및 경고(예를 들어 도로표지)의 위치에 대해 인간공학적 문제들을 포함하고 이러한 과정동안 인간에 대해 위험요소를 갖는 이것은 시행착오의 과정이다. 비주얼 어텐션의 객관적인 방법(즉, 표시 또는 다른 어떤 것이 제안된 환경에서 표시에 대한 의도된 청중의 관점에서 주요한 주제인지를 식별하는 것)은 설계과정을 향상시키고 충분히 명확치 못한 시험적 표시로 발생하는 사고의 위험을 줄인다. 광고와 같은 다른 표시의 시각적 충돌 및 인터넷 "웹사이트"와 같은 표시화면의 레이아웃은 특정 위치에서 비주얼 어텐션을 최대화하도록 이러한 과정을 사용하여 최적화될 수 있다.

본 발명은 또한 배경 또는 주위 집단의 어떤 관계에서 다른 물체를 구별할 수 있다. 예를 들어, 암세포는 주변의 건강한 세포에는 없는 특징을 소유한다는 점에서 구별될 수 있다. 검사되는 샘플이 많고 암세포가 상대적으로 적기때문에 이러한 변형체를 눈으로 식별하는 것은 현재 매우 힘든 과정이다. 인간 관찰자는 눈의 긴장과 피로로 인해 변형세포를 발견할 수 없다는 것을 안다.

또 다른 실시예로, 입자물리학자들이 사용하는 기포실 사진에서, 새롭고 변형된 형의 입자궤적을 이 과정을 통해 식별할 수 있다. 지금까지는 가장 관심있는궤적이 알려지지 않은 특성을 갖는 미발견 입자들에 의해 생성되는 것이기 때문에, 그것들을 찾기 위해 템플릿을 고안하는 것은 불가능하다.

또 다른 실시예로, 직물의 시각적 표현에서 결함의 객관적인 검사는 직물, 마이크로칩의 제조공정 및 표면적 결함을 피하기 위한 다른 공정의 질적 보증을 향상시킨다.

또 다른 적용예에서, 주변 환경과 어울리지 않는 물체의 존재를 인지하는것은 안전감독 분야에서 많은 적용예를 갖는다. 이러한 물체는 안전요원에 조기에 발견되지 않는다면 심각한 위험요소가 된다. 이와 유사하게, 부수체 이미지내의 변형체의 존재는 중요한 지적 정보 또는 인류생태학의 국지적 변화를 초래할 수 있다.

본 발명은 시간과 비용이 많이 드는 인간 유전자에 대한 시도의 대용품으로서 인간의 능력을 에뮬레이팅하는데 필요한 작업의 범위에 대해 응용하는 인간의 시각적 인식의 한 모델이다.

본 발명을 응용할 수 있는 다른 영역은, 예를 들어, 높은 주의력의 물체에 대한 윤곽을 제공하여 상기 물체들이 합성물을 위해 잘려져서 사용되도록 하는 이미지 편집에서, 그리고 시각적 어텐셜 레벨의 자동화된 모니터링을 통한 철도 및 도로 사이의 안전 신호/표지의 자동화된 검사에서의, 학생들의 주의력을 집중시킬 수 있는 교육자재의 증대 및 지각의 중요성의 영역이 보다 자세히 표현되는 비디오 재료의 개량된 표현을 포함한다.

Claims

비주얼 어텐션 영역을 식별하기 위해 비주얼 이미지를 처리하는 방법에 있어서,

각각이 값을 갖는 픽셀들의 한 어레이로서 이미지를 저장하는 단계;

상기 어레이로부터 테스트 픽셀을 선택하는 단계;

각각의 테스트 픽셀에 대해서, 상기 테스트 픽셀에 인접하는 하나 이상의 인접 픽셀 시퀀스를 선택하는 단계;

상기 어레이로부터 비교 픽셀을 선택하는 단계;

상기 테스트 픽셀에 대해 선택된 인접 픽셀 시퀀스가 갖는 각각의 위치 관계와 동일한 선택된 비교 픽셀에 대한 각각의 위치 관계를 갖는 상기 비교 픽셀에 인접하는 픽셀 시퀀스를 식별하는 단계;

상기 선택된 인접 시퀀스의 값과 상기 식별된 시퀀스의 값을 소정 매치 기준에 따라서 비교하는 단계; 및

상기 비교결과가 미스매치인 테스트 픽셀에 대해 실시된 비교 횟수에 따라서 각각의 테스트 픽셀에 대한 비주얼 어텐션 메저(measure)를 생성하는 단계를 포함하는 것을 특징으로 하는 비주얼 이미지 처리방법.
제 1 항에 있어서,

각각의 비교 픽셀에 대해서, 만일 상기 테스트 픽셀에 인접하는 하나 이상의선택된 픽셀이 상기 비교 픽셀에 인접하는 대응 픽셀의 값과 유사하지 않은 값을 갖는 경우, 예외값이 증가되고, 모든 선택된 픽셀이 상기 테스트 픽셀에 인접하는 대응 픽셀과 유사한 값을 갖는 비교 픽셀이 선택될 때까지 동일한 테스트 픽셀과 함께 추가 비교 픽셀을 이용하여 상기 프로세스가 반복되며, 그러한 경우 추가 인접 시퀀스가 선택되고 프로세스가 반복되는 것을 특징으로 하는 비주얼 이미지 처리방법.
제 1 항 또는 제 2 항에 있어서,

복수의 테스트 픽셀이 동시에 분석되는 것을 특징으로 하는 비주얼 이미지 처리방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

복수의 비교 픽셀이 소정 테스트 픽셀과 동시에 비교되는 것을 특징으로 하는 비주얼 이미지 처리방법.
제 1 항 내지 제 4 항 중 어느 한 항에 있어서,

상기 값은 컬러 이미지를 나타내는 3-성분 벡터인 것을 특징으로 하는 비주얼 이미지 처리방법.
제 1 항 내지 제 5 항 중 어느 한 항에 있어서,

인접 시퀀스에 추가하여, 추가 가변 탐색기준이 선택되는 것을 특징으로 하는 비주얼 이미지 처리방법.
제 6 항에 있어서,

상기 추가 가변 탐색기준은 2개 픽셀값이 유사한지 여부를 판정하기 위한 임계값을 포함하는 것을 특징으로 하는 비주얼 이미지 처리방법.
제 1 항 내지 제 7 항 중 어느 한 항에 있어서,

높은 예외값이 생성된 탐색기준에 대한 값을 저장하는 단계, 및

후속 테스트 픽셀을 위해 동일한 탐색기준을 선택하는 단계를 포함하는 것을 특징으로 하는 비주얼 이미지 처리방법.
제 1 항 내지 제 8 항 중 어느 한 항에 있어서,

최대 예외값을 갖는 픽셀을 포함하는 영역의 식별에 의해 가시 장면내 주요 오브젝트가 식별되는 것을 특징으로 하는 비주얼 이미지 처리방법.
제 1 항 내지 제 8 항 중 어느 한 항에 있어서,

가시 장면내 소정 오브젝트에 제공된 비주얼 어텐션 메저는 상기 오브젝트를 나타내는 픽셀에 대해 생성된 예외값과 상기 장면의 다른 부분에 대해 생성된 예외값의 비교에 의해 결정되는 것을 특징으로 하는 비주얼 이미지 처리방법.
제 1 항 내지 제 10 항 중 어느 한 항에 따라 비주얼 어텐션 영역을 배치하기 위해 이미지를 처리하는 단계; 및

높은 비주얼 어텐션 영역이 낮은 비주얼 어텐션 영역을 갖는 이미지 영역보다 보다 정확하게 코딩되도록 하기 위해 상기 배치된 비주얼 어텐션 영역에 따라 이미지를 코딩하는 단계를 포함하는 것을 특징으로 하는 이미지 압축방법.
제 11 항에 있어서,

상기 배치된 비주얼 어텐션 영역은 상기 이미지를 코딩하기 위한 양자화 레벨을 선택하기 위해 사용되는 것을 특징으로 하는 이미지 압축방법.
비주얼 어텐션 영역을 배치하기 위해서 비주얼 이미지 또는 상기 이미지의 시퀀스를 처리하는 장치에 있어서,

각각이 값을 갖는 픽셀들의 한 어레이로서 이미지를 저장하는 수단;

상기 어레이로부터 테스트 픽셀을 선택하는 수단;

상기 테스트 픽셀에 인접하는 인접 픽셀 시퀀스를 선택하는 수단;

상기 어레이로부터 비교 픽셀을 선택하는 수단;

상기 테스트 픽셀에 대해 선택된 인접 픽셀 시퀀스가 갖는 각각의 위치 관계와 동일한 선택된 비교 픽셀에 대한 각각의 위치 관계를 갖는 상기 비교 픽셀에 인접하는 픽셀 시퀀스를 식별하는 수단;

상기 선택된 인접 시퀀스의 값과 상기 식별된 시퀀스의 값을 소정 매치 기준에 따라서 비교하는 수단; 및

매치하지 않는 시퀀스를 식별하는 비교 횟수에 따라서 각각의 테스트 픽셀에 대한 비주얼 어텐션 메저를 생성하는 수단을 포함하는 것을 특징으로 하는 비주얼 이미지 또는 상기 이미지의 시퀀스 처리장치.
제 1 항 내지 제 13 항 중 어느 한 항의 방법을 실시하도록 프로그래밍된 컴퓨터.
상기 프로덕트가 컴퓨터상에서 실행되는 경우, 제 1 항 내지 제 13 항 중 어느 한 항의 단계를 수행하기 위해 소프트웨어 코드부를 포함하는 것을 특징으로 하는 디지털 컴퓨터의 내부 메모리로 직접 로딩가능한 컴퓨터 프로그램 프로덕트.
컴퓨터 가용한 매체상에 저장된 컴퓨터 프로그램 프로덕트에 있어서,

각각이 값을 갖는 픽셀들의 한 어레이로서 컴퓨터가 이미지를 저장하도록 하는 컴퓨터 가독(readable) 프로그램 수단;

상기 컴퓨터가 상기 어레이로부터 테스트 픽셀을 선택하도록 하는 컴퓨터 가독 프로그램 수단;

각각의 테스트 픽셀에 대해서, 상기 컴퓨터가 상기 테스트 픽셀에 인접하는 인접 픽셀 시퀀스를 선택하도록 하는 컴퓨터 가독 프로그램 수단;

상기 컴퓨터가 상기 어레이로부터 비교 픽셀을 선택하도록 하는 컴퓨터 가독 프로그램 수단;

상기 컴퓨터가 상기 테스트 픽셀에 대해 선택된 인접 픽셀 시퀀스가 갖는 각각의 위치 관계와 동일한 선택된 비교 픽셀에 대한 각각의 위치 관계를 갖는 상기 비교 픽셀에 인접하는 픽셀 시퀀스를 식별하도록 하는 컴퓨터 가독 프로그램 수단;

상기 컴퓨터가 상기 선택된 인접 시퀀스의 값과 상기 식별된 시퀀스의 값을 소정 매치 기준에 따라서 비교하도록 하는 컴퓨터 가독 프로그램 수단; 및

상기 컴퓨터가 비교결과가 미스매치인 비교 회수에 따라서 각각의 테스트 픽셀에 대한 비주얼 어텐션 메저를 생성하도록 하는 컴퓨터 가독 프로그램 수단을 포함하는 것을 특징으로 하는 컴퓨터 가용 매체상에 저장된 컴퓨터 프로그램 프로덕트.
비주얼 어텐션 영역을 식별하기 위해 비주얼 이미지 시퀀스를 처리하는 방법에 있어서,

각각이 값을 갖는 픽셀들의 한 다차원 어레이로서 이미지의 시퀀스를 저장하는 단계;

상기 어레이로부터 테스트 픽셀을 선택하는 단계;

각각의 테스트 픽셀에 대해서, 상기 테스트 픽셀에 인접하는 하나 이상의 인접 픽셀 시퀀스를 선택하는 단계;

상기 어레이로부터 비교 픽셀을 선택하는 단계;

상기 테스트 픽셀에 대해 선택된 인접 픽셀 시퀀스가 갖는 각각의 위치 관계와 동일한 선택된 비교 픽셀에 대한 각각의 위치 관계를 갖는 상기 비교 픽셀에 인접하는 픽셀 시퀀스를 식별하는 단계;

상기 선택된 인접 시퀀스의 값과 상기 식별된 시퀀스의 값을 소정 매치 기준에 따라서 비교하는 단계; 및

상기 비교결과가 미스매치인 테스트 픽셀에 대해 실시된 비교 횟수에 따라서 각각의 테스트 픽셀에 대한 비주얼 어텐션 메저를 생성하는 단계를 포함하는 것을 특징으로 하는 비주얼 이미지 시퀀스 처리방법.