KR101125351B1

KR101125351B1 - 디지털 이미지 처리 방법 및 시스템

Info

Publication number: KR101125351B1
Application number: KR1020067012119A
Authority: KR
Inventors: 웅호 심; 토 온 데스몬드 힐
Original assignee: 크리에이티브 테크놀로지 엘티디
Priority date: 2003-12-19
Filing date: 2004-12-17
Publication date: 2012-03-28
Also published as: JP2007515126A; TW200527825A; CN100504922C; US8442262B2; CN1898695A; JP4568732B2; EP1700266A1; AU2004300115A1; KR20060112668A; EP1700266A4; US20050212930A1; TWI463806B; AU2004300115B2; WO2005059830A1

Abstract

디지털 이미지를 처리하는 방법 및 장치가 제공된다. 이 방법은, 호스트 이미지를 수신하는 단계, 오디오 데이터를 수신하는 단계, 그리고, 호스트 이미지 내에 오디오 데이터를 삽입하여 삽입 이미지를 제공하는 단계로서, 삽입 이미지로부터 오디오 데이터를 자유롭게 복원시킬 수 있는 단계를 포함한다. 이 방법은, 호스트 이미지 내에 오디오 데이터를 삽입하기 전에 숏-텀 퓨리에 변환(STFT:Short-Term Fourier Transform)을 이용하여, 오디오 데이터를 처리하는 단계를 포함할 수 있다. 이 방법은, 호스트 이미지 내에 오디오 데이터를 삽입하기 전에, 오디오 데이터에 포함된 오디오 신호를 표현하는 디지털 데이터의 양을 감소시키는 단계를 포함할 수 있다. 한 실시예에서, 이 방법은, 오디오 신호의 크기 데이터를 양자화하고 위상 데이터를 폐기하여 오디오 데이터를 삽입하는 단계를 포함할 수 있다. 또한, 이 방법은, 오디오 데이터를 D4 래티스 코드의 한 쉘에 매칭시키도록 오디오 데이터를 양자화하는 단계를 포함할 수 있다.

Description

디지털 이미지 처리 방법 및 시스템{METHOD AND SYSTEM TO PROCESS A DIGITAL IMAGE}

본 발명은 디지털 신호 처리 분야에 관한 발명으로서, 특히 디지털 정지 이미지같은 디지털 이미지를 처리하는 방법 및 시스템에 관한 것이다.

디지털 네트워크들은 멀티미디어 리소스들을 소비자에게 제공함에 있어 점점 인기를 얻고 있다. 그러나, 멀티미디어 콘텐트의 소유권 집행은 디지털 미디어가 이익을 가져다줌에 따라 주요 관심사가 되고 있다. 워터마킹(watermarking) 및 데이터 은닉(data hiding) 방법들은 디지털 매체의 불법적 배포 문제에 대한 해결책을 제공하기 위해 당해 분야에서 잘 알려져 있다. 이러한 방법들의 목표는 승인받은 자만이 은닉된 데이터를 불러들일 수 있도록 하는 것이다. 데이터 은닉은, 소량의 특정 식별 정보가 제공되는 디지털 워터마킹에 비해, 다량의 데이터를 은닉시킬 때 일반적으로 적용된다.

따라서, 현재까지의 디지털 비디오 처리 방법들은 워터마킹 및 디지털 시그너처를 이용하여 멀티미디어를 식별하는 데 주목하고 있다. 그러나, 디지털 시그너처들은 승인받은 자(들)에게만 제공되는 전용 소프트웨어나 키없이는 비준될 수 없다. 일부 상황에서, 워터마킹은 암호화에 반해, 기밀성이 없을 수 있다. 워터마킹 의 주목적이 부당한 변경행위에서 살아남기 위한 것이기 때문이다. 물론, 워터마크도 암호화될 수 있다.

본 발명에 따르면, 호스트 이미지를 처리하는 방법에 있어서, 상기 방법은,

- 호스트 이미지를 수신하는 단계,

- 오디오 데이터를 수신하는 단계,

- 호스트 이미지 내에 오디오 데이터를 삽입하여 삽입 이미지를 제공하는 단계로서, 삽입 이미지로부터 오디오 데이터를 자유롭게 복원시킬 수 있는 단계

를 포함하는 것을 특징으로 하는 호스트 이미지 처리 방법이 제공된다. 이 방법은,

- 호스트 이미지 내에 오디오 데이터를 삽입하기 전에, 오디오 데이터에 포함된 오디오 신호를 표현하는 디지털 데이터의 양을 감소시키는 단계

를 포함할 수 있다. 한 실시예에서, 이 방법은,

- 호스트 이미지 내에 오디오 데이터를 삽입하기 전에 숏-텀 퓨리에 변환(STFT:Short-Term Fourier Transform)을 이용하여, 오디오 신호의 크기 데이터를 양자화하고 위상 데이터를 폐기하여 오디오 데이터를 삽입하는 단계

를 포함할 수 있다. 또한,

- 오디오 데이터를 D4 래티스 코드에 매핑하기 위해 오디오 데이터를 양자화하는 단계

를 포함할 수 있다. 또한,

- 호스트 이미지의 왜곡 최소화를 위해 D4 래티스의 래티스 코드를 스케일링하는 단계

를 포함할 수 있다.

한 실시예에서, 이 방법은,

- 호스트 이미지의 휘도 데이터와 크로미넌스 데이터를 분리시키는 단계,

- 휘도 데이터에 오디오 데이터를 포함시켜서 수정된 휘도 데이터를 제공하는 단계, 그리고

- 수정된 휘도 데이터와 크로미넌스 데이터를 조합하여 삽입 이미지를 제공하는 단계

를 포함한다.

이 방법은,

- 휘도 데이터를 처리하여 중간 휘도 데이터를 제공하는 단계

- 중간 휘도 데이터의 서브밴드에 지각 적응을 실행하여 지각 적응된 서브밴드를 제공하는 단계, 그리고

- 지각 적응된 서브밴드에 오디오 데이터를 포함시켜서 수정된 휘도 데이터를 제공하는 단계

를 포함할 수 있다.

한 실시예에서, 이 방법은,

- 중간 휘도 데이터로부터 서브밴드를 제거하여 추가적인 중간 휘도 데이터를 제공하는 단계, 그리고

- 지각 적응된 서브밴드를 추가적인 중간 휘도 데이터와 조합하여 수정된 휘도 데이터를 제공하는 단계

를 포함할 수 있다. 또한,

- 수정된 휘도 데이터에 대해 인버스 변환을 실행하는 단계, 그리고

- 인버스 변환된 휘도 데이터를 크로미넌스 데이터와 조합하여, 디지털 이미지를 규정하는 삽입 호스트를 제공하는 단계

를 포함할 수 있다.

상기 휘도 데이터가 이산 파동 변환 또는 이산 코사인 변환에 의해 처리될 수 있고, 오디오 데이터는 호스트 이미지의 서브밴드의 계수들에 기초하여 양자화 및 스케일링될 수 있다.

한 실시예에서, 이 방법은,

- 호스트 이미지의 일부분을 마스킹하는 단계, 그리고

- 호스트 이미지에 대해 마스킹된 부분을 예약하는 단계

를 포함할 수 있고, 또다른 실시예에서, 이 방법은,

- 호스트 이미지의 일부분을 마스킹하여, 마스킹된 부분과 마스킹되지 않은 부분을 제공하는 단계, 그리고

- 마스킹된 부분과 마스킹되지 않은 부분에 오디오 데이터를 삽입하는 단계로서, 이때, 마스킹된 부분에 비해 마스킹되지 않은 부분에 화소 당 더 많은 오디오 데이터가 저장되는 단계

를 포함한다. 이때, 상기 이미지가 디지털 사진일 수 있다.

본 발명은 오디오 데이터 추출을 위해 삽입 이미지를 처리하는 방법으로 확장될 수 있다. 상기 방법은,

- 삽입 이미지의 휘도 성분에 대해 이산 파동 변환 또는 이산 코사인 변환을 실행하는 단계,

- 오디오 데이터에 상관된 양자화된 크기 데이터를 식별하는 단계,

- 식별된 크기 데이터에 상관된 위상 데이터를 추정하는 단계, 그리고

- 양자화된 크기 데이터와 위상 데이터에 기초하여 출력 오디오 신호를 발생시키는 단계

를 포함한다.

이 방법은, 삽입 이미지에 포함된 각 래티스 코드에 대한 스케일을 추정하는 단계와, 래티스 코드들을 스케일링하여 이를 정규화하고, 이에 따라 양자화된 크기 데이터를 제공하는 단계를 포함할 수 있다. 일례의 실시예에서, 양자화된 크기 데이터를 식별하기 전에, 인코딩된 서브밴드로부터 래티스 채널 코드들을 추출하는 단계, 각 코드의 최대 절대값으로부터 스케일을 추정하는 단계, D4 래티스 코드로부터 매칭을 발견하는 단계, 그리고 이 매칭을 인버스 양자화하여 STFT 크기 데이터를 제공하는 단계를 포함할 수 있다.

이 방법은, 오디오 데이터를 한 세트의 공지 값들로 모델링하는 단계로서, 이때, 각각의 공지 값은 대응하는 웨이트를 가지며, 상기 웨이트는 공지 값으로 신뢰도 레벨을 표현하며, 제로 웨이트는 미지값을 표시하고, 오디오 데이터의 추출된 STFT 크기는 공지값으로 간주되는 단계를 포함할 수 있다. 각각의 웨이트는 추출한 노이지 래티스 코드와 이에 가장 가까운 래티스 코드 사이의 거리의 함수로 모델링될 수 있다.

본 발명에 따르면, 호스트 이미지를 처리하는 시스템에 있어서, 상기 시스템은,

- 호스트 이미지를 처리하는 이미지 처리 회로,

- 오디오 데이터를 수신하는 오디오 처리 회로, 그리고

- 호스트 이미지 내에 오디오 데이터를 삽입하여 삽입 이미지를 제공하는 삽입 모듈로서, 이때, 삽입 이미지로부터 오디오 데이터를 자유롭게 복원할 수 있는 특징의 상기 삽입 모듈

을 포함하는 것을 특징으로 하는 호스트 이미지 처리 시스템이 제공된다.

본 발명에 따르면, 호스트 이미지로부터 오디오 데이터를 추출하는 시스템에 있어서, 상기 시스템은,

- 호스트 이미지를 수신하고 호스트 이미지의 휘도 성분을 제공하는 이미지 처리 회로, 그리고

- 휘도 성분으로부터 오디오 데이터를 추출하고 자유롭게 복원가능한 오디오 데이터를 제공하는 오디오 처리 회로

를 포함하는 것을 특징으로 하는 오디오 데이터 추출 시스템이 제공된다.

이 시스템은,

- 호스트 이미지의 휘도 성분에 대해 이산 파동 변환을 수행하는 이산 파동 변환 모듈,

- 휘도 성분에 상관된 양자화된 크기 데이터를 식별하는 식별 모듈, 그리고

- 식별된 크기 데이터에 상관된 위상 데이터를 추정하고, 양자화된 크기 데이터 및 위상 데이터에 기초하여 출력 오디오 신호를 발생시키는 위상 복원 모듈

을 포함할 수 있다.

본 발명에 따르면, 상술한 방법의 단계들을 기계에 의해 실행하게 하는 명령들을 기록한, 또는, 상술한 시스템의 수단들을 기계에 의해 기능하게 하는 명령들을 기록한 기계-판독형 매체가 제공된다.

본 발명은 디지털 카메라와, 디지털 카메라를 포함하는 이동 전화에도 또한 적용된다.

도 1은 본 발명에 따른 일례의 디지털 카메라의 개략적 블록도표.

도 2는 디지털 이미지를 처리하기 위한 본 발명에 따른 이미지 처리 시스템의 한 실시예의 일례의 기능 유닛들의 개략적 블록도표.

도 3은 디지털 이미지를 처리하기 위한, 본 발명에 따른 일례의 방법의 순서도.

도 4는 호스트 이미지에 삽입하기 위한 오디오 데이터를 처리하기 위한 본 발명에 따른 방법의 순서도.

도 5는 삽입된 이미지로부터 오디오를 추출하기 위한, 본 발명에 따른 오디오 처리 시스템의 한 실시예의 일례의 기능 유닛들의 개략적 블록도표.

도 6은 삽입된 이미지로부터 오디오 데이터를 추출하기 위한 본 발명에 따른 오디오 처리 방법의 순서도.

도 7은 디지털 이미지의 일례의 파동 서브밴드의 도면.

도 8은 원본 오디오 신호로부터 도출된 크기 데이터로부터 오디오 데이터를 재현하기 위한 본 발명에 따른 오디오 처리 방법의 순서도.

도 9는 호스트 이미지의 서브밴드에 STFT 크기를 삽입하기 위한 본 발명에 따른 일례의 방법의 도면.

도 10은 디지털 이미지를 처리하기 위한 본 발명에 따른 이미지 처리 시스템의 추가 실시예의 일례의 기능 유닛들의 개략적 블록도표.

도 11은 래티스 코드로 대체되는 네개의 DCT 계수들을 구비한 일례의 8x8 이산 코사인 변환(DCT) 계수 블록의 도면.

도 12는 삽입된 이미지로부터 오디오를 추출하기 위한 본 발명에 따른 오디오 처리 시스템의 또다른 실시예의 기능 유닛들의 개략적 블록도표.

도 13A, 13B, 14A, 14B는 오디오 삽입이 배제되었을 때 이미지의 부분들을 규정하는 호스트 이미지 및 관련 마스크들의 도면.

도 15 및 16은 이미지와, "사운드 스트립" 또는 "스피치 스트립"으로 표현되는 관련 오디오의 일례의 스크린 디스플레이.

도 17은 본원의 방법들을 기계에 의해 수행하게 하는 일련의 명령들을 기록한 컴퓨터 시스템 형태의 기계의 개략적 도면.

디지털 이미지 처리 방법 및 시스템이 개시된다. 본 발명은 디지털 카메라로 찍은 사진이나 "스냅-샷"같은 정지 이미지에 오디오 데이터를 삽입하고 이 정지 이미지로부터 오디오 데이터를 추출하는 기술에 관련된다. 그러나 본 발명은 비디오 및 그외 다른 멀티미디어 환경을 포함하는 디지털 신호 처리 분야에 적용될 수 있다.

발명의 한가지 실시예에서, 정지 이미지같은 칼라 호스트 이미지에 오디오 신호(가령, 스피치 신호)를 삽입하는 방법 및 시스템이 제공된다. 오디오 신호의 숏-텀 퓨리에 변환(STFT: Short Term Fourier Transform)의 크기가 래티스-코딩(Lattice-coding)되며, 호스트 이미지의 파동 변환이나 이산 코사인변환의 서브밴드로 주입된다. 발명의 한 실시예에서, PDA, 이동 전화, 디지털 카메라, PC, 등등과 같은 임의의 컴퓨터나 처리 장치를 이용하여 캡처되거나 재생될 수 있는 "토킹 픽처(talking picture)"가 제공될 수 있다. 그러나, 예를 들어, 본 발명은 디지털 카메라를 참고하여 설명된다. 더우기, 본원에서 설명되는 디지털 카메라나 그외 다른 구성요소들은 PDA, 이동 전화, 웹 카메라, 또는 그외 다른 컴퓨터나 처리 장치에 포함될 수 있다.

도 1을 참고할 때, 본 발명의 한 실시예에 따른 일례의 디지털 카메라(10)가 제공된다. 카메라(10)는 이미지 캡처를 위해 광학 시스템이나 이미지 캡처 모듈(12)을 포함한다. 따라서, 카메라(10)는 이미지 캡처 모듈(12)을 제어하기 위한 광학 시스템 컨트롤러(14)를 포함하며, 부가적으로, 이미지 캡처 모듈(12)로부터 수신한 (디지털 데이터 형태의) 디지털 신호들을 처리하기 위한 이미지 처리 모 듈(16)을 포함한다. 이미지 캡처 모듈은 가령, 종래의 CCD 검출기같은 것일 수 있다. 한 실시예에서, 이미지 캡처 모듈(12)은 정지 호스트 이미지나 "사진"을 캡처하고, 이 이미지나 사진은 정지 이미지 프로세서(18)에 전달되어 처리된다. 정지 이미지들은 그후 I/O 인터페이스(20)를 통해 외부 기기에 전달될 수도 있고, 또는, 탈착식 저장 장치(22)에 저장될 수 있다. 디지털 카메라(10)의 동작을 제어하기 위해, 메모리/카메라 제어 프로그램 및 데이터 모듈(24)이 제공될 수 있다.

스피치같은 오디오를 캡처하기 위해, 카메라(10)는 오디오 캡처 모듈(26)을 포함하며, 부가적으로, 오디오 처리 모듈(28)을 포함한다. 오디오 데이터는 정지 이미지 프로세서(18)로 전달되고, 이 이미지 프로세서(18)는 그후, 이미지 캡처 모듈(12)에 의해 캡처된 호스트 이미지에 오디오 데이터를 삽입한다. 도 1에 도시된 다양한 모듈들이 일례의 모듈들에 불과하며, 일례의 디지털 카메라(10)의 여러 다른 실시예들에는 그외 다른 모듈들이 포함될 수 있다. 예를 들어, 이동 전화 내에 제공된 디지털 카메라는 이동 전화에 통합 구성을 촉진시키기 위해 다른 모듈들을 포함할 수 있다. 더우기, 예를 들어, 디지털 카메라(10)는 카메라(10)를 PDA, 웹 카메라, 등에 일체형으로 구성시키기 위해 다른 모듈들을 포함할 수 있다. 따라서, 일례의 디지털 카메라(10)는 독립형 카메라, PDA, 이동 전화 카메라, 등등과 같이 카메라의 특정 응용에 따라 여러 다른 모듈들을 포함할 수 있다.

도 2를 참고할 때, 본 발명의 한 실시예에 따라 오디오 데이터를 삽입하도록 이미지를 처리하기 위한 시스템(30)이 제공된다. 한 실시예에서, 이미지는 정지 이미지이고, 시스템(30)은 디지털 카메라(10)의 정지 이미지 프로세서(18) 내에 포함 될 수 있다. 그러나, 시스템(30)이, 호스트 이미지를 캡처하는 독립형 유닛으로 제공될 수도 있고, 호스트 이미지(정지 또는 비디오)를 캡처하는 그외 다른 컴퓨터 장치 내에 포함될 수 있다.

시스템(30)은 RGB 호스트 이미지 신호(또는 데이터)(32)와, 스피치 신호 형태의 오디오 신호(34)를 처리하기 위한 다수의 기능 모듈들을 포함한다. 시스템(30)이 다수의 개별적 기능 모듈들을 포함하는 것으로 도시되었으나, 다양한 모듈들이 조합되거나 단일 기능 유닛에 일체형으로 구성될 수 있고, 추가적인 모듈들이 포함될 수도 있다. 더우기, 캡처된 호스트 이미지는 또다른 포맷일 수 있고, RGB 이미지에 제한되지 않는다. 일례의 시스템(30)에서, 다양한 모듈들이 이미지 처리 회로(31)와 오디오 처리 회로(33)에 의해 제공될 수 있다.

시스템(30)은 RGB-YCbCr 변환 모듈(36), 이산 파동 변환 모듈(38), 필터 모듈(40), 지각 분석 모듈(Perceptual Analysis Module)(41), 숏-텀 퓨리에 변환(STFT) 모듈(42), 퀀타이저 모듈(44), D4 래티스 코드 모듈(46), 조사 모듈(48), 인버스 이산 파동 변환 모듈(50), YCbCr-RGB 변환 모듈(52)을 포함하는 것으로 도시된다. 아래 상세하게 설명되는 바와 같이 일례의 실시예에서, 시스템(30)은 STFT의 크기만이 인코딩되어 호스트 이미지에 삽입되는 양호한 오디오 저하를 가능하게 한다. 더우기, 시스템(30)은 오디오 데이터를 인코딩하기 위해 적응성 래티스 코드를 이용할 수 있다.

도 3은 RGB 호스트 이미지 신호(32)같은 호스트 이미지에서 오디오 데이터를 삽입함으로서 디지털 이미지를 처리하기 위한 본 발명에 따른 방법(60)을 도시한 다. 이 방법(60)이 호스트 이미지 데이터에 오디오 데이터를 포함하는 임의의 디지털 이미지를 처리하기 위한 임의의 장치에 적용될 수 있지만, 이 방법(60)은 시스템(30)을 참고하여 설명된다.

시스템(30)은 RGB 호스트 이미지 신호(32)를 수신하고(단계 62), 그후 칼라 공간 변환이 수행되어 RGB 성분(또는 데이터)를 Y, Cb, Cr 채널로 변환한다(단계 64). 따라서, 칼라 공간 변환 이후, RGB 호스트 이미지 신호(32)는 개별적인 크로미넌스 및 휘도 채널(66, 68)로 각각 변환된다(도 3의 단계 70). 크로미넌스 및 휘도 채널(66, 68)은 디지털 데이터에 의해 규정될 수 있다.

이 방법은 일례의 2-레벨 이산 파동 변환을 수행하여(단계 72), 중간 휘도 데이터(74)를 제공한다. 이 중간 휘도 데이터는 지각 분석 모듈(41)에 공급된다(단계 76). 단계 76의 지각 분석은 사람의 시각계에 기반한 지각 정보를 이용할 수 있어서, 눈으로 볼 때, 호스트 이미지에 삽입된 오디오 데이터가 가능한 조금만 호스트 이미지를 변경시키게 한다. 발명의 한 실시예에서, 지각 분석 모듈(41)은 디지털 워터마킹 분야에만 적용된 기술들과 유사한 기술들을 이용할 수 있다. 더우기, 중간 휘도 데이터(78)는 필터 모듈(40)에 제공되어, 한개 이상의 서브밴드를 선택 및 필터링(가령, 제로 아웃)시킬 수 있고 필터링된 휘도 데이터(87)를 제공할 수 있다.

단계 76의 지각 분석 과정에서, 지각적으로 적응된 휘도 서브밴드 데이터(82)는 오디오 데이터(84)와 조합되어(단계 86), 지각적으로 적응된 오디오 데이터(88)를 제공한다. 그후, (89) 위치에서, 지각적으로 인지된 데이터(88)는 필터링된 휘도 데이터(87)와 조합되어, 수정된 휘도 데이터(91)를 제공한다(단계 90). 단계 92에서, 수정된 휘도 데이터(91)에 대해 인버스 이산 파동 변환이 수행된다.

인버스 이산 파동 변환 모듈(50)으로 변환된 수정된 휘도 데이터(91)는 크로미넌스 성분(66)과 조합되고, YCbCr-RGB 변환 모듈(52)에서 YCbCr로부터 RGB로 변환된다. YCbCr-RGB 변환 모듈(52)의 처리된 출력이나 삽입된 이미지(56)는 RGB 호스트 이미지 신호(또는 데이터)(32)와, 이에 삽입된 오디오 신호(또는 데이터)(34)이다.

한 실시예에서, 파동 변환된 휘도 데이터의 LL-HH 서브밴드(100)(도 7 참조, 도 2의 지각 분석 모듈(41) 참조)는 오디오 데이터를 삽입하거나 호스팅하는 데 사용될 수 있다. 다른 실시예에서, 고주파수 서브밴드(102)가 사용될 수 있다. 이는 더 높은 용량을 제공할 수 있고, 따라서, 출력된 삽입 이미지(56)에서 호스트 이미지 신호나 데이터(32)의 잠재적 지각 왜곡을 줄이면서 더 많은 오디오 데이터를 삽입하거나 호스팅할 수 있다. 그러나, 고주파수 서브밴드(102)는 삽입된 이미지(56)에 대해 수행될 수 있는 손실형 이미지 압축에 취약할 수 있다. 호스트 이미지의 저주파수 서브밴드(104) 역시 오디오 데이터를 삽입하는 데 사용될 수 있으나, 지각 왜곡을 일으킬 수 있고, 오디오 데이터(34)를 홀딩하기 위한 용량이 작은 편이다(따라서, 호스트 이미지에 호스팅되거나 삽입되는 오디오 데이터의 양이 작다). 따라서 한 실시예에서, 오디오 데이터를 삽입하는 데 작은 용량을 가진 저주파수 서브밴드(104)와, 손실형 이미지 압축 특성을 가진 고주파수 서브밴드(102) 사이에 서 합리적인 균형을 제공할 수 있는 LL-HH 서브밴드(100)가 사용된다. 한 특정 실시예에서, 낮은 JPEG 압축 설정에 대해 HH 서브밴드(102)에 오디오 데이터(34)를 포함시킴으로서, 약 다섯배 수준의 채널 용량 증가를 얻을 수 있다.

호스트 이미지에 삽입하기 위해 오디오 데이터를 처리하는 방법(110)이 도 4에 따라 제시된다. 한 실시예에서, 이 방법(110)은 시스템(30)의 호스트 이미지 데이터(32)의 오디오 데이터(34)를 처리하는 데 사용된다. 이 방법은 (가령, 임의의 오디오 신호를 나타내는) 오디오 데이터를 수신할 수 있다(단계 112). 이 오디오 데이터는 가령, 8kHz로 샘플링된 디지털 스피치일 수 있다. 그후, 오디오 데이터의 숏-텀 퓨리에 변환(STFT)이 적용되고(단계 114), 변환된 스펙트럼 데이터의 위상(STFT 위상)이 버려지고, 변환된 스펙트럼 데이터의 크기만이 (가령, 24 레벨로) 양자화될 수 있다(단계 116). 위상을 버리는 것은, 오디오의 품질을 감소시키지만 그러면서도 오디오의 차후 재현을 위해 충분한 정보를 제공한다. 그후, 양자화된 크기는 D4 래티스 코드로 매핑될 수 있다(단계 118). 이 방법(110)의 출력은 4-차원 채널 코딩된 오디오 데이터를 제공할 수 있고, 이 데이터는 지각 적응된 휘도 서브밴드 데이터(82)와 조합되어, 지각 적응된 오디오 데이터(88)를 제공한다.

한 실시예에서, 이 방법(110)은 시스템(30) 상에서 구현될 때, 차후에 위상이 폐기될, 50% 오버랩으로 STFT 변환되는 8비트 8kHz 스피치 형태의 오디오 데이터(34)를 수신한다. 각각의 스펙트럼 크기는 24개 레벨로 (가령, 균일하게) 양자화되어 D4 래티스의 제 1 쉘에 짝지워지게 된다. 이러한 매핑은 한 실시예에서, 부가적 노이즈에 의해 변형될 때, 래티스 코드가 데이터에 최소 오류를 나타내도록 이 러한 매핑이 수행될 수 있다. 따라서, 이러한 요건은 RGB 호스트 이미지나 데이터(32) 내에 삽입된 오디오 데이터의 원만한 저하를 향해 기여할 수 있다. 한 실시예에서, 호스트 이미지의 한 영역을 분석하는 데 적응성 코딩이 사용될 수 있고, 이 분석에 따라, 주파수, 휘도, 콘트래스트 마스킹에 대한 사람의 시각적 감각에 기초하여 코드 강도에 대해 결정할 수 있다. 예를 들어, 고주파수나 하이 텍스처 영역에서 더 큰 왜곡을 수용할 수 있고, 따라서, 인지된 투명도를 유지하면서 견고성을 높이는 데 높은 코드 강도가 사용될 수 있다. 맑은 파란 하늘같은 밝은 저주파수 영역의 경우, 투명도를 개선시키기 위해 낮은 코드 강도가 사용될 수 있다. 하지만, 견고성(robustness)을 희생하여야 한다(삽입된 이미자가 선형 또는 비선형 동작을 수행 후 오디오 데이터의 수정). 한 실시예에서, 이러한 주파수 감지에 기초한 간단한 기법이 사용될 수 있다. 이 경우에 파동 서브밴드의 계수가 한 영역의 주파수 콘텐트를 결정한다. 지각 적응은 이를 대체하는 대응하는 서브밴드 계수에 기초하여 래티스 코드를 스케일링함으로서 구현될 수 있다(도 3의 단계 76 참조). 가령, D4 래티스 코드의 경우에, 이를 대체하는 네개의 서브밴드 계수들의 최대 절대값으로 스케일 팩터가 도출될 수 있다. 가령,

Scale = max(|Di|) (1)

이때, 0 <= i <= 3 이고, Di는 교체를 위한 선택된 서브밴드의 네개의 계수들이다.

S = Scale * Sglobal (2)

P = Smin (S < Smin인 경우)

= Smax (S > Smax인 경우) (3)

= S (그외 다른 조건) (4)

Di' = P * Ci

이때, Di'는 새 계수, Ci는 래티스 코드, Sglobal은 전체 스케일링 팩터이며, Smin과 Smax는 왜곡을 제한할 수 있다. Sglobal과 함께 Di는 래티스 코드 S의 강도를 결정할 수 있고, 지각 분석 요소를 제공할 수 있다. S는 고주파수 영역에 대해 더 클 수 있으며, 이는 더 양호한 마스크 왜곡일 수 있다.

한 실시예에서, Smin, Smax, Sglobal 변수들은 조정가능하다. Smin은 삽입된 오디오로 인한 호스트 이미지의 최소 왜곡을 설정할 수 있고, Smin의 증가는 전체 견고성 증가로 나타날 수 있다. 하지만, 이미지 왜곡을 증가시킬 수 있다. Smax는 삽입된 오디오로 인한 호스트 이미지의 최대 왜곡을 제한할 수 있다. 한 구현예에서, Sglobal은 1.0으로 설정될 수 있고, Smin은 1.0이나 2.0과 같을 수 있으며, Smax는 4.0일 수 있다. Smin=1.0일 때, 왜곡은 거의 알아챌 수 없는 수준에 해당한다. 본 발명이 래티스 코딩을 참고하여 설명되었으나, 다른 실시예에서는 이진 코딩(또는 그외 다른 적절한 기술)이 사용될 수 있다. 하지만, 일부 환경에서, 래티스 코딩은 더 높은 노이즈 저항을 제공할 수 있다.

도 5를 참조할 때, 삽입된 호스트(122)같은 디지털 이미지로부터 오디오 데이터를 불러들이거나 추출하기 위해 디지털 이미지를 처리하는 일례의 시스템(120)이 개시된다. 이 시스템(120)은 방법(124)(도 6 참조)을 구현하는 데 사용될 수 있다. 시스템(120)은 RGB-YCbCr 변환 모듈(126), 이산 파동 변환 모듈(128), 래티스 코드 추출 모듈(130), 스케일 추정 모듈(132), 매칭 모듈(134), 인버스 양자화 모듈(136), 필터 모듈(138), 그리고 위상 복원 모듈(140)을 포함한다. 아래 설명되는 바와 같이, 이 시스템(120) 및 방법(124)은 삽입된 이미지(122)의 삽입된 오디오 데이터를 추출하게 한다. 따라서, 가령, RGB 호스트 이미지 데이터(32)에 삽입된 오디오 데이터(34)(도 2 참조)를 불러들이거나 재구현할 수 있다. 시스템(120) 및 방법(124)은 디지털 카메라(10) 내에 포함될 수도 있다. 그러나 다른 실시예에서, 시스템(120)과 방법(124)이 카메라를 포함하는 PDA나 셀 폰, 또는 그외 다른 연산 장치에 제공되어, 이 장치에서 수신한 이미지들에 삽입된 오디오 데이터들을 재현하고 호스트 이미지를 볼 수 있다. 디지털 이미지가 재현되면, (호스트 이미지에 대응하는) 2차원 시각적 이미지가 사용자에게 디스플레이될 수 있고, 이 이미지에 삽입된 부속 오디오 데이터가 동시에 재생되거나 재현될 수 있다. 따라서, 삽입된 데이터를 가진 디지털 이미지는 "토킹 사진(talking pictures)", 또는 "토킹 포토그랩(talking photograph)"을 닮을 수 있다. 오디오 데이터(34)가 호스트 이미지 데이터(32) 내에 삽입됨에 따라, 단일 실체 또는 캐리어 매체가 이미지 데이터(32)와 오디오 데이터(34)로 형성된다. 따라서, 두개의 개별 파일들이 전달되는 것이 아니며, 오디오 및 비쥬얼 데이터가 병합되고 이 이미지의 복제는 오디오 데이터도 복제하게 된다.

시스템(120)과 방법(124)에서, 시스템(120)(도 5)은 삽입된 이미지(122)를 수신할 수 있고(도 6의 단계 142), 그후 RGB 성분들을 변환하여 YCbCr 성분을 제공할 수 있다(단계 144). 휘도 데이터 Y(146)가 이산 파동 변환 모듈(128)에 제공되고, 이 모듈(128)은 이산 파동 변환을 수행한다(단계 148). 그후 인코딩된 서브밴드로부터 래티스 코드가 추출된다(단계 150, 및 추출 모듈(130) 참조). 래티스 추출 모듈(130)의 출력은 스케일링된 4-D 채널코드일 수 있고, 이 코드에 대해 스케일 추정이 실행되어(단계 152), 정규화된 4-D 채널코드를 생성한다. 이 코드는 매칭 모듈(134)에 공급되어 최적의 매칭인 지를 알아보게 된다. 매칭 모듈(134)은 래티스 코드 모듈(46)을 검색하여, 최적의 매치인 지를 알아보고, 양자화된 계수(가령, 24-레벨)들을 생성하고(단계 154), 이 계수들은 역 양자화되어(인버스 양자화 모듈(136) 참조) STFT 크기를 도출한다(단계 156). STFT 크기는 필터링되어(단계 158) 노이즈(가령, 솔트/페퍼 노이즈)를 제거하고, 가우시안 스무딩(Gaussian Smoothing)이 수행된다(필터 모듈(138) 참조). 필터링된 STFT 크기는 위상 복원 모듈(140)에 공급되어 위상 복원을 수행하고, 그후 출력 오디오 신호가 제공된다(단계 162). 출력 오디오 신호는 오디오 데이터(34)에 대응하며, 한 실시예에서, 복원된 오디오 신호로 간주될 수 있다.

한 실시예에서, 스케일은 각 계수의 최대 절대값으로 추정될 수 있다. 왜냐하면, 모든 제 1 쉘 D4 래티스 계수가 최대 단위 크기를 가질 수 있기 때문이다. 따라서, 동적 스케일링이 진행되어, 추가적 코딩없이 동일한 호스트 이미지 내에 서로 다른 강도의 코드들을 구현할 수 있다.

도 9에 도시되는 바와 같이, 한 실시예에서, 2-레벨 파동 변환이 수행되고, LL-HH 서브밴드의 네개의 계수들의 최대값이 사용되어 래티스 코드를 스케일링한다. 이미지가 파동 변환을 수행하였기 때문에, 동적 스케일링 단계는 고속일 수 있 고, 몇가지 추가 단계들만을 필요로한다. 래티스 코드를 D4 래티스의 제 1 쉘로 제한함으로서, 스케일은 디코딩 중 추정될 수 있고, 삽입된 이미지 내에서 전송될 필요가 없다.

도 9에서, 오디오 데이터를 래티스 코드에 매핑하기 위한 본 발명에 따른 방법(250)이 제시된다. 래티스 코딩의 한가지 장점은, 래티스 코드들 간의 거리가 최대화되어 노이즈에 견고하게 만들 수 있다는 점이다. 한 실시예에서, 래티스 코드는 채널의 최대 노이즈를 처리하기에 충분할만큼 크게 스케일링될 수 있다. 그러나, 워터마킹의 범주에서, 이는 실용적이지 않을 수 있다. 왜냐하면, 노이즈 모델이 일반적으로 모델링하기는 어렵기 때문이다. 노이즈 모델이 알려져 있더라도, 스케일이 너무 클 수 있다. 이는 수용불가능한 왜곡에 해당할 수 있다. 따라서 일반적으로, 충분한 노이즈는 래티스 코드를 여전히 잘못 디코딩하게 하며, 가령, 오류 검출 및 오류 교정과 같은 추가적인 디코딩이 수반되어 이를 교정하여야 한다. 이에 따라, 부가적인 연산 오버헤드 및 복잡도가 추가되게 된다. 그러나 발명의 한 실시예에서, 이러한 오류가 허용될 수 있고 교정되지 않을 수 있다. 대신에, 잘못 디코딩된 코드가 실제 코드 부근에 제공될 수 있다. 한 실시예에서, 래티스 코드에 대한 STFT 크기의 매핑은 이 요건에 부합하도록 설계될 수 있다. 예를 들어, 이 방법(250)(도 9 참조)은 D4 래티스 코드의 제 1 쉘에 대한 오디오 데이터의 매핑을 제시한다. 이 매핑이 모든 쉘에 적용될 수 있다는 점을 이해할 수 있을 것이다.

표(252)에 제시되는 바와 같이, 오디오 데이터의 STFT는 가령 0~255같은 각각의 범위를 가지는 128개의 STFT 크기들을 제공할 수 있다. 각각의 STFT 크기는 24개의 레벨로 양자화된다(단계 254 및 256 참조). 예를 들어, 제 1 크기 M₀를 이용할 때, 제 1 STFT가 164의 크기(표 252 참조)를 가진다고 가정하면, 단계 256에서 도시되는 바와 같이 양자화된 값은 다음과 같이 나타날 수 있다.

M₀' = round(M₀/255*23) (이는 본 예에서 15와 같음)

그후, 단계 258에 제시되는 바와 같이, D4 래티스 표(260)의 제 1 쉘로부터 대응하는 D4 래티스 코드를 얻는다. 주어진 예에서, 래티스 코드 L은 (1, 0, -1, 0)과 같다.

상기 방법(250)에서, LL-HH 서브밴드는 오디오 데이터를 삽입하는 데 사용된다. 따라서, LL-HH 서브밴드의 호스트 이미지의 서브밴드 값들(LL-HH 서브밴드 표(262) 참조)을 얻는다. 예를 들어, 단계(264)에 도시되는 바와 같이, 일례의 제 1 STFT 크기 M₀에 대하여, 네개의 제 1 계수 C₀ (-2,4, 6.9, 4.6, 그리고 -0.5)를 얻을 수 있다. 그후, 단계(266)에 도시되는 바와 같이, 단일 최대 함수를 이용하여 주파수 콘텐트를 추정함으로서 지각 분석이 수행될 수 있다.

S = max(|-2.4|, |6.9|, |4.6|, |-0.5|) (이는 6.9에 해당함)

그후 이 값은 (Smin = 2, Smax = 4) 범위 내에서 클리핑될 수 있고, 따라서 6.9의 값은 4로 클리핑될 수 있다.

결과적인 값(본 예에서 "4")은 래티스 코드 L(본 예에서 (1, 0, -1, 0))과 곱하여져, 수정된(즉, 스케일링된) 래티스 코드 L'을 제공한다. 이 값은 본 예에서 (4, 0, -4, 0)이다. 이 값들은 LL-HH 서브밴드의 네개의 제 1 계수들을 대체할 수 있다(표 268 참조).

D4 래티스 표(260)는 각 STFT 크기에 대한 래티스 코드 매핑의 한 예를 제시한ㄷ. 그러나 다른 실시예에서는 다른 매핑도 물론 가능하다. 24개의 래티스 코드들을 정렬하는 데는 24!(팩토리알)의 가지수가 있다는 것을 이해할 수 있을 것이다. 따라서, 발명의 한 실시예에서, 래티스 코드들일 정렬된다. 예를 들어, 4-D 공간에 24개의 포인트들에 해당하는 24개의 래티스 코드들은 다음과 같이 정렬될 수 있다.

1. 각각의 래티스 코드 Ci에 대하여(i는 0~23, 표 260 참조), 다음과 같은 연산을 할 수 있다.

Di = 노멀(N)으로 Ci를 지닌 4-D 공간의 원점(0,0,0,0)까지의 거리.

노멀(N)의 선택은 임의적일 수 있다. 그러나 한 실시예에서 타이(tie)를 최소화시키도록 선택된다. 단순성을 위해, N = (1,1,1,1)이 선택될 수 있다.

2. 그후 래티스 코드들이 Di의 내림 차순으로 소팅될 수 있다.

3. 동일 Di의 래티스 코드들이, 모든 가능한 정렬을 소모적으로 평가함으로서(일례에 해당함), 치환될 수 있다. K가 작을 수 있기 때문에(가령, 3), 조합의 수는 K! << 24! 이다. 두 인접 코드들 간의 유클리드 거리의 합이 최소이도록 정렬이 선택될 수 있다. (가령, 래티스 코드 모듈(46)과 D4 래티스 표(260)의) 래티스 코드들이 기발생될 수 있다. 인코더 및 디코더가 대응하는 래티스 코드 표를 가질 수 있고, 한 실시예에서, 래티스 코드 표들이 공개되어 자유롭게 이용가능하게 될 수 있다. 한 실시예에서, 인코딩 중, 각각의 양자화된 STFT 크기는 한개의 래티스 코드에 직접 매핑된다. 노이즈에 의해 변형된 정규화된 래티스 코드가 디코더에서 수신될 수 있기 때문에, 매칭 엔트리(가령, 최소 유클리드 거리를 가진 엔트리)에 대해 전체 래티스 코드 표가 검색될 수 있다.

상술한 방법(250)은 오디오 데이터를 래티스 코드에 매핑하기 위한 방법을 제공한다. 삽입된 호스트로부터 오디오 데이터를 추출하는 것은, 앞서 언급한 단계들 중 일부를 역으로 수행함으로서 구현될 수 있다. 한 실시예에서, 오디오는 다음과 같이 추출될 수 있다. 최초에, 래티스 코드가 호스트 이미지로부터 추출될 수 있다. 발명의 한 실시예에서, 오디오 데이터를 포함하는 래티스 코드들을 일반 대중이 자유롭게 이용할 수 있어서, 적절한 하드웨어를 가진 사람이라면 누구나 래티스 코드들을 디코딩할 수 있다. 따라서, 발명이 카메라(10)같은 디지털 카메라에 적용되는 한 실시예에서, 카메라(10)는 삽입 기능과 추출 기능을 모두 포함할 수 있다. 래티스 코드가 추출되면, 스케일이 추정될 수 있다. 한 실시예에서, D4 래티스의 제 1 쉘은 0, 1, -1 요소들만을 포함할 수 있고, 따라서 이 추정은 비교적 간단할 수 있다. 예를 들어, 래티스 코드의 최대 크기를 취할 수 있다. 도 9에 제시된 예에서, 스케일링된 원본 래티스 코드 L' (4, 0, -4, 0) 은 일부 노이즈에 의해 변경될 수 있고, 가령, (3.2, -1.4, -4.5, 2.1)로 추출될 수 있다. 래티스 코드 계수의 최대 크기는 그후 max(|3.2|, |-1.4|, |-4.5|, |2.1|)= 3.2와 같을 수 있다. 따라서, 스케일이 3.2로 선택될 수 있다. 그후, 래티스 코드들이 최대 크기(본 예에서 3.2)로 나누어질 수 있고, D4 래티스 코드 표(D4 래티스 코드 표(260)에 대응)는 유클리드 거리로 가장 가까운 코드에 대해 검색될 수 있다. 가령, 추출되는 래티스 코드가 (0, 0, 0, 0)일 때 발생할 수 있는 최대 크기 = 0 일 경우, 래티스 코드는 미지값으로 분류될 수 있고, 대응하는 STFT 크기는 0으로 설정된다.

일부 실시예에서, 추출된 STFT 크기의 품질을 개선시키기 위해 포스트-프로세싱이 수행될 수 있다. 가령, 솔트 및 페퍼 노이즈를 제거할 수 있다. 가령, 한 화소가 STFT 크기를 나타낸다고 가정할 경우, 각각의 화소에 대해, 5x5 윈도의 평균 화소 값을 연산할 수 있다. 그 화소 값이 평균 화소 값과 32만큼 차이날 경우, 그 화소 값은 평균 값으로 설정될 수 있다. 아래 설명되는 바와 같이, 대안의 포스트-프로세싱 방법은 솔트 및 페퍼 노이즈 제거를 위해 풀-푸시 기능을 이용할 수 있다. 이는 이산 파동 변환 및 이산 코사인 변환에 모두 적용가능하다. 풀-푸시 기능은 Gortler S.J., Grzeszczuk R, Szeliski R., Cohen M.F.의 "The Lumigraph", Computer Graphics, Annual Conference Series, 1996에 게재되어 있고, 본원에서 참고로 인용된다. 일부 상황에서, 상술한 두개의 방법들은, 노이즈가 함께 클러스터를 형성하여 큰 갭을 형성할 경우, 불량하게 실행될 수 있다. 가령, 도 14A의 하늘 영역의 래티스 코드가 불량하게 변경될 수 있어서, 오디오의 전체 부분을 소실할 수 있다. 한가지 해법은 인코딩 이전에 STFT 크기를 셔플링(shuffling)하는 것이다. 이는 오류를 스프레딩(spreading)시키는 효과가 있다. 수신기는 노이즈 감소 후 셔플링을 복원시킬 수 있다. 한 실시예에서, 3x3 윈도 및 표준 편차 = 1을 가진 표준 가우시안 커넬(Gaussian Kernel)을 이용함으로서, 추가적인 가우시안 스무딩(Gaussian Smoothing)이 제공될 수 있다.

한 실시예에서, 삽입된 오디오 데이터(32)는 암호화나 인코딩되지 않고, 따 라서, 사용자는 오디오 데이터의 추출에 방해받지 않는다. 따라서 사용자는 오디오 데이터를 자유롭게 추출할 수 있다. 또한, 워터마킹 및 데이터 은닉(호스트 데이터에 포함된 데이터가 은닉되어 사용자의 데이터 추출을 방지)과는 달리, 발명의 한 실시예에서, 호스트 이미지(34)에 삽입된 오디오 데이터(34)는 암호화 키나 그외 다른 비밀 정보를 알지 못한 상태에서도 자유롭게 추출될 수 있다. 예를 들어, 워터마킹시, 멀티미디어 배포자들은 그 디지털 콘텐트를 독자적으로 식별하려고 시도하는 것이 일반적이어서, 비승인 배포시, 비승인 배포의 소스를 식별할 수 있다. 디지털 워터마크는 디지털 이미지에 삽입된 디지털 신호나 패턴으로서, 특정 이미지를 단지 식별하는 기능을 하며, 이를 위해 비교적 적은 데이터가 포함된다. 디지털 워터마킹은 원본 이미지를 그대로 인식가능하게 남겨두는 점에서 암호화와 차별화된다. 암호화는 미디어의 비승인 배포를 방지하기 위해 멀티미디어 배포자에 의해 또한 사용된다. 디지털 콘텐트 배포자는 데이터 은닉을 또한 이용하여, 승인받은 자만이 데이터를 불러들일 수 있는 데이터를 포함하게 한다. 데이터 은닉은 디지털 워터마크와는 달리, 다량의 데이터를 은닉시킬 수 있다. 하지만 두 기술 모두 호스트로부터 은닉된 데이터를 사용자가 추출하는 것을 방지하는 것을 목표로 한다. 그러나 발명의 한 실시예에서, 오디오 데이터는 임의의 사용자가 자유롭게 추출할 수 있으며, 어떻게든 추출이 제한받지 않는다. 따라서, 카메라(10)로 찍은 사진들은 가족이나 친구들에게 전송될 수 있고, 사진을 볼 때 오디오가 자동으로 재생되게 된다. 그러므로, 삽입된 오디오가 정지 이미지에 수반되는 인사, 메시지, 등등을 포함할 수 있고, 따라서 "토킹 포토그랩"을 제공할 수 있다.

일부 실시예에서, STFT의 크기 및 위상이 호스트 이미지에 삽입될 수 있으나, 호스트 이미지(32)에 오디오 데이터의 크기만을 삽입하는 경우에 비해 오디오 데이터가 두배의 대역폭이나 삽입 영역을 필요로할 수 있다(가령, 50%의 오버랩을 가정). 따라서, 일례의 실시예에서, 위상이 버려지고 크기만이 호스트 이미지에 삽입된다. 따라서, 호스트 이미지에 포함된 오디오 데이터의 양자수(즉, 총 비트 수)가 감소될 수 있다. 오디오의 실제 품질이 또한 감소될 수 있으나, 주어진 양의 삽입 오디오 데이터에 대해 오디오의 긴 재생 시간이 제공될 수 있다(가령, 호스트 이미지에 더 긴 메시지를 삽입할 수 있다).

(가령, 도 5의 위상 복원 모듈(140)에 의해 구현될 수 있는) STST 크기로부터 위상을 복원하기 위한 일례의 방법 및 시스템이 아래에 설명된다. 그러나, 본 발명은 아래 제시된 실시예에 제한되는 것이 아니며, STFT 크기 신호로부터 위상을 복원하기 위한 임의의 기술이 타실시예에서 사용될 수 있다.

도 8에서, 호스트 이미지에 삽입된 오디오 데이터로부터 오디오 신호를 재현하기 위한 방법(180)이 제시된다. 이 방법(180)은 비반복형 재현 기술으로서, 실시간 애플리케이션에 사용될 수도 있고, 또는, 연산 리소스가 부족하거나 이러한 연산을 제한해야 하는 경우에 사용될 수 있다. 본 발명은 본 예의 재현 기술에 제한받지 않는다.

단계 182에서, 이 방법(180)은 STFT 크기 데이터를 수신한다. 그후 STFT 크기의 피크를 식별한다(단계 184). STFT 크기의 피크들은 신호의 사인신호에 대응한다고 가정하며, 단계 186에서, 각 피크를 둘러싸는 FFT 빈(가령, 세개의 FFT bins) 에 파라볼라를 부합시킴으로서 각 사인파(피크)의 순간 주파수를 추정한다. 3개보다 많은 빈이나 3개보다 적은 빈이 사용될 수도 있다. 그후 파라볼라가 최대값인 주파수(또는 근사 주파수)를 찾아낸다. 이전 프레임에서의 위상을 이용하여 피크 빈들의 위상을 연산하거나 추정하고, 순간 주파수로부터 연산된 위상 증분을 연산하거나 추정한다(단계 188). 그후, 단계 190에서,인버스 STFT 기술(가령, 표준 STFT 기술)을 이용하여 STFT 크기로부터 오디오 신호가 재현된다.

일부 실시예에서, 스펙트럼의 사인파 피크를 식별하는 데 임의의 알고리즘이 사용될 수 있다. 예를 들어, 피크 좌측의 두 네이버와, 피크 우측의 두 네이버보다 빈 크기가 큰 지를 알아보기 위해 체크를 할 수 있다. 또다른 실시예에서, 사이드로브들이 사인파 피크로 잘못 식별됨을 분석을 통해 고려할 때, 개선된 결과들이 제공될 수 있다. 또한가지 실시예에서, 피크 형태가 진실한 사인파라고 예상될 수 있는 것에 부합하였음을 체크할 수 있다.

주어진 피크에 대해 순간 주파수 ω가 연산되면(단계 186 참조), 새 위상 φ_k를 다음과 같이 얻을 수 있다.

φ_k = φ_k-1 + 2πωR (5)

이때, R은 샘플의 합 크기(hop size)이고, ω는 정규화된 주파수이다.

그후 피크 빈을 둘러싸는 FFT 빈에 위상이 적용될 수 있다. 이 프로세스는 각 개별 피크에 대해 반복될 수 있다. 한 실시예에서, 임의적인 초기 위상이 사전지식없이 φ₀에 대해 사용될 수 있다. 인버스 FFT가 n=0 근처에서 최대값을 가지는 숏-텀 신호를 발생시킬 수 있다. 이러한 상황하에서, 동일한 위상들이 피크 주변의 빈에 할당될 수 있다. 따라서, FFT는 "제로-위상"이며, 이 경우에 n=0 에서 신호가 중앙에 놓일 수 있다. 최종 출력된 숏-텀 신호는 윈도-크기 반만큼 FFT의 출력을 원형으로 시프트시킴으로서 얻을 수 있다.

이 방법(180)은 일부 상황에서, 오디오 데이터의 합리적 근사나 재현을 가능하게 할 수 있다. 그러나 또다른 실시예에서는, 오디오 신호의 개선된 재현을 제공하는 데 다른 재현 기술들이 사용될 수 있다. 한 실시예에서, 이 방법(180)은 일련의 Griffin-Lim 반복을 포함할 수 있다.

따라서 한 실시예에서, 오디오 데이터는 다수의 사인파들을 포함하는 것으로 가정될 수 있고, 피크 주변의 STFT 위상들은 사인파 순간 주파수의 추정치에 따라 업데이트된다.

발명의 한 실시예에서, 상술한 바와 같이, 데이터 처리 시스템(30)이나 데이터 처리 시스템(120)은 휴대용 디지털 카메라에 포함될 수 있다. 따라서, 디지털 카메라의 사용자는 정지 사진을 찍으면서 동시에 오디오 클립이나 메시지를 레코딩할 수 있다. 이때, 오디오 클립이 호스트 이미지 내에 삽입되며, 이는 디지털 카메라에 저장되거나 이동 전화 네트워크 등을 통해 전송될 수 있다. 디지털 이미지를 수신하는 임의의 장치는 디지털 이미지로부터 오디오 데이터를 불러오거나 추출할 수 있고, 가령, 디지털 이미지를 볼 때, 오디오 데이터가 자동적으로 발생되거나 재현될 수 있다. 따라서, 상술한 바와 같은 한 실시예에서, 본 발명은 오디오 데이터 및 이미지 데이터가 통합된 "토킹 포토그랩" 또는 "토킹 픽처"를 제공한다.

발명의 한 실시예에서, 삽입된 오디오 데이터는 BMP 포맷으로부터 TIFF 포맷으로, BMP 포맷으로부터 Targa 포맷으로, 등등과 같이 손실형 포맷 변환 후에도 살아남을 수 있다. 한 실시예에서, 디지털 오디오(가령, 디지털 스피치)는 높은 압축비에서 양호한 저하를 보이면서 압축 손실(가령, JPEG 압축)에서도 살아남을 수 있다. 더우기, 일부 실시예에서, 샤프닝(sharpening), 칼라 밸런싱(color balancing), 감마, 밝기 및 콘트래스트 조정, 그리고 90도 회전 등과 같은 공통 이미지 처리 루틴이 오디오 데이터를 역시 저하시키지 않을 수 있다.

발명의 한 실시예에서, 삽입된 오디오 데이터는 원본 정지 이미지(호스트 이미지)의 변경을 감소시키도록 가능한 투명하게 삽입된다. 그러나, 디지털 워터마크 및 디지털 은닉과는 달리, 발명의 한 실시예에서, 정지 이미지에 삽입된 오디오 데이터는 호환 장치를 이용하여 누구나 자유롭게 불러오고 복원가능하게 하는 것을 의도한다. 오디오 데이터가 자유롭게 복원가능한 것을 의도하기 때문에, 복원 기술은 비밀로 유지되지 않으며, 오디오 데이터를 불러들이기 위해 어떤 암호화 키 등이 요구되지 않는다.

상술한 일례의 실시예에서, 휘도 채널이나 성분(68)에 대해 이산 파동 변환(DWT)이 수행된다(도 2의 이산 파동 변환 모듈(38) 참조). 또다른 실시예에서, 이산 코사인 변환(DCT)이 사용된다.

도 10을 참조할 때, 오디오 데이터를 삽입하도록 이미지를 처리하는 발명의 한 실시예에 따른 시스템(300)이 제시된다. 시스템(300)은 시스템(30)과 비슷하다. 시스템(30)의 이산 파동 변환 모듈(38), 필터 모듈(40), 지각 분석 모듈(41)은 시스템(300)에서, 이산 코사인 변환 모듈(302), DCT 필터 모듈(304), DCT 지각 분석 모듈(306), 그리고 인버스 이산 코사인 변환 모듈(380)로 대체된다. 시스템(30)의 경우에서처럼, 시스템(300)은 디지털 카메라 기술을 제공하는 전자 장치와 연계하여, 또는 이에 통합되어 사용될 수 있다. 시스템(300)이 디지털 카메라(10)에 포함될 때, 데이터는 JPEG 포맷을 이용하여 압축될 수 있다.

시스템(300)에서, 이미지들은 이산 코사인 변환 모듈(302)에서 8x8 블록으로 먼저 분할된다. 이러한 분할은 JPEG 기술이나 MPEG 기술 등을 이용하여 이미지 압축 중 수행될 수 있다. 그후, 상기 8x8 블록들이 이산 코사인 변환을 이용하여 변환되어, 또다른 8x8 블록의 DCT 계수들을 생성한다. 이 계수들은 중간 휘도 데이터(78)를 DCT 필터 모듈(304)에 제공한다. 한 실시예에서, 중간 밴드에 대응하는 한 그룹의 계수들이 선택된다(가령, 미리 선택된다). 그후 선택된 계수들이 DCT 필터 모듈(304)에 의해 필터링되어, 필터링된 휘도 데이터(87)를 제공한다. 이산 코사인 변환 모듈(302)는 중간 휘도 데이터(74)를 DCT 지각 분석 모듈(306)에 제공하여, 지각 적응된 휘도 데이터(82)를 제공한다. 이 데이터(82)는 조사표(48)의 오디오 데이터의 래티스 코드들과 조합된다(위치 84). 지각 적응된 오디오 데이터(88)는 선택된 계수들을 대체하여(위치 89), 수정된 휘도 데이터(91)를 제공한다. 이 데이터(91)는 인버스 이산 코사인 변환 모듈(308)에 공급된다. 인버스 변환된 데이터는 YCbCr-RGB 변환 모듈(52)에 공급되고, 여기서 도 2를 참조하여 설명한 바와 같이 처리된다.

따라서, 시스템(300)에서, 시스템(30)의 이산 파동 변환 처리는 이산 코사인 변환 처리로 대체되었다. 유사한 방식으로, 도 3의 방법(60)은 이산 파동 변환 처리 대신에, 이산 코사인 변환 처리를 수행하기 위해 수정된 단계(72, 76, 80)들을 가질 수 있다. 시스템(300)에서, 오디오는 래티스 코드에 대한 매핑 이전에 STFT를 이용하여 변환된다. 따라서 원만한 오디오 저하를 제공할 수 있다.

도 11을 참조할 때, 조사 모듈(48)로부터의 래티스 코드들에 의해 대체되는 네개의 DCT 계수(312, 314, 316, 318)을 구비한 8x8 이산 코사인 변환(DCT) 계수 블록(310)이 제시된다. 한 실시예에서, 각각의 래티스 코드는 네개의 계수들을 대체하고, 단 한개의 STFT 크기만이 8x8 계수 블록(310)마다 인코딩된다. 이산 파동 계수들을 가진 경우(도 9 참조)에서처럼, 호스트 이미지의 오디오 저장 용량은 더 많은 계수들(가령, 고주파수 계수들)을 선택함으로서 증가할 수 있고, 이는 견고성의 저하를 야기할 수 있다. 예를 들어, 사용자가 고품질 이미지를 선택한 디지털 카메라에서, 카메라는 최소의 JPEG 압축으로 찍은 사진들의 디지털 이미지를 저장할 수 있고, 최소 JPEG 압축으로 인해, 고주파수 DCT 계수들이 악영향을 받지 않을 수 있다. 따라서 한 실시예에서, 이 고주파수 계수들은 래티스 코딩에 사용될 수 있고, 이에 따라, 오디오 데이터를 수용하기 위한 디지털 이미지의 용량을 개선시킬 수 있다. 한 실시예에서, 이산 파동 변환 케이스와 유사한 방식으로, 지각 분석(306)의 경우, 네개의 DCT 계수들의 최대 절대값으로 스케일이 취하여질 수 있다. 도 11에서, 스케일 S = max(|-15|, |-12|, |-17|, |0|) = 17 이다.

도 12를 참고하여, 이미지로부터 삽입된 오디오를 추출하기 위한 본 발명에 따른 오디오 처리 시스템(320)의 추가적인 실시예가 제시된다. 시스템(320)은 시스템(120)과 유사하다. 시스템(320)에서, 이산 코사인 변환 모듈(322)과 래티스 추출 모듈(324)은, 도 5의 이산 파동 변환 모듈(128)과 래티스 코드 추출 모듈(130)을 대체한다. 이산 코사인 변환 모듈(324)은 휘도 데이터(146)(YCrCb 성분)를 8x8 블록으로 분할하고, 각 블록에서 이산 코사인 변환을 수행한다. 래티스 추출 모듈(324)은 인코딩된 DCT 계수로부터 래티스 채널 코드를 추출하여 스케일링된 4-D 채널코드를 제공하고, 이 채널 코드는 스케일 추정 모듈(132)에 공급된다. 유사한 방식으로, 이 방법(124)(도 6 참조)은 단계 148과 150에서 수정되어 이산 코사인 변환 처리를 수행할 수 있다.

일례의 실시예에서, 변경된 STFT 크기의 재현은 필터 모듈(138)에서 2차원 스캐터링된 데이터 근사로 모델링될 수 있다. 결과적인 갭들은 Gortler S.J., Grzeszczuk R, Szeliski R., Cohen M.F.의 "The Lumigraph", Computer Graphics, Annual Conference Series, 1996를 통해 제한된 것과 같은 풀-푸시 방법에 의해 채워질 수 있다. 그 내용은 본원에서 참고로 인용된다. 이 풀-푸시 방법에 대한 입력은 한 세트의 공지된 값들이며, 이에 대응하는 웨이트들이다. 웨이트들은 곶이 값들의 신뢰도 레벨을 측정하고, 이때, 제로 웨이트는 미지값을 표시한다. 시스템(30, 300)에 풀-푸시 방법을 적용하면, 추출된 STFT 크기는 공지 값으로 간주될 수 있고, 그 웨이트들은 추출된 노이지 래티스 코드들과 이에 가장 가까운(매칭된) 래티스 코드 간의 거리의 함수로 모델링될 수 있다. 제로 거리(가령, 완벽한 매칭) 는 최대 웨이트를 표시할 수 있다. 이 기술을 적용하면,

w = 1 - d (6)

이때, w는 웨이트이고, w = 0은 최저 신뢰도 레벨을 나타내며, d는 추출된 노이지 래티스 코드와 이에 가장 가까운 매칭 간의 유클리드 거리에 해당한다.

d = √((C₁-M₁)² + (C₂-M₂)² + (C₃-M₃)² + (C₄-M₄)²) (7)

이때, 추출된 래티스 코드 C = (C₁, C₂, C₃, C₄)

가장 가까운 매칭 래티스 코드 M = (M₁, M₂, M₃, M₄)이다.

한 실시예에서, 오디오 데이터를 삽입하기 위한 전체 호스트 이미지를 이용하는 대신에, 오디오 데이터가 삽입될 호스트 이미지의 부분이나 영역을 제한하는 데 마스크가 사용될 수 있다. 일례의 마스크(330)(도 13B)는 타원형 윤곽을 가지며, 타원 내의 일례의 이미지(332)(도 13A)의 일부분이 이미지 데이터용으로 예약될 수 있다. 따라서, 타원에 대해 외부의 영역(334)이 오디오 데이터를 삽입하는 데 사용될 수 있다. 마스크의 형태나 크기는 실시예마다 다를 수 있고, 호스트 이미지에 의해 캡처된 픽처의 속성에 따라 좌우될 수 있다. 도 14A는 이미지 데이터만이 제공될 호스트 이미지(338)의 한 영역을 마스킹하기 위한 마스크(336)의 한 실시예를 도시한다. 마스크(336)에서, 오디오 데이터는 영역(340)에만 삽입된다. 임의의 적절한 형태나 크기의 마스크들이 숫자에 관계없이 제공될 수 있다. 따라서, 오디오 데이터는 전체 호스트 이미지에 또는 일부분에 삽입될 수 있다.

일례의 실시예에서, 마스크(330, 336)는 이진 속성, 즉 이산 속성을 가진다. 가령, 1은 오디오 데이터를 포함하는 영역에 대응하고, 0은 오디오 데이터를 배제하는 영역에 대응한다. 따라서, 마스크(330, 336)는 오디오 데이터의 배제에 대해 이미지 데이터를 배타적으로 포함하는 영역을 규정할 수 있고, 제로 마스크를 가진 호스트 화소들은 원 상태로 남게될 수 있다. 그러나, 일례의 마스크(330, 336)가 연속적인 속성을 가질 수 있다. 가령, 주어진 영역에서 오디오 데이터의 삽입이 얼마나 강하게 이루어져야 하는 지를 표시하도록 0과 1 사이의 값이 제시될 수 있다. 따라서, 마스킹은, 호스트 이미지의 왜곡이 수용가능한 영역을 사용자가 선택할 수 있게 하고, 그 안에 오디오 데이터를 삽입하여 호스트 이미지의 중요 영역을 보존하게 할 수 있다. 더우기, 오디오 데이터는 마스킹된 부분과 마스킹되지 않은 부분에 모두 삽입될 수 있고, 마스킹된 부분보다 마스킹되지 않은 부분에서 화소 당 더 많은 오디오 데이터가 저장되게 할 수 있다. 저장된 오디오 데이터의 밀도는 삽입 이미지의 이미지 부분마다 다를 수 있다.

마스크는 사용자에 의해 규정될 수 있고, 또는 사용자가 여러 지정 마스크들 중 하나를 선택할 수 있다. 사용자-정의 마스크의 경우에, 디지털 이미지로부터 오디오 데이터를 불러들이거나 추출하도록 삽입 이미지를 처리하는 일례의 시스템(120, 320)은 해당 마스크를 포함하며, 이 마스크는 추출 프로세스에 사용된다. 가령, 지정 마스크가 삽입 이미지(56)의 발생에 사용될 때, 시스템(120, 320)은 삽입 프로세스 중 어떤 지정 마스크가 사용되었는 지를 식별하며, 그후 해당 지정 마스크가 사용되어, 삽입 이미지로부터 오디오를 추출할 수 있다. 예를 들어, 외부 입력(가령, 사용자 선택)에 의해 관련 마스크가 식별될 수 있고, 수신기는 모든 지 정 마스크를 배타적으로 시험해볼 수 있으며, 가장 높은 신뢰도 팩터를 가진 것을 사용할 수 있다. 또는, 사용된 마스크를 식별하는 데 그외 다른 식별 수단이 사용될 수 있다. 가령, 호스트 이미지에 식별자가 삽입될 수 있다. 태그가 제공될 수 있고, 또는 그외 다른 식별자가 사용될 수 있다. 한 실시예에서, 신뢰도 팩터는 방정식 (7)을 이용하여 결정될 수 있다.

호스트 이미지에 오디오 데이터를 삽입하면 이미지 왜곡이 발생할 수 있다. 이미지 왜곡의 정도는 호스트 이미지에 삽입된 오디오 데이터의 양에 따라 좌우된다. 그러나, 왜곡 정도는 상술한 바와 같이 래티스 코드 스케일을 적응성으로 제어함으로서 감소될 수 있다. 추가적으로, 또는 이에 대한 대안으로, 오디오 데이터 삽입으로 인해 왜곡이 발생하는 경우 삽입된 이미지의 영역을 제어하는 데 마스킹이 사용될 수 있다. 그러나, 호스트 이미지의 왜곡을 감소시키는 데 그외 다른 다양한 기술들이 사용될 수 있다.

삽입 이미지는 가령, 디스플레이 장치(가령, 컴퓨터 모니터, TV 수상기, PDA 디스플레이, 디지털 카메라 디스플레이, 셀룰러 폰 디스플레이, 등등)에서 볼 수 있고 또는 인쇄될 수 있다. 비교적 고해상도 이미지(가령, 5백만화소 이미지)는 1280x1024 화소 모니터로 전체적으로 볼 때(가령, 줌없이) 다운 샘플링될 수 있다. 이 다운 샘플링 프로세스는 일반적으로 저역 통과 필터링에 해당하며, 이는 호스트 이미지에 삽입된 오디오 데이터의 결과로 나타나는 임의의 왜곡을 효과적으로 제거할 수 있다. 그 결과, 사용자는 왜곡을 보지 못할 수 있다. 일부 인쇄 기법에서, 왜곡은 왜곡을 매끄럽게 바꾸는 프린터의 디더링 프로세스(dithering process) 및 도트 게인(dot gain)의 결과로 거의 눈에 띄지 않을 수 있다.

일례의 실시예에서, 본원의 이산 코사인 변환 기술을 이용한 삽입을 알고 있는 뷰어 프로그램은 포워드 이산 코사인 변환을 수행함으로서 삽입된 오디오 데이터를 제거할 수 있고, 선택한 계수들을 필터링(가령, 제로 아웃)할 수 있으며, 이미지 디스플레이 이전에 인버스 이산 코사인 변환으로 삽입 호스트 이미지를 처리할 수 있다. 이산 코사인 변환을 이산 파동 변환으로 바꿈으로서 이산 파동 변환을 이용하여 동일한 방법을 사용할 수 있다. 또다른 실시예에서, 래티스 스케일은, 이미지 캡처 프로세스 중 나타난 카메라나 센서 노이즈같은 이미지와 상관된 노이즈와 매칭될 수 있다. 노이즈는 EXIF(Exchange Image File Format) 헤더의 데이터로부터 측정되거나 추정될 수 있다. 가령, 디지털 카메라를 이용하여 캡처한 이미지는 렌즈/센서로부터 발생하는 소정 레벨의 노이즈를 지닐 수 있다. 높은 ISO 레벨에서, 이 노이즈는 매우 명백할 수 있다. 예를 들어, 전통적인 아날로그 필름 카메라의 경우에, 카메라맨은 빛에는 감도가 높지만 "그레인(grains)"이 더 많이 나타나는, 높은 ISO 레벨 필름을 선택할 수 있다. 디지털 카메라의 경우에는, 높은 ISO 레벨은 높은 센서 (CCD 또는 CMOS) 이득에 대응하며, 이는 원본 이미지에 더 큰 노이즈를 발생시킨다. 원본 이미지가 소정의 노이즈를 원래 지니고 있기 때문에, 센서 노이즈와 같은 정도로 워터마킹에 의해 유발된 왜곡을 제한하려는 시도가 있을 수 있다. 따라서 이를 센서 노이즈 사이에 은닉시키려 할 수 있다. 스케릴링된 래티스 코드를 삽입함으로서 유발되는 왜곡이 센서 노이즈에 의해 유발되는 왜곡을 넘지 않도록 래티스 스케일이 선택될 수 있다. 래티스 코드는 따라서 노이즈에 효과적으로 은닉될 수 있다. 발명의 또다른 실시예에서, 오디오 데이터가 EXIF 파일(가령, EXIF 헤더)에 포함될 수 있고, 따라서, 파일 포맷 변환 이후에도 양호하게 오디오 데이터가 살아남을 수 있다. 또다른 실시예에서, STFT 크기가, 가령, 이미지 생성 중, 은닉없이 이미지에 직접 전달될 수 있다. 한 실시예에서, 스피치나 사운드 스트립이 방법(110)의 단계 112, 114, 116에서 제공되는 단계들과 유사한 단계들을 이용하여 인코딩 중 발생될 수 있다. 일례의 실시예에서, 크기가 24 레벨 대신에 256 레벨로 양자화될 수 있다. 참고로 그레이 이미지가 일반적으로 256 레벨을 가진다. 그러나 크기가 임의의 수치의 레벨로 양자화될 수 있다.

도 15를 참고하여, 호스트 이미지(354)의 선택된 영역(352)에 오디오 데이터가 제공되는 경우에, 삽입 호스트 이미지(350)가 개시된다. 오디오 데이터는 스피치 스트립이나 오디오 스트립에 제공될 수 있고, 이 스트립은 도 2를 참고하여 설명한 바와 같이 오디오 데이터로부터 발생된 STFT 크기들을 포함한다. 한 실시예에서, 스피치 스트립은 정규 그레이스케일 이미지로 구현되는 STFT 크기들을 제공한다. 스피치 스트립이 삽입 이미지로부터 추출되어 선택 영역(352)에 디스플레이될 수 있다는 점을 이해할 수 있을 것이다.

한 실시예에서, 스피치나 오디오 스트립은 호스트 이미지에 오버레이(overlay)될 수 있다. 이에 따라 사용자가 잘라내기 및 붙여넣기 기능을 이용하여 스피치 스트립을 편집할 수 있고, 두개 이상의 스피치나 오디오 스트립을 믹스할 수 있다. 스피치나 오디오 스트립이 이미지의 일부분이기 때문에, 이 스트립은 다양한 이미지 처리 기술, 이미지 포맷 변환, 디지털-아날로그-디지털 변환 이후에도 보존된다. 도 16에 도시되는 일례의 실시예에서, 삽입 호스트 이미지는 오디오 데이터를 수용하기 위한 확장 부분(358)을 가진다. 그러나, 둘 이상의 화자(speakers)에 해당하는 경우에 화자와의 공간 관계가 소실될 수 있다. 한 실시예에서, 해당하는 스피치 스트립(360, 362)에 대한 인덱스로 기능하도록 각각 마커(364, 366)이 제공될 수 있다. 전자 장치(가령, 디지털 처리 장치)는 마커(364, 366)와 스피치 스트립(360, 362)을 검출하여 디코딩할 수 있다. 예를 들어, 사용자가 마커(364, 366) 중 하나에게로 포인터를 이동시킬 때, 해당 마커에 대응하는 스피치나 오디오가 관련 스피치 스트립으로부터 재현될 수 있다.

상술한 일례의 실시예에서, 래티스 코딩은 호스트 이미지에 오디오 데이터를 삽입할 때 사용된다. 그러나, 다른 실시예에서는 다른 기술이 사용될 수 있다. 예를 들어, 양자화 인덱스 변조(QIM) 기술이 STFT 크기를 삽입하는 데 또한 사용될 수 있다. 이러한 QIM 기술의 한 예가 Brian Chen과 Gregory W. Wornell의 "Quantization Index Modulation: A class of probably good methods for digital watermaking and information embedding", IEE Transaction on Information Theroy, Vol.47, No.4, 2001년 5월, 1423-1443 쪽에 공개되어 있고, 그 내용은 본원에서 참고로 인용된다.

QIM 기술을 적용할 때, 양자화된 DCT 계수들은 디지털 오디오 데이터를 인코딩할 때 짝수 값이나 홀수 값을 취하도록 교란될 수 있다. 이 기술이 비손실형으로 간주될 수 있지만, 취약한 경향이 있다. 즉, 공통 이미지 처리 단계들 하에서(가 령, 이미지의 밝기를 높일 때) 삽입된 오디오 데이터가 보존되지 않는다. 이 방법은 인코딩 및 디코딩 모듈의 풀 컨트롤(full control)을 요구할 수 있고, 따라서 일부 실시예에서 선호도가 떨어질 수 있다(사용자가 임의적 이미지 편집 소프트웨어를 이용할 수 있다고 허가받았을 경우). 그럼에도 불구하고, 이러한 제어가 제공될 경우, 이 방법은 고품질, 고용량의 오디오 데이터를 호스트 이미지에 삽입할 수 있다. 삽입된 타겟 이미지 포맷이 JPEG일 경우, 적응성 래티스 코딩 기술이 더욱 적합할 수 있다. 일부 실시예에서, QIM 방법은 그 취약한 속성을 활용함으로서 장점을 가질 수 있다. 예를 들어, 이미지의 한 영역이 수정될 경우, 대응하는 블록들의 래티스 코드들이 변경되거나 또는 매우 낮은 신뢰도 레벨을 가지기 때문에, 이러한 수정이 검출될 수 있다.한 실시예에서, 이러한 부작용을 활용하여 특성 검출 메커니즘을 제공할 수 있다.

본 발명은 이미지와 오디오를 통합하는 단일 매체를 제공할 수 있고, 제공하는 데 사용될 수 있다. 이미지 및 오디오를 모두 지닌 단일 파일(가령, JPEG 파일)이 제공될 수 있다. 더우기, 단일 파일의 콘텐트(호스트 이미지와 오디오 데이터)가 파일 포맷 변환 후에도 존속할 수 있다. 한 실시예에서, 오디오에 기초한 "사진 검색"이 수행될 수 있다. 따라서 디지털 이미지들은 삽입된 오디오 데이터에 기초하여 배치될 수 있다. 한 실시예에서, 본원의 방법 및 시스템들은 이미지의 표절을 방지하는 등의 이유로, 이미지에 사용자의 고유 음성을 삽입함으로서 보호 수단을 제공하는 데 사용될 수 있다.

본원의 용어 "이미지"는 사진, 비디오 클립 등등과 같은 이미지로 제한되어 어서는 안되며, 사진 이미지, 문서, 텍스트 등의 이미지같은 임의의 2차원 표현을 포함하도록 해석되어야 한다.

도 17은 컴퓨터 시스템(200) 의 일례의 형태로 기계를 표현하는 도면이다. 이 시스템(200) 내에서 본원의 방법들 중 임의의 한 방법을 기계로 하여금 수행하게 하는 한 세트의 명령들이 실행될 수 있다. 대안의 실시예에서, 머신은 네트워크 라우터, 네트워크 스위치, 네트워크 브리지, PDA, 셀 폰, 웹 기기, 또는 해당 머신에 의해 취급될 동작들을 명시하는 한 세트의 명령들을 실행할 수 있는 임의의 머신 등을 포함할 수 있다.

컴퓨터 시스템(200)은 중앙 프로세서(214), 시스템 메모리(216), 그리고 외부 기기들과 같은 서브시스템들을 상호연결하는 버스(212)를 포함한다. 외부 기기로는 오디오 카드(22)에 의한 스피커(218), 디스플레이 어댑터(224)에 의한 디스플레이 스크린(222), 패럴렐 포트(228)를 통한 프린터(226), 마우스(230)같은 포인팅 장치, 입/출력 컨트롤러(234)를 통한 키보드(232), 호스트 어댑터(240)를 통한 고정 디스크 드라이브(236) 및 CD-ROM/DVD 드라이브(238), 네트워크 인터페이스 카드(242), 플라피 디스크(246)를 수용하기 위한 플로피 디스크 드라이브(244) 등이 있다.

스캐너나 터치 스크린, 등등과 같은 여러 다른 장치나 서브시스템들이 또한 연결될 수 있다는 것을 이해할 수 있을 것이다. 또한, 본 발명을 구현함에 있어서 도 17에 도시된 모든 장치들이 존재하여야 할 필요도 없다. 컴퓨터 시스템이 PDA나 셀 폰의 형태라면, 마우스(230), 플라피 디스크 드라이브(244), 고정 디스크 드라 이브(236) 등등을 포함시킬 필요가 없을 것이다. 더우기, 이 장치 및 서브시스템들은 도 17에 도시된 것과는 다른 구성으로 상호연결될 수 있다. 컴퓨터 시스템(200)의 동작은 당 분야에 잘 알려진 것으로서 더 상세히 설명하지 않는다.

본원의 기계-판독형 매체란 고상 메모리, 광학형 및 자기형 디스크, 반송파 신호들을 포함한다. 그러나 이에 제한되지는 않는다.

본 발명의 일부 실시예들을 구현하기 위한 소프트웨어는 시스템 메모리(216) 내에, 또는 버스(212)에 연결된 서브시스템 내에(가령, 오디오 카드(220), 중앙 프로세서(214)), 동작가능하게 배치될 수 있고, 또는, 고정 디스크 드라이브(236), 플라피 디스크(246), CD-ROM/DVD(248) 등과 같은 저장 매체에 저장될 수 있다.

버스(212)는 다양한 방식으로 구현될 수 있다. 가령, 버스(212)는 로컬 버스, 시리얼 버스, 패럴렐 포트, 확장 버스 등으로 구현될 수 있다. 확장 버스의 예로는 ADB, SCSI, ISA, EISA, MCA, NuBus, PCI, 또는 그외 다른 버스 구조가 있다. 시스템 메모리(216)는 RAM, DRAM, 또는 그외 다른 메모리 소자일 수 있다.

Claims

호스트 이미지를 처리하는 방법에 있어서, 상기 방법은,

- 호스트 이미지를 수신하는 단계,

- 오디오 데이터를 수신하는 단계,

- 호스트 이미지 내에 오디오 데이터를 삽입하여 삽입 이미지를 제공하는 단계로서, 이때, 상기 오디오 데이터의 오디오 신호의 크기 데이터는 양자화되고 위상 데이터는 폐기되며, 삽입 이미지로부터 오디오 데이터를 복원시킬 수 있는 단계

를 포함하는 것을 특징으로 하는 호스트 이미지 처리 방법.
제 1 항에 있어서,

- 호스트 이미지 내에 오디오 데이터를 삽입하기 전에 숏-텀 퓨리에 변환(STFT:Short-Term Fourier Transform)을 이용하여 오디오 데이터를 처리하는 단계

를 포함하는 것을 특징으로 하는 호스트 이미지 처리 방법.
제 1 항에 있어서,

- 오디오 데이터를 D4 래티스 코드에 매핑하기 위해 오디오 데이터를 양자화하는 단계

를 포함하는 것을 특징으로 하는 호스트 이미지 처리 방법.
제 3 항에 있어서,

- 호스트 이미지의 왜곡 최소화를 위해 D4 래티스의 래티스 코드를 스케일링하는 단계

를 포함하는 것을 특징으로 하는 호스트 이미지 처리 방법.
제 1 항에 있어서,

- 호스트 이미지의 휘도 데이터와 크로미넌스 데이터를 분리시키는 단계,

- 휘도 데이터에 오디오 데이터를 포함시켜서 수정된 휘도 데이터를 제공하는 단계, 그리고

- 수정된 휘도 데이터와 크로미넌스 데이터를 조합하여 삽입 이미지를 제공하는 단계

를 포함하는 것을 특징으로 하는 호스트 이미지 처리 방법.
제 5 항에 있어서,

- 휘도 데이터를 처리하여 중간 휘도 데이터를 제공하는 단계

를 포함하는 것을 특징으로 하는 호스트 이미지 처리 방법.
제 6 항에 있어서,

- 중간 휘도 데이터로부터 서브밴드를 제거하여 추가적인 중간 휘도 데이터를 제공하는 단계, 그리고

를 포함하는 것을 특징으로 하는 호스트 이미지 처리 방법.
삭제
제 1 항에 있어서,

- 호스트 이미지의 RGB 성분들을 크로미넌스 성분과 휘도 성분으로 변환하는 단계,

- 호스트 이미지의 휘도 성분을 처리하는 단계, 그리고

- 호스트 이미지를 RGB 성분으로 변환하는 단계

를 포함하는 것을 특징으로 하는 호스트 이미지 처리 방법.
제 1 항에 있어서,

- 호스트 이미지의 일부분을 마스킹하는 단계, 그리고

- 호스트 이미지에 대해 마스킹된 부분을 예약하는 단계

를 포함하는 것을 특징으로 하는 호스트 이미지 처리 방법.
제 1 항에 있어서,

- 호스트 이미지의 일부분을 마스킹하여, 마스킹된 부분과 마스킹되지 않은 부분을 제공하는 단계, 그리고

- 마스킹된 부분과 마스킹되지 않은 부분에 오디오 데이터를 삽입하는 단계로서, 이때, 마스킹된 부분에 비해 마스킹되지 않은 부분에 화소 당 더 많은 오디오 데이터가 저장되는 단계

를 포함하는 것을 특징으로 하는 호스트 이미지 처리 방법.
호스트 이미지를 처리하는 시스템에 있어서, 상기 시스템은,

- 호스트 이미지를 수신하는 이미지 처리 회로,

- 오디오 데이터를 수신하는 오디오 처리 회로, 그리고

- 호스트 이미지 내에 오디오 데이터를 삽입하여 삽입 이미지를 제공하는 삽입 모듈

을 포함하며, 이때, 상기 오디오 처리 회로에 의해 상기 오디오 데이터의 오디오 신호의 크기 데이터는 양자화되고 위상 데이터는 폐기되며, 삽입 이미지로부터 오디오 데이터를 복원할 수 있는 것을 특징으로 하는 호스트 이미지 처리 시스템.
제 12 항에 있어서, 상기 오디오 처리 회로는 STFT(Short-Term Fourier Transformation) 모듈을 포함하고, 상기 모듈은 호스트 이미지 내에 오디오 데이터를 삽입하기 전에, STFT 변환을 이용하여 오디오 데이터를 처리하는 것을 특징으로 하는 호스트 이미지 처리 시스템.
제 12 항에 있어서, 상기 이미지 처리 회로는 이산 파동 변환, 또는 이산 코사인 변환을 이용하여 휘도 데이터를 처리하여 중간 휘도 데이터를 제공하고, 이후 양자화된 크기 데이터가 중간 휘도 데이터에 포함되는 것을 특징으로 하는 호스트 이미지 처리 시스템.
제 12 항에 있어서, 양자화된 오디오 데이터는 호스트 이미지의 서브밴드의 계수들을 기반으로 스케일링되는 것을 특징으로 하는 호스트 이미지 처리 시스템.
오디오 데이터 추출을 위해 삽입 이미지를 처리하는 방법에 있어서, 상기 방법은,

- 삽입 이미지의 휘도 성분에 대해 이산 파동 변환 또는 이산 코사인 변환을 실행하는 단계,

- 오디오 데이터에 연계된 양자화된 크기 데이터를 식별하는 단계,

- 식별된 크기 데이터에 연계된 위상 데이터를 추정하는 단계, 그리고

- 양자화된 크기 데이터와 위상 데이터에 기초하여 출력 오디오 신호를 발생시키는 단계

를 포함하는 것을 특징으로 하는 삽입 이미지 처리 방법.
제 16 항에 있어서, 크기 데이터는 STFT 크기 데이터이고, 상기 방법은,

- 사인파에 대응한다고 가정되는 STFT 크기 데이터의 피크를 식별하는 단계,

- 상기 피크의 순간 주파수를 추정하는 단계, 그리고

- 추정된 순간 주파수로부터 오디오 데이터를 재현하는 단계

를 포함하는 것을 특징으로 하는 삽입 이미지 처리 방법.
제 16 항에 있어서,

- 인코딩된 서브밴드로부터 래티스 코드들을 추출하는 단계,

- 추출된 각 래티스 코드에 대한 스케일을 추정하는 단계,

- 상기 스케일을 이용하여 추출된 래티스 코드들을 정규화(normalizing)하여 정규화된 추출 래티스 코드들을 제공하는 단계, 그리고

- 정규화된 추출 래티스 코드들에 매칭되는 래티스 코드들을 래티스 코드 표를 통해 검색하여, 양자화된 크기 데이터를 제공하는 단계

를 포함하는 것을 특징으로 하는 삽입 이미지 처리 방법.
제 16 항에 있어서, 양자화된 크기 데이터를 식별하기 전에,

- 인코딩된 서브밴드로부터 래티스 채널 코드들을 추출하는 단계,

- 각 코드의 최대 절대값으로부터 스케일을 추정하는 단계,

- D4 래티스 코드로부터 매칭을 발견하는 단계, 그리고

- 이 매칭을 인버스 양자화하여 STFT 크기 데이터를 제공하는 단계

를 포함하는 것을 특징으로 하는 삽입 이미지 처리 방법.
제 16 항에 있어서,

- 오디오 데이터를 한 세트의 알려진 값(known value)들로 모델링하는 단계로서, 이때, 각각의 알려진 값은 대응하는 가중치를 가지며, 상기 가중치는 알려진 값의 신뢰도 레벨을 표현하며, 0 가중치는 미지값(unknown value)을 표시하고, 오디오 데이터의 추출된 STFT 크기는 알려진 값으로 간주되는 단계

를 포함하는 것을 특징으로 하는 삽입 이미지 처리 방법.
호스트 이미지로부터 오디오 데이터를 추출하는 시스템에 있어서, 상기 시스템은,

- 호스트 이미지를 수신하고 호스트 이미지의 휘도 성분을 제공하는 이미지 처리 회로, 그리고

- 휘도 성분으로부터 오디오 데이터를 추출하고 복원가능한 오디오 데이터를 제공하는 오디오 처리 회로

를 포함하며, 이때, 오디오 데이터의 오디오 신호의 크기 데이터는 양자화되고 위상 데이터는 폐기되는 것을 특징으로 하는 오디오 데이터 추출 시스템.
제 21 항에 있어서,

- 호스트 이미지의 휘도 성분에 대해 이산 파동 변환, 또는 이산 코사인 변환을 수행하는 이산 파동 변환 모듈과 이산 코사인 변환 모듈 중 하나,

- 휘도 성분에 연계된 양자화된 크기 데이터를 식별하는 식별 모듈, 그리고

- 식별된 크기 데이터에 연계된 위상 데이터를 추정하고, 양자화된 크기 데이터 및 위상 데이터에 기초하여 출력 오디오 신호를 발생시키는 위상 복원 모듈

을 포함하는 것을 특징으로 하는 오디오 데이터 추출 시스템.
제 22 항에 있어서, 크기 데이터는 STFT 크기 데이터이고, 상기 복원 모듈은,

- 사인파에 해당한다고 가정되는 STFT 크기 데이터의 피크들을 식별하는 단계,

- 피크들의 순간 주파수를 추정하는 단계, 그리고

- 추정된 순간 주파수로부터 오디오 데이터를 재현하는 단계

들을 실행하는 것을 특징으로 하는 오디오 데이터 추출 시스템.
제 21 항에 있어서, 인코딩된 서브밴드로부터 래티스 코드를 추출하고, 추출된 각 래티스 코드에 대한 스케일을 추정하며, 추출된 래티스 코드들은 스케일을 이용하여 정규화되어 정규화된 추출 래티스 코드들을 제공하고, 정규화된 추출 래티스 코드들과 매칭되는 래티스 코드들을 래티스 코드 표를 통해 검색하여, 양자화된 크기 데이터를 제공하는 것을 특징으로 하는 오디오 데이터 추출 시스템.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제