KR100289854B1 - 인코딩 장치 및 방법 - Google Patents

인코딩 장치 및 방법 Download PDF

Info

Publication number
KR100289854B1
KR100289854B1 KR1019950700518A KR19950700518A KR100289854B1 KR 100289854 B1 KR100289854 B1 KR 100289854B1 KR 1019950700518 A KR1019950700518 A KR 1019950700518A KR 19950700518 A KR19950700518 A KR 19950700518A KR 100289854 B1 KR100289854 B1 KR 100289854B1
Authority
KR
South Korea
Prior art keywords
circuit
signal
video signal
encoding
output
Prior art date
Application number
KR1019950700518A
Other languages
English (en)
Other versions
KR960700607A (ko
Inventor
데츠지로 곤도
Original Assignee
이데이 노부유끼
소니 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이데이 노부유끼, 소니 가부시키가이샤 filed Critical 이데이 노부유끼
Publication of KR960700607A publication Critical patent/KR960700607A/ko
Application granted granted Critical
Publication of KR100289854B1 publication Critical patent/KR100289854B1/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/24Systems for the transmission of television signals using pulse code modulation
    • H04N7/52Systems for transmission of a pulse code modulated video signal with one or more other pulse code modulated signals, e.g. an audio signal or a synchronizing signal
    • H04N7/54Systems for transmission of a pulse code modulated video signal with one or more other pulse code modulated signals, e.g. an audio signal or a synchronizing signal the signals being synchronous
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • H04N19/122Selection of transform size, e.g. 8x8 or 2x4x8 DCT; Selection of sub-band transforms of varying structure or type
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/142Detection of scene cut or scene change
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/149Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/98Adaptive-dynamic-range coding [ADRC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/152Data rate or code amount at the encoder output by measuring the fullness of the transmission buffer

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Discrete Mathematics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

디지탈 비디오 신호의 특성은 제1특성 검출 수단에 의해 검출되고, 디지탈 음성 신호의 특성은 제2특성 수단에 의해 검출된다. 제1 및 제2특성 수단의 출력은 합성 수단에 의해 합성되어 상기 합성 수단의 출력에 근거한 디지탈 비디오 신호와 디지탈 음성 신호를 압축 인코딩한 할당된 정보량을 제어하고 그리하여 관계된 비디오 신호와 음성 신호를 재생시에-시청각 관점에서 덜 저하된 상태로 효과적으로 압축-인코드하는 것이 가능하게 된다.

Description

[발명의 명칭]
인코딩 장치 및 방법
[기술적인 분야]
본 발명은 비디오 신호와 음항 신호를 효과적으로 압축-인코딩하는 인코딩 장치와 인코딩 방법에 관한 것이다.
[배경기술]
이제까지, 인코딩된 신호를 전송하도록 비디오 신호 또는 음성 신호를 효과적으로 압축-인코딩하는 여러 시스템이 제안되어 왔다. 이러한 통상의 압축 인코딩 시스템에서, 비디오 신호와 음향 신호 각각에 대해, 신호 저하가 눈에 띄지 않도록 각각의 마스킹 효과(masking effect)에 근거하여 압축 인코딩 처리가 실행된다.
한편, 상기의 압축 인코딩 시스템은 인간의 청각과 시각의 감각 특성에 일치한다. 모든 시스템에서, 압축 처리는 개별적으로 평가된다고 간주되는 재생된 화상과 재생된 음성으로 독립적으로 실행된다.
예를들어, 음향이 차단되는 상태에서 화상만이 평가될 때, 화상의 떨림 또는 블럭 왜곡 같은 눈에 띄는 저하를 가능한한 최소가 되도록 하는 것이 중요하기에, 압축 인코딩 과정이 그 지점에 따라 스트레스를 받아 실행된다.
그러나, 비디오 또는 비디오 소프트웨어 등과 같은 오락물에서 화상과 음향은 동시에 재생되고 이렇게 재생된 화상과 음향은 인간에게 자극을 준다. 이러한 이유로, 화상에 관련된 음향이 동시에 존재하는 경우에, 상기의 화상 떨림 같은 화상의 심각한 저하가 실제적으로 마스킹되어 느껴지지 않는 여러가지 경우가 있다. 특히, 사람의 관심이 주로 음향성(음성의 감지 레벨이 높은 부분)에 있을 때 화상에 대한 관심이 산만해져서, 대부분의 경우에 상기 화상과 같은 심각한 저하는 느껴지지 않는다.
상기의 현상은 유사하게 음향에 적용된다. 화상으로 부터의 자극 (활동)의 레벨 (등급)이 높은 경우에 예를 들어 화상이 움직이는 등의 경우에, 음향이 마스킹되는 여러가지 경우가 있어서 그것의 저하를 느끼지 못한다.
위에 기술되었듯이 화상과 음향이 각각 개별적으로 존재하는 경우와 화상과 음향이 영화처럼 서로 연관된 방식으로 존재할 경우의 사람의 시청각 감각은 크게 다르다. 따라서 화상자 음향이 영화처럼 서로 연관된 방식으로 즌재하는 경우에 그리고 가능성이 있고 영상과 음향이 종래 기술에서처럼 압축 처리를 개별적으로 각각 한다면 적당한 압축 인코딩이 실행되지 않는다.
본 발명은 상기의 실제적인 환경의 관점에서 이루어졌고 그 목적은 화상(비디오 신호)과 음향(오디오 신호)과 연관지어 더욱 적당한 압축 인코딩을 실행할 수 있는 인코딩 장치와 방법을 제공하는 것이다.
[발명의 개요]
본 발명의 인코딩 장치는 디지탈 비디오 신호와 디지털 음성 신호를 각각 압축-인코딩하도록 적용된 인코딩 장치에 관한 것으로 디지털 비디오 신호의 특성을 검출하는 제1특성 검출수단과 디지털 음성 신호의 특성을 검출하는 제2특성 검출 수단과, 제1 및 제2특성 검출 수단의 출력을 합성수단과 합성수단의 출력에 근거하여 디지털 비디오 신호와 디지털 음성 신호의 압축 인코딩의 활당된 정보량을 제어하는 제어 수단을 포함한다.
여기서, 제1 및 제2 특성 검출 수단은 각각 비디오 신호와 음성 신호의 활동을 검출한다. 활동은 신호의 여백 및/또는 시간 지점의 변화를 검출하므로서 검출된다. 더우이, 합성 수단은 각각 그들을 합성하도록 제1 및 제2특성 검출 수단의 출력을 소정 계수로 승산한다. 더욱이, 본 발명의 인코딩 장치에서, 출력 신호로서 출력하도록 압축-인코드된 신호를 일시적으로 유지하는 버퍼 메모리가 제공되고, 제어 수단은 합성 수단의 합성 출력과 버퍼 메모리에 기억된 정보의 량에 따라 디지털 음성 신호와 디지털 비디오 신호를 압축 인코딩한 할당된 정보량을 제어한다.
더우기, 제1특성 검출 수단은 디지털 비디오 신호를 프레임-지연하는 프레임 메모리(frame memory)와, 디지털 비디오 신호를 라인-지연시키는 라인 메모리(line memory)와, 디지털 비디오 신호를 샘플-지연시키는 샘플 메모리(sample-memory)와, 프레임 메모리로부터의 프레임-지연된 디지털 비디오 신호와 입력 디지털 비디오 신호사이의 차를 계산(결정)하는 제1차이 계산 수단과, 라인 메모리로부터의 라인-지연된 디지털 비디오 신호와 입력 디지털 비디오 신호 사이의 차이를 계산(결정)하는 제2차이 계산 수단과, 샘플 메모리로부터의 샘플-지연된 디지탈 비디오 신호와 디지탈 비디오 신호 사이의 차이를 계산(결정)하는 제3차이 계산 수단을 포함한다. 이때에 제1특성 검출 수단은 제1, 제2 및 제3차이 계산 수단의 출력을 비-선형으로 합성하는 비-선형 합성 수단을 포함한다.
더우기, 제2특성 검출수단은 입력 디지탈 음성 신호의 크기 정보를 발생하는 크기 정보 발생 수단과, 크기 정보 발생 수단으로부터의 크기 값에 근거하여 에너지를 검출하는 에너지 검출 수단과, 에너지 검출 수단의 출력에 컨버루젼(convolution) 동작을 구현하는 컨버루젼 동작 수단으로 이루어진다.
양자 택일적으로, 제1특성 검출 수단과 제2특성 검출 수단은 신호의 커다란 변화량을 검출하는 대변화량 검출 수단과, 소정의 임계치와 대변화량 검출 수단의 출력을 비교하는 제1 비교 수단과, 신호의 매우 작은 변화를 검출하는 매우 작은 변화량 검출 수단과, 소정의 임계치와 매우 작은 변화량 검출 수단의 출력을 비교하는 제2 비교 수단과 활동이 있을지 없을지 제1 및 제2 비교 수단의 출력으로부터 판정하는 판정 수단을 포함한다.
본 발명의 인코딩 방법은 인코드된 신호를 전송하도록 거기에 연관된 디지탈 비디오 신호와 디지탈 음성 신호를 각각 압축-인코딩하는 인코딩 방법에 관한 것으로 디지탈 비디오 신호의 특성을 검출하는 단계와, 디지탈 음성 신호의 특성을 검출하는 단계와, 디지탈 비디오 신호의 특성 검출 출력과 디지탈 음성 신호의 특성 검출 출력을 합성하는 단계와, 합성 출력에 근거하여 디지탈 비디오 신호와 디지탈 음성 신호의 할당된 정보량의 압축 인코딩을 제어하는 단계를 포함한다.
여기서, 디지탈 비디오 신호와 디지탈 음성 신호의 특성 검출에서, 비디오 신호와 음성 신호의 동작이 각각 검출된다. 역시 이때에, 신호 공간 및/또는 시간의 변화를 검출하므로서 동작이 검출된다.
따라서, 본 발명의 인코딩 장치와 방법에 따라 제2특성 검출 수단에 의해 검출된 음성 신호의 특징이 부가되는 정보량이 되도록 할당된 정보량의 압축 인코딩된 디지탈 비디오 신호가 되고 디지탈 음성 신호의 압축 인코딩의 할당된 정보량이 되도록 제1특징 검출수단에 의해 검출된 비디오 신호의 특징이 부가된다.
이러한 이유로, 적당한 정보량 할당이 비디오 신호와 음성 신호 사이의 관계로부터 결정되고, 효과적인 인코딩이 이렇게 결정된 적당한 정보량 할당에 근거하여 실행된다.
[도면의 간단한 설명]
제1도는 본 발명에 따른 실시예인 인코딩 장치의 구조를 블럭 형태로 도시한 회로도.
제2도는 비디오 신호에 대한 압축 인코딩 회로의 실제예를 블럭 형태로 도시한 회로도.
제3도는 음성 신호에 대한 압축 인코딩 회로의 실제예를 블럭 형태로 도시한 회로도.
제4도는 임계 대역을 설명하는 도면.
제5도는 음성 신호 압축-인코딩 회로의 비트 할당 계산회로의 실제예의 구조를 블럭 형태로 도시한 회로도.
제6도는 바아크 스펙트럼을 설명하는 도면.
제7도는 FIR 필터의 구조를 블럭 형태로 도시한 회로도.
제8도는 바아크 스펙트럼과 마스킹 스펙트럼을 설명한 도면.
제9도는 최소 가청 곡선과 마스킹 스펙트럼이 동기하는 도면.
제10도는 인코딩 제어 회로의 실제예의 구조를 블럭 형태로 도시한 회로도.
제11도는 크기 정보 발생 회로의 실제예의 구조를 블록 형태로 도시한 회로도.
제12도는 바아크 스펙트럼 형성 회로의 실제예의 구조를 블럭 형태로 도시한 회로도.
제13도는 전송 통로의 전송율과 동작 및 마스킹이 고려되는 음성 신호의 전송율과 비디오 신호의 전송율을 설명하는 도면.
제14도는 비디오 신호에 대한 압축 인코딩 회로의 다른 실제예를 블럭 형태로 도시한 회로도.
제15도는 동작 검출 회로의 다른 실제예의 구조를 블럭 형태로 도시한 회로도.
[발명의 최적 실시예]
본 발명의 바람직한 실시예가 이제 첨부된 도면을 참고로 기술된다.
제1도에서, 도면 번호(10V)는 디지탈 비디오 신호에 대한 압축 인코딩 처리 시스템을 나타내고, 도면 번호(10A)는 디지탈 음성 신호에 대한 압축 인코딩 처리 시스템을 나타낸다.
디지탈 비디오 신호에 대한 압축 인코딩 처리 시스템(10V)에서, 비디오 신호에 알맞는 압축 인코딩이 실행되는 압축 인코딩 회로(12V)로 입력 단자(11V)를 통한 디지탈 비디오 신호가 나온다. 비디오 신호에 알맞는 그러한 압축 인코딩 같은 예를 들어 DCT(이산 코사인 변환)를 이용한 기술, 소위 ADRC(적응 등적 범위 코딩)를 사용한 기술 등이 사용될 수 있다.
일본 특허 공개 공보 144989/1986과 266989/1987에 기술된 가장 근접한 레벨의 코드로 변화하도록 블럭내 각각의 픽셀을 인코드하는 압축된 양자화 비트 번호에 의해 동적 범위를 동일하게 나누는 한개 필드내 2-차원 블럭에 포함된 다수의 픽셀에 대해 최소의 레벨과 동적 범위(블럭내 최대 레벨과 최소 레벨 사이의 차이)를 결정하는 코딩 시스템이 상기의 ADRC 라는 것을 인지해야 한다. 즉, 예를들어 텔레비젼 신호 같은 비디오 신호가 수평 및 수직 방향으로 보정을 하기에 동일한 블럭 내에 포함된 픽셀 데이타 레벨의 변화폭은 정지부에서 작다. 따라서, 블럭내의 픽셀 데이타가 통상 유지하는 최소 레벨의 제거후 데이타의 동적 범위가 원래 양자화 비트수보다 더 작은 양자화 비트수에 의해 양자화될지라도, 양자화 왜곡이 거의 일어나지 않는다. 이런식으로 양자화 비트 번호를 더 작게 하므로서, 데이타 전송 대역폭이 원래 것보다 더 작게 될 수 있다.
이러한 실시예에서, 비디오 신호에 대한 압축 인코딩 회로(12V)가 제2도에 도시된 ADRC 를 이용하므로서 압축 인코딩을 실행하는 구조의 것이다.
즉, 제2도에 도시된 압축 인코딩 회로(12V)는 디지탈 비디오 신호를 블럭으로 분리하여, 동적 범위가 결정된 매블럭에 적용된 할당 비트 번호에 의해 대응 블럭내에 각각의 픽셀 데이타를 인코드하도록 대응 블럭내에 포함된 다수의 픽셀 데이타의 최대값(MAX)과 최소값(MIN)에 의해 설정된 동적 범위(DR)를 결정한다.
제2도에서, 입력단자(401)에는 예를 들어 한개 샘플이 8비트로 양자화되는 디지탈 비디오 신호(예를 들어 디지탈 텔레비젼 신호)가 공급된다. 이러한 디지탈 비디오 신호가 블럭킹 회로(402)로 나온다.
블럭킹 회로(402)는 입력 디지탈 비디오 신호를 인코딩 단위인 매 2-차원 블럭에 연속되는 신호로 변화시킨다. 상기 실시예에서, 한개 블럭은 8 라인 x 8 픽셀 =64 픽셀의 크기를 갖게 된다. 블럭킹 회로(402)의 출력 신호는 감산 회로로 동작하는 동적 범위 검출 회로(403)와 가산 회로(404)로 나온다. 동적 범위 검출 회로(403)는 동적 범위(DR)에 매 블럭의 최소값 MIN 및 최대값 MAX과 동적범위(DR)의 출력값과 최소값(DIN)를 검출한다.
최소값(MIN)은 감산 신호로서 가산 회로(404)로 보내진다. 더우기, 이러한 가산 회로(404)는 가산 신호로서 블럭킹 회로 (402)로부터의 픽셀 데이타가 공급된다. 따라서, 상기 가산 회로(404)에서, 최소값(MIN)이 제거되는 픽셀 데이타(PDI)가 형성된다.
더우기, 동적 범위 검출 회로(403)에서 검출된 동적 범위(DR)는 비트 길이 결정 회로(406)로 보내진다. 이러한 비트 길이 결정 회로(406)는 나중에 기술될 단자 (420)와 동적 범위(DR)를 통해 나오는 인코딩 제어 회로(15V)로부터의 제어 신호에 근거하여 상기 블럭같은 매 압축 인코딩 단위인 할당된 비트 번호 (할당된 양자화 비트 번호)를 결정한다.
비트 길이 결정 회로(406)에 의해 결정된 할당된 비트 번호는 양자화 회로(405)로 보내진다. 이러한 양자화 회로(405)는 가산 회로(404)로부터의 최소값 제거후에 픽셀 데이타 PDI 가 공급된다. 양자화 회로(405)에서, 픽셀 데이타(PDI)의 양자화는 상기 할당된 비트 수에 의해 실행된다.
이러한 경우에, 최대 왜곡이 할당된 비트 번호 결정시에 동적 범위에 대해 고정되도록 선형으로 할당된 비트 번호 채택없이 인간의 시각 특징으로 비선형 특징을 매칭시킨므로서 최대 왜곡이 변할 수 있도록 비트 길이 결정 회로(406)는 할당된 비트 번호를 결정한다. 즉, 일반적으로 예를 들어 블럭내 날카로운 레벨의 변화가 임는 경우에 휘도 레벨의 작은 변화가 눈에 띄기에 어렵다. 따라서, 예를 들어 동적 범위가 큰 블럭에서, 할당된 비트 번호가 감소된다. 상술하였듯이, 비트 길이 결정 회로(406)에서 동적 범위에 적용된 할당된 비트 번호가 결정된다. 이렇게, 최대 왜곡이 클지라도 동적 범위가 클때, 블럭 왜곡은 일어나지 않는다. 따라서, 압축 효율은 높게 허용된다.
양자화 회로(405)로부터의 인코딩 코드(DT)가 프레임 회로(407)로 보내진다. 이러한 프레임 회로(407)는 역시 매블럭 가산 코드로서 동적 범위 DR(예를 들어 8 비트)와 최소값 MIN(예를 들어 8비트)이 공급된다. 더욱이, 이러한 프레임 회로(407)는 인코딩 코드(DT)와 상기 가산 코드로의 에러 정정 인코딩 처리를 하고 거기에 동기화 신호를 가산한다.
이러한 프레임 회로(477)의 출력은 압축-인코드된 디지탈 비디오 신호로서 단자(408)를 통해 버페 메모리(13V)로 보내지고 버퍼 메모리(13V)를 통해 출력 단자(14V)로부터 출력 된다.
반면에, 디지탈 음성 신호에 대한 압축 인코딩 처리 시스템 (10A)에서, 입력단자(11A)를 통한 디지탈 음성 신호는 압축 인코딩 회로(12A)로 보내지고 여기서 인간의 청각 특징이 고려되는 압축-인코딩 음성 신호에 대한 처리가 실행된다.
인간의 청각 특징이 고려되는 압축 인코딩 처리가 미국 특허 제 5151941호에 기술되는데 그것은 입력 디지탈 신호의 오디오 신호를 다수의 주파수 대역의 신호로 분할하여 각각의 에너지 대역 사이의 차이의 레벨에 대응하는 비트 번호에 의해 각각 대역의 성분을 재양자화하도록 매 각각의 에너지 대역에 근거하여 각각의 대역 단위의 허용된 잡음 레벨을 설정하도록 더 높은 주파수 대역측으로 주파수 이동에 따라 대역폭이 더 넓게 되도록 선택하는 것이다.
이러한 실시예에서, 음성 신호에 대한 상기 압축 인코딩 회로(12A)가 제3도에 도시된 구조를 갖는다.
제3도에서, 샘플링 주파수가 예를들어 44.1KHz 일때 입력 단자(310)는 0∼22KHz 의 오디오 PCM 신호가 공급된다. 이러한 입력 신호는 소위 QMF(4분 미러 필터)로 구성된 대역 분할 필터(311)에 의해 0∼11KHz 대역의 신호와 11k∼22KHz 대역의 신호로 분할된다. 0~11KHz 대역의 신호는 유사하게 QMF등과 같은 필터로 구성된 대역 분할 필터(312)에 의해 0∼5.5KHz 대역의 신호와 5.5k∼11KHz 대역의 신호로 분할된다. 대역 분할 필터(311)로부터의 11-22KHz 대역에서의 신호는 직각 변란 회로의 예인 MDCT 회로(313)로 보내지고 대역 분할 필터(312)로부터의 5.5K∼11KHz 대역의 신호는 MDCT 회로 (314)로 보내지고 대역 분할 필터(312)로부터의 0∼ 5.5KHZ 대역의 신호는 MDCT 회로(315)로 보내진다. 이렇게, 그러한 신호는 MDCT 처리를 한다.
입력 디지탈 신호를 다수의 주파수 대역 신호로 분할하는 상기의 기술같이, 예를들어 상기의 QMF 같은 필터에 의한 대역 분할 기술이 있다. 이러한 대역 분할 기술은 1976년 R.E.Crochiere, Bell Syst, Tech, J., Vol 55, No.8 “Digital Coding of speech in subbands”에 기술되어 있다.
더우기, 동일 대역 필터에 의한 대역 분할 기술은 문헌 “Polyphase Quadrature filter-A new subband coding technique”, Joseph H.Rothweiler ICASSP 83, BOSTON에 기술되어 있다.
더우기, 상기의 직각 변한 처리와 같이 예를들어 직각 변환 처리는 입력 오디오 신호를 매 소정 단위 시간으로 분할하는 것으로 매 각을 급속 푸리에 변환(FFT), 이산 코사인 변환(DCT), 또는 변경된 이산 코사인 변한(MDCT)하여 시간 베이스상의 신호를 주파수 베이스상의 신호로 변환한다. 상기 MDCT는 J.P.Princen A.B.Bradley, Univ. of Surrey Royal Melbourne Inst. of Tech, ICASSP 1987. “Subband/Transform coding Using Filter Bank Designs Based on Time Domain Aliasing Cancellation”에 기술된다.
각각의 MDCT회로(313, 314, 315)에서 MDCT 처리후에 얻어진 주파수 베이스상의 스펙트럼 데이타 또는 MDCT 계수 데이타는 소위 임계 대역으로 결합되어 그러한 결합된 데이타가 적응 비트 할당 인코딩 회로(318)로 보내진다.
임계 대역은 인간의 청각 특성(주파수 분석 능력)을 고려하여 분할된 주파수 대역이고, 순수한 음성이 상기 순수 음성의 주파수 근처에서 동일한 세기를 갖는 그러한 잡음에 의해 마스킹될 때 협대역 잡음이 갖는 대역에 관계된다는 것을 인지해야 한다. 임계 대역은 더 높은 주파수 대역측으로 주파수 이동됨에 따라 대역폭이 더 넓게 되는 것이고, 0-22KHz의 전체 주파수 대역은 예를들어 25 임계 대역으로 분할된다. 즉, 대역의 수가 제4도에 간략히 도시되듯이 12(B1-B12)로 나타나고 임계 대역은 더 높은 주파수 대역측으로의 주파수 이동에 따라 대역폭은 더 넓게 된다. 더우기, 인간의 청각은 일종의 대역 통과 필터 같은 특성을 갖고 각각의 필터에 의해 분리된 대역은 임계 대역으로 불린다.
비트 할당 계산 회로(320)는 나중에 기술되겠지만 단자(430)를 통해 나온, 인코딩 제어 회로(15A)로부터의 제어 신호에 근거하여 블럭 또는 프레임 등과 같은 각각의 압축 인코딩 유닛의 할당된 비트 수를 결정하고, 임계 대역을 고려하여 분할된 스펙트럼 데이타에 근거한 소위 마스킹 효과를 고려하여 각각의 대역의 할당된 비트 번호를 결정한다.
이러한 정보는 적응 비트 할당 인코딩 회로(318)로 보내진다. 이러한 적응 비트 할당 인코딩 회로(318)는 할당된 각각의 대역의 비트 번호에 따라 각각의 스펙트럼 데이타(또는 MDCT 계수 데이타)를 재양자화 한다. 이런 식으로 인코드된 데이타는 출력 단자(319)를 통해 버퍼 메모리(13A)로 보내지고 버퍼 메모리(13A)를 통해 출력단자(14A)로부터 출력된다.
비트 할당 계산 회로(320)의 실제예의 구조 윤곽이 제5도에 도시된다.
제5도에서, 입력 단자(321)에는 각각의 MDCT 회로(313, 314, 315)로부터 주파수 베이스상의 스펙트럼 데이타가 공급된다.
그러면, 주파수 베이스상의 입력 데이타가 각 대역와 에너지 계산 회 로(322)로 보내진다. 이렇게, 임계 대역이 고려되는 각각의 분할된 대역의 에너지가 예를 들어 대응 대역내에 각각의 크기값의 총 합계를 계산하는 방법 또는 유사한 방법을 이용하여 결정된다. 각각의 대역의 에너지 위치시, 피크값 또는 크기값의 평균값 등이 사용된다. 이러한 에너지 계산 회로(322)로부터의 출력으로서 예를 들어 각 대역의 전체 합계 값인 바아크 스펙트럼(bark spectrum)의 각각의 값이 제6도의 SB로 나타난다. 분할된 대역의 수가 제6도에서 12(B1∼ B12)인 것온 인지해야 한다.
여기서, 소위 바아크 스펙트럼(SB)의 마스킹에 영향을 주기 위하여, 소정의 가중 함수에 각각의 값을 승산하도록 그러한 컨버루션 처리가 바아크 스펙트럼(SB)에 구현된다. 이것을 구현하기 위하여, 에너지 계산 회로(322)의 출력 즉 바아크 스펙트럼(SB)의 각각의 값이 컨버루션 필터 회로(323)로 보내진다.
이러한 컨버루션 필터 회로(323)는 예를 들어 제7도에 도시된 FIR 필터로 이루어진다. 즉, 이러한 컨버루션 필터 회로(323)는 제7도에 도시된데로 입력단자(100)로부터의 입력 데이타를 계속 지연시키는 지연소자(Z-1) 101, 102 ‥‥101m-2∼ 101m+3‥‥10123, 10124예를들어 필터 계수(가중함수)에 의해 이러한 지연 소자(1011∼ 10124)로부터 출력을 승산하는 승산기 (1021, 1022‥‥ 102m+3‥‥ 10224, 10225)와 총합계 가산기 (104)로 이루어진다.
여기서, 컨버루션 필터로(323)의 각 승산기(102m-3~102m+3)에서 예를 들어 임의의 대역에 대응하는 승산기(M)의 계수가 1로 추정될 때 지연 소자의 출력은 승산기(102m-3)에서 필터계수 0.0000086, 승산기(102m-2)에서 필터 계수 0.0019, 승산기(102m-1)에서 필터 계수 0.15, 승산기(102m)에서 필터 계수 1, 승산기(102m+1)에서 필터 계수 0.4, 승산기(102m-2)에서 필터 계수 0.06, 승산기 102m+3에서 필터 계수 0.007 만큼 각각 승산된다. 이렇게 바아크 스펙트럼 SB의 컨버루션 처리가 실행된다. 이러한 컨버루션 처리에 의해, 제6도에 점선으로 나타난 부분의 합계가 취해진다.
여기 언급된 음성 마스킹은 들리지 않도록 신호가 다른 신호에 의해 마스킹되는 현상이라는 것을 알아야 한다. 그러한 마스킹 효과 같이, 시간 베이스상의 음성 신호에 의한 시간 베이스 마스킹 효과와 주파수 베이스상의 신호에 의한 동시 마스킹 효과가 있다. 이러한 마스킹 효과에 의해, 어떤 잡음이 마스킹을 일으키는 부분에 존재할지라도 그러한 잡음은 들을 수 없다. 이러한 이유로, 실제 음성 신호의 경우에 마스킹을 일으키는 범위내의 잡음은 허용 가능한 잡음으로 간주된다.
컨버루션 필터 회로(323)의 출력은 감산기(324)로 보내진다. 이러한 감산기(324)는 나중에 기술되는 회선 영역에서 허용가능한 잡음에 대응하는 레벨 감마를 결정 (계산)한다. 여기서 나중에 기술된 역컨버루션 처리를 실행하므로서 임계 대역의 각 대역의 허용된 잡음 레벨이 동일하게 되도록 허용가능한 잡음 레벨 (허용된 잡음 레벨)에 대응하는 레벨 γ이다. 감산기(324)에는 레벨 γ을 결정하기 위해 허용된 함수(마스킹 레벨을 나타내는 함수)가 공급된다. 허용된 함수값을 증가 또는 감소시키므로서 레벨 γ의 제어가 실행된다. 이렇게 허용된 함수는 아래 기술되듯이 (n-ai) 함수 발생 회로(325)로 부터나온다.
즉, 더낮은 주파수 대역의 임계 대역으로부터 차례로 주어진 번호가 1 로 가정될 때, 허용된 잡음 레벨에 대응하는 레벨 γ가 다음 식 (1)으로 결정(계산)될 수 있다.
γ=s-(n-ai) (1)
식 (1)에서, n 과 a(>0)가 일정하고 s는 회선 바아크 스펙트럼의 세기이고 식 (1)에서의 (n-ai)는 허용된 함수이다. 이러한 실시예에서, n=38 과 a=1로 설정된다. 이때에 음질의 저하가 없다. 이렇게, 만족할만한 인코딩이 실행된다.
이런식으로, 상기 γ가 결정된다. 이러한 데이타는 분할기 (326)로 보내진다. 이러한 분할기 (326)는 회선 영역에서 레벨 γ 에 대한 역 컨버루션은 구현한다. 따라서, 이러한 역 컨버루션 처리를 하므로서 마스킹 스펙트럼을 레벨 γ로부터 얻을 수 있다. 즉, 이러한 마스킹 스펙트럼이 허용된 잡음 스펙트럼이 된다. 역 컨버루션 처리가 복잡한 동작을 요하는 반면에 간단한 구동기(326)가 역 컨버루션을 실행하도록 실시예에서 사용되는 것을 이해할 것이다.
마스킹 스펙트럼은 합성 회로(327)를 통해 감산기(328)로 보내진다. 이러한 감산기(328)는 에너지 검출 회로(322)로부터의 출력 즉 이전에 기술된 지연 회로(329) 통한 스펙트럼 SB이 공급된다. 따라서, 상기 감산기 (328)에서 마스킹 스펙트럼과 스펙트럼 SB 사이의 감산 동작이 실행된다. 이렇게, 스펙트럼 (SB)에 대해 마스킹 스펙트럼 값 MS의 레벨에 의해 나타난 레벨 이하의 부분이 제8도에 도시된데로 마스크 된다.
감산기 (328)로부터의 출력이 허용된 잡음 정정 회로(330)를 통해 ROM(331)으로 보내지는데 상기 ROM에는 예를 들어 할당된 비트 번호 정보가 차례로 기억된다. 이러한 ROM(331)은 감소 회로(328)로부터 허용된 잡음 정정 회로(330)를 통해 얻어진 출력(각 대역의 에너지와 잡음 레벨 설정 수단의 출력 사이의 차의 레벨)에 따라 각각의 대역의 할당된 비트 번호 정보를 출력한다.
이렇게 할당된 비트 번호 정보는 더우기 비트 번호 정정 회로(334)로 보내진다. 이러한 비트 번호 정정 회로 (334)는 나중에 설명되는 단자(430)를 통해 나온 인코딩 제어 회로(15A)로부터의 제어 신호에 근거하여 ROM(331)으로부터 출력된 비트 번호 정보를 정정한다.
비트 번호 정정 회로(334)로부터의 비트 번호 정보는 단자(335)를 통해 적응 비트 할당 인코딩 회로(318)로 보내진다. 이렇게, 상기 적응 비트 할당 인코딩 회로(318)에서, MDCT 회로(313, 314, 315)로부터 주파수 베이스상의 각 스펙트럼 데이타는 할당된 매 각각의 대역의 비트 번호에 의해 양자화 된다. 합성 회로(327)를 선행하는 각각의 회로에서 지연량을 고려하므로서 지연 회로(329)는 에너지 검출 회로(322)로부터의 스펙트럼(SB)을 지연하기 위해 제공된다.
더우기, 상기 합성 회로(327)에서의 합성에서, 최소 가청 곡선 발생회로(332)와 마스킹 스펙트럼(MS)로부터 나온 제9도에 도시된 인간의 청각 특성인 소위 최소 가청 곡선 RC 를 가르키는 데이타를 합성하는 것이 가능하다. 이러한 최소의 가청 곡선에서, 만약 절대 잡음 레벨이 이러한 최소 가청 곡선보다 더 작다면 그러한 잡음은 들을 수 없다. 이러한 최소 가청 곡선은 변화한다. 예를들어 코딩이 동일할지라도 재생시에 재생 음량의 차에 좌우된다. 그러나, 실제 디지탈 시스템에서, 주파수 대역에서의 양자화 잡음이 극히 듣기 쉽다면 16 비트 동적 범위의 음악으로 들어가는 차이가 없기에 4KHz의 근저에서 들을 수 없다는 것을 이해하고, 최소 가청 한계 곡선의 레벨보다 더 작은 양자화 잡음은 다른 주파수 대역에서 들을 수 없다.
따라서, 예를 들어 시스템이 갖는 4KHz의 워드 길이 근처에서의 잡음이 들리지 않는 사용 방법이 적용된다고 가정할 때, 최소 가청 곡선 (RC)과 마스킹 스펙트럼(MS)가 합성되어 허용된 잡음 레벨을 제공하고 이경우에 허용된 잡음 레벨이 제9도의 경사선으로 표시된 부분일 수 있다. 상기 실시예에서, 4KHz의 최소 가청 곡선의 레벨이 예를 들어 20비트에 대응하는 최소 레벨과 일치한다. 제9도에서, 신호 스펙트럼이 함께 나타난다.
더우기, 보정 정보 출력 회로(333)로부터 보내진 동일-고음 곡선의 정보에 근거하여 허용된 잡음 정정 회로(330)값 감산기 (328)로부터 출력된 허용된 잡음 레벨을 보정한다.
여기서, 동일-고음 곡선은 인간의 청각 특성에 관한 특성 곡선이다. 이러한 동일 고음 곡선은 곡선에 의해 연결하도록 예를 들어 1KHz 의 순수한 음성과 동일한 피치로 들을 수 있는 각각의 주파수에서의 음성 압력을 결정하여 얻어지고 역시 고음의 동일-강도 곡선으로 불린다. 더우기, 이러한 동일-고음 곡선은 실제로 제9도에 도시된 최소 가청 곡선(RC) 같은 동일한 곡선을 기술한다. 이러한 동일-고음 곡선에서 예를들어 4KHz의 근처에서 음성 압력이 1KHz에서의 것과 비교하여 8-l0dB 만큼 낮을지라도 음성은 1KHz에서의 것과 같은 동일한 크기(반경)로 들을 수 있다. 대비하여, 50kHz의 근처에서 음성 압력이 1KHz에서의 음성 압력보다 약 15dB만큼 더 높지 않다면 그러한 음성은 동일한 크기(피치)의 소리 만큼 들을 수 없다. 이러한 이유로, 최소 가청 곡선의 레벨 이상의 잡음은 동일-크기 곡선에 대응하는 곡선으로 주어진 주파수 특성을 갖도록 하는 것을 알 수 있다. 상기 사실로부터, 동일-크기 곡선을 고려하여 허용된 잡음 레벨을 정정하는 방법의 적용은 인간의 청각 특성과 일치한다는 것을 알 수 있다.
반면에, 상기 실시예의 인코딩 장치에서, 비디오 신호와 음성 신호의 상기 압축-인코딩에서 할당된 비트 번호 결정시, 하기의 방법이 실행되어 화상과 음성에 대해 적당한 압축 인코딩이 허용된다.
즉, 본 발명에 따른 실시예의 인코딩 장치에서, 인코딩 제어 회로(15V)는 디지탈 비디오 신호의 특성 뿐 아니라 이때에 디지탈 음성 신호를 부가하기 위하여 압축 인코딩 회로(12V)에서 인코딩 처리시 할당된 비트 번호를 결정한다. 더우기, 할당 비트 번호의 결정에서, 역시 버퍼 메모리(13)로부터 출력된 디지탈 비디오 신호의 전송율이 결정된 타겟값과 동일하게 되는 것을 고려한다.
초기에, 디지탈 비디오 신호의 전송율을 허용하기 위해, 버퍼 메모리 (13V)의 출력이 제10도에 도시된 구조의 인코딩 제어 회로(15V)의 단자(410)에 나온다.
이러한 인코딩 제어 회로(15V)에서, 버퍼 메모리 (13V)로 부터 나온 데이타 량이 데이타 량 계산 회로(412)에 의해 계산된다. 이렇게, 전송율이 결정된다. 에러 검출 회로(413)에서, 전송율이 타겟값(단자 14에 계속 연결된 전송 통로의 전송율) 인지 아닌지가 판정된다. 데이타 량이 타겟 값과 동일하지 않다면, 후술되는 단자(416)를 통해 나온 디지탈 비디오 신호와 디지탈 음성 신호의 특성과 에러 량에 근거하여 연속 스테이지의 정정값 결정 회로(414)에서 적당히 할당된 비트 번호가 압축 인코딩 회로(12V)에서 결정된다. 정정값 결정 회로(414)로부터의 신호가 단자(420)를 통한 제어 신호로서 압축 인코딩 회로 (12V)에 보내진다.
구조는 디지탈 음성 신호에 대한 것과 역시 유사하다. 인코딩 제어 회로(15A)는 제10도의 것과 유사한 구조를 갖고 버퍼 메모리 (13A)로부터의 데이타 량을 계산하고, 단자(416)를 통해 나온 디지탈 음성 신호와 디지탈 비디오 신호의 특성이 고려되는 특성과, 타겟 값과 전송율 사이의 에러량에 근거하여 압축 인코딩 회로(12A)에서 인코딩 처리시 적당히 할당된 비트 번호를 결정하도록 전송율을 결정한다. 인코딩 제어 회로(15A)의 정정값 결정 회로(414)로부터의 신호가 단자(430)를 통한 제어 신호로서 압축 인코딩 회로 (12A)에 보내진다.
상기 실시예에서, 디지탈 비디오 신호와 디지탈 음성 신호의 특성이 각각의 동작 결정에 의해 검출된다.
제1도로 되돌아가, 번호(20)는 제1특성 검출 수단으로서 비디오 신호의 동작을 결정하는 회로를 나타내고 번호(30)는 제2특성 검출 수단으로서 음성 신호의 동작을 결정하는 회로를 나타낸다.
비디오 신호의 동작을 결정하는 비디오 신호 동작 검출 회로(20)는 비디오 신호 공간과 시간의 변화를 검출한다. 즉, 입력 단자(11V)로 공급된 디지탈 비디오 신호는 감산 회로(22)로 나온다. 더욱이, 그러한 디지탈 비디오 신호는 프레임 메모리(21)에 의해 한개 프레임씩 지연되어 동작 회로(22)로 들어간다. 이렇게, 두개 프레임 사이의 변화가 이러한 감산 회로(22)로부터 얻어지고 이 시점의 변화가 비-선형 회로(27)로 나온다.
더우기, 입력 단자(11V)로 나온 디지탈 비디오 신호가 감산 회로(24)로 나온다. 더우기, 그러한 디지탈 비디오 신호가 라인 메모리(23)에 의해 한개 라인씩 지연되어 감산 회로(24)로 나온다. 이렇게, 두개 라인 사이의 변화가 감산 회로(24)로부터 얻어지고 공간상의 변화가 비-선형 회로(27)로 나온다.
더우기, 입력 단자(11V)로 나온 디지탈 비디오 신호가 감산 회로 (26)로 나온다. 그러한 디지탈 비디오 신호가 샘플 메모리(25)에 의해 한개 픽셀씩 지연되어 감산 회로(26)로 나온다.
이렇게, 그 픽셀 사이의 변화가 감산 회로(24)로부터 얻어지고 공간상 그 지점의 변화가 비선형-회로(27)로 나온다.
비선형 회로 (27)는 예를들어 경험칙(experience rule)에 따라 결정된 비-선형 계수를 유지하는 ROM 테이블을 갖고 이러한 비-선형 계수를 합성하는데 이용하므로서 감산 회로(22, 24, 26)로부터의 시간 점의 변화와 공간점의 변화에 가중치를 부가한다. 그것의 합성 출력은 비디오 신호의 동작의 검출 출부으로서 동작 검출 회로(20)로부터 얻어진다.
동작 검출 회로(20)로부터의 비디오 신호 동작의 검출 출력은 합성 수단으로서 합성 회로(44)로 나와서 가중 회로(41)에 대해 단자(46)로부터 소정의 가중 계수가 승산되고 합성 수단으로서 유사하게 작동하는 합성 회로(43)에 나간다.
반면에, 제2특성 검출 수단으로서 음성 신호의 동작을 결정하는 음성 신호 동작 결정 회로(30)는 인간의 청각 특징을 허용하도록 만들어진다. 이러한 회로는 역시 음성 신호의 공간과 시간 변화를 결정한다. 동작 검출 회로(30)에서 음성 신호의 동작은 인간의 성각이 주파수 영역에서의 크기에 민감하지만 위상에 대해서는 상당히 둔감하다는 사실을 이용하므로서 검출된다는 것을 알아야 한다.
즉, 음성 신호 동작 검출 회로(30)에서, 입력 단자(11A)를 통해 유인된 디지탈 음성 신호가 크기 정보 발생 회로(31)로 나온다. 이러한 크기 정보 발생 회로(31)는 제11도에 도시된 데로 단자(240)로 나온 디지탈 음성 신호로의 급속 푸리에 환란(FFT)을 구현하는 급속 푸리에 변환 회로(211)와, 금속 푸리에 변한 회로(211)에서 급속 푸리에 변환 처리 결과로서 얻어진 FFT 계수의 허수 성분 값과 실수 성분값 Re 으로부터의 디지탈 음성 신호의 진폭 정보 (Am)를 형성하는 진폭 위상 정보 발생 회로(212)로 이루어진다.
진폭 정보 발생 회로(31)의 단자(241)로부터 출력된 진폭값 정보 Am은 에너지 검출 수단으로서 바아크 스펙트럼 형성 회로(32)로 나온다. 이러한 바아크 스펙트럼 형성 회로(32)는 제12도에 도시된데로 만들어지고, 먼저 진폭값 정보(Am)를 대역 분할 회로(213)에 의해 임계 대역으로 분할한다.
대역 분할 회로(213)에 계속되는 각 대역의 에너지 총합을 검출하는 회로(214)에서, 대역 분할 회로(213)에 의해 분할된 각 대역의 에너지 (각 대역에서의 각각의 스펙트럼 세기)가 각각의 대역내의 진폭값 Am 합계 (피크값 또는 진폭값 Am의 평균값 또는 에너지의 총합)를 계산하므로서 결정된다.
바아크 스펙트럼 형성 회로(32)의 출력은 단자(243)를 통해 컨버루션 회로(33)로 나온다. 상기 컨버루션 회로(33)에서, 소위 바아크 스펙트럼 SB의 마스킹(음성 마스킹)에 영향을 주기 위해 소정의 가중 함수(weighting function)가 바아크 스펙트럼(SB)으로 회선된다.
이러한 컨버루션 회로(33)는 예를들어 제7도의 것과 유사한 FIR 필터로 이루어진다.
그러면, 컨버루션 회로(33)의 출력은 음성 신호 동작의 검출 출력으로서 음성 신호 동작 검출 회로(30)로부터 얻어진다. 검출 회로(30)로부터의 음성 신호의 동작의 검출 출력은 합성 수단으로서 합성 회로(43)로 나오고 가중 회로(42)를 통해 합성 회로(44)로 나와서 단자(45)로부터 나온 소정의 가중 계수의 승산을 실행하도록 가중된다.
다음에, 합성 회로(43)의 출력은 인코딩 제어 회로(15V)로 나오고 합성 회로(44)의 출력은 인코딩 제어 회로(15A)로 나온다.
압축 인코딩 회로(12V, 12A)는 압축-인코딩 디지탈 비디오 신호와 디지탈 음성 신호의 할당된 비트 번호가 제어되도록 인코딩 제어 회로(15V, 15A)로부터의 제어 신호를 수신하여 동작한다. 즉, 압축 인코딩 회로(12V, 12A)에서, 디지탈 비디오 신호와 디지탈 음성 신호의 신호 특성과 이러한 예에서의 동작이 판단된다. 이렇게, 디지탈 비디오 신호와 디지탈 음성 신호에 각각 적당한 압축 인코딩 처리가 실행된다.
버퍼 메모리(13V, 13A)로부터의 비디오 신호 데이터와 음성 신호 데이타 전송율이 각각의 타겟값과 동일하게 되도록 조정하기 위하여 할당된 비트 번호를 제어하도록 이전에 기술된 인코딩 제어 회로(15A)로부터의 제어 신호를 수신하도록 역시 압축 인코딩 회로(12A, 12V)가 동작한다.
본 발명에 따른 이러한 실시예의 인코딩 장치에서, 버퍼 메모리(13V, 13A)의 데이터 량과 상기의 디지탈 비디오 신호와 디지탈 음성 신호의 특징에 근거하여 압축 인코딩으로 할당된 비트 번호가 적절화된다. 이렇게, 제13도에 도시된 정보량 전송의 적절화가 이루어질 수 있다.
즉, 제1도의 출력 단자(14V, 14A)에 계속되는 전송 통로에서의 전송율(정보량 전송)이 제13도에 R 로 나타난 보통의 고정된 전송율이 되도록 한다. 좀더 상세히, 전송율이 비디오 신호에 대한 제13도의 rv로 나타나도록 하고 전송율이 음성 신호에 대해 제13도에 ra로 나타나도록 한다. 반대로, 본 발명에 따른 실시예의 인코딩 장치에 따라, 동작과 마스킹의 검출된 결과를 고려하므로서 도면에서 R로 나타난 고정된 전송율내에 음성 신호의 전송율 ra과 비디오 신호의 전송율 rv사이의 비율을 변화시키도록 하는 체계가 적용된다.
예를 들어, 비디오 신호의 작동이 큰 시간 주기 T1 또는 T2에서, 비디오 신호에 대한 전송 정보량이 반드시 증가된다. 그러나, 이러한 비디오 신호 자체가 마스크 되기에, 비디오 신호의 압축 효율이 높게 되어 전송 정보량을 감소시킨는 것을 가능하도록 한다. 게다가, 인간의 관심이 화상에 향하기에, 전송 정보량이 음성 신호에 대한 도면에서 C1 또는 C2로 나타나듯이 감소될 수 있다. 대비하여, 음성 신호의 동작이 큰 시간 주기 T3 에서, 음성 신호에 대한 전송 정보량이 증가된다. 그러나, 음성 신호의 압축 효율이 음성 신호 자체의 마스킹 효과에 의해 높아져서 전송 정보량을 감소시키는 것이 가능하게 된다. 게다가, 이때에 인간의 관심이 음성에 있기에, 전송 정보량은 비디오 신호에 대한 도면에서 C3로 나타나듯이 감소될 수 있다. 그 결과, 전체 전송율은 제13도에서 R로 나타나듯이 고정될 수 있다. 더우기, 커다란 정보량이 비디오 신호에서 필요한 시간 주기에서 정보량이 비디오 신호에 더 크게 할당되고, 음성 신호에 대한 정보량이 감소되더라도 눈에 띄지 않게 음성 신호의 저하가 허용된다. 게다가, 커다란 정보량이 음성 신호에 필요한 시간 주기에서, 더 큰 정보량이 음성 신호에 할당될지라도, 비디오 신호의 저하가 눈에 띄지 않게 허용된다. 따라서, 관심이 인간의 시청각의 판점에서 화상으로 유인될 때, 영상의 화질은 향상될 수 있어서 인간은 음성(음성 신호)의 저하를 느끼지 않게 된다. 대비하여, 관심이 음성에 유인될 때, 음질은 개선될 수 있어서 인간은 화상의 저하를 느끼지 않게 된다.
비디오 신호의 압축 인코딩의 다른 실시예가 이제 제14도를 참고로 기술된다. 제14도의 예에서, MPEG(기억 이동화상 인코딩)가 이동화상의 표시 인코딩 시스템으로 적용된다. 이러한 시스템은 ISO-IEC/JIC1/SC2/WG11에서 기술되고 표준안으로서 제안된다. 움직임 보상의 예측 인코딩 및 DCT(이산 코사인 변환)인코딩이 조합되는 하이브리드 시스템이 적용된다.
제14도에서, 제1도의 입력 단자(11V)로 나온 인코드될 화상 데이타가 입력 단자(349)를 통해 매크로 블럭(macro block)으로 움직임 벡터 검출 회로(350)로 입력된다. 움직임 벡터 검출 회로(350)는 설정된 소정의 절차에 따라 I 화상(내부-코딩된 화상), p 화상(예측-코딩된 화상) 및 B 화상(양방향 코딩된 화상) 중 하나로서 각각의 프레임의 화상 데이타를 처리한다. 계속적으로 입력된 각 프레임의 화상은 이미 결정된 어떤 화상 유형의 I, P, B로서 처리된다.
I 화상으로서 처리된 프레임의 화상 데이타는 움직임 벡터 검출 회로(350)로부터 프레임 메모리(351)내의 순방향 원래 화상으로 전송되고, 거기에 기억된다. B 화상으로서 처리된 프레임의 화상 데이타는 원래 화상 영역(기준 원래 화상 영역)에 전송되어 거기에 기억된다. P화상으로서 처리된 프레임의 화상 데이타는 원래 화상 영역으로 전송되어 거기에 기억된다.
후속 타이밍에서, 더우기 B 화상 또는 P 화상으로서 처리될 화상의 프레임이 입력될 때, 그때까지 후방 원래 화상 영역에 기억된 P 화상의 제 1 화상 데이타가 원래 순방향 화상 영역으로 전송되고 B 화상의 다음 화상 데이타가 원래 화상 영역으로 기억(중복 기재)되고 P화상의 다음 화상 데이타가 원래 후방 화상 영역으로 기억(중복 기재)된다. 그러한 동작은 계속하여 반복된다.
프레임 메모리 (351)에 기억된 각각의 화상의 신호가 거기로부터 판독된다. 예측 모드 스위칭 회로(352)에서, 프레임 예측 모드 처리 또는 필드 예측 모드 처리에 실행된다. 더욱이, 예측 판단 회로(354)의 제어하에 동작부분(353)에서 내부-코딩 모드에 의한 동작, 순방향 예측 모드, 후방 예측 모드 또는 양방향 예측 모드가 실행된다. 이러한 처리중 하나가 실행되는 어떤 것은 예측 에러 신호(처리에 따른 기준 화상과 대응하는 예측 화상 사이의 차이)에 일치하는 매크로 블럭 유닛에서 결정된다. 이것을 구현하기 위해, 움직임 벡터 검출 회로(350)는 매크로 블럭 단위로 예측 에러 신호에 대응하는 내부 코딩 모드의 평가 값과 상기 판단에 대해 사용되는 예측 에러 신호의 절대값 합(또는 평균합)을 발생한다.
여기서, 프레임 예측 모드가 설정되는 경우에, 예측 모드 스위칭 회로(352)는 움직임 벡터 검출 회로(350)로부터 그들이 있는 연속 스테이지의 동작부(353)까지 발생된 4개 휘도 블럭을 출력한다. 이러한 프레임 예측 모드에서, 예측이 한개단위인 4개 휘도 블럭(매크로 블럭)에 실행되고, 한개 움직임 벡터가 4개 휘도 블럭에 대응한다.
반면에, 필드 예측 모드가 설정되는 경우에 예측 모드 스위칭 회로(352)가 움직임 벡터 검출 회로(350)로부터 입력된 신호에 4개 휘도 블럭중 두개 휘도 블럭이 홀수 필드의 오직 점선으로 이루어지고 다른 두개 휘도 블럭이 동작부(353)에 처리된 신호를 출력하도록 짝수 필드 라인의 데이타로 이루어지도록 하는 처리를 구현한다. 이런 경우에 한개 움직임 벡터가 홀수 필드로 이루어진 두개 휘도 블럭에 대응하도록 하고 다른 한개 움직임 벡터가 짝수 필드로 이루어진 두개 휘도 블럭에 대응하도록 한다.
칼라 차이 신호에 대해 프레임 예측 모드의 경우에, 짝수 필드의 데이타 라인과 홀수 필드의 데이타 라인이 혼합되는 동작부(353)로 그러한 칼라 차이 신호가 나온다. 더우기, 필드 예측 모드의 경우에, 상위 반(4라인)의 각각의 칼라 차이 블럭이 홀수 필드의 휘도 블럭에 대응하는 홀수 필드의 칼라 차이 신호 이도록 하고 더 낮은 반(4 라인)이 짝수 필드와 휘도 블럭에 대응하는 짝수 필드의 칼라 차이 신호이도록 한다.
더우기, 움직임 벡터 검출 신호(357)가 다음과 같이 동작한다. 즉, 상기 회로(350)는 매크로 블럭 단위로 내부 코딩 모드, 순방향 예측 모드, 후방 예측 모드 및 양방향 예측 모드로 실행되도록 모드를 결정하고 예측 판단 회로(354)에서 매크로 블럭에 대해 프레임 예측 모드와 필드 예측 모드가 실행되도록 처리하는 내부 코딩 모드의 평가 값과 각 예측 에러의 절대값 합을 발생한다.
즉, 내부 코딩 모드의 평가 값으로서, 움직임 벡터 검출 회로(350)는 지금부터 인코드될 기준 화상의 매크로 블럭의 신호 (Aij)와 그들의 평균 값 사이의 차이의 절대값 합 : Aij-(Aij의 평균값): 을 결정(계산)한다. 더우기, 움직임 벡터 검출 회로(350)는 순방향 예측의 예측 에러의 절대값 합으로서 기준 화상의 매크로 블럭의 신호(Aij)와 예측 화상의 매크로 블럭의 신호 (Bij) 사이의 차이 (Aij-Bij)의 절대값 |Aij-Bij|의 합 ≤ |Aij-Bij|을 결정(계산)한다.
게다가, 움직임 벡터 검출 회로(350)는 역시 순방향 예측에서의 경우와 유사하게 프레임 예측 모드와 필드 예측 모드의 경우에 대한 후방 예측 및 양방향 예측의 예측 에러의 절대값 합을 결정(계산)한다.(그들의 예측 화상은 후방 예측의 경우와 다른 예측 화상으로 변한다.)
이러한 절대 값 합은 예측 판정 회로 (354)로 나온다. 이러한 예측 판정 회로(354)는 내부 예측의 예측 에러의 절대값 합으로서 프레임 예측 모드와 필드 예측 모드에서 전방 예측, 후방 예측 및 양방향 예측의 예측 에러의 절대 값 합의 최소값을 선택한다. 더우기, 예측 판정 회로(354)는 내부 인코딩 모드의 평가 값과 내부 예측의 예측 에러의 절대 값 합을 비교하여 예측 모드 및 프레임/필드 예측 모드로서 선택된 값에 대응하는 모드를 선택하도록 더 작은 것을 선택한다. 즉, 내부 코딩 모드의 평가 값이 더 작다면, 내부 코딩 모드가 설정된다. 반면에, 내부 예측의 예측 에러의 절대 값 합이 더 작다면, 해당하는 절대 값 합이 후방 예측, 전방 예측 및 양방향 예측 모드 사이에 최소인 모드가 예측 모드와 프레임/필드 예측 모드로서 설정된다.
상기에서, 예측 모드 스위칭 회로(352)는 프레임자 필드 예측 모드의 예측 판정 회로(354)에 의해 선택된 모드에 대응하는 데이타로서 동작부(353)에 기준 화상의 매크로 블럭의 신호를 낸다. 더우기, 움직임 벡터 검출 회로(350)는 예측 판정 회로(354)에 의해 선택된 예측 모드에 대응하는 예측 화상과, 나중에 기술될 움직임 보상 회로(364)와 가변 길이 인코딩(코딩) 회로(358)에 그것을 내는 기준 화상 사이의 움직임 벡터를 출력한다. 대응하는 예측 에러의 절대값 합이 최소가 되는 움직임 벡터가 움직임 벡터로서 선택되는 것을 알아야 한다.
움직임 벡터 검출 회로(350)가 전방의 원래 화상 영역으로부터 I화상의 화상 데이타를 읽을 때 예측 판정 회로(354)는 예측 모드로서 내부 코딩 모드(움직임 보상이 실행되지 않는 모드)를 설정한다. 이렇게, I 화상의 화상 데이타가 동작부(355)로부터 DCT 모드 스위칭 회로(355)로 입력된다.
이러한 DCT 모드 스위칭 회로(355)는 짝수 필드의 라인과 홀수 필드의 라인이 혼합되거나(프레임 DCT모드) 그들이 분리되는(필드 DCT 모드) 상태에서 4개 휘도 블럭의 데이타를 DCT 회로(352)에 출력한다.
즉, DCT 모드 스위칭 회로(355)는 DCT 처리가 홀수 필드의 데이타로 실행되고 짝수 필드가 혼합되는 경우의 인코딩 효율과, 더 높은 인코딩 효율의 모드를 선택하도록 그러한 데이타가 분리되어 DCT처리가 실행되는 경우의 인코딩 효율을 비교한다. 예를들어, 절대값의 합(평균 합)을 결정하도록 유사하게 인접한 짝수 필드의 라인의 신호와 더 높고 더 낮은 방향에 인접한 짝수 필드의 라인의 신호 사이의 차이를 계산하도록 짝수 필드와 홀수 필드의 라인이 혼합되는 식의 구조가 되도륵 하는 것이다. 각각의 절대값의 합(또는 평방합)을 결정하도록 짝수 필드의 라인의 신호 사이의 차이와 더높고 더낮은 방향에 인접한 홀수 필드의 라인의 신호 사이의 차이를 계산하도록 짝수 필드와 홀수 필드의 라인이 분리되는 식의 구조의 입력 신호가 된다. 더우기, 앙쪽 합(절대값 합)이 더 작은 값에 대응하는 DCT 모드를 설정하도록 비교된다. 즉, 전자가 더 작다면 프레임 DCT 모드가 설정된다. 대비하여 후자가 더 작다면, 필드 DCT 모드가 설정된다.
선택된 DCT 모드에 대응하는 구조의 데이터가 DCT회로(356)에 출력되고 선택된 DCT 모드를 가르키는 DCT플랙이 가변 길이 인코딩 회로(358)로 출력된다.
DCT모드 스위칭 회로(355)에서 DCT 모드와 예측 모드 스위칭 회로(352)에서의 프레임/필드 예측 모드 사이의 비교로부터 명백하듯이, 각각의 모드의 데이터 구조가 휘도 블록에 대해 실제로 동일하다.
예측 모드 스위칭 회로(352)에서, 프레임 예측 모드(짝수 라인과 홀수 라인이 혼합되는)가 선택되는 경우에 프레임 DCT 모드가 역시 DCT 스위칭 회로(355)에서 선택되는 가능성이 높다. 더욱이, 예측 모드 스위칭 회로(352)에서, 필드 예측 모드(짝수 필드와 홀드 필드의 데이타가 분리되는 모드)가 선택되는 경우에, 필드 DCT 모드(짝수 필드와 홀수 필드의 데이터가 분리되는 모드)가 선택될 가능성이 높다.
그러나, 그러한 선택은 전부 반드시 실행되지 않는다. 예측 모드 스위칭 회로(352)에서, 예측 에러의 절대값 합이 작게되도록 모드가 결정된다. DCT 모드 스위칭 회로(355)에서, 인코딩 효율이 만족하게 되는 모드가 결정된다.
DCT 모드 스위칭 회로(355)로부터 출력된 I 화상의 화상 데이타가 DCT 회로(356)로 입력된다. 이렇게 DCT 계수로 변환되도록 그러한 화상 데이타가 DCT 처리를 실행한다. 양자화가 버퍼 DCT 메모리(13V)에 대응하는 전송 버퍼(359)의 데이타 기억량(버퍼 기억량)에 근거한 양자화 단계에서 구현되는 양자화 회로(357)로 입력되고 단자(380)를 통해 제1도의 합성 회로(44)로부터의 신호로 공급된 인코딩 제어 회로(15V)에 의해 결정된 동작이 고려된다. 그리하여, 이렇게 양자화된 데이타가 가변 길이 인코딩 회로(358)로 입력된다.
가변 길이 인코딩 회로(358)는 양자화 회로(357)로부터 나온 화상 데이타(이경우에 I 화상의 데이타)를 전송 버퍼 (359)에 출력하도록 양자화 회로(357)로부터 나온 양자화 단계 (스케일)에 따라 가변 길이 코드 즉 호프만 코드(Huffman code)로 변환한다.
가변 길이 인코딩 회로(358)는 역시 양자화 회로(357)로 부터의 양자화 단계(스케일),예측 판정 회로(354)로부터의 예측 모드(내부 코딩 모드의 모드를 가르키는 모드, 후방 예측 모드 및 양방향 예측 모드가 설정된다), 움직임 벡터 검출 회로(350)로 부터의 움직임 벡터, 예측 판정 회로(54)로부터의 예측 플랙(플랙 예측 모드 또는 필드 예측 모드가 설정되는 것을 가르키는 플랙), DCT 모드 스위칭 회로(355)가 출력하는 DCT 플랙 (프레임 모드 또는 필드 DCT 모드가 설정되는 것을 가르키는 플랙)이 역시 공급된다.
전송 버퍼(359)는 인코딩 제어 회로(15V)를 통해 양자화 회로(357)에 기억량에 대응하는 출력 데이타로 입력된 데이타를 기억한다.
전송 버퍼(359)에 기억된 데이타는 소정의 타이밍으로 판독되고 출력단자(369)를 통해 전송 통로로 출력된다.
반면에, 양자화 회로(357)로부터 출력된 I 화상의 데이터는 역양자화 회로(360)로 입력되고 양자화 회로(357)로부터 나온 양자화 단계에 일치하여 역-양자화 된다. 역 양자화 회로(360)의 출력은 IDCT(역 DCT)회로(361)로 입력되고, 역 DCT 처리를 하도록 한다. 이렇게 처리된 데이타는 작동 소자(362)틀 통해 프레임 메모리(363)의 전방 예측 화상 영역으로 가서 거기에 기억된다.
그동안에, 움직임 벡터 검출 회로(350)가 I, B, P, B, P, B 의 화상으로서 연속으로 입력된 각각의 프레임의 화상 데이타를 처리하는 경우에, P 화상으로서 계속 입력된 프레임의 화상 데이타, B 화상으로서 계속 입력된 프레임의 화상을 처리하기 전에 그것은 I 화상으로서 초기에 입력된 프레임의 화상 데이타를 처리한다. 이것은 P 화상이 계속 후방 예측 화상으로서 준비되면 B 화상이 후방 예측과 양방향 예측으로 종속되기에 그러한 B 화상을 디코드할 수 없기 때문이다.
상기의 관점에서, 움직임 벡터 검출 회로(350)는 I 화상의 처리에 계속하여 프레임 메모리(363)의 후방 원래 화상 영역에 기억된 P 화상의 화상 데이타 처리를 시작한다. 그러면, 상기 경우와 유사하게, 매크로 블럭 단위로 내부 코딩 모드의 평가 값과 내부 프레임 차이(예측 에러)의 절대 값 합계가 움직임 벡터 검출 회로(350)로부터 예측 판정 회로(354)까지 나온다. 매크로 블록 단위로 예측 판정 회로(354)는 프레임 예측 모드와 필드 예측 모드중 어떤 것, P 화상의 매크로 블럭의 예측 에러의 절대값 합과 내부 코딩 모드의 평가값과 일치하는 내부 코딩 모드와 전방 예측 모드중의 어떤 모드를 설정한다.
내부 코딩 모드가 설정될 때 작동부(353)는 DCT 회로(356)를 통해 전송 통로로 그것을 전송하는 I화상의 데이타와 유사한 DCT 모드 스위칭 회로(355), 양자화 회로(357), 가변 길이 인코딩 회로(358)및 전송 버퍼(359)로 데이타를 보낸다. 더우기, 역 양자화 회로(360), IDCT 회로(361), 및 작동 소자(302)를 통해 프레임 메모리(363)의 후방 예측 화상 영역으로 이러한 데이타가 나와서 거기에 기억된다.
반면에, 전방 예측 모드가 설정될 때, 프레임 메모리(363)의 전방 예측 화상 영역에 기억된 화상(이 경우에 I 화상의 화상) 데이타가 판독되고 움직임 벡터 검출 회로(350)가 출력하는 움직임 벡터에 일치하는 움직임 보상 회로(364)에 의해 움직임-보상된다. 즉, 전방 예측 모드의 설정이 예측 판정 회로 (354)로 부터 가르켜질때 움직임 벡터 검출 회로(350)가 이제 출력하는 매크로 블럭의 위치에 대응하는 위치로부터 움직임 벡터에 대응하는 거리에 의해 이동되는 판독 메모리(363)의 전방 예측 영역의 판독 어드레스를 갖는 데이타를 움직임 보상 회로(364)는 판독하여 예측 화상 데이타를 발생한다.
움직임 보상 회로 (364)로부터 출력된 예측 화상 데이터가 작동 소자(353)로 나온다. 이러한 작동 소자(353)는 움직임 보상 회로(304)로부터 나온 매크로 블럭에 대응하는 예측 화상 데이타를, 예측 모드 스위칭 회로 (352)로부터 나온 기준 화상의 매크로블럭의 데이타로부터 감산하여 그 차이 (예측 에러)를 출력한다. 이러한 차이 데이타는 DCT 모드 스위칭 회로(355), DCT 회로(356), 양자화 회로(357), 가변 길이 인코딩 회로(358) 및 전송 버퍼(359)를 통한 전송 통로로 전송된다. 더우기, 이러한 차이 데이타는 역 양자화 회로(360)와 IDCT 회로 (361)에 의해 국부적으로 디코드된다. 이렇게 디코드된 데이타는 동작 소자(362)로 입력된다.
이러한 동작 소자(362)는 역시 동작 소자(353)로 공급된 예측 화상 데이타와 같은 데이타가 공급된다. 이러한 동작 소자(362)는 IDCT 회로(301)가 출력하는 차이 데이타에 움직임 보상 회로(364)가 출력하는 예측 화상 데이타를 가산한다.
이렇게, 원래(디코드된) P 화상의 화상 데이타가 얻어진다. 이러한 P 화상의 화상 데이타가 프레임 메모리(363)의 후방 예측 화상 영역에 나와서 그속에 기억된다. IDCT 회로가 출력하는 차이 데이타의 데이타 구조가 동작 소자(352)로 나오고 예측 화상 데이타의 데이타 구조가 실제 동일하기에 프레임/필드 예측 모드와 프레임/필드 DCT 모드가 다른 경우에 대해 데이타 속행을 실행하는 회로가 준비될 필요가 있지만 그에 관한 설명은 생략한다.
I 화상과 P 화상의 데이타가 상기의 방식대로 프레임 메모리(363)의 후방 예측 화상 영역과 전방 예측 화상 영역에 각각 기억된 후에, 움직임 벡터 검출 회로(350)가 B화상의 처리를 실행한다.
예측 판정 회로 (354)가 매크로블럭 단위인 내부 프레임 차이의 절대 값 합과 내부 코딩 모드의 평가 값의 크기에 프레임/필드 예측 모드를 설정하고 내부 코딩 모드, 전방 예측 모드, 후방 예측 모드 및 양방향 예측 모드중 하나에 예측 모드를 설정한다.
위에 설명된 것처럼 내부 코딩 모드 또는 후방 예측 모드가 설정될 때, P 화상의 경우와 유사한 처리가 실행된다. 이렇게 데이타가 전송된다.
반대로, 후방 예측 모드가 설정될 때, 프레임 메모리(363)의 후방 예측 화상 영역에 기억된 화상(이 경우에 P 화상의 화상)이 판독된다. 움직임 벡터 검출 회로 (350)가 출력하는 움직임 벡터와 일치하는 움직임 보상 회로(64)에 의해 이렇게 판독된 화상이 움직임-보상된다. 즉, 후방 예측 모드의 설정이 예측 판정 회로(354)로부터 인도될 때, 움직임 벡터 검출 회로 (350)가 이제 출력하는 매크로 블럭의 위치에 대응하는 위치로 부터 움직임 벡터에 대응하는 거리만큼 이동되는 프레임 메모리(363)의 후방 예측 화상 영역의 판독 어드레스를 갖는 데이타를 움직임 보상 회로(364)는 판독하여 예측 화상 데이타를 발생한다.
움직임 보상 회로(364)로부터 출력된 예측 화상 데이터는 동작 소자(353)로 나온다. 이러한 동작 소자(353)는 움직임 보상 회로(364)로부터 나온 예측 화상 데이타를 예측 모드 스위칭 회로(352)에서 나온 기준 화상의 매크로 블럭의 데이타로 부터 감산한다. 이러한 차이 데이타는 DCT모드 스위칭 회로(355), DCT 회로(356), 양자화 회로(357), 가변 길이 인코딩 회로(355)와 전송 버퍼(359)를 통해 전송 통로로 전송된다.
양방향 예측 모드가 설정될 때 전방 예측 화상 영역에 기억된 화상(이 경우 I 화상의 화상) 데이타와 프레임 메모리(363)의 후방 예측 화상 영역에 기억된 화상(이경우 P 화상의 화상)가 판독되고 움직임 보상 회로(364)에 의해 움직임 벡터 검출 회로(350)가 출력하는 움직임 벡터에 따라 움직임-보상된다.
즉, 양방향 예측 모드의 설정이 예측 판정 회로(354)로부터 인도될 때, 움직임 벡터 검출 회로(350)가 이제 출력하는 매크로 블럭의 위치에 대응하는 위치로부터 움직임 벡터에 의해 이동된 프레임 메모리(363)의 후방 예측 화상 영역과 전방 예측 화상 영역(이 경우에, 프레임 예측 모드의 경우에 전방 예측 화상과 후방 예측 화상에 대한 두개 움직임 벡터와, 필드 예측 모드의 경우에 후방 예측 화상에 대한 두개 음직임 벡터와 전방 예측 화상에 대한 두개 움직임 벡터의 합인 4개 움직임 벡터)의 판독 어드레스를 갖는 데이타를 움직임 보상 회로(364)가 판독하여 예측 화상 데이타를 발생한다. 움직임 보상 회로(364)로부터 출력된 예측 화상 데이타가 작동 소자(353)로 나온다. 이러한 작동 소자(353)는 움직임 벡터 검출 회로(350)로부터 나온 기준 화상의 매크로 블럭의 데이타로부터, 움직임 보상 회로(364)에서 나온 예측 화상 데이타의 평균값을 감산하여 그 차이를 출력한다. 이러한 차이 데이타는 DCT 모드 스위칭 회로(355), DCT 회로(350), 양자화 회로(357), 가변 길이 인코딩 회로(355), 및 전송 버퍼(359)를 통해 전송 통로로 전송된다.
B 화상의 화상이 다른 화상의 예측 화상이 되는 가능성이 없기에 그러한 화상은 프레임 메모리(363)에 기억되지 않는다.
프레임 메모리(363)에서 전방 예측 화상 영역과 후방 예측 화상이 기회에 따른 요구로서 뱅크 스위칭(bank switching)을 하도록 하여서, 하나 또는 다른 화상 영역에 기억된 화상 데이타가 소정의 기준 화상에 대해 순방향 예측 화상 또는 후방 예측 화상으로서 선택적으로 출력될 수 있다는 것을 인지해야 한다.
설명이 휘도 블럭과 연관하여 주로 주어지기에, 칼라 차이 블럭은 유사하게 한개 단위인 매크로 블럭으로 처리되어 전송된다. 칼라 차이 블럭을 처리하는 경우의 움직임 벡터처럼, 대응하는 휘도 블럭의 움직임 벡터가 수평 및 수직 방향으로 각각 1/2이 되도록 함으로서 얻어진 움직임 벡터가 이용된다는 것을 알 수 있다.
비디오 신호와 음성 신호의 자극 레벨이 상기 실시예에서의 신호 동작처럼 검출되는 동안에, 이러한 자극이 화상 또는 음성의 내용에 따라 변하기 때문에 그 내용에 좌우되어 신호의 특징과 할당된 정보량 사이의 관계를 결정하는 접근 방법이 적용된다. 예를들어, 조용한 가운데 작은 새 울음소리 같은 현저한 소리가 나타날 때 인간의 주의가 그 작은새 울음소리에 끌려서 자극 레벨(동작)이 큰 것으로 간주된다. 따라서, 이때에 화상 정보량이 감소될지라도 이것은 눈에 띄지 않는다. 그렇게 할당된 정보량이 경험칙에 근거하여 설정된다는 것을 주지해야 한다.
비디오 신호에 대한 동작 검출 회로(20)와 음성 신호에 대한 동작 검출 회로(30)가 예를 들어 제15도에 도시된 데로 이루어진다. 제15도의 구조는 이제 예로서 비디오 신호의 경우와 연결되어 기술된다. 음성 신호의 경우와 연결된 기본적인 작동이 역시 상기에서와 유사하기에, 그것에 대한 설명은 여기서 생략된다.
제15도에서, 단자(500)에 입력 단자(11V)로부터의 비디오 신호가 공급되고, 이러한 비디오 신호는 큰 변화 검출 회로(501)로 나온다. 이러한 큰 변화 검출 회로(501)는 출력의 종합을 계산하는 계산 회로(502)에 제1소정 값보다 더큰 차이 값을 보내도록 차이 값을 결정한다. 계산 회로(502)에서 계산된 차이 값의 총합은 비교 회로(503)로 보내져서 여기서 소정의 임계 값과의 비교가 이루어진다. 비교 회로(503)에서 나온 비교 결과를 나타내는 신호는 판정 회로(504)로 보내진다. 더우기, 단자(500)로 보내진 비디오 신호는 역시 매우 작은 변화 검출 회로(506)로 보내진다. 상기의 매우 작은 변화 검출 회로(506)는 나온 비디오 신호의 제1소정 값보다 더 작은 제2임계값 보다 더 작은 매우 작은 차이를 결정한다. 계산 회로(507)의 연속 스테이지는 매우 작은 차이의 총합을 결정한다. 비교 회로(508)의 연속 스테이지는 매우 작은 차이의 총합과 소정의 임계값을 비교하여 판정 회로(504)에 그 비교 결과를 나타내는 신호를 보낸다. 두개 비교 회로(503, 508)로부터의 신호에 근거하여 동작이 될지 안될지를 이러한 판정 회로(504)가 판정하여 단자(505)로부터의 동작 유무를 가르키는 신호를 출력한다.
임계값 비교 회로의 입력 신호가 임계값 보다 더 작은 것은 임계값 비교 회로(503)에서 판정하고, 임계값 비교 회로(508)의 입력 신호가 임계값 보다 더 큰 것을 임계값 비교 회로(508)에서 판정할 때, 판정 회로(504)는 동작이 크다고 판정한다. 실제 경우로, 비디오 신호의 경우에 조건이 상기와 같을 때 대응하는 영상은 전체적으로 거의 면하지 않는 화상은 가르키지만 예를 들어 작은 동물이 안개속에서 움직이는 것을 작아서 보기에 희미한 영상 같은 부분의 움직임을 갖는 것과 같다. 그러한 경우에, 시청자가 영상에 관심을 갖기에 비디오 신호의 할당된 비트 번호가 증가하게 된다. 게다가, 음성 신호의 경우에 조건이 위에서와 같을 때 예를들어 위에서 설명한 것처럼 조용한 곳에서의 작은 새의 울음 소리가 나타난다.
그 차이를 결정하는 예가 제14도에서 취해지는 동안에 분화(differentiation)가 결정된다. 이런 경우에, 분화가 큰 변화 검출 회로(501)나 매우 작은 변화 검출 회로(506)에서 결정되고 통합 동작이 계산 회로(503, 607)에서 실행된다.
더우기, 상기 실시예에서 할당된 정보량을 변화시키도록 할당된 비트 번호가 가변적이고, 할당된 비트 번호가 제공되도록 압축 인코딩 시스템이 변화되어서 할당된 정보량이 가변적이 된다.
위에 기술된 것처럼, 관련된 압축-인코딩 비디오 신호와 음성 신호에서 기준이 되는 자체 신호의 특성을 갖는 독립적으로 압축-인코딩하는 각각의 신호 대신에 비디오 신호와 음성 신호시의 특성을 고려하여 압축 인코딩이 실행되는 체계가 본 발명에 따라서 적용된다. 따라서, 비디오 신호와 음성 신호를 재생시에 시청각의 관점에서 덜 저히되는 상태로 더 효과적으로 압축-인코드 하는 것이 가능하다.
즉, 인간을 위한 비디오 신호에 대한 시각 같은 자극이 음성 신호에 의한 청각 자극 보다 상대적으로 더 강할때 음성 신호의 잡음이 마스크되기 쉽다. 이렇게, 음성 신호의 정보량이 작은 것은 충분하다. 반대로, 음성에 의한 자극이 화상에서 주어진 자극보다 작은 상태일 때 화상 정보가 정보량 보다 더 작을지라도 그러한 음성은 눈에 띄지 않는다. 이렇게, 더 적은 정보량을 갖는 화상과 음성의 만족할만한 정보 전송을 실행하는 것이 가능하게 된다.

Claims (12)

  1. 디지탈 비디오 신호 및 이와 연관된 디지탈 음선 신호를 각각 압축-인코딩하여 인코드 된 신호들을 전송하는 인코딩 장치에 있어서, 디지탈 비디오 신호의 특성을 검출하는 제1특성 검출 수단과, 디지탈 음성 신호의 특성을 검출하는 제2특성 검출 수단과, 상기 제1 및 제2특성 검출 수단의 출력을 합성하는 합성 수단 및, 상기 합성 수단의 출력에 근거하여 디지탈 비디오 신호 및 디지탈 음성 신호의 압축 인코딩에서의 할당된 정보량을 제어하는 제어 수단을 포함하는 인코딩 장치.
  2. 제1항에 있어서, 상기 제1 및 제2특성 검출 수단은 각각 비디오 신호 및 음성 신호의 활성을 검출하는 인코딩 장치.
  3. 제2항에 있어서, 상기 활성은 공간 및/또는 시간의 포인트에서의 변화를 검출하므로서 검출되는 인코딩 장치.
  4. 제1항에 있어서, 압축-인코드된 신호를 일시적으로 유지하고 다음에 이것을 출력 신호로서 출력하는 버퍼 메모리가 제공되고, 상기 제어 수단은 합성 수단의 합성 출력과 버퍼 메모리에 기억된 정보량에 따라 디지탈 비디오 신호 및 디지탈 음성 신호의 압축 인코딩에서의 할당된 정보량을 제어하는 인코딩 장치.
  5. 제3항에 있어서, 상기 제1특성 검출 수단은 디지탈 비디오 신호를 프레임-지연시키는 프레임 메모리와, 디지탈 비디오 신호를 라인-지연시키는 라인 메모리와, 디지탈 비디오 신호를 샘플-지연시키는 샘플 메모리와, 상기 프레임 메모리로부터의 프레임-지연된 디지탈 비디오 신호와 입력 디지탈 비디오 신호 사이의 차이를 계산하는 제1차이 계산 수단과, 상기 라인 메모리로부터 라인-지연된 디지탈 비디오 신호와 입력 디지탈 비디오 신호 사이의 차이를 계산하는 제2차이 계산 수단 및 상기 샘플 메모리로부터의 샘플-지연된 디지탈 비디오 신호와 입력 디지탈 비디오 신호 사이의 차이를 결정하는 제3차이 계산 수단을 포함하는 인코딩 장치.
  6. 제5항에 있어서, 상기 제1특성 검출 수단은 제1, 제2 및 제3 차이 계산 수단의 출력을 비-선형적으로 합성하는 비-선형 합성 수단을 포함하는 인코딩 장치.
  7. 제1항에 있어서, 상기 제2특성 검출 수단은 입력 디지탈 음성 신호의 진폭 정보를 발생하는 진폭 정보 발생 수단과, 진폭 정보 발생 수단으로부터의 진폭 값 정보에 근거하여 에너지를 검출하는 에너지 검출 수단 및, 상기 에너지 검출 수단의 출력에 컨버루션 동작을 실시하는 컨버루션 동작 수단을 포함하는 인코딩 장치.
  8. 제1항에 있어서, 상기 합성 수단은 제1 및 제2 특성 검출 수단의 각 출력값에 소정의 계수를 승산하고, 이후에 이들을 합성하는 인코딩 장치.
  9. 제1항에 있어서, 상기 제1 특성 검출 수단 및 상기 제2 특성 검출 수단은 각각, 신호의 큰 변화를 검출하는 큰 변화량 검출 수단과, 상기 큰 변화량 검출 수단의 출력과 소정 임계값을 비교하는 제1 비교 수단과, 신호의 매우 작은 변화를 검출하는 매우 작은 변화 검출 수단과, 상기 매우 작은 변화량 검출 수단의 출력과 소정의 임계값을 비교하는 제2 비교 수단 및, 상기 제1 및 제2 비교 수단의 출력으로부터 활성이 있는가 없는가의 여부를 판정하는 판정 수단을 포함하는 인코딩 장치.
  10. 디지탈 비디오 신호 및 이와 연관된 디지탈 음선 신호를 각각 압축-인코딩하여 이것들을 전송하는 인코딩 방법에 있어서, 디지탈 비디오 신호의 특성을 검출하는 단계와, 디지탈 음성 신호의 특성을 검출하는 단계와, 디지탈 비디오 신호의 특성 검출 출력과 디지탈 음성 신호의 특성 검출 출력을 합성하는 단계 및, 합성 출력에 근거하여 디지탈 비디오 신호 및 디지탈 음성 신호의 압축 인코딩에서의 할당된 정보량을 제어하는 단계를 포함하는 인코딩 방법.
  11. 제10항에 있어서, 디지탈 비디오 신호 및 디지탈 음성 신호의 특성 검출시, 비디오 신호 및 음성 신호의 활성이 각각 검출되는 인코딩 방법.
  12. 제11항에 있어서, 상기 활성은 신호의 공간 및/또는 시간의 포인트에서의 변화를 검출함으로써 검출되는 인코딩 방법.
KR1019950700518A 1993-06-08 1994-06-07 인코딩 장치 및 방법 KR100289854B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP16402993 1993-06-08
JP93-164029 1993-06-08
PCT/JP1994/000921 WO1994030013A1 (en) 1993-06-08 1994-06-07 Encoder and encoding method

Publications (2)

Publication Number Publication Date
KR960700607A KR960700607A (ko) 1996-01-20
KR100289854B1 true KR100289854B1 (ko) 2001-05-15

Family

ID=15785457

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019950700518A KR100289854B1 (ko) 1993-06-08 1994-06-07 인코딩 장치 및 방법

Country Status (6)

Country Link
US (1) US5627581A (ko)
EP (1) EP0654947B1 (ko)
JP (1) JP3442783B2 (ko)
KR (1) KR100289854B1 (ko)
DE (1) DE69423072T2 (ko)
WO (1) WO1994030013A1 (ko)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5877814A (en) * 1994-04-20 1999-03-02 Thomson Consumer Electronics, Inc. Asynchronous control signal generating apparatus
JPH0865665A (ja) * 1994-08-25 1996-03-08 Hitachi Denshi Ltd 画像圧縮伝送方法および画像圧縮伝送システム
US6141032A (en) * 1995-05-24 2000-10-31 Priest; Madison E. Method and apparatus for encoding, transmitting, storing and decoding of data
GB9519921D0 (en) * 1995-09-29 1995-11-29 Philips Electronics Nv Graphics image manipulation
US6256349B1 (en) * 1995-12-28 2001-07-03 Sony Corporation Picture signal encoding method and apparatus, picture signal transmitting method, picture signal decoding method and apparatus and recording medium
KR970057947A (ko) * 1995-12-28 1997-07-31 배순훈 영상 부호화기에서의 타입 결정 및 버퍼 제어 장치
US6111863A (en) * 1995-12-29 2000-08-29 Lsi Logic Corporation Method and apparatus for the dynamic allocation of signal bandwidth between audio, video and data signals
US5793416A (en) * 1995-12-29 1998-08-11 Lsi Logic Corporation Wireless system for the communication of audio, video and data signals over a narrow bandwidth
US6006105A (en) * 1996-08-02 1999-12-21 Lsi Logic Corporation Multi-frequency multi-protocol wireless communication device
WO1998035500A1 (en) * 1997-02-11 1998-08-13 Sharp Kabushiki Kaisha Method and apparatus for optimizing quantizer values in an image encoder
JP4558195B2 (ja) 1997-10-23 2010-10-06 ソニー エレクトロニクス インク 符号化方法及び装置、復号方法及び装置、デジタル信号処理装置並びに記録媒体
US6490250B1 (en) * 1999-03-09 2002-12-03 Conexant Systems, Inc. Elementary stream multiplexer
EP1101360A1 (en) * 1999-05-26 2001-05-23 Koninklijke Philips Electronics N.V. Digital video signals coding method and corresponding coding or transcoding system
WO2001033862A1 (en) * 1999-10-29 2001-05-10 Sensormatic Electronics Corporation Method of and system for dynamic range compression and expansion
US7092774B1 (en) * 2000-02-29 2006-08-15 Prime Image, Inc. Multi-channel audio processing system with real-time program duration alteration
US6801246B2 (en) 2001-02-27 2004-10-05 Thomson Licensing, S.A. Method and apparatus for detecting change in video source material
GB2387055A (en) * 2002-03-28 2003-10-01 Sony Uk Ltd Data compression method including target data quantity allocation
JP4144598B2 (ja) * 2005-01-28 2008-09-03 三菱電機株式会社 画像処理装置、画像処理方法、画像符号化装置、画像符号化方法、および画像表示装置
US20100287083A1 (en) * 2007-12-28 2010-11-11 Mastercard International, Inc. Detecting modifications to financial terminals
KR101377703B1 (ko) * 2008-12-22 2014-03-25 한국전자통신연구원 광대역 인터넷 음성 단말 장치
US8724968B2 (en) 2011-04-07 2014-05-13 Prime Image Delaware, Inc. Embedded ancillary data processing method and system with program duration alteration
US9113133B2 (en) 2012-01-31 2015-08-18 Prime Image Delaware, Inc. Method and system for detecting a vertical cut in a video signal for the purpose of time alteration

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5961286A (ja) * 1982-09-29 1984-04-07 Fujitsu Ltd 音声多重化方式
US4541008A (en) * 1982-12-27 1985-09-10 Jones Futura Foundation, Ltd. Television signal bandwidth reduction using variable rate transmission
US4907087A (en) * 1987-06-10 1990-03-06 Massachusetts Institute Of Technology Transmission of signals through analog channels using adaptive frequency modulation
US4868653A (en) * 1987-10-05 1989-09-19 Intel Corporation Adaptive digital video compression system
DE69032361T2 (de) * 1989-03-16 1998-10-29 Fujitsu Ltd Video/audiomultiplexübertragungssystem
JPH0358582A (ja) * 1989-07-27 1991-03-13 Toshiba Corp テレビジョン信号のパケット伝送システムとパケット送信装置及びパケット受信装置
JPH03117919A (ja) * 1989-09-30 1991-05-20 Sony Corp ディジタル信号符号化装置
US5159447A (en) * 1991-05-23 1992-10-27 At&T Bell Laboratories Buffer control for variable bit-rate channel
JP2766919B2 (ja) * 1991-06-07 1998-06-18 三菱電機株式会社 ディジタル信号記録再生装置、ディジタル信号記録装置、ディジタル信号再生装置
JP2785220B2 (ja) * 1992-09-22 1998-08-13 ソニー株式会社 データ符号化装置および方法、並びにデータ復号化装置および方法
JPH06261017A (ja) * 1993-03-08 1994-09-16 Matsushita Electric Ind Co Ltd マルチメディア通信装置
US5512939A (en) * 1994-04-06 1996-04-30 At&T Corp. Low bit rate audio-visual communication system having integrated perceptual speech and video coding

Also Published As

Publication number Publication date
EP0654947A4 (en) 1996-04-03
EP0654947B1 (en) 2000-02-23
KR960700607A (ko) 1996-01-20
EP0654947A1 (en) 1995-05-24
DE69423072D1 (de) 2000-03-30
US5627581A (en) 1997-05-06
DE69423072T2 (de) 2000-07-06
WO1994030013A1 (en) 1994-12-22
JP3442783B2 (ja) 2003-09-02

Similar Documents

Publication Publication Date Title
KR100289854B1 (ko) 인코딩 장치 및 방법
US5859826A (en) Information encoding method and apparatus, information decoding apparatus and recording medium
JP4504414B2 (ja) 冗長性低減方法
US5701346A (en) Method of coding a plurality of audio signals
US5570372A (en) Multimedia communications with system-dependent adaptive delays
JP2693893B2 (ja) ステレオ音声符号化方法
US5555310A (en) Stereo voice transmission apparatus, stereo signal coding/decoding apparatus, echo canceler, and voice input/output apparatus to which this echo canceler is applied
JP2598159B2 (ja) 音声信号処理装置
US5737720A (en) Low bit rate multichannel audio coding methods and apparatus using non-linear adaptive bit allocation
US7315619B2 (en) System and method for enhanced subjective stereo audio
JP3397001B2 (ja) 符号化方法及び装置、復号化装置、並びに記録媒体
US5581654A (en) Method and apparatus for information encoding and decoding
JPH04304029A (ja) ディジタル音声信号符号化方法
JPH07160292A (ja) 多層符号化装置
JP2002511683A (ja) 低ビットレート空間符号化方法及び装置
US8407059B2 (en) Method and apparatus of audio matrix encoding/decoding
US6185254B1 (en) Decoder, image encoding apparatus, image decoding apparatus, image transmitting method, and recording medium
US20050073986A1 (en) Signal processing system, signal processing apparatus and method, recording medium, and program
EP0706183B1 (en) Information encoding method and apparatus, information decoding method and apparatus
JPH08123488A (ja) 高能率符号化方法、高能率符号記録方法、高能率符号伝送方法、高能率符号化装置及び高能率符号復号化方法
JP3089692B2 (ja) ディジタルデータの高能率符号化方法
KR100290846B1 (ko) 디지털티브이(tv)시스템에서의외부잡음보정장치
JP2000244325A (ja) Mpegオーディオの復号化方法
JPH07161142A (ja) 記録方法、記録媒体、及び再生方法
JPH07161140A (ja) ディジタルオーディオ信号の伝送装置及び受信装置、並びにディジタルオーディオ信号の伝送方法及び受信方法

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120213

Year of fee payment: 12

LAPS Lapse due to unpaid annual fee