WO2014010780A1 - 오디오 인코딩 방법 - Google Patents

오디오 인코딩 방법 Download PDF

Info

Publication number
WO2014010780A1
WO2014010780A1 PCT/KR2012/007410 KR2012007410W WO2014010780A1 WO 2014010780 A1 WO2014010780 A1 WO 2014010780A1 KR 2012007410 W KR2012007410 W KR 2012007410W WO 2014010780 A1 WO2014010780 A1 WO 2014010780A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
audio signal
forensic marking
marking code
audio
Prior art date
Application number
PCT/KR2012/007410
Other languages
English (en)
French (fr)
Inventor
이강현
Original Assignee
조선대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 조선대학교산학협력단 filed Critical 조선대학교산학협력단
Publication of WO2014010780A1 publication Critical patent/WO2014010780A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation

Definitions

  • the present invention relates to an audio encoding method, and more particularly, to an audio encoding method capable of inserting a user's own forensic marking code while preventing distortion of an audio signal.
  • MPEG audio is the standard method of ISO / IEC for high quality and high efficiency stereo encoding.
  • the MPEG audio is widely used in various types of mobile devices, which are widely spread in recent years due to the superior sound quality compared to the conventional audio compression coding scheme.
  • FIG. 1 is a schematic diagram of a conventional MPEG audio coding method.
  • the input analog audio signal s (n) is subdivided into 32 bands by a 32 channel filter bank and then input into an MDCT stage.
  • psychoacoustic analysis is performed.
  • a signal in the MP3 format is generated by using the MDCT signal and the signal undergoing the psychoacoustic analysis step, and the generated MP3 format signal is transmitted through a multiplexer.
  • Audio forensic marking is a technology that inserts a buyer's or user's own code into audio content so that the distributor can be tracked if the content is illegally distributed.
  • Conventionally used audio forensic marking techniques include spread spectrum, phase coding, and echo hiding. However, in these methods, a large amount of forensic marking code is inserted and distortion occurs in the original audio signal. As a result, there is a problem that the sound quality of the audio signal is degraded.
  • the present invention has been made to solve the above problems, and provides a method for inserting a forensic marking code while preventing the sound quality from being degraded by inserting the forensic marking code in a subband whose energy of the audio signal is less than the masking spectrum energy. It aims to do it.
  • the audio signal encoding method comprises the steps of i) receiving an analog audio signal and subdividing it into a predetermined number of frequency bands, and performing a modified discrete cosine transform (MDCT) on the divided signal. ; ii) receiving the analog form, performing a fast fourier transform (FFT), and applying a psychoacoustic model 2 to the signal on which the FFT is performed to perform quantization; iii) generating an MPEG audio signal by combining the modified discrete cosine transformed signal and the signal to which the psychoacoustic model 2 is applied; iv) selecting a subband into which the forensic marking code is to be inserted in the MPEG audio signal; And v) inserting each user's own forensic marking code into the subband to generate a forensic marked signal.
  • MDCT modified discrete cosine transform
  • step iv) it is preferable to select at least one or more bands whose level of the MPEG audio signal is below the minimum audible limit as subbands, and in step i), the audio signal is subdivided into 25 subbands.
  • step ii) a 2,048 point FFT may be performed, and each user's own forensic marking code of step v) is composed of 7 bits, and in this case, 4 bits based on BIBD code among 7 bits of forensic marking code. Preferably, one bit of '1' is inserted.
  • the forensic marking code can be inserted while the sound quality of the audio signal is not degraded by selecting a frequency band having less energy than the masking spectral energy in the audio signal and inserting the forensic marking Dor in the frequency band.
  • FIG. 1 is a schematic diagram of a conventional MPEG audio coding method.
  • FIG. 2 is a block diagram for explaining an audio encoding method according to the present invention.
  • FIG 3 is an exemplary diagram of an audio signal in analog form as an input signal.
  • Figure 6 shows the FFT results and masking spectrum of the analog audio signal
  • FIG. 7 is a block diagram for explaining the process of tracking the conspirator.
  • an analog audio signal is received and converted into a digital signal, and a unique binary code (hereinafter referred to as 'forensic marking code') assigned to each user is inserted into the converted signal.
  • 'forensic marking code' a unique binary code assigned to each user is inserted into the converted signal.
  • FIG. 2 is a block diagram illustrating an audio encoding method according to the present invention
  • FIG. 3 is an example of an analog signal as an input signal and a partial enlarged view of a 150th frame of the audio signal.
  • the input analog audio signal S1 is transferred to the polyphase filter bank S2.
  • the polyphase filter bank S2 subdivides the input analog audio signal into 25 frequency bands to remove statistical redundancy of the audio signal.
  • MDCT S3 a modified discrete cosine transform (MDCT) is performed to increase frequency resolution.
  • MDCT discrete cosine transform
  • an FFT Fast Fourier Transform
  • S4 the analog audio signal S1 is converted into the spectrum of the frequency band by the FFT S4 and then the perceptual encoding according to the psychoacoustic model 2 is performed (S5).
  • 4 illustrates a result of performing an FFT on an analog audio signal so as to correspond to the 25 frequency bands.
  • Table 1 shows the center frequency (Hz) and frequency bandwidth (Hz) of the 25 frequency bands.
  • the MPEG audio signal is generated by combining the modified discrete cosine transformed signal and the signal having undergone the perceptual encoding according to the psychoacoustic model 2 (S6). Since the MPEG audio signal generation process is obvious in the art, a detailed description related to the MPEG audio signal generation process will be omitted.
  • the forensic marking code S7 is inserted into the MPEG audio signal while preventing the sound quality of the MPEG audio signal.
  • Forensic marking codes cause distortions in user-specific MPEG audio signals, which can result in damage to sound quality.
  • the forensic marking code is inserted by selecting a frequency band which is inaudible to humans, thereby preventing degradation of sound quality.
  • FIG. 5 illustrates a critical band and its bandwidth in the masking spectrum corresponding to the 25 bands described above.
  • the audio signal has a minimum level at which it can be heard and this minimum level depends on the frequency.
  • the minimum level at which they can hear is affected by the levels of other sounds heard together. In other words, even when the level of listening is quiet, when the level of the sound being heard is relatively high, the sound cannot be heard. This is called a masking effect, and the frequency band where such a masking effect occurs is called a critical band.
  • an audio frequency in which a forensic marking code is inserted by selecting a frequency band having a level lower than that of a masking spectrum (hereinafter referred to as a 'subband') of an MPEG audio signal and inserting a forensic marking code into the selected subband Generate a signal (S8).
  • a 'subband' a frequency band having a level lower than that of a masking spectrum
  • S8 Generate a signal
  • FIG. 6 shows the results of FFT of an analog audio signal and masking spectrum for the 25 frequency bands described above.
  • the level of the FFT audio signal in the band 0, the band 6 to 9, and the band 23 to 24 is lower than the level of the masking spectrum. Therefore, the above three areas are selected as subbands for inserting the forensic marking code (S6). As such, a plurality of subbands may exist in one audio signal.
  • Table 2 shows forensic marking codes assigned to seven users.
  • FIG. 7 is a block diagram illustrating a process of tracking a conspirator who has colluded with an audio content using an inserted forensic marking code after inserting the forensic marking code according to the present invention.
  • the FFT (S12) is first performed on a signal for which forensic marking has been performed, that is, a signal S11 that is considered to be the target of the competition.
  • the FFT (S14) is also performed on the original audio signal S13 that is not forensic marking.
  • a differential signal is obtained using two signals on which the FFTs (S12, S14) are performed. 8 shows an example of a differential signal.
  • a band for example, three regions in FIG. 6 into which the marking code is inserted is selected (S15), and a correlation coefficient between the differential signal and the forensic marking code is obtained for the selected region (S16 and S17). Judging whether the attack was made (S18), and contrast with the forensic marking code unique to each user to look at the correlation coefficient to see which users involved in the attack.
  • Table 3 shows the results of tracing conspirators for cases involving 2 to 7 participants.
  • A means forensic marking strength, and means that the intensity of the signal in which the forensic marking code is inserted is changed to a level of 0.1 to 0.9 from the reference value (1), and B is the strength of the white noise as the intensity of the white noise.
  • the tracking results of the conspirator were shown under the condition of changing to 0.1 to 0.9 level.
  • the agitation attack was used as a form of the competition. Such averaging conspiracy attack is a method commonly used in simulation in the art, so a detailed description thereof will be omitted.
  • a forensic marking code can be inserted into an inaudible frequency band to prevent degradation of sound quality, and at the same time, the original signal and the forensic marking code can be prevented.
  • the correlation between the difference signal and the forensic marking code can be analyzed to clearly identify whether there is a collusion attack on the audio signal and the conspirator.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명에 따른 오디오 신호 인코딩 방법은 i) 아날로그 형태의 오디오 신호를 입력받아서 소정 개수의 주파수 대역으로 세분하고, 상기 세분된 신호에 대하여 변형이산여현변환(MDCT : Modified Discrete Cosine Transform)을 수행하는 단계; ii) 상기 아날로그 형태를 입력받아 FFT(Fast Fourier Transform)를 수행하고, 상기 FFT가 수행된 신호에 심리음향모델2를 적용하여 양자화를 진행하는 단계; iii) 상기 변형이산여현변환된 신호와 상기 심리음향모델2를 적용한 신호를 조합하여 MPEG 오디오 신호를 생성하는 단계; iv) 상기 MPEG 오디오 신호에서 포렌식 마킹코드를 삽입할 서브밴드를 선택하는 단계; 및 v) 상기 서브밴드에 각각의 사용자 고유의 포렌식 마킹코드를 삽입하여 포렌식 마킹된 신호를 생성하는 단계를 포함한다.

Description

오디오 인코딩 방법
본 발명은 오디오 인코딩 방법에 관한 것으로서, 보다 상세하게는 오디오 신호의 왜곡을 방지하면서도 사용자 고유의 포렌식 마킹코드를 삽입할 수 있는 오디오 인코딩 방법에 관한 것이다.
MPEG 오디오는 고품질 및 고능률의 스테레오 부호화를 위한 ISO/IEC의 표준 방식이다. 이러한 MPEG 오디오는 종래의 오디오 압축 부호화 방식에 비하여 음질이 뛰어난 장점으로 인하여, 최근 보급이 크게 확산되고 있는 다양한 종류의 모바일 기기에서의 널리 활용되고 있는 실정이다.
도 1은 종래 MPEG 오디오 코딩 방법에 대한 개략도이다. 도 1에 도시된 바와 같이 입력된 아날로그 오디오 신호 s(n)는 32채널 필터뱅크에 의해 32개의 밴드로 세분화된 후 MDCT 단계로 입력된다. 다른 한편으로는 입력된 아날로그 오디오 신호에 대해 FFT를 수행한 후 심리음향분석을 진행한다. 이와 같이 MDCT가 수행된 신호와 심리음향분석 단계를 거친 신호를 이용해서 MP3 포맷의 신호를 생성하며, 생성된 MP3 포맷의 신호는 멀티플렉서를 거쳐 전송된다.
한편, Apple의 스티브 잡스가 2007년에 DRM(Digital Right Management) Free 서비스를 제안하면서 DRM Free 서비스가 확산되고 있는 추세이지만 그에 비례하여 오디오 콘텐츠에 대한 저작권의 침해가 심각하게 대두되고 있는 실정이다.
이와 같은 저작권 침해를 막기 위해 오디오 포렌식 마킹(Audio Forensic Marking)에 대한 연구가 활발히 진행되고 있다. 오디오 포렌식 마킹은 오디오 콘텐츠에 구매자 또는 사용자 고유의 코드를 삽입하여 콘텐츠가 불법으로 배포되었을 경우 그 배포자를 추적할 수 있도록 하는 기술이다.
종래에 사용되는 오디오 포렌식 마킹 기술로는 확산 스펙트럼을 이용하는 방법, Phase 코딩 방법 및 Echo hiding 방법 등이 있으나, 이러한 방법들에서는 삽입되는 포렌식 마킹용 코드의 양이 많아서 원래의 오디오 신호에 왜곡이 발생되고 그 결과 오디오 신호의 음질이 저하되는 문제가 있었다.
본 발명은 상기와 같은 문제를 해결하기 위한 것으로서, 오디오 신호의 에너지가 마스킹 스펙트럼 에너지보다 작은 서브밴드에 포렌식 마킹코드를 삽입함으로써 음질이 저하되는 것을 방지하면서 포렌식 마킹코드를 삽입할 수 있는 방법을 제공하는 것을 목적으로 한다.
본 발명에 따른 오디오 신호 인코딩 방법은 i) 아날로그 형태의 오디오 신호를 입력받아서 소정 개수의 주파수 대역으로 세분하고, 상기 세분된 신호에 대하여 변형이산여현변환(MDCT : Modified Discrete Cosine Transform)을 수행하는 단계; ii) 상기 아날로그 형태를 입력받아 FFT(Fast Fourier Transform)를 수행하고, 상기 FFT가 수행된 신호에 심리음향모델2를 적용하여 양자화를 진행하는 단계; iii) 상기 변형이산여현변환된 신호와 상기 심리음향모델2를 적용한 신호를 조합하여 MPEG 오디오 신호를 생성하는 단계; iv) 상기 MPEG 오디오 신호에서 포렌식 마킹코드를 삽입할 서브밴드를 선택하는 단계; 및 v) 상기 서브밴드에 각각의 사용자 고유의 포렌식 마킹코드를 삽입하여 포렌식 마킹된 신호를 생성하는 단계;를 포함하는 것을 특징으로 한다.
단계 iv)에서는 MPEG 오디오 신호의 레벨이 최소가청한계 이하인 적어도 하나 이상의 대역을 서브밴드로 선택하는 것이 바람직하며, 상기 단계 i)에서는 오디오 신호를 25개의 서브 밴드로 세분화되는 것이 바람직하다.
상기 단계 ii)에서는 2,048 포인트 FFT를 수행하는 것을 특징으로 할 수 있으며, 상기 단계 v)의 각 사용자 고유의 포렌식 마킹코드는 7 비트로 구성되며, 이 경우 7비트의 포렌식 마킹코드 중 BIBD 코드 기반으로 4개 비트의 '1'이 삽입되는 것이 바람직하다.
본 발명에 따르면 오디오 신호에서 마스킹 스펙트럼 에너지보다 에너지가 작은 주파수 대역을 선택하고 그 주파수 대역에 포렌식 마킹도르를 삽입함으로써 오디오 신호의 음질이 저하되지 않도록 하면서 포렌식 마킹코드를 삽입할 수 있게 된다.
도 1은 종래 MPEG 오디오 코딩 방법에 대한 개략도.
도 2는 본 발명에 따른 오디오 인코딩 방법을 설명하기 위한 블럭 다이어그램.
도 3은 입력 신호인 아날로그 형태의 오디오 신호의 예시도.
도 4는 아날로그 오디오 신호에 대해 FFT를 수행한 결과 스펙트럼.
도 5는 마스킹 스펙트럼에서의 임계대역 스펙트럼.
도 6은 아날로그 오디오 신호를 FFT 결과 및 마스킹 스펙트럼
도 7은 공모자를 추적하는 과정을 설명하기 위한 블럭 다이어그램.
도 8은 차분신호의 스펙트럼.
이하 도면을 참조하여 본 발명에 대해 보다 상세히 설명하도록 한다.
이하에서 설명할 실시예는 본 발명의 명확한 이해를 돕기 위한 것이며, 본 발명을 특정한 형태로 한정하려는 것은 아니다.
또한, 이하에서 실시예를 설명함에 있어서 동일 구성에 대해서는 동일 명칭 및 동일 부호가 사용되며, 부가적인 설명의 반복은 생략하도록 한다.
본 발명에 따른 오디오 인코딩 방법에서는, 아날로그 형태의 오디오 신호를 입력받아 디지털 신호로 변환시키고, 변환된 신호에 사용자 개개인별로 할당된 고유의 2진수 코드(이하 '포렌식 마킹코드'라 칭함)를 삽입하여 포렌식 마킹이 이루어진 오디오 신호를 생성함으로써 오디오 신호에 대한 공모공격(Collusion Attack) 여부 및 공모자를 확인하게 된다.
도 2는 본 발명에 따른 오디오 인코딩 방법을 설명하기 위한 블럭 다이어그램이며, 도 3은 입력 신호인 아날로그 형태의 오디오 신호의 예시 및 그 오디오 신호의 150번째 프레임에 대한 부분 확대도이다.
입력된 아날로그 형태의 오디오 신호(S1)는 폴리페이즈 필터뱅크(S2)로 전달된다. 폴리페이즈 필터뱅크(S2)는 오디오 신호의 통계적인 중복성을 제거하기 위해 입력된 아날로그 형태의 오디오 신호를 25개의 주파수 대역으로 세분화한다.
MDCT(S3)에서는 주파수 분해능(frequency resolution)을 증가시키기 위해 변형이산여현변환(MDCT : Modified Discrete Cosine Transform)이 수행된다.
한편, 입력된 아날로그 오디오 신호(S1)에 대해서는 FFT(Fast Fourier Transform)도 수행된다(S4). 즉, 아날로그 오디오 신호(S1)는 FFT(S4)에 의해 주파수 대역의 스펙트럼으로 변환된 후 심리음향모델2에 따른 지각부호화가 진행된다(S5). 도 4는 아날로그 오디오 신호에 대해 FFT를 수행한 결과를 상기 25개의 주파수 대역에 대응되도록 도시한 것이다. 표 1은 25개 주파수 대역의 중심 주파수(Hz) 및 주파수 대역폭(Hz)을 나타낸 것이다.
표 1
서브밴드 No. 주파수 대역(Hz) 중심 주파수(Hz)
0 0 ~ 100 50
1 100 ~ 200 150
2 200 ~ 300 250
3 300 ~ 400 350
4 400 ~ 510 450
5 510 ~ 630 570
6 630 ~ 770 700
7 770 ~ 920 840
8 920 ~ 1080 1000
9 1080 ~ 1270 1170
10 1270 ~ 1480 1370
11 1480 ~ 1720 1600
12 1720 ~ 2000 1850
13 2000 ~ 2320 2150
14 2320 ~ 2700 2500
15 2700 ~ 3150 2900
16 3150 ~ 3700 3400
17 3700 ~ 4400 4000
18 4400 ~ 5300 4800
19 5300 ~ 6400 5800
20 6400 ~ 7700 7000
21 7700 ~ 9500 8500
22 9500 ~ 12000 10500
23 12000 ~ 15500 13500
24 15500 ~ 22050 19500
이후, 변형이산여현변환된 신호와 심리음향모델2에 따른 지각부호화가 진행된 신호를 조합하여 MPEG 오디오 신호를 생성한다(S6). 이상에서의 MPEG 오디오 신호 생성과정은 해당 기술분야에서 자명한 사항이므로 MPEG 오디오 신호 생성과정과 관련된 보다 상세한 설명은 생략하도록 한다.
본 발명에서는 상기의 MPEG 오디오 신호의 음질 손상을 방지하면서 MPEG 오디오 신호에 포렌식 마킹코드(S7)를 삽입하게 된다. 포렌식 마킹코드는 사용자별 MPEG 오디오 신호에는 변형이 발생되는 것이며 그 결과 음질의 손상을 초래할 수 있다. 그러나, 본 발명에서는 사람이 들을 수 없는 주파수 대역을 선택하여 포렌식 마킹코드를 삽입함으로써 음질의 저하를 방지할 수 있도록 한다.
도 5는 마스킹 스펙트럼(Masking Spectrum)에서의 임계대역(Critical Band) 및 그 대역폭을 상기에서 설명한 25개 밴드에 대응되도록 도시한 것이다. 오디오 신호는 청취가 가능한 최소 레벨을 가지며, 이러한 최소 레벨은 주파수에 따라 달라진다. 한편, 청취가 가능한 최소 레벨은 함께 들리는 다른 음의 레벨에 영향을 받는다. 즉, 고요할 경우에는 청취가 가능한 레벨이라도 함께 들리는 음의 레벨이 상대적으로 높을 경우에는 들을 수 없게 되는데 이를 마스킹 효과라 하며, 이러한 마스킹 효과가 발생하는 주파수 대역을 임계대역이라 한다.
만일 오디오 신호의 특정 주파수 성분의 레벨이 임계대역 내에서의 마스킹 스펙트럼의 레벨(최소가청한계)보다 낮을 경우, 사람은 오디오 신호 중 그 특정 주파수 성분을 들을 수 없게 된다. 따라서, 본 발명에서는 MPEG 오디오 신호 중 그 레벨이 마스킹 스펙트럼의 레벨보다 낮은 주파수 대역을 선택(이하 '서브밴드'라 칭함)하고, 선택된 서브밴드에 포렌식 마킹코드를 삽입하여 포렌식 마킹코드가 삽입된 오디오 신호를 생성한다(S8). 이처럼 상기의 서브밴드에 포렌식 마킹코드를 삽입할 경우, MPEG 오디오 신호를 구성하는 데이터에는 변형이 발생되지만, 그러한 변형은 변형 전의 MPEG 오디오 신호에서도 사람이 들을 수 없었던 주파수 대역에서만 이루어지므로 포렌식 마킹코드를 삽입한 이후에도 사람이 듣는 음질에는 변화가 없게 된다.
도 6은 아날로그 오디오 신호를 FFT한 결과와 마스킹 스펙트럼을 상기에서 설명한 25개 주파수 대역에 대하여 도시한 것이다. 도 6에 도시된 바와 같이 본 실시예에 사용된 오디오 신호에서는 0번 대역, 6내지 9번 대역, 23내지 24번 대역에서 FFT된 오디오 신호의 레벨이 마스킹 스펙트럼의 레벨보다 낮은 것을 알 수 있다. 따라서, 위 3개의 영역이 포렌식 마킹코드를 삽입하기 위한 서브밴드로 선택된다(S6). 이처럼 서브밴드는 하나의 오디오 신호에서 복수개 존재할 수 있다.
표 2는 7명의 사용자에게 할당된 포렌식 마킹코드를 예시한 것이다.
표 2
사용자 번호 포렌식 마킹 코드
1 1 0 1 0 1 0 1
2 0 1 1 0 0 1 1
3 1 1 0 0 1 1 0
4 0 0 0 1 1 1 1
5 1 0 1 1 0 1 0
6 0 1 1 1 1 0 0
7 1 1 0 1 0 0 1
본 발명에서는 7비트의 {v, k, λ} BIBD 코드로 마킹코드를 구성하되(v=7), 4비트에는 1을 할당하면서(k=4), 7명의 사용자 중 임의의 사용자 2명을 선택하여 1이 할당된 위치를 대비할 경우 1의 위치가 2군데(λ=2)에서 겹치도록 포렌식 마킹코드를 구성한다.
도 7은 본 발명에 따른 포렌식 마킹코드를 삽입한 이후, 삽입된 포렌식 마킹코드를 이용하여 오디오 콘텐츠를 공모공격한 공모자를 추적하는 과정을 설명하기 위한 블럭 다이어그램이다.
공모자를 추적하기 위해서는 우선 포렌식 마킹이 이루어진 신호, 즉 공모공격의 대상이 되었을 것으로 생각되는 신호(S11)에 대하여 FFT(S12)를 수행한다. 한편, 포렌식 마킹이 이루어지지 않은 원래의 오디오 신호(S13)에 대해서도 FFT(S14)를 수행한다. 이후 FFT(S12, S14)가 수행된 2개의 신호를 이용하여 차분신호를 구한다. 도 8은 차분신호를 도시한 예시이다.
차분신호에서 마킹코드가 삽입되는 대역(예를 들어, 도 6에서의 3개의 영역)을 선택하고(S15), 선택된 영역에 대하여 차분신호와 포렌식 마킹코드간의 상관관계 계수를 구하여(S16, S17) 공모공격이 이루어졌는지를 판단하며(S18), 각 사용자 고유의 포렌식 마킹코드와 대비를 하면서 상관관계 계수를 살피게 되면 어느 사용자들이 공모공격에 관여를 했는지 살피게 된다.
표 3은 2명 내지 7명이 공모공격에 관여한 경우에 대하여 공모자를 추적한 결과를 나타낸 것이다. 이때, A는 포렌식 마킹 세기를 의미하는 것으로서, 포렌식 마킹코드가 삽입된 신호의 강도를 기준값(1) 대비 0.1 내지 0.9 레벨로 변화를 시킨 것을 의미하며, B는 화이트 노이즈의 세기로서 화이트 노이즈의 세기 또한 0.1 내지 0.9 레벨로 변화를 시킨 조건에서 공모자의 추적결과를 나타낸 것이다. 본 본 실시예에서는 공모공격의 형태로는 평균화 공모공격을 사용하였다. 이러한 평균화 공모공격은 해당 기술분야에서의 모의실험에서 일반적으로 사용되는 방법인바 보다 상세한 설명은 생략하도록 한다.
표 3
A B 공모자의 수
2 3 4 5 6 7
0.1 0 1 1 1 1 1 0.14
0.1 0.5 0.33 0 0.2 0.17 0.14
0.3 0.5 0.33 0.25 0.2 0.17 0.14
0.5 0.5 0.33 0.25 0.2 0.17 0.14
0.7 0.5 0.33 0.25 0.2 0.17 0
0.9 0.5 0.33 0.25 0.2 0.17 0
0.3 0 1 1 1 1 1 0.14
0.1 1 0.33 0.25 0.2 0.17 0.14
0.3 0.5 0.33 0 0.2 0.17 0.14
0.5 0.5 0.33 0.25 0.2 0.17 0.14
0.7 0.5 0.33 0.25 0.2 0.17 0.14
0.9 0.5 0.33 0.25 0.2 0.17 0.14
0.5 0 1 1 1 1 1 0.14
0.1 1 1 0.5 0.4 0.17 0.14
0.3 0.5 0.33 0.5 0.2 0.17 0.14
0.5 0.5 0.33 0 0.2 0.17 0.14
0.7 0.5 0.33 0.25 0.2 0.17 0.14
0.9 0.5 0.33 0.25 0.2 0.17 0.14
0.7 0 1 1 1 1 1 0.28
0.1 1 1 0.75 0.4 0.33 0.14
0.3 1 0.33 0.5 0.2 0.17 0.14
0.5 0.5 0.33 0 0.2 0.17 0.14
0.7 0.5 0.33 0 0.2 0.17 0.14
0.9 0.5 0.33 0.25 0.2 0.17 0.14
0.9 0 1 1 1 1 1 0.43
0.1 1 1 1 0.6 0.33 0.28
0.3 1 0.67 0.5 0.4 0.17 0.14
0.5 0.5 0.33 0.25 0.2 0.17 0.14
0.7 0.5 0.33 0 0.2 0.17 0.14
0.9 0.5 0.33 0 0.2 0.17 0.14
표 3에 나타난 바와 같이, 화이트 노이즈의 세기가 0(zero)인 경우 2명 내지 6명이 공모에 참여한 경우 상관관계 계수가 모두 '1'로 산출되었는바, 2명 내지 6명이 공모에 참여한 경우 해당 공모자가 정확히 추적됨을 알 수 있다.
이상에서 살펴본 바와 같이, 본 발명에 따른 오디오 인코딩 방법에서는, 청취가 불가능한 주파수 대역에 포렌식 마킹코드를 삽입함으로써 음질의 저하를 방지할 수 있음과 동시에, 원래(original)의 신호와 포렌식 마킹코드와의 차분신호를 구한 후, 이 차분신호와 포렌식 마킹코드와의 상관관계를 분석함으로써 오디오 신호에 대한 공모공격여부 및 공모자를 명백히 파악할 수 있게 된다.

Claims (6)

  1. 오디오 신호에 포렌식 마킹코드를 삽입함으로써 오디오 신호에 대한 공모공격 여부를 판단할 수 있는 오디오 신호 인코딩 방법에 있어서,
    i) 아날로그 형태의 오디오 신호를 입력받아서 소정 개수의 주파수 대역으로 세분하고, 상기 세분된 신호에 대하여 변형이산여현변환(MDCT : Modified Discrete Cosine Transform)을 수행하는 단계;
    ii) 상기 아날로그 형태를 입력받아 FFT(Fast Fourier Transform)를 수행하고, 상기 FFT가 수행된 신호에 심리음향모델2를 적용하여 양자화를 진행하는 단계;
    iii) 상기 변형이산여현변환된 신호와 상기 심리음향모델2를 적용한 신호를 조합하여 MPEG 오디오 신호를 생성하는 단계;
    iv) 상기 MPEG 오디오 신호에서 포렌식 마킹코드를 삽입할 서브밴드를 선택하는 단계; 및
    v) 상기 서브밴드에 각각의 사용자 고유의 포렌식 마킹코드를 삽입하여 포렌식 마킹된 신호를 생성하는 단계;를 포함하는 것을 특징으로 하는 오디오 신호 인코딩 방법.
  2. 제1항에 있어서,
    iv)단계는 MPEG 오디오 신호의 레벨이 최소가청한계 이하인 적어도 하나 이상의 대역을 서브밴드로 선택하는 것을 특징으로 하는 오디오 신호 인코딩 방법.
  3. 제1항에 있어서,
    상기 단계 i)에서는 오디오 신호를 25개의 서브 밴드로 세분화하는 것을 특징으로 하는 오디오 신호 인코딩 방법.
  4. 제1항에 있어서,
    상기 단계 ii)에서는 2,048 포인트 FFT를 수행하는 것을 특징으로 하는 오디오 신호 인코딩 방법.
  5. 제1항에 있어서,
    상기 단계 v)의 각 사용자 고유의 포렌식 마킹코드는 7 비트로 구성된 것을 특징으로 하는 오디오 신호 인코딩 방법.
  6. 제5항에 있어서,
    상기 7비트의 포렌식 마킹코드 중 4비트는 '1'이 삽입되는 것을 특징으로 하는 오디오 신호 인코딩 방법.
PCT/KR2012/007410 2012-07-11 2012-09-17 오디오 인코딩 방법 WO2014010780A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020120075530A KR101426596B1 (ko) 2012-07-11 2012-07-11 오디오 인코딩 방법
KR10-2012-0075530 2012-07-11

Publications (1)

Publication Number Publication Date
WO2014010780A1 true WO2014010780A1 (ko) 2014-01-16

Family

ID=49916208

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2012/007410 WO2014010780A1 (ko) 2012-07-11 2012-09-17 오디오 인코딩 방법

Country Status (2)

Country Link
KR (1) KR101426596B1 (ko)
WO (1) WO2014010780A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128537A (zh) * 2019-12-31 2021-07-16 华为技术有限公司 样本处理方法和相关装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020031654A (ko) * 2000-10-23 2002-05-03 황준성 푸리에 변환을 이용한 워터마크 삽입 및 추출 방법 및 장치
KR20050002545A (ko) * 2003-06-30 2005-01-07 주식회사 케이티 디지털 오디오 워터마킹 시스템 및 방법
KR20050020040A (ko) * 2003-08-20 2005-03-04 한국전자통신연구원 크기 변화에 강인한 양자화 기반 오디오 워터마킹 장치 및방법
US20070071277A1 (en) * 2003-05-28 2007-03-29 Koninklijke Philips Electronics Apparatus and method for embedding a watermark using sub-band filtering
KR20110014871A (ko) * 2009-08-06 2011-02-14 울산대학교 산학협력단 오디오 워터마크 삽입장치 및 방법, 그리고, 오디오 워터마크 검출장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020031654A (ko) * 2000-10-23 2002-05-03 황준성 푸리에 변환을 이용한 워터마크 삽입 및 추출 방법 및 장치
US20070071277A1 (en) * 2003-05-28 2007-03-29 Koninklijke Philips Electronics Apparatus and method for embedding a watermark using sub-band filtering
KR20050002545A (ko) * 2003-06-30 2005-01-07 주식회사 케이티 디지털 오디오 워터마킹 시스템 및 방법
KR20050020040A (ko) * 2003-08-20 2005-03-04 한국전자통신연구원 크기 변화에 강인한 양자화 기반 오디오 워터마킹 장치 및방법
KR20110014871A (ko) * 2009-08-06 2011-02-14 울산대학교 산학협력단 오디오 워터마크 삽입장치 및 방법, 그리고, 오디오 워터마크 검출장치 및 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128537A (zh) * 2019-12-31 2021-07-16 华为技术有限公司 样本处理方法和相关装置及存储介质

Also Published As

Publication number Publication date
KR101426596B1 (ko) 2014-08-05
KR20140008688A (ko) 2014-01-22

Similar Documents

Publication Publication Date Title
US10964333B2 (en) Methods and apparatus to perform audio watermarking and watermark detection and extraction
CN1808568B (zh) 具有水印插入/提取功能的音频编码/解码设备及其方法
KR100595202B1 (ko) 디지털 오디오 워터마크 삽입/검출 장치 및 방법
CA2557993C (en) Frequency-based coding of audio channels in parametric multi-channel coding systems
US20030035553A1 (en) Backwards-compatible perceptual coding of spatial cues
JP2006251676A (ja) 振幅変調を用いた音響信号への電子透かしデータの埋め込み・検出装置
Dhar et al. Blind SVD-based audio watermarking using entropy and log-polar transformation
HU219668B (hu) Berendezés és eljárás legalább egy kód-frekvenciaösszetevővel rendelkező kódnak audiojel-frekvenciaösszetevőkkel rendelkező audiojelbe való beillesztésére
CN1288623C (zh) 音频编码方法和装置
MX2014014738A (es) Compensacion de mezcla de canales para marcas de agua de audio.
US20230335144A1 (en) Multiple scrambled layers for audio watermarking
CN108712666A (zh) 一种基于互动音频水印的移动终端与电视互动方法与系统
US9824694B2 (en) Data carriage in encoded and pre-encoded audio bitstreams
CN109584890A (zh) 音频水印嵌入、提取、电视节目互动方法及装置
Malik et al. Robust audio watermarking using frequency-selective spread spectrum
WO2014010780A1 (ko) 오디오 인코딩 방법
CN1281329A (zh) 定向解码
He et al. A high capacity watermarking technique for stereo audio
AU2012241085B2 (en) Methods and apparatus to perform audio watermarking and watermark detection and extraction
Taghipour et al. On the effect of inter-channel level difference distortions on the perceived subjective quality of stereo signals
KR100821349B1 (ko) 디지털 워터마크 생성 방법 및 검출 방법
Piotrowski et al. Using drift correction modulation for steganographic radio transmission

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12880867

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12880867

Country of ref document: EP

Kind code of ref document: A1