KR20080011865A - 오디오 신호의 상태를 시각적으로 표시하는 방법 및 장치 - Google Patents
오디오 신호의 상태를 시각적으로 표시하는 방법 및 장치 Download PDFInfo
- Publication number
- KR20080011865A KR20080011865A KR1020060072522A KR20060072522A KR20080011865A KR 20080011865 A KR20080011865 A KR 20080011865A KR 1020060072522 A KR1020060072522 A KR 1020060072522A KR 20060072522 A KR20060072522 A KR 20060072522A KR 20080011865 A KR20080011865 A KR 20080011865A
- Authority
- KR
- South Korea
- Prior art keywords
- frame
- audio signal
- frame type
- sid
- state
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000000007 visual effect Effects 0.000 claims abstract description 15
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 17
- 230000008859 change Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 206010019133 Hangover Diseases 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
Abstract
본 발명은 오디오 신호의 상태를 표시하는 것에 관한 것으로, 특히 오디오 신호의 코딩 정보를 이용하여 오디오 신호의 상태를 시각적으로 표시하는 방법 및 장치에 관한 것이다. 본 발명의 단말기에서 오디오 신호의 상태를 시각적으로 표시하는 방법은 코딩된 오디오 신호 프레임과 상기 오디오 신호 프레임에 대한 프레임 타입 정보를 입력받는 과정과, 상기 프레임 타입 정보를 이용하여 상기 오디오 신호 프레임을 디코딩 및 디지털/아날로그 변환을 수행함으로써 상기 오디오 신호를 획득하고, 상기 오디오 신호를 스피커로 출력하는 과정과, 상기 프레임 타입 정보를 이용하여 상기 오디오 신호의 상태를 판단하는 과정과, 상기 판단된 오디오 신호의 상태에 대응하는 시각적 정보를 상기 오디오 신호의 출력 시 표시부에 표시하는 과정을 포함한다.
오디오 신호 상태, 프레임 타입 정보, 이미지 매칭
Description
도 1은 음성 데이터의 그래픽 이퀄라이저를 표시하는 장치의 구성도.
도 2는 본 발명의 바람직한 실시예에 따른 음성 신호를 시각적으로 표시하는 장치의 구성도.
도 3은 본 발명의 바람직한 실시예에 따라 프레임 타입 정보를 이용하여 음성 신호를 시각적으로 표시하는 과정을 도시하는 흐름도.
도 4는 본 발명의 바람직한 일실시예에 따라 프레임 타입 매칭 결과를 보여주는 도면.
도 5는 본 발명의 바람직한 실시예에 따라 변경된 프레임 타입에 해당하는 이미지를 표시하는 과정을 도시하는 흐름도.
본 발명은 오디오 신호의 상태를 표시하는 것에 관한 것으로, 특히 오디오 신호의 코딩 정보를 이용하여 오디오 신호의 상태를 시각적으로 표시하는 방법 및 장치에 관한 것이다.
기술의 비약적인 발전에 따라 사용자는 멀티미디어 기기의 고유한 기능 이외에 부가적인 기능이나 더 나은 디자인을 함께 제공하는 기기를 선호하게 되었다. 이런 사용자의 기호를 만족시키기 위하여 기기의 생산자들은 오디오 신호를 출력하기 위한 기기가 청각적인 기능을 제공할 뿐만 아니라 시각적인 정보도 제공할 수 있는 등의 부가적인 기능을 제공할 수 있도록 하기 위해 노력하고 있다.
도 1은 음성 데이터의 그래픽 이퀄라이저를 표시하는 장치의 구성도이다.
도 1을 참조하면, 디코더(110)는 입력된 음성 데이터 즉, 코딩된 비트 스트림을 디코딩(Decoding)하여 파라미터들(피치, 이득, 선형 예측 필터 계수 등)을 추출한 후, 상기 파라미터들을 이용하여 펄스 부호 변조(Pulse Code Modulation, 이하 'PCM'이라 칭함) 신호를 생성한다. 이렇게 생성된 PCM 신호는 디지털/아날로그 변환기(120)로 출력되는 동시에 주파수 크기 분석기(140)로 출력된다.
디지털/아날로그 변환기(120)는 상기 디코더(110)로부터 입력된 디지털 PCM 신호를 아날로그 신호로 변환하고 스피커(130)로 출력한다. 스피커(130)는 상기 입력된 아날로그 신호를 소리로 출력한다.
주파수 크기 분석기(140)는 상기 디코더(110)로부터 입력된 PCM 신호를 이용하여 상기 PCM 신호의 주파수 대역별 크기를 분석하고 표시부(150)로 출력한다. 표시부(150)는 상기 주파수 크기 분석기(140)로부터 입력된 주파수 대역별 크기를 그래픽 이퀄라이저(Graphic Equalizer)로 표시한다. 상술한 방식은 스피커(240)를 통해 오디오 신호가 출력될 뿐만 아니라 표시부(260)에 시각적으로 오디오 신호의 상 태가 표시될 수 있다.
그런데, 상기 주파수 대역별 크기를 그래픽 이퀄라이저로 표시하는 방식은 음성이 아닌 일반적인 음악의 경우, 음원의 주파수 대역폭이 넓고 사용자 측에서 주파수 성분의 변화를 느낄 수 있다. 따라서, 그래픽 표시 장치를 통하여 주파수 대역별 표시가 청각적으로 인지되는 정보와 동기가 형성될 수 있으며 차이를 쉽게 알 수 있다. 그러나, 음성의 경우 주파수 대역폭이 협소하고 주파수의 변화가 크지 않으므로, 시각적 변화를 느끼기가 어려우며 주파수 대역별 표시가 청각적으로 인지되는 정보와 동기가 형성되기 어렵다. 그러므로, 주파수 성분의 크기 변화를 표시한다고 해도 음성의 경우에는 사용자에게 흥미를 줄 수 있을 정도의 변화를 느낄 수 없다는 문제점이 있다.
그리고, 도 1에서 도시하고 있는 오디오 신호의 출력 방식은 PCM 신호의 주파수 대역별 크기를 분석하여야 하므로 시각적 표시를 위한 추가적인 연산이 수행되어야 하고, 이로 인해 지연이 발생될 수 있다.
따라서, 추가적인 연산을 위해 전력이 소모되고 메모리 사용이 증가되는 비효율성을 초래한다. 이러한 점은 특히 전력과 메모리 증가에 제약을 많이 받는 휴대 단말기에 있어서 매우 비효율적이다.
따라서 본 발명은 오디오 신호의 상태를 효율적으로 표시하는 방법 및 장치를 제공한다.
본 발명은 오디오 신호, 특히 음성 신호의 정보를 나타내는 프레임 타입을 이용하여 오디오 신호의 상태를 시각적으로 표시하는 방법 및 장치를 제공하는 것이다.
본 발명의 바람직한 실시예의 일 견지에 따르면, 본 발명의 단말기에서 오디오 신호의 상태를 시각적으로 표시하는 방법은 코딩된 오디오 신호 프레임과 상기 오디오 신호 프레임에 대한 프레임 타입 정보를 입력받는 과정과, 상기 프레임 타입 정보를 이용하여 상기 오디오 신호 프레임을 디코딩 및 디지털/아날로그 변환을 수행함으로써 상기 오디오 신호를 획득하고, 상기 오디오 신호를 스피커로 출력하는 과정과, 상기 프레임 타입 정보를 이용하여 상기 오디오 신호의 상태를 판단하는 과정과, 상기 판단된 오디오 신호의 상태에 대응하는 시각적 정보를 상기 오디오 신호의 출력 시 표시부에 표시하는 과정을 포함한다.
본 발명의 바람직한 실시예의 다른 견지에 따르면, 본 발명의 단말기에서 오디오 신호의 상태를 시각적으로 표시하는 장치는, 입력받은 코딩된 오디오 신호 프레임을 입력받은 프레임 타입 정보를 이용하여 디코딩하는 디코딩부와, 상기 디코딩된 프레임을 아날로그 신호로 변환하는 디지털/아날로그 변환기와, 상기 변환된 아날로그 신호를 청각적으로 출력하는 스피커와, 상기 프레임 타입 정보를 이용하여 상기 오디오 신호의 상태를 판단하고 상기 오디오 신호 프레임에 시각적 정보를 매칭하는 프레임 타입 매칭기와, 상기 오디오 신호 출력 시 상기 매칭된 시각적 정보를 표시하는 표시부를 포함한다.
전술한 바와 같은 내용들은 당해 분야 통상의 지식을 가진 자가 후술되는 본 발명의 구체적인 설명으로부터 보다 잘 이해할 수 있도록 하기 위하여 본 발명의 특징들 및 기술적인 장점들을 다소 넓게 약술한 것이다. 이러한 특징들 및 장점들 이외에도 본 발명의 청구범위의 주제를 형성하는 본 발명의 추가적인 특징들 및 장점들이 후술되는 본 발명의 구체적인 설명으로부터 잘 이해될 것이다.
이하 본 발명의 바람직한 실시예의 상세한 설명이 첨부된 도면들을 참조하여 설명될 것이다. 당해 분야에서 통상의 지식을 가진 자는 본 발명이 이루고자 하는 기술적 과제를 달성하기 위하여 후술되는 발명의 개시된 개념 및 구체적인 실시예가 변경 또는 변형되어 사용될 수도 있다는 사실을 잘 인식할 것이다. 또한 당해 분야에서 통상의 지식을 가진 자는 본 발명이 개시하는 개념 및 구조와 균등한 개념들 및 구조들이 본 발명의 가장 넓은 형태의 사상 및 범위로부터 벗어나지 않는다는 사실을 잘 인식할 것이다. 하기에서 본 발명을 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.
본 발명의 주요한 요지는 오디오 신호의 상태를 표시함에 있어서 추가적인 연산을 수행함으로 인해 메모리 사용을 증가시키는 주파수 성분을 이용하는 것이 아니라 코딩된 오디오 패킷(Packet)에 대한 코딩 정보를 이용한다. 상기 코딩 정보는 추가적인 연산을 필요로 하지 않고, 코딩된 패킷을 디코딩하기 위해 기본적으로 요구되는 정보로서, 오디오 신호의 정상적인 디코딩 과정을 위해 사용되는 부산물 이다.
이하 본 발명은 오디오 신호의 디코딩 과정을 위해 사용되는 코딩 정보 특히, 프레임 타입(Frame Type) 정보를 이용하여 오디오 신호의 상태를 시각적으로 표시하는 실시예에 대해 도면을 통하여 설명한다. 본 발명은 모든 청각적인 정보를 포함하는 오디오 신호에 대해 적용될 수 있지만, 본 명세서에서는 설명의 편의상 음성 신호에 국한하여 음성 신호를 예로 들어 설명한다. 이하 설명에서, 프레임 타입은 프레임의 종류 즉, 음성, 묵음, 또는 에러 등의 종류를 의미하고, 프레임 타입 정보는 상기 프레임 타입에 대한 정보를 의미한다. 특히 이동 통신 단말기에 있어서 상기 프레임 타입 정보는 채널 디코더(Channel Decoder)에 의해 생성될 수 있다.
도 2는 본 발명의 바람직한 실시예에 따른 이동 통신 단말기에 있어서 음성 신호의 상태를 시각적으로 표시하는 장치의 구성도이다. 도 2에 도시된 장치는 음성 신호를 스피커로 출력하고 그 상태를 시각적으로 표시하는데 필요한 구성들만을 도시하고 있음을 유의한다.
도 2를 참조하면, 채널 디코더(210)는 무선 통신의 경우에 요구되는 구성으로써, 채널 디코더(210)로 입력되는 수신 데이터의 구성은 통신의 상황에 따라 달라질 수 있다. 만약 무선 통신의 경우라면, 상기 수신 데이터는 송신측으로부터 데이터를 수신하는 무선 주파수(Radio Frequency, 이하 'RF'라 칭함)부, 상기 수신된 데이터를 복조하는 복조부(Demodulation)를 거쳐서 입력되는 신호를 의미한다.
채널 디코더(210)는 입력된 수신 데이터를 채널 디코딩한다. 다시 말해서, 상기 입력된 데이터에 대하여 블라인드 전송 포맷 검출(Blind Transport Format Detection: BTFD)과 순환 잉여 검사(Cyclic Redundancy Check: CRC)를 수행함으로써, 상기 입력된 데이터로부터 압축된 음성 신호를 나타내는 보코더(Vocoder) 프레임과 상기 보코더 프레임에 대한 프레임 타입 정보를 추출하고 보이스 디코더(220)로 제공한다. 여기에서 상기 보코더 프레임은 통상적인 보코더(Vocoder)에서 사용되는 프레임으로, 1 프레임이 20ms의 길이를 가지는 것으로 가정한다.
상기 프레임 타입 정보는 본 발명의 바람직한 실시예에 따라, 상기 입력된 음성 신호의 상태 즉, 음성인지, 묵음인지, 또는 에러인지를 판단하기 위해 이용된다. 상기 프레임 타입 정보는 디코딩을 위해 통상적으로 생성되는 것이므로, 상기 입력된 음성 신호의 상태를 판단하기 위하여 추가적인 연산을 필요로 하지 않는다. 한편 도 2에서는 무선 통신의 경우를 예로 들어 설명하고 있지만, 무선 통신이 아닌 유선 통신의 경우에는 상기 보코더 프레임의 프레임 타입 정보가 채널 디코더(210)를 통해 생성되는 것이 아니라 통신 선로를 통해 직접 보이스 디코더(220)로 입력될 수 있다.
보이스 디코더(220)는 상기 프레임 타입 정보를 이용하여 비트 스트림 형태인 상기 보코더 프레임을 보이스 디코딩한 후, 상기 디코딩된 신호를 디지털/아날로그 변환기(Digital/Analog Converter)(230)로 출력한다. 이하 본 명세서에서는 상기 보이스 디코더(220)가 음성 코덱(COder/DECoder: CODEC)인 적응 멀티 레이트(Adaptive Multi-Rate, 이하 'AMR'라 칭함) 보코더(Vocoder)인 경우의 예를 들어 설명한다. 그러나, 본 발명이 상기 AMR 보코더에 국한되지 않고 다른 종류의 보이 스 디코더에도 적용될 수 있음을 유의한다.
디지털/아날로그 변환기(230)는 상기 보이스 디코더(220)로부터 입력된 디지털 신호를 아날로그 신호로 변환하여 스피커(240)로 출력한다. 스피커(240)는 상기 아날로그 신호로 변환된 신호를 가청음 형태로 출력한다.
한편 프레임 타입 매칭기(250)는 상기 채널 디코더(210)로부터 프레임 타입 정보를 얻는다. 여기에서 프레임 타입 정보는 상기 디코딩할 보코더 프레임의 상태를 나타내는 것으로써, 상기 보코더 프레임의 상태는 크게 음성 프레임, 묵음 프레임, 에러 프레임으로 분류될 수 있다. 이에 대해, 예를 들어 AMR 보코더(Vocoder)에서의 디코더의 경우, 생성되는 프레임 타입은 하기 <표 1>과 같이 분류될 수 있다. 즉, 정상적인 음성이 수신되는 경우 프레임 타입은 스피치 양호(SPEECH_GOOD)로 나타나고, 묵음이 수신되는 경우 묵음_업데이트(SID_UPDATE), 묵음_무데이터(SID_ NODATA), 묵음_제1신호(SID_FIRST) 등으로 나타나며, CRC 에러인 프레임의 경우 스피치 불량(SPEECH_BAD), 묵음 불량(SID_BAD) 등으로 나타난다. 따라서 채널 디코더(210)를 통해 생성된 프레임 타입에 대한 정보는 송신측 및 전송로의 상태를 판단할 수 있는 근거가 된다.
RX_TYPE | INFORMATION BITS |
SPEECH_GOOD | Speech frame without detected errors |
SPEECH_BAD | (likely) Speech frame with bad CRC (or estimated to be very bad by the RX part of the AN) |
SID_FIRST | This SID-frame marks the beginning of a comfort noise period |
SID_UPDATE | Corrected SID update frame |
SID_BAD | Corrupt SID update frame(bad CRC; applicable only for SID_UPDATE frame) |
NO_DATA | Nothing useable was received. The synthesis mode of the previous frame type is used |
상기 "SPEECH_GOOD" 프레임은 에러가 검출되지 않는 음성 프레임을 의미하고, "SID_UPDATE" 프레임은 정정된 묵음 업데이트 프레임을, "SID_NODATA" 프레임은 사용가능한 데이터가 없는 프레임을, "SID_FIRST" 프레임은 묵음 구간의 시작을 알리는 프레임을, "SPEECH_BAD" 프레임은 음성 프레임인 것 같으나 CRC 검사에서 에러가 있는 프레임을, "SID_BAD" 프레임은 "SID_UPDATE" 프레임으로 판단되나 CRC 검사에서 에러가 있는 프레임을 의미한다. AMR 코덱(COder/DECoder: CODEC) 프레임 타입에 대한 더욱 자세한 설명은 관련 표준(예, 3G(3rd Generation) TS(Telecommunication Standard) 26.093 "Source Controled Rate Operation")을 참조한다.
상기와 같이 프레임 타입 정보를 입력받은 프레임 타입 매칭기(250)는 상기 프레임 타입 정보에 대응하는 시각적 정보, 예를 들어 이미지를 매칭한다. 상기 이미지는 개인 컴퓨터 등을 통해 사용자에 의해 단말기에 저장되거나 혹은 제조사에 의해 단말기에 미리 저장되는 것으로써, 사용자의 취향에 맞는 사진, 파형, 아바타(avatar), 움직이는 그림 등 사용자에 의해 입력된 이미지가 되거나, 단말기 내에 저장된 이미지가 될 수도 있다.
표시부(260)는 상기 프레임 타입 정보에 대해 매칭된 이미지를 스피커(240)로 출력되는 소리에 맞춰 시각적으로 표시한다.
이하 상기 채널 디코더(210)에 의한 상기 프레임 타입 정보의 생성에 대해 도면을 통하여 상세하게 설명한다.
도 3은 본 발명의 일실시예에 따른 프레임 타입 정보의 생성 메커니즘을 예시한 도면이다. 도시된 프레임 타입 정보는 AMR 보코더의 경우에 해당하는 프레임 타입 정보이다. 통상의 경우에 상기 프레임 타입 정보는 인코딩시에 결정되는 정보로써, 도 3은 송신측에서 인코딩된 프레임에 따라 생성되는 프레임 타입 정보를 도시하고 있다. 이하 도 3을 참조하여 상기 프레임 타입 정보에 대해 프레임을 인코딩되는 송신측과, 인코딩된 프레임으로부터 상기 프레임 타입 정보를 추출하는 수신측의 경우로 나누어 설명한다.
송신측 즉, AMR 인코더에서는 VAD(Voice Activity Detector) 알고리즘을 통해 송신할 프레임의 내용이 음성인지의 여부를 판별한다. 송신할 프레임이 음성인 경우 입력된 음성이 정상적으로 인코딩되며, 묵음인 경우 송신측의 배경잡음이 인코딩된다. 상기 배경잡음은 음성이 없는 구간일지라도 단절되는 듯한 느낌을 느끼지 않고 자연스럽게 느껴지도록 하기 위한 목적에서 삽입된다. 상기 배경 잡음을 인코딩하는 경우, 배경 잡음 프레임은 매 프레임 구간마다 전송하지 않고 매 8번째 프레임 구간마다 전송된다.
도 3을 참조하면, VAD 플래그(Flag)가 1(High)인 경우는 음성을 의미하고, 0(Low)인 경우는 묵음을 의미한다. 음성 구간(310)은 음성이 인코딩되는 구간으로 음성이 인코딩된다. 음성 구간의 마지막 프레임(340) 이후인 8개의 묵음 프레임들을 행오버(Hangover) 구간(320)이라 하는데, 상기 행오버 구간(320)은 음성 프레임과 묵음 프레임간의 급격한 변화를 막기 위해 음성 프레임과 묵음 프레임 사이에 위치되는 구간으로 통상적으로 8개의 묵음 프레임들을 포함한다. 만약 묵음이 상기 행오버 구간(320) 동안 계속되면 즉, VAD 플래그 '0'이 8 프레임들 이상 계속되면, AMR 인코더는 음성 구간으로부터 묵음 구간으로 천이되었다고 판단하고, 배경잡음 인코딩 모드로 진입한다. 상기 행오버 구간(320)(36~42번 프레임)에는 비록 VAD 플래그가 '0'일지라도 음성이 입력된 것으로 간주하고 입력을 인코딩한다.
도 3에서 프레임 타입(TX Type) 정보가 'S'로 표기된 프레임(35~42번 프레임)은 음성 프레임을 의미하며, 'SPEECH_GOOD'을 나타낸다. 상기 행오버 구간(320) 이후 최초로 나타나는 묵음 프레임(43번 프레임)은 묵음 구간(330)의 시작을 나타내고, 프레임 타입 정보는 'F'로 표기되며 이는 'SID_FIRST'를 나타낸다. 상기 'SID_FIRST' 프레임은 35 비트(Bit)의 '0'으로 구성된다. 상기 'SID_FIRST' 이후에 나타나는 두 프레임들(44 및 45번 프레임)은 아무 데이터로 전송하지 않는 프레임들로, 상기 프레임들의 프레임 타입 정보는 'N'으로 표기되고 이는 'NO_DATA'를 나타낸다. 상기 두 개의 'NO_DATA' 프레임들 이후에 매 8번째 프레임마다 1 프레임씩 송신측 배경 잡음의 씨드(Seed) 정보를 포함하는 프레임(0번 프레임)이 전송된다. 이런 프레임의 타입 정보는 'U'라 표기되며, 이는 'SID_UPDATE'를 나타낸다.
그런데, 상기 언급한 'SPEED_GOOD', 'SID_FIRST', 'SID_UPDATE', 'NO_DATA' 등의 프레임 타입 정보는 인코딩 메커니즘을 설명하기 위한 개념적인 명칭일 뿐이며 실제로 수신측으로 전송되지는 않는다. 즉 인코딩된 음성 프레임 또는 인코딩된 배경 잡음 프레임만이 실제로 전송된다. 상세한 설명은 관련 표준(3G TS 26.093)을 참조한다.
다음으로 수신측에서 상기 프레임 타입 정보를 추출하는 과정을 살펴본다.
RF부에서 수신된 신호는 복조 과정 및 채널 디코딩 과정을 거치게 되는데, 이때 채널 디코더에 의해 CRC 검사를 통한 BTFD가 수행됨으로써 상기 수신된 신호로부터 프레임 타입 정보를 추출할 수 있다. 상기 프레임 타입 정보를 추출하는 과정을 자세히 예를 들어 설명하면 다음과 같다.
만약 AMR 12.2 kbps 모드의 경우, 음성('SPEECH_GOOD') 프레임은 244 비트(bit)들로 이루어져 있으며, 묵음('SID_FIRST', 'SID_UPDATE') 프레임은 39 비트들로 이루어져 있다. 따라서, 수신된 프레임에 대한 BTFD 과정에서 음성 프레임에 해당하는 244 비트 위치, 묵음 프레임에 해당하는 39 비트 위치, 또는 0 비트의 위치에 대해 CRC 검사를 수행함으로써, 채널 디코더는 수신된 프레임에 해당하는 프레임 타입을 유추할 수 있다. 다시 말해서, 244 비트의 위치에서 CRC 검사가 'GOOD'이면, 수신된 프레임은 12.2 kbps 모드로 인코딩된 음성 프레임이며, 상기 프레임의 타입 정보는 'SPEECH_GOOD'임을 알 수 있다. 그리고 만약 39 비트의 위치에서 CRC 검사가 'GOOD'이고, 전반 35 비트들이 모두 '0'이라면, 수신된 프레임의 타입 정보는 'SID_FIRST'임을 알 수 있다. 이런 방식으로 채널 디코더는 수신된 신호의 프레임 타입 정보를 추출하며, 보이스 디코더는 상기 프레임 타입 정보를 이용하여 음성 디코딩을 수행함으로써 최종적으로 상기 수신된 신호를 소리로 출력한다. 또한, 이렇게 함으로써 송신측으로부터 프레임 타입에 대한 정보를 수신하지 않더라도 수신측에서 상기 프레임 타입 정보를 유추할 수 있으며, 본 발명에서는 상기 프레임 타입 정보를 이용하여 오디오 신호의 상태 즉, 음성 혹은 묵음인지 알 수 있다.
도 4는 본 발명의 바람직한 실시예에 따라 프레임 타입 정보를 이용하여 음성 신호를 시각적으로 표시하는 과정을 도시하는 흐름도이다. 하기에서는 상기 도 2에서 도시한 AMR 보코더의 경우에 한정하여 본 발명의 동작을 설명할 것이지만, 이는 오디오 신호의 수신 구간, 묵음 구간, 에러 등을 의미하는 프레임 타입 정보를 얻을 수 있는 모든 경우에 적용될 수 있음을 유의한다.
도 4를 참조하면, 410 단계에서 도 2의 프레임 타입 매칭기(250)는 현재 디코딩되는 프레임에 대응하는 입력된 프레임 타입 정보를 판독한다. 상기 프레임 타입에는 상술한 바와 같이 AMR 보코더의 경우 음성 프레임을 의미하는 RX_SPEECH_GOOD 프레임, 묵음 프레임을 의미하는 RX_SID_UPDATE, RX_SID_ NODATA, RX_SID_FIRST 프레임, CRC 에러 즉, 에러 프레임을 의미하는 RX_SPEECH_BAD, RX_SID_BAD 프레임이 있다.
420 단계에서 프레임 타입 매칭기(250)는 상기 프레임 타입 정보가 SPEECH_GOOD 프레임인지 확인하고, 만약 SPEECH_GOOD 프레임이라면 430 단계로 진행하고, 만약 SPEECH_GOOD 프레임이 아니라면 440 단계로 진행한다.
430 단계에서 프레임 타입 매칭기(250)는 상기 프레임 타입 정보가 SPEECH_GOOD 프레임이므로, 현재 프레임을 음성 프레임으로 판단한다.
440 단계에서 프레임 타입 매칭기(250)는 상기 프레임 타입 정보가 SPEECH_GOOD 프레임이 아니므로, 묵음 프레임인지를 확인하기 위해, 상기 프레임 타입 정보가 묵음 프레임을 의미하는 SID_FIRST, SID_UPDATE, 혹은 SID_NODATA 프레임들 중의 하나인지를 확인한다. 만약 상기 프레임 타입들 중의 하나라면, 묵음 프레임이므로 450 단계로 진행하고, 만약 상기 프레임 타입들 중의 어느 하나도 아니라면, 460 단계로 진행한다.
상기 440 단계에서의 상기 프레임 타입 정보가 상기 묵음 프레임들 중의 하나를 나타내므로, 450 단계에서 프레임 타입 매칭기(250)는 현재 프레임이 묵음 프레임으로 판단한다.
460 단계에서 프레임 타입 매칭기(250)는 상기 440 단계에서 상기 프레임 타입 정보가 상기 묵음 프레임을 나타내지 않으므로, 현재 프레임을 에러 프레임으로 판단한다. AMR 보코더의 경우, 상기 에러 프레임의 프레임 타입에는 SPEED_BAD 및 SID_BAD 프레임이 있다.
470 단계에서 프레임 타입 매칭기(250)는 상기 430 단계, 450 단계, 460 단계에서 판단된 프레임 타입을 표시부에 표시할 것인지를 결정한다. 상기 결정 과정은 도 6을 예로 들어 이후에 자세히 설명하기로 한다. 470 단계에서 판단된 프레임 타입을 표시하기로 결정하면, 480 단계로 진행하고 그렇지 않으면 410 단계로 되돌아간다.
480 단계에서 프레임 타입 매칭기(250)는 상기 470 단계에서 표시하기로 결정된 프레임 타입에 대응되는 이미지를 매칭한다.
490 단계에서 프레임 타입 매칭기(250)는 상기 480 단계에서 매칭된 이미지를 도 2의 표시부(260)를 통하여 시각적으로 표시한다. 여기에서의 이미지는 앞서 언급한 바와 같이, 사용자에 의해 미리 정해지는 이미지로써 사용자에 의해 입력된 이미지일 수도 있고 단말기에 미리 저장된 이미지일 수 있다.
이렇게 함으로써, 본 발명은 추가적인 연산을 수행하지 않고 간단하게 오디오 신호의 상태를 시각적으로 표시할 수 있다.
도 5는 본 발명의 바람직한 일실시예에 따라 프레임 타입의 매칭 결과를 보여주는 도면이다.
도 5를 참조하면, 도 2의 프레임 타입 매칭기(250)는 입력된 프레임 타입 정보(500)를 이용하여 상기 도 4와 같은 동작을 수행함으로써, 상기 입력된 프레임 타입에 대응되는 이미지(510, 520, 530)를 매칭시키고, 상기 매칭된 이미지를 표시하기 위하여 표시부(260)로 전달한다.
상기 프레임 타입 정보(500)가 음성 프레임에 해당하면 표시부(260)는 음성 프레임에 매칭되는 이미지(510)를 표시한다. 상기 이미지(510)는 예를 들어 말을 하는 듯 입술을 움직이는 형태의 얼굴이 될 수 있다.
상기 프레임 타입 정보(500)가 묵음 프레임에 해당하면 표시부(260)는 묵음 프레임에 매칭되는 이미지(520)를 표시한다. 상기 이미지(520)는 예를 들어 말을 하지 않는 듯 입술을 다물고 있는 형태의 얼굴이 될 수 있다.
상기 프레임 타입 정보(500)가 에러 프레임에 해당하면 표시부(260)는 에러 프레임에 매칭되는 이미지(530)를 표시한다. 상기 이미지(530)는 예를 들어 찡그린 표정의 얼굴이 될 수 있다.
이렇게 수신된 음성 프레임에 해당하는 이미지를 매칭시켜서 표시함으로써 사용자는 음성 신호의 상태를 시각적으로 간단히 확인할 수 있다.
도 6은 본 발명의 바람직한 실시예에 따라 변경된 프레임 타입에 해당하는 이미지를 표시하는 과정을 도시하는 흐름도이다. 도 6의 동작은 프레임의 타입이 빈번하게 변경되는 경우에 대응하기 위함이다.
도 6을 참조하면, 610 단계에서 프레임 타입 매칭기(250)가 도 4의 430 단계, 450 단계, 460 단계에서 판단된 프레임의 타입이 이전 프레임의 타입과 일치하는지를 비교한다. 상기 이전 프레임 타입은 이전에 표시되고 있는 이미지 즉, 이전 상태에 매칭되는 프레임이 아니라, 바로 이전 주기에서 상기 430, 450, 460 단계에서 판단된 프레임의 타입을 의미한다. 만약 일치한다면 620 단계로 진행하고, 만약 일치하지 않는다면 640 단계로 진행한다.
620 단계에서 프레임 타입 매칭기(250)는 현재 프레임의 타입이 이전 프레임 타입과 일치하므로 카운터의 값을 1 증가시킨다. 상기 카운터 값은 프레임에 매칭되는 이미지가 변경되어 표시되는 빈도를 조절하기 위해 임계값(threshold)과 비교함으로써, 현재 프레임에 매칭되는 이미지를 표시할지의 여부를 판단하기 위한 것이다. 630 단계에서 프레임 타입 매칭기(250)는 현재 프레임의 타입이 이전 프레임 타입과 일치하므로 이전 상태, 즉 이전 프레임 타입에 매칭되는 이미지를 유지한다.
반면 640 단계에서 프레임 타입 매칭기(250)는 현재 프레임의 타입이 이전 프레임 타입과 일치하지 않으므로, 이미지를 변경할 것인지 결정하기 위해 현재 프레임 타입에 대해 저장된 카운터 값과 미리 정해진 임계값과 비교한다. 만약 카운터 값이 임계값보다 크다면 650 단계로 진행하고, 그렇지 않으면 660 단계로 진행한다.
650 단계에서 프레임 타입 매칭기(250)는 현재 프레임 타입에 대한 카운터 값이 상기 임계값보다 큰 경우이므로, 현재 프레임 타입에 따라 상태를 변경한다.
670 단계에서 프레임 타입 매칭기(250)는 현재 프레임 타입에 따라 상태가 변경되었으므로 현재 프레임 타입의 카운터 값을 0으로 초기화한다.
660 단계에서 프레임 타입 매칭기(250)는 현재 프레임 타입에 대한 카운터 값이 임계값보다 크지 않은 경우이므로, 현재 프레임 타입에 상관없이 이전 상태를 유지한다. 이렇게 함으로써, 임계값보다 작은 횟수의 변화에 대해서는 무시하게 되어 음성 신호의 상태를 나타내는 이미지의 빈번한 변화를 방지할 수 있다. 다시 말해서, 프레임 타입에 대한 변화나 희박한 노이즈 등에 대한 오판이 빈번할 경우, 상기 프레임 타입 변화에 따라 상기 변경된 프레임에 대응하는 이미지의 변화가 함께 빈번해질 수 있고 이는 사용자에게 좋지 않은 영향을 줄 수 있는데, 도 6의 과정을 수행함으로써 문제를 방지할 수 있다.
한편 본 발명의 상세한 설명에서는 구체적인 실시 예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시 예에 국한되어 정해져서는 아니되며 후술하는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.
상술한 바와 같이 본 발명은 코딩된 패킷의 프레임 타입 정보를 이용함으로추가적인 연산이나 지연없이 간단하게 송신측에서 코딩된 프레임의 타입 즉, 송신측의 오디오 신호의 상태를 시각적으로 표시할 수 있는 이점이 있다.
Claims (10)
- 단말기에서 오디오 신호의 상태를 시각적으로 표시하는 방법에 있어서,코딩된 오디오 신호 프레임과 상기 오디오 신호 프레임에 대한 프레임 타입 정보를 입력받는 과정과,상기 프레임 타입 정보를 이용하여 상기 오디오 신호 프레임을 디코딩 및 디지털/아날로그 변환을 수행함으로써 오디오 신호를 획득하고, 상기 오디오 신호를 스피커로 출력하는 과정과,상기 프레임 타입 정보를 이용하여 상기 오디오 신호의 상태를 판단하는 과정과,상기 판단된 오디오 신호의 상태에 대응하는 시각적 정보를 상기 오디오 신호의 출력 시 표시부에 표시하는 과정을 포함하는 오디오 신호 상태 표시 방법.
- 제 1항에 있어서, 상기 표시하는 과정은,상기 오디오 신호의 상태가 변경된 횟수가 미리 정해진 임계값을 초과하는 경우 상기 변경된 오디오 신호의 상태에 대응하는 시각적 정보를 표시하는 것을 특징으로 하는 오디오 신호 상태 표시 방법.
- 제 1항에 있어서, 상기 프레임 타입 정보는, 음성 프레임인지, 묵음 프레임인지, 또는 에러 프레임인지를 나타냄을 특징으로 하는 오디오 신호 상태 표시 방법.
- 제 3항에 있어서, AMR(Adaptive Multi-Rate) 디코더의 경우, 상기 음성 프레임의 프레임 타입은 'SPEECH_GOOD'로, 상기 묵음 프레임의 프레임 타입은 'SID_FIRST', 'SID_UPDATE', 'SID_NODATA'로, 상기 에러 프레임의 프레임 타입은 'SPEECH_BAD', 'SID_BAD'로 나타냄을 특징으로 하는 오디오 신호 상태 표시 방법.
- 제 1항에 있어서, 상기 시각적 정보는 사용자 혹은 제조사에 의해 정해짐을 특징으로 하는 오디오 신호 상태 표시 방법.
- 단말기에서 오디오 신호의 상태를 시각적으로 표시하는 장치에 있어서,입력받은 코딩된 오디오 신호 프레임을 입력받은 프레임 타입 정보를 이용하여 디코딩함으로써 오디오 신호를 생성하는 디코딩부와,상기 오디오 신호를 아날로그 신호로 변환하는 디지털/아날로그 변환기와,상기 변환된 아날로그 신호를 청각적으로 출력하는 스피커와,상기 프레임 타입 정보를 이용하여 상기 오디오 신호의 상태를 판단하고 상기 오디오 신호의 상태에 대응하는 시각적 정보를 매칭하는 프레임 타입 매칭기와,상기 오디오 신호 출력 시 상기 시각적 정보를 표시하는 표시부를 포함하는 오디오 신호 상태 표시 장치.
- 제 6항에 있어서, 상기 표시부는,상기 오디오 신호의 상태가 변경된 횟수가 미리 정해진 임계값을 초과하는 경우 상기 변경된 오디오 신호의 상태에 대응하는 시각적 정보를 표시함을 특징으로 하는 오디오 신호 상태 표시 장치.
- 제 6항에 있어서, 상기 프레임 타입 정보는, 음성 프레임인지, 묵음 프레임인지, 또는 에러 프레임인지를 나타냄을 특징으로 하는 오디오 신호 상태 표시 장치.
- 제 8항에 있어서, AMR(Adaptive Multi-Rate) 디코더의 경우, 상기 음성 프레임의 프레임 타입은 'SPEECH_GOOD'로, 상기 묵음 프레임의 프레임 타입은 'SID_FIRST', 'SID_UPDATE', 'SID_NODATA'로, 상기 에러 프레임의 프레임 타입은 'SPEECH_BAD', 'SID_BAD'로 나타냄을 특징으로 하는 오디오 신호 상태 표시 장치.
- 제 6항에 있어서, 상기 시각적 정보는, 사용자 혹은 제조사에 의해 정해짐을 특징으로 하는 오디오 신호 상태 표시 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060072522A KR20080011865A (ko) | 2006-08-01 | 2006-08-01 | 오디오 신호의 상태를 시각적으로 표시하는 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060072522A KR20080011865A (ko) | 2006-08-01 | 2006-08-01 | 오디오 신호의 상태를 시각적으로 표시하는 방법 및 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20080011865A true KR20080011865A (ko) | 2008-02-11 |
Family
ID=39340265
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020060072522A KR20080011865A (ko) | 2006-08-01 | 2006-08-01 | 오디오 신호의 상태를 시각적으로 표시하는 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20080011865A (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100082961A (ko) * | 2009-01-12 | 2010-07-21 | 삼성전자주식회사 | 이동 단말에서 수화 음성 신호 처리 장치 및 방법 |
-
2006
- 2006-08-01 KR KR1020060072522A patent/KR20080011865A/ko not_active Application Discontinuation
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100082961A (ko) * | 2009-01-12 | 2010-07-21 | 삼성전자주식회사 | 이동 단말에서 수화 음성 신호 처리 장치 및 방법 |
US9099095B2 (en) | 2009-01-12 | 2015-08-04 | Samsung Electronics Co., Ltd. | Apparatus and method of processing a received voice signal in a mobile terminal |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4313570B2 (ja) | 音声復号における音声フレームのエラー隠蔽のためのシステム | |
JP5268952B2 (ja) | データパケットのシーケンスを伝送するための装置および方法ならびにデータパケットのシーケンスをデコードするためのデコーダおよび装置 | |
JP3264822B2 (ja) | 移動体通信機器 | |
US8725500B2 (en) | Apparatus and method for encoding at least one parameter associated with a signal source | |
EP2036204B1 (en) | Method and apparatus for an audio signal processing | |
WO2007140724A1 (fr) | procédé et appareil pour transmettre et recevoir un bruit de fond et système de compression de silence | |
US20070064681A1 (en) | Method and system for monitoring a data channel for discontinuous transmission activity | |
KR100465318B1 (ko) | 광대역 음성신호의 송수신 장치 및 그 송수신 방법 | |
KR101011320B1 (ko) | 스피치를 저장, 전송 및 재생하기 위하여 포즈 프레임을 식별하여 제외하는 방법 및 장치 | |
KR20080011865A (ko) | 오디오 신호의 상태를 시각적으로 표시하는 방법 및 장치 | |
US9990932B2 (en) | Processing in the encoded domain of an audio signal encoded by ADPCM coding | |
JPH11163744A (ja) | ディジタル通信用音声送受信装置 | |
JP5255358B2 (ja) | 音声伝送システム | |
JP3508850B2 (ja) | 疑似背景雑音生成方法 | |
CN113450809B (zh) | 语音数据处理方法、系统及介质 | |
TWI394398B (zh) | 用於傳輸資料分組序列的設備和方法以及用於對資料分組序列進行解碼的解碼器和設備 | |
JP2002252644A (ja) | 音声パケット通信装置及び音声パケット通信方法 | |
JPS60107933A (ja) | Adpcm符号化装置 | |
JPH09149104A (ja) | 擬似背景雑音生成方法 | |
Liu et al. | FEC-based packet loss recovery for AVS-M audio codec | |
JP2002171176A (ja) | 送信機、受信機およびデータ伝送方法 | |
JP2009204815A (ja) | 無線通信装置、無線通信方法および無線通信システム | |
JPH0456498B2 (ko) | ||
JP2002333900A (ja) | 音声符号化復号化方法および音声送受信装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WITN | Withdrawal due to no request for examination |