KR102214440B1 - 통화 기능을 수행하는 단말 장치 및 방법 - Google Patents

통화 기능을 수행하는 단말 장치 및 방법 Download PDF

Info

Publication number
KR102214440B1
KR102214440B1 KR1020197009755A KR20197009755A KR102214440B1 KR 102214440 B1 KR102214440 B1 KR 102214440B1 KR 1020197009755 A KR1020197009755 A KR 1020197009755A KR 20197009755 A KR20197009755 A KR 20197009755A KR 102214440 B1 KR102214440 B1 KR 102214440B1
Authority
KR
South Korea
Prior art keywords
mode
transmission signal
voice
terminal device
signal
Prior art date
Application number
KR1020197009755A
Other languages
English (en)
Other versions
KR20190052687A (ko
Inventor
정경훈
성호상
오은미
정종훈
주기현
곽병훈
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of KR20190052687A publication Critical patent/KR20190052687A/ko
Application granted granted Critical
Publication of KR102214440B1 publication Critical patent/KR102214440B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72409User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by interfacing with external accessories
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/725Cordless telephones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M7/00Arrangements for interconnection between switching centres
    • H04M7/0024Services and arrangements where telephone services are combined with data services
    • H04M7/0039Services and arrangements where telephone services are combined with data services where the data service is provided by a stream of packets which are rendered in real time by the receiving terminal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • G10L19/107Sparse pulse excitation, e.g. by using algebraic codebook
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/34Microprocessors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/36Memories
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/50Telephonic communication in combination with video communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M7/00Arrangements for interconnection between switching centres
    • H04M7/006Networks other than PSTN/ISDN providing telephone service, e.g. Voice over Internet Protocol (VoIP), including next generation networks with a packet-switched transport layer
    • H04M7/0072Speech codec negotiation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/142Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
    • H04N2007/145Handheld terminals

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

고감도로 주변음을 전송하는 통화 기능을 수행 할 수 있는 단말 장치 및 방법이 제공된다.
네트워크를 통해 적어도 하나의 외부 장치와 통화 기능을 수행하는 단말 장치는, 외부 장치에게 전송하기 위해 음향 발신 신호 및 영상 발신 신호 중 적어도 하나를 수신하는, 수신부; 음향 발신 신호 및 영상 발신 신호 중 적어도 하나를 분석하고, 분석된 결과에 기초하여 음성 모드 및 오디오 모드 중 하나를 선택하고, 선택된 모드에 기초하여 상기 음향 발신 신호를 압축하는 프로세서; 압축된 음향 발신 신호를 상기 외부 장치에게 전송하고, 외부 장치로부터 음향 수신 신호를 수신하는 통신부; 및 음향 수신 신호를 출력하는 출력부를 포함할 수 있다.

Description

통화 기능을 수행하는 단말 장치 및 방법
본 개시는 통화 기능을 수행하는 단말 장치 및 방법에 관한 것으로서, 보다 상세하게는 고감도로 주변음을 전송할 수 있는 오디오 모드를 이용하여 음향 신호를 압축하고 전송함으로써 통화 기능을 수행할 수 있는 단말 장치 및 방법에 관한 것이다.
무선 통신 기술이 발전함에 따라 고속으로 대용량 데이터 전송이 가능해지면서, 단말 장치는 음성 통화 기능뿐만 아니라 영상 통화 기능을 수행 할 수 있게 되었다. 영상 통화 기능이란, 복수의 단말 장치들 간에 음향 신호와 영상 신호를 송수신하는 기능을 의미한다. 단말 장치는, 영상 통화가 시작되면, 카메라를 구동시켜 외부로부터 영상 신호를 입력 받아 압축하고, 상대 단말 장치에게 압축된 영상 신호를 전송 할 수 있다.
단말 장치가 영상 통화 기능을 수행하는 일반적인 경우, 단말 장치의 사용자는 자신의 얼굴을 촬영하고 전송하면서 음성을 주고받게 된다. 반면에, 단말 장치의 사용자가 주변 환경 및 주변 소리를 촬영하여 전송하는 경우, 상대 단말 장치의 사용자는 일반적인 음성 통화의 경우에 비해 매우 높은 수준의 잡음을 경험하게 된다. 단말 장치는 음성이 입력되는 경우를 가정하고 개발된 음성 압축 기술을 이용하기 때문에, 음성이 아닌 소리를 압축하여 전송하고자 하는 경우에 통화 품질이 크게 악화될 수 있다.
또한, 단말 장치가 두 명 이상의 사용자들의 음성 신호를 상대 단말 장치에게 전송하는 경우에도, 상대 단말 장치의 사용자는 높은 수준의 잡음을 경험하게 된다. 단말 장치는, 단말 장치의 마이크에 가까이 위치한 한 사람의 음성이 입력되는 경우를 가정하고 개발된 음성 압축 기술을 이용하기 때문에, 두 명 이상의 사용자가 동시에 영상통화를 하는 경우에 통화 품질이 크게 악화될 수 있다.
한 사람의 음성 이외의 소리를 포함하는 오디오 신호를 전송하고자 하는 경우에도 높은 통화 품질을 제공하는 단말 장치가 요구된다.
일 실시예에 따르면, 통화 내용을 분석한 결과에 기초하여 오디오 모드로 전환하고, 오디오 모드에서 동작하는 단말 장치 및 방법이 제공된다.
일 실시예에 따른 단말 장치 및 방법에 의하면, 주변음이 고감도로 전송될 수 있다.
도 1은 영상 통화를 설명하기 위한 도면이다.
도 2는 LPC(Linear Predictive Coding)를 설명하기 위한 도면이다.
도 3은 DTX(Discontinuous Transmission) 기법을 설명하기 위한 도면이다.
도 4는 인간의 청취 주파수 대역(hearing range of frequencies)을 구분하는 예를 도시한다.
도 5A 및 도 5B는 일 실시예에 따른 단말 장치의 블록도이다.
도 6은 일 실시예에 따른 단말 장치가 통화 기능을 수행하는 방법의 흐름도이다.
도 7은 일 실시예에 따라 EVS(Enhanced Voice Services) 코덱을 지원하는 오디오 인코더의 블록도를 도시한다.
도 8은 일 실시예에 따른 프로세서 내에 포함되는 음성 코어(Voice Core) 및 오디오 코어(Audio core)의 블록도를 도시한다.
도 9 및 10은 음성 모드 및 오디오 모드를 설명하기 위한 도면이다.
도 11은 EVS 코덱을 지원하는 단말 장치의 통화 조건의 예를 도시한다.
도 12, 13 및 14는 단말 장치로 입력되는 음향 신호에 관계 없이 오디오 모드에 기초하여 음향 신호를 압축하는 방법을 설명하기 위한 도면이다.
도 15는 일 실시예에 따라 단말 장치로 입력되는 영상 신호를 분석하는 방법을 설명하기 위한 도면이다.
도 16은 일 실시예에 따라 단말 장치로 입력되는 영상 신호에 기초하여 동작 모드를 선택하는 방법의 흐름도이다.
도 17은 일 실시예에 따라 단말 장치의 통화 기능이 이용될 수 있는 비상 상황을 설명하기 위한 도면이다.
도 18은 일 실시예에 따라 단말 장치로 입력되는 음향 신호에 기초하여 동작 모드를 선택하는 방법의 흐름도이다.
도 19는 일 실시예에 따라 단말 장치가 인공적인 주변음을 전송하는 방법을 설명하기 위한 도면이다.
발명의 실시를 위한 최선의 형태
일 실시예에 따라, 네트워크를 통해 적어도 하나의 외부 장치와 통화 기능을 수행하는 단말 장치는, 상기 외부 장치에게 전송하기 위해 음향 발신 신호 및 영상 발신 신호 중 적어도 하나를 수신하는, 수신부; 상기 음향 발신 신호 및 영상 발신 신호 중 적어도 하나를 분석하고, 분석된 결과에 기초하여 음성 모드 및 오디오 모드 중 하나를 선택하고, 선택된 모드에 기초하여 상기 음향 발신 신호를 압축하는 프로세서; 상기 압축된 음향 발신 신호를 상기 외부 장치에게 전송하고, 상기 외부 장치로부터 음향 수신 신호를 수신하는 통신부; 및 상기 음향 수신 신호를 출력하는 출력부를 포함할 수 있다.
발명의 실시를 위한 형태
일 실시예에 따라, 네트워크를 통해 적어도 하나의 외부 장치와 통화 기능을 수행하는 단말 장치는, 상기 외부 장치에게 전송하기 위해 음향 발신 신호 및 영상 발신 신호 중 적어도 하나를 수신하는, 수신부; 상기 음향 발신 신호 및 영상 발신 신호 중 적어도 하나를 분석하고, 분석된 결과에 기초하여 음성 모드 및 오디오 모드 중 하나를 선택하고, 선택된 모드에 기초하여 상기 음향 발신 신호를 압축하는 프로세서; 상기 압축된 음향 발신 신호를 상기 외부 장치에게 전송하고, 상기 외부 장치로부터 음향 수신 신호를 수신하는 통신부; 및 상기 음향 수신 신호를 출력하는 출력부를 포함할 수 있다.
상기 음성 모드는, 음성 신호를 압축하기 위하여 설계된 압축 방식을 이용하는 모드이고, 상기 오디오 모드는, 음성이 아닌 오디오 신호를 압축하기 위하여 설계된 압축 방식을 이용하는 모드인 것을 특징으로 할 수 있다.
상기 음성 모드는, 상기 음향 발신 신호에 따라 비트레이트(bitrate) 및 대역폭(bandwidth) 중 적어도 하나를 변화시키는 압축 방식을 이용하는 모드이고, 상기 오디오 모드는, 상기 음향 발신 신호에 관계 없이, 상기 네트워크를 통해 수신된 통화 조건 내에서 허용되는 최대 비트 레이트 및 최대 대역폭 중 적어도 하나를 사용하는 압축 방식을 이용하는 모드인 것을 특징으로 할 수 있다.
상기 단말 장치는, 음향 신호를 압축하기 위해서 EVS(Enhanced Voice Services) 코덱을 이용하고, 상기 음성 모드는, ACELP(Algebraic Code-Excited Linear Prediction) 방식을 이용하여 상기 음향 발신 신호를 압축하는 모드이고, 상기 오디오 모드는, MDCT(Modified Discrete Cosign Transform) 방식을 이용하여 상기 음향 발신 신호를 압축하는 모드인 것을 특징으로 할 수 있다.
상기 음성 모드는, 상기 음향 발신 신호를 압축하는 데에 있어서, DTX(Discontinuous Transmission), LPC(linear Predictive coding), 및 NS(Noise Suppression) 중 적어도 하나를 수행하는 모드이고, 상기 오디오 모드는, 상기 음향 발신 신호를 압축하는 데에 있어서, DTX, LPC, 및 NS 중 적어도 하나의 수행을 중지하고, 상기 음향 발신 신호를 수신하는 마이크의 출력을 증폭시키는 모드인 것을 특징으로 할 수 있다.
상기 프로세서는, 상기 영상 발신 신호를 분석한 결과에 기초하여 상기 음성 모드 및 상기 오디오 모드 중 하나를 선택하는 것을 특징으로 할 수 있다.
상기 프로세서는, 상기 영상 발신 신호에 포함되는 복수의 프레임들 각각으로부터 사람의 얼굴을 검출하고, 검출된 얼굴의 수 및 상기 검출된 얼굴이 영상 내에서 차지하는 면적 중 적어도 하나에 기초하여 음성 모드 및 오디오 모드 중 하나를 선택하는 것을 특징으로 할 수 있다.
상기 프로세서는, 특정 시간 내 상기 검출된 얼굴의 수가 하나이고, 상기 검출된 얼굴이 영상 내에서 차지하는 면적이 임계 면적보다 큰 경우, 상기 음성 모드를 선택하고, 특정 시간 내 상기 검출된 얼굴의 수가 둘 이상이거나, 상기 검출된 얼굴이 차지하는 면적이 임계 면적 이하인 경우, 상기 오디오 모드를 선택하는 것을 특징으로 할 수 있다.
상기 프로세서는, 상기 음향 발신 신호에 포함되는 복수의 프레임들 각각으로부터 사람의 음성을 검출하고, 특정 시간 내 사람의 음성이 검출되지 않은 프레임들의 수에 기초하여 비율을 산출하고, 산출된 비율에 따라 음성 모드 및 오디오 모드 중 하나를 선택하는 것을 특징으로 할 수 있다.
상기 프로세서는, 상기 복수의 프레임들 중에서 특정 시간 내 상기 음성이 검출되지 않은 프레임들의 비율이 임계 비율 이하인 경우, 상기 음성 모드를 선택하고, 상기 복수의 프레임들 중에서 특정 시간 내 상기 음성이 검출되지 않은 프레임들의 비율이 임계 비율보다 큰 경우, 상기 오디오 모드를 선택하는 것을 특징으로 할 수 있다.
상기 프로세서는, 상기 오디오 모드를 선택하고, 상기 단말 장치의 인근에 위치한 장치로부터 생성된 음향 신호를 포함하는 음향 발신 신호를 압축하고, 상기 외부 장치에게 전송된 상기 압축된 음향 발신 신호는, 상기 단말 장치의 위치를 추적하기 위해서 이용되는 것을 특징으로 할 수 있다.
일 실시예에 따라, 단말 장치가 네트워크를 통해 적어도 하나의 외부 장치와 통화 기능을 수행하는 방법에 있어서, 상기 외부 장치에게 전송하기 위해 음향 발신 신호 및 영상 발신 신호 중 적어도 하나를 수신하는 단계; 상기 음향 발신 신호 및 영상 발신 신호 중 적어도 하나를 분석하고, 분석된 결과에 기초하여 음성 모드 및 오디오 모드 중 하나를 선택하는 단계; 선택된 모드에 기초하여 상기 음향 발신 신호를 압축하는 단계; 및 상기 압축된 음향 발신 신호를 상기 외부 장치에게 전송하는 단계를 포함할 수 있다.
상기 음성 모드는, 음성 신호를 압축하기 위하여 설계된 압축 방식을 이용하는 모드이고, 상기 오디오 모드는, 음성이 아닌 오디오 신호를 압축하기 위하여 설계된 압축 방식을 이용하는 모드인 것을 특징으로 할 수 있다.
상기 음성 모드는, 상기 음향 발신 신호에 따라 비트레이트 및 대역폭 중 적어도 하나를 변화시키는 압축 방식을 이용하는 모드이고, 상기 오디오 모드는, 상기 음향 발신 신호에 관계 없이, 상기 네트워크를 통해 수신된 통화 조건 내에서 허용되는 최대 비트 레이트 및 최대 대역폭 중 적어도 하나를 사용하는 압축 방식을 이용하는 모드인 것을 특징으로 할 수 있다.
상기 단말 장치는, 음향 신호를 압축하기 위해서 EVS 코덱을 이용하고, 상기 음성 모드는, ACELP 방식을 이용하여 상기 음향 발신 신호를 압축하는 모드이고, 상기 오디오 모드는, MDCT 방식을 이용하여 상기 음향 발신 신호를 압축하는 모드인 것을 특징으로 할 수 있다.
상기 음성 모드는, 상기 음향 발신 신호를 압축하는 데에 있어서, DTX, LPC, 및 NS 중 적어도 하나를 수행하는 모드이고, 상기 오디오 모드는, 상기 음향 발신 신호를 압축하는 데에 있어서, DTX, LPC, 및 NS 중 적어도 하나의 수행을 중지하고, 상기 음향 발신 신호를 수신하는 마이크의 출력을 증폭시키는 모드인 것을 특징으로 할 수 있다.
상기 선택하는 단계는, 상기 영상 발신 신호를 분석한 결과에 기초하여 상기 음성 모드 및 상기 오디오 모드 중 하나를 선택하는 단계를 포함하는 것을 특징으로 할 수 있다.
상기 선택하는 단계는, 상기 영상 발신 신호에 포함되는 복수의 프레임들 각각으로부터 사람의 얼굴을 검출하는 단계; 상기 검출된 얼굴의 수가 하나이고, 특정 시간 내 상기 검출된 얼굴이 영상 내에서 차지하는 면적이 임계 면적보다 큰 경우, 상기 음성 모드를 선택하는 단계; 및 특정 시간 내 상기 검출된 얼굴의 수가 둘 이상이거나, 상기 검출된 얼굴이 영상 내에서 차지하는 면적이 임계 면적 이하인 경우, 상기 오디오 모드를 선택하는 단계를 포함하는 것을 특징으로 할 수 있다.
상기 선택하는 단계는, 상기 음향 발신 신호에 포함되는 복수의 프레임들 각각으로부터 사람의 음성을 검출하는 단계; 및 특정 시간 내 사람의 음성이 검출되지 않은 프레임들의 비율에 기초하여 음성 모드 및 오디오 모드 중 하나를 선택하는 단계를 포함하는 것을 특징으로 할 수 있다.
상기 사람의 음성이 검출되지 않은 프레임들의 비율에 기초하여 음성 모드 및 오디오 모드 중 하나를 선택하는 단계는, 특정 시간 내 상기 복수의 프레임들 중에서 상기 음성이 검출되지 않은 프레임들의 비율이 임계 비율 이하인 경우, 상기 음성 모드를 선택하는 단계; 및 특정 시간 내 상기 복수의 프레임들 중에서 상기 음성이 검출되지 않은 프레임들의 비율이 임계 비율보다 큰 경우, 상기 오디오 모드를 선택하는 단계를 포함하는 것을 특징으로 할 수 있다.
상기 압축하는 단계는, 상기 오디오 모드에 기초하여, 상기 단말 장치의 인근에 위치한 장치로부터 생성된 음향 신호를 포함하는 음향 발신 신호를 압축하는 단계를 포함하고, 상기 외부 장치에게 전송된 상기 압축된 음향 발신 신호는, 상기 단말 장치의 위치를 추적하기 위해서 이용되는 것을 특징으로 할 수 있다.
일 실시예에 따라, 단말 장치가 네트워크를 통해 적어도 하나의 외부 장치와 통화 기능을 수행하도록 하는 명령어들을 포함하는 하나 이상의 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체에 있어서, 상기 통화 기능을 수행하는 방법은, 상기 외부 장치에게 전송하기 위해 음향 발신 신호 및 영상 발신 신호 중 적어도 하나를 수신하는 단계; 상기 음향 발신 신호 및 영상 발신 신호 중 적어도 하나를 분석하고, 분석된 결과에 기초하여 음성 모드 및 오디오 모드 중 하나를 선택하는 단계; 선택된 모드에 기초하여 상기 음향 발신 신호를 압축하는 단계; 및 상기 압축된 음향 발신 신호를 상기 외부 장치에게 전송하는 단계를 포함할 수 있다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 명세서에서 다양한 곳에 등장하는 "일부 실시예에서" 또는 "일 실시예에서" 등의 어구는 반드시 모두 동일한 실시예를 가리키는 것은 아니다.
일부 실시예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들의 일부 또는 전부는, 특정 기능들을 실행하는 다양한 개수의 하드웨어 및/또는 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 개시의 기능 블록들은 하나 이상의 마이크로프로세서들에 의해 구현되거나, 소정의 기능을 위한 회로 구성들에 의해 구현될 수 있다. 또한, 예를 들어, 본 개시의 기능 블록들은 다양한 프로그래밍 언어 또는 스크립팅 언어로 구현될 수 있다. 기능 블록들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 개시는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. “모듈” 및 “구성”등과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다.
또한, 도면에 도시된 구성 요소들 간의 연결 선 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것일 뿐이다. 실제 장치에서는 대체 가능하거나 추가된 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들에 의해 구성 요소들 간의 연결이 나타내어질 수 있다.
이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.
무선 통신 기술이 발전함에 따라, 단말 장치는 음성뿐만 아니라 영상을 주고받을 수 있게 되면서 영상 통화 기능을 수행 할 수 있게 되었다. 도 1의 (a)에 도시된 바와 같이, 사용자는 단말 장치의 화면을 통해 상대방의 얼굴을 보면서 통화를 나눌 수 있다.
한편, 네트워크가 발전함에 따라, 높은 비트-레이트로 압축된 높은 해상도의 영상을 상대 단말 장치에게 전송할 수 있게 되었다. 도 1의 (b)에 도시된 바와 같이, 단말 장치가 사용자의 얼굴뿐만 아니라 배경 영상까지 전송할 수 있게 되었다. 도 1의 (b)는, 영상 통화에 있어서, 사람이 아닌 단말 장치의 주위 환경이 촬영되어 전송되는 상황을 도시하고 있다. 단말 장치가 주고받을 수 있는 영상의 해상도가 증가할수록 사람의 얼굴 이외에 주변 배경이나 상황을 촬영하여 전송하는 경우가 많아질 수 있다. 이러한 경우, 일반적으로 한 사람의 얼굴 및 음성을 수신하는 경우와 비교하여, 상대 단말 장치의 사용자는 매우 높은 수준의 잡음을 경험하게 된다. 일반적인 단말 장치는 음성이 입력되는 경우를 가정하고 개발된 음성 압축 기술을 이용하기 때문에, 음성이 아닌 소리를 전송하고자 하는 경우에 통화 품질이 크게 악화될 수 있다.
입력 신호가 음성인 경우에도 도 1의 (b)에 도시된 경우와 유사하게 수신자가 느끼는 통화 품질이 악화되는 현상이 발생할 수 있다. 도 1의 (c)는, 두 명이 동시에 상대방과 영상 통화를 하고 있는 상황을 도시하고 있다. 예를 들어, 도 1의 (c)에 도시된 단말 장치는, 도 1의 (a)에 도시된 단말 장치보다 넓은 화면을 제공하는 단말 장치일 수 있다. 단말 장치가 두 명 이상의 사용자들의 음성 신호를 동시에 상대 단말 장치에게 전송하는 경우, 상대 단말 장치의 사용자는 높은 수준의 잡음을 경험하게 된다. 단말 장치는, 단말 장치의 마이크에 가까이 위치한 한 사람의 음성이 입력되는 경우를 가정하고 개발된 음성 압축 기술을 이용하기 때문에, 두 명 이상의 사용자가 영상통화를 하는 경우에 통화 품질이 크게 악화될 수 있다.
통화 품질이 악화되는 기술적인 이유는 다음과 같다. Enhanced Variable Rate Codec (EVRC), Adaptive Multi-Rate (AMR), Adaptive Multi-Rate Wideband (AMR-WB) 등의 기존의 음성 압축 코덱들은 Linear Predictive Coding (LPC) 기법을 사용하여 최대한 낮은 비트-레이트로 음성 신호를 압축하였다. LPC 기법은, 도 2의 (a)에 도시된 바와 같이, 인간의 성대를 서로 다른 반지름을 갖는 복수의 원통들의 연속으로 단순화, 형상화 할 수 있다. 그리고, LPC 기법은, 도 2의 (b)에 도시된 바와 같이 복수의 원통들을 전기적인 회로로 형상화 함으로써 최대한 낮은 비트-레이트로 음성 신호를 압축할 수 있다. 그러므로, 인간의 성대에서 나온 음성을 가정하여 압축하는 기술인 LPC를 이용하는 경우, 음성 이외의 일반적인 배경 잡음 소음이나 복수의 인간들의 음성들이 중첩되어 이루어진 신호를 압축하게 되면, 압축된 음향 신호의 품질이 열화될 수 있다.
한편, GSM(Global System for Mobile Communication), W-CDMA(Wideband Code Division Multiple Access), LTE(Long Term Evolution) 등의 이동 통신 네트워크 에 있어서, 무선 주파수 자원을 절약하기 위해 음성 신호가 입력되지 않는 경우에는 압축된 음성 데이터를 전송하지 않는 DTX(Discontinuous Transmission) 기법을 사용할 수 있다.
도 3은 DTX 기법이 적용된, 음성 코덱의 출력 비트-레이트를 도시한다. 예를 들어 12.65 kbps의 비트-레이트로 동작하는 AMR-WB 코덱에 있어서, 음성 신호가 입력되면 12.65 kbps로 압축된 음성 프레임들(301)이 출력될 수 있다. 반면에, 음성 신호가 입력되지 않는 경우, 음성 프레임들의 전송을 중지하고 배경 잡음 정보만을 SID(Silence Descriptor Frame)(303)에 탑재하여 음성 프레임이 전송되는 비트-레이트보다 낮은 비트-레이트로 주기적으로 전송할 수 있다. 도 3에서 구간 A는 사용자의 음성 활동에 의해서 음성 프레임들이 출력되는 구간을 나타내고, 구간 B는 사용자의 음성 활동이 없을 경우 음성 프레임들의 출력이 중지되고 배경 잡음 정보만이 주기적으로 출력되는 구간을 나타낸다. 도 3에 도시된 바와 같이, DTX에 의하면, 상대 단말 장치에게 정보를 전달하기 위해 소비하는 비트-레이트와 단말 장치에 의해 소모되는 전력을 절약할 수 있는 효과가 있다. 그러나, DTX는 음성 코덱이 단속적으로(intermittently) 동작하게 하므로, 음성이 아닌 음악 또는 잡음 등의 오디오 신호가 입력되는 경우에는 입력되는 오디오 신호를 적절히 압축하여 출력하지 못한다. 따라서, 입력 신호에 따라 DTX가 통화 품질을 악화시키는 원인이 될 수 있다.
또한, 기존의 음성 코덱들은, 상술한 LPC 및 DTX를 적용하는 방법 이외에 비트-레이트(bit-rate)를 낮추기 위한 방법으로서, 압축되는 오디오 신호의 대역폭(bandwidth) 의 상한선을 제한할 수 있다. 도 4는 협대역(Narrowband), 광대역(Wideband), 초광대역(Super-wideband), 전역(Fullband)으로 구분되는 인간의 발성 및 청취 가능 대역을 도시 하고 있다. AMR, EVRC 코덱은 협대역의 음성신호를 압축할 수 있으며 AMR-WB 코덱은 광대역의 음성신호를 압축할 수 있다. 만약, 도 1의 (b)와 같은 상황에서 AMR, EVRC, AMR-WB 코덱 등이 처리할 수 없는 높은 주파수 대역의 오디오 신호가 해당 코덱들을 이용하는 단말 장치에게 입력되는 경우, 중요한 주파수 성분이 제거된 왜곡된 신호가 압축되게 된다. 상대 단말 장치에게 왜곡된 신호가 전송되므로, 상대 단말 장치의 사용자는 매우 높은 수준의 잡음을 경험하게 된다.
이러한 문제점을 해결하기 위해서, 일 실시예에 따른 단말 장치 및 방법은, 이동 통신 네트워크를 통해 전송되는 음성 신호를 압축하는 코덱의 구동 방식을 음성 신호를 압축하기 위한 음성 모드와 음성이 아닌 오디오 신호를 압축하기 위한 오디오 모드로 구분할 수 있다. 일 실시예에 따른 단말 장치는, 음성 이외의 소리를 전송하거나 두 명 이상의 사용자들의 음성들을 전송하는 경우에, 높은 통화 품질을 제공할 수 있도록 오디오 모드를 지원할 수 있다.
도 5a 및 도 5b는 일 실시예에 따른 단말 장치의 블록도이다.
도 5a에 도시된 바와 같이, 일 실시예에 따른 단말 장치(500)는, 수신부(510), 프로세서(520), 통신부(530), 및 출력부(540)를 포함할 수 있다. 그러나, 도 5a에 도시된 구성 요소 모두보다 많은 구성 요소에 의해 단말 장치(500)가 구현될 수도 있다. 예를 들어, 도 5b에 도시된 바와 같이, 일 실시예에 따른 단말 장치(500)는, 사용자 입력부(550) 및 메모리(560)를 더 포함할 수 있다.
예를 들어, 일 실시예에 따른 단말 장치(500)는, 스마트 폰, 웨어러블 디바이스, 태블릿 PC, PC, 스마트 TV, PDA(personal digital assistant), 랩톱, 미디어 플레이어, 마이크로 서버, GPS(global positioning system) 장치, 전자책 단말기, 디지털방송용 단말기, 네비게이션, MP3 플레이어, 및 디지털 카메라 등을 포함할 수 있으나, 이에 제한되지 않는다. 단말 장치(500)는, 앞서 언급한 장치들 이외의 기타 모바일 컴퓨팅 장치 또는 비 모바일 컴퓨팅 장치일 수 있다.
수신부(510)는, 음향 발신 신호 및 영상 발신 신호 중 적어도 하나를 수신할 수 있다. 수신되는 음향 발신 신호 및 영상 발신 신호 중 적어도 하나는 외부 장치에게 전송하기 위해 단말 장치의 외부로부터 수신된 신호일 수 있다. 수신부(510)는, 마이크로폰(Microphone)을 이용하여, 외부의 소리를 전기적인 음향 데이터로 변환함으로써 음향 발신 신호를 수신할 수 있다. 또는, 수신부(510)는, 카메라를 이용하여, 단말 장치 외부의 물체들을 촬영한 영상을 영상 발신 신호로서 수신할 수 있다. 예를 들어, 수신부(510)는, 단말 장치(500)가 통화 기능을 수행하는 도중에, 사용자의 얼굴, 배경 영상, 사용자의 음성 및 배경 소리 중 적어도 하나를 수신할 수 있다.
프로세서(520)는, 수신된 음향 발신 신호 및 영상 발신 신호 중 적어도 하나를 압축할 수 있다. 프로세서(520)는, 음향 신호를 압축함에 있어서, 오디오 모드 또는 음성 모드에서 동작할 수 있다. 일 실시예에 따른 프로세서(520)는, 오디오 모드에서 음향 신호를 압축함으로써, 음성 이외의 오디오 신호의 고품질 전송을 가능하게 할 수 있다.
음성 모드는, 음성 신호를 압축하기 위하여 설계된 압축 방식을 이용하는 모드이고, 오디오 모드는, 음성이 아닌 오디오 신호를 압축하기 위하여 설계된 압축 방식을 이용하는 모드일 수 있다. 예를 들어, 프로세서(520)가 음향 신호를 압축하기 위해서 EVS(Enhanced Voice Services) 코덱을 이용하는 경우에, 음성 모드는, ACELP(Algebraic Code-Excited Linear Prediction) 방식을 이용하여 음향 신호를 압축하는 모드이고, 오디오 모드는, MDCT(Modified Discrete Cosign Transform) 방식을 이용하여 음향 신호를 압축하는 모드일 수 있다.
오디오 모드는 음성 모드보다 평균적으로 높은 비트-레이트를 소모하므로 네트워크의 용량에 부담을 줄 수 있다. 또한, 음성 신호가 입력되는 경우에 프로세서(520)가 오디오 모드에서 동작하게 되면, 압축된 신호에 포함되는 높은 수준의 배경 잡음 또는 압축된 신호의 넓은 대역폭에 의해 통화 품질이 오히려 악화될 수 있다. 따라서, 일 실시예에 따른 프로세서(520)는, 음성 이외의 오디오 신호를 고품질로 전송해야 하는 경우에만 오디오 모드에서 동작할 수 있다. 프로세서(520)는, 음성 모드와 오디오 모드 간에 자동적으로 전환되어 동작할 수 있다.
프로세서(520)는, 수신부(510)에서 수신된 음향 발신 신호 및 영상 발신 신호 중 적어도 하나를 분석할 수 있다. 프로세서(520)는, 분석된 결과에 기초하여 음성 모드 및 오디오 모드 중 하나를 선택할 수 있다. 프로세서(520)는, 선택된 모드에 기초하여 음향 발신 신호를 압축할 수 있다.
일 실시예에서, 프로세서(520)는, 영상 발신 신호의 내용에 기초하여 음성 모드 및 오디오 모드 중 하나를 선택할 수 있다. 예를 들어, 프로세서(520)는, 한 사람의 얼굴이 영상 발신 신호의 주요 내용이라고 판단되는 경우, 음성 모드를 선택하고, 이외의 경우에는 오디오 모드를 선택할 수 있다.
다른 일 실시예에서, 프로세서(520)는, 음향 발신 신호의 내용에 기초하여 음성 모드 및 오디오 모드 중 하나를 선택할 수 있다. 예를 들어, 프로세서(520)는, 단말 장치(500)의 배경 소리 또는 주변 소음 등을 전달해야 하는 경우라고 판단되는 경우, 오디오 모드를 선택하고, 음성 모드로부터 오디오 모드로 전환될 수 있다. 프로세서(520)는, 이외의 경우에는 음성 모드를 선택할 수 있다.
프로세서(520)는, 영상 발신 신호 및 음향 발신 신호 중 적어도 하나를 주기적으로 샘플링 (sampling) 할 수 있다. 프로세서(520)는, 영상 발신 신호의 경우, 특정한 순간에 샘플링한 한 장의 화면을 한 프레임으로서 결정할 수 있다. 프로세서(520)는, 음향 발신 신호의 경우, 특정한 기간 동안 샘플링한 값들을 한 프레임으로서 결정할 수 있다. 프로세서(520)는, 프레임 단위로 분할된 발신 신호를 처리할 수 있다. 프로세서(520)는, 발신 신호의 각 프레임을 주파수-도메인 계수들로 변환하고, 주파수-도메인 계수들을 양자화함으로써, 비트스트림을 생성 할 수 있다.
또한, 프로세서(520)는 단말 장치(500)의 전반적인 동작을 제어할 수 있다. 예를 들어, 프로세서(520)는, 수신부(510), 통신부(530), 및 출력부(540)를 제어할 수 있다.
통신부(530)는, 압축된 음향 발신 신호 및 압축된 영상 발신 신호 중 적어도 하나를 외부 장치에게 전송하고, 외부 장치로부터 음향 수신 신호 및 영상 수신 신호 중 적어도 하나를 수신할 수 있다. 예를 들어, 통신부(530)는 이동 통신 네트워크를 통해 외부 장치와 통신할 수 있다. 통신부(530)는, 통신부(530)가 위치한 커버리지를 담당하는 기지국과 음성 및 데이터 패킷들을 주고받음으로써 외부 장치와 통신할 수 있다.
또한, 통신부(530)는, 네트워크를 통해 통화 조건을 수신할 수 있다. 통신부(530)는, 네트워크를 통해 통화의 대상이 되는 외부 장치와 교섭함으로써 결정된 통화 조건을 수신할 수 있다. 결정된 통화 조건은, 세션 기술 프로토콜(Session Description Protocol, SDP) 메시지로 표현될 수 있다. 통화 조건에는 비트-레이트 및 대역폭과 관련된 조건들이 포함될 수 있다.
출력부(540)는, 외부 장치로부터 수신된 음향 수신 신호를 출력할 수 있다. 출력부(540)는, 단말 장치(500)가 통화 기능을 수행하는 화면을 출력할 수 있다. 출력부(540)는, 스피커에 의해 음향 수신 신호를 소리로 변환함으로써 음향 수신 신호를 출력할 수 있다. 출력부(540)는, 단말 장치(500)와 연결될 이어폰에게 음향 수신 신호를 출력할 수 있다.
또는, 출력부(540)는, 디스플레이를 통해 영상 수신 신호를 출력할 수 있다. 예를 들어, 출력부(540)는, 단말 장치(500)가 통화 기능을 수행하는 도중에, 상대방의 얼굴, 외부 장치가 위치한 주변 환경에 관한 영상, 상대방의 음성 및 배경 소리 등을 출력할 수 있다. 출력부(540)를 통해 출력되는 신호들은, 통신부(530)에서 수신된 비트스트림을 프로세서(520)에서 복호화함으로써, 회복된 신호들일 수 있다.
또한, 출력부(540)는, 수신부(510)를 통해 수신된 음향 발신 신호 및 영상 발신 신호 중 적어도 하나를 출력할 수 있다. 출력부(540)는, 영상 수신 신호가 디스플레이 되는 화면 내에 PIP(Picture-in-Picture) 형태로, 영상 발신 신호로부터 생성된 영상을 출력할 수 있다.
도 5b에 도시된 바와 같이, 일 실시예에 따른 단말 장치(500)는, 사용자 입력부(550) 및 메모리(560)를 더 포함할 수 있다.
사용자 입력부(550)는 단말 장치(500)를 제어하기 위한 사용자 입력을 수신할 수 있다. 예를 들어, 사용자 입력부(550)는 터치 패드(551)를 통해 터치 입력을 수신하거나, 버튼(553)을 통해 푸시 입력을 수신할 수 있으나, 이에 제한되지 않으며 다양한 사용자 입력을 수신할 수 있다.
메모리(560)는, 음향 발신 신호, 영상 발신 신호, 음향 수신 신호, 영상 수신 신호, 통화 조건 중 적어도 하나를 저장할 수 있다. 또한, 메모리(560)는, 단말 장치(500)를 제어하기 위해서 프로세서(520)에서 실행되는 명령들을 저장할 수 있다.
한편, 도 5b에 도시된 프로세서(520)에 포함되는 블록들의 일부 또는 전부는, 특정 기능을 실행하는 하드웨어 및/또는 소프트웨어 구성들로 구현될 수 있다. 도 5b에 도시된 블록들이 수행하는 기능들은, 적어도 하나의 마이크로프로세서에 의해 구현되거나, 해당 기능을 위한 회로 구성들에 의해 구현될 수 있다. 도 5b에 도시된 블록들의 일부 또는 전부는 프로세서(520)에서 실행되는 다양한 프로그래밍 언어 또는 스크립트 언어로 구성된 소프트웨어 모듈일 수 있다.
음향 신호의 입출력을 위해서, 단말 장치(500)는, 음향 신호를 수신하는 마이크로폰(511), 음향 신호를 압축하는 오디오 인코더(521), 압축된 음향 신호를 복호화 하는 오디오 디코더(525), 및 음향 신호를 출력하는 스피커(541)를 포함할 수 있다.
영상 신호의 입출력을 위해서, 단말 장치(500)는, 영상 신호를 수신하는 카메라(513), 영상 신호를 압축하는 비디오 인코더(523), 압축된 영상 신호를 복호화하는 비디오 디코더(527), 및 영상 신호를 출력하는 디스플레이(543)를 포함할 수 있다.
통신부(530)는, 프로세서(520)에서 패킷 단위로 압축된 신호들을 송신하기 위한 패킷-기반 네트워크 인터페이스(packet-based network interface)를 포함할 수 있다. 통신부(530)는, 이 인터페이스를 통해 패킷 단위로 압축된 신호들을 수신할 수 있다. 통신부(530)는 2/3G 또는 LTE 등의 통신 네트워크에 접속하기 위한 모뎀(Modem)의 3GPP(3rd Generation Partnership Project) Layer 2 인터페이스에게 연결될 수 있다. 통신부(530)는, 유선 네트워크, 인터넷, Wi-Fi 등 다른 네트워크에 접속하기 위해서 해당 네트워크의 인터페이스에 연결된다.
오디오 인코더(521) 및 오디오 디코더(525)는, 입력되는 음향 신호 또는 영상 신호, 사용자 입력 및 네트워크 신호 중 적어도 하나에 의해 동작 방법이 결정될 수 있다. 네트워크 및 통화 상대 단말과의 통신을 위한 교섭에 기초하여, 비트-레이트(bit-rate) 및 대역폭(bandwidth) 등이 결정될 수 있다. 단말 장치(500)는, 결정된 비트-레이트 및 대역폭에 기초하여, 음향 신호를 압축하고, 네트워크를 통해 압축된 음향 신호를 전송할 수 있다. 단말 장치(500)는, 상대 단말 장치에서 전송한 음향 신호를 수신하여 복원할 수 있다. 일 실시예에 따른 오디오 인코더(521)는, 통화 내용을 분석한 결과를 더 고려하여, 음성 모드 및 오디오 모드 중에서 선택된 모드에 기초하여 음향 발신 신호를 압축할 수 있다.
이하에서는, 도 6을 참조하여, 일 실시예에 따른 단말 장치(500)가 적어도 하나의 외부 장치와 통화 기능을 수행하는 방법을 설명한다. 이하에서 서술하는 방법의 각 단계는, 상술한 단말 장치(500)의 각 구성들에 의해 수행될 수 있으며, 도 5에 대한 설명은 도 6에도 적용될 수 있다. 중복되는 내용은 생략한다.
S610에서 단말 장치(500)는, 외부 장치에게 전송하기 위해 음향 발신 신호 및 영상 발신 신호 중 적어도 하나를 수신할 수 있다. 예를 들어, 사용자가 단말 장치(500)의 화면을 통해 상대방의 얼굴을 보면서 통화를 나누는 경우, 단말 장치(500)는 마이크로폰을 통해 사용자의 음성을 음향 발신 신호로서 수신하고, 사용자의 얼굴을 촬영한 영상을 영상 발신 신호로서 수신할 수 있다.
단말 장치(500)는, 적어도 하나의 외부 장치와 네트워크를 통해 연결되고, 외부 장치와 음향 신호 및 영상 신호 중 적어도 하나를 주고 받음으로써 통화 기능을 수행할 수 있다. 외부 장치는, 단말 장치(500)가 통화 기능을 수행하는 상대 단말 장치일 수 있다.
S620에서 단말 장치(500)는, 통화 내용에 따라서 상황에 적합한, 음향 신호를 압축하기 위한 모드를 선택할 수 있다. 일 실시예에 따른 단말 장치(500)는, 음향 신호를 압축함에 있어서, 오디오 모드 또는 음성 모드에서 동작할 수 있다. 단말 장치(500)는, 음향 발신 신호 및 영상 발신 신호 중 적어도 하나를 분석하고, 분석된 결과에 기초하여 음성 모드 및 오디오 모드 중 하나를 선택할 수 있다.
단말 장치(500)는, 사람의 음성 신호를 압축하여야 한다고 판단되는 경우, 음성 모드를 선택하고, 복수의 사람들의 음성들이 중첩된 신호 또는 음성 신호 이외의 오디오 신호를 압축하여야 한다고 판단되는 경우, 오디오 모드를 선택할 수 있다. 음성 모드는, 음성 신호를 압축하기 위하여 설계된 압축 방식을 이용하는 모드이고, 오디오 모드는, 음성이 아닌 오디오 신호를 압축하기 위하여 설계된 압축 방식을 이용하는 모드일 수 있다.
구체적으로, 음성 모드는, 음향 발신 신호에 따라 비트레이트 및 대역폭 중 적어도 하나를 변화시키는 압축 방식을 이용하는 모드일 수 있다. 오디오 모드는, 음향 발신 신호에 관계 없이, 네트워크를 통해 수신된 통화 조건 내에서 허용되는 최대 비트 레이트 및 최대 대역폭 중 적어도 하나를 사용하는 압축 방식을 이용하는 모드일 수 있다.
예를 들어, 단말 장치(500)는, 음향 신호를 압축하기 위해서 EVS 코덱을 이용하고, 음성 모드로서 ACELP 방식을 이용하여 음향 발신 신호를 압축하고, 오디오 모드로서 MDCT 방식을 이용하여 음향 발신 신호를 압축할 수 있다. EVS 코덱을 지원하는 일 실시예에 따른 단말 장치(500)와 관련하여서는 후에 도 7을 참조하여 보다 구체적으로 설명한다.
또는, 일 실시예에 따른 음성 모드는, 음향 발신 신호를 압축하는 데에 있어서, DTX, LPC, 및 NS(Noise Suppression) 중 적어도 하나를 수행하는 모드일 수 있다. 이 때, 오디오 모드는, 음향 발신 신호를 압축하는 데에 있어서, DTX, LPC, 및 NS 중 적어도 하나의 수행을 중지하고, 음향 발신 신호를 수신하는 마이크의 출력을 증폭시키는 모드일 수 있다.
일 예로서, 단말 장치(500)는, 영상 발신 신호를 분석한 결과에 기초하여 음성 모드 및 오디오 모드 중 하나를 선택할 수 있다. 도 1의 (a)에 도시된 바와 같이, 사용자가 단말 장치(500)를 정면 근거리에서 손으로 잡고 있는 경우, 단말 장치(500)는 높은 볼륨의 음성 신호를 수신할 가능성이 크다. 수신되는 음향 발신 신호가 음성 신호를 포함할 가능성이 큰 경우, 단말 장치(500)는 음성 모드에서 동작해야 한다.
단말 장치(500)는, 영상 발신 신호를 분석하고, 한 사람의 얼굴이 영상의 중심인 경우 음성 모드를 선택할 수 있다. 반면에, 단말 장치(500)는, 2명 이상의 얼굴들이 영상에 포함되거나 영상의 내용이 사람이 아닌 배경이나 풍경인 경우 오디오 모드를 선택할 수 있다.
구체적으로, 단말 장치(500)는, 영상 발신 신호에 포함되는 복수의 프레임들 각각으로부터 사람의 얼굴을 검출할 수 있다. 단말 장치(500)는, 영상 발신 신호로부터 검출된 얼굴의 수가 하나이고, 검출된 얼굴이 영상 내에서 차지하는 면적이 임계 면적보다 큰 경우, 음성 모드를 선택할 수 있다. 반면에, 단말 장치(500)는, 검출된 얼굴의 수가 둘 이상이거나, 검출된 얼굴이 영상 내에서 차지하는 면적이 임계 면적 이하인 경우, 오디오 모드를 선택할 수 있다. 영상 발신 신호를 분석한 결과에 기초하여 동작 모드를 선택하는 구체적인 방법에 대해서는 후에 도 16을 참조하여 보다 구체적으로 설명하도록 한다.
다른 예로서, 단말 장치(500)는, 음향 발신 신호를 분석한 결과에 기초하여 음성 모드 및 오디오 모드 중 하나를 선택할 수 있다. 도 1의 (b)에 도시된 바와 같이, 사람이 아닌 단말 장치의 주위 환경을 촬영하여 전송하는 경우, 단말 장치(500)는 음성이 아닌 오디오 신호를 수신할 가능성이 크다. 또는, 비상 상황에서 단말 장치(500)가 주변의 소리를 전송할 필요성이 있을 수 있다. 이러한 경우, 단말 장치(500)는 오디오 모드에서 동작해야 한다.
단말 장치(500)는, 음향 발신 신호를 분석하고, 음향 발신 신호 내에 음성 신호가 포함되는 경우, 음성 모드를 선택할 수 있다. 반면에, 단말 장치(500)는, 음향 발신 신호가 음성 신호를 포함하지 않는 경우, 오디오 모드를 선택할 수 있다. 단말 장치(500)는, 비상 통화 중에 일정 시간 이상 음성 신호가 감지되지 않을 경우, 음성 이외의 오디오 신호를 높은 감도로 전송하기 위해서 NS 등 음성신호 이외의 입력신호를 소거하는 전처리 (Pre-Processing) 기능을 해제할 수 있다. 단말 장치(500)는, 비상 통화 중에 일정 시간 이상 음성 신호가 감지되지 않을 경우, 사용자 입력에 기초하여 전처리 기능을 해제할 수 있다.
구체적으로, 단말 장치(500)는, 음향 발신 신호에 포함되는 복수의 프레임들 각각으로부터 사람의 음성을 검출할 수 있다. 단말 장치(500)는, 사람의 음성이 검출되지 않은 프레임들의 수에 기초하여 음성 모드 및 오디오 모드 중 하나를 선택할 수 있다. 단말 장치(500)는, 복수의 프레임들 중에서 음성이 검출되지 않은 프레임들의 비율이 임계 비율 이하인 경우, 음성 모드를 선택할 수 있다. 반면에, 단말 장치(500)는, 복수의 프레임들 중에서 음성이 검출되지 않은 프레임들의 비율이 임계 비율보다 큰 경우, 오디오 모드를 선택할 수 있다. 음향 발신 신호를 분석한 결과에 기초하여 동작 모드를 선택하는 구체적인 방법에 대해서는 후에 도 18을 참조하여 보다 구체적으로 설명하도록 한다.
S630에서 단말 장치(500)는, 선택된 모드에 기초하여 음향 발신 신호를 압축할 수 있다.
단말 장치(500)는, 음향 발신 신호를 프레임 단위로 처리할 수 있다. 단말 장치(500)는, 시간-도메인 오디오 신호 샘플들을 주파수-도메인 계수들로 변환할 수 있다. 단말 장치(500)는, 주파수-도메인 계수들을 양자화함으로써 비트스트림을 생성할 수 있다.
단말 장치(500)는, 음성 모드가 선택된 경우, 음향 발신 신호에 따라 음향 발신 신호의 비트레이트 및 대역폭 중 적어도 하나를 변화시킴으로써, 음향 발신 신호를 압축할 수 있다. 또는, 단말 장치(500)는, 오디오 모드가 선택된 경우, 고정된 비트-레이트 및 고정된 대역폭 중 적어도 하나를 사용하여, 음향 발신 신호를 압축할 수 있다. 예를 들어, 단말 장치(500)는, 오디오 모드가 선택된 경우, 네트워크를 통해 수신된 통화 조건 내에서 허용되는 최대 비트 레이트 및 최대 대역폭 중 적어도 하나를 사용하여, 음향 발신 신호를 압축할 수 있다.
오디오 모드를 선택한 단말 장치(500)는, 음향 발신 신호에 관계 없이, 현재 통화 조건에서 사용 가능한 최대 비트-레이트 및 최대 대역폭 중 적어도 하나를 갖도록 음향 발신 신호를 압축할 수 있다. 이 때, 단말 장치(500)는, DTX를 사용하지 않음으로써, 공백 없이 음향 발신 신호를 압축하고 전송할 수 있다. 또한, 단말 장치(500)는, 음성 신호보다 넓은 대역폭을 갖는 음향 발신 신호를 처리하기 위하여, 음성 신호를 처리하기 위해서 설정되었던 마이크의 출력 및 잡음 제거 기능을 조정할 수 있다.
예를 들어, EVS 코덱을 이용하는 단말 장치(500)는, 음성 모드가 선택된 경우, ACELP 방식을 이용하여 음향 발신 신호를 압축할 수 있다. 단말 장치(500)는, 오디오 모드가 선택된 경우, MDCT 방식을 이용하여 음향 발신 신호를 압축할 수 있다. 그러나, EVS 코덱을 이용하는 단말 장치(500)에 있어서, 오디오 모드는 MDCT 방식을 이용하여 음향 발신 신호를 압축하는 것에 제한되지 않는다.
오디오 모드를 선택한 단말 장치(500)는, 현재 비트-레이트에서 MDCT 코어가 사용가능 하다면 ACELP가 아닌 MDCT 코어로 음향 발신 신호를 압축할 수 있다. 반면에, 현재 통화 조건을 만족하는 최대 비트-레이트가 MDCT 코어를 지원하지 않는 경우, 오디오 모드를 선택한 단말 장치(500)는, ACELP 압축 코어의 여러 동작 모드들 중에서 오디오 코딩 모드를 이용하여 음향 발신 신호를 압축할 수 있다.
EVS 코덱을 지원하는 일 실시예에 따른 단말 장치(500)와 관련하여서는 후에 도 7을 참조하여 보다 구체적으로 설명한다.
S640에서 단말 장치(200)는, 압축된 음향 발신 신호를 외부 장치에게 전송할 수 있다.
단말 장치(500)는, 적어도 하나의 외부 장치와 네트워크를 통해 연결될 수 있다. 단말 장치(500)가 네트워크의 커버리지 내에 위치하게 되는 경우, 단말 장치(500)는 멀티미디어 통화 내용이나 데이터를 전송할 수 있다. 단말 장치(500)는, 압축된 음향 발신 신호를 포함하는 음성 및 데이터 패킷들을 기지국에게 전송함으로써, 이동 통신 네트워크를 통해 외부 장치에게 압축된 음향 발신 신호를 전송할 수 있다. 또한, 단말 장치(200)는, 해당 기지국을 통해 외부 장치로부터 음향 수신 신호를 수신할 수 있다.
도 7은 일 실시예에 따라 EVS 코덱을 지원하는 오디오 인코더의 블록도를 도시한다.
한편, 도 7에 도시된 블록들의 일부 또는 전부는, 특정 기능을 실행하는 하드웨어 및/또는 소프트웨어 구성들로 구현될 수 있다. 도 7에 도시된 블록들이 수행하는 기능들은, 적어도 하나의 마이크로프로세서에 의해 구현되거나, 해당 기능을 위한 회로 구성들에 의해 구현될 수 있다. 도 7에 도시된 블록들의 일부 또는 전부는 프로세서(520)에서 실행되는 다양한 프로그래밍 언어 또는 스크립트 언어로 구성된 소프트웨어 모듈일 수 있다.
EVS 코덱은 LPC의 한 방법인 ACELP 방식을 이용함으로써 음성 입력 신호를 압축하거나 음성 신호 이외의 오디오 입력 신호를 MDCT 방식을 이용하여 압축할 수 있다.
EVS 코덱을 사용하는 오디오 인코더(521)는, 입력 신호를 분석한 결과에 기초하여, 음성 코어(voice core)(710)를 사용하여 ACELP 방식으로 입력 신호를 압축하거나, 오디오 코어(audio core)(720)를 사용하여 MDCT 방식으로 입력 신호를 압축할 수 있다. 음향 발신 신호가 주로 음성을 포함하는 경우 음성 모드에서 동작하는 오디오 인코더(521)는, 음성 신호가 없을 때는 DTX를 적용함으로써 압축된 입력 신호의 출력을 정지시킨 후, 노이즈 코어(Noise Core)(730)를 사용하여 압축한 잡음 정보를 주기적으로 전송하게 된다. 오디오 인코더(521)의 블록(740)은, 입력 신호의 특성에 따라 3개의 압축 코어(710, 720, 730) 중 어떠한 코어를 사용할지 결정할 수 있다. 도 8의 (a)는 도 7의 음성 코어(710)의 구조를 도시하고, 도 8의 (b)는 도 7의 오디오 코어(720)의 구조를 도시하고 있다.
이 때, 일 실시예에 따른 오디오 인코더(521)는 모드 제어기(750)를 포함함으로써, 통화 내용에 따라서 상황에 적합한 음향 신호 압축 모드를 선택할 수 있다. 모드 제어기(750)는, 블록(740)에서 어떠한 코어를 사용할지 여부를 결정한 결과를 무시하고, 음향 발신 신호 및 영상 발신 신호 중 적어도 하나에 기초하여 선택된 압축 모드에 대응되는 코어를 사용하도록 결정할 수 있다. 모드 제어기(750)는, 블록(740)을 제어함으로써, 입력 신호를 압축하기 위한 비트-레이트 및 대역폭을 현재 통화 조건에서 허용되는 최대 비트-레이트 및 최대 대역폭으로 상향 조정할 수 있다.
모드 제어기(750)는, 도 5의 수신부(510)에서 수신된 음향 발신 신호 및 영상 발신 신호 중 적어도 하나에 기초하여 음성 모드 및 오디오 모드 중 하나를 선택할 수 있다. 모드 제어기(750)는, 선택된 모드에 기초하여, ACELP 또는 MDCT 방식으로 압축하거나 DTX를 적용하여 출력을 정지시킬지 여부를 결정할 수 있다.
예를 들어, 모드 제어기(750)는, 오디오 모드가 선택되는 경우, 통화 조건 내에서 허용되는 최대 비트 레이트 및 최대 대역폭 중 적어도 하나를 갖도록 음향 발신 신호를 압축하는 압축 방식을 이용하도록 결정할 수 있다. 또한, 모드 제어기(750)는, 오디오 모드가 선택되는 경우, DTX 및 NS 중 적어도 하나의 수행을 중지할 수 있다. 모드 제어기(750)는, 오디오 모드가 선택되는 경우, 마이크로폰(511)의 출력을 증폭시키고, 마이크로폰(511)의 감도를 증가시킬 수 있다. 모드 제어기(750)는, 오디오 모드가 선택되는 경우, DTX가 수행되지 않도록 VAD(Voice Activity Detection) 모듈을 제어함으로써, 공백 또는 SID 프레임이 아닌 오디오 프레임이 항상 출력되도록 할 수 있다.
도 4에 도시된 바와 같이, 음향 신호의 주파수 대역폭은 협대역, 광대역, 초광대역, 및 전역으로 구분될 수 있으며, 각 대역에는 8, 16, 32, 48 kHz의 샘플링 레이트(sampling rate)가 적용될 수 있다. 동일한 음향 신호를 처리하는 경우, 샘플링 레이트가 높아질수록 음향 신호의 고주파 성분이 더 포함될 수 있다.
일 실시예에 따르면, 오디오 인코더(521)는, 오디오 모드에서 동작하는 경우, 입력되는 음향 신호의 특성에 관계없이 현재 통화 조건에서 허용되는 최대 비트-레이트 및 대역폭을 갖도록 음향 신호를 부호화 할 수 있다. 반면에, 오디오 인코더(521)가 음성 모드에서 동작하는 경우, 오디오 인코더(521)는, 입력되는 음향 신호의 내용을 반영하여 LPC 또는 DTX를 적용하거나, 처리되는 음향 신호의 대역폭을 제한할 수 있다.
도 9와 10은 EVS 코덱을 사용하는 오디오 인코더(521)가 음성 모드에서 출력하는 압축된 음향 신호와 오디오 모드에서 출력하는 압축된 음향 신호를 각각 대역폭 및 비트-레이트 측면에서 비교하는 도면이다.
도 9에 도시된 바와 같이, 음성 모드에서 오디오 인코더(521)는, 입력되는 음향 신호에 따라 대역폭이 변화된 신호를 출력할 수 있다. 반면에, 오디오 모드에서 오디오 인코더(521)는, 입력되는 음향 신호에 관계 없이, 현재 통화 조건을 만족하는 최대 값으로 고정된 대역폭을 갖는 신호를 출력할 수 있다.
도 10에 도시된 바와 같이, 음성 모드에서 오디오 인코더(521)는, 입력되는 음향 신호에 따라 비트-레이트가 변화된 신호를 출력할 수 있다. 반면에, 오디오 모드에서 오디오 인코더(521)는, 입력되는 음향 신호에 관계 없이, 현재 통화 조건을 만족하는 최대 값으로 고정된 비트-레이트를 갖는 신호를 출력할 수 있다.
도 11은 EVS를 사용하는 단말 장치(500)의 통화 조건을 예시하고 있다.
단말 장치(500)는, 네트워크를 통해 통화의 대상이 되는 외부 장치와 교섭함으로써, 통화 조건을 결정할 수 있다. 결정된 통화 조건은, 세션 기술 프로토콜(Session Description Protocol, SDP) 메시지로 표현될 수 있다.
도 11에 도시된 SDP 메시지에 포함된 비트-레이트 조건(1101)에 따르면, 단말 장치(500)는 13.2 내지 24.4 kbps의 비트-레이트들(즉, 13.2, 16.4, 24.4 kbps의 비트-레이트)을 사용할 수 있다. 대역폭 조건(1103)에 따르면, 단말 장치(500)는 협대역 내지 초광대역(즉, 협대역, 광대역, 초광대역)을 사용할 수 있다.
예를 들어, 단말 장치(500)가 도 11에 도시된 통화 조건을 갖는 경우, 오디오 모드에서 동작하는 단말 장치(500)는, DTX를 사용하지 않고 24.4 kbps의 비트-레이트 및 초광대역을 사용하여 음향 신호를 압축할 수 있다.
도 12는 일반적인 EVS 코덱에서 비트-레이트, 대역폭 및 음향 신호의 특성에 따라 적용되는 압축 방식들을 도시한다. 도 12에 도시된 바와 같이 다수의 부호화 기술들이 EVS 코덱 내에서 이용될 수 있다.
일 예로서, 일 실시예에 따른 단말 장치(500)는, 도 12에 도시된 할당 테이블(allocation table) 및 입력된 음향 신호에 기초하여, 도 7의 블록(740)에서 수행되는 신호 분류(signal classification) 단계에서 음향 신호를 ACELP 코어를 사용하여 압축하도록 판단할 수 있다. 그러나, 도 12의 화살표로 도시된 바와 같이, 일 실시예에 따라 오디오 모드에서 동작하는 단말 장치(500)는, 이러한 판단 결과를 무시하고 MDCT 코어를 사용하여 음향 신호를 압축하도록 강제할 수 있다.
도 13에 도시된 바와 같이, ACELP 압축 코어는 여러 동작 모드들에서 동작할 수 있다. 예를 들어, ACELP 압축 코어는 비음성 코딩(Unvoiced Coding, UC) 모드, 음성 코딩(Voiced Coding) 모드, 전환 코딩(Transition Coding, TC) 모드, 오디오 코딩(Audio Coding) 모드, 비활성화 코딩(Inactive Coding) 모드 및 일반 코딩(Generic Coding) 모드에서 동작할 수 있다. 단말 장치(500)는, 현재 프레임이 활성화되었는지 여부, 현재 프레임이 AC 모드로 부호화되었는지 여부, 음성 신호를 포함하는지 여부 등에 따라 코딩 모드를 결정할 수 있다.
만약 현재 통화 조건을 만족하는 최대 비트-레이트가 MDCT 코어를 지원하지 않는 경우에는, 일 실시예에 따라 오디오 모드에서 동작하는 단말 장치(500)는, ACELP 압축 코어의 여러 동작 모드들 중에서 입력 음향 신호에 기초하여 결정된 모드를 오디오 코딩 모드로 치환할 수 있다.
한편, 단말 장치(500)는, 입력 음향 신호의 대역폭을 검출(detect)할 수 있다. 검출된 대역폭 정보는 코덱이 최적화된 모드로 동작하기 위해 이용된다. 예를 들어, 입력 음향 신호의 샘플링 레이트가 32kHz이지만 에너지적으로 유익한 8kHz보다 높은 주파수 성분(energetically meaningful spectral content above 8kHz)가 존재하지 않는 경우, 코덱은 WB 모드에서 동작할 수 있다. 도 13은 단말 장치(500)가 대역폭을 선택하는 로직을 도시한다. 일 실시예에 따라 오디오 모드에서 동작하는 단말 장치(500)는, 도 14에 도시된 로직에 따라 입력 음향 신호에 기초하여 결정된 대역폭을 현재 통화 조건을 만족하는 최대 대역폭으로 교체할 수 있다.
도 7 내지 14에서는 일 실시예에 따른 단말 장치(500)가 EVS 코덱을 지원하는 경우를 예로 들어 설명하였다. 일 실시예에 따른 단말 장치(500)는, EVS 코덱의 구조를 최대한 활용함으로써, 통화 품질이 열화되는 문제점을 해결할 수 있다. 단말 장치(500)는, 음성이 아닌 단말 장치(500)의 주변음을 정확히 압축하여 전송할 필요가 있는 경우, 음성 모드로부터 오디오 모드로 압축 방식을 자동적으로 전환할 수 있다. 예를 들어, 음성 모드는, 종래의 음성 압축 방식을 이용함으로써 음향 입력 신호를 압축하는 모드이고, 오디오 모드는 본 명세서에서 새롭게 정의된 방식을 이용함으로써 음향 입력 신호를 압축하는 모드일 수 있다.
한편, 일 실시예에 따른 단말 장치(500)는, 단말 장치(500)가 EVS 코덱을 지원하는 경우에 제한되지 않는다. 단말 장치(500)는 EVRC, AMR, AMR-WB 및 기타 음향 압축 코덱을 지원할 수 있다. EVRC, AMR, AMR-WB 등의 코덱은 고정된 대역폭을 이용하여 동작한다. 예를 들어, AMR-WB 코덱을 지원하는 단말 장치(500)는, ACELP 압축 코어만을 포함하고, 광대역으로 고정된 대역폭으로 음성을 압축할 수 있다.
이러한 경우, 일 실시예에 따른 단말 장치(500)는, 오디오 모드에서 동작하는 경우와 음성 모드에서 동작하는 경우 모두 동일한 대역폭을 이용하여 음향 신호를 압축할 수 있다. 다만, 단말 장치(500)는, 음성 모드로서, DTX, 및 NS 중 적어도 하나를 수행함으로써 음향 발신 신호를 압축할 수 있다. 단말 장치(500)는, 오디오 모드로서, DTX, 및 NS 중 적어도 하나의 수행을 중지하고, 음향 발신 신호를 수신하는 마이크의 출력을 증폭시킴으로써 음향 발신 신호를 압축할 수 있다.
한편, 오디오 모드는 음성 모드보다 평균적으로 높은 비트-레이트를 소모하므로 네트워크의 용량에 부담을 줄 수 있다. 또한, 음성 신호가 입력되는 경우에 단말 장치(500)가 오디오 모드에서 동작하게 되면, 높은 수준의 배경 잡음을 포함하거나, 넓은 대역폭을 갖는 신호를 출력하게 됨으로써, 통화 품질이 오히려 악화될 수 있다. 따라서, 일 실시예에 따른 단말 장치(500)는, 음성 이외의 오디오 신호를 고품질로 전송해야 하는 경우에만 오디오 모드에서 동작할 수 있다.
일 실시예에 따른 단말 장치(500)는, 사람의 음성 신호를 압축하여야 한다고 판단되는 경우, 음성 모드를 선택하고, 복수의 사람들의 음성 신호 또는 음성 신호 이외의 오디오 신호를 압축하여야 한다고 판단되는 경우, 오디오 모드를 선택할 수 있다. 단말 장치(500)는, 음향 발신 신호 및 영상 발신 신호 중 적어도 하나를 분석하고, 분석된 결과에 기초하여 음성 모드 및 오디오 모드 중 하나를 선택할 수 있다.
도 15는 일 실시예에 따라 단말 장치로 입력되는 영상 신호를 분석하는 방법을 설명하기 위한 도면이다.
단말 장치(500)는, 음향 발신 신호 및 영상 발신 신호 중 적어도 하나를 분석하고, 분석된 결과에 기초하여 음성 모드 및 오디오 모드 중 하나를 선택할 수 있다.
일 실시예에 따른 단말 장치(500)는, 영상 통화 기능을 수행하는 중에 입력되는 영상의 내용에 따라 음성 모드와 오디오 모드 사이에서 자동적으로 동작 방식을 전환할 수 있다.
한 사람의 얼굴이 영상의 중심인 경우 단말 장치(500)가 음성 모드에서 동작하고, 두 명 이상의 얼굴이 영상에 포함되거나 영상의 내용이 사람이 아닌 배경이나 풍경인 경우 단말 장치(500)가 오디오 모드에서 동작함이 바람직할 수 있다.
따라서 일 실시예에 따른 단말 장치(500)는 도 15에 도시된 바와 같이, 외부 장치로의 전송을 위하여 입력되는 영상 발신 신호로부터 얼굴을 검출할 수 있다.
도 15에는 화면 상에 영상 발신 신호를 PIP 형태로 디스플레이 하는 단말 장치(500)가 도시된다.
도 15의 (a)에 도시된 바와 같이, 단말 장치(500)로부터 외부 장치에게 전송 되는 영상 발신 신호에 대응되는 영상(1501)이 디스플레이 될 수 있다. 도 15의 (a)에는 영상(1501) 내에서 사람의 얼굴에 해당하는 영역이 원으로 표시되어 있다. 사람의 얼굴에 해당하는 영역의 면적이 영상(1501)의 면적의 특정 비율 이상으로 특정 시간 이상 유지되면, 단말 장치(500)는 음성 모드로 동작 모드를 전환할 수 있다. 영상 발신 신호로부터 사람의 얼굴을 검출 또는 인식하는 방법에 따라, 사람의 얼굴에 해당하는 영역은 원 이외에 다양한 형태를 가질 수 있다.
도 15의 (b)를 참조하면, 단말 장치(500)는, 상대 단말 장치(1510)로부터 수신된 영상 수신 신호가 디스플레이 되는 화면 내에 PIP 형태로 영상(1503)을 디스플레이 할 수 있다. 영상(1503)은, 단말 장치(500)를 통해 영상 통화를 하고 있는 두 사람의 얼굴을 포함하는 영상 발신 신호에 대응될 수 있다. 도 15의 (b)에는 영상(1503) 내에서 두 사람의 얼굴에 해당하는 영역이 원으로 표시되어 있다.
상대 단말 장치(1510)는, 단말 장치(500)로부터 수신된 영상 신호가 디스플레이 되는 화면 내에 PIP 형태로 영상(1511)을 디스플레이 할 수 있다. 영상(1511)은, 상대 단말 장치(1510)를 통해 영상 통화를 하고 있는 한 사람의 얼굴을 포함할 수 있다. 영상(1511) 내에서 한 사람의 얼굴에 해당하는 영역이 원으로 표시될 수 있다.
도 15의(b)에 도시된 바와 같이, 두 명 이상의 사용자가 단말 장치(500)를 통해 영상 통화를 하고 있는 경우, 단말 장치(500)는 두 사용자들의 음성 신호들을 포함하는 음향 신호를 입력 받을 수 있다. 두 명의 사람들의 음성 신호들을 포함하는 입력 음성 신호는, 한 사람의 음성 신호를 포함하는 입력 음성 신호와 다른 특성을 가질 수 있다. 복수의 사용자들이 동시에 발화하는 상황이 일정 시간 이상 계속되는 경우, 단말 장치(500)는 오디오 모드에서 동작할 수 있다.
일 실시예에 따른 단말 장치(500)는, 영상 발신 신호에 포함되는 영상 내용을 분석하고, 영상의 내용에 사람의 얼굴이 포함되지 않거나, 두 명 이상의 사람들의 얼굴들이 포함되는 경우, 음향 신호를 압축하는 모드를 오디오 모드로 전환할 수 있다.
단말 장치(500)에서 압축 모드를 오디오 모드로 자동으로 전환 하기 위해서는, 영상 발신 신호로부터 영상 내용에 포함되는 사람의 얼굴의 수와 전체 영상 면적에 대한 사람 얼굴의 비율을 계산할 수 있다. 단말 장치(500)는, 한 명의 얼굴 비율이 전체 영상 면적에 대해서 일정 비율 이상으로 일정 기간 이상 유지되면, 음성 모드에서 동작하고, 그 이외의 상황에서는 오디오 모드로 전환되어 동작할 수 있다.
도 16은 일 실시예에 따라 단말 장치로 입력되는 영상 신호에 기초하여 동작 모드를 선택하는 방법의 흐름도이다.
단계 S1601에서 단말 장치(500)는, 동작 모드를 선택하는 알고리즘 내에서 사용되는 변수들인 Threshold_1, Threshold_2, Threshold_3 및 Min_period를 초기화 할 수 있다.
단계 S1603에서 단말 장치(500)는, Frame_counter 및 Primary_face_counter를 0으로 초기화 할 수 있다. Frame_counter는 영상 발신 신호에 포함되는 복수의 영상 프레임들의 수이며 Primary_face_counter는 영상의 내용이 한 사람의 얼굴을 중심으로 형성되기 때문에 음성 모드에서 단말 장치(300)가 동작하는 것이 요구되는 프레임의 수를 의미한다. Primary_face_rate는 전체 복수의 프레임들 중에서 영상의 내용이 한 사람의 얼굴을 중심으로 형성되는 프레임의 비율을 의미한다.
단계 S1605에서 단말 장치(500)는, 외부 장치에게 전송하기 위해서 촬영된 영상 발신 신호 내에 포함되는 하나의 프레임을 획득할 수 있다. 이하, 단계 S1605에서 획득된 프레임을 “현재 프레임”이라고 한다. 단말 장치(500)는 Frame_counter의 값을 1 증가시킬 수 있다.
단계 S1607에서 단말 장치(500)는, 현재 프레임을 분석할 수 있다.
단계 S1609에서 단말 장치(500)는, 현재 프레임에 대해서 영상의 내용이 한 사람의 얼굴을 중심으로 형성되는지 판단할 수 있다. 단말 장치(500)는, 영상의 전체 면적 중에서 사람의 얼굴이 차지하는 면적을 Threshold_1과 비교할 수 있다. 단말 장치(500)는, 영상의 내용이 한 사람의 얼굴을 중심으로 형성되기 때문에 음성 모드에서 단말 장치(300)가 동작하는 것이 필요한지 여부를 판단할 수 있다.
영상의 전체 면적 중에서 사람의 얼굴이 차지하는 면적이 Threshold_1 보다 큰 경우, 단계 S1611에서 단말 장치(500)는 영상 내에 포함되는 다른 사람들의 얼굴들의 비율들을 Threshold_2와 비교할 수 있다. 단말 장치(500)는 영상 내에 포함되는 다른 사람들의 얼굴들의 비율들이 Threshold_2 보다 작을 경우, 단계 S1621에서 현재 처리 중인 프레임을 Primary Face 프레임으로서 간주할 수 있다. 단말 장치(500)는 Primary_face_counter의 값을 1 증가시킬 수 있다. Primary Face 프레임은 영상의 내용이 한 사람의 얼굴을 중심으로 형성되는 프레임을 의미할 수 있다.
단계 S1623에서 단말 장치(500)는, 전체 복수의 프레임들의 수(Frame_counter)에 대한 Primary Face 프레임의 수(Primary_face_counter)의 비율을 계산하고, 계산된 값으로 Primary_face_rate를 갱신할 수 있다.
단계 S1625에서 단말 장치(500)는, 현재 동작 모드에서 압축한 프레임들의 수가 Min_period 보다 클 경우, 동작 모드를 전환 하기에 충분히 긴 시간이 경과한 것으로 판단할 수 있다. 이는 잦은 동작 모드 전환으로 인한 음향 압축 품질 저하를 피하기 위함이다.
단계 S1627에서 단말 장치(500)는, Primary_face_rate와 Threshold_3을 비교할 수 있다.
단계 S1627에서 Primary_face_rate가 Threshold_3 보다 작은 경우, 단계 S1628에서 단말 장치(500)는 오디오 모드를 선택하고, 오디오 모드로 진입할 수 있다. 만약 단말 장치(500)의 현재 동작 모드가 오디오 모드라면, 단말 장치(500)는 계속 오디오 모드에서 동작할 수 있다. 만약 단말 장치(500)의 현재 동작 모드가 음성 모드라면, 단말 장치(500)는 음성 모드로부터 오디오 모드로 동작 모드를 전환 할 수 있다. 단계 S1629에서 단말 장치(500)는, Frame_counter 및 Primary_face_counter를 0으로 다시 초기화 시키고, 단계 S1605로 돌아갈 수 있다. 단말 장치(500)는, Frame_counter 및 Primary_face_counter를 0으로 재설정함으로써, 앞으로 Min_period 동안 모드 전환을 금지할 수 있다.
단계 S1625에서 단말 장치(500)가 현재 동작 모드에서 압축한 프레임의 수가 Min_period를 경과하지 않은 경우, 단말 장치(500)는 단계 S1605로 돌아가, 새롭게 프레임을 획득하고, 프레임 처리 절차를 반복할 수 있다.
단계 S1627에서 Primary_face_rate가 Threshold_3 이상인 경우, 단계 S1637에서 단말 장치(500)는 음성 모드를 선택할 수 있다. 단말 장치(500)는, 오디오 모드를 나와서 음성 모드로 진입할 수 있다. 만약 단말 장치(500)의 현재 동작 모드가 음성 모드라면, 단말 장치(500)는 계속 음성 모드에서 동작할 수 있다. 만약 단말 장치(500)의 현재 동작 모드가 오디오 모드라면, 단말 장치(500)는 오디오 모드로부터 음성 모드로 동작 모드를 전환 할 수 있다.
단계 S1639에서 단말 장치(500)는, Frame_counter 및 Primary_face_counter를 0으로 다시 초기화 시키고, 단계 S1605로 돌아갈 수 있다.
한편, 단계 S1609로 돌아가서, 영상의 전체 면적 중에서 사람의 얼굴이 차지하는 면적이 Threshold_1 이하이거나, 영상 내에 포함되는 다른 사람들의 얼굴들의 비율이 Threshold_2 이상인 경우, 단말 장치(500)는 단계 S1631을 수행할 수 있다. 이 경우, 단말 장치(500)는 현재 처리되고 있는 프레임이 복수의 사람들의 얼굴을 주로 포함하는 프레임이라고 판단할 수 있다. 복수의 사람들의 음성 신호가 수신될 가능성이 높다고 판단한 단말 장치(500)는, 단계 S1631을 수행할 수 있다.
단계 S1631에서 단말 장치(500)는, 전체 복수의 프레임들의 수(Frame_counter)에 대한 Primary Face 프레임의 수(Primary_face_counter)의 비율을 계산하고, 계산된 값으로 Primary_face_rate를 갱신할 수 있다.
단계 S1633에서 단말 장치(500)는, 현재 동작 모드에서 압축한 프레임의 수가 Min_period 보다 클 경우, 단계 S1635에서 단말 장치(500)는, Primary_face_rate와 Threshold_3을 비교할 수 있다.
Primary_face_rate가 Threshold_3 보다 작거나 같은 경우, 단계 S1628에서 단말 장치(500)는 오디오 모드를 선택할 수 있다. Primary_face_rate가 Threshold_3 이상인 경우, 단계 S1637에서 단말 장치(500)는 음성 모드를 선택할 수 있다.
단계 S1633에서 단말 장치(500)가 현재 동작 모드에서 압축한 프레임의 수가 Min_period를 경과하지 않은 경우, 단말 장치(500)는 단계 S1605로 돌아가, 새롭게 프레임을 획득하고, 프레임 처리 절차를 반복할 수 있다.
도 16에 도시된 바와 같이, 일 실시예에 따른 단말 장치(500)는, 영상 통화의 영상 내용을 분석함으로써, 현재의 상황에 가장 적합한 음향 신호 압축 방식으로 자동적으로 전환할 수 있다. 단말 장치(500)는, 입력된 음향 신호를 전환된 방식을 이용하여 압축하고, 압축된 신호를 외부 장치에게 전송할 수 있다.
한편, 일 실시예에 따른 단말 장치(500)는, 음성이 아닌 오디오 신호를 수신하는 경우, 또는 음성이 아닌 오디오 신호를 전송할 필요성이 있는 경우, 압축 모드를 오디오 모드로 전환할 수 있다.
단말 장치(500)에서 음향 처리 모드를 오디오 모드로 자동으로 전환 하기 위해서는, 입력되는 음향 신호를 분석한 결과에 기초하여, 사용자가 대화를 할 수 없는 긴급한 상황인지 여부를 판단할 수 있다.
핵가족화 및 1인 가구 증가 추세 등에 따라서, 혼자 생활하는 인구가 증가하고 있다. 독거 노인이 낙상하거나, 미아가 발생하거나, 교통 사고 또는 재난 사고가 발생하는 경우, 해당 사람의 위치 정보를 제공할 수 있는 장치가 요구된다.
스마트 폰이나 도 17에 도시된 웨어러블 디바이스와 같은 단말 장치(500)는 비상 상황에 현재의 위치 정보를 관제 센터에게 전송하는 기능을 포함할 수 있다. 예를 들어, 도 17의 (a)에 도시된 바와 같이, 단말 장치(500)의 사용자가 쓰러지는 경우, 단말 장치(500)가 현재의 위치 정보를 관제 센터에게 전송함으로써, 사용자가 병원으로 신속하게 호송될 수 있다.
도 17의 (b)에 도시된 바와 같이, 단말 장치(500)는, 비상 상황임을 외부 장치에게 알리거나 비상 통화를 거는 사용자 인터페이스(501) 및 현재의 위치 정보를 관제 센터에게 전송하기 위한 사용자 인터페이스(503)를 제공할 수 있다.
단말 장치(500)는 GPS(Global Positioning System)에 기반하여 계산된 위치 정보를 전송할 수 있다. 그러나, 단말 장치(500)가 실내 또는 지하에 위치한 경우, 위치 정보를 수신할 수 있는 GPS 위성과의 통신이 어려워질 수 있다. 따라서, 단말 장치(500)가 실내 또는 지하에 위치한 경우, 단말 장치(500)가 전송하는 GPS 기반의 위치 정보가 정확하지 않게 된다. 이때, 관제 센터는 일 실시예에 따른 단말 장치(500)에게 비상 통화를 걸고, 단말 장치(500)로부터 전달되는 단말 장치(500) 주변의 소음 또는 잡음을 기반으로 현재 단말 장치(500)의 위치를 추정할 수 있다.
다만, 기존의 음성 압축 코덱들을 지원하는 일반적인 단말 장치가 음성 이외의 음향 신호를 전송하는 경우에는, 신호의 왜곡이 발생하므로 주변의 소음 또는 잡음을 기반으로 단말 장치의 위치를 추정하기 어렵다는 문제점이 있다. 일반적인 단말 장치가 음성 이외의 음향 신호를 전송하는 경우 신호 왜곡이 발생하는 이유에 대해서는, 도 1 내지 4를 참조하여 상술하였으므로, 중복되는 설명은 생략한다.
도 18은 일 실시예에 따라 단말 장치로 입력되는 음향 신호에 기초하여 동작 모드를 선택하는 방법의 흐름도이다. 도 18은 비상 상황에서 단말 장치(500)가 음향 신호의 압축 모드를 자동적으로 전환하는 알고리즘을 도시한다.
도 18에는, 사용자가 대화를 할 수 없는 긴급한 상황으로 판단되면 단말 장치(500)가 자동적으로 동작 모드를 음성 모드로부터 오디오 모드로 전환하는 알고리즘이 도시된다. 도 16에는 단말 장치(500)가 영상 내용의 분석 결과에 따라 자동적으로 동작 모드를 선택하는 알고리즘이 도시된다. 도 18에 도시된 알고리즘은, 도 16에 도시된 알고리즘과 비교하여, 음성 모드에서 오디오 모드로 진입한 후에 이를 계속 유지한다는 점에서 차이가 있다. 도 18에 도시된 흐름도에 따르면, 단말 장치(500)는, 오디오 모드에 진입하면, 별도의 입력이 수신되지 않는 한, 음성 모드로 자동적으로 전환되지 않는다.
단계 S1801에서 단말 장치(500)는, 동작 모드를 선택하는 알고리즘 내에서 사용되는 변수들인 Threshold_1, Threshold_2, Silence_rate 및 Min_period를 초기화 할 수 있다. 단말 장치(500)는, 현재 음성 모드에서 동작하는 것을 전제하는 것으로 가정될 수 있다.
단계 S1803에서 단말 장치(500)는, Frame_counter를 1로 초기화 하고, Silence_rate를 0으로 초기화 할 수 있다. Frame_counter는 영상 발신 신호에 포함되는 복수의 영상 프레임들의 수이며 Silence_counter는 음성 신호가 포함되지 않는 프레임의 수를 의미한다. Silence_rate는 전체 복수의 프레임들 중에서 음성 신호가 포함되지 않는 프레임의 비율을 의미한다.
단계 S1805에서 단말 장치(500)는, 외부 장치에게 전송하기 위해서 입력된 음향 발신 신호에 포함되는 하나의 프레임을 획득할 수 있다. 이하, 단계 S1805에서 획득된 프레임을 “현재 프레임”이라고 한다.
단계 S1807에서 단말 장치(500)는, 현재 프레임을 분석할 수 있다.
단계 S1809에서 단말 장치(500)는, 현재 프레임에 음성 신호가 포함되는지 여부를 판단할 수 있다. 예를 들어, 단말 장치(500)는, 20 ms 단위로 캡쳐되는 각 입력 신호 프레임에 대해서 음성 신호가 포함되는지 여부를 판단할 수 있다.
단계 S1809에서 단말 장치(500)는, 현재 프레임이 음성 신호를 포함하는지 여부를 코덱 내부의 VAD 동작(Voice Activity Detection operation)에 의해 판단할 수 있다.
단계 S1809에서 현재 프레임이 음성 신호를 포함한다고 판단되는 경우, 현재 프레임이 음성 신호를 포함하는지 여부를 나타내는 파라미터인 VAD가 1 일 수 있다. 현재 프레임이 음성 신호를 포함하는 경우(VAD=1), 단계 S1821에서 단말 장치(500)는 현재 프레임을 음성 모드로 압축하고, 단계 S1805로 돌아가서 새롭게 프레임을 획득하고, 프레임 처리 절차를 반복할 수 있다. 단계 S1823에서 단말 장치(500)는 Frame_counter의 값을 1 증가시킬 수 있다.
단계 S1809에서 현재 프레임이 음성 신호를 포함하지 않는다고 판단되는 경우, 현재 프레임이 음성 신호를 포함하는지 여부를 나타내는 파라미터인 VAD가 0 일 수 있다. 현재 프레임이 음성 신호를 포함하지 않는 경우(VAD=0), 단계 S1811에서 단말 장치(500)는 Silence_counter를 1 증가시킬 수 있다.
단계 S1813에서 단말 장치(500)는 Silence_rate를 계산할 수 있다. 단말 장치(500)는, 전체 복수의 프레임들의 수(Frame_counter)에 대한 음성 신호가 포함되지 않는 프레임의 수(Silence_counter)의 비율을 계산하고, 계산된 값으로 Silence_rate를 갱신할 수 있다.
음성 모드에서 압축한 프레임의 수가 Min_period 이하인 경우, 단계 S1825에서 단말 장치(500)는 SID를 부호화할 수 있다. 단말 장치(500)는, 긴급한 상황이라고 판단하기에는 짧은 시간 동안 음성 신호가 입력되지 않은 경우, 발화가 잠시 중단된 것으로 보고 잡음 정보를 출력할 수 있다. 음성 모드에서 압축한 프레임의 수가 Min_period 이하인 경우, 단말 장치(500)는 단계 S1805로 돌아가서 새롭게 프레임을 획득하고, 프레임 처리 절차를 반복할 수 있다. 단계 S1823에서 단말 장치(500)는 Frame_counter의 값을 1 증가시킬 수 있다.
한편, 단계 S1815에서 단말 장치(500)는, 음성 모드에서 압축한 프레임들의 수가 Min_period 보다 클 경우, 동작 모드를 전환 하기에 충분히 긴 시간이 경과한 것으로 판단할 수 있다. 음성 모드에서 압축한 프레임들의 수가 Min_period 보다 클 경우, 동작 모드를 전환 하기에 충분히 긴 시간이 경과한 것으로 판단할 수 있다.
단계 S1817에서 단말 장치(500)는, Silence_rate와 Threshold_2를 비교할 수 있다.
단계 S1817에서 Silence_rate가 Threshold_2 보다 큰 경우, 단말 장치(500)는, 사용자가 대화를 할 수 없는 긴급한 상황이라고 판단할 수 있다. 단계 S1818에서 단말 장치(500)는 현재 프레임을 부호화하고, 단계 S1819에서 단말 장치(500)는 오디오 모드를 선택하고, 오디오 모드로 진입할 수 있다.
단계 S1817에서 Silence_rate가 Threshold_2 이하인 경우, 단말 장치(500)는 잡음 정보를 출력하고, 단계 S1805로 돌아가서 새롭게 프레임을 획득하고, 프레임 처리 절차를 반복할 수 있다.
도 18에 도시된 바와 같이, 일 실시예에 따른 단말 장치(500)는, 입력되는 음향 신호를 분석함으로써, 사용자가 대화를 진행할 수 없는 긴급한 상황이라고 판단되는 경우 자동적으로 오디오 모드로 전환할 수 있다. 단말 장치(500)는, 자동적으로 오디오 모드로 전환함으로써, 단말 장치(500)의 주변음이 관제 센터에게 최대한 잘 전달되도록 할 수 있다. 단말 장치(500)는, 고음질의 주변음을 관제 센터에게 전송함으로써, 단말 장치(500)의 위치에 대한 정보를 제공할 수 있다.
한편, 단말 장치(500)가 오디오 모드로 전환되어 동작하더라도, 야간이나 한적한 장소에 단말 장치(500)가 위치한 경우, 주변음이 부족하여 위치를 파악하기 어려울 수 있다. 이 경우, 단말 장치(500)가 현재 사용하는 대역폭에 맞추어 사고 현장 근처에 위치한 차량이나 구조 요원이 인공적인 주변음을 높은 볼륨으로 생성할 수 있다. 단말 장치(500)는, 단말 장치(500)의 인근에 위치한 차량 또는 구조 요원으로부터 발산된 고유의 음향 신호를 수신하고 압축하여 송신할 수 있다.
도 19에 도시된 바와 같이, 교통 사고가 발생하였으나 운전자의 부상이 심각하여 사고 위치를 정확히 전달할 수 없는 경우, 단말 장치(500)는 오디오 모드로 전환하여 고품질의 주변음을 전송할 수 있다.
이 때, 관제 센터는, 사고 위치로 추정되는 지역에 위치한 장치들(예를 들어, 경찰차의 사이렌 등)이 인공적인 주변음을 생성하도록 제어할 수 있다. 단말 장치(500)는, 인근에 위치한 장치들로부터 생성된 음향 신호를 압축하고 관제 센터와 연결된 기지국에게 전송할 수 있다.
단말 장치(500)로부터 송신된 음향 신호는, 단말 장치(500)의 위치를 추적하기 위해 이용될 수 있다. 관제 센터에서는 단말 장치(500)가 인공적인 주변음을 압축하여 송신한 음향 신호를 복원하고, 인공적인 주변음과 복원된 음향 신호 간의 상관 관계(correlation)를 계산할 수 있다. 관제 센터는, 복원된 음향 신호와 가장 관련성이 높은 주변음을 발산한 장치의 위치를 기준으로 차량과 구조 요원을 재배치한 후 사고 위치 파악을 재개할 수 있다.
한편, 상술한 실시예의 일부 또는 전부는, 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터에 의해 판독 가능한 매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 실시예에서 사용된 데이터의 구조는 컴퓨터 판독 가능 매체에 여러 수단을 통하여 기록될 수 있다. 또한, 상술한 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로 구현될 수 있다. 예를 들어, 소프트웨어 모듈 또는 알고리즘으로 구현되는 방법들은 컴퓨터가 읽고 실행할 수 있는 코드들 또는 프로그램 명령들로서 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있다.
컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 기록 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 포함할 수 있다. 컴퓨터 판독 가능 매체는 마그네틱 저장매체, 예를 들면, 롬, 플로피 디스크, 하드 디스크 등을 포함하고,) 광학적 판독 매체, 예를 들면, 시디롬, DVD 등과 같은 저장 매체를 포함할 수 있으나, 이에 제한되지 않는다. 또한, 컴퓨터 판독 가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있다.
또한, 컴퓨터가 읽을 수 있는 복수의 기록 매체가 네트워크로 연결된 컴퓨터 시스템들에 분산되어 있을 수 있으며, 분산된 기록 매체들에 저장된 데이터, 예를 들면 프로그램 명령어 및 코드가 적어도 하나의 컴퓨터에 의해 실행될 수 있다.
또한, 본 명세서에서, “부”, “모듈”등은 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.
예를 들어, “부”, "모듈" 은 소프트웨어 구성 요소들, 객체 지향 소프트웨어 구성 요소들, 클래스 구성 요소들 및 태스크 구성 요소들과 같은 구성 요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들에 의해 구현될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (22)

  1. 네트워크를 통해 적어도 하나의 외부 장치와 통화 기능을 수행하는 단말 장치에 있어서,
    상기 외부 장치에게 전송하기 위해 음향 발신 신호 및 영상 발신 신호 중 적어도 하나를 수신하는, 수신부;
    상기 음향 발신 신호 및 영상 발신 신호 중 적어도 하나를 분석하고, 분석된 결과에 기초하여 음성 모드 및 오디오 모드 중 하나를 선택하고, 선택된 모드에 기초하여 상기 음향 발신 신호를 압축하는 프로세서;
    상기 압축된 음향 발신 신호를 상기 외부 장치에게 전송하고, 상기 외부 장치로부터 음향 수신 신호를 수신하는 통신부; 및
    상기 음향 수신 신호를 출력하는 출력부를 포함하고,
    상기 프로세서는,
    상기 영상 발신 신호에 포함되는 복수의 프레임들 각각으로부터 사람의 얼굴을 검출하고, 검출된 얼굴의 수 및 상기 검출된 얼굴이 차지하는 면적 중 적어도 하나에 기초하여 음성 모드 및 오디오 모드 중 하나를 선택하는 것을 특징으로 하는 단말 장치.
  2. 제1 항에 있어서,
    상기 음성 모드는, 음성 신호를 압축하기 위하여 설계된 압축 방식을 이용하는 모드이고,
    상기 오디오 모드는, 음성이 아닌 오디오 신호를 압축하기 위하여 설계된 압축 방식을 이용하는 모드인 것을 특징으로 하는, 단말 장치.
  3. 제1 항에 있어서,
    상기 음성 모드는, 상기 음향 발신 신호에 따라 비트레이트(bitrate) 및 대역폭(bandwidth) 중 적어도 하나를 변화시키는 압축 방식을 이용하는 모드이고,
    상기 오디오 모드는, 상기 음향 발신 신호에 관계 없이, 상기 네트워크를 통해 수신된 통화 조건 내에서 허용되는 최대 비트 레이트 및 최대 대역폭 중 적어도 하나를 사용하는 압축 방식을 이용하는 모드인 것을 특징으로 하는, 단말 장치.
  4. 제1 항에 있어서,
    상기 단말 장치는, 음향 신호를 압축하기 위해서 EVS(Enhanced Voice Services) 코덱을 이용하고,
    상기 음성 모드는, ACELP(Algebraic Code-Excited Linear Prediction) 방식을 이용하여 상기 음향 발신 신호를 압축하는 모드이고,
    상기 오디오 모드는, MDCT(Modified Discrete Cosign Transform) 방식을 이용하여 상기 음향 발신 신호를 압축하는 모드인 것을 특징으로 하는, 단말 장치.
  5. 제1 항에 있어서,
    상기 음성 모드는, 상기 음향 발신 신호를 압축하는 데에 있어서, DTX(Discontinuous Transmission), LPC(linear Predictive coding), 및 NS(Noise Suppression) 중 적어도 하나를 수행하는 모드이고,
    상기 오디오 모드는, 상기 음향 발신 신호를 압축하는 데에 있어서, DTX, LPC, 및 NS 중 적어도 하나의 수행을 중지하고, 상기 음향 발신 신호를 수신하는 마이크의 출력을 증폭시키는 모드인 것을 특징으로 하는, 단말 장치.
  6. 삭제
  7. 삭제
  8. 제1 항에 있어서,
    상기 프로세서는,
    특정 시간 내 상기 검출된 얼굴의 수가 하나이고, 상기 검출된 얼굴이 차지하는 면적이 임계 면적보다 큰 경우, 상기 음성 모드를 선택하고,
    상기 특정 시간 내 상기 검출된 얼굴의 수가 둘 이상이거나, 상기 검출된 얼굴이 차지하는 면적이 임계 면적 이하인 경우, 상기 오디오 모드를 선택하는 것을 특징으로 하는, 단말 장치.
  9. 제1 항에 있어서,
    상기 프로세서는,
    상기 음향 발신 신호에 포함되는 복수의 프레임들 각각으로부터 사람의 음성을 검출하고, 특정 시간 내 사람의 음성이 검출되지 않은 프레임들의 비율에 기초하여 음성 모드 및 오디오 모드 중 하나를 선택하는 것을 특징으로 하는, 단말 장치.
  10. 제9 항에 있어서,
    상기 프로세서는,
    상기 복수의 프레임들 중에서 상기 특정 시간 내 상기 음성이 검출되지 않은 프레임들의 비율이 임계 비율 이하인 경우, 상기 음성 모드를 선택하고,
    상기 복수의 프레임들 중에서 상기 특정 시간 내 상기 음성이 검출되지 않은 프레임들의 비율이 임계 비율보다 큰 경우, 상기 오디오 모드를 선택하는 것을 특징으로 하는, 단말 장치.
  11. 제1 항에 있어서,
    상기 프로세서는, 상기 오디오 모드를 선택하고, 상기 단말 장치의 인근에 위치한 장치로부터 생성된 음향 신호를 포함하는 음향 발신 신호를 압축하고,
    상기 외부 장치에게 전송된 상기 압축된 음향 발신 신호는, 상기 단말 장치의 위치를 추적하기 위해서 이용되는 것을 특징으로 하는, 단말 장치.
  12. 단말 장치가 네트워크를 통해 적어도 하나의 외부 장치와 통화 기능을 수행하는 방법에 있어서,
    상기 외부 장치에게 전송하기 위해 음향 발신 신호 및 영상 발신 신호 중 적어도 하나를 수신하는 단계;
    상기 음향 발신 신호 및 영상 발신 신호 중 적어도 하나를 분석하고, 분석된 결과에 기초하여 음성 모드 및 오디오 모드 중 하나를 선택하는 단계;
    선택된 모드에 기초하여 상기 음향 발신 신호를 압축하는 단계; 및
    상기 압축된 음향 발신 신호를 상기 외부 장치에게 전송하는 단계를 포함하고,
    상기 선택하는 단계는,
    상기 영상 발신 신호에 포함되는 복수의 프레임들 각각으로부터 사람의 얼굴을 검출하는 단계;
    상기 검출된 얼굴의 수가 하나이고, 특정 시간 내 상기 검출된 얼굴이 차지하는 면적이 임계 면적보다 큰 경우, 상기 음성 모드를 선택하는 단계; 및
    상기 검출된 얼굴의 수가 둘 이상이거나, 상기 특정 시간 내 상기 검출된 얼굴이 차지하는 면적이 임계 면적 이하인 경우, 상기 오디오 모드를 선택하는 단계를 포함하는 것을 특징으로 하는, 통화 기능 수행 방법.
  13. 제12 항에 있어서,
    상기 음성 모드는, 음성 신호를 압축하기 위하여 설계된 압축 방식을 이용하는 모드이고,
    상기 오디오 모드는, 음성이 아닌 오디오 신호를 압축하기 위하여 설계된 압축 방식을 이용하는 모드인 것을 특징으로 하는, 통화 기능 수행 방법.
  14. 제12 항에 있어서,
    상기 음성 모드는, 상기 음향 발신 신호에 따라 비트레이트(bitrate) 및 대역폭(bandwidth) 중 적어도 하나를 변화시키는 압축 방식을 이용하는 모드이고,
    상기 오디오 모드는, 상기 음향 발신 신호에 관계 없이, 상기 네트워크를 통해 수신된 통화 조건 내에서 허용되는 최대 비트 레이트 및 최대 대역폭 중 적어도 하나를 사용하는 압축 방식을 이용하는 모드인 것을 특징으로 하는, 통화 기능 수행 방법.
  15. 제12 항에 있어서,
    상기 단말 장치는, 음향 신호를 압축하기 위해서 EVS(Enhanced Voice Services) 코덱을 이용하고,
    상기 음성 모드는, ACELP(Algebraic Code-Excited Linear Prediction) 방식을 이용하여 상기 음향 발신 신호를 압축하는 모드이고,
    상기 오디오 모드는, MDCT(Modified Discrete Cosign Transform) 방식을 이용하여 상기 음향 발신 신호를 압축하는 모드인 것을 특징으로 하는, 통화 기능 수행 방법.
  16. 제12 항에 있어서,
    상기 음성 모드는, 상기 음향 발신 신호를 압축하는 데에 있어서, DTX(Discontinuous Transmission), LPC(linear Predictive coding), 및 NS(Noise Suppression) 중 적어도 하나를 수행하는 모드이고,
    상기 오디오 모드는, 상기 음향 발신 신호를 압축하는 데에 있어서, DTX, LPC, 및 NS 중 적어도 하나의 수행을 중지하고, 상기 음향 발신 신호를 수신하는 마이크의 출력을 증폭시키는 모드인 것을 특징으로 하는, 통화 기능 수행 방법.
  17. 삭제
  18. 삭제
  19. 제12 항에 있어서,
    상기 음성 모드 및 오디오 모드 중 하나를 선택하는 단계는,
    상기 음향 발신 신호에 포함되는 복수의 프레임들 각각으로부터 사람의 음성을 검출하는 단계; 및
    특정 시간 내 사람의 음성이 검출되지 않은 프레임들의 비율에 기초하여 음성 모드 및 오디오 모드 중 하나를 선택하는 단계를 더 포함하는 것을 특징으로 하는, 통화 기능 수행 방법.
  20. 제19 항에 있어서,
    상기 사람의 음성이 검출되지 않은 프레임들의 비율에 기초하여 음성 모드 및 오디오 모드 중 하나를 선택하는 단계는,
    상기 특정 시간 내 상기 복수의 프레임들 중에서 상기 음성이 검출되지 않은 프레임들의 비율이 임계 비율 이하인 경우, 상기 음성 모드를 선택하는 단계; 및,
    상기 특정 시간 내 상기 복수의 프레임들 중에서 상기 음성이 검출되지 않은 프레임들의 비율이 임계 비율보다 큰 경우, 상기 오디오 모드를 선택하는 단계를 포함하는 것을 특징으로 하는, 통화 기능 수행 방법.
  21. 제12 항에 있어서,
    상기 압축하는 단계는,
    상기 오디오 모드에 기초하여, 상기 단말 장치의 인근에 위치한 장치로부터 생성된 음향 신호를 포함하는 음향 발신 신호를 압축하는 단계를 포함하고,
    상기 외부 장치에게 전송된 상기 압축된 음향 발신 신호는, 상기 단말 장치의 위치를 추적하기 위해서 이용되는 것을 특징으로 하는, 통화 기능 수행 방법.
  22. 단말 장치가 네트워크를 통해 적어도 하나의 외부 장치와 통화 기능을 수행하도록 하는 명령어들을 포함하는 하나 이상의 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체에 있어서, 상기 통화 기능을 수행하는 방법은,
    상기 외부 장치에게 전송하기 위해 음향 발신 신호 및 영상 발신 신호 중 적어도 하나를 수신하는 단계;
    상기 음향 발신 신호 및 영상 발신 신호 중 적어도 하나를 분석하고, 분석된 결과에 기초하여 음성 모드 및 오디오 모드 중 하나를 선택하는 단계;
    선택된 모드에 기초하여 상기 음향 발신 신호를 압축하는 단계; 및
    상기 압축된 음향 발신 신호를 상기 외부 장치에게 전송하는 단계를 포함하고,
    상기 선택하는 단계는,
    상기 영상 발신 신호에 포함되는 복수의 프레임들 각각으로부터 사람의 얼굴을 검출하는 단계;
    상기 검출된 얼굴의 수가 하나이고, 특정 시간 내 상기 검출된 얼굴이 차지하는 면적이 임계 면적보다 큰 경우, 상기 음성 모드를 선택하는 단계; 및
    상기 검출된 얼굴의 수가 둘 이상이거나, 상기 특정 시간 내 상기 검출된 얼굴이 차지하는 면적이 임계 면적 이하인 경우, 상기 오디오 모드를 선택하는 단계를 포함하는 것을 특징으로 하는, 기록 매체.
KR1020197009755A 2016-10-07 2016-10-07 통화 기능을 수행하는 단말 장치 및 방법 KR102214440B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2016/011222 WO2018066731A1 (ko) 2016-10-07 2016-10-07 통화 기능을 수행하는 단말 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20190052687A KR20190052687A (ko) 2019-05-16
KR102214440B1 true KR102214440B1 (ko) 2021-02-09

Family

ID=61832111

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197009755A KR102214440B1 (ko) 2016-10-07 2016-10-07 통화 기능을 수행하는 단말 장치 및 방법

Country Status (3)

Country Link
US (1) US10652397B2 (ko)
KR (1) KR102214440B1 (ko)
WO (1) WO2018066731A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10332515B2 (en) * 2017-03-14 2019-06-25 Google Llc Query endpointing based on lip detection
US11151993B2 (en) * 2018-12-28 2021-10-19 Baidu Usa Llc Activating voice commands of a smart display device based on a vision-based mechanism
KR102098236B1 (ko) * 2019-02-13 2020-04-07 네이버 주식회사 현재 위치 결정 방법 및 도보 길안내 정보 제공 방법
DE102019205694A1 (de) * 2019-04-18 2020-10-22 Volkswagen Aktiengesellschaft Geschwindigkeitsabhängige Rauschunterdrückung bei Audiosignalen in einem Fahrzeug
CN111193678B (zh) * 2019-12-30 2022-09-16 华人运通(上海)云计算科技有限公司 数据处理方法、装置、设备及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130185084A1 (en) * 2012-01-12 2013-07-18 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for bit allocation for redundant transmission
US20160055859A1 (en) * 2014-08-19 2016-02-25 Qualcomm Incorporated Smart Mute for a Communication Device
US20170093944A1 (en) * 2015-09-28 2017-03-30 International Business Machines Corporation System and method for intelligent configuration of an audio channel with background analysis

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050093539A (ko) * 2004-03-19 2005-09-23 엘지전자 주식회사 휴대용 단말기의 소리입력장치 및 그 방법
US10178522B2 (en) 2005-08-02 2019-01-08 Qualcomm Incorporated VoIP emergency call support
KR20080047208A (ko) * 2006-11-24 2008-05-28 삼성전자주식회사 이동 통신 시스템에서의 통화 모드 전환 방법 및 그에 따른시스템
KR100868638B1 (ko) * 2007-08-07 2008-11-12 에스케이 텔레콤주식회사 영상 통화 말풍선 제공 시스템 및 방법
KR101386883B1 (ko) * 2007-12-06 2014-04-29 삼성전자주식회사 휴대 단말기 및 그 통화 기능 수행 방법
US9113240B2 (en) 2008-03-18 2015-08-18 Qualcomm Incorporated Speech enhancement using multiple microphones on multiple devices
US9148769B2 (en) 2008-05-07 2015-09-29 Qualcomm Incorporated System, apparatus and method to enable mobile stations to identify calls based on predetermined values set in a call header
US20130150028A1 (en) 2011-12-12 2013-06-13 Biketrak, Inc. Bicycle theft monitoring and recovery devices
US9232071B2 (en) 2011-12-16 2016-01-05 Qualcomm Incorporated Optimizing audio processing functions by dynamically compensating for variable distances between speaker(s) and microphone(s) in a mobile device
US9036526B2 (en) 2012-11-08 2015-05-19 Qualcomm Incorporated Voice state assisted frame early termination
KR20140070134A (ko) * 2012-11-30 2014-06-10 엘지전자 주식회사 이동 단말기 및 그 동작 방법
US9263054B2 (en) 2013-02-21 2016-02-16 Qualcomm Incorporated Systems and methods for controlling an average encoding rate for speech signal encoding
KR20140131059A (ko) 2013-05-03 2014-11-12 이성훈 차량에서 전송된 정보를 활용하는 방법
US9380609B2 (en) 2013-08-28 2016-06-28 Qualcomm Incorporated Method and apparatus for processing emergency calls
US9363844B2 (en) 2013-08-30 2016-06-07 Qualcomm Incorporated Enhance performance of making an emergency call during radio link failure over radio access technology
US20150100318A1 (en) 2013-10-04 2015-04-09 Qualcomm Incorporated Systems and methods for mitigating speech signal quality degradation
US9264374B2 (en) 2013-10-23 2016-02-16 Qualcomm Incorporated Media playout for VOIP applications
US9462230B1 (en) * 2014-03-31 2016-10-04 Amazon Technologies Catch-up video buffering
US9462448B2 (en) 2014-04-14 2016-10-04 Qualcomm Incorporated Adaptive positioning reference signal (PRS) for indoor location
US20160014586A1 (en) 2014-07-11 2016-01-14 Qualcomm Incorporated Vehicular small cell data transport and emergency services
US20160014578A1 (en) 2014-07-14 2016-01-14 Qualcomm Incorporated Multiple Active Voice Calls on a Multi-SIM Multi-Active Device
US9351137B2 (en) 2014-07-14 2016-05-24 Qualcomm Incorporated Simultaneous voice calls using a multi-SIM multi-active device
US20160021520A1 (en) 2014-07-16 2016-01-21 Qualcomm Incorporated Allowing emergency call when no service in ue in case of shared bands
CN106537931B (zh) 2014-07-23 2020-03-03 高通股份有限公司 车辆发起的紧急呼叫
US9712287B2 (en) 2014-07-31 2017-07-18 Qualcomm Incorporated System and method of redundancy based packet transmission error recovery
KR20160040357A (ko) 2014-10-02 2016-04-14 주식회사 쓰리에스 병력에 기반한 응급 구조 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130185084A1 (en) * 2012-01-12 2013-07-18 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for bit allocation for redundant transmission
US20160055859A1 (en) * 2014-08-19 2016-02-25 Qualcomm Incorporated Smart Mute for a Communication Device
US20170093944A1 (en) * 2015-09-28 2017-03-30 International Business Machines Corporation System and method for intelligent configuration of an audio channel with background analysis

Also Published As

Publication number Publication date
WO2018066731A1 (ko) 2018-04-12
US10652397B2 (en) 2020-05-12
US20190289132A1 (en) 2019-09-19
KR20190052687A (ko) 2019-05-16

Similar Documents

Publication Publication Date Title
KR102214440B1 (ko) 통화 기능을 수행하는 단말 장치 및 방법
US9143571B2 (en) Method and apparatus for identifying mobile devices in similar sound environment
EP3416166B1 (en) Processing speech signal using substitute speech data
US9911416B2 (en) Controlling electronic device based on direction of speech
JP6113302B2 (ja) 音声データの伝送方法及び装置
JP4713111B2 (ja) 発話区間検出装置、音声認識処理装置、送信システム、信号レベル制御装置、発話区間検出方法
US9208798B2 (en) Dynamic control of voice codec data rate
US9111531B2 (en) Multiple coding mode signal classification
KR102158739B1 (ko) 자동통역 시스템, 디바이스 및 방법
US9293143B2 (en) Bandwidth extension mode selection
KR101590239B1 (ko) 워터마킹된 신호를 인코딩 및 디코딩하는 디바이스들
US20090099851A1 (en) Adaptive bit pool allocation in sub-band coding
WO2013078677A1 (zh) 一种自适应调节音效的方法和设备
JP5639273B2 (ja) ピッチサイクルエネルギーを判断し、励起信号をスケーリングすること
KR102071865B1 (ko) 서버인식 결과를 이용하여 호출어를 인식하는 장치 및 방법
CN112767953B (zh) 语音编码方法、装置、计算机设备和存储介质
ES2963219T3 (es) Método y aparato de codificación de señales estéreo, método y aparato de decodificación de señales estéreo
KR102495028B1 (ko) 휘파람소리 인식 기능이 구비된 사운드장치
CN113571072B (zh) 一种语音编码方法、装置、设备、存储介质及产品
Gibson Challenges in speech coding research
WO2024110562A1 (en) Adaptive encoding of transient audio signals
CN115831176A (zh) 基于cat1的远程监听和控制的嵌入式智能录音笔系统

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant