KR20190111134A - 잡음 환경의 통화 품질을 개선하는 방법 및 장치 - Google Patents

잡음 환경의 통화 품질을 개선하는 방법 및 장치 Download PDF

Info

Publication number
KR20190111134A
KR20190111134A KR1020197026737A KR20197026737A KR20190111134A KR 20190111134 A KR20190111134 A KR 20190111134A KR 1020197026737 A KR1020197026737 A KR 1020197026737A KR 20197026737 A KR20197026737 A KR 20197026737A KR 20190111134 A KR20190111134 A KR 20190111134A
Authority
KR
South Korea
Prior art keywords
sound quality
signal
voice signal
subjective
real
Prior art date
Application number
KR1020197026737A
Other languages
English (en)
Other versions
KR102307355B1 (ko
Inventor
성호상
오은미
프랑수와홀리
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of KR20190111134A publication Critical patent/KR20190111134A/ko
Application granted granted Critical
Publication of KR102307355B1 publication Critical patent/KR102307355B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/38Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
    • H04B1/40Circuits
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2236Quality of speech transmission monitoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Telephone Function (AREA)

Abstract

상기 기술적 과제를 해결하기 위한 본 발명의 일 실시예에 따른 음성 신호 처리 방법은, 실시간 수신단(near-end) 잡음 신호를 획득하는 단계; 착신 호(incoming call)에 따른 송신단(far-end) 음성 신호를 획득하는 단계; 기준 신호(reference signal) 및 실시간 수신단 잡음 신호에 기초하여 생성된 테스트 신호들의 주관적(subjective) 음질 및 지각-객관적(perceptual objective) 음질을 측정하는 단계; 주관적 음질 및 지각-객관적 음질에 기초하여 적어도 하나의 음질 개선 방법을 선택하고, 선택된 적어도 하나의 음질 개선 방법에 적용될 파라미터들을 결정하는 단계; 및 결정된 파라미터들에 기초하여, 선택된 적어도 하나의 음질 개선 방법을 이용해 송신단 음성 신호의 음질을 개선하는 단계;를 포함하고, 테스트 신호들은 음질 개선 방법들에 파라미터 값들의 조합을 적용하여 음질이 개선된 기준 신호와 획득된 실시간 수신단 잡음 신호를 믹싱하여 생성된다.

Description

잡음 환경의 통화 품질을 개선하는 방법 및 장치
본 발명은 오디오 및/또는 스피치 신호 처리에 관한 것으로서, 보다 구체적으로는 단말 주변의 잡음 환경에 기초하여, 객관적 음질 및 주관적 음질을 모두 고려하여 오디오 및/또는 스피치신호의 음질을 향상시키는 방법 및 장치에 관한 것이다.
주관적 음질은 음성 신호를 듣는 청자가 주관적으로 느끼는 음질을 의미하며, 음성 통화 시스템에서는 음성의 명료도가 주관적 음질을 평가하는 중요한 기준이 된다. 객관적 음질은 보다 객관적인 지표를 이용하여 나타낸 음성 신호 또는 오디오 신호의 음질로 일반적으로 잡음 신호와 음성신호 또는 오디오 신호의 관계에 따라 결정된다.
그러나 주관적 음질과 객관적 음질은 비례하는 관계에 있지 않으며 주관적 음질이 개선되더라도 객관적 음질은 오히려 악화될 수 있다.
따라서 주관적 음질과 객관적 음질을 동시에 만족시키기 위해서는 음질 개선 알고리즘의 파라미터를 적절히 설정하는 것이 필요하다.
해결하고자 하는 과제는 통화 품질을 개선하기 위하여, 복호화된 신호의 주관적 및/또는 객관적 음질을 단말 주변의 잡음 환경에 적응적으로 향상시키기 위한 신호 처리 방법 및 장치와 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 있다.
상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.
상기 기술적 과제를 해결하기 위한 본 발명의 일 실시예에 따른 음성 신호 처리 방법은, 실시간 수신단(near-end) 잡음 신호를 획득하는 단계; 착신 호(incoming call)에 따른 송신단(far-end) 음성 신호를 획득하는 단계; 기준 신호(reference signal) 및 실시간 수신단 잡음 신호에 기초하여 생성된 테스트 신호들의 주관적(subjective) 음질 및 지각-객관적(perceptual objective) 음질을 측정하는 단계; 주관적 음질 및 지각-객관적 음질에 기초하여 적어도 하나의 음질 개선 방법을 선택하고, 선택된 적어도 하나의 음질 개선 방법에 적용될 파라미터들을 결정하는 단계; 및 결정된 파라미터들에 기초하여, 선택된 적어도 하나의 음질 개선 방법을 이용해 송신단 음성 신호의 음질을 개선하는 단계;를 포함하고, 테스트 신호들은 음질 개선 방법들에 파라미터 값들의 조합을 적용하여 음질이 개선된 기준 신호와 획득된 실시간 수신단 잡음 신호를 믹싱하여 생성된다.
본 발명의 또 다른 실시예에 따르면, 파라미터들을 결정하는 단계는, 주관적 음질 및 지각-객관적 음질에 기초하여 테스트 신호들의 음질을 측정하는 단계; 및 측정된 테스트 신호들의 음질이 최적일 때의 파라미터 값들의 조합을 파라미터들로 결정한다.
본 발명의 또 다른 실시예에 따르면, 파라미터들을 결정하는 단계는, 착신 호에 대한 정황 정보에 기초하여 주관적 음질에 대한 가중치 및 지각-객관적 음질에 대한 가중치를 결정하는 단계;를 더 포함하고, 주관적 음질에 대한 가중치를 주관적 음질에 적용하고, 지각-객관적 음질에 대한 가중치를 객관적 음질에 적용하여 테스트 신호들의 음질을 측정한다.
본 발명의 또 다른 실시예에 따르면, 주관적 음질은, 파라미터 값들에 대응하는 주관적 음질 예측 값들에 기초하여 측정된다.
본 발명의 또 다른 실시예에 따르면, 실시간 수신단 잡음 신호를 모니터링하는 단계; 및 모니터링 결과 실시간 수신단 잡음 신호의 특징이 변화하면 파라미터들을 갱신하는 단계;를 더 포함한다.
상기 기술적 과제를 해결하기 위한 본 발명의 또 다른 실시예에 따른 음성 신호 처리 방법은, 실시간 수신단(near-end) 잡음 신호를 획득하는 단계; 착신 호(incoming call)에 따른 송신단(far-end) 음성 신호를 획득하는 단계; 획득된 실시간 수신단 잡음 신호에 대한 정보를 전송하는 단계; 기준 신호(reference signal) 및 실시간 수신단 잡음 신호에 기초하여 생성된 테스트 신호들의 주관적(subjective) 음질 및 지각-객관적(perceptual objective) 음질에 기초하여 선택된 적어도 하나의 음질 개선 방법에 대한 정보 및 선택된 적어도 하나의 음질 개선 방법에 적용될 파라미터들에 대한 정보를 수신하는 단계; 및 수신된 파라미터들에 기초하여, 선택된 적어도 하나의 음질 개선 방법을 이용해 송신단 음성 신호의 음질을 개선하는 단계;를 포함하고, 테스트 신호들은 음질 개선 방법들에 파라미터 값들의 조합을 적용하여 음질이 개선된 기준 신호와 획득된 실시간 수신단 잡음 신호를 믹싱하여 생성된다.
본 발명의 또 다른 실시예에 따르면, 송신단 음성 신호는, 기준 신호 및 실시간 송신단 잡음 신호에 기초하여 결정된 파라미터들을, 적어도 하나의 음질 개선 방법에 적용하여 음질이 개선된 음성 신호이다.
상기 기술적 과제를 해결하기 위한 본 발명의 일 실시예에 따른 음성 신호 처리 장치는, 실시간 수신단(near-end) 잡음 신호를 획득하는 입력부; 착신 호(incoming call)에 따른 송신단(far-end) 음성 신호를 획득하는 수신부; 및 기준 신호(reference signal) 및 실시간 수신단 잡음 신호에 기초하여 생성된 테스트 신호들의 주관적(subjective) 음질 및 지각-객관적(perceptual objective) 음질을 측정하고, 주관적 음질 및 지각-객관적 음질에 기초하여 적어도 하나의 음질 개선 방법을 선택하고, 선택된 적어도 하나의 음질 개선 방법에 적용될 파라미터들을 결정하고, 결정된 파라미터들에 기초하여, 선택된 적어도 하나의 음질 개선 방법을 이용해 송신단 음성 신호의 음질을 개선하는 음질 개선부;를 포함하고, 테스트 신호들은 음질 개선 방법들에 파라미터 값들의 조합을 적용하여 음질이 개선된 기준 신호와 획득된 실시간 수신단 잡음 신호를 믹싱하여 생성된다.
상기 기술적 과제를 해결하기 위한 본 발명의 또 다른 실시예에 따른 음성 신호 처리 장치는, 실시간 수신단(near-end) 잡음 신호를 획득하는 입력부; 착신 호(incoming call)에 따른 송신단(far-end) 음성 신호를 획득하고, 획득된 실시간 수신단 잡음 신호에 대한 정보를 전송하고, 기준 신호(reference signal) 및 실시간 수신단 잡음 신호에 기초하여 생성된 테스트 신호들의 주관적(subjective) 음질 및 지각-객관적(perceptual objective) 음질에 기초하여 선택된 적어도 하나의 음질 개선 방법에 대한 정보 및 선택된 적어도 하나의 음질 개선 방법에 적용될 파라미터들을 수신하는 송수신부; 및 수신된 파라미터들에 기초하여, 선택된 적어도 하나의 음질 개선 방법을 이용해 송신단 음성 신호의 음질을 개선하는 음질 개선부;를 포함하고, 테스트 신호들은 음질 개선 방법들에 파라미터 값들의 조합을 적용하여 음질이 개선된 기준 신호와 획득된 실시간 수신단 잡음 신호를 믹싱하여 생성된다.
한편, 본 발명의 일 실시예에 따르면, 전술한 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
이 외에도, 본 발명을 구현하기 위한 다른 방법, 다른 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 더 제공된다.
본 발명에 의하면, 단말 주변의 잡음 환경에 적응적으로 통화 품질을 개선할 수 있다. 객관적 음질 평가 및 주관적 음질 평가를 고려하여 음질 개선을 위한 최적의 파라미터를 설정함으로써 통화품질을 개선할 수 있다.
또한, 통화 품질 개선 방법 및 최적 파라미터를 서버에서 결정하도록 하는 경우, 보다 효과적인 음성 품질 개선 효과를 얻을 수 있다.
도 1 은 본 발명의 일 실시예에 따른 음성통화를 위한 이동통신장치의 구성을 나타내는 블록도이다.
도 2 는 본 발명의 일 실시예에 따른 송신단 입출력 및 수신단 입출력 생성을 위한 신호를 설명하는 도면이다.
도 3 은 본 발명의 일 실시예에 따른 신호처리장치의 구성을 나타낸 블록도이다.
도 4 는 본 발명의 일 실시예에 따른 신호처리장치의 구성을 나타낸 블록도이다.
도 5 는 본 발명의 일 실시예에 따른 신호 처리 방법의 흐름도이다.
도 6 은 본 발명의 다른 실시예에 따른 신호 처리 방법의 순서도이다.
도 7 은 본 발명의 일 실시예에 따른 음질 개선 방법의 주요 정보들을 나타낸다.
도 8A 는 잡음 환경에서 임의의 파라미터의 값에 따른 주관적 음질 예측값을 나타낸다.
도 8B 는 잡음 환경에서 파라미터 조합에 대한 지각-객관적 음질을 나타낸다.
도 8C 는 잡음 환경에서 파라미터 조합에 따른 최적 음질을 나타낸다.
도 9 는 본 발명의 일 실시예에 따른 통화 상황 별 파라미터 조합에 대한 음질을 나타낸다.
도 10 은 본 발명의 일 실시예에 따른 신호 처리 방법의 흐름도이다.
도 11 은 본 발명의 일 실시예에 따른 파라미터별 음질 평가 결과 테이블을 나타낸다.
도 12 는 본 발명의 일 실시예에 따른 음질 개선 방법의 블록도이다.
도 13 은 본 발명의 일 실시예에 따른 음질 개선 방법의 블록도이다.
도 14 는 본 발명의 일 실시예에 따른 음질 개선 방법의 블록도이다.
도 15 는 본 발명의 일 실시예에 따른 신호 처리 장치의 세부 블록도이다.
도 16 은 본 발명의 일 실시예에 따른 프로세서의 블록도이다.
도 17 은 본 발명의 일 실시예에 따른 송수신 단말 및 서버 사이의 세부 흐름도를 나타낸다.
도 18 은 본 발명의 일 실시예에 따른 송수신 단말 및 서버 네트워크 구조를 나타낸다.
발명의 실시를 위한 최선의 형태
상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.
상기 기술적 과제를 해결하기 위한 본 발명의 일 실시예에 따른 음성 신호 처리 방법은, 실시간 수신단(near-end) 잡음 신호를 획득하는 단계; 착신 호(incoming call)에 따른 송신단(far-end) 음성 신호를 획득하는 단계; 기준 신호(reference signal) 및 실시간 수신단 잡음 신호에 기초하여 생성된 테스트 신호들의 주관적(subjective) 음질 및 지각-객관적(perceptual objective) 음질을 측정하는 단계; 주관적 음질 및 지각-객관적 음질에 기초하여 적어도 하나의 음질 개선 방법을 선택하고, 선택된 적어도 하나의 음질 개선 방법에 적용될 파라미터들의 최적값을 결정하는 단계; 및 결정된 파라미터들의 최적값에 기초하여, 선택된 적어도 하나의 음질 개선 방법을 이용해 송신단 음성 신호의 음질을 개선하는 단계;를 포함하고, 테스트 신호들은 음질 개선 방법들에 파라미터 값들의 조합을 적용하여 음질이 개선된 기준 신호와 획득된 실시간 수신단 잡음 신호를 믹싱하여 생성된다.
발명의 실시를 위한 형태
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이러한 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다.
예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신과 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치도 본 발명의 정신과 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 행하여지는 것이 아니며, 본 발명의 범위는 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다.
도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 여러 실시예에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.
도 1 은 본 발명의 일 실시예에 따른 음성통화를 위한 이동통신장치의 구성을 나타내는 블록도이다.
도 1 에 도시된 장치는 송신단(far-end) 장치(110)와 수신단(near-end) 장치(130)로 이루어지며, 송신단 장치(110)는 제 1 변환부(111), 송신처리부(113)와 부호화부(115)를 포함하고, 수신단 장치(130)는 복호화부(131), 신호 변경부(133), 수신처리부(135)와 제2 변환부(137)를 포함할 수 있다. 본 명세서에서 송신단 장치는 파-엔드 장치 또는 원단 장치와 같은 의미로 사용되며, 수신단 장치는 니어-엔드 장치 또는 근단 장치와 같은 의미로 사용된다.
송신단 장치(110) 및/또는 수신단 장치(130)에서 각 구성요소는 별도의 하드웨어로 구현되어야 하는 경우를 제외하고는 적어도 하나의 프로세서로 일체화되어 구현될 수 있다. 송신단 장치(110)와 수신단 장치(130)는 각 사용자 장비(User Equipment)의 송신측과 수신측에 각각 설치될 수 있다.
도 1 에 있어서, 제 1 변환부(111)는 마이크로폰과 같은 입력장치를 통하여 제공되는 아날로그 신호를 디지털 신호로 변환할 수 있다.
송신처리부(113)는 제 1 변환부(111)로부터 제공되는 디지털 신호에 대하여 다양한 신호처리를 수행할 수 있다. 신호처리의 예로는 잡음 제거, 에코 저감 등이 있으나 이에 한정되는 것은 아니다.
부호화부(115)는 송신처리부(113)로부터 제공되는 신호에 대하여 미리 정해진 코덱을 이용하여 부호화를 수행할 수 있다. 부호화 결과 생성되는 비트스트림은 전송채널을 통하여 수신측으로 전송되거나 저장매체에 저장되어 복호화를 위하여 사용될 수 있다.
한편, 복호화부(131)는 수신된 비트스트림에 대하여 미리 정해진 코덱을 이용하여 복호화를 수행할 수 있다.
신호 변경부(133)는 수신단 단말의 환경 잡음 신호에 따라서, 수신 환경에 대응하여 복호화된 신호를 변경할 수 있다. 신호 변경부(133)는 볼륨 레벨과 같은 단말 상태 정보와 볼륨 조정과 관련된 사용자 입력에 대응하여, 수신 환경에 대응하여 복호화된 신호를 변경할 수 있다. 일 실시예에 따르면, 신호 변경부(133)는 잡음 신호와 음성 신호의 각 밴드에 대하여 명료도 개선과 관련된 밴드 클래스를 결정하고, 결정된 상기 잡음 신호의 밴드 클래스와 음성 신호의 밴드 클래스에 기초하여 명료도 개선을 위한 가이드 정보를 생성하고, 가이드 정보를 음성 신호에 적용하여 변경된 음성 신호를 생성할 수 있다. 다른 실시예에 따르면, 신호 변경부(133)는 잡음신호와 음성 신호에 대하여 각각 음성 신호의 명료도 개선과 관련된 클래스를 결정하고, 클린 환경의 음성신호와 잡음 환경에서 변경된 음성신호로부터 모델링된 음성 명료도 모델과 결정된 클래스에 기초하여, 명료도 개선을 위한 가이드 정보를 생성하고, 가이드 정보를 음성 신호에 적용하여 변경된 음성신호를 생성할 수 있다.
수신처리부(135)는 신호 변경부(133)로부터 제공되는 신호에 대하여 다양한 신호처리를 수행할 수 있다. 신호처리의 예로는 잡음 제거, 에코 저감 등이 있으나 이에 한정되는 것은 아니다.
제 2 변환부(137)는 수신처리부(135)로부터 제공되는 신호를 아날로그 신호로 변환할 수 있다. 제 2 변환부(137)로부터 제공되는 아날로그 신호는 스피커 또는 리시버를 통하여 재생될 수 있다.
도 1 에서 사용되는 코덱의 예로는 EVS를 들 수 있다.
도 2 는 본 발명의 일 실시예에 따른 송신단 장치(210)와 수신단 장치(230)에서 송신단 입출력 및 수신단 입출력 생성을 위한 신호를 설명하는 도면으로서, 단말에 마이크가 두 개 설치된 예를 나타낸다. 이에 따르면, 잡음 제어 및 명료도 개선을 위하여 하단 혹은 하단의 전면 혹은 후면에 위치하는 제 1 마이크로폰으로부터의 잡음(NI1)과 상단 혹은 상의 전면 혹은 후면에 위치하는 제 3 마이크로폰으로부터의 잡음(NI3)이 사용될 수 있다.
수신단 출력 NO 는 송신단 입력 음성 신호 FI가 네트워크를 통해 수신단 장치(230)로 전달된 신호로, 수신단 장치의 마이크로폰을 통해 수신된 수신단 잡음 NI1 및 NI3를 이용하여 최종 출력 신호인 NO1이 생성된다.
도 2 에는 단말에 두 개의 마이크로폰이 설치된 경우를 예로 들었으나, 실시예에 따른 신호처리장치는 마이크로폰의 개수 및/혹은 위치에 제한되지 않는다.
도 3 은 본 발명의 일 실시예에 따른 신호 처리 장치의 구성을 나타낸 블록도로서, 도 1 의 신호 변경부(133)에 대응될 수 있다.
도 3 에 도시된 장치는 모드 결정부(310), 제 1 음질 개선부(330)와 제 2 음질 개선부(350)를 포함할 수 있다. 제 1 음질 개선부(330) 및 제 2 음질 개선부(350)는 각각의 음질 개선 모드에 따른 음질 개선 알고리즘을 적용하여 주관적 음질 및 객관적 음질을 개선할 수 있다. 주관적 음질 및 객관적 음질에 대한 구체적인 설명은 후술한다. 모드 결정부(310)는 신호 처리 장치의 환경 정보, 정황 정보 또는 잡음 정보에 기초하여 음질 개선 모드를 결정할 수 있다.
일 실시예에 따르면, 모드 결정부(310)와 제 2 음질 개선부(350)는 옵션으로 구비될 수 있으며, 이에 따르면 신호처리장치는 제 1 음질 개선부(330)로 구현될 수 있다.
일 실시예에 따르면, 모드 결정부(310)는 수신 볼륨이 설정된 최대치에 도달되었을 때, 사용자로부터 볼륨 업 입력이 추가적으로 수신되는지를 판단하여 제 1 모드와 제 2 모드 중 하나를 결정할 수 있다. 다른 실시예에 따르면, 모드 결정부(310)는 재난방송이 수신되거나 119 통화와 같은 긴급 상황이 감지되면 제 2 모드로 결정할 수 있다. 여기서, 제 1 모드는 기본 모드(basic mode)로, 제2 모드는 어그레시브 모드(aggressive mode)로 칭할 수 있다. 일 실시예에 따르면, 제 1 모드는 디폴트로 설정될 수 있다.
다른 실시예에 따르면, 모드 결정부는 잡음 신호의 특징 또는 통화 교섭 상태에 대한 정황(context) 정보에 기초하여 제 1 모드 또는 제 2 모드 중 하나를 결정할 수 있다. 여기서 제 1 모드는 주관적 음질 개선 모드로, 제 2 모드는 객관적 음질 개선 모드로 칭할 수 있다.
다른 실시예에 따르면, 모드 결정부는 제 1 모드 또는 제 2 모드가 모두 동작하도록 결정할 수 있으며 이 때 전체 출력 파워가 유지되도록 제 1 모드의 출력과 제 2 모드의 출력을 결정할 수 있다.
다른 실시예에 따르면, 일 실시예에 따른 신호처리장치는 3개 이상의 음질 개선부를 포함할 수 있으며 음질 개선부의 구체적인 음질 개선 방법 및 동작은 후술한다.
도 4 는 본 발명의 다른 실시예에 따른 신호처리장치의 구성을 나타낸 블록도로서, 도 1 의 신호 변경부(133)에 대응될 수 있다.
도 4 에 도시된 장치는 음질 측정부(410)와 음질 개선부(430)를 포함할 수 있으며, 음질 개선부(430)는 음질 측정부(410)에서 측정한 음성 품질 지표에 기초하여 수신된 송신단 음성 신호의 음질을 개선할 수 있다. 여기서 음질 개선부(430)는 도 3 에서와 같이 구현될 수 있다.
음성 품질에 대한 평가는 주변 환경 및 듣는 이의 경험에 따라 결과가 달라지기 때문에 음성 품질을 정량적으로 측정한다는 것은 어려운 일이다. 음성 품질은 평가 방식에 따라 주관적 음질과 객관적 음질로 구별될 수 있다.
주관적 음질은 음성 신호를 듣는 청자가 주관적으로 느끼는 음질을 의미하며, 음성 통화 시스템에서는 음성의 명료도(articulation)가 주관적 음질을 평가하는 중요한 기준이 된다. 음성이 얼마나 명료한지는 크게 잡음의 정도와 음성이 화자의 본래 음성에 얼마나 가까운지에 따라 결정된다.
사람은 일정 크기 이상의 잡음을 인지할 수 있고, 음성과 잡음을 구분 할 수 있으며, 평소 들었던 상대방의 음성을 기억하고 있어 통화 음성이 화자의 본래 음성과 얼마나 다른지를 인지하고 비교할 수 있다. 즉, 평소 들어왔던 화자의 소리가 기준 음성이 되고, 음성 통화 시 들리는 음성이 비교 대상이 되어 음성 품질을 감성적/주관적으로 평가할 수 있게 된다.
음질을 정량적으로 측정하는 방법도 이와 유사하며 다음과 같은 과정으로 이루어 진다.
1) 평가자에게 테스트하려는 음성의 원음(Reference Voice)을 들려준다.
2) 잡음 등이 섞인 왜곡된 음성(Degraded Voice)을 들려준다.
3) 평가자는 왜곡된 음성이 원음과 얼마나 비슷한지에 따라 1 에서 5 까지 점수를 매긴다.
이와 같이 사람이 감성적으로 점수를 매기는 측정 방법을 주관적 음질 측정이라고 하며, 주관적 음질 평가 결과는 MOS(Mean Opinion Score)지표로 나타난다.
주관적 음질 측정 방법은 실제 음성 신호에 대한 여러 사람들의 평가가 직접 반영되므로 신뢰성이 높은 반면, 비용이 많이 들고 반복적인 실험을 해야 하는 어려움이 있다. 또한 평가에 참여한 참여자들의 성향이나 환경에 따라 음질 평가 결과가 달라질 수 있으며, 음질 측정 결과의 신뢰도가 참여자들의 수에 따라 결정된다.
고전적으로 사용되던 객관적 음질 평가 지표는 D-Value로, 신호 민감도와 잡음 민감도를 비교하여 결정된다. 그러나, 잡음 민감도는 잡음 레벨, 즉 잡음 크기와는 직접적인 관계가 없으며 비선형 시스템에서는 잡음 감도가 선형적으로 나타나지 않으므로 음질 평가가 제대로 이루어지지 않는다. 또한, 이와 같이 잘못된 음질 평가 결과를 이용하여 잡음 제거 기술을 적용할 경우 오히려 신호 품질이 현저히 악화되는 결과를 초래할 수 있다.
이를 해결하기 위하여 사람이 평가한 MOS값을 예측할 수 있는 지각-객관적(perceptual-objective) 음질 측정 방법이 개발되어 왔으며, 널리 사용되는 국제 표준으로 PSQM (Perceptual Speech Quality Measure), PEAQ (Perceptual Evaluation of Audio Quality), PESQ (Perceptual Evaluation of Speech Quality), 3SQM(Single Sided Speech Quality Measure), PEVQ (Perceptual Evaluation of Video Quality), 3QUEST(3-fold Quality Evaluation of Speech in Telecommunication), POLQA (Perceptual Objective Listening Quality Assessment) 알고리즘 등이 있다.
ETSI 표준인 3QUEST는 잡음 환경에서 광대역 전송과 협대역 전송 환경에 모두 적용 가능한 객관적 음질 평가 기술로, 3QUEST는 주관적 S-MOS, N-MOS, G-MOS의 데이터베이스를 반영하여, 객관적 음질 평가 지표인 객관적 S-MOS, N-MOS, G-MOS를 도출한다.
지각-객관적 음질 평가 방식 중 가장 대표적인 방법인 POLQA 는 HD-Voice, 3G/4G/LTE, VoIP의 전송 특성과 음성 주파수 대역폭의 확장을 고려하여 개발되었으며 PESQ와 같은 MOS값을 사용하지 않고 주파수 대역폭에 따라서 슈퍼-광대역 음성 신호는 4.8, 광대역 음성 신호는 4.5, PCM은 3.8의 MOS 기준 값을 설정한다. POLQA 알고리즘은 협대역(narrowband) 전송 모드와 슈퍼-광대역 전송 모드의 두 가지 모드를 지원한다.
POLQA 알고리즘은 기준 신호(reference signal)와, 기준 신호의 음질을 왜곡시킨 테스트 신호(test signal)를 비교하여 지각-객관적인 음질을 측정하며, 측정 결과 MOS-LQO(Mean Opinion Score ? Listening Quality Objective) 값이 산출된다.
도 5 는 본 발명의 일 실시예에 따른 신호 처리 방법의 흐름도이다.
도 5 에 개시된 실시예에서는, 실시간 잡음 신호의 통계 정보를 이용하여 프레임 단위로 실시간 송신단 음성 신호의 음질을 개선한다.
실시간 송신단 음성 신호 및 수신단 잡음 신호가 획득되면, 입력된 음성 신호 및 잡음 신호는 프레임 단위로 분석되어 주요 특징이 획득(510)된다. 이 때, 입력 신호들을 분석하고 특징을 획득하기 위해서 실시간 송신단 음성 신호의 통계 정보 및 실시간 수신단 잡음 신호의 통계 정보가 이용된다.
잡음 신호는 잡음 신호에 대한 통계 정보에 기초하여 분류되고, 잡음 분류에 기초하여 최적의 음질 개선 알고리즘이 선택(530)된다.
최적의 음질 개선 알고리즘이 선택되면, 선택된 알고리즘에 대한 최적의 파라미터가 결정(550)된다. 선택된 음질 개선 알고리즘을 이용했을 때, 음성 신호와 잡음 신호의 신호대잡음비(SNR, Signal to Noise Ratio) 또는 음성 신호와 잡음이 포함된 음성 신호의 MSE(mean square error)등의 객관적 음질이 가장 좋게 나타나는 파라미터 값이 최적의 파라미터 값으로 결정된다.
각 프레임별 최적의 음질 개선 파라미터가 결정되면, 음성신호는 선택된 알고리즘 및 결정된 파라미터에 기초하여 음성 신호를 변경(570)되어 프레임 단위로 음질이 개선된 음성 신호가 획득된다.
음질 평가 결과는 잡음 환경에 따라 달라질 수 있다. 예를 들어, 사용자 주변의 잡음의 종류가 백색잡음(white noise)인지, 분홍잡음 (pink noise)인지 여부 또는 사용자가 실외에 있는지, 실내에 있는지 여부 등의 잡음 환경은 각 알고리즘에 따른 음질 예측 결과 및 음질 개선 결과에 영향을 미치게 된다.
이 때, 잡음 신호를 분류하는 과정은 잡음 신호에 대한 통계 정보를 이용하여 대표적인 잡음 신호들 중 하나로 매칭시킴으로써, 매칭된 잡음 신호의 통계적 특성을 이용하기 위한 목적으로 수행된다. 잡음 신호는 대표적인 잡음 신호의 종류에 따라 분류되며, 획득된 실시간 수신단 잡음 신호가 대표적인 잡음 신호의 종류와 정확히 일치하며 분류가 정확히 수행된다면 최적의 음질 개선 알고리즘을 선택하고 최적의 파라미터를 결정함으로써 객관적 음질을 개선할 수 있다. 그러나, 획득된 수신단 잡음 신호가 대표적인 잡음 신호의 종류에 해당되지 않거나 잡음 종류의 분류가 잘못 수행된다면 최적의 객관적 음질 개선 성능을 획득할 수 없다.
또한, 주관적 음질 또는 지각-객관적 음질은 음성 신호가 가지고 있는 의미가 제대로 전달되는지 여부가 음질을 평가하는 중요한 요소가 되므로, 프레임 단위가 아닌 문장 단위로 음질 평가가 수행되며 최소 8초 이상의 기준 신호가 이용된다. 따라서, 프레임 단위로 음질이 개선되는 상기의 방법에서는 주관적 또는 지각-객관적 음질 측정 결과를 이용하여 음질을 개선할 수 없다.
또한, 복수 개의 음질 개선 파라미터들이 설정 가능한 경우 각각의 파라미터 값들의 조합에 따라 음질이 어떻게 결정되는지에 대한 고려가 없이 파라미터 각각의 값들을 독립적으로 결정한다.
도 6 은 본 발명의 다른 실시예에 따른 신호 처리 방법의 순서도이다.
도 6 에 개시된 실시예에서는, 프레임 단위의 실시간 음성 신호와 실시간 잡음 신호의 통계 정보를 이용하여 실시간으로 객관적 음질을 측정함으로써 실시간으로 음성 신호의 음질을 개선하는 동시에, 문장 단위의 기준 음성 신호와 실시간 잡음 신호를 이용하여 실시간에 가깝게 지각-객관적 음질을 측정함으로써 실시간에 가깝게(near real-time) 송신단 음성 신호 음질을 개선할 수 있다.
프레임 단위의 실시간 음성 신호와 실시간 잡음 신호의 통계 정보를 이용하여 실시간으로 객관적 음질을 측정함으로써 실시간으로 음성 신호의 음질을 개선하는 과정은 도 5 에 개시된 과정과 동일하므로 설명은 생략한다.
잡음 특성이 동일한 구간에서는 기설정된 파라미터를 유지하고 잡음 특성이 변화하면 파라미터를 새로 설정하기 위하여, 실시간 잡음 신호가 획득되면 실시간 잡음 신호의 변화가 분석(610)된다.
이 때 실시간 잡음 신호는, 단말의 마이크로 입력되는 잡음 신호 자체를 의미하며, 추가적으로 잡음 레벨, 주파수 스펙트럼 모양 및 시간적인 변화에 대한 정보를 이용할 수 있다. 즉, 잡음 신호의 분류에 따른 통계적 특성이 아니라 실시간 특성을 이용하는 것이다.
실시간 잡음 신호 변화를 분석한 결과, 실시간 잡음 신호 특성이 변화하면 실시간 잡음 신호에 대한 정보 및 기준 음성 신호에 기초하여 각 알고리즘 별 파라미터 값들의 조합에 따라 테스트 음성 신호가 생성(630)된다.
기준 음성 신호는 지각-객관적 음질을 측정하기 위하여 기저장되어 있는 음성 신호로, 음질 측정을 위해 미리 정의된(predefined) 음성 신호이거나, 송화자의 음성 또는 수화자의 음성일 수 있다. 테스트 음성 신호는 각 파라미터 값들의 조합에 대한 음질 개선 알고리즘을 적용한 기준 음성 신호와 실시간 잡음 신호를 합한 신호이다.
테스트 음성 신호가 생성되면, 기준 음성 신호와 테스트 음성 신호를 비교하여 지각-객관적 음질이 측정되고, 측정된 지각-객관적 음질에 기초하여 최적의 음질을 나타내는 알고리즘이 선택되고, 최적의 파라미터 조합이 결정된다.
기준 음성 신호 및 테스트 음성 신호는 기저장된 음성 신호로 현재 처리되고 있는 프레임과 무관한 프레임에 해당하며 문장 단위 음성 신호의 입력을 기다릴 필요가 없고, 잡음 신호의 실시간 특성을 이용하므로 실시간에 가까운 지각-객관적 음질 측정 및 음질 개선 파라미터의 결정이 가능하다.
최적 알고리즘이 선택되고 최적 파라미터 조합이 결정되면, 선택된 최적 알고리즘 및 최적 파라미터 조합에 기초하여 음성 신호를 변경함으로써 음성 신호의 음질이 개선된다.
도 7 은 본 발명의 일 실시예에 따른 음질 개선 방법의 주요 정보들을 나타낸다.
객관적 음질을 이용하는 실시간 처리 방법은, 실시간 송신단 음성 신호의 통계 정보, 실시간 수신단 잡음 신호의 통계 정보 및 단말 볼륨 정보를 이용하여, 입력 신호의 프레임 또는 서브프레임 단위로 객관적 음질 지표를 측정하고, 측정된 객관적 음질 지표에 기초하여 매 프레임별 최적 음질 개선 파라미터를 결정하며, 매 프레임마다 실시간으로 파라미터를 갱신한다.
지각-객관적 음질을 이용하는 실시간에 가까운 처리 방법은, 기저장된 기준 음성 신호, 실시간 수신단 잡음 신호, 테스트 음성 신호 및 단말 볼륨 정보를 이용하여, 음질 측정을 위한 최소한의 문장 단위로 입력 신호의 지각-객관적 음질 지표를 측정하고, 측정된 지각-객관적 음질 지표에 기초하여 잡음 특성이 동일한 구간에서 최적의 음질 개선 파라미터를 결정하며, 잡음 특성이 바뀔 때마다 최적의 음질 개선 파라미터를 갱신한다.
도 8 은 잡음환경에서 각 파라미터 값들에 대한 음질들을 나타낸다.
도 8A 는 잡음 환경에서 임의의 파라미터의 값에 따른 주관적 음질 예측값을 나타낸다.
주관적 음질 예측값은 음성 신호를 듣는 청자가 주관적으로 느끼는 음질을 예측한 결과를 의미하며, 음성 통화 시스템에서 음성의 명료도는 주관적 음질을 예측하는 중요한 기준이 된다.
따라서, 도 8A 의 가로축은 임의의 파라미터에 대하여 설정 가능한 값들(813)를 의미하고 세로축은 각 인덱스에 대한 음성 명료도(811), 즉 주관적 음질 예측값을 의미할 수 있다. 주관적 음질 예측값에 대한 파라미터 값의 설정 범위가 815와 같다면, 가장 큰 주관적 음질 예측값 817을 얻기 위한 최적의 주관적 음질 개선 파라미터 값은 819로 결정된다.
설정 가능한 파라미터의 개수가 M 개인 경우, M 개의 파라미터 각각에 대한 음질 그래프가 존재하고 M 개의 파라미터 각각이 독립적으로 결정될 수 있다.
도 8B 는 잡음 환경에서 파라미터 조합에 따른 지각-객관적 음질 측정값을 나타낸다.
잡음 환경에서의 지각-객관적 음질 측정값은 복수 개의 파라미터에 의해 결정될 수 있으며 이와 같은 경우는 복수 개의 파라미터들의 조합과 음질의 관계에 기초하여 파라미터들의 최적값이 결정될 수 있다. 설정 가능한 파라미터의 개수가 M 개이고 각 파라미터가 가질 수 있는 값의 개수가 N개인 경우를 가정하면, 각 파라미터 조합은 N * M 개의 경우의 수를 갖는다.
도 8B 의 가로축은 파라미터 값들의 조합에 대한 인덱스(823)를 의미하고 세로축은 각 인덱스에 대한 지각-객관적 음질 측정값(821)을 의미할 수 있다. 객관적 음질 측정값에 대한 파라미터 설정 범위가 825와 같다면, 가장 큰 객관적 음질 측정값 827을 얻기 위한 최적의 주관적 음질 개선 파라미터 값들의 조합은 829로 결정된다.
도 8A 와 도 8B 에 나타난 바와 같이, 주관적 음질과 객관적 음질은 서로 다른 양상을 나타낼 수 있으며, 주관적 음질이 개선되더라도 객관적 음질은 오히려 악화될 수 있다. 즉, 잡음 환경에서 알고리즘 튜닝을 통해 음성 신호의 명료도를 개선하는 경우, 명료도를 과도하게 개선하면 객관적인 음질 또는 지각-객관적인 음질의 저하를 초래할 수 있다. 따라서 주관적 음질과 객관적 음질을 동시에 만족시키기 위해서는 음질 개선 알고리즘의 파라미터를 적절히 설정하는 것이 필요하다.
도 8C 는 잡음 환경에서 파라미터 조합에 따른 최적 음질을 나타낸다.
도 8C 의 가로축은 파라미터 값들의 조합에 대한 인덱스(833)를 의미하고 세로축은 각 인덱스에 대한 음질(821)을 의미할 수 있다. 이 때의 음질은 주관적 음질과 지각-객관적 음질을 모두 고려한 음질에 해당한다. 주관적 음질과 지각-객관적 음질을 고려한 음질 평가 방법에 대해서는 후술한다.
주관적 및 지각-객관적 음질에 대한 파라미터 설정 범위가 835와 같다면, 최적의 음질 837을 얻기 위한 최적의 음질 개선 파라미터 값들의 조합은 839로 결정된다.
도 9 는 본 발명의 일 실시예에 따른 통화 상황 별 파라미터 조합에 대한 음질을 나타낸다.
도 8C 는 일반 통화 상황에서 각 파라미터 조합에 따른 음질을 나타낸 것으로, 최적의 음질 837을 얻기 위한 최적의 음질 개선 파라미터 값들의 조합은 839로 결정된다. 그러나, 긴급 통화나 재난 통화 시에는 객관적 음질보다는 주관적 음질, 즉 음성 명료도가 통화 품질에서 더 중요한 요인이 된다. 따라서, 명료도가 향상되도록 주관적 음질과 지각-객관적 음질의 가중치를 조절함으로써, 재난 통화 상황에 대한 최적의 음질 937에 대한 최적의 파라미터 값들의 조합은 939로 결정된다.
이와 같이 통화에 대한 정황 정보를 이용하면, 추가적인 음질 개선이 가능하다.
본 발명의 실시예에 따른 통화에 대한 정황 정보는 컴퓨팅 정황 정보, 사용자 정황 정보, 물리적 정황 정보 및 시간에 대한 정황 정보를 포함할 수 있다.
컴퓨팅 정황 정보는 단말간의 통화에 사용되는 네트워크의 종류 또는 상황, 긴급 통화 또는 재난 통화인지 여부, 가용 대역폭 및 단말에 대한 정보 등을 포함할 수 있다. 상술한 바와 같이, 긴급 통화 시에는 명료도에 대한 중요도가 높으므로 주관적 음질 예측 정보에 더 큰 가중치를 적용함으로써 객관적 음질보다 명료도가 좋아지도록 할 필요가 있다. 사용자 정황 정보는 사용자의 단말 설정 정보, 사용자의 위치, 통화 내용에 대한 정보 및 통화 후 사용자 피드백에 대한 정보 등을 포함할 수 있다.
물리적 정황 정보는 단말의 스피커 위치 및 형태에 대한 정보, 음질 개선의 대상인 신호가 모노 신호인지 스테레오 신호인지 여부 및 잡음 레벨에 대한 정보 등을 포함할 수 있다. 일반적으로, 스피커와 귀의 거리가 멀수록, 단말 스피커 볼륨이 작을수록 명료도의 중요도가 높아진다. 시간에 대한 정황 정보는 해당 통화가 이루어지는 시간에 대한 정보 등을 포함할 수 있다.
또 다른 실시예에 따르면, 음질 개선의 대상이 되는 신호가 가상현실(VR, Virtual Reality) 이나 증강현실(AR, Aggressive Reality), 융합현실(MR, Mixed Reality) 서비스에 이용되는 신호인지 여부가 정황 정보로 이용될 수 있다. 예를 들어, 가상 현실이나 증강 현실 서비스 제공을 위해 서버에서 전송되는 음성 신호 또는 오디오 신호에 대하여, 서비스 제공 단말기 주변의 잡음 정보에 기초하여 음질 개선 알고리즘 및 파라미터를 설정함으로써 본 발명에 따른 음질 개선 방법을 적용할 수 있다.
도 10 은 본 발명의 일 실시예에 따른 신호 처리 방법의 흐름도이다.
송신단 단말과 수신단 단말 사이의 통화 교섭이 완료되고, 통화가 시작(1010)되면, 음질 개선 알고리즘에 기설정된 파라미터에 기초하여 수신된 송신단 음성 신호의 음질이 개선(1020)된다. 이 때, 기설정된 파라미터는 이전 통화 환경에 대해 결정된 파라미터일 수 있으며 또 다른 실시예에 따르면, 통화 개시 시 적용되도록 설정된 프리셋 파라미터일 수 있다.
실시간 수신단 잡음 신호가 획득(1030)되면, 획득된 실시간 수신단 잡음 신호에 기초하여 생성된 테스트 신호의 음질 측정에 기초하여 최적 음질 개선 파라미터 조합이 결정(1040)되고, 음질 개선 알고리즘에 획득된 최적 음질 개선 파라미터 조합이 적용되어 수신된 송신단 음성 신호의 음질이 개선(1050)된다.
본 발명의 일 실시예에 따른 음성 신호 처리 장치는 잡음 신호의 변화를 모니터링(1060) 할 수 있으며, 모니터링 결과 잡음 신호의 특징이 변화하면 변화된 실시간 잡음 신호를 이용하여 최적 음질 개선 파라미터가 새로 결정될 수 있다. 이와 같은 과정은 통화 종료(1070)까지 반복된다.
도 10 에는 기저장된 기준 신호와 실시간 잡음을 이용하여 문장 단위로 주관적 음질을 예측하고 지각-객관적 음질을 측정함으로써 거의 실시간으로 음성 신호의 음질을 개선하는 방법에 대한 흐름도만 도시되어 있다. 그러나, 도 8 과 같이 프레임 단위로 객관적 음질을 측정함으로써 실시간으로 음질을 개선하는 방법이 병렬적으로 함께 동작할 수 있다.
도 11 은 본 발명의 일 실시예에 따른 파라미터별 음질 평가 결과 테이블을 나타낸다.
도 11 에 도시된 음질 평가 테이블의 첫번째 열은 각 파라미터 인덱스를, 두번째 열은 각 파라미터별 변동 범위 및 각 값의 단위를, 세번째 열은 각 값에 대한 주관적 음질 예측값(MOS)를, 네번째 열은 지각-객관적 음질 측정값(MOS-NQO)를 나타낸다.
도 11 에 개시된 실시예에서 음질 개선 파라미터의 개수는 M 개이고 각 파라미터에 대한 인덱스는 P_0, P_1,…,P_M-1이 된다.
첫번째 파라미터 P_0는 0부터 10까지의 값을 가질 수 있으며 각 값의 단위는 2이므로 파라미터 P_0가 가질 수 있는 값은 {0,2,4,6,8,10}의 여섯 개가 되며, 주관적 음질 예측값 S_0 및 지각-객관적 음질 측정값 O_0 역시 각각 여섯 개의 값을 가진다.
두번째 파라미터 P_1는 1부터 5까지의 값을 가질 수 있으며 각 값의 단위는 1이므로 파라미터 P_1가 가질 수 있는 값은 {1,2,3,4,5}의 다섯 개가 되며, 주관적 음질 예측값 S_1 및 지각-객관적 음질 예측값 O_1 역시 각각 다섯 개의 값을 가진다.
M 번째 파라미터 P_M-1은 2부터 10까지의 값을 가질 수 있으며 각 값의 단위는 4이므로 파라미터 P_M-1이 가질 수 있는 값은 {2,6,10}의 세 개가 되며, 주관적 음질 예측값 S_M-1 및 지각-객관적 음질 예측값 O_M-1 역시 각각 세 개의 값을 가진다.
주관적 음질 예측값은 각 파라미터의 변동 범위에 따른 주관적 음질을 수치화한 지표로, 각 파라미터별 중요도에 대해 가중치 w_j를 적용하여 획득할 수 있다. 이 때, 전체 가중치의 평균값은 1이 된다.
지각-객관적 음질 예측값은 실시간 잡음 환경에서 각 파라미터 조합에 대한 테스트 음성 신호의 실측값에 해당한다.
본 발명의 실시예에 따르면, 최적 음질에 대한 파라미터 조합을 결정하기 위하여 주관적 음질 예측값 및 객관적 음질 측정값을 이용할 수 있다. 본 발명의 또 다른 실시예에 따르면, 통화에 대한 정황 정보에 기초하여 주관적 음질 예측값에 대한 가중치 w_s와 지각-객관적 음질 측정값에 대한 가중치 w_o를 결정할 수 있으며 이 때 w_s와 w_o의 합은 1이 된다.
주관적 음질, 지각-객관적 음질 및 정황 정보를 고려한 i번째 파라미터에 대한 음질 B_i는 (수식 1)과 같이 나타낼 수 있다.
[수식 1]
Figure pct00001
여기서, M은 각 파라미터에 대한 평균적인 주관적 음질 예측값을 의미한다.
본 발명의 일 실시예에 따른 음질 개선 방법은 잡음 환경에서 가중치가 적용된 음질 B_i가 최대가 되는 각 파라미터 조합을 최적의 음질 개선 파라미터 조합으로 결정한다.
도 12 는 본 발명의 일 실시예에 따른 음질 개선 방법의 블록도이다.
도 12 에 개시된 실시예에서는 송신단 음성 신호 및 수신단 잡음 신호가 획득되면, 주파수 변조(1215)를 위해 입력 신호를 시간-주파수 맵핑(1220)하고 결정된 주파수 변조 지수에 따라 주파수 변조(1215)를 수행한 후 다시 주파수-시간 맵핑(1230)한다. 주파수 변조된 신호는 주파수 대역별 처리를 위하여 밴드 분리 필터링(1240)되어 고주파 대역 신호와 저주파 대역 신호로 분리된다.
분리된 고주파 대역 신호의 에너지 E_HB(1270)와 저역통과 필터링(1250)된 저주파 대역 신호의 에너지 E_LB(1260)가 획득되면, E_LB와 E_HB의 비율과 마찰음 검출 임계치(thr)을 비교(1211)하여 마찰음을 검출하고, 고주파 대역 강화(1216)된 신호에 대하여 마찰음 강화 튜닝(1214)을 수행한다. 마찰음으로 판단된 경우는 고주파 대역 신호의 에너지가 저주파 대역 신호의 에너지에 비해 상대적으로 많이 큰 경우에 해당한다.
마찰음 강화 튜닝이 수행된 고주파 신호는 다시 소정의 프레임 크기로 스무딩 게인이 적용(1212)되고 밴드 분리된 저주파 대역 신호와 합쳐진다(1280). 이후 에너지 기반 게인 강화(1213)를 수행함으로써 최종적으로 음질 개선된 송신단 음성 신호가 획득된다.
도 12 에서는 모두 다섯개의 음질 개선 방법과 여섯 개의 파라미터가 개시되어 있으며 개시된 파라미터 및 각 파라미터 값의 범위는 다음과 같다.
A(1211): 마찰음 검출 임계치(thr) - 1~5
B(1212): 스무딩 게인 적용 프레임 크기 - 2~10 프레임
C(1213): 에너지 기반 게인 강화
D(1214): 마찰음 강화 튜닝 (15탭): 5~30
E(1215): 주파수 변조
F(1216): 고주파 강화 게인- 1~3
본 발명의 일 실시예에 따르면, 다섯 개의 음질 개선 방법 중 일부 음질 개선 방법이 선택될 수 있다. 본 발명의 또 다른 실시예에 따르면, 여섯 개의 파라미터 중 일부 파라미터만 가변적으로 결정될 수 있다.
도 13 은 본 발명의 다른 실시예에 따른 음질 개선 방법의 블록도이다.
도 13 에서는 휴지 프레임(quiet frame)의 에너지를 증가시킴으로써 음질을 개선하는 에너지 기반 게인 강화 방법과 스무딩 게인 방법이 개시되어 있으며 구체적인 방법은 다음과 같다.
송신단 음성 신호가 획득되면 프레임 에너지를 계산(1310)하고, 잡음이 없는 음성 신호(1320, SVI->active==0)에 대해서는 게인을 1로 결정(1340)하고, SVI가 활성화(1320)되어 있으면 게인팩터와 에너지의 비율에 기초하여 게인을 결정(1330)한다. 게인 최대값과 게인 최소값을 설정(1350)하여 게인이 소정 범위를 벗어나는 것을 방지한다. 게인 최소값은 신호가 필요 이상으로 감쇄되는 것을 방지하기 위해 1로 설정되며, 결정된 게인이 1보다 작은 경우 게인은 1로 설정된다. 게인 최대값은 신호 왜곡을 방지하기 위한 임계값으로 결정된 게인이 게인 최대값보다 큰 경우 게인은 게인 최대값으로 결정된다. 게인이 결정되면, 결정된 게인의 이동 평균(rolling average)을 이용하여 소정 프레임 단위로 스무딩 게인을 적용(1360)한다.
도 14 는 본 발명의 다른 실시예에 따른 음질 개선 방법의 블록도이다.
도 14 에서는 주파수 변조를 통하여 진폭스펙트럼을 압축하고 휴지밴드(quiet band)의 에너지를 증가시킴으로써 음질을 개선하는 방법이 개시되어 있으며 구체적인 방법은 다음과 같다.
송신단 음성 신호가 획득되면 이산코사인 변환 및 이산 사인 변환(1410) 하여 시간 영역 신호를 주파수 영역 신호로 변환하고, 해당 프레임에 대한 플래그가 활성화되어 있는지 여부를 판단(1420)한다. 플래그가 비활성화되어 있다면 게인을 1로 설정(1440)하고 역-이산코사인 변환 및 역-이산 사인 변환(1470)처리하여 원래의 시간 영역 음성 신호를 출력한다.
플래그가 활성화되어 있다면 작은 진폭을 갖는 신호의 왜곡을 방지하기 위하여 진폭 스펙트럼을 스케일링하고 진폭 스펙트럼을 압축(1430)한다. 압축된 스펙트럼을 원래의 스펙트럼으로 나누어줌으로써 게인을 획득(1450)하고, 획득된 게인을 적용(1460)한다. 게인이 적용된 신호는 역-이산코사인 변환 및 역-이산 사인 변환(1470)하여 시간 영역 신호로 변환되어 출력된다.
도 15 는 본 발명의 일 실시예에 따른 신호 처리 장치의 블록도이다.
도 15 에 도시된 바와 같이, 본 발명의 일 실시예에 따른 신호 처리 장치(1500)는 송수신부(1510), 디스플레이부(1520), 음질 개선부(1530), 제어부(1540), 저장부(1550), 입력부(1560) 및 출력부(1570)를 포함할 수 있다.
송수신부(1510)는 네트워크를 통해 연결된 다른 단말과 데이터를 송수신하며, 송신단 장치(미도시)로부터 요청된 착신 호(incoming call) 신호 및 착신 호에 따른 송신단 음성 신호를 수신하고 입력부(1560)를 통해 획득된 수신단 잡음 신호 환경의 수신단 음성 신호를 송신단 장치로 전송할 수 있다.
일 실시예에 따르면 송수신부(1510)는 입력부(1560)를 통해 획득된 수신단 잡음 신호에 대한 정보를 음질 개선 서버(미도시)로 전송하고 음질 개선 서버로부터 최적의 음질 개선 방법 및 최적의 음질 개선 파라미터에 대한 정보를 수신할 수 있다. 또 다른 실시예에 따르면 송수신부(1510)는 송신단 장치(미도시)로부터 음질 개선 전처리가 적용된 송신단 음성 신호를 수신할 수 있다.
디스플레이부(1520)는 신호 처리 장치의 상태 또는 설정에 대한 정보 등을 사용자에게 제공하고 터치 등의 수단을 통해 사용자 입력을 획득할 수 있다. 일 실시예에 따르면 디스플레이부(1520)는 사용자로부터 음질 개선 성능에 대한 피드백 정보를 획득할 수 있다. 또 다른 실시예에 따르면 디스플레이부(1520)는 통화에 대한 정황정보를 사용자 입력을 통해 획득할 수 있다.
음질 개선부(1530)는 저장부에 저장된 기준 음성 신호 및 입력부(1560)를 통해 획득된 수신단 잡음 신호에 기초하여 잡음 환경에서 기준 음성 신호의 주관적 음질 예측값 및 객관적 음질 측정값을 획득한다. 음질 개선부(1530)는 획득된 주관적 음질 예측값 및 객관적 음질 측정값에 기초하여 최적의 음질 개선 방법을 선택하고 최적의 음질 개선 파라미터 값들의 조합을 결정한다. 이 때, 객관적 음질은 SNR이나 MSE등의 객관적 음질뿐 아니라 POLQA 등의 지각-객관적 음질을 모두 포함한다.
일 실시예에 따르면, 착신 호에 대한 정황 정보를 추가로 이용할 수 있으며, 각 정황 정보에 기초하여 주관적 음질 예측값 및 객관적 음질 측정값에 적용될 가중치가 결정될 수 있다.
또한, 음질 개선부(1530)는 선택된 최적의 음질 개선 방법 및 결정된 최적의 음질 개선 파라미터 값들의 조합에 기초하여 송신단 음성 신호의 음질을 개선한다. 일 실시예에 따르면, 음질 개선부(1530)는 획득된 수신단 잡음 신호를 모니터링 하여 수신단 잡음 신호의 특징이 변화하면 새로운 잡음 환경에서 새로운 최적의 음질 개선 파라미터 값들을 결정하고 이에 기초하여 송신단 음성 신호의 음질을 개선할 수 있다.
제어부(1540)는 신호 처리 장치(1500) 전체의 동작을 제어한다. 제어부(1540) 및 음질 개선부(1530)는 하나의 프로세서로 구현될 수 있다.
저장부(1550)는 음질 측정을 위한 기준 음성 신호를 저장할 수 있으며, 음질 개선을 위한 파라미터 설정값을 저장할 수 있다. 저장된 파라미터 설정값은 착신호에 따른 통화가 개시되는 시점에 프리셋으로 이용될 수 있다.
입력부(1560)는 수신단 잡음 신호 및 수신단 음성 신호를 획득하며, 마이크로폰을 통해 구현될 수 있다. 입력부의 개수는 제한되지 않으며 일반적으로 사용자의 입 근처와 귀 근처에 위치한다.
출력부(1570)는 음질 개선 처리된 송신단 음성 신호가 출력되며 스피커를 통해 구현될 수 있다. 일 실시예에 따르면, 출력부(1570)는 획득된 수신단 잡음 신호의 역위상 신호를 출력할 수 있으며, 이와 같은 경우 동적 잡음 제거가 가능하다.
도 16 은 본 발명의 일 실시예에 따른 프로세서의 블록도이다.
도 16 을 참조하면, 일부 실시예에 따른 프로세서(1600)는 데이터 학습부(1610) 및 데이터 인식부(1630)를 포함할 수 있다.
데이터 학습부(1610)는 적용 알고리즘 및 파라미터 결정을 위한 기준을 학습할 수 있다. 데이터 학습부(1610)는 소정의 상황을 판단하기 위하여 어떤 데이터를 이용할 지, 데이터를 이용하여 상황을 어떻게 판단할 지에 관한 기준을 학습할 수 있다. 데이터 학습부(1610)는 학습에 이용될 데이터를 획득하고, 획득된 데이터를 후술할 데이터 인식 모델에 적용함으로써, 상황 판단을 위한 기준을 학습할 수 있다.
데이터 인식부(1630)는 데이터에 기초한 상황을 판단할 수 있다. 데이터 인식부(1630)는 학습된 데이터 인식 모델을 이용하여, 소정의 데이터로부터 상황을 인식할 수 있다. 데이터 인식부(1630)는 학습에 의한 기 설정된 기준에 따라 소정의 데이터를 획득하고, 획득된 데이터를 입력 값으로 하여 데이터 인식 모델을 이용함으로써, 소정의 데이터에 기초한 소정의 상황을 판단할 수 있다. 또한, 획득된 데이터를 입력 값으로 하여 데이터 인식 모델에 의해 출력된 결과 값은, 데이터 인식 모델을 갱신하는데 이용될 수 있다.
데이터 학습부(1610) 및 데이터 인식부(1630) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 학습부(1610) 및 데이터 인식부(1630) 중 적어도 하나는 머신 러닝(machine learning)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.
이와 같은 경우, 데이터 학습부(1610) 및 데이터 인식부(1630)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 학습부(1610) 및 데이터 인식부(1630) 중 하나는 전자 장치에 포함되고, 나머지 하나는 서버에 포함될 수 있다. 또한, 데이터 학습부(1610) 및 데이터 인식부(1630)는 유선 또는 무선으로 통하여, 데이터 학습부(1610)가 구축한 모델 정보를 데이터 인식부(1630)로 제공할 수도 있고, 데이터 인식부(1630)로 입력된 데이터가 추가 학습 데이터로서 데이터 학습부(1610)로 제공될 수도 있다.
한편, 데이터 학습부(1610) 및 데이터 인식부(1630) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 학습부(1610) 및 데이터 인식부(1630) 중 적어도 하나가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.
도 17 은 본 발명의 일 실시예에 따른 송수신 단말 및 서버 사이의 세부 흐름도를 나타낸다.
앞서 언급한 음질 개선 기술은, 송신단 장치 및 수신단 장치에서 음질 개선을 위한 최적의 파라미터를 선택하고 음질 개선을 위한 전처리 및 후처리를 수행하도록 구현될 수 있다. 이와 같은 경우 송신단 장치 및 수신단 장치는 단말에서 제공 가능한 음질 개선 방법에 대한 파라미터를 선택하며, 소형 단말 수준에서 최선의 성능(best-effort)의 음질을 제공할 수 있다.
그러나, 소형 단말의 경우 일반적으로 저장부의 용량, 프로세서의 성능 및 배터리 용량 등이 제한적이며, 제한적인 자원으로 인해 한정된 개수의 음질 개선 알고리즘만 탑재가 가능하다.
이와 같은 경우 평균적인 사용자를 기준으로 작성된 알고리즘을 이용해 음질을 개선하므로 단말의 사용자에 적응적인 음질 개선 성능을 보장할 수 없고, 특정한 잡음을 대상으로 작성된 알고리즘을 이용해 음질을 개선하므로 다른 형태의 잡음에 대해서는 최적의 음질 개선 성능을 보장할 수 없다.
또한, 복잡한 연산을 수행해야 하는 경우 시스템 지연이나 부하가 발생하게 되므로 탑재 가능한 알고리즘 자체도 제한될 뿐 아니라 알고리즘 탑재 시 고려되지 않았던 환경 정보, 예를 들어 새로운 형태의 잡음 등이 입력된 경우 최적의 음질 개선 성능을 확보할 수 없게 된다.
따라서, 저전력의 소형 단말에서 처리하기 어려운 복잡한 과정을 서버에서 수행하고, 수행 결과를 단말로 전송하여 음질 개선에 이용하도록 함으로써 보다 효과적으로 음질을 개선할 수 있다.
다만, 단말의 성능이 향상되어 빠른 처리가 가능해지고 전력 소모에 대한 제한이 개선되면, 별도의 서버 없이도 이와 같은 기능을 단말이 수행하도록 구현하여 음질을 효과적으로 개선할 수 있다.
도 17 의 실시예에는 송신단 단말(1710), 수신단 단말(1730) 및 음질 제어 서버(1750)를 포함하며, 송신단 단말(1710)은 도 18의 송신 단말(1710)에, 수신단 단말(1730)은 수신 단말(1730)에 대응된다.
송신단 단말(1710) 및 수신단 단말(1730)은 음질 제어 서버(1750)로 각자의 단말 인증 정보를 전송한다. 인증 정보를 수신한 음질 제어 서버(1750)는 수신된 인증 정보를 이용하여 각 단말이 서버에 등록된 단말인지 여부를 확인한다. 본 발명의 일 실시예에 따르면, 음질 제어 서버(1750)는 각 단말(1710, 1730)의 인증 정보를 이용하여 해당 단말에서 실행 가능한 음질 개선 방법들을 획득할 수 있다. 또 다른 실시예에 따르면, 음질 제어 서버(1750)는 각 단말(1710, 1730)의 단말 기종에 대한 정보를 이용하여 해당 단말에서 실행 가능한 음질 개선 방법들을 획득할 수 있다.
음질 개선 서버(1750)에서 송신단 단말(1710) 및 수신단 단말(1730)의 인증이 완료되면, 송신단 단말(1710)은 음질 제어 서버(1750)로 송신단 잡음 정보를 전송하고 수신단 단말(1730)은 음질 제어 서버(1750)로 수신단 잡음 정보를 전송한다.
음질 제어 서버(1750)는 수신된 송신단 잡음 정보에 기초하여 송신단 단말(1710)에 적용할 음질 향상 방법을 선택하고, 주관적 음질 평가 정보 및 객관적 음질 평가 정보에 기초하여 선택된 방법에 대한 최적의 파라미터 값을 결정한다. 또한, 음질 제어 서버(1750)는 수신된 수신단 잡음 정보에 기초하여 수신단 단말(1730)에 적용할 음질 향상 방법을 선택하고, 주관적 음질 평가 정보 및 객관적 음질 평가 정보에 기초하여 선택된 방법에 대한 최적의 파라미터 값을 결정한다.
또 다른 실시예에 따르면, 송신단 단말(1710) 및 수신단 단말(1730)은 잡음 정보 외에 각 단말의 통화에 대한 정황 정보를 음질 제어 서버(1750)로 전송하고, 음질 제어 서버(1750)는 통화에 대한 정황 정보를 추가로 이용하여 최적의 파라미터 값을 결정할 수 있다.
예를 들어, 긴급통화나 재난통화 시에는 객관적 음질보다는 주관적 음질, 즉 음성 명료도가 통화 품질에서 더 중요한 요인이 된다. 따라서, 객관적 음질이 다소 악화되더라도 명료도가 향상되도록 가중치를 적용하여, 최적의 파라미터를 선택할 수 있다. 또 다른 실시예에 따르면, 통화 환경이 3G 네트워크인지 4G 네트워크인지 여부, 인코딩 된 음성 신호가 모노 신호인지 스테레오 신호인지 여부 또는 가상현실(VR, Virtual Reality) 이나 증강현실(AR, Aggressive Reality), 융합현실(MR, Mixed Reality)이 적용된 통화인지 여부 등의 통화 환경에 따라 최적의 파라미터 값이 결정될 수 있다.
예를 들어, 가상 현실이나 증강 현실 서비스 제공을 위해 서버에서 전송되는 음성 신호 또는 오디오 신호에 대하여, 서비스 제공 단말기 주변의 잡음 정보에 기초하여 잡음 제거 알고리즘 및 파라미터를 설정함으로써 본 발명에 따른 음질 개선 방법을 적용할 수 있다.
각 단말에 적용할 음질 향상 방법이 선택되고 음질 향상을 위한 최적의 파라미터가 결정되면, 음질 제어 서버(1750)는 선택된 음질 향상 방법에 대한 정보 및 결정된 최적의 파라미터에 대한 정보를 각 단말로 전송한다. 일 실시예에 따르면, 전처리 과정에는 잡음 억제 또는 에코 캔슬링이 포함될 수 있다.
송신단 단말(1710)은 음질 제어 서버(1750)로부터 수신된 음질 향상 방법에 대한 정보 및 결정된 최적의 파라미터에 대한 정보에 기초하여 송신단 음성 신호를 전처리하여 음질을 개선하고, 음질이 개선된 송신단 음성 신호를 수신단 단말(1730)로 전송한다.
수신단 단말(1730)은 음질 제어 서버(1750)로부터 수신된 음질 향상 방법에 대한 정보 및 결정된 최적의 파라미터에 대한 정보에 기초하여, 송신단 단말(1710)로부터 수신된 송신단 음성 신호를 후처리하여 송신단 음성 신호의 음질을 개선한다. 일 실시예에 따르면, 후처리 과정에는 명료도 향상 또는 DyVE(Dynamic Voice Enhancement)가 포함될 수 있다.
또 다른 실시예에 따르면, 송신단 또는 수신단 단말 사용자에게 적응적인 음질 개선 성능을 획득하기 위하여 다음과 같은 방법들을 추가로 이용할 수 있다.
사용자 설정 또는 사전 동의를 통해 통화 상황이 아닌 경우에도 사용자 주변의 잡음에 대한 정보를 수집할 수 있으며, 수집된 잡음 정보에 기초하여 사용자가 자주 노출되는 잡음 환경에 유효한 음질 개선 방법에 우선순위를 두거나 해당 잡음 환경 개선을 위한 파라미터에 더 높은 가중치를 부여함으로써 음질 개선 성능을 향상시킬 수 있다.
또는, 음성의 내용을 분석하여 정황 정보를 획득하거나, 통화 종료 후 사후 설문을 통해 피드백을 수집함으로써 음질 개선 성능을 향상시킬 수 있다.
도 18 은 본 발명의 일 실시예에 따른 송수신 단말 및 서버 네트워크 구조를 나타낸다.
도 18 은 일 실시예에 따른 송수신 단말 및 서버 네트워크 구조로 송신 단말(Tx Terminal, 1810)은 송신단 장치에, 수신 단말(Rx Terminal, 1830)은 수신단 장치에 해당한다. 도 18 에 개시된 일 실시예에 따른 음질 개선 시스템은 송수신 단말(1810, 1830) 및 두 단말과 네트워크(1870)로 연결된 음질 개선 서버(1850)를 포함한다.
네트워크(1870)는 송신 단말(1810), 수신 단말(1830) 및 음질 제어 서버(1850)를 연결하는 역할을 수행한다. 네트워크(1870)는 전용선, LAN, VAN, 인트라넷, 사설 전화망, 공중 전화망, PSTN 망 및 이들의 상호 조합을 포함하며, 도 18 에 도시된 각 네트워크 구성 주체가 서로 원활하게 통신을 할 수 있도록 하는 포괄적인 의미의 데이터 통신망으로, 유선 인터넷, 무선 인터넷 및 모바일 무선 통신망을 포함할 수 있다.
송신 단말(1810) 및 수신 단말(1830)은 도 1 에 개시된 송수신 단말일 수 있으며 패킷 네트워크 구조를 이용할 수 있다.
통화 교섭이 완료되고 송신 단말(1810)에 송신단 잡음 신호 및 송신단 음성 신호가 입력되면, 송신 단말(1810)은 송신단 잡음에 대한 정보를 음질 개선 서버(1850)로 전달한다.
통화 교섭이 완료되고 수신 단말(1830)에 수신단 잡음 신호가 입력되면, 수신 단말(1830)은 수신단 잡음에 대한 정보를 음질 개선 서버(1850)로 전달한다.
또 다른 실시예에 따르면, 송신 단말 (1810) 또는 수신 단말(1830)은 각자의 통화에 대한 정황정보들을 추가로 음질 개선 서버(1850)로 전달할 수 있다.
음질 개선 서버(1850)는 송신 단말(1810)로부터 수신된 송신단 잡음 정보에 기초하여 송신 단말(1810)이 송신단 음성 신호의 음질을 개선하기 위한 전처리부(1811)에 적용될 알고리즘 및 해당 알고리즘에 대한 최적의 파라미터 값을 결정한다.
또한, 음질 개선 서버(1850)는 수신 단말(1830)로부터 수신된 수신단 잡음 정보에 기초하여 수신 단말(1830)이 송신단 음성 신호의 음질을 개선하기 위한 후처리부(1831)에 적용될 알고리즘을 선택하고, 해당 알고리즘에 대한 최적의 파라미터 값을 결정한다.
음질 개선 서버(1850)는 객관적 음질 측정부(1851), 주관적 음질 측정부(1853) 및 결정부(1855)를 포함할 수 있다. 이하에서는 음질 개선 서버(1850)의 각 구성의 구체적인 동작을 설명한다.
주관적 음질 측정부(1853)는 배경 잡음 신호의 특징에 기초하여 각 알고리즘별 파라미터들의 범위에 따른 주관적 음질을 시뮬레이션하고 및 그때의 파라미터 값들을 객관적 음질 측정부로 입력한다. 이 때 시뮬레이션에 이용되는 알고리즘들은 송신 단말(1810) 및 수신 단말(1830)에서 실행 가능한 알고리즘에 해당한다.
객관적 음질 측정부(1851)는 미리 저장되어 있는 테스트 데이터베이스 또는 송신 단말(1810)로부터 전달된 음성 신호와, 주관적 음질 측정부로부터 입력된 정보를 이용하여 객관적 음질을 측정한다.
결정부(1855)는 객관적 음질 측정 결과 및 주관적 음질 측정 결과에 기초하여, 음질 개선을 위한 최적의 파라미터를 결정한다. 본 발명의 또 다른 실시예에 따르면, 최적의 파라미터를 결정하기 위하여 통화에 대한 정황 정보를 추가로 이용할 수 있다. 결정부는 머신러닝 방법을 이용해 구현될 수 있다.
음질 개선 서버(1850)는 송신 단말(1810)의 전처리부(1811)에 적용될 알고리즘 및 해당 알고리즘에 대한 최적의 파라미터 값이 결정되면, 결정된 알고리즘에 대한 정보 및 파라미터 값에 대한 정보를 송신 단말(1810)로 전송한다.
송신 단말(1810)은 음질 개선 서버(1850)로부터 전송된 알고리즘에 대한 정보 및 파라미터 값에 대한 정보를 이용하여 전처리를 수행함으로써, 입력된 송신단 음성 신호의 음질을 개선한다. 일 실시예에 따르면, 전처리 과정에는 잡음 억제 또는 에코 캔슬링이 포함될 수 있다. 송신 단말(1810)은 전처리를 통해 음질이 개선된 송신단 음성 신호를 수신 단말(1830)로 전송한다.
또한 음질 개선 서버(1850)는 수신 단말(1830)의 후처리부(1831)에 적용될 알고리즘 및 해당 알고리즘에 대한 최적의 파라미터 값이 결정되면, 결정된 알고리즘에 대한 정보 및 파라미터 값에 대한 정보를 수신 단말(1830)로 전송한다.
수신 단말(1830)은 음질 개선 서버(1850)로부터 전송된 알고리즘에 대한 정보 및 파라미터 값에 대한 정보를 이용하여 후처리를 수행함으로써, 송신 단말(1810)로부터 수신된 송신단 음성 신호의 음질을 개선한다. 일 실시예에 따르면, 후처리 과정에는 명료도 향상 또는 DyVE(Dynamic Voice Enhancement)가 포함될 수 있다.
송신 단말(1810), 수신 단말(1830) 및 음질 제어 서버(1850)는 통신부, 제어부, 저장부, 프로세서, 디스플레이부 및 사용자 입력부를 더 포함할 수 있다(미도시).
본 발명의 일 실시예에 따른 명료도 개선 방법에 따르면, 단순히 잡음 감소 기술이 적용된 수신단 음성 신호와 명료도 개선 기술이 적용된 송신단 음성 신호를 단순히 병합하는 것이 아니라, 잡음 제어 기술에 의해 물리적으로 감소된 잡음에 기초하여 명료도 향상 기술을 적용하므로 주관적 음질뿐 아니라 객관적 음질 역시 향상될 수 있다.
이상 설명된 본 발명에 따른 실시예는 다양한 컴퓨터 구성요소를 통하여 실행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위하여 하나 이상의 소프트웨어 모듈로 변경될 수 있으며, 그 역도 마찬가지이다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항과 한정된 실시예 및 도면에 의하여 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위하여 제공된 것일 뿐, 본 발명이 상기 실시예에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정과 변경을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.

Claims (15)

  1. 실시간 수신단(near-end) 잡음 신호를 획득하는 단계;
    착신 호(incoming call)에 따른 송신단(far-end) 음성 신호를 획득하는 단계;
    기준 신호(reference signal) 및 상기 실시간 수신단 잡음 신호에 기초하여 생성된 테스트 신호들의 주관적(subjective) 음질 및 지각-객관적(perceptual objective) 음질을 측정하는 단계;
    상기 주관적 음질 및 상기 지각-객관적 음질에 기초하여 적어도 하나의 음질 개선 방법을 선택하고, 상기 선택된 적어도 하나의 음질 개선 방법에 적용될 파라미터들을 결정하는 단계; 및
    상기 결정된 파라미터들에 기초하여, 상기 선택된 적어도 하나의 음질 개선 방법을 이용해 상기 송신단 음성 신호의 음질을 개선하는 단계;를 포함하고,
    상기 테스트 신호들은 음질 개선 방법들에 파라미터 값들의 조합을 적용하여 음질이 개선된 상기 기준 신호와 상기 획득된 실시간 수신단 잡음 신호를 믹싱하여 생성되는,
    음성 신호 처리 방법.
  2. 제 1 항에 있어서, 상기 파라미터들을 결정하는 단계는,
    상기 주관적 음질 및 상기 지각-객관적 음질에 기초하여 상기 테스트 신호들의 음질을 측정하는 단계; 및
    상기 측정된 테스트 신호들의 음질이 최적일 때의 파라미터 값들의 조합을 파라미터들로 결정하는,
    음성 신호 처리 방법.
  3. 제 2 항에 있어서, 상기 파라미터들을 결정하는 단계는,
    상기 착신 호에 대한 정황 정보에 기초하여 상기 주관적 음질에 대한 가중치 및 상기 지각-객관적 음질에 대한 가중치를 결정하는 단계;를 더 포함하고,
    상기 주관적 음질에 대한 가중치를 주관적 음질에 적용하고, 상기 지각-객관적 음질에 대한 가중치를 객관적 음질에 적용하여 테스트 신호들의 음질을 측정하는,
    음성 신호 처리 방법.
  4. 제 1 항에 있어서, 상기 주관적 음질은,
    상기 파라미터 값들에 대응하는 주관적 음질 예측 값들에 기초하여 측정되는,
    음성 신호 처리 방법.
  5. 제 1 항에 있어서,
    상기 실시간 수신단 잡음 신호를 모니터링하는 단계; 및
    상기 모니터링 결과 상기 실시간 수신단 잡음 신호의 특징이 변화하면 상기 파라미터들을 갱신하는 단계;를 더 포함하는,
    음성 신호 처리 방법.
  6. 실시간 수신단(near-end) 잡음 신호를 획득하는 단계;
    착신 호(incoming call)에 따른 송신단(far-end) 음성 신호를 획득하는 단계;
    상기 획득된 실시간 수신단 잡음 신호에 대한 정보를 전송하는 단계;
    기준 신호(reference signal) 및 상기 실시간 수신단 잡음 신호에 기초하여 생성된 테스트 신호들의 주관적(subjective) 음질 및 지각-객관적(perceptual objective) 음질에 기초하여 선택된 적어도 하나의 음질 개선 방법에 대한 정보 및 상기 선택된 적어도 하나의 음질 개선 방법에 적용될 파라미터들의 최적값에 대한 정보를 수신하는 단계; 및
    상기 수신된 파라미터들의 최적값에 기초하여, 상기 선택된 적어도 하나의 음질 개선 방법을 이용해 상기 송신단 음성 신호의 음질을 개선하는 단계;를 포함하고,
    상기 테스트 신호들은 음질 개선 방법들에 파라미터 값들의 조합을 적용하여 음질이 개선된 상기 기준 신호와 상기 획득된 실시간 수신단 잡음 신호를 믹싱하여 생성되는,
    음성 신호 처리 방법.
  7. 제 6 항에 있어서, 상기 송신단 음성 신호는,
    기준 신호 및 실시간 송신단 잡음 신호에 기초하여 결정된 파라미터들의 최적값을, 적어도 하나의 음질 개선 방법에 적용하여 음질이 개선된 음성 신호인,
    음성 신호 처리 방법.
  8. 실시간 수신단(near-end) 잡음 신호를 획득하는 입력부;
    착신 호(incoming call)에 따른 송신단(far-end) 음성 신호를 획득하는 수신부; 및
    기준 신호(reference signal) 및 상기 실시간 수신단 잡음 신호에 기초하여 생성된 테스트 신호들의 주관적(subjective) 음질 및 지각-객관적(perceptual objective) 음질을 측정하고, 상기 주관적 음질 및 상기 지각-객관적 음질에 기초하여 적어도 하나의 음질 개선 방법을 선택하고, 상기 선택된 적어도 하나의 음질 개선 방법에 적용될 파라미터들을 결정하고, 상기 결정된 파라미터들에 기초하여, 상기 선택된 적어도 하나의 음질 개선 방법을 이용해 상기 송신단 음성 신호의 음질을 개선하는 음질 개선부;를 포함하고,
    상기 테스트 신호들은 음질 개선 방법들에 파라미터 값들의 조합을 적용하여 음질이 개선된 상기 기준 신호와 상기 획득된 실시간 수신단 잡음 신호를 믹싱하여 생성되는,
    음성 신호 처리 장치.
  9. 제 8 항에 있어서, 상기 음질 개선부는,
    상기 주관적 음질 및 상기 지각-객관적 음질에 기초하여 상기 테스트 신호들의 음질을 측정하고, 상기 측정된 테스트 신호들의 음질이 최적일 때의 파라미터 값들의 조합을 파라미터들로 결정하는,
    음성 신호 처리 장치.
  10. 제 9 항에 있어서, 상기 음질 개선부는,
    상기 착신 호에 대한 정황 정보에 기초하여 상기 주관적 음질에 대한 가중치 및 상기 지각-객관적 음질에 대한 가중치를 결정하고, 상기 주관적 음질에 대한 가중치를 주관적 음질에 적용하고, 상기 지각-객관적 음질에 대한 가중치를 객관적 음질에 적용하여 테스트 신호들의 음질을 측정하는,
    음성 신호 처리 장치.
  11. 제 8 항에 있어서, 상기 주관적 음질은,
    상기 파라미터 값들에 대응하는 주관적 음질 예측 값들에 기초하여 측정되는,
    음성 신호 처리 장치.
  12. 제 8 항에 있어서, 상기 음질 개선부는,
    상기 실시간 수신단 잡음 신호를 모니터링하고, 상기 모니터링 결과 상기 실시간 수신단 잡음 신호의 특징이 변화하면 상기 파라미터들을 갱신하는,
    음성 신호 처리 장치.
  13. 실시간 수신단(near-end) 잡음 신호를 획득하는 입력부;
    착신 호(incoming call)에 따른 송신단(far-end) 음성 신호를 획득하고, 상기 획득된 실시간 수신단 잡음 신호에 대한 정보를 전송하고, 기준 신호(reference signal) 및 상기 실시간 수신단 잡음 신호에 기초하여 생성된 테스트 신호들의 주관적(subjective) 음질 및 지각-객관적(perceptual objective) 음질에 기초하여 선택된 적어도 하나의 음질 개선 방법에 대한 정보 및 상기 선택된 적어도 하나의 음질 개선 방법에 적용될 파라미터들을 수신하는 송수신부; 및
    상기 수신된 파라미터들에 기초하여, 상기 선택된 적어도 하나의 음질 개선 방법을 이용해 상기 송신단 음성 신호의 음질을 개선하는 음질 개선부;를 포함하고,
    상기 테스트 신호들은 음질 개선 방법들에 파라미터 값들의 조합을 적용하여 음질이 개선된 상기 기준 신호와 상기 획득된 실시간 수신단 잡음 신호를 믹싱하여 생성되는,
    음성 신호 처리 장치.
  14. 제 13 항에 있어서, 상기 송신단 음성 신호는,
    기준 신호 및 실시간 송신단 잡음 신호에 기초하여 결정된 파라미터들을, 적어도 하나의 음질 개선 방법에 적용하여 음질이 개선된 음성 신호인,
    음성 신호 처리 장치.
  15. 제 1 항에 따른 방법을 실행하기 위한 프로그램을 기록하는 컴퓨터 판독 가능한 기록매체.
KR1020197026737A 2017-03-10 2017-03-10 잡음 환경의 통화 품질을 개선하는 방법 및 장치 KR102307355B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2017/002621 WO2018164304A1 (ko) 2017-03-10 2017-03-10 잡음 환경의 통화 품질을 개선하는 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20190111134A true KR20190111134A (ko) 2019-10-01
KR102307355B1 KR102307355B1 (ko) 2021-09-30

Family

ID=63447728

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197026737A KR102307355B1 (ko) 2017-03-10 2017-03-10 잡음 환경의 통화 품질을 개선하는 방법 및 장치

Country Status (3)

Country Link
US (1) US10957340B2 (ko)
KR (1) KR102307355B1 (ko)
WO (1) WO2018164304A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102512614B1 (ko) * 2018-12-12 2023-03-23 삼성전자주식회사 오디오 개선을 지원하는 전자 장치 및 이를 위한 방법
DE102019205694A1 (de) * 2019-04-18 2020-10-22 Volkswagen Aktiengesellschaft Geschwindigkeitsabhängige Rauschunterdrückung bei Audiosignalen in einem Fahrzeug
KR102327441B1 (ko) * 2019-09-20 2021-11-17 엘지전자 주식회사 인공지능 장치
TWI739236B (zh) * 2019-12-13 2021-09-11 瑞昱半導體股份有限公司 具有抗噪機制的音訊播放裝置及方法
US11715480B2 (en) * 2021-03-23 2023-08-01 Qualcomm Incorporated Context-based speech enhancement

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7092514B2 (en) * 2003-02-27 2006-08-15 Telefonaktiebolaget Lm Ericsson (Publ) Audibility enhancement
US20100020940A1 (en) * 2008-07-28 2010-01-28 Broadcom Corporation Far-end sound quality indication for telephone devices
KR20130014129A (ko) * 2011-07-29 2013-02-07 (주)트란소노 휴대 단말의 음질 향상 자동화 방법 및 장치, 그리고 그 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 기록매체
US20140064507A1 (en) * 2012-09-02 2014-03-06 QoSound, Inc. Method for adaptive audio signal shaping for improved playback in a noisy environment
US9031837B2 (en) * 2010-03-31 2015-05-12 Clarion Co., Ltd. Speech quality evaluation system and storage medium readable by computer therefor
KR20160071111A (ko) * 2014-12-11 2016-06-21 삼성전자주식회사 전자 장치에서의 개인 비서 서비스 제공

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040170164A1 (en) * 2003-02-28 2004-09-02 Leblanc Wilfrid Quality of service (QOS) metric computation in voice over IP systems
KR101639331B1 (ko) 2009-12-04 2016-07-25 삼성전자주식회사 잡음 환경에서 음성 신호를 강화하는 방법 및 그 장치
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
KR101176207B1 (ko) 2010-10-18 2012-08-28 (주)트란소노 음성통신 시스템 및 음성통신 방법
EP2595145A1 (en) * 2011-11-17 2013-05-22 Nederlandse Organisatie voor toegepast -natuurwetenschappelijk onderzoek TNO Method of and apparatus for evaluating intelligibility of a degraded speech signal
US9633671B2 (en) * 2013-10-18 2017-04-25 Apple Inc. Voice quality enhancement techniques, speech recognition techniques, and related systems
GB201320216D0 (en) * 2013-11-15 2014-01-01 Microsoft Corp Predicting call quality

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7092514B2 (en) * 2003-02-27 2006-08-15 Telefonaktiebolaget Lm Ericsson (Publ) Audibility enhancement
US20100020940A1 (en) * 2008-07-28 2010-01-28 Broadcom Corporation Far-end sound quality indication for telephone devices
US9031837B2 (en) * 2010-03-31 2015-05-12 Clarion Co., Ltd. Speech quality evaluation system and storage medium readable by computer therefor
KR20130014129A (ko) * 2011-07-29 2013-02-07 (주)트란소노 휴대 단말의 음질 향상 자동화 방법 및 장치, 그리고 그 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 기록매체
US20140064507A1 (en) * 2012-09-02 2014-03-06 QoSound, Inc. Method for adaptive audio signal shaping for improved playback in a noisy environment
KR20160071111A (ko) * 2014-12-11 2016-06-21 삼성전자주식회사 전자 장치에서의 개인 비서 서비스 제공

Also Published As

Publication number Publication date
US20200075038A1 (en) 2020-03-05
KR102307355B1 (ko) 2021-09-30
WO2018164304A1 (ko) 2018-09-13
US10957340B2 (en) 2021-03-23

Similar Documents

Publication Publication Date Title
KR102307355B1 (ko) 잡음 환경의 통화 품질을 개선하는 방법 및 장치
Rix et al. Objective assessment of speech and audio quality—technology and applications
KR100944252B1 (ko) 오디오 신호 내에서 음성활동 탐지
US20220223161A1 (en) Audio Decoder, Apparatus for Determining a Set of Values Defining Characteristics of a Filter, Methods for Providing a Decoded Audio Representation, Methods for Determining a Set of Values Defining Characteristics of a Filter and Computer Program
US20140278418A1 (en) Speaker-identification-assisted downlink speech processing systems and methods
JP5542206B2 (ja) オーディオ・システムの知覚品質を判定する方法およびシステム
JP2006157920A (ja) 残響評価および抑制システム
WO2014160542A2 (en) Volume leveler controller and controlling method
EP2979359A1 (en) Equalizer controller and controlling method
KR102630449B1 (ko) 음질의 추정 및 제어를 이용한 소스 분리 장치 및 방법
EP3605529A1 (en) Method and apparatus for processing speech signal adaptive to noise environment
US9208798B2 (en) Dynamic control of voice codec data rate
CN109313893A (zh) 表征、选择以及调整用于自动语音识别系统的音频和声学训练数据
CN107580155B (zh) 网络电话质量确定方法、装置、计算机设备和存储介质
CN108133712B (zh) 一种处理音频数据的方法和装置
WO2013078677A1 (zh) 一种自适应调节音效的方法和设备
US11146607B1 (en) Smart noise cancellation
CN112151055B (zh) 音频处理方法及装置
Moeller et al. Objective estimation of speech quality for communication systems
Côté et al. Speech communication
JP4113481B2 (ja) 音声品質客観評価装置および音声品質客観評価方法
US20080059161A1 (en) Adaptive Comfort Noise Generation
Torcoli et al. On the effect of artificial distortions on objective performance measures for dialog enhancement
KR100772199B1 (ko) VoIP 서비스의 품질보장을 위한 통화 잡음 제거장치 및방법, 그리고 이를 적용한 VoIP 단말
KR20090082700A (ko) 노이지 음성 신호의 처리 장치 및 그 장치를 포함하는 음성기반 어플리케이션 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right