KR20150032562A - 소음을 제거하기 위한 방법, 장치 및 모바일 단말 - Google Patents

소음을 제거하기 위한 방법, 장치 및 모바일 단말 Download PDF

Info

Publication number
KR20150032562A
KR20150032562A KR20157001736A KR20157001736A KR20150032562A KR 20150032562 A KR20150032562 A KR 20150032562A KR 20157001736 A KR20157001736 A KR 20157001736A KR 20157001736 A KR20157001736 A KR 20157001736A KR 20150032562 A KR20150032562 A KR 20150032562A
Authority
KR
South Korea
Prior art keywords
voice
speaker
fingerprint
extracting
current conversation
Prior art date
Application number
KR20157001736A
Other languages
English (en)
Inventor
웨이강 펭
보 우
샨 후
홍펭 후
샤오보 리
쿠이 지앙
Original Assignee
텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 filed Critical 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Publication of KR20150032562A publication Critical patent/KR20150032562A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

소음을 제거하기 위한 방법 및 장치, 그리고 이동단말기이다. 상기 방법은, 미리 화자 목소리의 음성 지문을 화자의 목소리로부터 추출하고(101), 상기 화자가 상대방 청자와 대화할 때, 화자의 음성 지문에 따라서, 현재 대화 목소리로부터 음성 지문과 일치하는 목소리를 추출하고, 통신망을 통해서 음성 지문과 일치하는 목소리를 상대방 청자에게 송신하는 것(102)을 포함한다.

Description

소음을 제거하기 위한 방법, 장치 및 모바일 단말{Method and deivce for eliminating noise, and mobile terminal}
본 발명은 컴퓨터에 관련한 것으로 보다 상세하게는, 소음을 제거하기 위한 방법, 장치, 및 휴대 단말에 관한 것이다.
이동 통신 기술의 발전과 함께, 이동 단말은 점점 널리 사용된다. 사용자가 이동 단말을 사용하여 전화를 할 때, 통화 품질은 주변 환경의 배경 소음에 의해 영향을 받는다. 예를 들어, 사용자는 휴대폰을 사용하여 친구와 대화할 때, 만약, 사용자의 주변 환경이 시끄러우면, 휴대폰을 통해 사용자에 의해 전송된 음성 데이터는 배경 소음에 의해 영향을 받고, 친구에 의해 수신된 음성 데이터는 배경 소음을 포함하고, 따라서, 통화 품질이 떨어진다.
통화 품질을 향상시키기 위한 종래의 처리에서, 추가적인 하드웨어, 예를 들면 소음 제거 하드웨어가 모바일 단말에 부가된다. 소음 제거 하드웨어는 배경 소음 제거 마이크로폰(microphone), 소음 제거 칩, 및 사운딩(sounding) 장치를 포함한다. 모바일 단말의 정상적인 마이크로폰이 사용자의 음성 데이터를 수집할 때, 배경 소음 제거 마이크로폰은 소음파를 수집하는데 사용된다. 소음 제거 칩은 배경 소음 제거 마이크로폰에 의해 수집된 소음파에 상반되는 사운드 파를 생성하는데 사용한다. 사운딩 장치는 소음이 상쇄되고, 통화 품질을 향상시키기 위해 소음파에 상반되는 사운드 파를 전송하는데 사용된다.
그러나, 통화 품질을 향상시키기 위한 종래의 처리 방식에서, 추가적인 소음 제거 하드웨어는 모바일 단말에 추가되고, 그러한 모바일 단말, 특히 모바일 폰의 경우 하드웨어 비용은 증가한다. 게다가, 소음 제거 하드웨어는 소음을 완전하게 제거할 수 없고, 제거되지 않은 소음은 상대방 청자에게 사용자의 음성데이터와 함께 전송된다.
게다가, 소음 제거 하드웨어는 소음을 완전하게 제거할 수 없고, 제거되지 않은 소음은 사용자의 음성 데이터와 함께 반대편 청자로 전송된다. 이러한 방식으로 사용자에 의해 전송된 오디오 데이터는 크고, 전송률과 오디오 데이터의 품질은 영향을 받는다. 더욱이, 모바일 단말에서 배경 소음 제거 마이크로폰과 보통 마이크로폰 사이에 충분한 거리가 필요한데, 이는 모바일 단말을 설계하는 것의 차이를 증가시킨다.
본 발명의 실시예는 모바일 단말에 소음을 제거하기 위한 하드웨어를 추가하는것 없이 통화 처리 동안에 배경 소음을 제거하기 위해서 소음을 제거하기 위한 방법, 장치, 모바일 단말을 제공한다.
미리 화자의 목소리로부터 화자의 음성 지문을 추출하고;
화자가 상대방 청자와 대화할 때, 현재 대화 음성으로부터 화자의 음성 지문과 매칭하는 목소리 데이터를 추출하고; 및
통신망을 통해 상대방 청자에게 화자의 음성 지문과 매칭되는 목소리 데이터를 전송하는 것을 포함하는 소음 제거를 위한 방법.
소음을 제거하기 위한 장치는, 저장소 및 상기 저장소에 저장된 명령을 수행하기 위한 프로세서를 포함하되, 상기 명령은 미리, 화자의 음성으로부터 화자의 음성 지문을 추출하는 추출 명령;
화자가 상대방 청자와 대화할 때, 현재 대화 음성으로부터 화자의 음성 지문과 일치하는 음성 데이터를 추출하고, 커뮤니케이션 네트워크를 통해서 상대방 청자에게 상기 화자의 음성 지문과 일치하는 음성 데이터를 전송하는 전송 명령으로 구성된다.
소음을 제거하기 위한 모바일 단말은 소음을 제거하기 위한 상기 설명된 장치를 포함한다.
본 발명의 기술적인 해결에 따라, 화자의 음성 지문은 미리 화자의 목소리로부터 추출되고, 화자가 상대방 청자와 대화할 때, 화자의 음성 지문과 일치하는 목소리 데이터는 현재 대화 목소리로부터 추출되고, 화자의 음성 지문과 일치하는 목소리 데이터는 통신망을 통해서 상대방 청자로 전송된다. 본 발명의 예를 사용함에 따라, 상대방 청자로부터 수신된 목소리는 통신을 위해 확실하고, 필요한 것임이 보장되고, 따라서 커뮤니케이션 품질은 향상된다.
더욱이, 화자의 실제 목소리만이 통신망을 통해 전송되고, 소음은 전송되지 않기 때문에, 통신망의 부하는 감소된다.
도 1은 본 발명의 다양한 예에 따라 소음을 제거하기 위한 방법을 나타낸 순서도이다.
도 2는 본 발명의 다양한 예에 따라 소음을 제거하기 위한 방법을 나타낸 순서도이다.
도 3은 본 발명의 다양한 실시예에 따라 소음을 제거하기 위한 장치를 나타낸 구성도이다.
도 4는 본 발명의 다양한 실시에에 따라 소음을 제거하기 위한 장치를 나타낸 구성도이다.
본 발명의 목적, 기술적인 해결 및 장점을 보다 명확하게 하기 위해서, 본 발명은 이하에서 첨부된 도면과 상세 실시예를 참조하여 상세하게 설명한다.
본 발명의 실시예에서 제공된 소음을 제거하기 위한 방법은 다양한 모바일 단말, 예를 들어 모바일 폰 또는, PC(personal computers)와 같은 고정된 하드웨어 기기에 적용할 수 있는 것에 적용될 수 있다. 하기 실시예에서, 이동 단말기를 예로 들었다.
도 1은 본 발명의 다양한 실시예에 따라 소음을 제거하기 위한 방법을 나타낸 순서도이다. 도 1에 도시된 바와 같이, 상기 방법은 다음과 같은 처리를 포함한다.
101에서, 화자의 음성 지문은 미리 화자의 목소리로부터 추출된다.
예를 들어, 음성 지문은 화자의 음성 특성을 나타내고, 화자의 음성을 식별하기 위해 사용될 수 있다.
102에서, 화자가 상대방 청자와 대화할 때, 화자의 음성 지문과 일치하는 목소리 데이터는 현재 대화 목소리로부터 추출되고, 통신망을 통해서 상대방 청자에게 전송된다.
예를 들어, 현재 대화 목소리는 화자의 실제 목소리와 화자의 실제 목소리에 영향을 주는 소음을 포함할 수 있다.
화자의 주변 환경이 시끄러울 때, 현재 대화 목소리는 소음과 화자의 실제 목소시를 포함한다. 모바일 단말은 직접적으로 통신망을 통해서 현재 대화 목소리를 전송한다면, 상대방 청자는 소음과 화자의 실제 목소리 모두를 수신할 수 있고, 통신 품질은 떨어진다. 현재 발명의 실시예에 따르면, 현재 대화 목소리가 통신망을 통해 송신되기 전에, 화자의 실제 목소리는 현대 대화 목소리로부터 추출되고, 오직 추출된 목소리만 통신망을 통해 송신된다. 그러므로, 상대방 청자는 화자의 실제 목소리만을 수신할 수 있고, 이는 통신을 위해 확실하고 필요한 것이므로, 통신 품질은 향상된다.
101, 102의 처리는 모바일 단말에 설치된 소프트웨어를 통해 구현될 수 있다.
도 2는 본 발명의 다양한 실시예에 따라 소음을 제거하기 위한 방법을 나타낸 순서도이다. 도 2에 도시된 바와 같이, 상기 방법은 다음과 같은 처리를 포함한다.
201에서, 모바일 단말은 미리 사용자의 목소리로부터 각 사용자의 음성 지문을 추출한다.
예를 들어, 음성 지문은 사용자의 목소리 특성을 나타내고 사용자 목소리를 식별하는데 사용될 수 있다.
예를 들어, 사용자의 목소리로부터 사용자의 음성 지문을 추출할 때, 모바일 단말은 적어도 하나의 인접한 프레임과 겹치는 다수의 프레임으로 사용자의 목소리 신호를 분할하고, 결과를 얻기 위해서 각 프레임에 대해 캐릭터 동작을 수행하고, 분류 모드를 사용하여 데이터의 조각으로 상기 결과를 맵핑하고, 다수의 데이터 조각을 음성 지문으로 간주한다.
예를 들어 사용자의 목소리 신호는 다음과 같은 모드를 이용하여 다수의 프레임들로 분할될 수 있다.
제1 모드에서, 상이한 시점으로부터 시작하여, 사용자의 목소리 신호는 미리 정해진 시간 간격에 따라 적어도 하나의 인접한 프레임과 겹치는 다수의 프레임으로 분할한다. 제2 모드에서, 상이한 주파수들에서 시작하여, 사용자의 목소리 신호는 소정의 주파수 간격에 따라 적어도 하나의 인접한 프레임과 겹치는 다수의 프레임으로 분할된다.
예를 들어, 미리 설정된 시간 간격이 1ms이면, 사용자의 목소리 신호로부터 분할된 제1 프레임은 0ms부터 시작하고, 제1 프레임의 길이는 1ms이고, 사용자의 음성 신호로부터 분할된 제2 프레임은 0.5ms부터 시작하고, 제2 프레임의 길이는 1ms이고, 사용자의 목소리 신호로부터 분할된 제3 프레임은 1ms부터 시작하고, 제3 프레임의 길이는 1ms이고, 사용자의 목소리 신호로부터 분할된 제4 프레임은 1.5ms부터 시작하고, 제4 프레임의 길이는 1ms이고, 계속해서 같은식으로 반복된다. 이러한 방식으로 사용자의 목소리 신호로부터 분할된 다수의 프레임은 적어도 하나의 인접한 프레임과 겹친다.
예를 들어, 상기 프레임에 대해 수행된 캐릭터 동작은 고속 퓨리에 변환(FFT), 웨이블릿 변환(WT), 멜 주파수 캡스트럽 계수(MFCC)를 얻는 동작, 스펙트럼 평활성을 얻기 위한 동작, 선명도를 얻기 위한 동작, 선형 예측 코딩(LPC) 중 어느 하나를 포함할 수 있다.
분류 모드는 종래의 히든 마르코프 모델 또는 정량 기술 일 수 있고, 종래 모드는 히든 마르코프 모델 또는 정량 기술을 이용하여 결과를 데이터 조각으로 맵핑하는데 사용될 수 있다.
202에서, 모바일 단말은 내부에 각 사용자의 음성 지문을 저장한다.
203에서, 사용자, 예를 들어 사용자 A가 모바일 단말을 사용하는 것에 의해 통신을 수행할 때, 상기 모바일 단말은 내부에 저장된 음성 지문으로부터 사용자 A의 음성 지문을 검색한다.
사용자 A의 주변 환경이 시끄러울 때, 사용자 A의 현재 대화 음성은 소음과 사용자 A의 실제 목소리를 포함한다. 소음은 사용자 A 주변에 배경 소음일 수 있다.
204에서 상기 모바일 단말은 사용자 A의 현재 대화 목소리로부터 사용자 A의 음성 지문과 일치하는 목소리 데이터를 추출한다.
예를 들어, 인식 대상 목소리 예상 모드는 사용자 A의 현재 대화 목소리로부터 사용자 A의 음성 지문과 일치하는 목소리 데이터를 예측하는데 사용된다. 예측된 목소리 데이터는 시간-주파수 영역에서 인식 대상 목소리에 대한 보조 위치를 사용하여 현재 대화 목소리로부터 추출하고, 추출된 목소리 데이터는 사용자 A의 음성 지문과 일치하는 목소리 데이터로 간주 된다.
인식 대상 목소리 예측 모드와 인식 대상 목소리에 대한 시간-주파수 영역에서의 보조 위치는 종래 기술과 유사하며, 본원에서 설명되지 않는다. 205에서, 모바일 단말은 통신망를 통해 상대방 청자에게 204에서 추출된 목소리 데이터를 송신한다. 상기 처리에 따르면, 상대방 청자는 사용자 A의 실제 목소리를 들을 수 있고, 따라서, 사용자 A와 상대방 청자 사이의 통화 품질은 확보된다. 더욱이, 사용자 A의 실제 목소리 만이 통신망을 통해 전송되기 때문에, 통신망의 부하가 감소된다.
전술한 방법 외에, 본 발명의 실시예는 소음 제거를 위한 장치를 제공한다.
도 3은 본 발명의 다양한 실시예에 따른 소음 제거를 위한 장치의 구성도이다. 도 3에 도시된 바와 같이, 상기 장치는 추출 모듈 및 전송 모듈을 포함한다.
추출 모듈은 미리 화자의 목소리로부터 화자의 음성 지문을 추출하는 것이다.
전송 모듈은 화자가 상대방 청자와 대화할 때, 현재 대화 목소리로부터 화자의 음성 지문과 일치하는 목소리 데이터를 추출하고, 통신망을 통해서 상대방 청자로 화자의 음성 지문과 일치하는 목소리 데이터를 전송한다. 현재 대화 목소리는 화자의 실제 목소리와 화자의 실제 목소리에 영향을 주는 소음을 포함할 수 있다.
예를 들어, 도 3에 도시된 바와 같이 추출 모듈은 분할 유닛과 맵핑 유닛을 포함한다.
분할 유닛은 적어도 하나의 인접한 프레임과 겹치는 다수의 프레임으로 화자의 목소리 신호를 분할하는 것이다.
맵핑 유닛은 결과를 얻기 위해서 각 프레임에 대해 캐릭터 동작을 수행하고, 분류 모드를 사용하여 데이터의 조각으로 결과를 맵핑하고, 다수의 데이터 조각을 음성 지문으로 간주한다.
예를 들어, 분할 유닛이 화자의 목소리 신호를 다수의 프레임으로 분할할 때, 다음과 같은 모드가 사용될 수 있다.
제1 모드는, 상이한 시점으로부터 시작하여, 화자의 목소리 신호는 미리 설정된 시간 간격에 따라서 적어도 하나의 인접한 프레임과 겹치는 다수의 프레임으로 분할된다. 제2 모드는 상이한 주파수로부터 시작하여, 화자의 목소리 신호는 미리 설정된 주파수 간격에 따라 적어도 하나의 인접한 프레임과 겹치는 다수의 프레임으로 분할된다.
예를 들어, 전송 모듈은 예측 유닛과 추출 유닛을 이용하여 현재 대화 목소리로부터 화자의 음성 지문과 일치하는 목소리 데이터를 추출한다.
예측 유닛은 인식 대상 목소리 예측 모드를 이용하여 현재 대화 목소리로부터 화자의 음성 지문과 일치하는 목소리 데이터를 예측하는 것이다.
추출 유닛은 시간-주파수 영역에 있어서 인식 대상 목소리에 대한 보조 위치를 사용함으로써 현재 대화 목소리로부터 예측된 목소리 데이터를 추출하고, 화자의 음성 지문과 일치하는 목소리 데이터로서 목소리 데이터를 추출한다.
도 4는 본 발명의 다양한 실시 예에 따른 소음 제거를 위한 장치를 나타내는 구성도이다. 도 4에 도시된 바와 같이, 상기 장치는 적어도 저장소와 상기 저장소와 통신할 수 있는 프로세서를 포함한다. 저장소는 추출 명령 및 프로세서에 의해 수행될 수 있는 전송 명령을 저장한다.
추출 명령은 미리 화자의 목소리로부터 화자의 음성 지문을 추출하는 것이다.
전송 명령은 화자가 상대방 청자와 대화할 때, 현대 대화 목소리로부터 화자의 음성 지문과 일치하는 목소리 데이터를 추출하고, 통신망을 통해 상대방 청자에게 화자의 음성 지문과 일치하는 목소리 데이터를 전송하는 것이다. 현재 대화 목소리는 화자의 실제 목소리와 화자의 실제 목소리에 영향을 주는 소음을 포함할 수 있다.
예를 들어, 추출 명령은 분할 서브-명령어와 맵핑 서브-명령어를 포함한다.
분할 서브-명령어는 적어도 하나의 인접한 프레임과 겹치는 다수의 프레임으로 화자의 음성 신호를 분할하는 것이다.
맵핑 서브-명령어는 결과를 얻기 위해서 각 프레임에 대해 캐릭터 동작을 수행하고, 분류 모드를 사용하여 데이터의 조각과 결과를 맵핑하고, 다수의 데이터 조각을 음성 지문으로 간주한다.
예를 들어, 화자의 음성 신호를 다수의 프레임으로 분할할 때, 분할 서브-명령은 서로 다른 시점에서부터 시작하여 화자의 목소리 신호를 미리 설정된 시간 간격에 따라 적어도 하나의 인접한 프레임과 겹치는 다수의 프레임으로 분할하거나, 서로 다른 주파수에서 시작하여 화자의 목소리 신호를 미리 설정된 주파수 간격에 따라서 적어도 하나의 인접한 프레임과 겹치는 다수의 프레임으로 분할한다.
예를 들어, 상기 전송 모듈은 예측 서브-명령어와 추출 서브-명령어를 사용하여 현재 대화 목소리로부터 화자의 음성 지문과 일치하는 목소리 데이터를 추출한다.
예측 서브-명령어는 인식 대상 음성 예측 모드를 사용하여 현재 대화 음성으로부터 화자의 음성 지문과 일치하는 목소리 데이터를 예측하는 것이다.
추출 서브-명령어는 시간-주파수 영역에서의 인식 대상 목소리에 대한 보조 위치를 사용하여 현재 대화 목소리로부터 예측된 목소리 데이터를 추출하고, 추출된 목소리 데이터는 화자의 음성 지문과 일치하는 목소리 데이터로 간주한다.
본 발명의 실시예는 또한 모바일 단말을 제공한다. 모바일 단말은 도 3 또는 도 4에 도시된 장치를 포함한다.
본 발명의 기술적 솔루션에 따르면, 화자의 음성 지문은 미리 화자의 목소리로부터 추출되고, 화자가 상대방 청자와 대화할 때, 화자의 음성 지문과 일치하는 목소리 데이터를 현재 대화 목소리로부터 추출하고, 화자의 음성 지문과 일치하는 목소리 데이터를 통신망을 통해 상대방 청자에게 송신된다. 현재 대화 목소리는 실제 화자의 목소리와 실제 화자의 목소리에 영향을 주는 소음을 포함할 수 있다. 본 발명의 실시에를 사용하여, 상대방 청자에 의해 수신된 목소리는 명확하고, 통신을 위해 필요한 것이 보장되고, 따라서 통신 품질은 향상된다.
더욱이, 화자의 실제 목소리 만이 통신망을 통해서 전송되고, 소음은 전송되지 않기 때문에, 통신망의 부하가 감소된다.
전술한 것은 본 발명의 바람직한 실시예 일 뿐이고, 본 발명의 보호 범위를 제한하는데 사용되지 않는다. 본 발명의 사상 및 원리를 벗어나지 않는 모든 변형, 동등한 치환 및 개선은 본 발명의 보호 범위 내에 있다.
화자의 음성 지문은 미리 화자의 목소리로부터 추출된다 101

Claims (11)

  1. 미리 화자의 목소리로부터 상기 화자의 음성 지문을 추출하는 단계;
    상기 화자가 상대방 청자와 대화할 때, 현재 대화 목소리로부터 상기 화자의 음성 지문과 일치하는 목소리 데이터를 추출하는 단계; 및
    상기 화자의 음성 지문과 일치하는 목소리 데이터를 통신망을 통해 상대방 청자에게 전송하는 단계를 포함하는,
    소음을 제거하기 위한 방법.
  2. 제1 항에 있어서,
    상기 미리 추출된 적어도 하나의 음성 지문을 저장하는 단계를 더 포함하고,
    상기 현재 대화 목소리로부터 상기 화자의 음성 지문과 일치하는 목소리 데이터를 추출하는 단계는,
    상기 저장된 적어도 하나의 음성 지문으로부터 화자의 음성 지문을 획득한 후, 상기 현재 대화 목소리로부터 상기 화자의 음성 지문과 일치하는 목소리 데이터를 추출하는 단계를 포함하는,
    소음을 제거하기 위한 방법.
  3. 제1 항 또는 제2 항에 있어서,
    상기 현재 대화 목소리로부터 화자의 상기 화자의 음성 지문과 일치하는 목소리 데이터를 추출하는 단계는,
    적어도 하나의 인접한 프레임과 겹치는 다수의 프레임으로 상기 화자의 음성 신호를 분할하는 단계;
    결과를 얻기 위해 각 프레임에 대해 캐릭터(character) 동작을 수행하고, 분류 모드를 사용하여 데이터의 조각으로 상기 결과를 맵핑하고, 및 데이터의 다중 조각을 음성 지문으로 간주하는 단계를 포함하는,
    소음을 제거하기 위한 방법.
  4. 제3 항에 있어서,
    상기 캐릭터 동작은,
    고속 퓨리에 변환(FFT), 웨이블릿 변환(WT), 멜 주파수 캡스트럽 계수(MFCC)를 얻는 동작, 스펙트럼 평활성을 얻기 위한 동작, 선명도를 얻기 위한 동작, 선형 예측 코딩(LPC) 중 적어도 하나를 포함하는,
    소음을 제거하기 위한 방법.
  5. 제3 항에 있어서,
    상기 적어도 하나의 인접한 프레임과 겹치는 다수의 프레임으로 상기 화자의 목소리 신호를 분할하는 단계는,
    상이한 시점으로부터 시작하여, 상기 화자의 목소리 신호를 미리 설정된 시간 간격에 따라 적어도 하나의 인접한 프레임과 겹치는 다수의 프레임으로 분할하거나; 또는
    상이한 주파수에서부터 시작하여 상기 화자의 목소리 신호를 미리 설정된 주파수 간격에 따라 적어도 하나의 인접한 프레임과 겹치는 다수의 프레임으로 분할하는 것을 포함하는,
    소음을 제거하기 위한 방법.
  6. 제3 항에 있어서,
    상기 현재 대화 목소리로부터 화자의 음성 지문과 일치하는 목소리 테이터를 추출하는 단계는,
    인식 대상 목소리 예측 모드를 사용하여 상기 현재 대화 목소리로부터 화자의 음성 지문과 일치하는 목소리 데이터를 예측하고; 및
    시간-주파수 영역에서 인식 대상 목소리에 대한 보조 위치를 사용하여 상기 현재 대화 목소리로부터 예측된 목소리 데이터를 추출하고; 및 추출된 목소리 데이터를 화자의 음성 지문과 일치하는 목소리 데이터로 간주하는 것을 포함하는,
    소음을 제거하기 위한 방법.
  7. 저장소와 상기 저장소에 저장된 명령을 수행하는 프로세서를 포함하되,
    상기 명령은,
    미리 화자의 목소리로부터 상기 화자의 음성 지문을 추출하는 추출 명령;
    상기 화자가 상대방 청자와 대화할 때, 현재 대화 목소리로부터 상기 화자의 음성 지문과 일치하는 목소리 데이터를 추출하고, 통신망을 통해 상기 상대방 청자에게 상기 화자의 음성 지문과 일치하는 목소리 데이터를 전송하는 전송 명령을 포함하는,
    소음을 제거하기 위한 장치.
  8. 제7 항에 있어서,
    상기 추출 명령은,
    상기 화자의 목소리 신호를 적어도 하나의 인접한 프레임과 겹치는 다수의 프레임으로 분할하는 분할 서브-명령;
    결과를 얻기 위해서 각 프레임에 대해 캐릭터 동작을 수행하고, 분류 모드를 사용하여 데이터의 조각으로 상기 결과를 맵핑하고, 상기 다수의 데이터 조각을 음성 지문으로 간주하는, 맵핑 서브-명령을 포함하는,
    소음을 제거하기 위한 장치.
  9. 제8 항에 있어서,
    상기 분할 서브-명령은,
    상이한 시점에서부터 시작하여, 미리 설정된 시간 간격에 따라 상기 화자의 목소리 신호를 적어도 하나의 인접한 프레임과 겹치는 다수의 프레임으로 분할하거나; 또는,
    상이한 주파수로부터 시작하여, 미리 설정된 주파수 간격에 따라 상기 화자의 목소리 신호를 적어도 하나의 인접한 프레임과 겹치는 다수의 프레임으로 분할하는 것인,
    소음을 제거하기 위한 장치.
  10. 제7 항에 있어서,
    전송 명령은,
    예측 서브-명령과 추출 서브-명령을 사용하여 현재 대화 목소리로부터 화자의 음성 지문과 일치하는 목소리 데이터를 추출하고,
    상기 예측 서브-명령은 인식 대상 목소리 예측 모드를 사용하므로써 상기 현재 대화 목소리로부터 화자의 음성 지문과 일치하는 목소리 데이터를 예측하는 것이고,
    상기 추출 서브-명령은 시간-주파수 영역에서 인식 대상 목소리의 보조 위치를 사용하여 현재 대화 목소리로부터 예측된 목소리 데이터를 추출하는 것이고, 추출된 목소리 데이터를 화자의 음성 지문과 일치하는 목소리 데이터로 간주하는 것인,
    소음을 제거하기 위한 장치.
  11. 제7 항 내지 제 10항 중 어느 한 항에 있어서,
    상기 장치를 포함하는,
    모바일 단말.
KR20157001736A 2012-06-28 2013-06-27 소음을 제거하기 위한 방법, 장치 및 모바일 단말 KR20150032562A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201210217760.9A CN103514876A (zh) 2012-06-28 2012-06-28 噪音消除方法和装置、以及移动终端
CN201210217760.9 2012-06-28
PCT/CN2013/078130 WO2014000658A1 (zh) 2012-06-28 2013-06-27 消除噪音的方法和装置、以及移动终端

Publications (1)

Publication Number Publication Date
KR20150032562A true KR20150032562A (ko) 2015-03-26

Family

ID=49782256

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20157001736A KR20150032562A (ko) 2012-06-28 2013-06-27 소음을 제거하기 위한 방법, 장치 및 모바일 단말

Country Status (4)

Country Link
US (1) US20150325252A1 (ko)
KR (1) KR20150032562A (ko)
CN (1) CN103514876A (ko)
WO (1) WO2014000658A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103871417A (zh) * 2014-03-25 2014-06-18 北京工业大学 一种移动手机特定连续语音过滤方法及过滤装置
CN104599675A (zh) * 2015-02-09 2015-05-06 宇龙计算机通信科技(深圳)有限公司 语音处理方法、语音处理装置和终端
CN104601825A (zh) * 2015-02-16 2015-05-06 联想(北京)有限公司 一种控制方法及装置
CN107094196A (zh) * 2017-04-21 2017-08-25 维沃移动通信有限公司 一种通话消噪的方法及移动终端
CN107172256B (zh) * 2017-07-27 2020-05-05 Oppo广东移动通信有限公司 耳机通话自适应调整方法、装置、移动终端及存储介质
CN111696565B (zh) * 2020-06-05 2023-10-10 北京搜狗科技发展有限公司 语音处理方法、装置和介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100587260B1 (ko) * 1998-11-13 2006-09-22 엘지전자 주식회사 음향 기기의 음성인식장치
US20070219801A1 (en) * 2006-03-14 2007-09-20 Prabha Sundaram System, method and computer program product for updating a biometric model based on changes in a biometric feature of a user
JP2009020291A (ja) * 2007-07-11 2009-01-29 Yamaha Corp 音声処理装置および通信端末装置
CN101321387A (zh) * 2008-07-10 2008-12-10 中国移动通信集团广东有限公司 基于通信系统的声纹识别方法及系统
WO2010027847A1 (en) * 2008-08-26 2010-03-11 Dolby Laboratories Licensing Corporation Robust media fingerprints
CN101847409B (zh) * 2010-03-25 2012-01-25 北京邮电大学 一种基于数字指纹的语音完整性保护方法
CN102694891A (zh) * 2011-03-21 2012-09-26 鸿富锦精密工业(深圳)有限公司 通话噪音去除系统及方法

Also Published As

Publication number Publication date
CN103514876A (zh) 2014-01-15
WO2014000658A1 (zh) 2014-01-03
US20150325252A1 (en) 2015-11-12

Similar Documents

Publication Publication Date Title
US9536540B2 (en) Speech signal separation and synthesis based on auditory scene analysis and speech modeling
US8983844B1 (en) Transmission of noise parameters for improving automatic speech recognition
US8032364B1 (en) Distortion measurement for noise suppression system
KR101610151B1 (ko) 개인음향모델을 이용한 음성 인식장치 및 방법
KR20150032562A (ko) 소음을 제거하기 위한 방법, 장치 및 모바일 단말
CN112424863B (zh) 语音感知音频系统及方法
WO2015184893A1 (zh) 移动终端通话语音降噪方法及装置
CN107240405B (zh) 一种音箱及告警方法
WO2016176329A1 (en) Impulsive noise suppression
JP6545419B2 (ja) 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置
US20140278417A1 (en) Speaker-identification-assisted speech processing systems and methods
US9378755B2 (en) Detecting a user's voice activity using dynamic probabilistic models of speech features
US20230335101A1 (en) Active noise cancellation method, device, and system
CN106165015B (zh) 用于促进基于加水印的回声管理的装置和方法
US20120158401A1 (en) Music detection using spectral peak analysis
KR20150119151A (ko) 개인화된 대역폭 확장
JPWO2018167960A1 (ja) 会話装置、音声処理システム、音声処理方法、および音声処理プログラム
US11164591B2 (en) Speech enhancement method and apparatus
JP5639273B2 (ja) ピッチサイクルエネルギーを判断し、励起信号をスケーリングすること
CN112133324A (zh) 通话状态检测方法、装置、计算机系统和介质
KR20140077773A (ko) 사용자 위치정보를 활용한 음성 인식 장치 및 방법
GB2516208B (en) Noise reduction in voice communications
CN114302286A (zh) 一种通话语音降噪方法、装置、设备及存储介质
CN104078049B (zh) 信号处理设备和信号处理方法
JP2010010856A (ja) ノイズキャンセル装置、ノイズキャンセル方法、ノイズキャンセルプログラム、ノイズキャンセルシステム、及び、基地局

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E601 Decision to refuse application