KR20090035728A - 음성 믹싱 방법 및 그 방법을 이용하는 다지점 회의 서버와 컴퓨터 판독가능 기록 매체 - Google Patents

음성 믹싱 방법 및 그 방법을 이용하는 다지점 회의 서버와 컴퓨터 판독가능 기록 매체 Download PDF

Info

Publication number
KR20090035728A
KR20090035728A KR1020097004325A KR20097004325A KR20090035728A KR 20090035728 A KR20090035728 A KR 20090035728A KR 1020097004325 A KR1020097004325 A KR 1020097004325A KR 20097004325 A KR20097004325 A KR 20097004325A KR 20090035728 A KR20090035728 A KR 20090035728A
Authority
KR
South Korea
Prior art keywords
voice
information
speech
signal
encoding
Prior art date
Application number
KR1020097004325A
Other languages
English (en)
Other versions
KR101036965B1 (ko
Inventor
히로노리 이또
가즈노리 오자와
Original Assignee
닛본 덴끼 가부시끼가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 닛본 덴끼 가부시끼가이샤 filed Critical 닛본 덴끼 가부시끼가이샤
Publication of KR20090035728A publication Critical patent/KR20090035728A/ko
Application granted granted Critical
Publication of KR101036965B1 publication Critical patent/KR101036965B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques

Abstract

화자의 절환 시에 맞추어 부호화기를 절환할 때, 복호 음성에 이음이 발생하는 것을 방지하는 음성 믹싱 방법을 제공한다. 음성 믹싱 방법은, 복수의 음성 정보로부터 음성 정보를 선택하는 제1 스텝, 선택한 음성 정보를 모두 가산하는 제2 스텝, 선택한 음성 신호 중 하나의 음성 신호 이외의 음성 신호를 가산한 음성 신호를 얻는 제3 스텝, 제2 스텝에 의해 얻어진 음성 정보를 부호화하는 제4 스텝, 제3 스텝에 의해 얻어진 음성 신호를 부호화하는 제5 스텝, 제4 스텝에 의해 얻어진 부호화 정보를 제5 스텝에서의 부호화 정보에 카피하는 제6 스텝을 포함한다.
Figure P1020097004325
파워 계산부, 화자 선택부, 음성 부호화부, 공통 음성 부호화부, 메모리 절환부

Description

음성 믹싱 방법 및 그 방법을 이용하는 다지점 회의 서버와 프로그램{VOICE MIXING METHOD, MULTIPOINT CONFERENCE SERVER USING THE METHOD, AND PROGRAM}
본 발명은, 음성 믹싱 방법 및 그 방법을 이용하는 다지점 회의 서버와 프로그램에 관한 것으로, 특히 전체 참가자의 음성을 믹싱하고, 믹싱한 음성으로부터 1참가자의 음성을 감산하여 그 1참가자에게 송신하는 음성 믹싱 방법 및 그 방법을 이용하는 다지점 회의 서버와 프로그램에 관한 것이다.
다지점 회의 서비스에서는, 음성 부호화기에 의해 부호화된 각 참가자의 음성 데이터가 다지점 회의 서버에 송신된다. 다지점 회의 서버는, 각 참가자에게, 해당 참가자 이외의 참가자의 모든 음성을 믹싱한 음성 데이터를 송신한다.
음성 데이터를 믹싱할 때, 우선, 각 참가자의 음성 데이터를 복호하여 얻은 복호 음성 신호를 모두 가산함으로써 전체 참가자의 음성 신호를 산출한다. 다음으로, 각 참가자에 대해, 전체 참가자의 음성 신호로부터 자신의 음성을 감산한 음성 신호를 산출하고, 그 음성 신호를 부호화하여 생성한 음성 데이터를 송신한다.
다지점 회의 서비스에서의 단말기와 서버간의 통신 프로토콜로서, 일례로서 회선 교환망에서는 ITU-T H.323, H.324가 이용되고, 모바일망에서는 3G-324M이 이용되고, IP(Internet Protocol)에 기초하는 패킷망에서는, IETF RFC3550 RTP(Real- time Transport Protocol)가 이용된다.
또한, 음성 부호화기로서는, ITU-T 권고인 G.711이나 G.729, 3GPP TS26.090에서 규정되어 있는 AMR(Adaptive Multi-Rate) 방식, TS26.190에서 규정되어 있는 AMR-WB(Wide Band) 방식이나, 3GPP2에서 규정되어 있는 EVRC(Enhanced Variable Rate Codec) 방식 등이 이용된다.
G.711 방식에서는, 8㎑에서 샘플링된 음성 신호에서의 16비트의 각 샘플을 대수 변환을 이용하여 8비트로 압축하는 방식이며, 연산량은 적지만 압축률은 낮다.
한편, G.729 방식, AMR 방식, EVRC 방식은, CELP(Code Excited Linear Prediction) 원리에 의한 예측 부호화 방식에 기초하고 있고, 음성 신호를 보다 고능률로 부호화하는 것이 가능하다.
CELP에서는, 부호화기에서, 프레임마다(예를 들면 20㎳) 음성 신호로부터 선형 예측(LPC : Linear Predictive Coding) 분석을 이용하여, 음성 신호의 스펙트럼 특성을 나타내는 스펙트럼 파라미터를 추출한다.
또한 프레임 분할한 음성 신호를 서브 프레임(예를 들면 5㎳)으로 분할하고, 서브 프레임마다 과거의 음원 신호에 기초하여 적응 코드북에서의 파라미터(피치 주기에 대응하는 지연 파라미터와 게인 파라미터)를 추출하고, 적응 코드북에 의해 해당하는 서브 프레임의 음성 신호를 피치 예측한다. 피치 예측에 의해 구한 잔차 신호에 대해, 미리 구해진 종류의 잡음 신호로 이루어지는 음원 코드북(벡터 양자화 코드북)으로부터 최적의 음원 코드 벡터를 선택하고, 최적의 게인을 계산함으로 써, 음원 신호를 양자화한다.
음원 코드 벡터의 선택의 방법은, 선택한 잡음 신호에 의해 합성한 신호와, 전술한 잔차 신호의 오차 전력을 최소화하도록 행한다. 그리고, 선택된 코드 벡터의 종류를 나타내는 인덱스, 게인, 스펙트럼 파라미터 및 적응 코드북의 파라미터를 조합한 것을 음성 데이터로서 전송한다.
복호기측에서는, 음성 데이터로부터 얻어지는 파라미터로부터 음원 신호와 선형 예측 분석에서의 합성 필터 계수를 산출하고, 음원 신호를 합성 필터로 구동함으로써, 복호 음성 신호를 얻을 수 있다.
한편, 모든 샘플에 대해 비교 선택 처리를 행하지 않고, 복수 샘플에 1회의 대소 관계의 비교 선택 처리의 결과에 기초하여, 그 선택된 음성 데이터의 샘플에 계속되는 복수 샘플을 선택 처리하는 음성 믹싱 방법이 개시되어 있다(특허 문헌 1 참조).
또한, 믹싱부에서 일단 총합 신호를 생성하고, 그 총합 신호로부터 각각, 자기의 음성 정보(자기가 송출한 음성 정보)를 감산하고, 자기 이외의 음성 정보가 자기에게 반송되도록 구성한 음성 믹싱 방법이 개시되어 있다(특허 문헌 2 참조).
또한, 음성 합성부가 각 이종 부호화ㆍ복호화부에 의해 선형의 데이터로 변환된 음성 데이터를 각각 가산하고, 그 후 가산된 음성 데이터로부터 자신의 음성을 뺀 음성 데이터를 생성하고, 그것을 대응하는 이종 부호화ㆍ복호화부의 각각에 전달하는 통신 제어 장치가 개시되어 있다(특허 문헌 3 참조).
특허 문헌 1 : 일본 특허 공개 제2005-151044호 공보(단락 0014, 0016 및 0045)
특허 문헌 2 : 일본 특허 공개 제2005-229259호 공보(단락 0003 및 도 1)
특허 문헌 3 : 일본 특허 공개 평6-350724호 공보(단락 0020 및 도 2)
관련 기술에서의 다지점 회의 시스템에서는, 각 참가자에게, 그 참가자 이외의 참가자의 음성을 모두 믹싱한 음성을 부호화하여 송신한다. 이 때, 참가자의 증가에 수반하여 음성 부호화에 의한 연산량이 증대하기 때문에, 발성하고 있는 화자를 검출하여, 믹싱하는 음성의 수를 한정하고, 동작시키는 음성 부호화기의 수를 삭감하는 방법이 이용된다.
여기서, CELP 방식 등과 같은 예측 부호화를 행하는 음성 부호화기를 이용하는 경우, 화자의 절환 시에 맞추어 부호화기를 절환할 때, 부호화기의 상태를 나타내는 메모리에 부정합이 생기기 때문에, 복호 음성에 이음(異音)이 발생한다고 하는 과제가 있다.
한편, 상기 특허 문헌 1∼3에 이 과제를 해결하는 수단은 개시되어 있지 않다.
본 발명의 목적은, 화자의 절환 시에 맞추어 부호화기를 절환할 때, 복호 음성에 이음이 발생하는 것을 방지하는 것이 가능한 음성 믹싱 방법 및 그 방법을 이용하는 다지점 회의 서버와 프로그램을 제공하는 데에 있다.
<발명의 개시>
본 발명의 제1 음성 믹싱 방법은, 복수의 음성 정보를 믹싱하는 음성 믹싱 방법으로서, 복수의 음성 정보로부터 음성 정보를 선택하는 제1 스텝과, 선택한 음 성 정보를 모두 가산하는 제2 스텝과, 선택한 음성 신호 중 하나의 음성 신호 이외의 음성 신호를 가산한 음성 신호를 얻는 제3 스텝과, 제2 스텝에 의해 얻어진 음성 정보를 부호화하는 제4 스텝과, 제3 스텝에 의해 얻어진 음성 신호를 부호화하는 제5 스텝과, 제4 스텝에 의해 얻어진 부호화 정보를 제5 스텝에서의 부호화 정보에 카피하는 제6 스텝을 포함한다.
본 발명의 제2 복수의 음성 정보를 믹싱하는 다지점 회의 서버는, 복수의 음성 정보로부터 음성 정보를 선택하는 선택 수단과, 선택 수단에 의해 선택한 음성 정보를 모두 가산하는 전체 신호 가산 수단과, 선택한 음성 신호 중 하나의 음성 신호 이외의 음성 신호를 가산한 음성 신호를 얻는 가산 수단과, 전체 신호 가산 수단에 의해 가산한 음성 정보를 부호화하는 제1 부호화 수단과, 가산 수단에 의해 얻은 음성 정보를 부호화하는 제2 부호화 수단과, 제1 부호화 수단에 의해 얻어진 부호화 정보를 제2 부호화 수단에 카피하는 절환 수단을 포함한다.
본 발명의 제3 복수의 음성 정보를 믹싱하는 음성 믹싱을 실행하는 프로그램은, 컴퓨터에, 복수의 음성 정보로부터 음성 정보를 선택하는 제1 스텝과, 선택한 음성 정보를 모두 가산하는 제2 스텝과, 선택한 음성 신호 중 하나의 음성 신호 이외의 음성 신호를 가산한 음성 신호를 얻는 제3 스텝과, 제2 스텝에 의해 얻어진 가산한 음성 정보를 부호화하는 제4 스텝과, 제3 스텝에 의해 얻어진 음성 신호를 부호화하는 제5 스텝과, 제4 스텝에 의해 얻어진 부호화 정보를 제5 스텝에서의 부호화 정보에 카피하는 제6 스텝을 실행시킨다.
<발명의 효과>
본 발명에 따르면, 부호화에서의 메모리 내용에 부정합이 생기지 않으므로, 화자의 절환 시에 맞추어 부호화기를 절환할 때, 복호 음성에 이음이 발생하는 것을 방지하는 것이 가능하게 된다.
도 1은 본 발명의 제1 실시예에 의한 다지점 회의 서버의 구성을 도시하는 블록도.
도 2는 본 발명의 제1 실시예에 의한 다지점 회의 서버의 동작 수순을 나타내는 플로우차트.
도 3은 본 발명의 제1 실시예에 의한 다지점 회의 서버의 구성을 도시하는 블록도.
<발명을 실시하기 위한 최량의 형태>
이하, 본 발명의 실시예에 대해서 첨부 도면을 참조하면서 설명한다.
<제1 실시예>
도 1은 본 발명의 제1 실시예에 의한 다지점 회의 서버의 구성도이다. 본 발명의 제1 실시예에 의한 다지점 회의 서버는, 음성 입력 단자(또는 입력 음성 신호)(100, 110, …, 190)와, 파워 계산부(101, 111, …, 191)와, 화자 선택부(200)와, 음성 신호 입력 절환기(102, 112, …, 192)와, 전체 신호 가산기(300)와, 가산기(103, 113, …, 193)와, 음성 부호화부(104, 114, …, 194)와, 메모리 절환기(105, 115, …, 195)와, 공통 음성 부호화부(400)와, 음성 데이터 절환기(106, 116, …, 196)와, 화자앞 음성 출력 단자(또는 화자앞 음성 출력)(107, 117, …, 197)를 포함하여 구성된다.
음성 입력 단자(100, 110, …, 190)의 각각은, 화자 1, 화자 2, …, 화자 M에 대응하고 있다. 파워 계산부(101, 111, …, 191)와, 음성 신호 입력 절환기(102, 112, …, 192)와, 가산기(103, 113, …, 193)와, 음성 부호화부(104, 114, …, 194)와, 메모리 절환기(105, 115, …, 195)와, 음성 데이터 절환기(106, 116, …, 196)와, 화자앞 음성 출력 단자(107, 117, …, 197)에 대해서도 마찬가지이다.
다음으로, 도 1 및 도 2를 참조하여 제1 실시예의 동작에 대해서 설명한다. 도 2는 본 발명의 제1 실시예에 의한 다지점 회의 서버의 동작 수순을 나타내는 플로우차트이다. 이후, 화자 1, 화자 2 및 화자 M에 대한 처리 블록만이 기재되어 있지만, 기재되어 있지 않은 화자에 대해서도 처리는 동일하다.
파워 계산부(101), 파워 계산부(111) 및 파워 계산부(191)는, 각각 화자 1, 화자 2 및 화자 M의 입력 음성 신호(100), 입력 음성 신호(110) 및 입력 음성 신호(190)에 대한 파워를 산출하여 출력한다(도 2의 스텝 S1).
화자 선택부(200)는, 계산된 각각의 화자의 파워를 이용하여 음성을 발성하고 있는 화자를 선택하고, 선택 결과를 출력한다(도 2의 스텝 S2).
음성 신호 입력 절환기(102), 음성 신호 입력 절환기(112) 및 음성 신호 입력 절환기(192)는 화자 선택부(200)의 선택 결과에 기초하여, 각각의 화자의 입력 음성 신호를 출력할지의 여부의 절환을 행한다(도 2의 스텝 S3).
전체 신호 가산기(300)는 화자 선택부(200)에서 선택된 화자에 대한 음성을 모두 가산한 음성 신호를 출력한다(도 2의 스텝 S4).
가산기(103), 가산기(113) 및 가산기(193)는, 전체 신호 가산기(300)로부터 출력된 음성 신호로부터 선택된 화자 자신의 음성 신호를 감산한 음성 신호를 출력한다(도 2의 스텝 S5).
즉, 전체 신호 가산기(300)로부터 출력된 음성 신호로부터, 선택된 화자 중, 각 음성 부호화기(104, 114, 194)에 각각 대응하는 화자의 음성 정보를 감산하여 음성 정보를 출력한다.
공통 음성 부호화부(400)는, 전체 신호 가산기(300)로부터 출력된 음성 신호를 부호화한다(도 2의 스텝 S6).
음성 부호화부(104), 음성 부호화부(114), 음성 부호화부(194)는 가산기(103), 가산기(113) 및 가산기(193)로부터 출력된 음성 신호를 부호화한다(도 2의 스텝 S7).
메모리 절환기(105), 메모리 절환기(115), 메모리 절환기(195)는 화자 선택부(200)의 선택 결과에 기초하여, 공통 음성 부호화부(400)의 예측 부호화에서의 메모리의 내용을 각각 음성 부호화부(104), 음성 부호화부(114), 음성 부호화부(194)에 카피한다(도 2의 스텝 S8).
즉, 공통 음성 부호화부(400)의 메모리에 저장되어 있는 예측 부호화의 결과인 부호화 정보를 음성 부호화부(104), 음성 부호화부(114), 음성 부호화부(194)의 메모리에 각각 카피한다. 이에 의해, 음성 부호화부(104), 음성 부호화부(114), 음성 부호화부(194)의 메모리 상태를, 공통 음성 부호화부(400)의 메모리의 상태와 동일하게 한다.
음성 데이터 절환기(106), 음성 데이터 절환기(116), 음성 데이터 절환기(196)는 화자 선택부(200)의 선택 결과에 기초하여, 출력하는 음성 데이터의 절환을 행한다(도 2의 스텝 S9).
즉, 일례로서, 화자 1이 선택되고, 화자 2와 화자 M이 선택되지 않았다고 하면, 화자 1의 음성 입력 신호 절환기(102)는 온, 화자 2의 음성 입력 신호 절환기(112) 및 화자 M의 음성 입력 신호 절환기(192)는 오프로 되고, 화자 1의 메모리 절환기(105)는 온, 화자 2 및 화자 M의 메모리 절환기(195)는 오프로 되고, 화자 1의 음성 데이터 절환기(106)는 화자 1측, 화자 2의 음성 데이터 절환기(116) 및 화자 M의 음성 데이터 절환기(196)는 공통 음성 부호화부(400)측으로 된다.
그리고, 화자 1의 음성 신호는 음성 신호 입력 절환기(102)를 통하여 전체 신호 가산기(300)에 의해 가산되고, 공통 음성 부호화부(400)에 입력된다.
또한, 전체 신호 가산기(300)에 의해 가산된 화자 1의 음성 신호로부터 화자 1의 음성 신호가 가산기(103)에 의해 감산되고, 그 결과 신호가 음성 부호화부(104)에 입력된다. 그리고, 음성 부호화부(104)의 출력 신호는 음성 데이터 절환기(106)를 통하여 화자 1에 송신된다.
한편, 선택되지 않았던 화자 2 및 화자 M에 대해서는, 공통 음성 부호화부(400)에 입력된 음성 신호가 음성 데이터 절환기(116 및 196)를 통하여 송신된다.
본 발명의 제1 실시예의 특징은, 일례로서 화자 1이 선택되지 않는 경우로부터 선택된 경우로 이행한 순간에, 공통 음성 부호화부(400)에 보존된 정보를 메모 리 절환기(105)를 통하여 음성 부호화부(104)에 카피하거나 혹은 화자 2가 선택되지 않는 경우로부터 선택된 경우로 이행한 순간에, 공통 음성 부호화부(400)에 보존된 정보를 메모리 절환기(115)를 통하여 음성 부호화부(114)에 카피하는 데에 있다.
이에 의해, 화자의 절환 시에 맞추어 음성 부호화부를 절환할 때, 음성 부호화부의 상태를 나타내는 메모리에 부정합이 생기는 것에 기인하여 복호 음성에 이음이 발생하는 것을 방지하는 것이 가능하게 된다.
또한, 제1 실시예에서는 가산기(103), 가산기(113) 및 가산기(193)가, 전체 신호 가산기(300)로부터 출력된 음성 신호로부터 선택된 화자 자신의 음성 신호를 감산한 음성 신호를 출력하는 구성으로 하였지만, 선택된 음성 신호 중 선택된 한사람의 화자 이외의 음성 신호를 가산하여 출력하는 구성으로 하여도 동일한 결과가 얻어진다.
<구체예>
이하, 전술한 실시예의 구체적인 예에 대해서, 도 1을 참조하면서 설명한다. 우선, 파워 계산부(101), 파워 계산부(112) 및 파워 계산부(192)는 입력된 입력 음성 신호(100), 입력 음성 신호(110) 및 입력 음성 신호(190) 각각의 음성 신호의 파워를 계산하고, 계산한 파워를 화자 선택부(200)에 출력한다.
예를 들면, 8㎑ 샘플링의 입력 음성 신호 s(n)에 대해, 20밀리초(160 샘플)마다, 이하의 수학식 1을 이용하여 파워 P를 계산한다.
Figure 112009012461748-PCT00001
여기서, 일례로서, L=160이다.
화자 선택부(200)는 입력된 각각의 화자의 파워를 이용하여, 발성하고 있는 화자를 선택하고, 선택하였는지의 여부를 각각 음성 신호 입력 절환기(102), 음성 신호 입력 절환기(112), 음성 신호 입력 절환기(192), 메모리 절환기(105), 메모리 절환기(115), 메모리 절환기(195), 음성 데이터 절환기(106), 음성 데이터 절환기(116) 및 음성 데이터 절환기(196)에 출력한다.
여기서, 발성하고 있는 화자의 선택 방법으로서, 파워가 큰 순서대로 미리 정한 상위 N인(N < M 또한 N, M은 플러스의 정수)의 화자를 선택하는 방법이나, 미리 정한 임계값을 초과하는 파워의 화자를 선택하는 방법이 있다. 또한, 입력된 파워를 그대로 이용하는 것이 아니라, 리크 적분 등에 의해 평활화한 값을 이용하는 방법도 생각된다.
리크 적분은 입력을 x(n), 출력을 y(n)으로 하면,
y(n)=k×y(n-1)+x(n)으로 표현된다. 여기에, 0 < k < 1이며, k는 상수이다.
음성 신호 입력 절환기(102), 음성 신호 입력 절환기(112) 및 음성 신호 입력 절환기(192)는, 화자 선택부(200)에서 선택된 화자에 대한 입력 음성 신호(100), 입력 음성 신호(110) 및 입력 음성 신호(190)를 각각 대응하는 가산기(103), 가산기(113) 및 가산기(193)에 출력함과 함께, 전체 신호 가산기(300)에 출력한다.
전체 신호 가산기(300)는 입력된 음성 신호를 모두 가산한 음성 신호를 가산기(103), 가산기(113), 가산기(193) 및 공통 음성 부호화부(400)에 출력한다.
가산기(103), 가산기(113) 및 가산기(193)는 화자 선택부(200)에서 선택된 화자에 대해, 전체 신호 가산기(300)로부터 입력된 음성 신호로부터 각각 음성 신호 입력 절환기(102), 음성 신호 입력 절환기(112) 및 음성 신호 입력 절환기(192)로부터 출력된 음성 신호를 감산한 음성 신호를 각각 음성 부호화부(104), 음성 부호화부(114), 음성 부호화부(194)에 출력한다.
믹싱 후의 음성에서, 각 화자의 음량차가 작아지도록 이하의 수학식 2로 나타내는 조정 게인 Gi를 각 화자 i의 입력 음성 신호에 승산하여도 된다.
Figure 112009012461748-PCT00002
여기서, Pi는 수학식 1에 의해 계산한 화자 i에 대한 파워, N은 믹싱한 신호수이다. 이 Gi는 각 화자의 파워에 반비례하도록 계산되지만, 파워 Pi의 계산 주기인, 일례로서 20밀리초마다 갱신하면 변화가 지나치게 크기 때문에, 이하의 수학식 3으로 나타내는 평활화를 더 행하여도 된다.
Figure 112009012461748-PCT00003
여기서, G'i는 앞에 산출된 조정 게인을 나타낸다. α의 값으로서는 예를 들면 0.9를 이용한다. 또한, 극단적으로 음량을 조정하는 것을 피하기 위해, 예를 들면 Gi가 취득할 수 있는 범위를 0.5∼2 정도로 제한하여도 된다.
또한, 믹싱 후의 음성 신호의 음량을 조정하기 위해, 이하의 수학식 4로 나타내는 조정 게인 Ga를 믹싱 후의 음성 신호에 승산하여도 된다.
Figure 112009012461748-PCT00004
여기서, Pa는 수학식 1에 의해 계산한 믹싱 후의 음성 신호의 파워이며, Pout는 조정 시의 목표값으로 하는 파워이며, 믹싱한 화자의 음성 신호 중에서 가장 큰 화자의 값을 이용하거나, 미리 정한 소정 레벨의 값을 이용할 수도 있다. 또한, 전술한 Gi와 마찬가지의 평활화 및 취득할 수 있는 값의 제한을 행하여도 된다.
공통 음성 부호화부(400)는, 전체 신호 가산기(300)로부터 입력된 음성 신호를 부호화하고, 부호화한 음성 데이터를 음성 데이터 절환기(106), 음성 데이터 절환기(116), 음성 데이터 절환기(196)에 출력한다.
음성 부호화부(104), 음성 부호화부(114), 음성 부호화부(194)는 가산기(103), 가산기(113) 및 가산기(193)로부터 음성 신호가 입력된 경우, 그 음성 신호를 부호화하고, 부호화한 음성 데이터를 음성 데이터 절환기(106), 음성 데이터 절환기(116), 음성 데이터 절환(196)에 출력한다.
메모리 절환기(105), 메모리 절환기(115), 메모리 절환기(195)는 화자 선택부(200)에서 발성한 화자로서 선택되지 않은 상태로부터 선택된 상태로 천이한 경우에, 공통 음성 부호화부(400)의 예측 부호화에서의 메모리를 각각 음성 부호화부(104), 음성 부호화부(114), 음성 부호화부(194)에 출력한다.
이 메모리 절환기의 처리에 의해, 예를 들면 화자 1에서, 출력 음성 데이터가 공통 음성 부호화부(400)로부터의 출력으로부터 음성 부호화부(104)로부터의 출력으로 절환 시에 예측 부호화에서의 메모리에 부정합이 생기는 일은 없다.
반대로, 출력 음성 데이터가 음성 부호화부(104)로부터의 출력으로부터 공통 음성 부호화부(400)로부터의 출력으로 절환 시, 공통 음성 부호화부(400)의 메모리를 재기입할 수는 없으므로, 메모리의 부정합이 생긴다.
단, 이 경우에는, 화자 1의 음량이 작아질 때이며, 음성 부호화부(104)의 입력 음성과 공통 음성 부호화부(400)에의 입력 음성이 거의 동일하게 되기 때문에, 양자의 메모리의 부정합에 의한 음질 열화는 적다. 이 경우에, 메모리의 부정합을 보다 작게 하기 위해서는, 공통 음성 부호화부(400)에의 입력 음성 신호와 동일한 음성 신호를 음성 부호화부(104)에 입력하여 잠시 동작시킨 후, 음성 데이터 절환기(1)를 공통 음성 부호화부(400)로부터 출력되는 음성 데이터로 절환하면 된다. 동일한 입력 음성 신호에서 동작시키는 시간이 길수록, 메모리의 부정합은 작아지지만, 절환에 요하는 지연이 생긴다.
음성 데이터 절환기(106), 음성 데이터 절환기(116), 음성 데이터 절환기(196)는 화자 선택부(200)에서 발성한 화자로서 선택된 경우, 음성 부호화 부(104), 음성 부호화부(114), 음성 부호화부(194)로부터 입력된 음성 데이터를 출력하고, 화자 선택부(200)에서 발성한 화자로서 선택되지 않았던 경우, 공통 음성 부호화부(400)로부터 입력된 음성 데이터를 출력한다.
본 실시예에서는, 음성 부호화기가 모두 동일한 경우를 상정하고 있지만, 복수의 종류의 음성 부호화기, 또는 비트 레이트를 혼재시키는 것도 가능하다. 이 경우, 공통 부호화부는 부호화기의 종류, 또는 비트 레이트의 종류의 수만큼 필요하다. 또한, 메모리의 절환은 동일한 종류의 부호화기, 또는 비트 레이트에 대해 행할 필요가 있다.
이상 설명한 바와 같이, 본 발명의 구체예에 따르면, 예를 들면 화자 1에서, 출력 음성 데이터가 공통 음성 부호화부(400)로부터의 출력으로부터 음성 부호화부(104)로부터의 출력으로 절환 시에 예측 부호화에서의 메모리에 부정합이 생기지 않는다고 하는 효과를 발휘한다.
<제2 실시예>
다음으로, 도 3을 참조하여 본 발명의 제2 실시예에 대해서 설명한다. 도 3은 본 발명의 제2 실시예에 의한 다지점 회의 서버의 구성도이다. 또한, 도 1과 마찬가지의 구성 부분에는 동일 번호를 붙이고, 그 설명을 생략한다.
음성 복호부(501), 음성 복호부(511), 음성 복호부(591)는, 각각 부호화된 입력 음성 데이터(500), 입력 음성 데이터(510) 및 입력 음성 데이터(590)를 복호하고, 복호 음성을 각각 파워 계산부(101), 파워 계산부(102), 파워 계산부(192), 및 음성 신호 입력 절환기(102), 음성 신호 입력 절환기(112) 및 음성 신호 입력 절환기(192)에 출력한다.
음성 데이터 해석부(502), 음성 데이터 해석부(512), 음성 데이터 해석부(592)는 입력 음성 데이터(500), 입력 음성 데이터(510) 및 입력 음성 데이터(590)가 유음인지 무음인지를 해석한 결과를 출력한다.
이 해석 방법으로서, AMR 음성 부호화 방식의 예로 설명한다. AMR 음성 부호화 방식에서는, 입력 음성에 대해 VAD(Voice Activity Detection)를 행하여 유음인지 무음인지를 판별하고, 무음이라고 판별한 경우에는, 프레임 타입이 NO_DATA인 정보를 전송하거나 혹은 SID(Silence Indication)로서 배경 잡음의 정보를 송신하는 것이 가능하다.
따라서, 음성 데이터의 선두에 있는 프레임 타입이 NO_DATA 또는 SID이면, 무음이라고 판별할 수 있다. 또한, VAD를 행하지 않고 모두 유음의 음성 데이터로서 부호화된 경우에는, 음성 데이터에 포함되는 게인 파라미터나 스펙트럼 파라미터에 기초하여 추정한 음량을 화자 선택부(201)에 출력하는 방법도 생각된다.
파워 계산부(101), 파워 계산부(111) 및 파워 계산부(191)는, 각각 음성 복호부(501), 음성 복호부(511), 음성 복호부(591)로부터 입력된 복호 신호의 파워를 계산하고, 그 값을 화자 선택부(201)에 입력한다.
화자 선택부(201)는 음성 데이터 해석부(502), 음성 데이터 해석부(512), 음성 데이터 해석부(592)의 해석 결과 및 파워 계산부(101), 파워 계산부(111) 및 파워 계산부(192)로부터 입력된 파워에 기초하여, 음성을 발성하고 있는 화자를 선택하고, 선택 결과를 출력한다.
구체적으로는, 음성 데이터 해석부(502), 음성 데이터 해석부(512), 음성 데이터 해석부(592)로부터 입력된 해석 결과가, 유음 또는 추정된 음량이 일정 임계값 이상의 값인 경우에, 파워 계산부(101), 파워 계산부(111) 및 파워 계산부(191)로부터 입력된 파워가 큰 순서대로 미리 정한 상위 N인(N < M)의 화자를 선택하는 방법이나, 미리 정한 임계값을 초과하는 파워의 화자를 선택하는 방법이 있다.
이상 설명한 바와 같이, 본 발명의 제2 실시예에 따르면, 화자 선택의 기준에 유음 및 무음의 판별을 부가함으로써, 제1 실시예의 경우보다도 양호한 선택 결과를 얻는 것이 가능하게 된다.
<제3 실시예>
제3 실시예는 음성 믹싱 방법을 컴퓨터에 실행시키기 위한 프로그램에 관한 것이다. 도 1을 참조하면, 다지점 회의 서버에 포함되는 파워 계산부(101, 111, …, 191)와, 화자 선택부(200)와, 음성 신호 입력 절환기(102, 112, …, 192)와, 전체 신호 가산기(300)와, 가산기(103, 113, …, 193)와, 음성 부호화부(104, 114, …, 194)와, 메모리 절환기(105, 115, …, 195)와, 공통 음성 부호화부(400)와, 음성 데이터 절환기(106, 116, …, 196)는, 도시하지 않은 제어부에 의해 제어된다.
또한, 다지점 회의 서버는 도시하지 않은 기억부를 더 포함하고 있고, 그 기억부에는 도 2에 플로우차트로 나타내는 음성 믹싱 방법의 처리 수순의 프로그램이 저장되어 있다.
제어부(혹은, 컴퓨터)는 기억부로부터 상기 프로그램을 읽어내어, 그 프로그램에 따라서 상기 각 구성 부분을 제어한다. 그 제어 내용에 대해서는 이미 설명 하였으므로 여기서의 설명은 생략한다.
이상 설명한 바와 같이, 본 발명의 제3 실시예에 따르면, 예를 들면 화자 1에서, 출력 음성 데이터가 공통 음성 부호화부(400)로부터의 출력으로부터 음성 부호화부(104)로부터의 출력으로 절환 시에 예측 부호화에서의 메모리에 부정합을 발생시키지 않기 위한 프로그램이 얻어진다.
또한, 그 밖의 실시예로서 이하에 기재하는 것이 있다.
휴대 전화 등에서는 대역이 좁기 때문에, 예측 부호화 기술을 이용하여 고효율로 음성을 압축할 필요가 있다. 한편, 휴대 전화를 이용하여 다지점 회의 시스템을 구성하는 경우, 각 휴대 전화의 프로세서의 능력은 한정되어 있기 때문에, 각 휴대 전화에서 믹싱을 행하는 것은 현실적이지 않고, 각 휴대 전화와는 별도로 다지점 회의 서버가 필요하다. 본 발명의 실시예는 이와 같은 경우에도 유용하다.
또한, 다지점 회의 시스템으로서 이하와 같은 패턴이 생각된다. 첫째로, 복수의 회의실에 1인씩 존재하는 패턴이다. 둘째로, 복수의 회의실에 복수인씩(또한, 각 회의실에 마이크, 스피커의 페어가 복수 페어씩 존재하는 패턴과, 각 회의실에 마이크, 스피커의 페어가 1페어씩 존재하는 패턴의 2개가 있음) 존재하는 패턴이다. 본 발명의 실시예는 이와 같은 경우에도 유용하다.
본 발명의 실시예에 따르면, 부호화에서의 메모리 내용에 부정합이 생기지 않으므로, 화자의 절환 시에 맞추어 부호화기를 절환할 때, 복호 음성에 이음이 발생하는 것을 방지하는 것이 가능하게 된다.
이상, 실시 형태를 참조하여 본 발명을 설명하였지만, 본 발명은, 상기 실시 형태의 구성이나 동작에 한정되는 것은 아니다. 본 발명의 구성이나 상세에는, 본 발명의 스코프 내에서 당업자가 이해할 수 있는 다양한 변경을 할 수 있다.
이 출원은, 2006년 8월 30일에 출원된 일본 특허 출원 제2006-232919호를 기초로 하는 우선권을 주장하고, 그 개시된 모두를 여기에 인용한다.

Claims (20)

  1. 복수의 음성 정보를 믹싱하는 음성 믹싱 방법으로서,
    복수의 음성 정보로부터 음성 정보를 선택하는 제1 스텝과,
    선택한 음성 정보를 모두 가산하는 제2 스텝과,
    상기 선택한 음성 정보 중 하나의 음성 정보 이외의 음성 정보를 가산한 음성 정보를 얻는 제3 스텝과,
    제2 스텝에 의해 얻어진 음성 정보를 부호화하는 제4 스텝과,
    제3 스텝에 의해 얻어진 음성 정보를 부호화하는 제5 스텝과,
    상기 제4 스텝에 의해 얻어진 부호화 정보를 상기 제5 스텝에서의 부호화 정보에 카피하는 제6 스텝
    을 포함하는 것을 특징으로 하는 음성 믹싱 방법.
  2. 제1항에 있어서,
    상기 제6 스텝에서, 상기 제4 스텝에 의한 부호화를 실행하는 부호화부의 메모리에 저장된 부호화 정보를, 상기 제5 스텝에 의한 부호화를 실행하는 부호화부에 카피하는 것을 특징으로 하는 음성 믹싱 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 제1 스텝에서의 선택 결과에 기초하여, 상기 제4 스텝에 의해 얻어진 부호화 정보 또는 상기 제5 스텝에 의해 얻어진 부호화 정보를 절환하여 출력하는 제7 스텝을 포함하는 것을 특징으로 하는 음성 믹싱 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    입력한 부호화된 음성 정보를 복호하고, 그 복호한 음성 정보를 상기 제1 스텝에서의 음성 정보로서 이용하는 것을 특징으로 하는 음성 믹싱 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 제1 스텝에서, 상기 음성 정보의 음성 신호의 파워에 기초하여 음성 정보를 선택하는 것을 특징으로 하는 음성 믹싱 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 제1 스텝에서, 상기 음성 정보의 음성 데이터가 유음인지 무음인지에 기초하여 음성 정보를 선택하는 것을 특징으로 하는 음성 믹싱 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 제3 스텝에서, 상기 선택한 음성 신호 중 하나의 음성 신호 이외의 음성 신호를 가산한 음성 신호를, 상기 가산한 음성 정보로부터 선택한 상기 음성 정보를 1개씩 감산함으로써 얻는 것을 특징으로 하는 음성 믹싱 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 음성 정보가, 음성을 부호화한 부호화 데이터이며,
    상기 제1 스텝이, 입력한 복수의 부호화 데이터를 분석하여, 믹싱 대상으로 하는 부호화 데이터를 선택하고, 선택한 부호화 데이터를 복호하여 복호 음성 신호를 생성하는 스텝을 포함하는 것을 특징으로 하는 음성 믹싱 방법.
  9. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 음성 정보가, 음성을 부호화한 부호화 데이터이며,
    상기 제1 스텝에서, 상기 부호화 데이터와 상기 부호화 데이터를 복호하여 얻은 복호 음성 신호를 분석하여, 믹싱 대상으로 하는 복호 음성 신호를 선택하는 것을 특징으로 하는 음성 믹싱 방법.
  10. 제8항 또는 제9항에 있어서,
    상기 제2 스텝에서, 상기 복호 음성 신호를 모두 가산한 음성 신호를 생성하고,
    상기 제3 스텝에서, 상기 복호 음성 신호 중 하나의 복호 음성 신호 이외의 음성 신호를 가산한 음성 신호를 생성하고,
    상기 제4 스텝에서, 제2 스텝에서 얻은 음성 신호를 제1 부호화부에 의해 예측 부호화하고,
    상기 제5 스텝에서, 제3 스텝에서 생성한 음성 신호를 제2 부호화부에 의해 예측 부호화하고,
    상기 제6 스텝에서, 상기 믹싱 대상으로 하는 복호 음성 신호의 선택 결과가 변경된 경우, 상기 제5 스텝의 제2 부호화부의 상태를 나타내는 메모리 내용을, 상기 제4 스텝의 제1 부호화부의 상태를 나타내는 메모리 내용과 동일하게 하는 것을 특징으로 하는 음성 믹싱 방법.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서,
    각 믹싱 대상의 음성 신호의 음량차가 작아지도록 조정하는 스텝을 포함하는 것을 특징으로 하는 음성 믹싱 방법.
  12. 제1항 내지 제10항 중 어느 한 항에 있어서,
    믹싱한 후의 음성의 음량이, 각 믹싱 대상의 음성 신호에서의 최대 음량의 음성과 동등, 또는 미리 정한 레벨로 되도록 조정하는 스텝을 포함하는 것을 특징으로 하는 음성 믹싱 방법.
  13. 복수의 음성 정보를 믹싱하는 다지점 회의 서버로서,
    상기 복수의 음성 정보로부터 음성 정보를 선택하는 선택 수단과,
    상기 선택 수단에 의해 선택한 음성 정보를 모두 가산하는 전체 신호 가산 수단과,
    상기 선택한 음성 신호 중 하나의 음성 신호 이외의 음성 신호를 가산한 음 성 신호를 얻는 가산 수단과,
    상기 전체 신호 가산 수단에 의해 가산한 음성 정보를 부호화하는 제1 부호화 수단과,
    상기 가산 수단에 의해 가산한 음성 정보를 부호화하는 제2 부호화 수단과,
    상기 제1 부호화 수단에 의해 얻어진 부호화 정보를 상기 제2 부호화 수단에 카피하는 절환 수단
    을 포함하는 것을 특징으로 하는 다지점 회의 서버.
  14. 제13항에 있어서,
    상기 절환 수단은, 상기 선택 수단의 선택 결과에 기초하여, 상기 제1 부호화 수단의 메모리에 저장된 부호화 정보를, 상기 제2 부호화 수단에 카피하는 것을 특징으로 하는 다지점 회의 서버.
  15. 제13항 또는 제14항에 있어서,
    상기 선택 수단에서의 선택 결과에 기초하여, 상기 제1 부호화 수단에 의해 얻어진 부호화 정보 또는 상기 제2 부호화 수단에 의해 얻어진 부호화 정보를 절환하여 출력하는 출력 절환 수단을 포함하는 것을 특징으로 하는 다지점 회의 서버.
  16. 제13항 내지 제15항 중 어느 한 항에 있어서,
    입력한 복수의 부호화된 음성 정보를 복호하는 복합 수단을 포함하고,
    상기 선택 수단은, 상기 복호 수단에 의해 복호된 복수의 음성 정보로부터 음성 정보를 선택하는 것을 특징으로 하는 다지점 회의 서버.
  17. 제13항 내지 제16항 중 어느 한 항에 있어서,
    상기 선택 수단은, 상기 음성 정보의 음성 신호의 파워에 기초하여 음성 정보를 선택하는 것을 특징으로 하는 다지점 회의 서버.
  18. 제13항 내지 제17항 중 어느 한 항에 있어서,
    상기 선택 수단은, 상기 음성 정보의 음성 데이터가 유음인지 무음인지에 기초하여 음성 정보가 선택되는 것을 특징으로 하는 다지점 회의 서버.
  19. 제13항 내지 제18항 중 어느 한 항에 있어서,
    상기 가산 수단은, 상기 전체 신호 가산 수단에 의해 가산한 음성 정보로부터 선택한 상기 음성 정보를 1개씩 감산함으로써, 상기 선택한 음성 신호 중 하나의 음성 신호 이외의 음성 신호를 가산한 음성 신호를 얻는 것을 특징으로 하는 다지점 회의 서버.
  20. 복수의 음성 정보를 믹싱하는 음성 믹싱을 실행하는 프로그램으로서,
    컴퓨터에,
    복수의 음성 정보로부터 음성 정보를 선택하는 제1 스텝과,
    선택한 음성 정보를 모두 가산하는 제2 스텝과,
    상기 가산한 음성 정보로부터 선택한 상기 음성 정보를 1개씩 감산하는 제3 스텝과,
    제2 스텝에 의해 얻어진 음성 정보를 부호화하는 제4 스텝과,
    제3 스텝에 의해 얻어진 음성 정보를 부호화하는 제5 스텝과,
    상기 제4 스텝에 의해 얻어진 부호화 정보를 상기 제5 스텝에서의 부호화 정보에 카피하는 제6 스텝을 실행시키는 것을 특징으로 하는 프로그램.
KR1020097004325A 2006-08-30 2007-08-28 음성 믹싱 방법 및 그 방법을 이용하는 다지점 회의 서버와 컴퓨터 판독가능 기록 매체 KR101036965B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006232919 2006-08-30
JPJP-P-2006-232919 2006-08-30

Publications (2)

Publication Number Publication Date
KR20090035728A true KR20090035728A (ko) 2009-04-10
KR101036965B1 KR101036965B1 (ko) 2011-05-25

Family

ID=39136033

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020097004325A KR101036965B1 (ko) 2006-08-30 2007-08-28 음성 믹싱 방법 및 그 방법을 이용하는 다지점 회의 서버와 컴퓨터 판독가능 기록 매체

Country Status (10)

Country Link
US (1) US8255206B2 (ko)
EP (1) EP2068544A4 (ko)
JP (1) JP4582238B2 (ko)
KR (1) KR101036965B1 (ko)
CN (1) CN101513030A (ko)
BR (1) BRPI0714736A2 (ko)
CA (1) CA2660007A1 (ko)
MX (1) MX2009002093A (ko)
RU (1) RU2009111270A (ko)
WO (1) WO2008026754A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101397266B1 (ko) * 2009-07-13 2014-05-20 퀄컴 인코포레이티드 무선 통신 시스템 내의 그룹 통신 세션 동안 미디어를 선택적으로 믹싱하는 방법 및 장치
KR101477361B1 (ko) * 2009-07-10 2014-12-29 퀄컴 인코포레이티드 무선 통신 시스템에서의 그룹 통신 세션을 위한 미디어 포워딩

Families Citing this family (121)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
JP2010166424A (ja) * 2009-01-16 2010-07-29 Nec Corp 多地点会議システム、サーバ装置、音声ミキシング装置、及び多地点会議サービス提供方法
JP2010166425A (ja) * 2009-01-16 2010-07-29 Nec Corp 多地点会議システム、サーバ装置、音声ミキシング装置、及び多地点会議サービス提供方法
CN102016982B (zh) * 2009-02-04 2014-08-27 松下电器产业株式会社 结合装置、远程通信系统以及结合方法
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8873774B2 (en) * 2010-07-30 2014-10-28 Hewlett-Packard Development Company, L.P. Audio mixer
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8924206B2 (en) * 2011-11-04 2014-12-30 Htc Corporation Electrical apparatus and voice signals receiving method thereof
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR102579086B1 (ko) 2013-02-07 2023-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
CN103327014B (zh) * 2013-06-06 2015-08-19 腾讯科技(深圳)有限公司 一种语音处理方法、装置及系统
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US20150092615A1 (en) * 2013-10-02 2015-04-02 David Paul Frankel Teleconference system with overlay aufio method associate thereto
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
WO2015130509A1 (en) 2014-02-28 2015-09-03 Dolby Laboratories Licensing Corporation Perceptual continuity using change blindness in conferencing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
JP5802956B1 (ja) * 2015-03-16 2015-11-04 株式会社アクセル 音声合成装置、音声合成方法
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
EP3949368B1 (en) 2019-04-03 2023-11-01 Dolby Laboratories Licensing Corporation Scalable voice scene media server
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4456789A (en) * 1978-03-07 1984-06-26 The Post Office Audio teleconferencing
US5150410A (en) * 1991-04-11 1992-09-22 Itt Corporation Secure digital conferencing system
JPH0685932A (ja) * 1992-09-07 1994-03-25 Tech Res & Dev Inst Of Japan Def Agency 音声ブリッジ装置
JPH06169349A (ja) * 1992-11-30 1994-06-14 Hitachi Ltd N−1加算方式
JP3300471B2 (ja) 1993-06-08 2002-07-08 三菱電機株式会社 通信制御装置
JPH1075310A (ja) * 1996-08-29 1998-03-17 Nec Corp 多地点テレビ会議システム
US6125343A (en) * 1997-05-29 2000-09-26 3Com Corporation System and method for selecting a loudest speaker by comparing average frame gains
US6697476B1 (en) * 1999-03-22 2004-02-24 Octave Communications, Inc. Audio conference platform system and method for broadcasting a real-time audio conference over the internet
GB9915312D0 (en) * 1999-06-30 1999-09-01 Nortel Networks Corp Conference circuit for encoded digital audio
US6940826B1 (en) * 1999-12-30 2005-09-06 Nortel Networks Limited Apparatus and method for packet-based media communications
US6683858B1 (en) * 2000-06-28 2004-01-27 Paltalk Holdings, Inc. Hybrid server architecture for mixing and non-mixing client conferencing
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
US6804340B2 (en) * 2001-05-03 2004-10-12 Raytheon Company Teleconferencing system
US20030223562A1 (en) * 2002-05-29 2003-12-04 Chenglin Cui Facilitating conference calls by dynamically determining information streams to be received by a mixing unit
US20040190701A1 (en) * 2003-03-28 2004-09-30 Versatel Networks Inc. Apparatus and method for a distributed conference bridge
JP2005151044A (ja) 2003-11-13 2005-06-09 Japan Science & Technology Agency 音声ミキシング方法、音声ミキシングシステム及び音声ミキシングのためのプログラム
JP4033840B2 (ja) 2004-02-12 2008-01-16 日本電信電話株式会社 音声ミキシング方法、音声ミキシング装置、音声ミキシングプログラム及びこれを記録した記録媒体
JP2006232919A (ja) 2005-02-23 2006-09-07 Fuji Photo Film Co Ltd コアシェル粒子の製造方法
WO2007084254A2 (en) * 2005-11-29 2007-07-26 Dilithium Networks Pty Ltd. Method and apparatus of voice mixing for conferencing amongst diverse networks
MX2009000086A (es) * 2006-07-07 2009-01-23 Fraunhofer Ges Forschung Concepto para combinar multiples fuentes de audio parametricamente codificadas.
EP2047632B1 (de) * 2006-07-28 2015-06-24 Unify GmbH & Co. KG Verfahren zum durchführen einer sprachkonferenz und sprachkonferenzsystem
WO2008011902A1 (de) * 2006-07-28 2008-01-31 Siemens Aktiengesellschaft Verfahren zum durchführen einer audiokonferenz, audiokonferenzeinrichtung und umschalteverfahren zwischen kodierern

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101477361B1 (ko) * 2009-07-10 2014-12-29 퀄컴 인코포레이티드 무선 통신 시스템에서의 그룹 통신 세션을 위한 미디어 포워딩
US9025497B2 (en) 2009-07-10 2015-05-05 Qualcomm Incorporated Media forwarding for a group communication session in a wireless communications system
KR101397266B1 (ko) * 2009-07-13 2014-05-20 퀄컴 인코포레이티드 무선 통신 시스템 내의 그룹 통신 세션 동안 미디어를 선택적으로 믹싱하는 방법 및 장치
US9088630B2 (en) 2009-07-13 2015-07-21 Qualcomm Incorporated Selectively mixing media during a group communication session within a wireless communications system

Also Published As

Publication number Publication date
KR101036965B1 (ko) 2011-05-25
BRPI0714736A2 (pt) 2013-05-07
US20090248402A1 (en) 2009-10-01
JPWO2008026754A1 (ja) 2010-01-21
MX2009002093A (es) 2009-03-10
EP2068544A1 (en) 2009-06-10
WO2008026754A1 (fr) 2008-03-06
CA2660007A1 (en) 2008-03-06
CN101513030A (zh) 2009-08-19
US8255206B2 (en) 2012-08-28
JP4582238B2 (ja) 2010-11-17
EP2068544A4 (en) 2010-09-22
RU2009111270A (ru) 2010-10-10

Similar Documents

Publication Publication Date Title
KR101036965B1 (ko) 음성 믹싱 방법 및 그 방법을 이용하는 다지점 회의 서버와 컴퓨터 판독가능 기록 매체
JP7124170B2 (ja) セカンダリチャンネルを符号化するためにプライマリチャンネルのコーディングパラメータを使用するステレオ音声信号を符号化するための方法およびシステム
RU2469419C2 (ru) Способ и устройство для управления сглаживанием стационарного фонового шума
KR100434275B1 (ko) 패킷 변환 장치 및 그를 이용한 패킷 변환 방법
KR20190133302A (ko) 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램
US8380495B2 (en) Transcoding method, transcoding device and communication apparatus used between discontinuous transmission
AU2008221657A1 (en) Method and arrangement for smoothing of stationary background noise
KR100460109B1 (ko) 음성패킷 변환을 위한 lsp 파라미터 변환장치 및 방법
JP5158098B2 (ja) 音声ミキシング装置および方法ならびに多地点会議サーバ
RU2464651C2 (ru) Способ и устройство многоуровневого масштабируемого устойчивого к информационным потерям кодирования речи для сетей с коммутацией пакетов

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140421

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150417

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160418

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170421

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20180503

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee