KR20090035728A

KR20090035728A - 음성 믹싱 방법 및 그 방법을 이용하는 다지점 회의 서버와 컴퓨터 판독가능 기록 매체

Info

Publication number: KR20090035728A
Application number: KR1020097004325A
Authority: KR
Inventors: 히로노리 이또; 가즈노리 오자와
Original assignee: 닛본 덴끼 가부시끼가이샤
Priority date: 2006-08-30
Filing date: 2007-08-28
Publication date: 2009-04-10
Also published as: KR101036965B1; BRPI0714736A2; US20090248402A1; JPWO2008026754A1; MX2009002093A; EP2068544A1; WO2008026754A1; CA2660007A1; CN101513030A; US8255206B2; JP4582238B2; EP2068544A4; RU2009111270A

Abstract

화자의 절환 시에 맞추어 부호화기를 절환할 때, 복호 음성에 이음이 발생하는 것을 방지하는 음성 믹싱 방법을 제공한다. 음성 믹싱 방법은, 복수의 음성 정보로부터 음성 정보를 선택하는 제1 스텝, 선택한 음성 정보를 모두 가산하는 제2 스텝, 선택한 음성 신호 중 하나의 음성 신호 이외의 음성 신호를 가산한 음성 신호를 얻는 제3 스텝, 제2 스텝에 의해 얻어진 음성 정보를 부호화하는 제4 스텝, 제3 스텝에 의해 얻어진 음성 신호를 부호화하는 제5 스텝, 제4 스텝에 의해 얻어진 부호화 정보를 제5 스텝에서의 부호화 정보에 카피하는 제6 스텝을 포함한다.

파워 계산부, 화자 선택부, 음성 부호화부, 공통 음성 부호화부, 메모리 절환부

Description

음성 믹싱 방법 및 그 방법을 이용하는 다지점 회의 서버와 프로그램{VOICE MIXING METHOD, MULTIPOINT CONFERENCE SERVER USING THE METHOD, AND PROGRAM}

본 발명은, 음성 믹싱 방법 및 그 방법을 이용하는 다지점 회의 서버와 프로그램에 관한 것으로, 특히 전체 참가자의 음성을 믹싱하고, 믹싱한 음성으로부터 1참가자의 음성을 감산하여 그 1참가자에게 송신하는 음성 믹싱 방법 및 그 방법을 이용하는 다지점 회의 서버와 프로그램에 관한 것이다.

다지점 회의 서비스에서는, 음성 부호화기에 의해 부호화된 각 참가자의 음성 데이터가 다지점 회의 서버에 송신된다. 다지점 회의 서버는, 각 참가자에게, 해당 참가자 이외의 참가자의 모든 음성을 믹싱한 음성 데이터를 송신한다.

음성 데이터를 믹싱할 때, 우선, 각 참가자의 음성 데이터를 복호하여 얻은 복호 음성 신호를 모두 가산함으로써 전체 참가자의 음성 신호를 산출한다. 다음으로, 각 참가자에 대해, 전체 참가자의 음성 신호로부터 자신의 음성을 감산한 음성 신호를 산출하고, 그 음성 신호를 부호화하여 생성한 음성 데이터를 송신한다.

다지점 회의 서비스에서의 단말기와 서버간의 통신 프로토콜로서, 일례로서 회선 교환망에서는 ITU-T H.323, H.324가 이용되고, 모바일망에서는 3G-324M이 이용되고, IP(Internet Protocol)에 기초하는 패킷망에서는, IETF RFC3550 RTP(Real- time Transport Protocol)가 이용된다.

또한, 음성 부호화기로서는, ITU-T 권고인 G.711이나 G.729, 3GPP TS26.090에서 규정되어 있는 AMR(Adaptive Multi-Rate) 방식, TS26.190에서 규정되어 있는 AMR-WB(Wide Band) 방식이나, 3GPP2에서 규정되어 있는 EVRC(Enhanced Variable Rate Codec) 방식 등이 이용된다.

G.711 방식에서는, 8㎑에서 샘플링된 음성 신호에서의 16비트의 각 샘플을 대수 변환을 이용하여 8비트로 압축하는 방식이며, 연산량은 적지만 압축률은 낮다.

한편, G.729 방식, AMR 방식, EVRC 방식은, CELP(Code Excited Linear Prediction) 원리에 의한 예측 부호화 방식에 기초하고 있고, 음성 신호를 보다 고능률로 부호화하는 것이 가능하다.

CELP에서는, 부호화기에서, 프레임마다(예를 들면 20㎳) 음성 신호로부터 선형 예측(LPC : Linear Predictive Coding) 분석을 이용하여, 음성 신호의 스펙트럼 특성을 나타내는 스펙트럼 파라미터를 추출한다.

또한 프레임 분할한 음성 신호를 서브 프레임(예를 들면 5㎳)으로 분할하고, 서브 프레임마다 과거의 음원 신호에 기초하여 적응 코드북에서의 파라미터(피치 주기에 대응하는 지연 파라미터와 게인 파라미터)를 추출하고, 적응 코드북에 의해 해당하는 서브 프레임의 음성 신호를 피치 예측한다. 피치 예측에 의해 구한 잔차 신호에 대해, 미리 구해진 종류의 잡음 신호로 이루어지는 음원 코드북(벡터 양자화 코드북)으로부터 최적의 음원 코드 벡터를 선택하고, 최적의 게인을 계산함으로 써, 음원 신호를 양자화한다.

음원 코드 벡터의 선택의 방법은, 선택한 잡음 신호에 의해 합성한 신호와, 전술한 잔차 신호의 오차 전력을 최소화하도록 행한다. 그리고, 선택된 코드 벡터의 종류를 나타내는 인덱스, 게인, 스펙트럼 파라미터 및 적응 코드북의 파라미터를 조합한 것을 음성 데이터로서 전송한다.

복호기측에서는, 음성 데이터로부터 얻어지는 파라미터로부터 음원 신호와 선형 예측 분석에서의 합성 필터 계수를 산출하고, 음원 신호를 합성 필터로 구동함으로써, 복호 음성 신호를 얻을 수 있다.

한편, 모든 샘플에 대해 비교 선택 처리를 행하지 않고, 복수 샘플에 1회의 대소 관계의 비교 선택 처리의 결과에 기초하여, 그 선택된 음성 데이터의 샘플에 계속되는 복수 샘플을 선택 처리하는 음성 믹싱 방법이 개시되어 있다(특허 문헌 1 참조).

또한, 믹싱부에서 일단 총합 신호를 생성하고, 그 총합 신호로부터 각각, 자기의 음성 정보(자기가 송출한 음성 정보)를 감산하고, 자기 이외의 음성 정보가 자기에게 반송되도록 구성한 음성 믹싱 방법이 개시되어 있다(특허 문헌 2 참조).

또한, 음성 합성부가 각 이종 부호화ㆍ복호화부에 의해 선형의 데이터로 변환된 음성 데이터를 각각 가산하고, 그 후 가산된 음성 데이터로부터 자신의 음성을 뺀 음성 데이터를 생성하고, 그것을 대응하는 이종 부호화ㆍ복호화부의 각각에 전달하는 통신 제어 장치가 개시되어 있다(특허 문헌 3 참조).

특허 문헌 1 : 일본 특허 공개 제2005-151044호 공보(단락 0014, 0016 및 0045)

특허 문헌 2 : 일본 특허 공개 제2005-229259호 공보(단락 0003 및 도 1)

특허 문헌 3 : 일본 특허 공개 평6-350724호 공보(단락 0020 및 도 2)

관련 기술에서의 다지점 회의 시스템에서는, 각 참가자에게, 그 참가자 이외의 참가자의 음성을 모두 믹싱한 음성을 부호화하여 송신한다. 이 때, 참가자의 증가에 수반하여 음성 부호화에 의한 연산량이 증대하기 때문에, 발성하고 있는 화자를 검출하여, 믹싱하는 음성의 수를 한정하고, 동작시키는 음성 부호화기의 수를 삭감하는 방법이 이용된다.

여기서, CELP 방식 등과 같은 예측 부호화를 행하는 음성 부호화기를 이용하는 경우, 화자의 절환 시에 맞추어 부호화기를 절환할 때, 부호화기의 상태를 나타내는 메모리에 부정합이 생기기 때문에, 복호 음성에 이음(異音)이 발생한다고 하는 과제가 있다.

한편, 상기 특허 문헌 1∼3에 이 과제를 해결하는 수단은 개시되어 있지 않다.

본 발명의 목적은, 화자의 절환 시에 맞추어 부호화기를 절환할 때, 복호 음성에 이음이 발생하는 것을 방지하는 것이 가능한 음성 믹싱 방법 및 그 방법을 이용하는 다지점 회의 서버와 프로그램을 제공하는 데에 있다.

<발명의 개시>

본 발명의 제1 음성 믹싱 방법은, 복수의 음성 정보를 믹싱하는 음성 믹싱 방법으로서, 복수의 음성 정보로부터 음성 정보를 선택하는 제1 스텝과, 선택한 음 성 정보를 모두 가산하는 제2 스텝과, 선택한 음성 신호 중 하나의 음성 신호 이외의 음성 신호를 가산한 음성 신호를 얻는 제3 스텝과, 제2 스텝에 의해 얻어진 음성 정보를 부호화하는 제4 스텝과, 제3 스텝에 의해 얻어진 음성 신호를 부호화하는 제5 스텝과, 제4 스텝에 의해 얻어진 부호화 정보를 제5 스텝에서의 부호화 정보에 카피하는 제6 스텝을 포함한다.

본 발명의 제2 복수의 음성 정보를 믹싱하는 다지점 회의 서버는, 복수의 음성 정보로부터 음성 정보를 선택하는 선택 수단과, 선택 수단에 의해 선택한 음성 정보를 모두 가산하는 전체 신호 가산 수단과, 선택한 음성 신호 중 하나의 음성 신호 이외의 음성 신호를 가산한 음성 신호를 얻는 가산 수단과, 전체 신호 가산 수단에 의해 가산한 음성 정보를 부호화하는 제1 부호화 수단과, 가산 수단에 의해 얻은 음성 정보를 부호화하는 제2 부호화 수단과, 제1 부호화 수단에 의해 얻어진 부호화 정보를 제2 부호화 수단에 카피하는 절환 수단을 포함한다.

본 발명의 제3 복수의 음성 정보를 믹싱하는 음성 믹싱을 실행하는 프로그램은, 컴퓨터에, 복수의 음성 정보로부터 음성 정보를 선택하는 제1 스텝과, 선택한 음성 정보를 모두 가산하는 제2 스텝과, 선택한 음성 신호 중 하나의 음성 신호 이외의 음성 신호를 가산한 음성 신호를 얻는 제3 스텝과, 제2 스텝에 의해 얻어진 가산한 음성 정보를 부호화하는 제4 스텝과, 제3 스텝에 의해 얻어진 음성 신호를 부호화하는 제5 스텝과, 제4 스텝에 의해 얻어진 부호화 정보를 제5 스텝에서의 부호화 정보에 카피하는 제6 스텝을 실행시킨다.

<발명의 효과>

본 발명에 따르면, 부호화에서의 메모리 내용에 부정합이 생기지 않으므로, 화자의 절환 시에 맞추어 부호화기를 절환할 때, 복호 음성에 이음이 발생하는 것을 방지하는 것이 가능하게 된다.

도 1은 본 발명의 제1 실시예에 의한 다지점 회의 서버의 구성을 도시하는 블록도.

도 2는 본 발명의 제1 실시예에 의한 다지점 회의 서버의 동작 수순을 나타내는 플로우차트.

도 3은 본 발명의 제1 실시예에 의한 다지점 회의 서버의 구성을 도시하는 블록도.

<발명을 실시하기 위한 최량의 형태>

이하, 본 발명의 실시예에 대해서 첨부 도면을 참조하면서 설명한다.

<제1 실시예>

도 1은 본 발명의 제1 실시예에 의한 다지점 회의 서버의 구성도이다. 본 발명의 제1 실시예에 의한 다지점 회의 서버는, 음성 입력 단자(또는 입력 음성 신호)(100, 110, …, 190)와, 파워 계산부(101, 111, …, 191)와, 화자 선택부(200)와, 음성 신호 입력 절환기(102, 112, …, 192)와, 전체 신호 가산기(300)와, 가산기(103, 113, …, 193)와, 음성 부호화부(104, 114, …, 194)와, 메모리 절환기(105, 115, …, 195)와, 공통 음성 부호화부(400)와, 음성 데이터 절환기(106, 116, …, 196)와, 화자앞 음성 출력 단자(또는 화자앞 음성 출력)(107, 117, …, 197)를 포함하여 구성된다.

음성 입력 단자(100, 110, …, 190)의 각각은, 화자 1, 화자 2, …, 화자 M에 대응하고 있다. 파워 계산부(101, 111, …, 191)와, 음성 신호 입력 절환기(102, 112, …, 192)와, 가산기(103, 113, …, 193)와, 음성 부호화부(104, 114, …, 194)와, 메모리 절환기(105, 115, …, 195)와, 음성 데이터 절환기(106, 116, …, 196)와, 화자앞 음성 출력 단자(107, 117, …, 197)에 대해서도 마찬가지이다.

다음으로, 도 1 및 도 2를 참조하여 제1 실시예의 동작에 대해서 설명한다. 도 2는 본 발명의 제1 실시예에 의한 다지점 회의 서버의 동작 수순을 나타내는 플로우차트이다. 이후, 화자 1, 화자 2 및 화자 M에 대한 처리 블록만이 기재되어 있지만, 기재되어 있지 않은 화자에 대해서도 처리는 동일하다.

파워 계산부(101), 파워 계산부(111) 및 파워 계산부(191)는, 각각 화자 1, 화자 2 및 화자 M의 입력 음성 신호(100), 입력 음성 신호(110) 및 입력 음성 신호(190)에 대한 파워를 산출하여 출력한다(도 2의 스텝 S1).

화자 선택부(200)는, 계산된 각각의 화자의 파워를 이용하여 음성을 발성하고 있는 화자를 선택하고, 선택 결과를 출력한다(도 2의 스텝 S2).

음성 신호 입력 절환기(102), 음성 신호 입력 절환기(112) 및 음성 신호 입력 절환기(192)는 화자 선택부(200)의 선택 결과에 기초하여, 각각의 화자의 입력 음성 신호를 출력할지의 여부의 절환을 행한다(도 2의 스텝 S3).

전체 신호 가산기(300)는 화자 선택부(200)에서 선택된 화자에 대한 음성을 모두 가산한 음성 신호를 출력한다(도 2의 스텝 S4).

가산기(103), 가산기(113) 및 가산기(193)는, 전체 신호 가산기(300)로부터 출력된 음성 신호로부터 선택된 화자 자신의 음성 신호를 감산한 음성 신호를 출력한다(도 2의 스텝 S5).

즉, 전체 신호 가산기(300)로부터 출력된 음성 신호로부터, 선택된 화자 중, 각 음성 부호화기(104, 114, 194)에 각각 대응하는 화자의 음성 정보를 감산하여 음성 정보를 출력한다.

공통 음성 부호화부(400)는, 전체 신호 가산기(300)로부터 출력된 음성 신호를 부호화한다(도 2의 스텝 S6).

음성 부호화부(104), 음성 부호화부(114), 음성 부호화부(194)는 가산기(103), 가산기(113) 및 가산기(193)로부터 출력된 음성 신호를 부호화한다(도 2의 스텝 S7).

메모리 절환기(105), 메모리 절환기(115), 메모리 절환기(195)는 화자 선택부(200)의 선택 결과에 기초하여, 공통 음성 부호화부(400)의 예측 부호화에서의 메모리의 내용을 각각 음성 부호화부(104), 음성 부호화부(114), 음성 부호화부(194)에 카피한다(도 2의 스텝 S8).

즉, 공통 음성 부호화부(400)의 메모리에 저장되어 있는 예측 부호화의 결과인 부호화 정보를 음성 부호화부(104), 음성 부호화부(114), 음성 부호화부(194)의 메모리에 각각 카피한다. 이에 의해, 음성 부호화부(104), 음성 부호화부(114), 음성 부호화부(194)의 메모리 상태를, 공통 음성 부호화부(400)의 메모리의 상태와 동일하게 한다.

음성 데이터 절환기(106), 음성 데이터 절환기(116), 음성 데이터 절환기(196)는 화자 선택부(200)의 선택 결과에 기초하여, 출력하는 음성 데이터의 절환을 행한다(도 2의 스텝 S9).

즉, 일례로서, 화자 1이 선택되고, 화자 2와 화자 M이 선택되지 않았다고 하면, 화자 1의 음성 입력 신호 절환기(102)는 온, 화자 2의 음성 입력 신호 절환기(112) 및 화자 M의 음성 입력 신호 절환기(192)는 오프로 되고, 화자 1의 메모리 절환기(105)는 온, 화자 2 및 화자 M의 메모리 절환기(195)는 오프로 되고, 화자 1의 음성 데이터 절환기(106)는 화자 1측, 화자 2의 음성 데이터 절환기(116) 및 화자 M의 음성 데이터 절환기(196)는 공통 음성 부호화부(400)측으로 된다.

그리고, 화자 1의 음성 신호는 음성 신호 입력 절환기(102)를 통하여 전체 신호 가산기(300)에 의해 가산되고, 공통 음성 부호화부(400)에 입력된다.

또한, 전체 신호 가산기(300)에 의해 가산된 화자 1의 음성 신호로부터 화자 1의 음성 신호가 가산기(103)에 의해 감산되고, 그 결과 신호가 음성 부호화부(104)에 입력된다. 그리고, 음성 부호화부(104)의 출력 신호는 음성 데이터 절환기(106)를 통하여 화자 1에 송신된다.

한편, 선택되지 않았던 화자 2 및 화자 M에 대해서는, 공통 음성 부호화부(400)에 입력된 음성 신호가 음성 데이터 절환기(116 및 196)를 통하여 송신된다.

본 발명의 제1 실시예의 특징은, 일례로서 화자 1이 선택되지 않는 경우로부터 선택된 경우로 이행한 순간에, 공통 음성 부호화부(400)에 보존된 정보를 메모 리 절환기(105)를 통하여 음성 부호화부(104)에 카피하거나 혹은 화자 2가 선택되지 않는 경우로부터 선택된 경우로 이행한 순간에, 공통 음성 부호화부(400)에 보존된 정보를 메모리 절환기(115)를 통하여 음성 부호화부(114)에 카피하는 데에 있다.

이에 의해, 화자의 절환 시에 맞추어 음성 부호화부를 절환할 때, 음성 부호화부의 상태를 나타내는 메모리에 부정합이 생기는 것에 기인하여 복호 음성에 이음이 발생하는 것을 방지하는 것이 가능하게 된다.

또한, 제1 실시예에서는 가산기(103), 가산기(113) 및 가산기(193)가, 전체 신호 가산기(300)로부터 출력된 음성 신호로부터 선택된 화자 자신의 음성 신호를 감산한 음성 신호를 출력하는 구성으로 하였지만, 선택된 음성 신호 중 선택된 한사람의 화자 이외의 음성 신호를 가산하여 출력하는 구성으로 하여도 동일한 결과가 얻어진다.

<구체예>

이하, 전술한 실시예의 구체적인 예에 대해서, 도 1을 참조하면서 설명한다. 우선, 파워 계산부(101), 파워 계산부(112) 및 파워 계산부(192)는 입력된 입력 음성 신호(100), 입력 음성 신호(110) 및 입력 음성 신호(190) 각각의 음성 신호의 파워를 계산하고, 계산한 파워를 화자 선택부(200)에 출력한다.

예를 들면, 8㎑ 샘플링의 입력 음성 신호 s(n)에 대해, 20밀리초(160 샘플)마다, 이하의 수학식 1을 이용하여 파워 P를 계산한다.

여기서, 일례로서, L=160이다.

화자 선택부(200)는 입력된 각각의 화자의 파워를 이용하여, 발성하고 있는 화자를 선택하고, 선택하였는지의 여부를 각각 음성 신호 입력 절환기(102), 음성 신호 입력 절환기(112), 음성 신호 입력 절환기(192), 메모리 절환기(105), 메모리 절환기(115), 메모리 절환기(195), 음성 데이터 절환기(106), 음성 데이터 절환기(116) 및 음성 데이터 절환기(196)에 출력한다.

여기서, 발성하고 있는 화자의 선택 방법으로서, 파워가 큰 순서대로 미리 정한 상위 N인(N < M 또한 N, M은 플러스의 정수)의 화자를 선택하는 방법이나, 미리 정한 임계값을 초과하는 파워의 화자를 선택하는 방법이 있다. 또한, 입력된 파워를 그대로 이용하는 것이 아니라, 리크 적분 등에 의해 평활화한 값을 이용하는 방법도 생각된다.

리크 적분은 입력을 x(n), 출력을 y(n)으로 하면,

y(n)=k×y(n-1)+x(n)으로 표현된다. 여기에, 0 < k < 1이며, k는 상수이다.

음성 신호 입력 절환기(102), 음성 신호 입력 절환기(112) 및 음성 신호 입력 절환기(192)는, 화자 선택부(200)에서 선택된 화자에 대한 입력 음성 신호(100), 입력 음성 신호(110) 및 입력 음성 신호(190)를 각각 대응하는 가산기(103), 가산기(113) 및 가산기(193)에 출력함과 함께, 전체 신호 가산기(300)에 출력한다.

전체 신호 가산기(300)는 입력된 음성 신호를 모두 가산한 음성 신호를 가산기(103), 가산기(113), 가산기(193) 및 공통 음성 부호화부(400)에 출력한다.

가산기(103), 가산기(113) 및 가산기(193)는 화자 선택부(200)에서 선택된 화자에 대해, 전체 신호 가산기(300)로부터 입력된 음성 신호로부터 각각 음성 신호 입력 절환기(102), 음성 신호 입력 절환기(112) 및 음성 신호 입력 절환기(192)로부터 출력된 음성 신호를 감산한 음성 신호를 각각 음성 부호화부(104), 음성 부호화부(114), 음성 부호화부(194)에 출력한다.

믹싱 후의 음성에서, 각 화자의 음량차가 작아지도록 이하의 수학식 2로 나타내는 조정 게인 Gi를 각 화자 i의 입력 음성 신호에 승산하여도 된다.

여기서, Pi는 수학식 1에 의해 계산한 화자 i에 대한 파워, N은 믹싱한 신호수이다. 이 Gi는 각 화자의 파워에 반비례하도록 계산되지만, 파워 Pi의 계산 주기인, 일례로서 20밀리초마다 갱신하면 변화가 지나치게 크기 때문에, 이하의 수학식 3으로 나타내는 평활화를 더 행하여도 된다.

여기서, G'i는 앞에 산출된 조정 게인을 나타낸다. α의 값으로서는 예를 들면 0.9를 이용한다. 또한, 극단적으로 음량을 조정하는 것을 피하기 위해, 예를 들면 Gi가 취득할 수 있는 범위를 0.5∼2 정도로 제한하여도 된다.

또한, 믹싱 후의 음성 신호의 음량을 조정하기 위해, 이하의 수학식 4로 나타내는 조정 게인 Ga를 믹싱 후의 음성 신호에 승산하여도 된다.

여기서, Pa는 수학식 1에 의해 계산한 믹싱 후의 음성 신호의 파워이며, Pout는 조정 시의 목표값으로 하는 파워이며, 믹싱한 화자의 음성 신호 중에서 가장 큰 화자의 값을 이용하거나, 미리 정한 소정 레벨의 값을 이용할 수도 있다. 또한, 전술한 Gi와 마찬가지의 평활화 및 취득할 수 있는 값의 제한을 행하여도 된다.

공통 음성 부호화부(400)는, 전체 신호 가산기(300)로부터 입력된 음성 신호를 부호화하고, 부호화한 음성 데이터를 음성 데이터 절환기(106), 음성 데이터 절환기(116), 음성 데이터 절환기(196)에 출력한다.

음성 부호화부(104), 음성 부호화부(114), 음성 부호화부(194)는 가산기(103), 가산기(113) 및 가산기(193)로부터 음성 신호가 입력된 경우, 그 음성 신호를 부호화하고, 부호화한 음성 데이터를 음성 데이터 절환기(106), 음성 데이터 절환기(116), 음성 데이터 절환(196)에 출력한다.

메모리 절환기(105), 메모리 절환기(115), 메모리 절환기(195)는 화자 선택부(200)에서 발성한 화자로서 선택되지 않은 상태로부터 선택된 상태로 천이한 경우에, 공통 음성 부호화부(400)의 예측 부호화에서의 메모리를 각각 음성 부호화부(104), 음성 부호화부(114), 음성 부호화부(194)에 출력한다.

이 메모리 절환기의 처리에 의해, 예를 들면 화자 1에서, 출력 음성 데이터가 공통 음성 부호화부(400)로부터의 출력으로부터 음성 부호화부(104)로부터의 출력으로 절환 시에 예측 부호화에서의 메모리에 부정합이 생기는 일은 없다.

반대로, 출력 음성 데이터가 음성 부호화부(104)로부터의 출력으로부터 공통 음성 부호화부(400)로부터의 출력으로 절환 시, 공통 음성 부호화부(400)의 메모리를 재기입할 수는 없으므로, 메모리의 부정합이 생긴다.

단, 이 경우에는, 화자 1의 음량이 작아질 때이며, 음성 부호화부(104)의 입력 음성과 공통 음성 부호화부(400)에의 입력 음성이 거의 동일하게 되기 때문에, 양자의 메모리의 부정합에 의한 음질 열화는 적다. 이 경우에, 메모리의 부정합을 보다 작게 하기 위해서는, 공통 음성 부호화부(400)에의 입력 음성 신호와 동일한 음성 신호를 음성 부호화부(104)에 입력하여 잠시 동작시킨 후, 음성 데이터 절환기(1)를 공통 음성 부호화부(400)로부터 출력되는 음성 데이터로 절환하면 된다. 동일한 입력 음성 신호에서 동작시키는 시간이 길수록, 메모리의 부정합은 작아지지만, 절환에 요하는 지연이 생긴다.

음성 데이터 절환기(106), 음성 데이터 절환기(116), 음성 데이터 절환기(196)는 화자 선택부(200)에서 발성한 화자로서 선택된 경우, 음성 부호화 부(104), 음성 부호화부(114), 음성 부호화부(194)로부터 입력된 음성 데이터를 출력하고, 화자 선택부(200)에서 발성한 화자로서 선택되지 않았던 경우, 공통 음성 부호화부(400)로부터 입력된 음성 데이터를 출력한다.

본 실시예에서는, 음성 부호화기가 모두 동일한 경우를 상정하고 있지만, 복수의 종류의 음성 부호화기, 또는 비트 레이트를 혼재시키는 것도 가능하다. 이 경우, 공통 부호화부는 부호화기의 종류, 또는 비트 레이트의 종류의 수만큼 필요하다. 또한, 메모리의 절환은 동일한 종류의 부호화기, 또는 비트 레이트에 대해 행할 필요가 있다.

이상 설명한 바와 같이, 본 발명의 구체예에 따르면, 예를 들면 화자 1에서, 출력 음성 데이터가 공통 음성 부호화부(400)로부터의 출력으로부터 음성 부호화부(104)로부터의 출력으로 절환 시에 예측 부호화에서의 메모리에 부정합이 생기지 않는다고 하는 효과를 발휘한다.

<제2 실시예>

다음으로, 도 3을 참조하여 본 발명의 제2 실시예에 대해서 설명한다. 도 3은 본 발명의 제2 실시예에 의한 다지점 회의 서버의 구성도이다. 또한, 도 1과 마찬가지의 구성 부분에는 동일 번호를 붙이고, 그 설명을 생략한다.

음성 복호부(501), 음성 복호부(511), 음성 복호부(591)는, 각각 부호화된 입력 음성 데이터(500), 입력 음성 데이터(510) 및 입력 음성 데이터(590)를 복호하고, 복호 음성을 각각 파워 계산부(101), 파워 계산부(102), 파워 계산부(192), 및 음성 신호 입력 절환기(102), 음성 신호 입력 절환기(112) 및 음성 신호 입력 절환기(192)에 출력한다.

음성 데이터 해석부(502), 음성 데이터 해석부(512), 음성 데이터 해석부(592)는 입력 음성 데이터(500), 입력 음성 데이터(510) 및 입력 음성 데이터(590)가 유음인지 무음인지를 해석한 결과를 출력한다.

이 해석 방법으로서, AMR 음성 부호화 방식의 예로 설명한다. AMR 음성 부호화 방식에서는, 입력 음성에 대해 VAD(Voice Activity Detection)를 행하여 유음인지 무음인지를 판별하고, 무음이라고 판별한 경우에는, 프레임 타입이 NO_DATA인 정보를 전송하거나 혹은 SID(Silence Indication)로서 배경 잡음의 정보를 송신하는 것이 가능하다.

따라서, 음성 데이터의 선두에 있는 프레임 타입이 NO_DATA 또는 SID이면, 무음이라고 판별할 수 있다. 또한, VAD를 행하지 않고 모두 유음의 음성 데이터로서 부호화된 경우에는, 음성 데이터에 포함되는 게인 파라미터나 스펙트럼 파라미터에 기초하여 추정한 음량을 화자 선택부(201)에 출력하는 방법도 생각된다.

파워 계산부(101), 파워 계산부(111) 및 파워 계산부(191)는, 각각 음성 복호부(501), 음성 복호부(511), 음성 복호부(591)로부터 입력된 복호 신호의 파워를 계산하고, 그 값을 화자 선택부(201)에 입력한다.

화자 선택부(201)는 음성 데이터 해석부(502), 음성 데이터 해석부(512), 음성 데이터 해석부(592)의 해석 결과 및 파워 계산부(101), 파워 계산부(111) 및 파워 계산부(192)로부터 입력된 파워에 기초하여, 음성을 발성하고 있는 화자를 선택하고, 선택 결과를 출력한다.

구체적으로는, 음성 데이터 해석부(502), 음성 데이터 해석부(512), 음성 데이터 해석부(592)로부터 입력된 해석 결과가, 유음 또는 추정된 음량이 일정 임계값 이상의 값인 경우에, 파워 계산부(101), 파워 계산부(111) 및 파워 계산부(191)로부터 입력된 파워가 큰 순서대로 미리 정한 상위 N인(N < M)의 화자를 선택하는 방법이나, 미리 정한 임계값을 초과하는 파워의 화자를 선택하는 방법이 있다.

이상 설명한 바와 같이, 본 발명의 제2 실시예에 따르면, 화자 선택의 기준에 유음 및 무음의 판별을 부가함으로써, 제1 실시예의 경우보다도 양호한 선택 결과를 얻는 것이 가능하게 된다.

<제3 실시예>

제3 실시예는 음성 믹싱 방법을 컴퓨터에 실행시키기 위한 프로그램에 관한 것이다. 도 1을 참조하면, 다지점 회의 서버에 포함되는 파워 계산부(101, 111, …, 191)와, 화자 선택부(200)와, 음성 신호 입력 절환기(102, 112, …, 192)와, 전체 신호 가산기(300)와, 가산기(103, 113, …, 193)와, 음성 부호화부(104, 114, …, 194)와, 메모리 절환기(105, 115, …, 195)와, 공통 음성 부호화부(400)와, 음성 데이터 절환기(106, 116, …, 196)는, 도시하지 않은 제어부에 의해 제어된다.

또한, 다지점 회의 서버는 도시하지 않은 기억부를 더 포함하고 있고, 그 기억부에는 도 2에 플로우차트로 나타내는 음성 믹싱 방법의 처리 수순의 프로그램이 저장되어 있다.

제어부(혹은, 컴퓨터)는 기억부로부터 상기 프로그램을 읽어내어, 그 프로그램에 따라서 상기 각 구성 부분을 제어한다. 그 제어 내용에 대해서는 이미 설명 하였으므로 여기서의 설명은 생략한다.

이상 설명한 바와 같이, 본 발명의 제3 실시예에 따르면, 예를 들면 화자 1에서, 출력 음성 데이터가 공통 음성 부호화부(400)로부터의 출력으로부터 음성 부호화부(104)로부터의 출력으로 절환 시에 예측 부호화에서의 메모리에 부정합을 발생시키지 않기 위한 프로그램이 얻어진다.

또한, 그 밖의 실시예로서 이하에 기재하는 것이 있다.

휴대 전화 등에서는 대역이 좁기 때문에, 예측 부호화 기술을 이용하여 고효율로 음성을 압축할 필요가 있다. 한편, 휴대 전화를 이용하여 다지점 회의 시스템을 구성하는 경우, 각 휴대 전화의 프로세서의 능력은 한정되어 있기 때문에, 각 휴대 전화에서 믹싱을 행하는 것은 현실적이지 않고, 각 휴대 전화와는 별도로 다지점 회의 서버가 필요하다. 본 발명의 실시예는 이와 같은 경우에도 유용하다.

또한, 다지점 회의 시스템으로서 이하와 같은 패턴이 생각된다. 첫째로, 복수의 회의실에 1인씩 존재하는 패턴이다. 둘째로, 복수의 회의실에 복수인씩(또한, 각 회의실에 마이크, 스피커의 페어가 복수 페어씩 존재하는 패턴과, 각 회의실에 마이크, 스피커의 페어가 1페어씩 존재하는 패턴의 2개가 있음) 존재하는 패턴이다. 본 발명의 실시예는 이와 같은 경우에도 유용하다.

본 발명의 실시예에 따르면, 부호화에서의 메모리 내용에 부정합이 생기지 않으므로, 화자의 절환 시에 맞추어 부호화기를 절환할 때, 복호 음성에 이음이 발생하는 것을 방지하는 것이 가능하게 된다.

이상, 실시 형태를 참조하여 본 발명을 설명하였지만, 본 발명은, 상기 실시 형태의 구성이나 동작에 한정되는 것은 아니다. 본 발명의 구성이나 상세에는, 본 발명의 스코프 내에서 당업자가 이해할 수 있는 다양한 변경을 할 수 있다.

이 출원은, 2006년 8월 30일에 출원된 일본 특허 출원 제2006-232919호를 기초로 하는 우선권을 주장하고, 그 개시된 모두를 여기에 인용한다.

Claims

복수의 음성 정보를 믹싱하는 음성 믹싱 방법으로서,

복수의 음성 정보로부터 음성 정보를 선택하는 제1 스텝과,

선택한 음성 정보를 모두 가산하는 제2 스텝과,

상기 선택한 음성 정보 중 하나의 음성 정보 이외의 음성 정보를 가산한 음성 정보를 얻는 제3 스텝과,

제2 스텝에 의해 얻어진 음성 정보를 부호화하는 제4 스텝과,

제3 스텝에 의해 얻어진 음성 정보를 부호화하는 제5 스텝과,

상기 제4 스텝에 의해 얻어진 부호화 정보를 상기 제5 스텝에서의 부호화 정보에 카피하는 제6 스텝

을 포함하는 것을 특징으로 하는 음성 믹싱 방법.
제1항에 있어서,

상기 제6 스텝에서, 상기 제4 스텝에 의한 부호화를 실행하는 부호화부의 메모리에 저장된 부호화 정보를, 상기 제5 스텝에 의한 부호화를 실행하는 부호화부에 카피하는 것을 특징으로 하는 음성 믹싱 방법.
제1항 또는 제2항에 있어서,

상기 제1 스텝에서의 선택 결과에 기초하여, 상기 제4 스텝에 의해 얻어진 부호화 정보 또는 상기 제5 스텝에 의해 얻어진 부호화 정보를 절환하여 출력하는 제7 스텝을 포함하는 것을 특징으로 하는 음성 믹싱 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,

입력한 부호화된 음성 정보를 복호하고, 그 복호한 음성 정보를 상기 제1 스텝에서의 음성 정보로서 이용하는 것을 특징으로 하는 음성 믹싱 방법.
제1항 내지 제4항 중 어느 한 항에 있어서,

상기 제1 스텝에서, 상기 음성 정보의 음성 신호의 파워에 기초하여 음성 정보를 선택하는 것을 특징으로 하는 음성 믹싱 방법.
제1항 내지 제5항 중 어느 한 항에 있어서,

상기 제1 스텝에서, 상기 음성 정보의 음성 데이터가 유음인지 무음인지에 기초하여 음성 정보를 선택하는 것을 특징으로 하는 음성 믹싱 방법.
제1항 내지 제6항 중 어느 한 항에 있어서,

상기 제3 스텝에서, 상기 선택한 음성 신호 중 하나의 음성 신호 이외의 음성 신호를 가산한 음성 신호를, 상기 가산한 음성 정보로부터 선택한 상기 음성 정보를 1개씩 감산함으로써 얻는 것을 특징으로 하는 음성 믹싱 방법.
제1항 내지 제7항 중 어느 한 항에 있어서,

상기 음성 정보가, 음성을 부호화한 부호화 데이터이며,

상기 제1 스텝이, 입력한 복수의 부호화 데이터를 분석하여, 믹싱 대상으로 하는 부호화 데이터를 선택하고, 선택한 부호화 데이터를 복호하여 복호 음성 신호를 생성하는 스텝을 포함하는 것을 특징으로 하는 음성 믹싱 방법.
제1항 내지 제7항 중 어느 한 항에 있어서,

상기 음성 정보가, 음성을 부호화한 부호화 데이터이며,

상기 제1 스텝에서, 상기 부호화 데이터와 상기 부호화 데이터를 복호하여 얻은 복호 음성 신호를 분석하여, 믹싱 대상으로 하는 복호 음성 신호를 선택하는 것을 특징으로 하는 음성 믹싱 방법.
제8항 또는 제9항에 있어서,

상기 제2 스텝에서, 상기 복호 음성 신호를 모두 가산한 음성 신호를 생성하고,

상기 제3 스텝에서, 상기 복호 음성 신호 중 하나의 복호 음성 신호 이외의 음성 신호를 가산한 음성 신호를 생성하고,

상기 제4 스텝에서, 제2 스텝에서 얻은 음성 신호를 제1 부호화부에 의해 예측 부호화하고,

상기 제5 스텝에서, 제3 스텝에서 생성한 음성 신호를 제2 부호화부에 의해 예측 부호화하고,

상기 제6 스텝에서, 상기 믹싱 대상으로 하는 복호 음성 신호의 선택 결과가 변경된 경우, 상기 제5 스텝의 제2 부호화부의 상태를 나타내는 메모리 내용을, 상기 제4 스텝의 제1 부호화부의 상태를 나타내는 메모리 내용과 동일하게 하는 것을 특징으로 하는 음성 믹싱 방법.
제1항 내지 제10항 중 어느 한 항에 있어서,

각 믹싱 대상의 음성 신호의 음량차가 작아지도록 조정하는 스텝을 포함하는 것을 특징으로 하는 음성 믹싱 방법.
제1항 내지 제10항 중 어느 한 항에 있어서,

믹싱한 후의 음성의 음량이, 각 믹싱 대상의 음성 신호에서의 최대 음량의 음성과 동등, 또는 미리 정한 레벨로 되도록 조정하는 스텝을 포함하는 것을 특징으로 하는 음성 믹싱 방법.
복수의 음성 정보를 믹싱하는 다지점 회의 서버로서,

상기 복수의 음성 정보로부터 음성 정보를 선택하는 선택 수단과,

상기 선택 수단에 의해 선택한 음성 정보를 모두 가산하는 전체 신호 가산 수단과,

상기 선택한 음성 신호 중 하나의 음성 신호 이외의 음성 신호를 가산한 음 성 신호를 얻는 가산 수단과,

상기 전체 신호 가산 수단에 의해 가산한 음성 정보를 부호화하는 제1 부호화 수단과,

상기 가산 수단에 의해 가산한 음성 정보를 부호화하는 제2 부호화 수단과,

상기 제1 부호화 수단에 의해 얻어진 부호화 정보를 상기 제2 부호화 수단에 카피하는 절환 수단

을 포함하는 것을 특징으로 하는 다지점 회의 서버.
제13항에 있어서,

상기 절환 수단은, 상기 선택 수단의 선택 결과에 기초하여, 상기 제1 부호화 수단의 메모리에 저장된 부호화 정보를, 상기 제2 부호화 수단에 카피하는 것을 특징으로 하는 다지점 회의 서버.
제13항 또는 제14항에 있어서,

상기 선택 수단에서의 선택 결과에 기초하여, 상기 제1 부호화 수단에 의해 얻어진 부호화 정보 또는 상기 제2 부호화 수단에 의해 얻어진 부호화 정보를 절환하여 출력하는 출력 절환 수단을 포함하는 것을 특징으로 하는 다지점 회의 서버.
제13항 내지 제15항 중 어느 한 항에 있어서,

입력한 복수의 부호화된 음성 정보를 복호하는 복합 수단을 포함하고,

상기 선택 수단은, 상기 복호 수단에 의해 복호된 복수의 음성 정보로부터 음성 정보를 선택하는 것을 특징으로 하는 다지점 회의 서버.
제13항 내지 제16항 중 어느 한 항에 있어서,

상기 선택 수단은, 상기 음성 정보의 음성 신호의 파워에 기초하여 음성 정보를 선택하는 것을 특징으로 하는 다지점 회의 서버.
제13항 내지 제17항 중 어느 한 항에 있어서,

상기 선택 수단은, 상기 음성 정보의 음성 데이터가 유음인지 무음인지에 기초하여 음성 정보가 선택되는 것을 특징으로 하는 다지점 회의 서버.
제13항 내지 제18항 중 어느 한 항에 있어서,

상기 가산 수단은, 상기 전체 신호 가산 수단에 의해 가산한 음성 정보로부터 선택한 상기 음성 정보를 1개씩 감산함으로써, 상기 선택한 음성 신호 중 하나의 음성 신호 이외의 음성 신호를 가산한 음성 신호를 얻는 것을 특징으로 하는 다지점 회의 서버.
복수의 음성 정보를 믹싱하는 음성 믹싱을 실행하는 프로그램으로서,

컴퓨터에,

복수의 음성 정보로부터 음성 정보를 선택하는 제1 스텝과,

선택한 음성 정보를 모두 가산하는 제2 스텝과,

상기 가산한 음성 정보로부터 선택한 상기 음성 정보를 1개씩 감산하는 제3 스텝과,

제2 스텝에 의해 얻어진 음성 정보를 부호화하는 제4 스텝과,

제3 스텝에 의해 얻어진 음성 정보를 부호화하는 제5 스텝과,

상기 제4 스텝에 의해 얻어진 부호화 정보를 상기 제5 스텝에서의 부호화 정보에 카피하는 제6 스텝을 실행시키는 것을 특징으로 하는 프로그램.