KR101597768B1

KR101597768B1 - 입체 음향을 이용한 다자간 인터랙티브 통화 시스템 및 방법

Info

Publication number: KR101597768B1
Application number: KR1020140049563A
Authority: KR
Inventors: 류상현; 김형국
Original assignee: 서울대학교산학협력단; 광운대학교 산학협력단
Priority date: 2014-04-24
Filing date: 2014-04-24
Publication date: 2016-02-25
Also published as: KR20150123092A

Abstract

다자간 인터랙티브 통화 시스템 및 방법을 공개한다. 본 발명은 각각 오디오 신호를 획득하고, 획득된 오디오 신호가 음성 신호인지 음향 신호인지 구분하여 오디오 패킷을 생성 및 전송하며, 혼합 오디오 패킷을 수신하고, 혼합 오디오 패킷에 포함된 신호 프레임의 손실을 판단하여 신호 프레임을 복구한 후, 입체 음향으로 변환하여 출력하는 복수개의 사용자 단말, 및 복수개의 사용자 단말 각각으로부터 독립적으로 오디오 패킷을 수신하고, 수신된 복수개의 오디오 패킷의 음성 신호 프레임과 음향 신호 프레임을 구분하여 각각 음량 이득을 독립적으로 조절하며, 음량 이득이 조절된 음성 신호 프레임과 음향 신호 프레임들을 동기 및 패킷화하여 혼합 오디오 패킷을 생성하는 오디오 서버를 포함한다.

Description

입체 음향을 이용한 다자간 인터랙티브 통화 시스템 및 방법{INTERACTIVE MULTIPARTY COMMUNICATION SYSTEM AND METHOD USING STEREOPHONIC SOUND}

본 발명은 다자간 인터랙티브 통화 시스템 및 방법에 관한 것으로, 특히 VoIP 기반 입체 음향을 이용한 다자간 인터랙티브 통화 시스템 및 방법에 관한 것이다.

통합네트워크 환경으로 발전되고 있는 인터넷을 중심으로 VoIP(Voice over Internet Protocol)는 1:1의 음성 및 영상통신에서 지금은 다수의 사용자가 참여하는 다자간 음성 및 영상 통신을 가능하게 하고 있으며, 최근에는 소셜 네트워크 서비스(SNS), 게임 등의 다양한 영역과의 융합을 통해 다수의 참여자로부터 입력되는 음성, 음악 및 사운드를 입체음향으로 전환하여 참여자들에게 몰입감을 갖도록 하는 다자간 인터랙티브 몰입형 통화 기술로 진화되어 가고 있다.

다자간 인터랙티브 오디오 통화를 제공하기 위해서, 서버의 오디오 믹서는 다수의 참여자들 각각으로부터 전송을 받은 복수개의 음성 및 오디오 정보를 실시간으로 디코딩(Decoding)- 믹싱(Mixing)-인코딩(Encoding) 과정을 통해 믹싱된 하나의 오디오 스트림을 다수의 참여자들 각각에게 전송하게 된다.

이러한 인터랙티브 통화를 위한 다중의 참여자와 오디오 믹서 간의 송신과 수신에 있어서는 무선/모바일 IP 네트워크상에서 발생하는 네트워크 과부하, 패킷 지연, 지터(Jitter), 그리고 패킷 손실 등의 민감한 문제들이 모바일 VoIP 기반의 인터랙티브 통화 서비스의 품질에 심각한 영향을 미치게 된다. 이러한 IP 네트워크 환경의 변동으로 인해 발생하는 패킷의 손실을 막고 손실된 패킷을 복원하기 위해 효과적인 패킷 손실 은닉 방식과 패킷 재생 스케줄링 방식이 연구되어 오고 있다. 기존에 개발되었던 패킷 손실 은닉 및 복원 방식은 수신측에서 손실된 패킷을 은닉하기 위해 손실된 패킷 이전과 이후의 패킷 정보를 활용하여 복원하는 패킷 손실 은닉 기술, 그리고 다수의 음성프레임을 하나의 패킷에 담아 송신부에서 전송하는 피기배킹(Piggybacking) 기술과 FEC(Forward Error Correction)기술 등을 이용하여 패킷 손실을 복원하는 방식이 연구되어 오고 있다.

기존에는 다자간 인터랙티브 통화를 가능하게 하는 서버의 오디오 믹서에서는 다중 참여자들의 각기 다른 환경 및 다양한 디바이스에 의해 생성되는 음성신호에 대해 음성 구간의 에너지 평균을 구하고 가장 큰 평균 값으로 음량을 균일화 시키는 이득조정 방식이 연구되어 오고 있다. 그러나 기존의 방식은 작은 음량을 크게 키워주는 과정에서 잡음이 함께 커지고 클리핑(Clipping)이 일어나는 문제가 발생한다. 그리고 과도하고 빈번한 이득조정은 출력 음성 신호에 불쾌한 잡음(Annoying Noise) 발생을 유발시키고, 이득 펙터의 변화가 크면 음성의 불연속 잡음이 발생하게 된다. 또한, 각 참여자의 단말기와 오디오 믹서간에 각각 독립적으로 발생하는 지터로 인해 믹싱시 음성 중복(Double Talk)와 묵음 불균형 현상이 발생된다.

한편 음원이 발생한 공간에 위치하지 않은 청취자가 음향을 들었을 때 방향감, 거리감 및 공간감을 지각할 수 있도록 음향에 공간 정보를 부가하는 입체음향 기술은 임의의 음원을 3차원 공간상에 위치시키기 위해 청취자 머리전달 함수를 이용하여 음상 정위를 구하는 방식, 초기 반사음과 잔향을 인공적으로 제어하여 특정 실내에 음원이 있는 것처럼 음향 효과를 생성하는 음장 제어 방식, 이어폰 및 헤드폰 착용시 음상이 머리내부에 맺히는 음상 내재화 현상을 제거하여 음상이 머리 외부에 맺히도록 하는 방식, 모노/스테레오 오디오를 다채널 오디오 신호로 변환하는 오디오 업믹싱 방식이 연구되어 오고 있다. 그러나 사람마다 머리전달 함수의 특성이 다르고, 입체음향 처리 연산의 계산 복잡도가 높으며, 입체음향을 재생할 때 사용하는 스피커에 따라서 음질이 크게 달라지는 문제가 발생하고 있다. 이와 함께, 몇 가지 알려진 음향지각 큐가 있으나, 그들간의 상대적 중요도도 아직 알려져 있지 않고, 아직 알려지지 않은 큐들이 얼마나 중요한 역할을 하는지에 대한 충분한 연구가 진행되어야 할 필요가 있다.

한국 공개 특허 제2010-0115732호에는 "실시간 스트리밍 인터랙티브 비디오의 다수의 뷰들을 결합하기 위한 시스템"이 개시되어 있으나, 이러한 선행기술들은 기본적으로 다자간 화상 회의를 위한 복수개의 영상을 처리하는 기술에 치우쳐져서, 실제 회의에서 중요한 음성 신호의 처리 방법에 대해서는 고려하지 않고 있는 실정이다.

본 발명의 목적은 각각 다른 환경 및 다양한 종류의 사용자 단말에서 생성된 오디오 스트림에 음성뿐만 아니라 음악과 같은 음향를 포함할 수 있고, 다수의 오디오 스트림의 음량을 균일화하여 하나의 멀티 캐스팅 오디오 스트림으로 믹싱하여 각 참여자에게 전송하며, 각각의 사용자 단말에서 멀티캐스팅 오디오 스트림을 입체음향으로 변환하여 출력함으로써, 참여자의 몰입감을 높일 수 있도록 하는 다자간 인터랙티브 통화 시스템을 제공하는데 있다.

본 발명의 다른 목적은 상기 목적을 달성하기 위한 다자간 인터랙티브 통화 방법을 제공하는데 있다.

상기 목적을 달성하기 위한 본 발명의 일 예에 따른 다자간 인터랙티브 통화 시스템은 각각 오디오 신호를 획득하고, 획득된 상기 오디오 신호가 음성 신호인지 음향 신호인지 구분하여 오디오 패킷을 생성 및 전송하며, 혼합 오디오 패킷을 수신하고, 상기 혼합 오디오 패킷에 포함된 신호 프레임의 손실을 판단하여 상기 신호 프레임을 복구한 후, 입체 음향으로 변환하여 출력하는 복수개의 사용자 단말; 및 상기 복수개의 사용자 단말 각각으로부터 독립적으로 상기 오디오 패킷을 수신하고, 수신된 복수개의 상기 오디오 패킷의 음성 신호 프레임과 음향 신호 프레임을 구분하여 각각 음량 이득을 독립적으로 조절하며, 음량 이득이 조절된 상기 음성 신호 프레임과 상기 음향 신호 프레임들을 동기 및 패킷화하여 상기 혼합 오디오 패킷을 생성하는 오디오 서버; 를 포함한다.

상기 복수개의 사용자 단말 각각은 외부의 입력 오디오 신호를 감지하여 오디오 신호를 획득하고, 획득된 상기 오디오 신호를 음성 신호인지 음향 신호인지 구분하여 상기 음성 신호와 상기 음향 신호를 개별적으로 인코딩 및 패킷화하여 상기 오디오 패킷을 생성하고, 생성된 상기 오디오 패킷을 상기 오디오 서버로 전송하는 오디오 패킷 전송부; 및 상기 오디오 서버로부터 전송된 상기 혼합 오디오 패킷을 수신하고, 상기 혼합 오디오 패킷을 디코딩하여 상기 신호 프레임을 획득하며, 상기 신호 프레임의 손실 여부에 따라 상기 신호 프레임을 복구하며, 상기 복수개의 사용자 단말의 개수에 대응하여 가상 공간에서의 음원 배치 위치를 결정하고, 결정된 음원 배치 위치에 따라 상기 신호 프레임을 입체 음향으로 변환하여 출력 오디오 신호를 출력하는 혼합 오디오 패킷 수신부; 를 포함하는 것을 특징으로 한다.

상기 오디오 패킷 전송부는 외부의 입력 오디오 신호를 감지하여 오디오 신호를 획득하는 오디오 신호 획득부; 상기 오디오 신호 획득부에서 획득한 상기 오디오 신호를 분석하여, 상기 오디오 신호가 상기 음성 신호인지 상기 음향 신호인지를 판별하는 음성 신호 판별부; 상기 음성 신호 판별부에서 판별된 상기 음성 신호와 상기 음향 신호를 독립적으로 인코딩하는 인코더; 및 상기 인코딩된 상기 음성 신호와 상기 음향 신호를 패킷화하여 상기 오디오 패킷을 생성하는 패킷 생성부; 를 포함하는 것을 특징으로 한다.

상기 혼합 오디오 패킷 수신부는 상기 오디오 서버에서 인가되는 복수개의 혼합 오디오 패킷 중 대응하는 혼합 오디오 패킷을 수신하여 저장하는 수신 버퍼부; 상기 수신 버퍼부에 저장된 상기 혼합 오디오 패킷을 분석하여 이후 수신될 상기 혼합 오디오 패킷에 대한 네트워크 지터를 추정하여 지터 추정부; 상기 혼합 오디오 패킷을 디코딩하여 상기 신호 프레임을 획득하는 디코더; 상기 디코더로부터 상기 신호 프레임을 인가받아 저장하는 프레임 버퍼부; 상기 프레임 버퍼부에 저장된 상기 신호 프레임의 헤더를 분석하여 상기 음성 신호에 대한 신호 프레임인지, 상기 음향 신호에 대한 신호 프레임인지 판별하는 프레임 분류부; 상기 프레임 버퍼부에 저장된 상기 신호 프레임의 헤더를 분석하여 상기 신호 프레임이 순차적으로 존재하는지 여부와, 상기 신호 프레임에 손실이 발생하였는지 및 상기 추정된 지터와 상기 신호 프레임 크기의 비율이 기설정된 임계치를 초과하는지 여부를 판단하고, 판단 결과에 따라 패킷 은닉, 패킷 복원 및 패킷 압축 중 한가지 기법을 적용하여 패킷을 복구하는 프레임 조정부; 상기 프레임 분류부의 분류에 따라 상기 음성 신호에 대한 상기 신호 프레임과 상기 음향 신호에 대한 상기 신호 프레임을 서로 다르게 입체 음향으로 변환하는 입체음향 변환부; 및 변환된 상기 입체 음향을 사용자가 청취 가능한 출력 오디오 신호로 출력하는 오디오 신호 출력부; 를 포함하는 것을 특징으로 한다.

상기 프레임 조정부는 상기 프레임 버퍼부에 저장된 상기 신호 프레임의 헤더에 포함된 시퀀스 번호를 분석하여, 순차적으로 인가될 상기 신호 프레임이 존재하는지 판별하는 프레임 연속성 판별부; 순차적으로 인가될 상기 신호 프레임이 존재하지 않는 경우에, 이전 인가된 상기 신호 프레임 및 이후 인가되는 상기 신호 프레임 중 적어도 하나를 이용하여 손실 은닉 프레임을 생성하여 상기 입체 음향 변환부로 전송하는 패킷 은닉부; 순차적으로 인가될 상기 신호 프레임이 존재하는 경우, 이전 인가된 상기 신호 프레임에 손실이 발생하였는지를 판별하는 프레임 손실 판별부; 이전 인가된 상기 신호 프레임에 손실이 발생한 것으로 판별되면, 상기 신호 프레임와 이전 인가된 상기 신호 프레임을 스무딩 합병하여 상기 입체 음향 변환부로 전송하는 스무딩 합병부; 이전 인가된 상기 신호 프레임에 손실이 발생하지 않았으면, 상기 네트워크 지터와 상기 신호 프레임의 크기 비율이 기설정된 임계 비율을 초과하는지 판별하는 지터 분석부; 및 상기 네트워크 지터와 상기 신호 프레임의 크기 비율이 기설정된 임계 비율을 초과하면, 상기 신호 프레임을 압축하여 상기 입체 음향 변환부로 전송하는 프레임 압축부; 를 포함하는 것을 특징으로 한다.

상기 입체 음향 변환부는 상기 복수개의 사용자 단말의 개수에 따라 각각의 사용자 단말이 배치될 가상 공간에서의 배치 위치를 기설정된 방식으로 설정하여 배치 위치 정보를 생성하는 가상 공간 설정부; 상기 신호 프레임이 상기 음성 신호에 대한 상기 신호 프레임인지, 상기 음향 신호에 대한 상기 신호 프레임인지 판별하는 음성 신호 추출부; 상기 음성 신호에 대한 상기 신호 프레임을 상기 배치 위치 정보와 기설정된 머리 전달 함수를 이용하여 상기 입체 음향으로 변환하는 직접 청취 변환부; 상기 음향 신호에 대한 상기 신호 프레임에 대한 상기 배치 위치 정보를 이용하여 음향 신호가 발생하는 상기 가상 공간의 좌표를 생성하는 공간 변환부; 상기 가상 공간의 좌표를 분석하여, 상기 가상 공간에서의 음향 신호가 상기 사용자에게 전달될 때 발생할 수 있는 반향 거리, 감쇄 이득값 및 지연 시간 등을 계산하여, 반향 신호를 생성하는 반향 신호 생성부; 및 상기 음향 신호에 대한 상기 신호 프레임와 반향 신호를 상기 머리 전달 함수에 적용하여 상기 입체 음향을 생성하는 전달함수 합성부; 를 포함하는 것을 특징으로 한다.

상기 오디오 서버는 상기 복수개의 사용자 단말의 개수에 대응하는 개수의 오디오 믹서부; 를 포함하고, 상기 오디오 믹서부 각각은 상기 복수개의 사용자 단말 중 대응하는 사용자 단말에서 인가되는 상기 오디오 패킷을 임시로 저장하는 패킷 버퍼부; 상기 패킷 버퍼부에 저장된 상기 오디오 패킷을 분석하여 다음 수신될 상기 오디오 패킷에 대한 네트워크 지터를 추정하는 지터부; 상기 패킷 버퍼부에 저장된 상기 오디오 패킷을 디코딩하여 오디오 신호 프레임을 획득하는 오디오 디코더; 상기 오디오 신호 프레임을 저장하는 신호 프레임 버퍼부; 상기 오디오 신호 프레임에 포함된 상기 오디오 신호의 음량을 조절하여 이득 오디오 신호를 생성하는 음량 이득 조절부; 다른 오디오 믹서부의 상기 음량 이득 조절부에서 생성된 상기 이득 오디오 신호를 수신 및 혼합하여 혼합 오디오 신호를 생성하는 오디오 믹서; 및 상기 혼합 오디오 신호를 패킷화하여 상기 혼합 오디오 패킷을 생성하는 패킷화부; 를 포함하는 것을 특징으로 한다.

상기 음량 이득 조절부는 상기 신호 프레임 버퍼부에 저장된 상기 오디오 신호 프레임을 수신하여 상기 음성 신호에 대한 상기 오디오 신호 프레임인지 상기 음향 신호에 대한 상기 오디오 신호 프레임인지를 분류하는 음성 신호 분류부; 상기 음성 신호에 대한 상기 오디오 신호 프레임을 인가받아 이득을 조절하는 음성 이득 조절부; 및 상기 음향 신호에 대한 상기 오디오 신호 프레임을 인가받아 이득을 조절하는 음향 이득 조절부; 를 포함하는 것을 특징으로 한다.

상기 음성 이득 조절부는 상기 음성 신호에 대한 상기 오디오 신호 프레임에서 잡음환경에 강인한 음성 구간을 검출하는 음성 구간 검출부; 상기 복수개의 사용자 단말 각각에 대한 채널간 음량 균일화 및 사용자 감정을 반영할 수 있도록 음성구간에 해당하는 음성 정보를 전달 받아서 문장 단위로 이득값을 계산하는 음성 이득값 연산부; 및 상기 음성 이득값 연산부에서 계산된 상기 이득값을 이용하여 상기 음성 신호에 대한 상기 오디오 신호 프레임의 이득을 조절하는 음성 균일화부; 를 포함하는 것을 특징으로 한다.

상기 음향 이득 조절부는 상기 음향 신호에 대한 상기 오디오 신호 프레임에서 묵음 구간과 신호 존재 구간을 검출하는 묵음 구간 검출부; 상기 복수개의 사용자 단말 각각에 대한 채널간 음량 균일화되도록 이득값을 계산하는 음향 이득값 연산부; 및 상기 음행 이득값 연산부에서 계산된 상기 이득값을 이용하여 상기 음향 신호에 대한 상기 오디오 신호 프레임의 이득을 조절하는 음향 균일화부; 를 포함하는 것을 특징으로 한다.

따라서, 본 발명의 다자간 인터랙티브 통화 시스템 및 방법은 다수의 참여자들의 각각 다른 환경 및 다양한 종류의 사용자 단말에 의해 생성되는 음성, 음악 및 사운드를 포함하는 오디오 스트림의 음량을 역동적인 IP 네트워크 망 변동에 따른 지연 및 지터에도 불구하고 오디오 서버에서 안정적으로 오디오 신호의 음량을 균일화시켜 하나의 오디오 스트림으로 실시간으로 믹싱하여 각각 사용자 단말에게 전송하고, 복수개의 사용자 단말 각각에서 입체음향 오디오로 전환하여 출력함으로써, 각 참여자에게 몰입감을 갖게 하고, 실시간으로 인터랙티브한 통신이 이루어지게 한다. 그러므로 오디오 및 영상통화, 그리고 인터랙티브 게임 및 소셜네트워크 기반 실감 컨텐츠 공유를 가능하게 한다.

도1 은 본 발명의 일실시예에 따른 다자간 인터랙티브 통화 시스템을 나타낸다.
도2 는 도1 의 사용자 단말의 구성을 나타낸다.
도3 은 도2 의 신호 프레임 조정부의 세부 구성의 일예를 나타낸다.
도4 는 도2 의 입체 음향 변환부의 세부 구성의 일예를 나타낸다.
도5 는 도1 의 오디오 서버의 구성을 나타낸다.
도6 은 도5 의 음량 이득 조절부의 세부 구성의 일예를 나타낸다.
도7 은 본 발명의 일실시예에 따른 다자간 인터랙티브 통화 방법을 나타낸다.

본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.

이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로서, 본 발명을 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 설명하는 실시예에 한정되는 것이 아니다. 그리고, 본 발명을 명확하게 설명하기 위하여 설명과 관계없는 부분은 생략되며, 도면의 동일한 참조부호는 동일한 부재임을 나타낸다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부", "...기", "모듈", "블록" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

도1 은 본 발명의 일실시예에 따른 다자간 인터랙티브 통화 시스템을 나타낸다.

도1 을 참조하면 본 발명의 다자간 인터랙티브 통화 시스템(10)은 복수개의 사용자 단말(100a ~ 100d) 및 오디오 서버(200)를 포함한다.

복수개의 사용자 단말(100a ~ 100d)은 다자간 영상 통화, 원격 화상회의, 소셜 네트워크 기반 실시간 컨텐츠 공유 및 다자간 인터랙티브 게임과 같은 다자간 인터랙티브 통화에 참여한 복수의 사용자 각각이 사용하는 단말로서, 모바일 기기, PC, 게임기 등의 다양한 장치가 활용될 수 있다. 복수개의 사용자 단말(100a ~ 100d)은 각각 대응하는 사용자에 의해 인가된 입력 오디오 신호(IAa ~ IAd)를 오디오 패킷(APa ~ APd)으로 변환하여 오디오 서버(200)로 전송한다. 또한 오디오 서버(200)에서 전송되는 혼합 오디오 패킷(MAPa ~ MAPd)을 분석하여 출력 오디오 신호(OAa ~ OAd)를 생성하여 출력한다.

여기서 복수개의 사용자 단말(100a ~ 100d) 각각은 입력 오디오 신호(IAa ~ IAd)에서 음성 및 음향을 구분하고, 구분된 음성과 음향에 대해 서로 다른 방식으로 신호 처리한 후 오디오 패킷을 생성하여 전송할 수 있다. 그리고 오디오 서버(200)로부터 혼합 오디오 패킷(MAPa ~ MAPd)이 수신되면, 혼합 오디오 패킷(MAPa ~ MAPd)의 헤더 정보로부터 지터를 추정하고, 추정된 지터를 이용하여 오디오 신호 프레임을 추출하여 출력 오디오 신호(OAa ~ OAd)를 생성한다. 이때 복수개의 사용자 단말(100a ~ 100d)은 추출된 오디오 신호 프레임에서 음성 신호와 음향 신호를 구분하여 출력 오디오 신호를 생성할 수 있다.

본 발명에서 음향 신호는 음성 신호를 제외한 모든 오디오 신호를 음향 신호인 것으로 가정하며, 음악(music)이나 효과음 등에 대한 오디오 신호를 대표적인 음향 신호라 할 수 있다.

특히 본 발명에서 복수개의 사용자 단말(100a ~ 100d) 각각은 출력 오디오 신호를 입체 음향의 형태로 출력할 수 있을 뿐만 아니라, 구분된 음성 신호와 음향 신호에 따라 입체 음향의 효과를 상이하게 하여 사용자에게 제공할 수 있다.

한편 오디오 서버(200)는 다자간 인터랙티브 통화 시스템(10)에서 오디오 컨텐츠에 대한 중앙 분배기로서의 역할을 수행한다. 오디오 서버(200)는 복수개의 사용자 단말(100a ~ 100d) 각각에서 전송된 복수개의 오디오 패킷(APa ~ APd)을 분석하여 지터를 추정하고, 추정된 지터에 따라 복수개의 오디오 패킷(APa ~ APd)을 동기화 한다. 그리고 복수개의 오디오 패킷(APa ~ APd)을 디코딩하여 복수개의 신호 프레임을 획득하고, 획득된 복수개의 신호 프레임 각각 음량(이득)을 독립적으로 조절하여 균일화한 후, 조절된 복수개의 신호 프레임을 혼합(mixing) 및 패킷화하여 복수개의 사용자 단말(100a ~ 100d)로 혼합 오디오 패킷(MAPa ~ MAPd)을 전송한다. 특히 본 발명에서는 오디오 서버(200)는 신호 프레임에서 음성 신호와 음향 신호를 구분하여 서로 다르게 이득을 조절함으로써, 복수개의 사용자 단말(100a ~ 100d)이 음성 신호와 음향 신호를 구분하여 처리할 수 있도록 한다.

도1 에서는 일예로 다자간 인터랙티브 통화 시스템(10)이 4개의 사용자 단말(100a ~ 100d)을 구비하는 것으로 도시하였으나, 사용자 단말(100a ~ 100d)의 개수는 이에 한정되지 않으며, 인터랙티브 통화 시스템(10)은 2개 이상의 사용자 단말(100a ~ 100d)을 포함하여 구성될 수 있다.

도2 는 도1 의 사용자 단말의 구성을 나타낸다.

도2 에서는 복수개의 사용자 단말(100a ~ 100d) 중 하나의 사용자 단말(100a)에 대한 구성만을 예로서 나타내었으나, 나머지 사용자 단말(100b ~ 100d) 또한 동일한 형태로 구성될 수 있다. 도1 을 참조하여 도2 의 사용자 단말(100a)의 구성을 설명하면, 사용자 단말(100a)는 오디오 패킷 전송부(PT)와 혼합 오디오 패킷 수신부(PR)를 포함한다.

오디오 패킷 전송부(PT)는 외부에서 인가된 입력 오디오 신호(IAa)로부터 오디오 신호를 획득하고, 획득된 오디오 신호를 오디오 패킷(APa)으로 변환하여 오디오 서버(200)로 전송한다. 오디오 패킷 전송부(PT)는 오디오 신호 획득부(110), 음성신호 판별부(115), 필터부(120), 인코더(125) 및 패킷 생성부(130)를 포함한다. 오디오 신호 획득부(110)는 외부에서 인가되는 입력 오디오 신호(IAa)로부터 오디오 신호를 획득한다. 오디오 신호 획득부(110)는 마이크(Mic)와 같은 음향 획득 수단으로 구현될 수 있으며, 이 경우, 입력 오디오 신호(IAa)는 음성 신호 이외에도 음악 및 효과음 등의 음향 신호가 포함될 수 있으며, 아날로그 신호의 형태로 인가될 수 있다. 경우에 따라서, 오디오 신호 획득부(110)는 저장 매체나 통신 수단 등으로 구현되어 기저장되거나 외부의 기기로부터 디지털 형태의 입력 오디오 신호(IAa)를 획득할 수도 있으나, 본 발명에서는 오디오 신호 획득부(110)가 아날로그 형태의 입력 오디오 신호(IAa)를 획득하는 것으로 가정하여 설명한다.

음성 신호 판별부(115)는 오디오 신호 획득부(110)에서 획득된 오디오 신호를 분석하여, 오디오 신호가 음성 신호인지 음향 신호인지를 판별한다. 음성 신호는 역동적인 에너지 변화를 갖는 반면, 빈번한 묵음과 잡음을 포함하는 비음성 구간이 존재한다. 그러나 음악 및 사운드와 같은 음향 신호는 특별한 경우를 제외한 대부분의 경우에는 묵음 구간을 포함하지 않기 때문에 음성 신호 판별부(115)는 오디오 신호를 기설정된 시간(예를 들면 1초)구분하여 비음성 구간을 검출하고, 비음성 구간의 에너지와 오디오 신호 에너지의 비율을 이용하여 비음성 구간의 빈도수를 측정함으로써, 오디오 신호가 음성 신호인지 음향 신호인지를 판별할 수 있다. 에너지 기반으로 비음성 구간의 빈도수를 측정함으로써, 음성 음향을 식별하는 방식은 공지된 기술로서, SVM(Support Vector Machine) 또는 GMM(Gaussian Mixture Model)을 사용하는 확률적 모델 기반의 분류 방식에 비해 고속 연산이 가능하다는 장점이 있다. 그러나 음성 신호 판별부(115)가 확률적 모델 기반의 분류 방식을 이용할 수도 있다.

또한 경우에 따라서는 음성 신호 판별부(115)가 사용자 명령에 응답하여 음성 신호와 음향 신호를 구분할 수 있도록 구성될 수도 있다. 예를 들어 사용자 단말(100a)에 음성 구분을 위한 사용자 인터페이스를 구비하고, 사용자 인터페이스를 이용한 사용자의 명령에 응답하여 음성 신호가 인가되는 구간으로 판별하도록 설정될 수도 있다. 예를 들면, 사용자 단말은 사용자 인터페이스로서 터치 스크린을 구비하고, 터치 스크린에 터치가 인가된 경우에는 오디오 신호에 음성 신호와 구분된 헤더 파일 또는 메타 데이터를 추가함으로써, 음향 신호를 구분할 수 있도록 한다.

음성 신호 판별부(115)는 획득된 오디오 신호가 음성 신호인 것으로 판별되면, 필터부(120)로 음성 신호를 전송하고, 음성 신호가 아닌 음향 신호인 것으로 판별되면, 인코더(125)로 음향 신호를 전송한다.

필터부(120)는 음성 신호 판별부(115)로부터 음성 신호를 수신하고, 수신된 음성 신호에서 잡음과 에코를 제거하여 음질을 개선한다. 음성 신호에 대한 잡음과 에코를 제거하는 기술은 알려진 기술이므로 여기서는 상세하게 설명하지 않는다.

인코더(125)는 필터부(120)를 통해 음질이 개선된 음성 신호를 수신하고, 음성 신호 판별부(115)로부터 음향 신호를 수신하고 기설정된 방식으로 부호화한다. 음성 신호 판별부(115)가 음성 신호와 달리 음향 신호를 필터부(120)를 거치지 않고 곧바로 인코더(125)로 전송하는 것은 주파수 대역이 특정 대역으로 제한될 수 있는 음성 신호와 달리 음향 신호는 제한되기 어렵기 때문이다.

패킷 생성부(130)는 인코더(125)에서 부호화된 음성 신호 및 음향 신호를 패킷화하여 오디오 패킷(APa)을 오디오 서버(200)로 전송한다. 이때 패킷 생성부는 음성 신호와 음향 신호를 구분하여 오디오 패킷(APa)을 생성할 수도 있으며, 음성 신호와 음향 신호를 모두 포함하는 오디오 패킷(APa)을 생성할 수도 있다. 패킷 생성부는 음성 신호 및 음향 신호를 신호 프레임으로 구분한 후 오디오 패킷(APa)을 생성할 수 있으며, 신호 프레임에는 타임 스탬프(Timestamp), 시퀀스 번호(Sequence Number), 음성 및 음향 신호를 구분하기 위한 태그 정보, 음성 신호의 경우에는 음성 및 비음성 구간을 구분하기 위한 음성 구간 정보, 음향 신호의 경우에는 신호 존재 구간 정보 및 부보화된 음성 정보 등을 포함하는 헤더가 추가될 수 있다. 그리고 패킷 생성부(130)는 생성된 오디오 패킷(APa)을 스트리밍 방식으로 오디오 서버(200)로 전송할 수 있다.

한편, 혼합 오디오 패킷 수신부(PR)는 수신 버퍼부(140), 지터 추정부(145), 디코더(150), 프레임 버퍼부(155), 프레임 분류부(160), 프레임 조정부(170), 입체음향 변환부(180) 및 오디오 신호 출력부(190)를 포함한다.

수신 버퍼부(140)는 오디오 서버(200)에서 인가되는 복수개의 혼합 오디오 패킷(MAPa ~ MAPd) 중 대응하는 혼합 오디오 패킷(MAPa)를 수신하여 버퍼링한다.

지터 추정부(145)는 수신 버퍼부(140)에 저장된 혼합 오디오 패킷(MAPa)을 분석하여 다음 수신될 혼합 오디오 패킷에 대한 네트워크 지터를 추정하여 프레임 조정부(170)로 전송한다. 지터 추정부(145)는 네트워크 지터를 추정하기 위해, 현재 도착한 혼합 오디오 패킷(MAPa)의 네트워크 지터를 계산하고, 이와 동시에 현재 네트워크 환경이 정상 상태인지 비정상 상태인지를 판별한다. 그리고 판별된 네트워크 환경에 따라 현재 네트워크 지터의 평균 및 분산, 그리고 현재 지터의 분산 가중치를 조정한다. 최종적으로 조정된 분산 가중치와 계산된 네트워크 지터의 평균 및 분산을 이용하여 다음 수신될 혼합 오디오 패킷(MAPa)의 네트워크 지터를 추정한다.

디코더(150)는 수신 버퍼부(140)에 저장된 혼합 오디오 패킷(MAPa)를 디코딩하여 신호 프레임을 획득하여 프레임 버퍼부(155)로 전송한다. 프레임 버퍼부(155)는 디코더(150)에서 인가된 신호 프레임을 임시 저장한다.

프레임 분류부(160)는 프레임 버퍼부(155)에 저장된 신호 프레임의 헤더를 분석하여 음성 신호에 대한 프레임과 음향 신호에 대한 프레임을 구분한다. 그리고 음성 신호로 구분되면 음성 및 비음성 구간을 판단하고, 음향 신호로 구분되면 신호 존재 구간 및 묵음 구간을 판단하여 판단 결과를 프레임 조정부(170) 및 입체 음향 변환부(180)로 전송한다.

프레임 조정부(170)는 프레임 버퍼부(155)에 저장된 신호 프레임을 인가받고, 프레임 분류부(160)로부터 신호 프레임의 분석 결과를 수신한다. 더불어 프레임 조정부(170)는 지터 추정부(145)로부터 추정된 네트워크 지터를 수신한다. 프레임 조정부(170)는 프레임 버퍼부(155)에서 인가되는 신호 프레임이 순차적으로 존재하는지 여부와, 신호 프레임에 손실이 발생하였는지 및 추정된 지터와 신호 프레임 크기의 비율이 기설정된 임계치를 초과하는지 여부를 판단하고, 판단 결과에 따라 패킷 은닉, 패킷 복원 및 패킷 압축 중 한가지 기법을 적용하여 패킷을 조정한다. 그리고 조정된 패킷을 입체 음향 변환부(180)로 전송한다.

입체 음향 변환부(180)는 프레임 조정부(170)에서 조정된 신호 프레임을 수신하고, 프레임 분류부(160)로부터 신호 프레임에 대한 분석 결과를 수신한다. 그리고 음성 신호에 대한 신호 프레임과 음향 신호에 대한 신호 프레임을 구분하여 서로 다른 방식으로 신호 프레임을 입체 음향으로 변환하여 오디오 신호 출력부(190)로 출력한다.

오디오 신호 출력부(190)는 입체 음향 변환부(180)에서 변환된 입체 음향을 사용자가 청취할 수 있는 아날로그 형태의 출력 오디오 신호(OAa)로 변환하여 출력한다.

도3 은 도2 의 신호 프레임 조정부의 세부 구성의 일예를 나타낸다.

도2 를 참조하여 도3 의 신호 프레임 조정부(170)의 구성을 설명하면, 신호 프레임 조정부(170)는 프레임 연속성 판별부(171), 패킷 은닉부(172), 프레임 손실 판별부(173), 스무딩 합병부(174), 지터 분석부(175) 및 프레임 압축부(176)를 포함한다.

프레임 연속성 판별부(171)는 프레임 버퍼부(155)에서 인가되는 신호 프레임의 헤더에 포함된 시퀀스 번호를 분석하여, 순차적으로 인가될 i(여기서 i는 0 이상의 정수)번째 신호 프레임(F_i)이 존재하는지 판별한다. 만일 i번째 신호 프레임(F_i)이 존재하지 않는 것으로 판단되면, 프레임 연속성 판별부(171)는 패킷 은닉부(172)로 패킷이 존재하지 않음을 통보한다. 한편, 프레임 연속성 판별부(171)는 i번째 신호 프레임(F_i)이 순차적으로 인가된 것으로 판단되면, 프레임 손실 판별부(173)로 신호 프레임(F_i)을 전달한다.

패킷 은닉부(172)는 패킷 손실 은닉 횟수에 따라 단구간 손실 은닉과 장구간 손실 은닉으로 구별되어 프레임 복원을 수행한다. 연속된 손실 은닉 횟수가 기설정된 패킷 손실 문턱값보다 작다면 단구간 손실은닉을 수행한다.

단구간 손실 은닉을 수행하는 경우에는 프레임 버퍼부(155)에 저장된 다음 신호 프레임(F_i+1, F_i+2, …)이 존재하는지 확인한다. 프레임 버퍼부(155)에 이후 신호 프레임(F_i+1, F_i+2, …)이 존재하지 않고, 수신 버퍼부(140)에도 이후 수신된 다른 혼합 오디오 패킷(MAPa)이 존재하지 않으면, 이전 정상 수신된 신호 프레임(F_i-1, F_i-2, …)에 선형예측 방식을 적용하여 손실된 신호 프레임의 대체신호를 생성한다. 그러나 프레임 버퍼부(155)에 이후 신호 프레임(F_i+1, F_i+2, …)이 저장되어 있지 않고, 수신 버퍼부(140)에 이후 수신된 혼합 오디오 패킷(MAPa)이 존재한다면, 디코더(150)로 디코딩 요청하여 프레임 버퍼부(155)에 이후 신호 프레임(F_i+1, F_i+2, …)이 저장되도록 하고, 저장된 이후 신호 프레임(F_i+1, F_i+2, …)을 인가받아 대체 신호프레임을 생성하고, 각각 생성된 대체신호 간의 중첩-합을 수행하여 손실 은닉 프레임을 생성한다.

반면 다음 신호 프레임(F_i+1, F_i+2, …)이 프레임 버퍼부(155)에 존재하면, 이전 정상 수신된 신호 프레임(F_i-1, F_i-2, …)과 이후 신호 프레임(F_i+1, F_i+2, …) 각각에 대해 선형예측 방식을 적용하여 대체 신호 프레임을 생성하고, 각각 생성된 대체 신호 프레임간의 중첩-합을 수행하여 손실 은닉 프레임을 생성한다.

한편 패킷 은닉부(172)는 연속된 손실 은닉 횟수가 기설정된 패킷 손실 문턱값 이상이면 장구간 손실은닉을 수행한다. 장구간 손실은닉은 프레임 버퍼(155) 및 수신 버퍼부(140)에 이후 신호 프레임(F_i+1, F_i+2, …) 및 혼합 오디오 패킷(MAPa)이 존재하지 않으므로, 이전 정상 수신된 신호 프레임(F_i-1, F_i-2, …)을 이용해 반복적으로 손실 은닉 프레임을 생성함으로 인해 버즈 사운드(buzz)가 발생하게 된다. 이를 방지하기 이해 장구간 손실 은닉 수행 시에는 선형예측으로 손실 은닉 프레임을 생성하고, 생성된 손실 은닉 프레임에 소거 스케일링을 적용하여 버즈사운드를 제거한다.

그리고 패킷 은닉부(172)는 생성된 손실 은닉 프레임을 입체 음향 변환부(180)로 전송한다.

프레임 손실 판별부(173)는 프레임 연속성 판별부(171)에서 i번째 신호 프레임(F_i)이 순차적으로 인가된 것으로 판단한 경우에, 신호 프레임(F_i)을 수신한다. 그리고 신호 프레임(F_i) 이전 인가된 신호 프레임(F_i-1)에 손실이 발생하였는지 여부를 판별한다. 프레임 손실 판별부(173)는 이전 인가된 신호 프레임(F_i-1)에 손실이 발생한 것으로 판별되면, 신호 프레임(F_i)과 이전 인가된 신호 프레임(F_i-1)을 스무딩 합병부(174)로 전송한다. 그러나 이전 인가된 신호 프레임(F_i-1)에 손실이 없는 것으로 판별되면, 지터 분석부(176)로 신호 프레임(F_i)을 전송한다.

스무딩 합병부(174)는 프레임 손실 판별부(173)에서 인가된 신호 프레임(F_i)과 이전 인가된 신호 프레임(F_i-1)을 기설정된 방식으로 스무딩 합병하여, 입체 음향 변환부(180)로 전송한다. 여기서 스무딩 합병은 공지된 기술이므로 여기서는 상세하게 설명하지 않는다.

지터 분석부(176)는 지터 추정부(145)에서 추정된 네트워크 지터(JT)를 수신하고, 프레임 손실 판별부(173)로부터 신호 프레임(F_i)을 수신한다. 그리고 추정된 지터(JT)에 대한 수신된 신호 프레임(F_i)의 크기 비율이 기설정된 임계 비율을 초과하면, 신호 프레임(F_{i)을 프레임 압축부(176)로 전송한다. 그러나 임계 비율을 초과하지 않으면, 신호 프레임(Fi})을 그대로 입체 음향 변환부(180)로 전송한다.

프레임 압축부(176)는 지터 분석부(176)에서 수신된 신호 프레임(F_i)을 압축하여 입체 음향 변환부(180)로 전송한다.

도4 는 도2 의 입체 음향 변환부의 세부 구성의 일예를 나타낸다.

입체 음향 변환부(180)은 가상 공간 설정부(181), 음성 신호 추출부(182), 직접 청취 변환부(183), 공간 변환부(184), 반향 신호 생성부(185), 및 전달함수 합성부(186)를 포함한다.

가상 공간 설정부(181)는 다자간 인터랙티브 통화 시스템에 참여한 사용자 단말(100a ~ 100d) 수에 따라 각각의 사용자 단말(100a ~ 100d)이 배치될 가상 공간을 기설정된 방식으로 설정한다. 즉 가상 공간에서 각 사용자 단말의 배치 위치는 사용자 단말(100a ~ 100d) 수에 대응하여 미리 설정될 수 있으며, 경우에 따라서는 사용자에 의해 직접 가상 공간에서의 배치 위치 정보가 설정될 수도 있다. 그리고 설정된 배치 위치 정보와 신호 프레임을 음성 신호 추출부(182)로 전송한다. 이때 가상 공간 설정부(181)는 가상 공간에서의 배치 위치를 음성 신호와 음향 신호에 대해 구분하여 각각 다르게 설정할 수 있다.

음성 신호 추출부(182)는 가상 공간 설정부(181)를 통해 인가된 신호 프레임(CF_i)이 음성 신호에 대한 신호 프레임인지, 음향 신호에 대한 신호 프레임인지 판별한다. 판별 결과, 음성 신호에 대한 신호 프레임이면 직접 청취 변환부(183)로 전송하고, 음향 신호에 대한 신호 프레임이면, 공간 변환부(184)로 신호 프레임을 전송한다.

직접 청취 변환부(183)는 음성 신호 추출부(182)로부터 음성 신호에 대한 신호 프레임과 배치 위치 정보를 수신하고, 배치 위치 정보에 따른 기설정된 머리 전달 함수를 이용하여 음성 신호를 변환한다. 여기서 머리전달 함수는 상기한 입체 음향 변환 시에 이용되는 함수로서, 음원의 위치와 사용자의 머리 형상에 의해 청취되는 소리의 변화를 함수로 구성한 것이다. 즉 머리전달 함수에 음원의 위치에 대응하는 배치 위치 정보와 음원인 신호 프레임을 대입하면, 사용자에게 음원 위치에서 소리가 발생한 것처럼 변환된 신호를 출력할 수 있다. 따라서 직접 청취 변환부(183)는 배치 위치 정보와 음성 신호에 대한 신호 프레임을 기설정된 머리 전달 함수에 대입하여 음성 출력 오디오 신호(OAV)를 생성하여 오디오 신호 출력부(190)으로 전달한다.

한편, 공간 변환부(184)는 음성 신호 추출부(182)로부터 음향 신호에 대한 신호 프레임과 배치 위치 정보를 수신한다. 그리고 배치 위치에 따라 음향 신호가 발생하는 가상 공간의 좌표를 생성하여, 반향 신호 생성부(185)로 전송한다. 즉 청취자인 사용자로부터의 음향 신호가 제공될 상대적 위치 좌표를 획득한다. 반향 신호 생성부(185)는 가상 공간의 좌표를 분석하여, 가상 공간에서의 음향 신호가 사용자에게 전달될 때 발생할 수 있는 반향 거리, 감쇄 이득값 및 지연 시간 등을 생성하여, 반향 신호를 생성한다.

전달함수 합성부(186)는 음향 신호와 반향 신호를 머리 전달 함수에 적용하여, 사용자가 실제감 있는 음향을 청취 할 수 있도록 한다.

본 발명에서 음성 신호와 음성 신호를 구분하여 입체 음향으로 변환하는 것은 음향 신호의 경우, 실제감을 높이기 위해 반향 신호를 생성할 필요가 있지만, 음성 신호의 경우에는 반향 신호가 합성되면 음성의 명료성 및 이해도가 저하되기 때문이다. 또한 오디오 서버(200)를 통해 균일화시킨 음성신호의 재불균일화가 발생되어 음성신호의 이해도가 저하되지 않도록 각 화자의 위치에 따른 지연이 반영된 음성신호를 반영하지 않는다.

입체 음향 변환부(180)에서 가상 공간은 박스(Box) 형태로 공간의 폭, 길이, 높이 등의 좌표로 구성되며 사용자의 취향에 맞게 사용자가 직접 공간 좌표값을 기입할 수가 있다. 그리고 반향거리는 음원이 가상공간의 각 벽에서 반사되어 청취자에게 입력되는 신호의 거리이다. 이 반향거리를 기반으로 오디오 신호가 가상공간의 각 벽에 반사되어 청취자에게 입력되는 각도인 입사각, 각 벽에서 음원의 오디오 신호가 청취자에게 입력될 때의 지연된 시간, 반향거리에 따라 이득 값이 줄어드는 감쇄 이득 값을 계산한다. 그리고 공간 파라미터의 흡수 이득값과 감쇄 이득값, 지연시간을 이용하여 가상공간의 벽에서 반사되어 청취자에게 입력된 반향신호를 생성한다. 이러한 가상공간에서 생성되는 반향신호는 디지털 필터를 통해서 구현될 수 있다. 본 발명에서 구현된 가상공간 반향신호 생성을 위한 디지털 필터는 FIR (Finite Impulse Response) 기반의 전처리 저주파 필터, IIR (Infinite Impulse Response) 기반의 DC 블록킹 필터, 신호지연의 전향 이득값과 후향 이득값을 결합한 Allpass 필터, 가상공간의 벽면의 수만큼 반영하는 피드백 Comb 필터로 구성될 수 있다.

또한 입체음향 청취를 위한 가장 중요한 각 참여자 혹은 청취자의 머리전달 함수는 남성 50명과 여성 50명으로 구성된 머리전달함수 데이터베이스와 연계된 얼굴검출 기능을 통해 머리전달함수 데이터 베이스 중에서 하나로 선택된다. 각 참여자 단말기내에 내재된 얼굴영역검출 기능을 통해 참여자의 얼굴영역을 검출한다. 검출된 얼굴영역은 머리전달함수 데이터베이스와 연결되어 있는 얼굴영역과의 비교를 통해 가장 유사한 얼굴영역을 선정하고, 선정된 얼굴영역에 상응하는 머리전달함수를 머리전달함수 데이터베이스로부터 선출하여 머리사이즈의 오차에 해당하는 크기만큼 FIR 필터 혹은 IIR 필터 등을 적용하여 청취자에게 맞는 머리전달함수를 기반으로 입체음향 생성에 적용할 수 있다.

도5 는 도1 의 오디오 서버의 구성을 나타낸다.

오디오 서버(200)는 다자간 인터랙티브 통화 시스템에 포함되는 사용자 단말(100a ~ 100d)의 개수에 대응하는 개수로 복수개의 오디오 믹서부(200a ~ 200d)를 포함할 수 있으나, 도5 에서는 설명의 편의를 위해 대표적으로 하나의 오디오 믹서부(200a)만을 도시하였다.

도5 를 참조하면, 오디오 믹서부(200a)는 패킷 버퍼부(210), 지터부(220), 오디오 디코더(230), 신호 프레임 버퍼부(240), 음량 이득 조절부(250), 오디오 믹서(260) 및 패킷화부(270)를 포함한다.

우선 패킷 버퍼부(210)는 복수개의 사용자 단말(100a ~ 100d) 중 대응하는 사용자 단말(100a)에서 독립적으로 인가되는 오디오 패킷(APa)을 임시로 저장한다. 그리고 지터부(220)는 사용자 단말(100a ~ 100d)의 지터 추정부(145)와 마찬가지로 패킷 버퍼부(210)에 저장된 오디오 패킷(APa)을 분석하여 다음 수신될 오디오 패킷(APa)에 대한 네트워크 지터를 추정하여 오디오 믹서(260)로 전송한다.

오디오 디코더(230)는 패킷 버퍼부(210)에 저장된 오디오 패킷(APa)을 디코딩하여 신호 프레임을 획득하여 신호 프레임 버퍼부(240)로 전송한다. 신호 프레임 버퍼부(240)는 오디오 디코더(230)에서 인가된 신호 프레임을 저장하고, 음량 이득 조절부(250)는 신호 프레임에 포함된 오디오 신호의 음량을 기설정된 음량으로 조절하여 이득 오디오 신호(GAa)를 출력한다. 복수개의 오디오 믹서부(200a ~ 200d) 각각의 음량 이득 조절부(250)가 동일한 음량으로 이득 오디오 신호(GAa)를 출력하면, 복수개의 사용자 단말(100a ~ 100d) 각각에서 인가된 오디오 신호의 음량이 일정하게 되어 균일화 될 수 있다.

음량 이득 조절부(250)는 이득 오디오 신호(GAa ~ GAd)를 복수개의 오디오 믹서부(200a ~ 200d) 중 자신을 제외한 다른 오디오 믹서부(200b ~ 200d)의 오디오 믹서(260)로 전송한다. 여기서 음량 이득 조절부(250)는 이득 오디오 신호(GAa)를 자신을 제외한 다른 오디오 믹서부(200b ~ 200d)의 오디오 믹서(260)로 전송하는 것은 대응하는 사용자 단말(100a)에서 전송된 오디오 신호를 다시 대응하는 사용자 단말(100a)로 회신할 필요가 없을 뿐만 아니라, 회신하는 경우, 에코 현상이 발생할 우려가 높기 때문이다.

오디오 믹서(260)는 자신이 포함된 오디오 믹서부(200a)를 제외한 다른 오디오 믹서부(200b ~ 200d) 각각의 음량 이득 조절부(250)에서 인가되는 이득 오디오 신호(GAb ~ GAd )를 수신하고, 지터부(220)에서 인가되는 지터값에 따라 동기화하고, 혼합(mixing)한다.

오디오 믹서(260)는 사용자 단말(100a ~ 100d)가 연결된 인터랙티브 통화 시에 사용자 단말(100c)가 사용자 단말(100a)의 오디오 패킷(APa)을 수신을 받을 때 네트워크 상황이 좋지 않아 사용자 단말(100a)의 오디오 패킷(APa)이 늦게 도착하였지만, 갑자기 네트워크 상태가 좋아져 사용자 단말(100b)의 오디오 패킷(APb)이 빠르게 도착하는 경우가 발생하여 사용자 단말(100a)의 오디오 패킷(APa)의 재생이 끝나기도 전에 사용자 단말(100b)의 오디오 패킷(APb)이 재생되어 두 오디오 패킷(APa, APb)이 동시에 재생되는 더블 토크(Double Talk)상황이 발생하는 것을 동기화를 이용하여 방지한다. 또한 더블 토크 와는 반대로 사용자 단말(100c)의 네트워크 상황이 급격히 나빠지는 경우 사용자 단말(100a)의 오디오 패킷(APa)은 빠르게 전달 받아 재생되었으나, 네트워크 지연의 증가로 인해 사용자 단말(100b)의 오디오 패킷(APb)이 늦게 도착하는 경우에 사용자 단말(100c)가 경험하는 묵음구간의 불균형을 제거한다. 오디어 믹서에서는 각 참여자간의 지터환경을 고려하여 각 화자에서 발생한 오디오 패킷(APa ~ APd) 생성시간을 효과적으로 동기화하여 수신된 패킷의 길이를 조정할 수 있다.

그리고 패킷화부(270)은 오디오 믹서에서 동기화되고 혼합된 혼합 오디오 신호를 수신하여 패킷화하여 혼합 오디오 패킷(MAPa)를 생성하고, 생성된 혼합 오디오 패킷(MAPa)를 대응하는 사용자 단말(100a)로 전송한다.

도6 은 도5 의 음량 이득 조절부의 세부 구성의 일예를 나타낸다.

음량 이득 조절부(250)는 음성 신호 분류부(251)와 음성 이득 조절부 및 음향 이득 조절부를 포함한다. 음성 이득 조절부는 음성 균일화부(252), 음성 구간 검출부(253) 및 음성 이득값 연산부(254)를 포함하고, 음향 이득 조절부는 음향 균일화부(255), 묵음 구간 검출부(256) 및 음향 이득값 연산부(257)를 포함한다.

음성 신호 분류부(251)는 신호 프레임 버퍼부(240)에 저장된 신호 프레임(SF_i)을 수신하여 음성 신호에 대한 신호 프레임인지 음향 신호에 대한 신호 프레임인지를 분류하고, 음성 신호에 대한 신호 프레임이면, 음성 균일화부(252) 및 음성 구간 검출부(253)로 신호 프레임(SF_i)을 전송한다. 반면, 음향 신호에 대한 신호 프레임이면, 음향 균일화부(255) 및 묵음 구간 검출부(256)로 신호 프레임(SF_i)을 전송한다.

음성 구간 검출부(253)는 음성 신호에 대한 신호 프레임에서 잡음환경에 강인한 음성구간을 검출한다. 잡음환경에 강인한 음성구간 검출은 음성 패킷의 에너지가 초기 설정된 에너지 문턱값보다 작고, 자기상관도 초기 설정된 자기상관 문턱값 보다 작은 경우에는 비음성구간으로 판별될 수 있고, 나머지 경우에 대해서는 음성구간으로 판별될 수 있다. 비음성구간으로 분류되면 현재의 잡음상황에 맞게 적응적으로 에너지의 문턱값과 자기상관의 문턱값을 각각 갱신시킨다. 음성구간으로 판별된 음성 신호프레임이 실제 음성구간인지, 갑작스런 잡음레벨의 변화로 인해서 오검출 되고 있는지를 판별하기 위해서 음성 신호프레임의 에너지와 자기상관의 최소값을 찾아서 잡음레벨을 추정하고 문턱값을 갱신한다. 음성 신호프레임의 평균에너지를 이용한 에너지의 변화율과 평균 자기상관의 변화율을 이용하여 잡음상황의 변화를 감지하고 에너지의 문턱값과 오토코릴레이션의 문턱값을 적응적으로 갱신한다. 평균에너지가 상승하는 추세라고 판별이 되면, 높아진 평균 에너지만큼 적응적으로 에너지의 문턱값을 갱신해주고, 평균 자기상관이 상승하는 추세라고 판별이 되면, 높아진 평균 자기상관만큼 적응적으로 자기상관의 문턱값을 갱신해준다. 반대로 평균에너지가 하강하는 추세라고 판별이 되면, 낮아진 평균에너지만큼 적응적으로 에너지의 문턱값을 갱신해주고, 평균 자기상관이 하강하는 추세라고 판별이 되면 낮아진 평균 자기상관만큼 적응적으로 자기상관의 문턱값을 갱신해준다. 갑작스런 잡음레벨 상승으로 인해서 에너지와 자기상관의 문턱값이 갱신되지 못한 경우, 평균 에너지와 평균 자기상관에서 구간 최소값을 찾아서 잡음레벨을 추정한다. 평균에너지와 평균 자기상관의 구간 최소값이 문턱값보다 커지게 되면 잡음레벨의 변화가 발생되었다고 가정하고 변화한 잡음레벨만큼 적응적으로 에너지와 자기상관의 문턱값을 상승시킨다.

음성 구간 검출부(S253)가 음성구간을 검출하면, 음성 이득값 연산부(254)는 채널간 음량균일화 및 사용자 감정반영을 위해 음성구간에 해당하는 음성 패킷의 정보를 전달 받아서 문장 단위로 이득값을 계산한다. 이때, 음성구간으로 판별 되었지만 잡음구간에서 음성구간으로 오검출 되는 부분이 존재하는 경우를 대비하여 평균 에너지의 구간 최소값을 지속적으로 찾아서 잡음의 에너지 레벨을 추정한다. 음성구간으로 판별된 음성 패킷의 에너지가 추정된 잡음의 에너지 레벨보다 낮으면 이득값의 계산을 방지하고, 에너지가 추정된 잡음의 에너지 레벨보다 크면 이득값을 계산한다. 이전 패킷과 현재 패킷의 피크값 비교를 통해서 문장단위로 최대 피크값을 구하고, 음량기준값과 최대 피크값의 비율로 각 문장의 이득값을 계산한다.

감정변화를 반영하기 위한 시작 이득값 결정부에서는 문장 단위로 계산된 이득값을 통해 음성 패킷에 적용할 시작 이득값을 결정 한다. 시작 이득값이 결정된 이후, 음량변화의 상황구분을 위한 이득값의 유지 및 갱신 결정부에서는 각 문장에서 계산되는 이득값과 시작 이득값의 비교를 통해서 이득값을 갱신할 것인지, 계속 유지할 것인지를 결정한다. 최종적으로 결정된 음성 이득값은 음량 균일화 및 음량포화 방지를 위한 음성 이득 적용부로 전달된다.

문장단위로 계산된 이득값을 통해서 화자가 평상시에 말을 하는 보통상황의 목소리 톤을 추정하고, 추정된 목소리 톤에 해당하는 초기적용 이득값 혹은 시작 이득값을 결정한다. 보통상황의 목소리 톤에 해당하는 음량크기를 추정해서 계산된 이득값을 계속 유지하여 동일한 이득값을 적용시킴으로써, 무리한 음량균일화로 인해 문장에서 감정의 변화가 사라지는 것을 방지한다.

보통상황의 목소리 톤에 해당하는 목소리 톤을 결정하기 위해서 각 문장에서 계산되는 이득값의 변화가 일정 수렴범위에 해당하지 않으면, 보통상황의 목소리 톤에 해당하는 이득값을 계산하는 동안에도 이득값이 점차적으로 변화하도록 하기 위해서 스무딩을 통한 이득값을 적용한다. 각 문장에서 계산되는 이득값의 변화가 일정 수렴범위에 해당되면, 이득값이 수렴되었다고 판단하고, 최근에 입력된 문장의 이득값의 평균을 이용해서 시작 이득값을 결정한다.

그리고 시작 이득값이 결정되지 않는 상황을 방지 하기 위해 오디오 이득값 콘트롤 시작 후, 시작 이득값이 결정되지 않은 시간을 계산한다. 이득값의 변화가 일정 수럼범위에 들어오지 않아 S초 동안 시작 이득값이 결정되지 않는다면, 이득값이 수렴하지 않더라도 가장 최근에 입력된 문장들 중에서 이득값의 차이가 가장 적은 문장에서의 이득값을 획득하고 이를 이용해서 시작 이득값을 결정한다.

음성 균일화부(252)는 음성 이득값 연산부(254)에서 결정된 이득값을 음성 신호 분류부(251)에서 인가된 신호 프레임에 적용할 때, 음량포화가 발생한다면, 음량포화 정도에 따른 비율로 음성 이득값을 감소시키고, 급격한 음성 이득값의 변화로 인해서 발생하는 음성신호의 왜곡을 방지하기 위해서 이전의 이득값과 현재 이득값의 차이를 통해서 이득값의 변화를 계산한다. 이득값의 변화가 발생한다면, 이득값의 차이만큼 선형적으로 이득값이 변화하면서 적용되도록 한다. 이득값의 변화가 없다면, 현재 이득값을 그대로 음성신호에 적용한다.

한편, 음향 이득 조절부의 묵음 구간 검출부(256)는 음향 신호 프레임에서 추정된 에너지 최소값을 신호 존재 문턱값으로 설정하고, 묵음구간과 신호존재구간을 검출한다. 그리고 음향 이득값 연산부(257)는 채널간 음량 균일화를 위한 이득값을 연산하여 결정한다. 음향 이득값 연산부(257)은 음성 이득값 연산부(255)와 달리 사용자 감정반영을 고려할 필요가 없으므로, 채널간 음량 균일화만을 고려한다.

음향 균일화부(255)는 음성 균일화부(252)와 유사하게, 음향 이득값 연산부(257)에서 결정된 이득값을 음성 신호 분류부(251)에서 인가된 신호 프레임에 적용할 때, 음량포화가 발생한다면, 음량포화 정도에 따른 비율로 음향 이득값을 감소시키고, 급격한 음향 이득값의 변화로 인해서 발생하는 음향신호의 왜곡을 방지하기 위해서 이전의 이득값과 현재 이득값의 차이를 통해서 이득값의 변화를 계산한다. 이득값의 변화가 없다면, 현재 이득값을 그대로 음향신호에 적용한다.

도7 은 본 발명의 일실시예에 따른 다자간 인터랙티브 통화 방법을 나타낸다.

도1 내지 도6 을 참조하여 도7 의 다자간 인터랙티브 통화 방법을 설명하면, 우선 복수개의 사용자 단말(100a ~ 100d) 각각이 오디오 신호 획득부(110)를 이용하여 입력 오디오 신호(IAa ~ IAd)를 획득한다(S11). 그리고 획득된 입력 오디오 신호(IAa ~ IAd)에서 음성 신호와 음향 신호를 구분한다(S12). 복수개의 사용자 단말(100a ~ 100d)은 구분된 음성 신호와 음향 신호를 구분하여 개별적으로 인코딩하여 신호 프레임을 생성하고, 생성된 신호 프레임을 패킷화하여 오디오 패킷(APa ~ APd)을 생성하여 오디오 서버(200)로 전송한다(S13).

오디오 서버(200)는 복수개의 사용자 단말(100a ~ 100d) 각각에서 독립적으로 전송되는 오디오 패킷(APa ~ APd)을 수신하고, 분석하여 지터를 획득하고, 디코딩하여 신호 프레임을 복원한다(S14). 그리고 복원된 복수개의 신호 프레임의 음량을 균일화하기 위한 음량 이득값을 계산하고, 음량 이득값에 따라 음량 이득을 조절한다(S15). 이때 오디오 서버(200)는 음량 이득값을 음성에 대한 신호 프레임과 음향에 대한 신호 프레임을 구분하여 조절할 수 있다. 그리고 오디오 서버(200)는 음량 이득이 조절된 신호 프레임을 지터부(220)에서 분석한 지터에 따라 동기화하고, 복수개의 사용자 단말(100a ~ 100d)에서 전송되어 동기화된 신호 프레임을 혼합하여 혼합 오디오 패킷(MAPa ~ MAPd)을 생성한 후 복수개의 사용자 단말(100a ~ 100d)로 전송한다.

복수개의 사용자 단말(100a ~ 100d) 각각은 오디오 서버(200)로부터 대응하는 혼합 오디오 패킷(MAPa ~ MAPd)을 수신하고, 수신된 혼합 오디오 패킷(MAPa ~ MAPd)을 디코딩하여 신호 프레임을 생성한다(S18). 이때, 복수개의 사용자 단말(100a ~ 100d) 각각은 수신된 혼합 오디오 패킷(MAPa ~ MAPd)을 이용하여 지터를 추정한다.

그리고 디코딩된 신호 프레임을 분석하여 음성 신호에 대한 신호 프레임과 음향 신호에 대한 신호 프레임을 분류하고, 신호 프레임이 정상적으로 수신되었는지, 손실이 발생되었는지 여부를 판단하여 신호 프레임을 조정한다(S19).

신호 프레임 조정은 신호 프레임의 비정상 종류에 따라 패킷 은닉, 패킷 복원 및 패킷 압축 중 한가지 기법을 적용할 수 있다.

복수개의 사용자 단말(100a ~ 100d) 각각은 신호 프레임이 조정되면, 조정된 신호 프레임을 입체 음향으로 변환한다(S20). 신호 프레임은 음성 신호에 대한 신호 프레임인지 또는 음향 신호에 대한 신호 프레임인지에 따라 다르게 변환될 수 있다.

마지막으로 복수개의 사용자 단말(100a ~ 100d) 각각은 변환된 입체 음향을 사용자가 청취 할 수 있도록 출력 오디오 신호로서 출력한다(S21).

본 발명에 따른 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.

따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims

각각 오디오 신호를 획득하고, 획득된 상기 오디오 신호가 음성 신호인지 음향 신호인지 구분하여 오디오 패킷을 생성 및 전송하며, 혼합 오디오 패킷을 수신하고, 상기 혼합 오디오 패킷에 포함된 신호 프레임의 손실을 판단하여 상기 신호 프레임을 복구한 후, 입체 음향으로 변환하여 출력하는 복수개의 사용자 단말; 및
상기 복수개의 사용자 단말 각각으로부터 독립적으로 상기 오디오 패킷을 수신하고, 수신된 복수개의 상기 오디오 패킷의 음성 신호 프레임과 음향 신호 프레임을 구분하여 각각 음량 이득을 독립적으로 조절하며, 음량 이득이 조절된 상기 음성 신호 프레임과 상기 음향 신호 프레임들을 동기 및 패킷화하여 상기 혼합 오디오 패킷을 생성하는 오디오 서버; 를 포함하고, 상기 오디오 서버는
상기 복수개의 사용자 단말의 개수에 대응하는 개수의 오디오 믹서부; 를 포함하며,
상기 오디오 믹서부 각각은
상기 복수개의 사용자 단말 중 대응하는 사용자 단말에서 인가되는 상기 오디오 패킷을 임시로 저장하는 패킷 버퍼부;
상기 패킷 버퍼부에 저장된 상기 오디오 패킷을 분석하여 다음 수신될 상기 오디오 패킷에 대한 네트워크 지터를 추정하는 지터부;
상기 패킷 버퍼부에 저장된 상기 오디오 패킷을 디코딩하여 오디오 신호 프레임을 획득하는 오디오 디코더;
상기 오디오 신호 프레임을 저장하는 신호 프레임 버퍼부;
상기 오디오 신호 프레임에 포함된 상기 오디오 신호의 음량을 조절하여 이득 오디오 신호를 생성하는 음량 이득 조절부;
다른 오디오 믹서부의 상기 음량 이득 조절부에서 생성된 상기 이득 오디오 신호를 수신 및 혼합하여 혼합 오디오 신호를 생성하는 오디오 믹서; 및
상기 혼합 오디오 신호를 패킷화하여 상기 혼합 오디오 패킷을 생성하는 패킷화부; 를 포함하는 것을 특징으로 하는 다자간 인터랙티브 통화 시스템.
제1 항에 있어서, 상기 복수개의 사용자 단말 각각은
외부의 입력 오디오 신호를 감지하여 오디오 신호를 획득하고, 획득된 상기 오디오 신호를 음성 신호인지 음향 신호인지 구분하여 상기 음성 신호와 상기 음향 신호를 개별적으로 인코딩 및 패킷화하여 상기 오디오 패킷을 생성하고, 생성된 상기 오디오 패킷을 상기 오디오 서버로 전송하는 오디오 패킷 전송부; 및
상기 오디오 서버로부터 전송된 상기 혼합 오디오 패킷을 수신하고, 상기 혼합 오디오 패킷을 디코딩하여 상기 신호 프레임을 획득하며, 상기 신호 프레임의 손실 여부에 따라 상기 신호 프레임을 복구하며, 상기 복수개의 사용자 단말의 개수에 대응하여 가상 공간에서의 음원 배치 위치를 결정하고, 결정된 음원 배치 위치에 따라 상기 신호 프레임을 입체 음향으로 변환하여 출력 오디오 신호를 출력하는 혼합 오디오 패킷 수신부; 를 포함하는 것을 특징으로 하는 다자간 인터랙티브 통화 시스템.
제2 항에 있어서, 상기 오디오 패킷 전송부는
외부의 입력 오디오 신호를 감지하여 오디오 신호를 획득하는 오디오 신호 획득부;
상기 오디오 신호 획득부에서 획득한 상기 오디오 신호를 분석하여, 상기 오디오 신호가 상기 음성 신호인지 상기 음향 신호인지를 판별하는 음성 신호 판별부;
상기 음성 신호 판별부에서 판별된 상기 음성 신호와 상기 음향 신호를 독립적으로 인코딩하는 인코더; 및
상기 인코딩된 상기 음성 신호와 상기 음향 신호를 패킷화하여 상기 오디오 패킷을 생성하는 패킷 생성부; 를 포함하는 것을 특징으로 하는 다자간 인터랙티브 통화 시스템.
제3 항에 있어서, 상기 오디오 패킷 전송부는
상기 음성 신호 판별부로부터 상기 음성 신호를 인가받고, 기설정된 방식으로 잡음 및 에코를 제거하여 음질을 개선하여 상기 인코더로 전송하는 필터부; 를 더 포함하는 것을 특징으로 하는 다자간 인터랙티브 통화 시스템.
제3 항에 있어서, 상기 복수개의 사용자 단말 각각은
사용자 명령을 인가받기 위한 사용자 인터페이스를 더 구비하고,
상기 음성 신호 판별부는 상기 사용자 인터페이스를 통해 상기 사용자 명령이 인가되는 구간에 획득된 상기 오디오 신호를 음성 신호로 판별하는 것을 특징으로 하는 다자간 인터랙티브 통화 시스템.
제2 항에 있어서, 상기 혼합 오디오 패킷 수신부는
상기 오디오 서버에서 인가되는 복수개의 혼합 오디오 패킷 중 대응하는 혼합 오디오 패킷을 수신하여 저장하는 수신 버퍼부;
상기 수신 버퍼부에 저장된 상기 혼합 오디오 패킷을 분석하여 이후 수신될 상기 혼합 오디오 패킷에 대한 네트워크 지터를 추정하여 지터 추정부;
상기 혼합 오디오 패킷을 디코딩하여 상기 신호 프레임을 획득하는 디코더;
상기 디코더로부터 상기 신호 프레임을 인가받아 저장하는 프레임 버퍼부;
상기 프레임 버퍼부에 저장된 상기 신호 프레임의 헤더를 분석하여 상기 음성 신호에 대한 신호 프레임인지, 상기 음향 신호에 대한 신호 프레임인지 판별하는 프레임 분류부;
상기 프레임 버퍼부에 저장된 상기 신호 프레임의 헤더를 분석하여 상기 신호 프레임이 순차적으로 존재하는지 여부와, 상기 신호 프레임에 손실이 발생하였는지 및 상기 추정된 지터와 상기 신호 프레임 크기의 비율이 기설정된 임계치를 초과하는지 여부를 판단하고, 판단 결과에 따라 패킷 은닉, 패킷 복원 및 패킷 압축 중 한가지 기법을 적용하여 패킷을 복구하는 프레임 조정부;
상기 프레임 분류부의 분류에 따라 상기 음성 신호에 대한 상기 신호 프레임과 상기 음향 신호에 대한 상기 신호 프레임을 서로 다르게 입체 음향으로 변환하는 입체음향 변환부; 및
변환된 상기 입체 음향을 사용자가 청취 가능한 출력 오디오 신호로 출력하는 오디오 신호 출력부; 를 포함하는 것을 특징으로 하는 다자간 인터랙티브 통화 시스템.
제6 항에 있어서, 상기 지터 추정부는
상기 수신 버퍼부에 저장된 상기 혼합 오디오 패킷의 상기 네트워크 지터를 계산하고, 네트워크 환경이 정상 상태인지 비정상 상태인지를 판별하며, 판별된 상기 네트워크 환경에 따라 현재 상기 네트워크 지터의 평균 및 분산, 그리고 상기 네트워크 지터의 분산 가중치를 조정한 후, 조정된 상기 분산 가중치와 계산된 상기 네트워크 지터의 평균 및 분산을 이용하여 다음 수신될 상기 혼합 오디오 패킷의 상기 네트워크 지터를 추정하는 것을 특징으로 하는 다자간 인터랙티브 통화 시스템.
제6 항에 있어서, 상기 프레임 조정부는
상기 프레임 버퍼부에 저장된 상기 신호 프레임의 헤더에 포함된 시퀀스 번호를 분석하여, 순차적으로 인가될 상기 신호 프레임이 존재하는지 판별하는 프레임 연속성 판별부;
순차적으로 인가될 상기 신호 프레임이 존재하지 않는 경우에, 이전 인가된 상기 신호 프레임 및 이후 인가되는 상기 신호 프레임 중 적어도 하나를 이용하여 손실 은닉 프레임을 생성하여 상기 입체 음향 변환부로 전송하는 패킷 은닉부;
순차적으로 인가될 상기 신호 프레임이 존재하는 경우, 이전 인가된 상기 신호 프레임에 손실이 발생하였는지를 판별하는 프레임 손실 판별부;
이전 인가된 상기 신호 프레임에 손실이 발생한 것으로 판별되면, 상기 신호 프레임와 이전 인가된 상기 신호 프레임을 스무딩 합병하여 상기 입체 음향 변환부로 전송하는 스무딩 합병부;
이전 인가된 상기 신호 프레임에 손실이 발생하지 않았으면, 상기 네트워크 지터와 상기 신호 프레임의 크기 비율이 기설정된 임계 비율을 초과하는지 판별하는 지터 분석부; 및
상기 네트워크 지터와 상기 신호 프레임의 크기 비율이 기설정된 임계 비율을 초과하면, 상기 신호 프레임을 압축하여 상기 입체 음향 변환부로 전송하는 프레임 압축부; 를 포함하는 것을 특징으로 하는 다자간 인터랙티브 통화 시스템.
제6 항에 있어서, 상기 입체 음향 변환부는
상기 복수개의 사용자 단말의 개수에 따라 각각의 사용자 단말이 배치될 가상 공간에서의 배치 위치를 기설정된 방식으로 설정하여 배치 위치 정보를 생성하는 가상 공간 설정부;
상기 신호 프레임이 상기 음성 신호에 대한 상기 신호 프레임인지, 상기 음향 신호에 대한 상기 신호 프레임인지 판별하는 음성 신호 추출부;
상기 음성 신호에 대한 상기 신호 프레임을 상기 배치 위치 정보와 기설정된 머리 전달 함수를 이용하여 상기 입체 음향으로 변환하는 직접 청취 변환부;
상기 음향 신호에 대한 상기 신호 프레임에 대한 상기 배치 위치 정보를 이용하여 음향 신호가 발생하는 상기 가상 공간의 좌표를 생성하는 공간 변환부;
상기 가상 공간의 좌표를 분석하여, 상기 가상 공간에서의 음향 신호가 상기 사용자에게 전달될 때 발생할 수 있는 반향 거리, 감쇄 이득값 및 지연 시간 등을 계산하여, 반향 신호를 생성하는 반향 신호 생성부; 및
상기 음향 신호에 대한 상기 신호 프레임와 반향 신호를 상기 머리 전달 함수에 적용하여 상기 입체 음향을 생성하는 전달함수 합성부; 를 포함하는 것을 특징으로 하는 다자간 인터랙티브 통화 시스템.
삭제
제1 항에 있어서, 상기 음량 이득 조절부는
상기 신호 프레임 버퍼부에 저장된 상기 오디오 신호 프레임을 수신하여 상기 음성 신호에 대한 상기 오디오 신호 프레임인지 상기 음향 신호에 대한 상기 오디오 신호 프레임인지를 분류하는 음성 신호 분류부;
상기 음성 신호에 대한 상기 오디오 신호 프레임을 인가받아 이득을 조절하는 음성 이득 조절부; 및
상기 음향 신호에 대한 상기 오디오 신호 프레임을 인가받아 이득을 조절하는 음향 이득 조절부; 를 포함하는 것을 특징으로 하는 다자간 인터랙티브 통화 시스템.
제11 항에 있어서, 상기 음성 이득 조절부는
상기 음성 신호에 대한 상기 오디오 신호 프레임에서 잡음환경에 강인한 음성 구간을 검출하는 음성 구간 검출부;
상기 복수개의 사용자 단말 각각에 대한 채널간 음량 균일화 및 사용자 감정을 반영할 수 있도록 음성구간에 해당하는 음성 정보를 전달 받아서 문장 단위로 이득값을 계산하는 음성 이득값 연산부; 및
상기 음성 이득값 연산부에서 계산된 상기 이득값을 이용하여 상기 음성 신호에 대한 상기 오디오 신호 프레임의 이득을 조절하는 음성 균일화부; 를 포함하는 것을 특징으로 하는 다자간 인터랙티브 통화 시스템.
제12 항에 있어서, 상기 음성 균일화부는
상기 이득값 이용하여 상기 음성 신호에 대한 상기 오디오 신호 프레임의 이득을 조절할 때 음량포화가 발생한다면, 상기 음량포화 정도에 따른 비율로 상기 이득값을 감소시키는 것을 특징으로 하는 다자간 인터랙티브 통화 시스템.
제11 항에 있어서, 상기 음향 이득 조절부는
상기 음향 신호에 대한 상기 오디오 신호 프레임에서 묵음 구간과 신호 존재 구간을 검출하는 묵음 구간 검출부;
상기 복수개의 사용자 단말 각각에 대한 채널간 음량 균일화되도록 이득값을 계산하는 음향 이득값 연산부; 및
상기 음향 이득값 연산부에서 계산된 상기 이득값을 이용하여 상기 음향 신호에 대한 상기 오디오 신호 프레임의 이득을 조절하는 음향 균일화부; 를 포함하는 것을 특징으로 하는 다자간 인터랙티브 통화 시스템.
제14 항에 있어서, 상기 음향 균일화부는
상기 이득값 이용하여 상기 음향 신호에 대한 상기 오디오 신호 프레임의 이득을 조절할 때 음량포화가 발생한다면, 상기 음량포화 정도에 따른 비율로 상기 이득값을 감소시키는 것을 특징으로 하는 다자간 인터랙티브 통화 시스템.