KR20160048912A

KR20160048912A - 혼잡한 통신 채널에서 오디오 통신의 유지

Info

Publication number: KR20160048912A
Application number: KR1020167008123A
Authority: KR
Inventors: 비찬 카리미-처칸디; 파로크 모함마드자데 코우츠리; 슈아 왈리 알리
Original assignee: 유니파이 게엠베하 운트 코. 카게
Priority date: 2013-08-29
Filing date: 2013-08-29
Publication date: 2016-05-04
Also published as: CN105493425A; EP3039803B1; TW201517565A; AR097465A1; EP3039803A1; US9712666B2; WO2015030769A1; RU2658602C2; CN105493425B; US20160198040A1; KR101787594B1; RU2016111281A; TWI590620B; JP2016529839A; JP6355741B2

Abstract

본 발명은 송신자 측과 수신자 측 간의 오디오 통신에서 스피치의 전송을 현재 감당하는 혼잡한 통신 채널에서 오디오 통신을 유지하는 통신 시스템 및 방법에 관한 것이며, 통신 채널은 적어도 하나의 시그널링 채널 및 서비스 품질을 갖는 적어도 하나의 페이로드 채널을 갖는다. 오디오 통신 동안, 페이로드 채널의 서비스 품질이 모니터링된다. 페이로드 채널의 서비스 품질이 임계치 미만인 경우, 각각의 송신자 측의 스피치는 텍스트로 변환되고, 유지된 통신 채널 상에서 각각의 수신자 측에 전송된다. 텍스트는 수신자 측에서 음성으로 역으로 변환될 수 있다.

Description

혼잡한 통신 채널에서 오디오 통신의 유지{MAINTAINING AUDIO COMMUNICATION IN A CONGESTED COMMUNICATION CHANNEL}

본 발명은 혼잡 통신 채널에서 오디오 통신을 유지하는 방법, 이러한 방법을 수행하기 위한 컴퓨터 프로그램, 이러한 방법을 수행하기 위한 애플리케이션이 저장되어 있는 비-일시적인 컴퓨터-판독 가능 매체 및 이 방법을 수행하도록 적응된 통신 시스템에 관한 것이다.

사용자들은 종종, 예컨대, 특정한 스피치(speech) 데이터에서, 높은 BER(bit error rate) 또는 패킷 손실과 같은 네트워크 문제들에 의해 발생되는 데이터의 전송에 관한 문제들에 직면한다. 이들 문제들은 특히, 무선 오디오 통신에서 종종 발생한다. 그 결과, 통신의 품질은 떨어지고 극단적으로 열등하게 된다. 이들 에러들이 단지 하나의 특정 통신 채널로부터만이 아니라 전체 네트워크에 관한 문제들로부터 발생하는 경우, 심지어 재발신(redial)도 더 나은 품질을 갖는 호(call)를 설정하는데 도움이 되지 않을 것이다. 그러나 예를 들어, 긴급 호(emergency call)와 같은 호는 중요할 수 있다.

결과적으로, 원격통신 제공자들은 심각한 네트워크 문제들의 경우에서 조차 오디오 통신을 보존(save)하기 위한 양호한 해결책을 제공해야 한다.

협의되고 설정된 코덱들 및/또는 베어러 채널들을 통한 통신의 보존은 열등한 대역폭, 높은 패킷 지연, 너무 많은 패킷 손실들 또는 높은 BER로 인해 가능하지 않을 수 있다.

US 7,617,106 B2에 따라, 올바른 STT(speech-to-text) 변환을 확인하기 위해, 변환된 텍스트는 재차 스피치로 변환된다. 원래의 스피치 및 텍스트 표현으로부터 생성된 스피치 둘 다가 그 후 스테레오 헤드셋을 통해 재생된다. 교정-독자(proof-reader)(이 경우 교정-청취자임)가 원래의 스피치와 변환된 스피치 간의 차이를 발견하는 것은 쉽다. US 7,697,551 B2는 시스템을 통해 전화 및 IM(instant messaging)을 상호연결하는 것을 교시한다. 이 시스템은 IM 텍스트를 스피치로 변환하고, 그 후 스피치를 다시 IM 텍스트로 변환한다. US 2002/123892 A1는 인터페이스 상에서 사용자에게 제시되는 텍스트로 스피치를 변환하기 위한 임베딩된 시스템을 개시한다. 에러의 경우, 사용자는 시스템에 오인식 에러 표시를 제공한다. 결국, 활성 언어 모델에 대한 참조와 함께 오디오 입력은 트레이닝 프로세스로 포워딩된다. CN 201440733 U에 따라, 수화 이미지가 모바일 통신 디바이스의 카메라에 의해 캡처된다. 화상 트랙은 이미지들로부터 구축되고, 대강의 텍스트 정보로 변환된다. 이 텍스트는 추가로 문법 및 어휘 결합 파라미터들에 의해 정제된다. JP 2006005440 A는, 소란스런 환경에 있는 경우, 모바일 전화의 카메라가 입술 움직임들의 화상을 포착하고 이들을 전송하는 것을 교시한다. 수신자 측에서, 이들 화상들은 동영상들로서 디스플레이된다. 대안으로서, 단지 입술 움직임 파라미터들만이 전송된다. US 2005/049868 A1에 따라, 단어들 또는 구문들이 텍스트-스피치 애플리케이션에 전달된다. 생성된 스피치는 그 후 하나 또는 그 초과의 스피치-투-텍스트 엔진들에 전달된다. 신뢰도 레벨이 유추된 단어들 또는 구문들에 할당된다.

위에서 언급된 문제들은 청구항 1에 따른 방법에 의해 해결될 수 있다. 본 발명의 유리한 실시예들은 종속 청구항들의 청구 대상이다.

본 발명에 따라, 송신자 측과 수신자 측 간의 오디오 통신에서 스피치의 전송을 현재 감당(bearing)하는 혼잡한 통신 채널에서 오디오 통신을 유지하기 위한 방법은 다음의 단계들: 페이로드 채널의 서비스 품질이 모니터링되는 단계, 페이로드 채널의 서비스 품질이 특정 임계치 미만인 경우 적어도 통신 채널의 시그널링 채널이 유지되는 동시에, 페이로드 채널 상에서 송신자 측으로부터의 스피치의 송신이 중단되는 단계를 포함하며, 통신 채널은 적어도 하나의 시그널링 채널 및 (가변) 서비스 품질을 갖는 적어도 하나의 페이로드 채널을 포함한다. 즉, 방법은 통신 채널을 드롭(drop)함 없이, 즉, 적어도 통신 채널의 시그널링 부분을 유지하면서 오디오 데이터의 송신이 정지되는 것을 제공한다. 스피치 데이터(간략히 "스피치"로도 불림)의 송신의 이러한 중단은 "완전한" 통신 채널, 즉 그의 페이로드 채널을 유지하면서 수행될 수 있다는 것은 말할 필요도 없다. 송신자로부터 수신자 측으로 스피치의 전송 대신, 스피치는 텍스트로 변환되고 텍스트 데이터로서 수신자 측으로 송신된다. 사용자에 의해 또는 통신 방법의 제어 센터에 의해 달리 지시되지 않으면, 수신자 측에서 생성된 스피치는 텍스트로 변환되고, 이제 수신자 측인 (이전의) 송신자 측에 송신된다. 즉, 텍스트 데이터만을 전송하도록 스위칭한 이후, 각각의 송신자 측의 스피치는 텍스트로 변환되고 각각의 수신자 측으로 전송된다.

설명된 바와 같이, 본 발명의 방법을 이용함으로써, 호는 열등한 서비스 품질의 조건 하에서도 보존될 수 있다.

본 발명의 일 양상에 따라, 텍스트 데이터의 전송은 페이로드 채널 상에서 발생한다.

본 발명은, 혼잡한 통신 채널의 대역폭이 낮은 서비스 품질 또는 대역폭을 갖는 채널을 이용하는 것이 가능하도록 오디오 스트림을 회피하고 필요한 정보를 텍스트 데이터로서 통신/전송하기에 여전히 충분할 수 있다는 추론에 기초한다. 서비스 품질은 모든 타입들의 통신에서 기존의 매트릭스에 의해 감지될 수 있다. 페이로드 채널 또는 RTP(real-time transport protocol) 채널에서 음성 스트림의 서비스의 품질은 특히 다음과 같이 검출될 수 있다:

1) 스트림의 (IP UDP(User Datagram Protocol) 패킷들에서 전송되는) RTP 패킷들은 순차적으로 열거(numerate)된다. 패킷 손실들은 하나 또는 그 초과의 패킷들이 누락될 때 쉽게 검출될 수 있다. 비순차적(out of sequence)인 패킷들이 또한 검출될 수 있다. 이는 IP 패킷들이 목적지까지 상이한 루트들을 취할 때 발생할 수 있다.

2) 비트 에러를 갖는 패킷들은 불량 패킷들을 나타낸다. RTP 스트림이 비트 에러 검출 매커니즘이 아니라 일부 인코딩들(encodings)을 가질 수 있지만, RTP 페이로드는 (RFC 4867에 따라) 비트 에러들을 검출할 가능성을 갖는다. 이러한 맥락에서, G.722와 같은 코덱들 및 AMR-타입 코덱들이 이용될 수 있다.

3) 수신자들의 패킷 지연 및 지터 버퍼 셋업은 열등한 전송 품질을 또한 검출하는데 이용될 수 있다. 정의된/이용된 코덱에 기초하여, RTP 패킷 인터벌이 결정된다. 패킷들이 전송 기간에 걸쳐 지연되기 때문에, 통상적으로 전용 버퍼가 몇 개의 패킷들을 버퍼링하고 지터 도달들을 평활화(smooth out)하는데 이용된다. 이 버퍼는 스트림으로부터의 지연된 플레이를 야기한다. 수신자 측 상의 사람은 전송기를 볼 수 없기 때문에, 특정한 양까지의 지연(또는 "래그"라고도 불림)은 용인된다. 그러나 이 버퍼의 크기는 유한하고, 패킷들의 도달이 버퍼 크기를 초과하여 지연될 때, 스피치의 일시정지들이 수신자 측에 의해 인식될 것이다. 지터 버퍼 언더런(underrun)은 또한 불량 음성 품질(서비스 품질)의 표시일 수 있다.

4) 스트림 재구성 이후 오디오를 분석하는 것은 또한 불량 오디오 품질을 검출하는데 이용될 수 있다. 급작스런 오디오 변화들에 기초하여, 불규칙성들을 검출하는 것이 가능하다.

본 발명의 방법이 수신된 텍스트를 음성으로 다시 변환하는 단계를 포함하는 경우가 각각의 수신자에게 유리할 수 있다. 이 경우에, 전화 호 또는 오디오 통신에 관여하는 사용자들은 청각에 기초하여 자신의 통신을 지속할 수 있고, 스피치로부터 텍스트로 이전에 변환되었던 전송된 텍스트들 읽도록 강제되지 않는다. 물론, 그의 마지막에 각각의 사용자들은 스피치로 재변환된 텍스트를 받는 대신, 통신 채널에 의해 전송된 텍스트를 계속 디스플레이하도록 시스템에 강제할 수 있다는 것이 가능하다.

페이로드 채널의 서비스 품질이 지속적으로 모니터링되는 경우, "정상" 오디오 통신 또는 전화 호를 재설정하기 위해, 충분한 서비스 품질이 검출되자 마자, 유지된 페이로드 채널 상에서 스피치를 전송하도록 다시 스위칭하는 것이 유리할 수 있다.

스피치의 송신이 중단되고, 스피치-투-텍스트 변환으로부터 발생하는 텍스트 데이터가 대신 전송되면, 경고 메시지가 각각의 수신자 측에 전송되는 것이 유리할 수 있다. 이는 각각의 수신자가 현재 통신의 임박한 변화에 대해 더 잘 대비하도록 도울 수 있다.

현재 오디오 통신이 특정한 키 및 특정 알고리즘을 이용하여 암호화되는 경우에, 전송된 텍스트를 또한 암호화하기 위해 동일한 키 및 동일한 알고리즘을 이용하는 것이 유리하다. 이러한 방식으로, 단지 텍스트 데이터의 전송으로의 변화가 발생했더라도 보안 연결의 특징이 유지될 수 있다.

본 발명의 일 양상에 따라, 시그널링 채널만이 텍스트를 전송하기 위해 이용될 수 있다. 그에 의해, 예를 들어, 서비스 품질(전송 품질)이 너무 낮은 경우, 또는 페이로드 채널의 이용을 위한 전하들을 절감하기 위해, 현재 통신 채널의 페이로드 채널을 드롭하는 것이 가능하다. 이런 상황에서, 데이터는 RAW, XML 또는 다른 포맷들과 같은 임의의 포맷일 수 있다. 그러나 통신 파트너들에는, 다른 데이터가 이전에 동의/협의된 것들 대신 도달할 것이고, 어떤 타입 및 포맷의 텍스트가 도달할지 시그널링되어야 한다 .

본 발명의 다른 양상에 따라, 스피치의 언어를 검출하는 단계가 적절한 언어의 텍스트로 스피치를 변환하기 위해 포함될 수 있다. 스피치-투-텍스트의 기술이 상당히 진보되었기 때문에, 이러한 해결책은 본 발명을 위해 또한 이용될 수 있다. STT가 언어를 검출할 수 없는 경우, 이용될 언어는 스피치 대신 텍스트의 전송으로의 변화가 개시되는 현재 통신의 종료 시에 통신 디바이스의 셋업으로부터 표시되어야 한다.

핸들링을 개선하기 위해서는, 해당 시간에 송신자인 당사자(party)에 의해 스피치 전송으로부터 텍스트 전송으로의 임박한 변화가 다른 관여된 당사자, 예를 들어, 해당 시점의 수신자와 협의되는 경우가 유리하다. 텍스트로의 스위칭을 협상하는 동안, 송신자는 또한 텍스트 전송을 위해 어느 디폴트 언어가 이용되고 있는지를 표시할 수 있다.

일부 STT 및 TTS(text-to-speech) 해결책들은, 사용자들이 수신자 측에서 TTS에 이용될 미리-정의된 음성 특징 및 음성 타입의 카테고리와 같은 추가의 파라미터들을 결정하도록 허용한다. 송신자는 예를 들어, 언어가 US 영어이고 "voice= Mike"라는 것을 그의 텍스트 페이로드에서 표시할 수 있다. 일부 종래 기술의 TTS 해결책들은 (남성 인간의 경우) Mike 또는 (여성 인간의 경우) Mary와 같이 이들의 미리 정의된 음성 특징들을 이용한다. 수신자는 자신의 선택을 구성함으로써 또는 디폴트 값을 이용함으로써 이러한 선택을 수락하거나 무효화할 수 있다.

수신자 측 상에서의 텍스트-투-스피치 프로세스를 용이하게 하기 위해, 각각의 송신자 측의 스피치를 표음식 타입의 텍스트로 변환하는 단계를 이용하는 것이 유리할 수 있다.

본 발명의 다른 양상에 따라, 사용자들은 각각의 커맨드를 입력함으로써 스피치 전송으로부터 텍스트 전송으로 스위칭하도록 원격통신 시스템을 주문식으로(on-demand) 강제할 수 있다. 사용자는 예를 들어, 특정한 통신에 대해 그 자신의 음성 이외의 다른 음성을 이용하고자 할 수 있다. 다른 예는 배경을 방해하는 잡음의 감소이며, 이는 텍스트 전송으로 스위칭함으로써 획득될 수 있다. 이는 통신 디바이스가 각각의 사용자의 음성을 인식하고 그것을 텍스트로 최적으로 변환하여, 출력이 수신자 측 상의 명확성을 증가시키기에 충분히 진보된 경우에 잘 작동한다 .

위에서 언급된 문제는, 위에서 설명된 방법을 수행할 수 있는 각각의 애플리케이션이 저장된 비-일시적인 컴퓨터-판독 가능 매체에 의해 또한 해결된다. 애플리케이션은 그것이 각각의 통신 디바이스의 프로세서 상에서 실행될 수 있도록 설계되어야 한다는 것은 말한 필요도 없다.

위의 문제는 또한 통신 디바이스의 프로세서에 대한 컴퓨터 프로그램 또는 컴퓨터 프로그램 물건에 의해 해결되며, 이 프로그램은 위에서 설명된 바와 같은 방법을 수행하도록 설계된다.

본 발명의 추가의 양상에 따라, 위의 문제는 통신 시스템에 의해 또한 해결될 수 있으며, 이 통신 시스템은, 제 1 통신 디바이스, 제 2 통신 디바이스, 제 1 통신 디바이스를 제 2 통신 디바이스에 연결하기 위한 적어도 하나의 통신 채널 및 위에서 설명된 것과 같은 방법이 수행될 수 있는 방식으로 제 1 통신 디바이스와 제 2 통신 디바이스 간의 통신을 제어하기 위한 프로세서를 포함한다. 제 1 및 제 2 통신 디바이스는 예를 들어, 데스크톱 전화, PDA, 스마트폰, 또는 마이크로폰이 장착되고 전화 네트워크에 연결되는 컴퓨터일 수 있다.

본 발명에 따른 통신 시스템은 본 발명의 방법과 관련하여 설명된 바와 같은 특징들 중 임의의 것을 포함할 수 있고, 방법에 관하여 위에서 설명된 바와 같은 임의의 이점 또는 특이성이 또한 시스템에 존재할 수 있다는 것은 말할 필요도 없다.

통신 시스템은 스피치의 언어를 검출하고 그것을 적절한 언어의 텍스트로 변환하기 위한 언어 검출 수단을 더 포함하는 것이 유리할 수 있다. 송신자 측 및 수신자 측의 2명의 사용자들에 의해 이용되는 언어들이 반드시 같을 필요는 없어서, 예를 들어, 각각의 사용자는 동일한 언어의 각각의 텍스트로 추후 변환되는 그 자신의 모국어를 이용할 수 있게 된다.

어떠한 언어 협의도 없는 경우, 수신자 측의 당사자는, 자신이 송신자 측으로부터 표시된 언어를 해석할 수 없는 경우 메시지를 무시할 수 있다. 또한, 한 사용자는 적절한 통신의 결여(이는 묵음을 발생시킬 수 있음)를 알아차릴 수 있다. 그 경우에, 각각의 사용자는 통신/호를 지속하고, 호를 종결하거나 마이크로폰에 그 사실을 말함으로써 다른 측에 통신 문제를 단지 통신할 수 있다.

수신자 측의 사용자가 일반적으로 또는 현재 포맷으로 TTS를 핸들링할 수 없는 경우, 각각의 사용자는 이 문제를 다른 측에 통신하도록 시도하거나 이 사실을 무시할 수 있다.

위에서 표시된 바와 같이, 스피치 대신 텍스트의 전송으로의 스위칭은, 서비스 품질이 변경 없이는 오디오 통신을 유지하기에 불충분하다는 것을 감지할 때 발생한다.

본 발명의 유리한 실시예들은 예시적인 방식으로 도면에서 도시되며, 이는 제한적인 방식으로 해석되지 않아야 한다.

도 1은 본 발명의 방법의 제 1 실시예가 수행될 수 있는 본 발명에 따른 통신 시스템의 하나의 가능한 실시예를 도시한다.
도 2는 도 1과 동일한 통신 시스템을 도시하며 본 발명의 방법의 제 2 실시예가 어떻게 수행될 수 있는지를 도시한다.

도 1에서 알 수 있는 바와 같이, 본 발명에 따른 통신 시스템(20)은 제 1 통신 디바이스(A), 제 2 통신 디바이스(B), 2개의 통신 디바이스들(A, B)이 서로 연결될 수 있는 통신 네트워크(10)를 포함한다. 통신 네트워크(10)는 PSTN(public switched telephone network), 모바일 통신을 위한 네트워크 또는 임의의 다른 적절한 네트워크일 수 있다. 원격통신 네트워크(10)의 하나의 컴포넌트로서, 스위치(28)가 디스플레이된다. 제 1 및 제 2 통신 디바이스(A, B)로서, 모바일 전화들, 스마트폰들, 데스크톱 전화들 또는 유사한 디바이스들이 이용될 수 있다. 일 예로서, 2개의 통신 디바이스들(A 및 B)이 각각 서로의 통신을 설정할 수 있는 2개의 시그널링 라인들 또는 채널들(33 및 34)이 도시된다. 이러한 통신은, RTP 채널 또는 베어러 채널로 또한 불릴 수 있는 페이로드 채널(36)로 셋업될 수 있다.

본 발명의 방법은, 프로세서(40)가 본 발명의 방법을 수행하게 할 수 있는 특정한 컴퓨터 프로그램(52) 또는 컴퓨터 프로그램 물건에 의해 구현될 수 있다. 프로세서(40)는 제 1 및 제 2 통신 디바이스들(A 및 B)에 제공되도록 도시된다. 선택적으로, 그것은 예를 들어, 스위치(28)에 또는 대신 제어 센터(도시되지 않음)에 제공될 수 있다. 즉, 본 발명의 방법은 컴퓨터로 구현된다. 대안적으로 방법은 또한 하드웨어에 의해 구현될 수 있다. 컴퓨터 프로그램(52)은, 단지 이러한 비-일시적인 컴퓨터-판독 가능 매체에 대한 예인 메모리 스틱, 메모리 카드, SSD 드라이브 또는 "통상의" 하드 드라이브일 수 있는 컴퓨터-판독 가능 매체(50) 상에 저장되는 것으로서 기호적으로 도시된다.

본 발명의 방법의 설명에 대해, 제 1 통신 디바이스(A)와 제 2 통신 디바이스(B) 간의 대화는, 시그널링 채널(33, 34) 및 페이로드 채널(36)을 포함하는 통신 채널(30)을 이용하여 설정된다고 가정될 수 있다. 특정한 시점에, 제 1 통신 디바이스(A)는, 통신 채널(30)의 페이로드 채널(26)의 서비스 품질이 매우 열등하게 되어, 변경을 수행하지 않고는 오디오 통신을 유지하기에 충분하지 않다는 것을 검출한다.

본 발명의 방법의 설명의 목적을 위해, 먼저, 제 1 통신 디바이스(A)는 통신의 송신자 측(22)을 형성하고, 제 2 통신 디바이스(B)는 통신의 수신자 측(24)을 형성한다.

본 발명의 방법은 SIP(session initiation protocol)를 이용하여 설명된다. 임의의 다른 통신 프로토콜이 대신 이용될 수 있고, 본 발명은 SIP의 이용으로 제한되지 않는다는 것은 말할 필요도 없다. 이런 상황을 고려하여, 제 1 통신 디바이스(A)는 시그널링 라인(33)을 통해 스위치(28)로 초대(invite) 메시지를 송신한다. 이 초대 메시지에서, SDP(session description protocol)는 비활성이 되도록 정의된다. 그 후, SDP가 비활성인 것으로 정의된 상태로, 스위치(28)는 제 2 통신 디바이스(B)에 초대 메시지를 송신한다. SDP가 여전히 비활성인 상태로, 제 2 통신 디바이스(B)는 스위치(28)에 응답 메시지를 역으로 송신한다. 스위치(28)는, SDP가 여전히 비활성인 상태로, 이른바 메시지(2000K)를 제 1 통신 디바이스(A)에 역으로 송신한다. 제 1 통신 디바이스(A)는 제 1 통신 디바이스(A)와 연관된 마이크로폰(21)으로 레코딩된 스피치 데이터의 STT(speech-to-text) 변환을 수행한다. 일 예로서, 독어 문장 "Wie stark ist der Sturm?"은, 독어가 시스템에 의해 사용되는 언어라는 표시와 함께, 텍스트 정보로서 시그널링 라인(33)에 배치된다. 동일한 메시지가 스위치(28)에 의해 시그널링 라인(34)에 배치되고 제 2 통신 디바이스(B)에 송신된다. 수신 측(24)(제 2 통신 디바이스(B))에서의 수신 이후에, 이 메시지의 TTS(text-to-speech) 변환이 수행되고, 그 결과는 제 2 통신 디바이스(B)와 연관된 로드스피커(23)를 통해 출력된다. 제 2 통신 디바이스(B)를 이용하는 사용자는 "The wind speed is 250 miles per hour"를 그 자신의 마이크로폰(도시되지 않음)에 말함으로써 질문에 응답할 수 있다. 이제 송신자(22) 측인 제 2 통신 디바이스(B)로부터의 이러한 스피치 데이터는 STT 변환되고, 데이터는 (언어가 US 영어라는 표시와 함께) 메시지(2000K)에 배치되고 스위치(28)에 송신된다. 스위치(28)는 이제 수신자 측(24)인 제 1 통신 디바이스(A)에 이 메시지를 전달하며, 이 메시지는 TTS 변환되고 로드스피커(도시되지 않음)를 통해 출력된다.

이러한 방식의 통신은, 원하거나 필요한 한, 또는 각각의 통신의 종료까지 지속될 수 있다. 어떠한 언어 협의(language negotiation)도 여기서 존재하지 않는다는 것이 주의될 것이다. 수신자 측(24)이 송신자 측(22)으로부터 표시된 언어를 해석할 수 없는 경우, 수신자 측(24)은 각각의 메시지를 무시할 수 있거나 무시해야 한다. 수신자 측(24)의 사용자는 (예를 들어, 단지 묵음(silence)을 들음으로써) 적절한 통신의 결여를 알아차릴 수 있고, 호를 지속하거나 종결하는 것은 사용자에게 달려있다. 동일한 것이 송신자 측(22)의 사용자에게 적용된다.

도 2에서, 통신 시스템(20)의 동일한 세팅이 도 1에서와 같이 도시된다. 그러나 도 2에서 알 수 있는 바와 같이, 수행된 방법은 도 1에서 도시된 것과 상이하다. 도 1에 따라, 데이터(텍스트 데이터로 STT 변환된 스피치 데이터)가 시그널링 채널(33, 34)에 배치되지만, 도 2에 따라, 페이로드 채널(36)이 대신 이용된다. 통신 채널(30)에서 수용 불가능한 서비스 품질의 감지시, 제 1 통신 디바이스(A)는, 규격: SDP: 오디오 코덱: 비활성, TTS 코드: 활성, 언어: DE와 더불어 스위치(28)에 초대 메시지를 송신한다. 동일한 메시지가 스위치(28)에 의해 제 2 통신 디바이스(B)에 전달된다. 제 2 통신 디바이스(B)는 규격: SDP: 오디오 코덱: 비활성, TTS 코드: 활성, 언어: US와 더불어 응답 메시지를 송신함으로써 응답한다. 이는, 이제 송신자 측(22)인 제 2 통신 디바이스(B)가 언어로서 US 영어를 이용한 것임을 의미한다. 응답 메시지의 수신 시에, 스위치(28)는 동일한 규격을 갖는 메시지(2000K)를 제 1 통신 디바이스(A)에 송신한다. 이 방식으로, 2개의 통신 디바이스들(A, B)은 각각, 스피치 데이터로부터 변환된 텍스트 데이터의 이용 및 2개의 통신 디바이스들(22 및 24)에 대해 독어 및 US 영어의 이용을 협의한다. 그 후, 페이로드 채널(36) 상에서, 예를 들어, 질문 "Wie stark ist der Sturm?" 및 응답 "The wind speed is 250 miles per hour"을 갖는 RTP 스트림이 위의 설명으로부터 알려진 바와 같이 서로간에 전송될 수 있다. 이미 설명된 바와 같이, 각각의 텍스트 데이터는 그 후 각각의 수신자 측들에서 TTS 변환되고 적절한 로드스피커들 상에서 출력될 것이다.

위의 방식에서, RTP의 새로운 페이로드 타입이 정의될 수 있다. 페이로드 타입들의 예들의 목록은 아래에서 발견될 수 있다.

http://en.wikipedia.org/wiki/Packet_loss

http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=1559904&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D1559904

http://vonage.nmhoy.net/packetloss.html

http://pe.org.pl/articles/2011/10/78.pdf

http://voip.netlab.uky.edu/~fei/teaching/cs671/slides/rtp.pdf

협의가 프로토콜에 임베딩되는 경우, 프로토콜에서 고려된 재협의 표준 절차들이 적용될 수 있다.

본 발명의 일 양상에 따라, 페이로드 채널(36)은 텍스트 통신 대신 정규 스피치 통신으로 다시 스위칭하기 위해 서비스 품질이 수락 가능한 레벨로 재차 도달했는지를 결정하도록 연속적으로 모니터링될 수 있다.

위의 설명으로부터 알 수 있는 바와 같이, 텍스트로부터 스피치로의 변환은 선택적일 수 있다. 즉, 사용자는 텍스트로부터 스피치로의 변환을 억제하도록 자신의 디바이스를 설정할 수 있다.

본 발명의 추가의 양상은 텍스트 데이터의 전송으로의 스위칭은 또한 사용자에 의해 주문식으로(on demand) 인보크(invoke)될 수 있다는 것이다. 예를 들어, 사용자는 그 자신의 음성(voice) 이외의 다른 음성을 이용하고자 할 수 있거나, 또는 배경 잡음이 대화를 방해할 수 있다. 후자의 경우에, 통신 디바이스가 사용자의 음성을 인식하여 그것을 텍스트로 최적으로 변환하도록 충분히 진보되는 경우, TTS 변환된 출력은 잡음이 소거되었기 때문에 각각의 수신자 측 상의 명확성을 증가시킬 것이다.

본 발명이 제한된 수의 실시예들에 관하여 설명되지만, 이들은 본 발명의 범위에 관한 제한으로서가 아니라, 오히려 고려 가능한 실시예들 중 일부의 예들로서 해석되어야 한다. 당업자들은, 또한 본 발명의 범위 내에 있는 다른 가능한 변동들, 변형들 및 구현들을 구상할 수 있다. 다양한 실시예들의 일부 개별 특징들은, 도시된 것과 상이한 방식으로 서로 결합될 수 있다는 것이 이해되어야 한다. 이는 예를 들어, 통신 시스템에서 사용되는 디바이스들의 종류 또는 방법을 수행하는데 사용되는 메시지들의 종류를 고려한다.

즉, 본 발명은 본원에서 제시되는 특정한 세부사항들 중 일부 없이 실시될 수 있다는 것이 당업자에게 자명하게 되어야 한다. 또한, 몇몇 잘 알려진 단계들 또는 컴포넌트들은 예시 명확성을 위해 개괄적으로만 설명되거나, 또는 심지어 생략될 수 있다.

본 발명에 따른 방법 및 통신 시스템은 ISDN 및 VoIP 또는 임의의 다른 적절한 환경에서 이용될 수 있고 이들을 참조하지만 그것으로 제한되지 않는다.

Claims

송신자 측과 수신자 측 간의 오디오 통신에서 스피치의 전송을 현재 감당(bearing)하는 혼잡한 통신 채널에서 오디오 통신을 유지하는 방법으로서,
상기 통신 채널은 적어도 하나의 시그널링 채널 및 서비스 품질을 갖는 적어도 하나의 페이로드 채널을 포함하고,
상기 방법은,
상기 페이로드 채널의 서비스 품질을 모니터링하는 단계;
상기 페이로드 채널의 서비스 품질이 임계치 미만인 경우, 적어도 상기 통신 채널의 시그널링 채널을 유지하면서 상기 페이로드 채널 상에서 상기 송신자 측으로부터의 스피치의 송신을 중단하는 단계;
각각의 송신자 측의 스피치를 텍스트로 변환하는 단계; 및
유지된 통신 채널 상에서 상기 텍스트를 각각의 수신자 측에 전송하는 단계
를 포함하는,
송신자 측과 수신자 측 간의 오디오 통신에서 스피치의 전송을 현재 감당하는 혼잡한 통신 채널에서 오디오 통신을 유지하는 방법.
제 1 항에 있어서,
상기 각각의 수신자 측에서 수신된 텍스트를 스피치로 변환하는 단계
를 더 포함하는,
송신자 측과 수신자 측 간의 오디오 통신에서 스피치의 전송을 현재 감당하는 혼잡한 통신 채널에서 오디오 통신을 유지하는 방법.
제 1 항에 있어서,
충분한 서비스 품질이 검출된 후에, 상기 유지된 페이로드 채널 상에서 스피치의 전송을 재개하는 단계
를 더 포함하는,
송신자 측과 수신자 측 간의 오디오 통신에서 스피치의 전송을 현재 감당하는 혼잡한 통신 채널에서 오디오 통신을 유지하는 방법.
제 1 항에 있어서,
상기 송신자 측으로부터의 스피치의 송신의 중단 시에 상기 수신자 측에 경고 메시지를 송신하는 단계
를 더 포함하는,
송신자 측과 수신자 측 간의 오디오 통신에서 스피치의 전송을 현재 감당하는 혼잡한 통신 채널에서 오디오 통신을 유지하는 방법.
제 1 항에 있어서,
현재 오디오 통신은 키(key) 및 특정 알고리즘을 이용하여 암호화되었고,
상기 방법은,
동일한 키 및 동일한 알고리즘으로 상기 텍스트를 암호화하는 단계
를 더 포함하는,
송신자 측과 수신자 측 간의 오디오 통신에서 스피치의 전송을 현재 감당하는 혼잡한 통신 채널에서 오디오 통신을 유지하는 방법.
제 1 항에 있어서,
상기 텍스트를 전송하기 위해 상기 시그널링 채널만을 이용하는 단계
를 더 포함하는,
송신자 측과 수신자 측 간의 오디오 통신에서 스피치의 전송을 현재 감당하는 혼잡한 통신 채널에서 오디오 통신을 유지하는 방법.
제 1 항에 있어서,
상기 스피치의 언어를 검출하고, 그것을 적절한 언어의 텍스트로 변환하는 단계
를 더 포함하는,
송신자 측과 수신자 측 간의 오디오 통신에서 스피치의 전송을 현재 감당하는 혼잡한 통신 채널에서 오디오 통신을 유지하는 방법.
제 1 항에 있어서,
스피치의 전송으로부터 텍스트의 전송으로의 임박한 변화를 상기 수신자 측과 협의(negotiating)하는 단계
를 더 포함하는,
송신자 측과 수신자 측 간의 오디오 통신에서 스피치의 전송을 현재 감당하는 혼잡한 통신 채널에서 오디오 통신을 유지하는 방법.
제 1 항에 있어서,
상기 각각의 수신자 측의 스피치를 표음식 타입의 텍스트(phonetic type of text)로 변환하는 단계
를 더 포함하는,
송신자 측과 수신자 측 간의 오디오 통신에서 스피치의 전송을 현재 감당하는 혼잡한 통신 채널에서 오디오 통신을 유지하는 방법.
제 1 항에 있어서,
상기 스피치의 송신을 중단하고, 상기 스피치를 텍스트로 변환하고, 사용자에 의해 주문식(on-demand)으로, 상기 텍스트를 전송하는 단계들을 수행하기 위해, 사용자 입력을 수용하는 단계
를 더 포함하는,
송신자 측과 수신자 측 간의 오디오 통신에서 스피치의 전송을 현재 감당하는 혼잡한 통신 채널에서 오디오 통신을 유지하는 방법.
애플리케이션이 저장되어 있는 비-일시적인 컴퓨터 판독 가능 매체로서,
상기 애플리케이션은 제 1 항 내지 제 10 항 중 적어도 한 항에 따른 방법을 수행하기 위한, 통신 디바이스의 프로세서에 의해 실행 가능한 명령들을 정의하는,
비-일시적인 컴퓨터 판독 가능 매체.
제 1 항 내지 제 10 항 중 적어도 한 항에 따른 방법을 수행하기 위한, 통신 디바이스의 프로세서에 대한 컴퓨터 프로그램 물건.
통신 시스템으로서,
제 1 통신 디바이스;
제 2 통신 디바이스;
상기 제 1 통신 디바이스를 상기 제 2 통신 디바이스와 연결하기 위한 적어도 하나의 통신 채널; 및
상기 제 1 통신 디바이스와 상기 제 2 통신 디바이스 간의 통신을 제어하기 위한 프로세서
를 포함하고,
상기 프로세서는 제 1 항 내지 제 10 항 중 적어도 한 항에 따른 방법을 수행하도록 설계되는,
통신 시스템.
제 13 항에 있어서,
상기 스피치의 언어를 검출하고 이를 적절한 언어의 텍스트로 변환하기 위한 언어 검출 수단
을 더 포함하는,
통신 시스템.