KR20070007882A

KR20070007882A - 보이스 오버 단문 메시지 서비스

Info

Publication number: KR20070007882A
Application number: KR1020067022829A
Authority: KR
Inventors: 대니얼 엘. 로쓰
Original assignee: 보이스 시그널 테크놀로지스, 인코포레이티드.
Priority date: 2004-04-20
Filing date: 2005-04-20
Publication date: 2007-01-16
Also published as: WO2005104092A2; US7395078B2; CN101095287A; CN101095287B; GB2429137A; US20120089399A1; GB2429137B; DE112005000924T5; WO2005104092A3; JP2007534278A; US20050266831A1; US20090017849A1; GB0620538D0; US8081993B2

Abstract

본 발명은 다음을 포함하는 이동 통신 장치를 통한 음성 메시지의 송신 방법을 특징으로 한다: 상기 이동 통신 장치의 사용자로부터 발언을 수신하는 단계; 상기 수신된 발언의 비문자 표시를 생성하는 단계; 상기 비문자 표시를 문자 메시지 본문에 삽입하는 단계; 및 상기 문자 메시지를 무선 메시징 채널을 통해 상기 이동 통신 장치로부터 수신자의 장치로 송신하는 단계.

이동 통신 장치, 비문자 표시, 음소, 무선 메시징 채널

Description

보이스 오버 단문 메시지 서비스{VOICE OVER SHORT MESSAGE SERVICE}

본 출원은 2004년 4월 20일에 출원된 미국 가특허출원 제 60/563,754호를 우선권 주장의 기초로 상기 출원의 전체 내용은 참조에 의해 본원에 편입된다.

본 발명은 일반적으로 이동 통신 장치(mobile communication device), 예를 들어 이동 통신 단말기(cellular phone) 상에서 이용가능한 통신 채널(communications channels)로 음성 메시지(voice messages)를 전달하는 것과 관계한다.

무선 통신 네트워크(wireless communication network)를 통해 송신(transmit)되는 음성 정보(voice information)의 양을 최소화하고, 그 결과 어느 때나 상기 네트워크에서 지원가능한 통화(phone call)의 수를 최대화하기 위해, 이동 통신 단말기는 음성 코더/디코더(voice coder/decoder), 또는 코덱(codec)을 이용한다. 코덱은 음성 신호(speech signal)에서 중복되거나 불필요한 많은 정보를 제거한다. 그리고 나서 상기 음성의 기초적인 구성요소들은 상기 네트워크를 통해 이전에 삭제된 정보와 유사한 데이터를 디코딩(decoded)하거나 또는 재조 합(recombine)하는 수신용 이동 통신 단말기(receiving cellular phone)에 송신된다. 이것은 최종 사용자(end user)에 의해 인식될 수 있는 재구성된 음성(reconstituted speech)을 초래한다. 상기 코덱은 최소 데이터 송신(minimal data transmission)을 위한 요구 및 수신단부(receiving end) 상에서 디코딩될 때 자연스럽게 소리나게 하는 원래의 음성 정보(speech information)를 충분히 보유하려는 요구 사이에서 균형을 잡아야 한다. 일반적으로 오늘날 음성 코덱은 자연음 음성(natural-sounding speech)을 유지하기 위해 필요한 대략적인 최소 속도 초당 2.4k 비트(bit)를 유지하면서, 음성 신호를 초당 4.5k 내지 8k 비트 사이에서 압축할 수 있다. 이렇게 낮은 비트 속도로 음성을 압축하는 성능에도 불구하고, 많은 양의 보이스 콜(voice call)을 조절하는 네트워크 기반구조(network infrastructure)는 많은 시장에서 특히, 개발도상국(developing country)들의 이머징 마켓(emerging market)에서 제한된다. 이러한 점은 그 시장에서의 무선 통화의 비용을 비싸게 만들 수 있다.

이동 통신 단말기를 통한 대안적이고 인기가 더해가는 통신 방법이 문자 메시징(text messaging)이다. 보이스 콜의 고비용에 대하여, SMS 또는 단문 메시지 서비스(Short Message Service)라 불리는 문자(text)에 기초한 모바일-대-모바일 메시징(mobile-to-mobile messaging)이 몇몇 시장 특히, 젊은 인구층( demographics)에서 많이 사용되어 왔다. SMS는 보이스 콜의 발전에 관계없이 사용자로 하여금 어느 때나 짧은 문자 메시지(text messages)를 송수신할 수 있게 한다. 작은 키보드(keyboard)를 통한 메시지 문자에서의 전형적인 사용자 타입은 상 기 장치에 제공된다. 상기 메시지는 160자(characters)로 제한되는 하드웨어(hard ware)이고, 낮은 대역폭(bandwidth), 대역외 메시지 전송 채널(out-of-band message transfer channel)을 통해 패킷(packet)으로서 송신된다. 이 점은 무선 네트워크(wireless network) 상에서 최소한의 부하(burden)로 통신을 손쉽게 한다.

GSM, TDMA 및 CDMA와 같은 대부분의 레가시 무선 네트워크 시스템(legacy wireless network system)들은 SMS 송신 및 수신이 가능한 문자/데이터 채널(text/data channel)을 구비하기 때문에, 이러한 서비스를 위해 기반구조가 개발도상국의 이머징 마켓에서도 이미 존재한다. 어떤 이들은 전 세계적으로 한 달에 400억에 가까운 메시지가 송수신되는 것으로 예측한다. 현재 SMS는 전세계 무선 네트워크 사업자에게 비음성(non-voice)에 기초한 가장 중요한 수입원이 되는 것으로 생각된다. 그 결과 캐리어(carrier)들은 SMS의 사용을 증진시키는데 많은 흥미를 가진다. 실제로, 개발도상국 시장의 네트워크 사업자들은 문자 메시징과 연관된 수입의 증대로 인해 보다 발전된 음성 네트워크 기반구조의 구현을 제한할 수 있다.

[발명의 요약]

몇몇 시장에서 휴대 전화 통화의 요금이 상대적으로 비싸기 때문에, 문자 메시징 (예를 들어 SMS를 통한)이 바람직한 통신 대체수단으로 된다. 그러나, 그러한 시장의 한 부분에서 문자를 사용하는데 다른 장벽들이 존재할 수 있다. 송신자 및 수신자 양자 모두는 읽기 및/또는 쓰기 능력을 갖추어야 한다. 그러나, 아주 많은 인구를 가진 인도(India)와 같은 이머징 마켓에서는, 성인 식자율(literacy rate)이 대략 60%이어서 많은 수의 사람들은 문자 메시지를 이동 통신 단말기에 타이핑(type)하기에 충분히 읽고 쓰질 못한다. 따라서, 메시지를 구성하지도 읽지도 못하는 그러한 시장의 많은 소비자들에게, 통신 방식(communication mode)으로서의 SMS 문자-메시징은 효과적인 대체수단이 되지 못한다. 본원에 개시된 최소한의 몇몇 구현예들은 문자 메시징 대신 언어 통신(verbal communication)을 위한 저비용, 비음성 무선 통신 채널을 사용하는 그러한 소비자들에게 메카니즘(mechanism)을 제공한다.

일반적으로, 하나의 양상에서, 본 발명은 이동 통신 장치를 통한 음성 메시지의 송신 방법을 특징으로 한다. 상기 방법은 다음을 포함한다: 상기 이동 통신 장치의 사용자로부터 발언(utterance)을 수신하는 단계; 상기 수신된 발언의 비문자 표시(non-text representation)를 생성하는 단계; 상기 비문자 표시를 문자 메시지 본문에 삽입(insert)하는 단계; 및 상기 문자 메시지를 무선 메시징 채널(wireless messaging channel)을 통해 상기 이동 통신 장치로부터 수신자의 장치로 송신하는 단계.

구현예들은 후술하는 하나 이상의 특징들을 포함한다. 상기 이동 통신 장치는 이동 통신 단말기이다. 수신된 발언의 비문자 표시를 생성하는 단계는 상기 수신된 발언으로부터 유도된 신호를 인식하여 기호열(string of symbol)을 생성하는 단계를 포함하고, 여기서 기호열은 비문자 표시이다. 상기 기호열의 기호들은 음소(phoneme), 다이폰(diphone), 및 트라이폰(triphone)으로 구성된 그룹에서 선택 된다 (더욱 상세하게, 상기 기호는 음소이다). 상기 무선 메시징 채널은 SMS 채널이고 상기 문자 메시지는 SMS 메시지이다. 또한 상기 방법은 상기 발언의 비문자 표시를 포함하는 때 상기 문자 메시지를 확인하는 표시기(indicator)를 포함하는 단계를 포함한다. 상기 비문자 표시는 수신된 발언의 압축 버전(compressed version)이다.

일반적으로, 다른 양상에서, 본 발명은 이동 통신 장치에 발언을 표시하는 메시지를 수신하는 방법을 특징으로 한다. 상기 방법은 다음을 포함한다: 무선 메시징 채널을 통해 문자 메시지를 수신하는 단계로서, 여기서 문자 메시지는 상기 발언의 비문자 표시를 포함하는 것인 단계; 상기 문자 메시지로부터 상기 비문자 표시를 추출(extract)하는 단계; 상기 비문자 표시로부터 구두 표현(spoken utterance)의 오디오 표시(audio representation)를 합성하는 단계; 및 이동 통신 장치에서 오디오 출력 장치(audio output device)를 통해 상기 오디오 표시를 재생하는 단계.

구현예들은 후술하는 하나 이상의 특징들을 포함한다. 상기 이동 통신 장치는 이동 통신 단말기이다. 상기 발언의 비문자 표시는 상기 발언의 사운드(sound)를 표시하는 기호열이다. 상기 기호열의 기호들은 음소, 다이폰, 및 트라이폰으로 구성된 그룹에서 선택된다 (더욱 상세하게, 상기 기호는 음소이다). 상기 무선 메시징 채널은 SMS 채널이고 상기 문자 메시지는 SMS 메시지이다. 상기 수신된 문자 메시지는 상기 발언의 비문자 표시를 포함하는 때 상기 문자 메시지를 확인하는 표시기를 포함한다. 상기 비문자 표시는 수신된 발언의 압축 버전이다.

일반적으로, 또 다른 양상에서, 본 발명은 음성 메시지를 송신하는 이동 통신 장치를 특징으로 한다. 상기 이동 통신 장치는 다음을 포함한다: 프로세서 시스템(processor system); 이동 통신 장치의 사용자로부터 발언을 수신하는 마이크로폰(microphone); 트랜시버(transceiver); 및 상기 프로세서 시스템에서 실행되는 경우 상기 이동 통신 장치로 하여금: 수신된 발언의 비문자 표시를 생성하게 하고; 상기 비문자 표시를 문자 메시지 본문에 삽입하게 하며; 및 상기 문자 메시지를 상기 트랜시버를 통해 무선 메시징 채널로 이동 통신 장치로부터 수신자의 장치까지 송신하게 하는 메모리 기억 코드(memory storing code).

일반적으로, 또 다른 양상에서, 본 발명은 음성 메시지를 수신하는 이동 통신 장치를 특징으로 한다. 상기 이동 통신 장치는 다음을 포함한다: 프로세서 시스템; 발언의 비문자 표시를 포함하는 문자 메시지 수신용 트랜시버; 오디오 출력 장치; 및 상기 프로세서 시스템에서 실행되는 경우 상기 이동 통신 장치로 하여금: 수신된 문자 메시지로부터 비문자 표시를 추출하게 하고; 상기 비문자 표시로부터 상기 구두 표현의 오디오 표시를 합성하게 하며; 및 상기 오디오 출력 장치를 통해 상기 합성된 오디오 표시를 재생하게 하는 메모리 기억 코드.

본 발명의 하나 이상의 구현예들의 상세 설명은 첨부 도면 및 후술 내용에서 전개된다. 본 발명의 다른 특징, 목적 및 이점은 상세한 설명 및 도면, 그리고 청구항에서 명백해질 것이다.

개시된 구현예는 이동 통신 단말기에서 이용가능한 SMS 네트워크로 구두 정보(spoken information) 또는 오디오 정보를 송수신하는 방법이다. 사용자는 원하는 메시지 또는 발언을 이동 통신 단말기를 통해 말한다. 그리고 나서 상기 단말기(phone)의 음성 인식 알고리즘(phonetic recognition algorithm)은 상기 발언의 비문자 표시를 생성한다. 상기 단말기에서의 SMS 응용은 메시지 본문에 있는 이러한 비문자 표시를 상기 SMS 네트워크를 통해 수신자의 단말기로 송신한다. 상기 수신자의 단말기에서, 다른 SMS 응용은 상기 SMS 메시지로부터 상기 비문자 표시를 추출한다. 그 이후에, 합성기(synthesizer)는 상기 비문자 표시로부터 오디오 메시지(audio message)를 합성하고 상기 합성한 메시지를 수신자에게 재생한다.

도 1은 구현되는 기능성을 더욱 상세하게 설명하는 상세 블록도이다. 사용자는 발언(utterance)(110)을 이동 통신 단말기(100) 및 상기 단말기 내에서 발언을 처리하여 그의 음향 특징(acoustic feature)을 추출하는 인식 엔진(recognition engine)(120)의 전단부(front end)에 있는 특징 추출부(feature extractor)(130)로 말한다. 전형적으로, 특징 추출부(130)는 수신된 아날로그 신호(analog signal)를 디지털 표시(digital representation)로 변환하는 디지타이저(digitizer)(102)이다. 디지타이저(102)는 상기 입력 신호(input signal)를 오버래핑 프레임(overlapping frame)의 시퀀스(sequence)로 분할하여 상기 신호의 디지털 표시를 각각의 프레임 안으로 출력한다. 그리고 나서 필터(filter)(104)는 다른 것들 중에서 상기 신호의 스펙트럼(spectrum)을 여과하여 음성 신호(speech signal)에 대한 비음성 잡음(non-speech noise)의 영향을 감소시키고 상기 발언이 수신되는 상기 채널의 스펙트럼 특성(spectral characteristics)에 의한 다양한 손상(impairments)을 수정(correct)한다. 상기 필터링 프로세스(filtering process)는 상기 발언의 주요한 언어적 내용(verbal content)을 보존하고 중요한 가용 정보를 전달하지 못할 것 같은 다양한 주파수들, 예를 들어 초단파(very high frequency) 및 초장파(very low frequency)들을 제거한다. 분석기(analyzer)(106)는 상기 여과된 디지털 신호(digital signal)를 분석하여 상기 프레임의 관련된 음향 특징 예를 들어, 특징 벡터(feature vector)를 추출한다. 특징 추출부(130)의 출력은 상기 수신된 발언의 음향 표시(acoustic representation)(140)이다. 개시된 구현예에서, 특징 추출부(130)는 멜 켑스트럼 코딩 기술(MEL cepstrum coding technique)을 사용하여 관련된 특징들을 추출한다. 메모리 내의 데이터베이스(database)(160)에서, 상기 단말기는 한 세트(set)의 음소를 기억하는데, 이들은 구어(spoken language)의 사운드를 구성하는 기초적인 음성 단위(phonetic unit)이다. 또한 그것은 각각의 음소 및 상기 음소를 확인하는 인덱스(index) 또는 포인터(pointer)를 위한 음향 모델(acoustic model)을 기억한다. 상기 음향 모델은 사실상 통계적(statistical)이고 특정 세트의 음향 특징이 발생하면 특정 음소가 말해지는 가능성을 가리킨다.

개시된 구현예에서, 상기 인식 엔진(120)은 비제한적인 음소 인식기(phoneme recognizer)(150)를 이용하여 상기 사용자의 발언을 특징짓는 특징 벡터의 시퀀스를 가장 잘 제시하는 음소의 시퀀스 (예를 들어, 음소열(phoneme string))를 판별한다. 상기 인식기(150)는 사용자에 의해 말해지는 순서(order) 또는 언어에 대한 가정 없이, 각각의 후보 음소(candidate phoneme)를 동등하게 고려한다는 점에서 비제한적이다. 다시 말하면, 음소 인식기(150)는 상기 인식기로 하여금 구두 단어(spoken word)를 확인할 수 있게 하는 언어 모델(language model)을 사용하지 않는 상대적으로 단순한(crude) 인식기이다.

인식기(150)는 상기 발언의 음향 표시를 상기 이동 통신 단말기의 음소 데이터베이스(160)에 기억된 음소의 음향 표시와 통계적으로 비교한다. 음소 데이터베이스(160)는 사용자의 언어에서 발견되는 사운드를 효과적으로 설명하기 위해 고유의 음향 표시를 갖는 음소를 충분히 많은 세트를 포함한다. 상기 음소 인식기(150)는 상기 수신 발언의 음향 표시를 상기 음소의 음향 표시와 통계적으로 비교하여 최상의 매치(match)를 확인한다. 음성의 특징들을 기억된 음성 단위들과 비교하는 다른 통계적 또는 비통계적 기술 또는 모델들도 사용될 수 있으나, 은닉 마코프 모델(hidden Markov model: HMM)로서 언급되는 공지된 기술을 사용한다.

음소 인식기(150)는 인식된 음소의 시퀀스를 인덱스들 또는 포인터들의 시퀀스로서 음소의 데이터베이스로 출력한다. 즉, 상기 인식된 음소열에서의 각각의 음소에 대하여, 음소 인식기(150)는 데이터베이스 음소 내에서 음소를 확인하는 특정 인덱스 또는 포인터를 조사하여 그 인덱스 또는 포인터를 출력한다. 상기 출력은 상기 구두 표현, 이러한 경우에서는 음소열의 비문자 표시이다. 이러한 열(string)의 가치는 통신 회선(communication link)의 수신단부에 있는 합성기가 상기 발언을 구성하는 사운드의 시퀀스를 재생성(recreate) 할 수 있다는 것인데, 예를 들어, 상기 발언을 재생성할 수 있어서 다른 쪽 말단에 있는 사용자가 일반적으로 인식가능하게 된다. 그러나, 전형적으로 상기 음소열은 단어 인식(word reconition)이 수행되지 않기 때문에 쉽게 판독가능(readable)하지는 않을 것이다.

음소 인식기(150)는 상기 이동 통신 단말기에서도 작동하는 SMS 응용(180)에 대한 버퍼(buffer)(175)에 상기 음소열을 기억한다. SMS 응용(180)은 비문자 표시를 수신하는 문자 메시지 쉘(shell)을 생성하여 그 어드레스 필드(address field)를 수신자의 단말기의 어드레스와 파퓰레이팅(populate)한다. 버퍼(175)가 풀(full)되거나 또는 상기 발언이 완전할(complete) 경우, SMS 응용(180)은 기억된 음소열을 SMS 메시지 본문으로 삽입하는데, 상기 수신단부에서 합성기에 대하여 의도되는 비문자 음소열(non-text phoneme string)을 포함하는 때 상기 메시지를 확인하는 플래그(flag)와 함께한다. 사실상, 상기 플래그는 상기 SMS 내용을 사용자에게 정상적으로 표시되는 문자 메시지로서 처리하지 않도록 다른 쪽 말단에서 상기 SMS 응용을 경보(alert)한다. 그리고 나서 SMS 응용(180)은 SMS 채널을 통해 SMS 메시지를 수신자의 이동 통신 단말기로 무선 전송한다.

음소 인식기(150)는 수신자의 이동 통신 단말기에 의해 합성된 사운드의 품질(quality) 및/또는 이해도(understandability)를 증진시키는데 유용한 SMS 버퍼(175)에 다른 정보도 기억한다. 예를 들어, 상기 수신용 단말기의 합성기에 의해 생성된 사운드의 품질을 제어하는데 사용될 수 있는 각 음소의 시간적 길이(temporal length), 볼륨(volume) 및 가능한 다른 파라미터들도 지정(specify)한다. 개시된 구현예에서, 음소 인식기(150)는 포즈(pause)도 인식하기 때문에, 그러한 인식된 포즈들을 절단(truncate)하여 상기 발언을 재제공(represent)하는데 필요한 공간을 확보한다.

음성 인식 알고리즘에 따라, 발언(110)은 전형적으로 대략 초당 200 내지 700 비트 또는 그 이하의 속도로 비문자 표시(non-text representation)(170) 내로 압축된다. SMS 네트워크를 통해 송신되는 경우, 많은 영역에서 1200 비트의 단일-메시지 정보 제한(single-message information limit)을 갖는데, 이것은 수신용 이동 통신 단말기 상에서 재생(playback)시 약 10초 길이와 일치한다.

상술한 접근에 대한 대체수단은 상기 발언에 대한 완전한 음성 인식(speech recognition)을 수행하여 SMS 메시지 본문의 인식된 문자 메시지를 송신한다는 점을 주목해야 한다. 그러나, 이것은 그러한 단말기를 구매하는 소비자가 말하는 타입에 대한 단어 사전을 포함하는 사전(lexicon)과 함께 상기 단말기에 제공되는 완전한 성능 인식기(capability recognizer)를 요구한다. 상기 단말기가 특히 350개의 상이한 언어가 존재하는 인도 같은 시장에서 판매를 목적으로 한다면 실용적이지 않을 수 있다. 그러한 환경에서 음성 인식을 수행하기 위한 알고리즘은 매우 정교하고 복잡해야하고; 뿐만 아니라 그 음성 인식을 수행하는데 필요한 자원(resources)은 전형적으로 일반 대중을 판매 대상으로 하는 비싸지 않은 이동 통신 단말기에서 이용가능한 것들보다 일반적으로 수준이 높아야 할 것이다. 반면, 말해지는 것의 음성열 표시(phonetic string representation)를 생성하는데만 필요한 인식기는 인식된 문자와 반대로 설정(build)하기에 덜 복잡하고 탑재된(onboard) 계산(computational) 및 메모리 자원을 덜 중요하게 요구한다. 게다가, 음소 인식(phoneme recognition)을 지원하는데 필요한 복수의 음소는, 특히 완전한 음성 인식을 수행하는데 필요한 단어의 사전에 비하여 작다. 사실상, 범용(universal) 음소 세트를 사용하면 상기 인식기가 상술한 목적으로 대부분의 언어를 다룰 수 있게 될 것이다.

상기 음성 인식기(phonetic recognizer)(150)가 발언의 음향 표시(170)의 세그먼트(segment)를 상기 음소의 음향 표시와 매치(match)하는 경우, 최상 매치(best-match) 음소는 때때로 상기 발언을 부정확하게 매치할 수도 있다는 것을 주목해야 한다. 예를 들어 상기 인식기가 "d" 사운드를 "t"로 해석할 수 있는데, 이는 상기 특징 추출부(130)에 의해 수득된 특징들이 양자 사운드에 대하여 유사하여 어떤 사운드도 음성 인식기(150) 내에서 다른 것보다 현저하게 적절한 매치를 이루어내지 못하게 하기 때문이다. 그러한 오류들은 음성-대-문자 인식(speech-to-text recognition)에 유해한 영향을 미치지만 전형적으로 상술한 응용들에 대하여는 유해 정도가 덜하다. 합성된 오디오 메시지를 듣는 사람들에게, 합성중인 음성열(phonetic string)에서의 그러한 오류들의 존재로 재생이 이해할 수 없게 될 것 같지 않다. 사실상, 그들이 인지하지 못할 수도 있다.

도 2는 SMS 채널의 수신기 측(receiver side)에서 구현되는 기능성을 설명하는 상세 블록도이다. 수신자에 의해 작동되는 이동 통신 단말기(200)는 상기 발언의 비문자 표시를 포함하는 SMS 메시지를 수신하고 SMS 응용(280)은 사용자에게 표시에 대한 메시지를 처리한다. 수신 SMS 메시지 내에 있는 플래그는 상기 SMS 메시지의 내용을 오디오 신호를 생성하기 위해 합성기에 의해 처리되어야 하는 음성열로서 확인한다. 다시 말하면, 플래그는 SMS 응용으로 하여금 상기 메시지를 상기 메시지의 내용이 사용자에게 단순하게 표시되는 정상적인 문자 메시지와 상이하게 처리하게 한다. SMS 응용(280)은 음성열을 상기 이동 통신 단말기 내의 합성기(320)까지 통과시키는데, 합성기(220)에 공급되는 임의의 기억된 파라미터들 및 사운드를 생성하는 방식과 함께 통과시킨다. 송신자의 이동 통신 단말기 같은 수신자의 이동 통신 단말기는 그들의 음향 표시와 함께 음소의 데이터 베이스도 포함한다. 수신된 음성열을 구성하는 인덱스 또는 포인터들은 그 데이터베이스로부터 어떠한 음소가 상기 음성열을 오디오 메시지로 렌더링(render)하기 위해 합성되는지를 확인한다. 합성기는 이동 통신 단말기 스피커를 통해 상기 음성열을 표시하는 사운드의 시퀀스를 재생한다. 이러한 방식으로, 구두 표현은 SMS 메시지 설비(facility)를 통해 비실시간(non-real time)으로 수신자에게 송신된다.

적절하게는, 비문자 표시가 단일 메시지 본문에 맞지(fit) 않을 긴(long) 발언을 다루기 위해 다중(multiple) SMS 메시지의 시퀀스를 생성하는 SMS 응용을 프로그램할 수 있다. 요약하면, SMS 응용은 상기 음성열을 "패킷화(packetize)"하여 다중 SMS 메시지 (또는 패킷(packets))를 수신자의 이동 통신 단말기에 송신하고, 각각의 메시지는 전체 발언의 일부를 포함한다. 각각의 메시지가 인덱스되거나(indexed) 또는 태그되는(tagged) 바 수신자 측에서의 SMS는 상기 발언의 완전한 표시를 정확하게 재구성할 수 있다. 연결(connection)의 수신자 측에서의 SMS 응용은 수신된 비문자 표시가 하나 이상의 SMS 메시지의 내용을 연결(concatenate)시킴으로써 구성된 것이라는 것을 인식하는 것으로 프로그램되어야 할 것이다.

상술한 구현예들에서, 발언을 표시하는데 사용된 음성의 단위는 음소이다. 그러나, 음소가 아닌 임의의 다양한 다른 기호 세트가 사용될 수 있다. 예를 들어, 상기 기호는 예정된(intended) 사용자의 구두 표현 내에 포함된 사운드를 효과적으로 표시하는 다이폰, 트라이폰, 음절(syllable), 반음절(demisyllable) 또는 다른 세트가 될 수 있다.

특정 시장을 타겟으로 하는 구현에 대해서, 그 시장에서 사용된 언어의 사운드를 최적으로 표시하기 위해 선택된 음성 단위의 "맞춤식(tailored)" 사전이 상기 장치에 통합될 수 있다. 대안으로, 상기 단말기가 대부분의 언어를 인식하고 표현하게 하기 위해 범용 세트의 음소가 사용될 수 있다.

상술한 바와 같이, 음소 인식기(phoneme recognizer)는 풀(full) 언어 모델을 포함하지 않고 사실상 임의의 어떤 언어 모델도 포함하지 않을 수 있다. 그 기능은 발언의 사운드를 단순하게 인식하는 것이다. 이러한 목적으로는, 그들의 의미를 인식하는 것은 불필요하다. 따라서 합성기에 의해 생성된 결과 표시는 사용자가 읽을 수 없을 것 같은 비문자 표시이다. 그러나 선택된 기호 세트가 기호 세트 중 단어들을 포함하지 않을 수 있다는 것을 의미하지는 않는다. 짧은, 단일 분절 단어들은, 예를 들어 선택된 기호 세트 중에서 기호 또는 단위로 나타날 수 있다.

사실상, 음성 인식 알고리즘은 구두 표현의 압축 버전이다. 개시된 구현예에서, 그 압축 버전은 비문자 표시 (예를 들어, 음성열)이다. 실제로, 다른 알고리즘들은 임의의 인식을 수행하지 않고 단순하게 압축을 수행하는 것으로 사용될 수 있다. 예를 들어, 음소 인식기를 사용하지 않고, 보코더(vocoder)는 압축된 표시를 생성하는데 사용될 수 있고 뒤이어 그 압축된 표시는 SMS 메시지 본문 내로 삽입될 것이다. 다시 말하면, SMS 또는 다른 비음성 채널(non-voice channel)을 통해 송신하는데 적당한 비문자 표시를 생성하는 임의의 알고리즘이 이용될 수 있다. 선택된 알고리즘이 음성을 충분히 압축할 수 있어서 의미있는 정보를 전달하기에 충분한 길이의 발언을 송신할 수 있다면 바람직할 것이다. 수신단부에서, 구두 표현의 오디오 버전(audio version)을 재구성하기 하기 위해 적절한 압축해제 알고리즘(decompression algorithm)이 구현될 필요가 있다.

유용성을 증진하고자 다양한 특징들이 상기 시스템에 추가될 수 있다. 상술한 바와 같이, 하나의 그러한 특징은 수신용 단말기가 수신 사용자에게 상기 오디오 메시지를 반복재생(replay)할 "음성(voice)"에 대한 선택권을 제공하는 것이다. 이러한 특징은 "음성" 파라미터를 표시하는 추가적인 글자열(string of characters)을 상기 발언의 비문자 표시에 추가함으로써 구현되는데, 이는 합성 알고리즘(synthesis algorithm)에 명령한다. 사용자는 상기 단말기에서 메뉴 구동형 인터페이스(menu driven interface)를 통해 이러한 파라미터들을 선택 및/또는 조절할 수 있다. 이러한 파라미터들은 바람직한 효과를 도출하기 위해 합성기 알고리즘을 맞춤(tailor)하는데 이용될 것이다. 동일한 방식으로, 파라미터들은 재생 속도 또는 다른 변경에 대하여, 송신하는 사용자를 더욱 자연스럽게 또는 더욱 잘 표시하게 하는 사운드로 만드는 오디오 메시지에 포함될 수 있다. 상기 시스템에서 구현될 수 있는 다른 특징은 송신 및 수신 사용자에 대한 오디오 프롬프트된 가이던스(audio prompted guidance)이고, 이것은 문맹(non-literate) 사용자로 하여금 상기 시스템을 더욱 잘 작동할 수 있도록 할 수 있다. 이러한 경우에서, 두 단말기들은 "비프 이후에 녹음하세요(Please record after the beep)," "받을 사람의 전화번호를 입력하세요(enter the phone number of the person you want to send this to)" 등과 같은 많은 사전녹음된(prerecorded) 메시지들을 기억한다. 상기 단말기는 사용자 입력에 반응하여 적절한 메시지를 들을 수 있게(audibly) 재생한다.

상기 시스템에서 구현될 수 있는 다른 특징은 사용자로 하여금 발언 길이 및 재생(reproduction) 품질 사이에서 우선 사항을 정하도록(prioritize) 하는 것이다. 이러한 경우에서, 상기 단말기는 상기 발언의 비문자 표시의 길이 및 품질을 다양하게 반영하는 다중 알고리즘(multiple algorithm)을 기억할 것이다. 사용자가 발언을 녹음하기 이전에, 상기 단말기는 사용자에게 길이/품질에 대한 선택을 제공한다. 상기 사용자는 말로(verbally) 또는 폰 키패드(keypad)를 통해 그의 응답을 입력한 후; 상기 단말기는 그 발언을 처리하기 위해 사용자 명령(instruction)과 대응하는 알고리즘을 사용한다. 그리고 나서 상기 수신용 단말기에 상기 발언의 비문자 표시로부터 메시지를 합성하는 방법에 대한 명령을 제공하는 문자 시리즈를 추가한다.

개시된 구현예에서, 상기 이동 통신 단말기는 도 3의 상세 기능 블록도에 의해 설명되는 것과 같은 스마트폰(smartphone)(300)이다. 스마트폰(300)은 코어(core)에 이동 통신 기능들 (예를 들어, 음성대역(voiceband) 및 채널 코딩(channel coding) 기능을 포함하는)을 조정하는 베이스밴드(baseband) DSP(디지털 신호 프로세서(digital signal processor))(302) 및 포켓PC(PocketPC) 운영 체계(operating system)가 실행되는 응용 프로세서(application processor)(304) (예를 들어, Intel StrongArm SA-1110)를 포함하는 마이크로소프트 포켓PC-구동 단말기(Microsoft PocketPC-powered phone)이다. 상기 단말기는 종래 PDA 특징들과 함께 GSM 보이스 콜(GMS voice calls), SMS(단문 메시징 서비스(Short Messaging Service)) 문자 메시징, 무선 이메일 및 데스크탑-유사 웹 브라우징(desktop-like web browsing)을 지원한다.

송신 및 수신 기능들은 RF 합성기(306) 및 RF 라디오 트랜시버(308)에 이어 안테나(antenna)(312)를 통해 최종-단계 RF 송신 듀티(RF transmit duties)를 다루는 전력증폭기 모듈(power amplifier module)(310)에 의해 구현된다. 인터페이스 ASIC(주문형 반도체(application specific integrated circuit))(314) 및 오디오 코덱(316)은 명령 및 정보를 입력하기 위한 숫자(numeric) 또는 영숫자(alphanumeric) 키패드 (도시되지 않은)와 같은 단말기에 제공되는 스피커, 마이크로폰 및 다른 입력/출력 장치들에 인터페이스들을 제공한다.

DSP(302)는 코드 기억(code store)을 위한 플래시 메모리(flash memory)(318)를 사용한다. 리튬-이온 전지(320)는 상기 단말기에 동력을 공급하고 DSP(302)와 커플링된 전력 관리 모듈(power management module)(222)은 상기 단말기 내에서 전력 소비(power consumption)를 관리한다. 응용 프로세서(304)에 대한 휘발성(Volatile) 및 비휘발성(non-volatile) 메모리는 각각 SDRAM(324) 및 플래시 메모리(326) 형태로 제공된다. 이러한 메모리 배열(arrangement)은 운영 체계에 대한 코드, 전화 디렉토리(phone directory)와 같은 커스텀화가능한(customizable) 특징에 대한 코드 및 스마트폰에 포함될 수 있는 임의의 응용 소프트웨어에 대한 코드를 저장하는데 이용되고, 이는 상술한 음성 인식, 합성기 및 SMS 응용 코드를 포함한다. 또한 음소와 상기 음소의 음향 표시를 포함하는 음소 데이터베이스 및 상기 음소를 표시하는 기호도 기억한다.

스마트폰용 시각 디스플레이 장치는 LCD 디스플레이(LCD display)(330)를 구동하는 LCD 드라이버 칩(driver chip)(328)을 포함한다. 또한 상기 단말기 내에서 다른 장치들에 대한 클록 신호(clock signal)를 제공하고 실시간 표지(indication)를 제공하는 클록 모듈(clock module)(332)도 포함된다.

상술한 모든 구성요소들은 적절하게 디자인된 하우징(housing)(334) 내에 패키징된다. 상술한 스마트폰이 다수의 상이한 시판중인 스마트폰들의 일반적인 내부 구조를 나타내고 그러한 단말기의 내부 회로 설계가 본 발명이 속하는 기술분야의 당업자에게 일반적으로 공지되어 있으므로, 도 3에 도시된 구성요소들 및 그들의 작동(operation)에 대한 보다 구체적인 세부사항은 설명하지 않을 것이고, 이러한 사항들은 본 발명을 이해하는데 필요하지 않을 것이다.

일반적으로, 상기 장치가 반드시 이동 통신 단말기일 필요는 없으나, 발언을 수신하여 그것을 비문자 표시로 변환하고 SMS 또는 다른 비음성 채널을 통해 송신하는 기능성을 구비해야 한다. 예를 들어 마이크로폰, 발언의 비문자 표시를 생성하기 위한 적절한 소프트웨어, 및 SMS 프로토콜(protocol) 및 주파수를 이용하는 무선 송신기를 구비하는 랩탑 컴퓨터(laptop computer), 또는 유사한 기능을 하는 임의의 다른 장치도 구현될 수 있다.

상기 SMS 네트워크가 상술한 실시예에서 제공되지만, 문자, 데이터 및/또는 음성이 아닌 매체를 전송할 수 있는 다른 네트워크가 사용될 수 있다. 하나의 실시예로서 MMS(멀티미디어 서비스(Multi-Media Service)) 메시징 채널도 사용할 것이다.

또한, 상술한 멜 켑스트럼 코딩 기술은 수신 발언의 특징을 추출하고 표시하는 공지된 많은 대체수단들 중 하나일 뿐이다. 멜 켑스트럼 코딩 기술 대신, 예를 들어 LPC 켑스트럴 계수(cepstral coefficient)와 같은 임의의 다른 공지 기술들이 이용될 수 있다. 비문자 표시를 생성하는데 사용될 수 있는 코딩 기술의 두 가지 예는 다음과 같다: (1) 1998 ICASSP에서 발표된 논문 및 Systems and Computers in Japan, Volume 32, Issue 12, 2001. Pages 38-46에도 나타나는 버전, Takashi Masuko, Keiichi Tokuda, Takao Kobayashi, "A Very Low Bit Rate Speech Coder Using HMM with Speaker Adaptations," ; 및 (2) http://www.geocities.com/virag81/docs.html에서 발견되는 M. Habibullah Pagarkar, Lakshmi Gopalakrishnan, Nimish Sheth, Rizwana Shaikh, Virag Shah, "Language Independent Speech Compression Using Devanagari Phonetics," 이들 양자는 참조에 의해 본원의 내용으로 편입된다.

다른 양상, 변경 및 구현예들은 후술하는 청구항의 범위 내에 포함된다.

도 1은 음성 인식 시스템(phonetic recognition system)의 블록도이다.

도 2는 음성 합성 시스템(phonetic synthesis system)의 블록도이다.

도 3은 음성 인식 및 음성 합성 시스템을 통합하는 스마트폰의 상세 블록도이다.

Claims

다음을 포함하는 이동 통신 장치(mobile communacation device)를 통한 음성 메시지(voice massage) 송신 방법:

상기 이동 통신 장치의 사용자로부터 발언(utterance)을 수신(receive)하는 단계;

상기 수신된 발언의 비문자 표시(non-text representation)를 생성(generate)하는 단계;

상기 비문자 표시 중 적어도 일부를 문자 메시지(text message)의 본문(body)에 삽입(insert)하는 단계; 및

상기 문자 메시지를 무선 메시징 채널(wireless messaging channel)을 통해 상기 이동 통신 장치로부터 수신자의 장치로 송신하는 단계.
제 1항에 있어서, 상기 이동 통신 장치는 이동 통신 단말기(cellular phone)인 것을 특징으로 하는 방법.
제 1항에 있어서, 상기 비문자 표시 중 적어도 일부를 삽입하는 단계는 상기 비문자 표시 전부를 상기 문자 메시지의 상기 본문에 삽입하는 단계를 포함하는 것을 특징으로 하는 방법.
제 1항에 있어서, 상기 수신된 발언의 상기 비문자 표시를 생성하는 단계는 상기 수신된 발언으로부터 유도된 신호를 인식하여 기호열(string of symbol)을 생성하는 단계를 포함하고, 여기서 상기 기호열은 상기 비문자 표시인 것을 특징으로 하는 방법.
제 4항에 있어서, 상기 기호열의 상기 기호들은 음소(phoneme), 다이폰(diphone), 트라이폰(triphone), 음절(syllable) 및 반음절(demisyllable)로 구성된 상기 그룹에서 선택되는 것을 특징으로 하는 방법.
제 4항에 있어서, 상기 인식은 음소 인식(phoneme recognition)이고 상기 생성된 기호열의 상기 기호들은 음소인 것을 특징으로 하는 방법.
제 1항에 있어서, 상기 수신된 발언의 상기 비문자 표시를 생성하는 단계는 상기 수신된 발언으로부터 유도된 신호에 대한 음소 인식을 수행하여 음소열(phoneme string)을 생성하는 단계를 포함하고, 여기서 상기 음소열은 상기 비문자 표시인 것을 특징으로 하는 방법.
제 1항에 있어서, 상기 무선 메시징 채널은 SMS 채널이고 상기 문자 메시지는 SMS 메시지인 것을 특징으로 하는 방법.
상기 방법이 상기 발언의 비문자 표시를 포함하는 때 상기 문자 메시지를 확인하는 상기 문자 메시지가 있는 표시기(indicator)를 포함하는 단계를 추가로 포함하는 방법.
제 1항에 있어서, 상기 비문자 표시는 상기 수신된 발언의 압축 버전(compressed version)인 것을 특징으로 하는 방법.
상기 방법이 상기 비문자 표시를 섹션(section)들로 분할(divide)하여 각각의 섹션을 복수의 문자 메시지들과 대응하는 상이한 문자 메시지에 삽입하는 단계를 추가로 포함하는 방법으로서, 여기서 상기 먼저 언급된(first-mentioned) 문자 메시지는 상기 복수의 문자 메시지들 중 하나이고 또한 상기 방법이 상기 복수의 문자 메시지들을 상기 무선 메시징 채널을 통해 상기 이동 통신 장치로부터 상기 수신자의 장치에 송신하는 단계를 추가로 포함하는 방법.
다음을 포함하는 이동 통신 장치 작동 방법:

무선 메시징 채널을 통해 문자 메시지를 수신하는 단계로서, 여기서 상기 문자 메시지는 발언의 비문자 표시를 포함하는 것인 단계;

상기 문자 메시지로부터 상기 비문자 표시를 추출(extract)하는 단계;

상기 비문자 표시로부터 상기 구두 표현(spoken utterance)의 오디오 표시(audio representation)를 합성하는 단계; 및

상기 이동 통신 장치에서 오디오 출력 장치(audio output device)를 통해 합성된 상기 오디오 표시를 재생하는 단계.
제 12항에 있어서, 상기 이동 통신 장치는 이동 통신 단말기인 것을 특징으로 하는 방법.
제 12항에 있어서, 상기 발언의 상기 비문자 표시는 상기 발언의 사운드를 표시하는 기호열인 것을 특징으로 하는 방법.
제 14항에 있어서, 상기 기호열의 상기 기호들은 음소, 다이폰, 트라이폰, 음절 및 반음절로 구성된 상기 그룹에서 선택되는 것을 특징으로 하는 방법.
제 14항에 있어서, 상기 기호열의 상기 기호들은 음소인 것을 특징으로 하는 방법.
제 12항에 있어서, 상기 무선 메시징 채널은 SMS 채널이고 상기 문자 메시지는 SMS 메시지인 것을 특징으로 하는 방법.
제 12항에 있어서, 상기 수신된 문자 메시지는 상기 발언의 비문자 표시를 포함하는 때 상기 문자 메시지를 확인하는 표시기를 포함하는 것을 특징으로 하는 방법.
제 12항에 있어서, 상기 비문자 표시는 상기 발언의 압축 버전인 것을 특징으로 하는 방법.
상기 방법이 다음을 추가로 포함하는 방법:

상기 무선 메시징 채널을 통해 상기 먼저 언급된 문자 메시지 이외에 복수의 문자 메시지들을 수신하는 단계로서, 상기 먼저 언급된 문자 메시지 및 상기 복수의 문자 메시지들은 문자 메시지 세트를 형성하고, 여기서 상기 문자 메시지 세트의 각각의 문자 메시지는 상기 발언의 상이한 부분의 비문자 표시를 포함하는 것인 단계;

상기 복수의 텍스트 메시지들로부터 상기 비문자 표시를 추출하는 단계; 및

상기 문자 메시지 세트로부터 추출된 상기 비문자 표시로부터 상기 구두 표현의 상기 오디오 표시를 합성하는 단계.
다음을 포함하는 음성 메시지를 송신하는 이동 통신 장치:

프로세서 시스템(processor system);

상기 이동 통신 장치의 사용자로부터 발언을 수신하는 마이크로폰(microphone);

트랜시버(transceiver); 및

상기 프로세서 시스템에서 실행되는 경우 상기 이동 통신 장치로 하여금:

상기 수신된 발언의 비문자 표시를 생성하게 하고;

상기 비문자 표시를 문자 메시지 본문에 삽입하게 하며; 및

상기 문자 메시지를 상기 트랜시버를 통해 무선 메시징 채널로 상기 이동 통신 장치로부터 수신자의 장치까지 송신하게 하는 메모리 기억 코드(memory storing code).
다음을 포함하는 음성 메시지를 수신하는 이동 통신 장치:

프로세서 시스템;

발언의 비문자 표시를 포함하는 문자 메시지 수신용 트랜시버;

오디오 출력 장치; 및

상기 프로세서 시스템에서 실행되는 경우 상기 이동 통신 장치로 하여금:

상기 수신된 문자 메시지로부터 상기 비문자 표시를 추출하게 하고;

상기 비문자 표시로부터 상기 구두 표현의 오디오 표시를 합성하게 하며; 및

상기 오디오 출력 장치를 통해 상기 합성된 오디오 표시를 재생하게 하는 메모리 기억 코드.