KR20000069163A

KR20000069163A - 대화형 장치

Info

Publication number: KR20000069163A
Application number: KR1019997004705A
Authority: KR
Inventors: 존스톤로버트데니스
Original assignee: 내쉬 로저 윌리엄; 브리티쉬 텔리커뮤니케이션즈 파블릭 리미티드 캄퍼니
Priority date: 1996-11-28
Filing date: 1997-11-26
Publication date: 2000-11-25
Also published as: AU5126698A; EP0941597A1; EP0941597B1; JP2001504600A; DE69710213D1; US6603836B1; JP3998724B2; ES2172011T3; KR100526216B1; WO1998024225A1; DE69710213T2; IL129893A0

Abstract

본 발명은 종래의 대화형 장치, 특히 통신네트워크에 연결된 장치에 있어서 출력되는 프롬프트의 에코와 그 프롬프트에 대한 장치 및 사용자의 응답을 구별하기가 어려운 문제를 해결하는 대화형 장치에 관한 것으로서, 사용자가 출력되는 프롬프트를 중단시키고, 사용자의 응답(예를 들어 주파수 대역)에서 정상적으로 발견되는 성분을 출력되는 프롬프트로부터 제거하는 대화형 장치가 개시되어 있고, 상기 장치에서 입력 신호 분석기(21)는 출력되는 프롬프트에서 제외되는 성분을 유무를 표시함으로써 사용자의 응답을 검출할 수 있고, 출력되는 프롬프트에서 주파수 대역을 제거하는 대신 장치는 출력되는 신호의 이격 타임슬롯을 강제로 무언으로 할 수 있고, 그 경우 입력 신호 분석유닛은 소정의 시각 동안 입력신호에서 무언 기간이 관찰되지 않았다고 결정하여 사용자 응답이 있음을 검출할 수 있으며, 본 발명은 프롬프트/응답 대화에 사용자를 끌어들이는 장치에 응용 가능할 뿐만 아니라 음성 제어 가능 응답전화기 등에 의해 재생되는 메시지의 인터럽션과 관련하여 유용하다.

Description

대화형 장치{INTERACTIVE APPARATUS}

본 발명은 대화형 장치에 관한 것이다.

최근, 점점 더 많은 수의 일상적인 전화 대화가 자동화되었고, 이에 따라 대화를 진행하기 위한 교환원이 필요 없게 되었다.

최초로 자동화된 대화 중 하나는 간단히 통화를 하기 위해 자리에 없는 미래의 수신인에게 메시지를 남기는 것이었다. 최근, 텔레뱅킹, 전화번호 조회 및 전화를 이용한 철도 시간표 조회와 같은 보다 복잡한 서비스가 또한 자동화되었다. 현재 많은 응답전화기는 전화 소유자가 자신의 응답전화기에 전화를 걸어 남겨진 메시지를 확인할 수 있는 기능을 부가적으로 제공한다. 현재 자동화된 다른 서비스는 저장된 이메일 메시지를 전화를 통해 읽어주는 것이다.

상기한 각각의 경우에 있어서, 사용자는 실제 대화형 장치, 사용자가 사용하고 있는 전화 및 공중교환전화망의 요소들을 포함하는 장치와 구두(spoken) 대화를 실시한다.

구두 대화에서, 사용자가 중간에 말을 끊을 수 있으면 유용하다. 예를 들어, 사용자가 프롬프트를 통해 어떤 정보가 요청되고 있는지 예측할 수 있다면 사용자는 중간에 말을 끊고 싶을 것이다. 인터럽션(interruption)(해당 기술분야의 숙련된 자에게는 "바지-인(barge-in)"으로 주지되어 있는) 동작 가능 기능은 사용자가 다른 메시지로 이동하고자 하는 경우에 메시지 재생 장치(응답전화기와 같은)와 관련하여 훨씬 더 바람직하다.

대화형 장치로부터의 출력의 일부가 사용자의 명령을 수신하는 입력으로 다시 피드백되면, 바지-인 기능을 제공하는 것은 보다 어려워진다. 이 피드백은 예를 들어 대화형 장치로부터 전송된 음성 표시 신호가 입력으로 다시 반사되는 네트워크에서의 접합 때문에 발생한다. 또한 마이크로폰으로 돌아가는 사용자 전화의 화자로부터 출력된 음성이 음향 에코에 의해 발생된다(이것은 특히 핸즈프리 동작과 관련하여 문제가 된다). 따라서 지금까지 가능했던 것보다 신뢰성 있는 바지-인 기능을 제공하기 위해 사용자의 입력과 피드백 출력 신호를 구분할 필요가 있다.

본 발명의 제 1 태양에 따르면,

음성에는 정상적으로 존재하는 성분이 제외된 조절 음성을 나타내는 신호를 출력하는 동작으로 구성된 신호 출력 수단,

사용자의 구두 명령을 나타내는 신호를 수신하는 동작으로 구성된 신호 입력 수단 및

조절 음성에서 제외된 성분을 포함하는 음성을 나타내는 신호의 입력을 검출하여 조절 음성이 나오는 동안 사용자의 구두 명령을 검출하도록 동작 가능한 명령 검출 수단을 포함하는 대화형 장치가 제공된다.

이런 장치를 제공하여 사용자 명령의 유무를 보다 양호하게 검출할 수 있다. 이는 특히 종래의 음성 인식기를 사용하는 장치와 관련하여 유용하고, 이는 종래의 음성 인식기가 분석하는 음성 신호가 어떤 방식으로 전와(轉訛)된다면 이 음성 인식기의 성능은 뚜렷하게 저하하기 때문이다. 대화형 장치에서, 대화형 장치의 출력 에코에 의해 발생된 왜곡으로 인해 사용자 명령은 전와할 수 있다. 본 발명은 사용자의 음성이 검출되자마자 음성 표시 신호 또는 음성을 출력하는 것을 중지하도록 장치를 동작 가능하게 함으로써 상기 문제를 경감한다.

몇몇 실시예에서, 상기 장치는 대화형 장치에 의해 출력된 음성을 나타내는 신호를 조절하는 수단을 또한 포함한다. 기록된 음성의 질이 종래의 합성기에 의해 합성된 음성의 질보다 양호하기 때문에 많은 종래의 대화형 장치는 자주 사용되는 대화의 일부에 대해 기록된 음성을 사용한다. 그러나, 현재는 다양한 전화번호 또는 돈의 양의 구두 버전을 나타내는 출력신호가 요구되는 것과 같은 장치에 대해서 가능한 모든 출력의 구두 버전을 기록하는 것은 비실용적이다. 따라서, 요청이 있는 경우에 그런 출력들이 합성된다. 음성 신호가 기록될 때 기록된 음성 신호는 상기 성분이 제외되도록 미리 조정될 수 있다. 따라서, 장치의 전체 출력이 기록된 음성인 장치는 음성을 나타내는 신호가 대화형 장치에 의해 출력되도록 조정하는 수단이 필요 없다. 이 장치는 구성이 덜 복잡해지는 명백한 이점을 가지며, 따라서 제조 비용이 저렴하다.

상기 제외되는 성분은 주파수 스펙트럼의 부분들 중 하나 이상을 포함하는 것이 바람직하다. 이것은 장치를 구현하는데 용이하다는 이점을 갖는다.

이 장치는 주파수의 일부가 1000㎐ 내지 1500㎐의 범위에 있을 때 가장 효율적인 것으로 판명되었다.

주파수대역의 폭은 80㎐ 내지 120㎐의 범위인 것이 바람직하다. 주파수대역의 폭이 120㎐보다 크면, 사용자가 청취하는 출력은 상당히 전와되고, 반면에 폭이 80㎐보다 적으면, 대화형 장치의 출력을 조정하는 것이 보다 어려워지고, 또 사용자가 말하고 있는 위치와 그렇지 않은 위치를 구별하는 것이 어렵게 된다.

본 발명의 제 2 태양에 따르면,

사용자의 구두 명령에 정상적으로 포함된 성분이 제외된 조절 음성을 나타내는 신호를 출력하는 단계,

상기 성분을 포함하는 음성을 나타내는 신호의 유무에 대해 대화형 장치로의 신호 입력을 감시하는 단계 및

상기 성분을 포함하는 음성을 나타내는 신호의 유무를 검출하여 입력 신호가 사용자의 구두 명령을 나타내는지 판단하는 단계를 포함하는 대화형 장치로의 사용자 구두 명령을 검출하는 방법이 제공된다.

본 발명의 제 3 태양에 따르면,

본 발명의 제 1 태양에 따른 대화형 장치,

조절 음성을 나타내는 상기 신호를 조절 음성을 변환하는 수단 및

사용자의 구두 명령을 이를 나타내는 신호로 변환하는 수단을 포함하는 음성 제어 가능 장치가 제공된다.

본 발명이 주위를 기울인 문제들은 또한 직접 음성 제어되는 장치(즉, 중간 통신네트워크가 없는)와 관련하여 발생한다. 따라서, 본 발명의 제 3 태양에 따른 실시예는 무엇보다도 대화형 음성 제어를 제공하는 개인용 컴퓨터, 텔레비전 및 비디오 레코더와 같은 가정 및 업무용 장치를 포함한다.

이제 본 발명의 특정 실시예를 보다 상세히 설명한다. 이 설명은 첨부한 도면을 참조하여 단지 예로서 제공된다.

도 1은 통신네트워크에 설치된 자동 텔레뱅킹 장치의 일부의 기능블럭도,

도 2는 이 장치를 처음 사용하는 사람과의 대화 진행을 나타내는 흐름도,

도 3은 보다 능숙한 사용자와의 동일한 대화 진행을 나타내는 흐름도,

도 4A는 사용자 음성의 스펙트럼을 나타내는 도면,

도 4B는 장치의 의한 신호 출력의 스펙트럼을 나타내는 도면 및

도 4C는 장치 출력의 에코에 의해 전와된 사용자 음성의 스펙트럼을 나타내는 도면이다.

도 1은 자동 텔레뱅킹 서비스를 제공하는데 사용된 신호처리유닛을 나타낸다. 실제, 음성처리유닛은 FDDI(파이버 분산 데이터 인터페이스) 근거리통신망에 의해 전화 시그널링 유닛, 대규모 데이터베이스 기능을 제공하는 파일 서버 유닛, 보조 백업 및 데이터 수집 유닛과 구성요소 관리 유닛과 같은 다른 많은 유닛들에 연결된다. 이런 서비스를 제공하는 제공하는데 적합한 장치는 에릭슨사가 제조한 대화형 음성 애플리케이션 플랫폼이다.

음성처리유닛(도 1)은 디지털 라인 인터페이스(10)를 통해 통신네트워크에 연결된다. 디지털 라인 인터페이스는 통신네트워크로부터의 사용자의 음성을 나타내는 디지털 신호를 입력하고, 신호처리유닛(20)에 이 디지털 신호를 출력한다. 디지털 라인 인터페이스(10)는 또한 신호처리유닛(20)으로부터의 상기 장치에 의해 출력된 구두 메시지를 나타내는 신호를 입력하고, 이 신호들을 네트워크로 출력하기 전에 통신네트워크를 통한 전송에 적합한 형태로 변형한다. 디지털 라인 인터페이스(10)는 많은 수의 입력 및 출력 신호들을 동시에 조정할 수 있다.

신호처리유닛(20)은 디지털 라인 인터페이스(10)로부터의 사용자의 음성을 나타내는 변형된 신호를 입력하고, 디지털 라인 인터페이스(10)를 통해 사용자에게 구두 응답을 나타내는 신호를 출력하기 전에 다이얼로그 제어기(30)의 제어하에서 이들 신호들에 대한 일련의 동작을 실행한다. 신호처리유닛(20)은 4개의 출력 처리기(25, 26, 27, 28)와 2개의 입력 처리기(21, 22)를 포함한다.

기록 음성 출력 처리기(25)는 상기 장치에 의해 자주 출력되는 그 안에 저장된 많은 메시지 중 하나를 나타내는 디지털 신호를 출력하도록 구성된다. 출력되는 특정 메시지는 다이얼로그 제어기(30)에 제공된 변수에 따라 결정된다. 음성 합성기 처리기(26)는 합성된 음성을 나타내는 디지털 신호를 출력하는데 사용된다. 구두 메시지의 내용은 음성 합성기 처리기(26)으로 메시지의 내용을 나타내는 영숫자 데이터를 전송하는 다이얼로그 제어기(30)에 의해 결정된다.

음성 합성기(26)에 의해 출력된 신호는 디지털 노치(notch) 필터(27)로 입력된다. 아래 기술되는 이유 때문에, 이 필터(27)는 1200㎐ 내지 1300㎐의 주파수대역에 존재하는 합성된 신호의 성분들을 제거하도록 구성된다. 음성 합성기(2^)와 디지털 노치 필터(27)가 개별적인 처리기로 도시되어 있지만, 이 2가지 기능은 단일 처리기에 제공될 수 있다는 것을 당업자라면 알 수 있을 것이다.

기록 음성 처리기(25)에 저장된 메시지는 디지털 노치 필터(27)와 유사한 전송 기능을 갖는 필터를 사용하여 기록된다. 따라서, 음성 합성기 처리기(26)의 출력은 도 4A에 도시된 것과 유사한 스펙트럼을 갖고, 반면에 디지털 노치 필터(27) 또는 기록 음성 처리기(25)는 도 4B에 실선으로 도시된 것과 유사한 스펙트럼을 갖을 수 있다.

필터(27)와 기록 음성 처리기(25)의 출력은 합성된 부분과 기록된 음성 부분을 모두 갖는 메시지에 대해 디지털 라인 인터페이스(10)를 통해 사용자에게 연결된 메시지를 출력하기 전에 메시지의 2개의 부분을 연결하는 메시지 발생기(28)로 출력된다.

2개의 입력 신호 처리기는 입력 신호 분석기(21)와 음성 인식기(22)이다.

입력 음성 분석기(21)는 디지털 라인 인터페이스(10)로부터 사용자의 음성을 나타내는 신호를 수신하고, 이것을 통과대역이 1200㎐ 내지 1300㎐인 대역통과필터를 통해 전송한다. 이후, 입력 신호 분석기는 대역통과필터의 출력과 임계 T를 비교한다(도 4 참조). 통과대역의 신호 세기가 임계보다 위에 있으면, 입력 신호 분석기는 입력되는 신호가 사용자의 음성을 포함한다는 사실을 나타내는 "사용자 있음" 신호(23)를 출력한다. 반면에, 통과대역내의 신호 세기가 임계 아래로 떨어지면, 분석기는 신호 분석기(21)에 입력된 신호가 사용자의 음성을 포함하지 않는다는 것을 나타내기 위해 신호(23)의 대체 버전을 출력한다.

입력되는 음성 표현 신호는 또한 다이얼로그 제어기(30)에 의해 수용 가능한 응답이 제공되는 음성 인식기(22)에 입력된다. 사용자의 음성이 입력 신호에 포함되어 있다는 것을 나타내는 사용자 있음 신호(23)에 대해 음성 인식기는 사용자가 말한 현재 단어의 인식을 시도하고, 다이얼로그 제어기(30)에 결과를 출력한다.

다이얼로그 제어기(30)는 제어 소프트웨어에 따라 사용자가 말한 단어에 응답하고 사용자에게 적절한 응답을 제공하기 위해 출력 처리기를 제어한다.

자동 뱅킹 장치와 경험이 없는 사용자 사이의 대화(도 2)는 사용자가 장치의 전화번호의 다이얼을 돌림으로써 개시된다. 사용자가 장치에 연결되면, 다이얼로그 제어기(30)는 기록 음성 처리기(25)에 환영 메시지 R1를 출력하고, 바로 뒤이어 계좌번호 요청 프롬프트 R2를 출력하도록 지시한다. 상기한 바와 같이, 기록 음성 처리기(25)내의 모든 기록 메시지와 프롬프트는 도 4B에서 실선으로 도시된 것과 유사한 스펙트럼을 갖도록 기록된다. 도 4B는 기록 메시지의 스펙트럼이 1200㎐ 내지 1300㎐ 사이의 주파수를 갖는 성분을 갖지는 않지만, 다른 부분은 정상인 것을 보여준다. 메시지를 출력할 때, 메시지의 에코가 입력 신호 처리기(21, 22)로 다시 수신될지도 모른다. 스펙트럼이 반사 과정에 의해 약간 변경될 가능성이 있지만, 반사 과정은 출력 신호에 존재하지 않는 주파수를 도입하지는 않고, 따라서 1200㎐ 내지 1300㎐의 주파수대역에 주파수를 도입하지 않는다. 그럼에도 불구하고, 출력 신호 처리기(25, 26, 27, 28)에서 입력 신호 처리기(21, 22)로 전송되는 동안 출력 신호에 약간의 잡음이 부가될 수 있다. 따라서, 에코의 스펙트럼은 도 4B의 점선으로 도시된 것과 유사할 수 있다.

도 1을 참조하면, 프롬프트 R2의 에코는 입력 신호 분석기(21)에 수신되어, 대역통과필터(1200㎐ 내지 1300㎐의 통과대역)에 의해 여파되고, 생성된 신호는 임계 T와 비교된다. 출력 프롬프트의 에코는 주파수 대역 1200㎐ 내지 1300㎐의 유효 성분을 포함하지 않기 때문에 신호는 임계 아래로 떨어지고, 입력 신호 분석기(21)는 프롬프트 R2의 기간에 걸쳐서 사용자가 말을 하고 있지 않다는 것을 나타내는 신호(23)를 출력한다.

다음에 사용자는 전화의 DTMF(듀얼 톤 다중 주파수) 키를 사용하여 자신의 계좌번호를 입력하기 시작한다. 이 톤들은 이 톤들을 숫자 데이터로 변환하고, 이것을 다이얼로드 제어기(30)로 전송하는 음성 인식기(22)에 의해 수신된다. 다음에 다이얼로그 제어기(30)는 FDDI 근거리통신망에 제공된 고객 데이터베이스 파일 서버로 계좌번호를 전송한다. 다음에 파일 서버는 이 계좌와 관련하여 어떤 서비스 이용 가능한지를 나타내는 데이터와 개인식별번호(PIN)와 같은 고객과 관련된 다른 데이터를 반송한다. 도 2와 도 3에는 도시되지 않지만, 시스템은 고객에게 계좌번호를 요청한 후 바로 뒤이어 PIN을 입력하도록 요청한다.

다음에 다이얼로그 제어기(30)는 기록 음성 처리기(25)에 사용자가 단어 "이체"를 말함으로써 응답하기 전에 듣는 요청 서비스 형태 프롬프트 R3를 출력하도록 지시한다. 사용자의 음성은 도 4A에 도시된 것과 유사한 스펙트럼을 가질 수 있다. 사용자의 음성을 나타내는 신호가 입력 신호 분석기(21)로 전송될 때, 이 신호가 주파수 대역 1200㎐ 내지 1300㎐의 유효성분을 포함한다고 판명되고, 따라서 입력 신호 분석기(21)는 사용자가 음성 인식기(22)에 말을 하고 있다는 사실을 나타내는 신호(23)를 출력한다. 음성 인식기(22)는 현재 장치에 입력되어 있는 단어 를 "이체"로 인식하고, 이것이 다이얼로그 제어기(30)에 수신된 단어라는 것을 나타내는 신호를 전송한다.

이 응답이 수신되면, 다음에 다이얼로그 제어기(30)는 기록 음성 처리기(25)에 사용자가 이체하고자 하는 금액을 물어보는 프롬프트를 출력하도록 지시한다. 다음에 사용자는 자신이 이체하고자 하는 금액을 말함으로써 응답하고, 이와 같은 정보의 구두 입력은 DTMF 톤을 입력할 때의 실수로 사용자가 이체하고자 하는 것 보다 크거나 작은 금액의 이체를 사용자가 요청할 수 있기 때문에 전화 키패드로부터의 정보보다는 잠재적으로 신뢰성이 높다.

다음에 사용자의 응답은 음성 인식기(22)에 의해 처리되고, 사용자가 이체를 요청한 금액(이 예에서는 ￡316.17)을 나타내는 데이터가 다이얼로드 제어기(30)로 전송된다. 다음에 다이얼로그 제어기(30)는 기록 음성 처리기(25)에 기록 음성 메시지에 메시지 발생기(28)로 "~라고 들었습니다"와 "맞습니까?"를 전송하도록 지시한다. 다음에 다이얼로그 제어기(30)는 음성 합성기(26)에 ￡316.17의 구두 버전을 합성하도록 지시한다. 이 단어들의 합성 버전은 음성 합성기(26)에 의해 출력되고, 도 4A에 도시된 것과 유사한 스펙트럼을 갖는다. 다음에 신호는 디지털 노치 필터(27)를 통해 전송되고, 도 4B에 도시된 실선과 유사한 스펙트럼을 갖는 신호가 출력된다. 다음에 변형된 합성 메시지는 메시지 발생기(28)내에 적재된다.

다음에 메시지 발생기(28)는 디지털 라인 인터페이스(10)를 통해 사용자에게 출력되는 프롬프트 R5를 제공하기 위해 2개의 기록 음성 메시지와 합성 음성 메시지를 연결한다. 다음에 대화가 계속된다.

시스템과 보다 친숙한 사용자는 도 3에 도시된 것과 같은 대화를 할 것이다. 계좌번호를 입력하기 위해 전화 키패드를 사용하여 사용자가 계좌 번호 요청 프롬프트 R2를 중단시킬 때까지 대화의 처음 부분은 도 2와 관련하여 기술된 것과 동일하다. 전화에 의해 출력된 DTMF 톤들은 이 톤들을 데이터를 나타내는 계좌번호로 변환하고, 이 데이터를 다이얼로그 제어기(30)로 전송하는 음성 인식기(22)에 입력된다. 다이얼로그 제어기(30)는 이 데이터를 수신하자 마자 계좌번호 요청 프롬프트 R2의 출력을 중지하기 위해 기록 음성 처리기(25)로 신호를 전송한다. 장치가 프롬프트 R2의 송출을 중지하면, 그 프롬프트의 에코는 장치로 다시 수신되지 않을 것이다. 따라서, 음성 인식기는 방해하는 에코 없이 사용자에 의해 입력된 다른 DTMF 톤들을 인식할 수 있다.

다음에 사용자가 단어 "이체"를 말함으로써 서비스 요청 프롬프트 R3를 중단시킬 때까지 이전과 같이 대화가 계속된다. 메시지 R3의 처음 2개의 단어 동안, 입력 신호 분석기(21)가 사용자의 음성이 존재하지 않는다는 것은 나타내는 신호(23)를 출력하고 있다는 것을 알 수 있을 것이다. 그러나, 사용자가 출력 메시지를 중단시키면, 장치에 수신된 신호는 사용자의 음성과 출력 프롬프트의 에코의 조합일 것이다. 이 조합 신호의 스펙트럼은 사용자 음성만의 그것과 유사하지만(도 4A), 에코 신호의 스펙트럼이 1200㎐ 내지 1300㎐ 사이의 어떤 성분도 갖지 않기 때문에 1200㎐ 내지 1300㎐ 사이에서 작은 노치의 특징을 갖는다.

조합 신호는 입력 신호 분석기(21)로 전송되고, 여기서 대역통과필터를 통해 전송되고, 주파수 범위 1200㎐ 내지 1300㎐의 유효성분을 가지는 것으로 판명된다. 따라서 입력 신호 분석기(21)는 음성 인식기(22)와 다이얼로그 제어기(23)에 모두 (사용자의 음성이 존재한다는 것을 나타내는) 신호(23)를 출력한다. 신호(23)를 수신하면, 다이얼로그 제어기(30)는 기록 음성 처리기(25)에 프롬프트 R3의 출력을 중지하도록 지시한다. 그 후 바로 이어서, 프롬프트의 에코는 중단되어 음성 인식기(22)에 수신된 신호에 대한 성분이 되고, 인식기는 사용자가 현재 말하고 있는 단어를 보다 양호하게 인식할 수 있다. 사용자의 응답이 인식되었으면, 다이얼로그 제어기(30)로 전송된다.

그 후, 사용자는 요청 서비스 형태 프롬프트 R3를 중단시킨 방식과 유사한 방식으로 대화의 다음 2개의 프롬프트를 중단시킨다.

상기 실시예에서, 미리 조정된 구두 프롬프트에는 없는 성분은 주파수 스펙트럼의 일부를 포함한다는 것을 알 수 있을 것이다. 그러나, 다른 성분이 없을 수도 있다고 생각된다. 예를 들어, 짧은 기간의 타임슬롯(즉, 1 내지 5㎳)은 규칙적인 기간(즉 20㎳ 내지 100㎳ 마다)으로 구두 프롬프트에서 제거될 수 있다. 예를 들어, 음성이 이산적으로 8㎑로 샘플링되면, 160-800 샘플 기간에서 8 내지 40 샘플을 영값으로 설정함으로써 달성될 수 있다. 400 샘플 기간의 신호에서 20 샘플이 제거되면, 특정값을 취하기 위해, 입력 신호 분석기는 800 샘플의 수신된 신호 기간 동안 대응하는 무언 또는 거의 무언(즉, 볼륨이 지정 임계 아래인 경우)을 검출하지 못하면 사용자가 말하고 있다고 있다는 것을 나타내는 신호를 출력하도록 설정될 수 있다.

"바지-인" 기능이 사용자로 하여금 보다 빠르게 자신의 거래를 실행할 수 있도록 하는 방법을 알 수 있을 것이다. 보다 중요하게, 이런 방법으로 장치에 의해 송출된 프롬프트를 중단시킬 수 있음으로써, 사용자는 자신이 대화를 통제하고 있다고 느낀다.

Claims

음성에서는 정상적으로 존재하는 성분이 제외된 조절 음성을 나타내는 신호를 출력하는 동작으로 구성된 신호 출력 수단,

사용자의 구두 명령을 나타내는 신호를 수신하는 동작으로 구성된 신호 입력 수단 및

조절 음성에서 제외된 성분을 포함하는 음성을 나타내는 신호의 입력을 검출하여 조절 음성이 나오는 동안 사용자의 구두 명령을 검출하도록 동작 가능한 명령 검출 수단을 포함하는 것을 특징으로 하는 대화형 장치.
제 1 항에 있어서,

조절 음성을 나타내는 상기 신호를 제공하도록 음성을 표현하는 신호를 조절하는 수단을 또한 포함하는 것을 특징으로 하는 대화형 장치.
제 2 항에 있어서,

상기 조절 수단은 디지털 필터를 포함하는 것을 특징으로 하는 대화형 장치.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

상기 제외된 성분은 주파수 스펙트럼의 부분들 중 하나 이상을 포함하는 것을 특징으로 하는 대화형 장치.
제 4 항에 있어서,

상기 부분 중 중간점은 1000㎐ 내지 1500㎐의 범위내에 있는 것을 특징으로 하는 대화형 장치.
제 5 항에 있어서,

상기 중간점은 1200㎐ 내지 1300㎐의 범위내에 있는 것을 특징으로 하는 대화형 장치.
제 4 항 내지 제 6 항 중 어느 한 항에 있어서,

상기 부분의 폭은 80㎐ 내지 120㎐의 범위내에 있는 것을 특징으로 하는 대화형 장치.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

상기 제외된 성분은 상기 음성 신호의 복수의 이격된 단기 타임 세그먼트를 포함하는 것을 특징으로 하는 대화형 장치.
제 1 항 내지 제 8 항 중 어느 한 항에 따른 대화형 장치,

조절 음성을 나타내는 상기 신호를 조절 음성으로 변환하는 수단 및

사용자의 구두 명령을 그것을 나타내는 신호로 변환하는 수단을 포함하는 것을 특징으로 하는 음성 제어 가능 장치.
사용자의 구두 명령에 정상적으로 포함된 성분이 제외된 조절 음성을 나타내는 신호를 출력하는 단계,

상기 성분을 포함하는 음성을 나타내는 신호의 유무에 대해 대화형 장치에 입력된 신호를 감시하는 단계 및

상기 성분을 포함하는 음성을 나타내는 신호의 유무를 검출하여 입력 신호가 사용자의 구두 명령을 나타내는지를 결정하는 단계를 포함하는 것을 특징으로 하는 대화형 장치로의 사용자 구두 명령을 검출하는 방법.
제 10 항에 있어서,

상기 구두 명령을 나타내는 신호를 조절하는 단계를 또한 포함하는 것을 특징으로 하는 대화형 장치로의 사용자 구두 명령을 검출하는 방법.
실질적으로 첨부한 도면에 도시되어 있고, 이 도면을 참조하여 앞에서 기술된 것과 같은 장치.
실질적으로 첨부한 도면에 도시되어 있고, 이 도면을 참조하여 앞에서 기술된 것과 같은 대화형 장치에 의해 송출된 프롬프트에 대한 사용자의 응답을 검출하는 방법.
제 1 항 내지 제 8 항 중 어느 한 항에 따른 장치를 포함하는 통신네트워크.
음성에 정상적으로 존재하는 성분이 제외된 미리 조절된 구두 프롬프트 또는 이를 나타내는 신호를 출력하는 동작으로 구성된 출력 수단,

사용자의 음성을 나타내는 신호를 입력하는 동작으로 구성되는 입력 수단 및

미리 지정된 프롬프트를 송출하는 동안 프롬프트에서 제외된 성분을 포함하는 신호의 입력을 검출하여 사용자로부터의 입력을 검출하도록 동작 가능한 응답 검출 수단을 포함하는 대화형 장치.