KR20000069163A - 대화형 장치 - Google Patents

대화형 장치 Download PDF

Info

Publication number
KR20000069163A
KR20000069163A KR1019997004705A KR19997004705A KR20000069163A KR 20000069163 A KR20000069163 A KR 20000069163A KR 1019997004705 A KR1019997004705 A KR 1019997004705A KR 19997004705 A KR19997004705 A KR 19997004705A KR 20000069163 A KR20000069163 A KR 20000069163A
Authority
KR
South Korea
Prior art keywords
user
signal
voice
output
prompt
Prior art date
Application number
KR1019997004705A
Other languages
English (en)
Other versions
KR100526216B1 (ko
Inventor
존스톤로버트데니스
Original Assignee
내쉬 로저 윌리엄
브리티쉬 텔리커뮤니케이션즈 파블릭 리미티드 캄퍼니
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 내쉬 로저 윌리엄, 브리티쉬 텔리커뮤니케이션즈 파블릭 리미티드 캄퍼니 filed Critical 내쉬 로저 윌리엄
Publication of KR20000069163A publication Critical patent/KR20000069163A/ko
Application granted granted Critical
Publication of KR100526216B1 publication Critical patent/KR100526216B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q1/00Details of selecting apparatus or arrangements
    • H04Q1/18Electrical details
    • H04Q1/30Signalling arrangements; Manipulation of signalling currents
    • H04Q1/44Signalling arrangements; Manipulation of signalling currents using alternate current
    • H04Q1/444Signalling arrangements; Manipulation of signalling currents using alternate current with voice-band signalling frequencies
    • H04Q1/46Signalling arrangements; Manipulation of signalling currents using alternate current with voice-band signalling frequencies comprising means for distinguishing between a signalling current of predetermined frequency and a complex current containing that frequency, e.g. speech current
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/60Medium conversion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/38Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections
    • H04M3/382Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections using authorisation codes or passwords

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Communication Control (AREA)

Abstract

본 발명은 종래의 대화형 장치, 특히 통신네트워크에 연결된 장치에 있어서 출력되는 프롬프트의 에코와 그 프롬프트에 대한 장치 및 사용자의 응답을 구별하기가 어려운 문제를 해결하는 대화형 장치에 관한 것으로서, 사용자가 출력되는 프롬프트를 중단시키고, 사용자의 응답(예를 들어 주파수 대역)에서 정상적으로 발견되는 성분을 출력되는 프롬프트로부터 제거하는 대화형 장치가 개시되어 있고, 상기 장치에서 입력 신호 분석기(21)는 출력되는 프롬프트에서 제외되는 성분을 유무를 표시함으로써 사용자의 응답을 검출할 수 있고, 출력되는 프롬프트에서 주파수 대역을 제거하는 대신 장치는 출력되는 신호의 이격 타임슬롯을 강제로 무언으로 할 수 있고, 그 경우 입력 신호 분석유닛은 소정의 시각 동안 입력신호에서 무언 기간이 관찰되지 않았다고 결정하여 사용자 응답이 있음을 검출할 수 있으며, 본 발명은 프롬프트/응답 대화에 사용자를 끌어들이는 장치에 응용 가능할 뿐만 아니라 음성 제어 가능 응답전화기 등에 의해 재생되는 메시지의 인터럽션과 관련하여 유용하다.

Description

대화형 장치{INTERACTIVE APPARATUS}
본 발명은 대화형 장치에 관한 것이다.
최근, 점점 더 많은 수의 일상적인 전화 대화가 자동화되었고, 이에 따라 대화를 진행하기 위한 교환원이 필요 없게 되었다.
최초로 자동화된 대화 중 하나는 간단히 통화를 하기 위해 자리에 없는 미래의 수신인에게 메시지를 남기는 것이었다. 최근, 텔레뱅킹, 전화번호 조회 및 전화를 이용한 철도 시간표 조회와 같은 보다 복잡한 서비스가 또한 자동화되었다. 현재 많은 응답전화기는 전화 소유자가 자신의 응답전화기에 전화를 걸어 남겨진 메시지를 확인할 수 있는 기능을 부가적으로 제공한다. 현재 자동화된 다른 서비스는 저장된 이메일 메시지를 전화를 통해 읽어주는 것이다.
상기한 각각의 경우에 있어서, 사용자는 실제 대화형 장치, 사용자가 사용하고 있는 전화 및 공중교환전화망의 요소들을 포함하는 장치와 구두(spoken) 대화를 실시한다.
구두 대화에서, 사용자가 중간에 말을 끊을 수 있으면 유용하다. 예를 들어, 사용자가 프롬프트를 통해 어떤 정보가 요청되고 있는지 예측할 수 있다면 사용자는 중간에 말을 끊고 싶을 것이다. 인터럽션(interruption)(해당 기술분야의 숙련된 자에게는 "바지-인(barge-in)"으로 주지되어 있는) 동작 가능 기능은 사용자가 다른 메시지로 이동하고자 하는 경우에 메시지 재생 장치(응답전화기와 같은)와 관련하여 훨씬 더 바람직하다.
대화형 장치로부터의 출력의 일부가 사용자의 명령을 수신하는 입력으로 다시 피드백되면, 바지-인 기능을 제공하는 것은 보다 어려워진다. 이 피드백은 예를 들어 대화형 장치로부터 전송된 음성 표시 신호가 입력으로 다시 반사되는 네트워크에서의 접합 때문에 발생한다. 또한 마이크로폰으로 돌아가는 사용자 전화의 화자로부터 출력된 음성이 음향 에코에 의해 발생된다(이것은 특히 핸즈프리 동작과 관련하여 문제가 된다). 따라서 지금까지 가능했던 것보다 신뢰성 있는 바지-인 기능을 제공하기 위해 사용자의 입력과 피드백 출력 신호를 구분할 필요가 있다.
본 발명의 제 1 태양에 따르면,
음성에는 정상적으로 존재하는 성분이 제외된 조절 음성을 나타내는 신호를 출력하는 동작으로 구성된 신호 출력 수단,
사용자의 구두 명령을 나타내는 신호를 수신하는 동작으로 구성된 신호 입력 수단 및
조절 음성에서 제외된 성분을 포함하는 음성을 나타내는 신호의 입력을 검출하여 조절 음성이 나오는 동안 사용자의 구두 명령을 검출하도록 동작 가능한 명령 검출 수단을 포함하는 대화형 장치가 제공된다.
이런 장치를 제공하여 사용자 명령의 유무를 보다 양호하게 검출할 수 있다. 이는 특히 종래의 음성 인식기를 사용하는 장치와 관련하여 유용하고, 이는 종래의 음성 인식기가 분석하는 음성 신호가 어떤 방식으로 전와(轉訛)된다면 이 음성 인식기의 성능은 뚜렷하게 저하하기 때문이다. 대화형 장치에서, 대화형 장치의 출력 에코에 의해 발생된 왜곡으로 인해 사용자 명령은 전와할 수 있다. 본 발명은 사용자의 음성이 검출되자마자 음성 표시 신호 또는 음성을 출력하는 것을 중지하도록 장치를 동작 가능하게 함으로써 상기 문제를 경감한다.
몇몇 실시예에서, 상기 장치는 대화형 장치에 의해 출력된 음성을 나타내는 신호를 조절하는 수단을 또한 포함한다. 기록된 음성의 질이 종래의 합성기에 의해 합성된 음성의 질보다 양호하기 때문에 많은 종래의 대화형 장치는 자주 사용되는 대화의 일부에 대해 기록된 음성을 사용한다. 그러나, 현재는 다양한 전화번호 또는 돈의 양의 구두 버전을 나타내는 출력신호가 요구되는 것과 같은 장치에 대해서 가능한 모든 출력의 구두 버전을 기록하는 것은 비실용적이다. 따라서, 요청이 있는 경우에 그런 출력들이 합성된다. 음성 신호가 기록될 때 기록된 음성 신호는 상기 성분이 제외되도록 미리 조정될 수 있다. 따라서, 장치의 전체 출력이 기록된 음성인 장치는 음성을 나타내는 신호가 대화형 장치에 의해 출력되도록 조정하는 수단이 필요 없다. 이 장치는 구성이 덜 복잡해지는 명백한 이점을 가지며, 따라서 제조 비용이 저렴하다.
상기 제외되는 성분은 주파수 스펙트럼의 부분들 중 하나 이상을 포함하는 것이 바람직하다. 이것은 장치를 구현하는데 용이하다는 이점을 갖는다.
이 장치는 주파수의 일부가 1000㎐ 내지 1500㎐의 범위에 있을 때 가장 효율적인 것으로 판명되었다.
주파수대역의 폭은 80㎐ 내지 120㎐의 범위인 것이 바람직하다. 주파수대역의 폭이 120㎐보다 크면, 사용자가 청취하는 출력은 상당히 전와되고, 반면에 폭이 80㎐보다 적으면, 대화형 장치의 출력을 조정하는 것이 보다 어려워지고, 또 사용자가 말하고 있는 위치와 그렇지 않은 위치를 구별하는 것이 어렵게 된다.
본 발명의 제 2 태양에 따르면,
사용자의 구두 명령에 정상적으로 포함된 성분이 제외된 조절 음성을 나타내는 신호를 출력하는 단계,
상기 성분을 포함하는 음성을 나타내는 신호의 유무에 대해 대화형 장치로의 신호 입력을 감시하는 단계 및
상기 성분을 포함하는 음성을 나타내는 신호의 유무를 검출하여 입력 신호가 사용자의 구두 명령을 나타내는지 판단하는 단계를 포함하는 대화형 장치로의 사용자 구두 명령을 검출하는 방법이 제공된다.
본 발명의 제 3 태양에 따르면,
본 발명의 제 1 태양에 따른 대화형 장치,
조절 음성을 나타내는 상기 신호를 조절 음성을 변환하는 수단 및
사용자의 구두 명령을 이를 나타내는 신호로 변환하는 수단을 포함하는 음성 제어 가능 장치가 제공된다.
본 발명이 주위를 기울인 문제들은 또한 직접 음성 제어되는 장치(즉, 중간 통신네트워크가 없는)와 관련하여 발생한다. 따라서, 본 발명의 제 3 태양에 따른 실시예는 무엇보다도 대화형 음성 제어를 제공하는 개인용 컴퓨터, 텔레비전 및 비디오 레코더와 같은 가정 및 업무용 장치를 포함한다.
이제 본 발명의 특정 실시예를 보다 상세히 설명한다. 이 설명은 첨부한 도면을 참조하여 단지 예로서 제공된다.
도 1은 통신네트워크에 설치된 자동 텔레뱅킹 장치의 일부의 기능블럭도,
도 2는 이 장치를 처음 사용하는 사람과의 대화 진행을 나타내는 흐름도,
도 3은 보다 능숙한 사용자와의 동일한 대화 진행을 나타내는 흐름도,
도 4A는 사용자 음성의 스펙트럼을 나타내는 도면,
도 4B는 장치의 의한 신호 출력의 스펙트럼을 나타내는 도면 및
도 4C는 장치 출력의 에코에 의해 전와된 사용자 음성의 스펙트럼을 나타내는 도면이다.
도 1은 자동 텔레뱅킹 서비스를 제공하는데 사용된 신호처리유닛을 나타낸다. 실제, 음성처리유닛은 FDDI(파이버 분산 데이터 인터페이스) 근거리통신망에 의해 전화 시그널링 유닛, 대규모 데이터베이스 기능을 제공하는 파일 서버 유닛, 보조 백업 및 데이터 수집 유닛과 구성요소 관리 유닛과 같은 다른 많은 유닛들에 연결된다. 이런 서비스를 제공하는 제공하는데 적합한 장치는 에릭슨사가 제조한 대화형 음성 애플리케이션 플랫폼이다.
음성처리유닛(도 1)은 디지털 라인 인터페이스(10)를 통해 통신네트워크에 연결된다. 디지털 라인 인터페이스는 통신네트워크로부터의 사용자의 음성을 나타내는 디지털 신호를 입력하고, 신호처리유닛(20)에 이 디지털 신호를 출력한다. 디지털 라인 인터페이스(10)는 또한 신호처리유닛(20)으로부터의 상기 장치에 의해 출력된 구두 메시지를 나타내는 신호를 입력하고, 이 신호들을 네트워크로 출력하기 전에 통신네트워크를 통한 전송에 적합한 형태로 변형한다. 디지털 라인 인터페이스(10)는 많은 수의 입력 및 출력 신호들을 동시에 조정할 수 있다.
신호처리유닛(20)은 디지털 라인 인터페이스(10)로부터의 사용자의 음성을 나타내는 변형된 신호를 입력하고, 디지털 라인 인터페이스(10)를 통해 사용자에게 구두 응답을 나타내는 신호를 출력하기 전에 다이얼로그 제어기(30)의 제어하에서 이들 신호들에 대한 일련의 동작을 실행한다. 신호처리유닛(20)은 4개의 출력 처리기(25, 26, 27, 28)와 2개의 입력 처리기(21, 22)를 포함한다.
기록 음성 출력 처리기(25)는 상기 장치에 의해 자주 출력되는 그 안에 저장된 많은 메시지 중 하나를 나타내는 디지털 신호를 출력하도록 구성된다. 출력되는 특정 메시지는 다이얼로그 제어기(30)에 제공된 변수에 따라 결정된다. 음성 합성기 처리기(26)는 합성된 음성을 나타내는 디지털 신호를 출력하는데 사용된다. 구두 메시지의 내용은 음성 합성기 처리기(26)으로 메시지의 내용을 나타내는 영숫자 데이터를 전송하는 다이얼로그 제어기(30)에 의해 결정된다.
음성 합성기(26)에 의해 출력된 신호는 디지털 노치(notch) 필터(27)로 입력된다. 아래 기술되는 이유 때문에, 이 필터(27)는 1200㎐ 내지 1300㎐의 주파수대역에 존재하는 합성된 신호의 성분들을 제거하도록 구성된다. 음성 합성기(2^)와 디지털 노치 필터(27)가 개별적인 처리기로 도시되어 있지만, 이 2가지 기능은 단일 처리기에 제공될 수 있다는 것을 당업자라면 알 수 있을 것이다.
기록 음성 처리기(25)에 저장된 메시지는 디지털 노치 필터(27)와 유사한 전송 기능을 갖는 필터를 사용하여 기록된다. 따라서, 음성 합성기 처리기(26)의 출력은 도 4A에 도시된 것과 유사한 스펙트럼을 갖고, 반면에 디지털 노치 필터(27) 또는 기록 음성 처리기(25)는 도 4B에 실선으로 도시된 것과 유사한 스펙트럼을 갖을 수 있다.
필터(27)와 기록 음성 처리기(25)의 출력은 합성된 부분과 기록된 음성 부분을 모두 갖는 메시지에 대해 디지털 라인 인터페이스(10)를 통해 사용자에게 연결된 메시지를 출력하기 전에 메시지의 2개의 부분을 연결하는 메시지 발생기(28)로 출력된다.
2개의 입력 신호 처리기는 입력 신호 분석기(21)와 음성 인식기(22)이다.
입력 음성 분석기(21)는 디지털 라인 인터페이스(10)로부터 사용자의 음성을 나타내는 신호를 수신하고, 이것을 통과대역이 1200㎐ 내지 1300㎐인 대역통과필터를 통해 전송한다. 이후, 입력 신호 분석기는 대역통과필터의 출력과 임계 T를 비교한다(도 4 참조). 통과대역의 신호 세기가 임계보다 위에 있으면, 입력 신호 분석기는 입력되는 신호가 사용자의 음성을 포함한다는 사실을 나타내는 "사용자 있음" 신호(23)를 출력한다. 반면에, 통과대역내의 신호 세기가 임계 아래로 떨어지면, 분석기는 신호 분석기(21)에 입력된 신호가 사용자의 음성을 포함하지 않는다는 것을 나타내기 위해 신호(23)의 대체 버전을 출력한다.
입력되는 음성 표현 신호는 또한 다이얼로그 제어기(30)에 의해 수용 가능한 응답이 제공되는 음성 인식기(22)에 입력된다. 사용자의 음성이 입력 신호에 포함되어 있다는 것을 나타내는 사용자 있음 신호(23)에 대해 음성 인식기는 사용자가 말한 현재 단어의 인식을 시도하고, 다이얼로그 제어기(30)에 결과를 출력한다.
다이얼로그 제어기(30)는 제어 소프트웨어에 따라 사용자가 말한 단어에 응답하고 사용자에게 적절한 응답을 제공하기 위해 출력 처리기를 제어한다.
자동 뱅킹 장치와 경험이 없는 사용자 사이의 대화(도 2)는 사용자가 장치의 전화번호의 다이얼을 돌림으로써 개시된다. 사용자가 장치에 연결되면, 다이얼로그 제어기(30)는 기록 음성 처리기(25)에 환영 메시지 R1를 출력하고, 바로 뒤이어 계좌번호 요청 프롬프트 R2를 출력하도록 지시한다. 상기한 바와 같이, 기록 음성 처리기(25)내의 모든 기록 메시지와 프롬프트는 도 4B에서 실선으로 도시된 것과 유사한 스펙트럼을 갖도록 기록된다. 도 4B는 기록 메시지의 스펙트럼이 1200㎐ 내지 1300㎐ 사이의 주파수를 갖는 성분을 갖지는 않지만, 다른 부분은 정상인 것을 보여준다. 메시지를 출력할 때, 메시지의 에코가 입력 신호 처리기(21, 22)로 다시 수신될지도 모른다. 스펙트럼이 반사 과정에 의해 약간 변경될 가능성이 있지만, 반사 과정은 출력 신호에 존재하지 않는 주파수를 도입하지는 않고, 따라서 1200㎐ 내지 1300㎐의 주파수대역에 주파수를 도입하지 않는다. 그럼에도 불구하고, 출력 신호 처리기(25, 26, 27, 28)에서 입력 신호 처리기(21, 22)로 전송되는 동안 출력 신호에 약간의 잡음이 부가될 수 있다. 따라서, 에코의 스펙트럼은 도 4B의 점선으로 도시된 것과 유사할 수 있다.
도 1을 참조하면, 프롬프트 R2의 에코는 입력 신호 분석기(21)에 수신되어, 대역통과필터(1200㎐ 내지 1300㎐의 통과대역)에 의해 여파되고, 생성된 신호는 임계 T와 비교된다. 출력 프롬프트의 에코는 주파수 대역 1200㎐ 내지 1300㎐의 유효 성분을 포함하지 않기 때문에 신호는 임계 아래로 떨어지고, 입력 신호 분석기(21)는 프롬프트 R2의 기간에 걸쳐서 사용자가 말을 하고 있지 않다는 것을 나타내는 신호(23)를 출력한다.
다음에 사용자는 전화의 DTMF(듀얼 톤 다중 주파수) 키를 사용하여 자신의 계좌번호를 입력하기 시작한다. 이 톤들은 이 톤들을 숫자 데이터로 변환하고, 이것을 다이얼로드 제어기(30)로 전송하는 음성 인식기(22)에 의해 수신된다. 다음에 다이얼로그 제어기(30)는 FDDI 근거리통신망에 제공된 고객 데이터베이스 파일 서버로 계좌번호를 전송한다. 다음에 파일 서버는 이 계좌와 관련하여 어떤 서비스 이용 가능한지를 나타내는 데이터와 개인식별번호(PIN)와 같은 고객과 관련된 다른 데이터를 반송한다. 도 2와 도 3에는 도시되지 않지만, 시스템은 고객에게 계좌번호를 요청한 후 바로 뒤이어 PIN을 입력하도록 요청한다.
다음에 다이얼로그 제어기(30)는 기록 음성 처리기(25)에 사용자가 단어 "이체"를 말함으로써 응답하기 전에 듣는 요청 서비스 형태 프롬프트 R3를 출력하도록 지시한다. 사용자의 음성은 도 4A에 도시된 것과 유사한 스펙트럼을 가질 수 있다. 사용자의 음성을 나타내는 신호가 입력 신호 분석기(21)로 전송될 때, 이 신호가 주파수 대역 1200㎐ 내지 1300㎐의 유효성분을 포함한다고 판명되고, 따라서 입력 신호 분석기(21)는 사용자가 음성 인식기(22)에 말을 하고 있다는 사실을 나타내는 신호(23)를 출력한다. 음성 인식기(22)는 현재 장치에 입력되어 있는 단어 를 "이체"로 인식하고, 이것이 다이얼로그 제어기(30)에 수신된 단어라는 것을 나타내는 신호를 전송한다.
이 응답이 수신되면, 다음에 다이얼로그 제어기(30)는 기록 음성 처리기(25)에 사용자가 이체하고자 하는 금액을 물어보는 프롬프트를 출력하도록 지시한다. 다음에 사용자는 자신이 이체하고자 하는 금액을 말함으로써 응답하고, 이와 같은 정보의 구두 입력은 DTMF 톤을 입력할 때의 실수로 사용자가 이체하고자 하는 것 보다 크거나 작은 금액의 이체를 사용자가 요청할 수 있기 때문에 전화 키패드로부터의 정보보다는 잠재적으로 신뢰성이 높다.
다음에 사용자의 응답은 음성 인식기(22)에 의해 처리되고, 사용자가 이체를 요청한 금액(이 예에서는 £316.17)을 나타내는 데이터가 다이얼로드 제어기(30)로 전송된다. 다음에 다이얼로그 제어기(30)는 기록 음성 처리기(25)에 기록 음성 메시지에 메시지 발생기(28)로 "~라고 들었습니다"와 "맞습니까?"를 전송하도록 지시한다. 다음에 다이얼로그 제어기(30)는 음성 합성기(26)에 £316.17의 구두 버전을 합성하도록 지시한다. 이 단어들의 합성 버전은 음성 합성기(26)에 의해 출력되고, 도 4A에 도시된 것과 유사한 스펙트럼을 갖는다. 다음에 신호는 디지털 노치 필터(27)를 통해 전송되고, 도 4B에 도시된 실선과 유사한 스펙트럼을 갖는 신호가 출력된다. 다음에 변형된 합성 메시지는 메시지 발생기(28)내에 적재된다.
다음에 메시지 발생기(28)는 디지털 라인 인터페이스(10)를 통해 사용자에게 출력되는 프롬프트 R5를 제공하기 위해 2개의 기록 음성 메시지와 합성 음성 메시지를 연결한다. 다음에 대화가 계속된다.
시스템과 보다 친숙한 사용자는 도 3에 도시된 것과 같은 대화를 할 것이다. 계좌번호를 입력하기 위해 전화 키패드를 사용하여 사용자가 계좌 번호 요청 프롬프트 R2를 중단시킬 때까지 대화의 처음 부분은 도 2와 관련하여 기술된 것과 동일하다. 전화에 의해 출력된 DTMF 톤들은 이 톤들을 데이터를 나타내는 계좌번호로 변환하고, 이 데이터를 다이얼로그 제어기(30)로 전송하는 음성 인식기(22)에 입력된다. 다이얼로그 제어기(30)는 이 데이터를 수신하자 마자 계좌번호 요청 프롬프트 R2의 출력을 중지하기 위해 기록 음성 처리기(25)로 신호를 전송한다. 장치가 프롬프트 R2의 송출을 중지하면, 그 프롬프트의 에코는 장치로 다시 수신되지 않을 것이다. 따라서, 음성 인식기는 방해하는 에코 없이 사용자에 의해 입력된 다른 DTMF 톤들을 인식할 수 있다.
다음에 사용자가 단어 "이체"를 말함으로써 서비스 요청 프롬프트 R3를 중단시킬 때까지 이전과 같이 대화가 계속된다. 메시지 R3의 처음 2개의 단어 동안, 입력 신호 분석기(21)가 사용자의 음성이 존재하지 않는다는 것은 나타내는 신호(23)를 출력하고 있다는 것을 알 수 있을 것이다. 그러나, 사용자가 출력 메시지를 중단시키면, 장치에 수신된 신호는 사용자의 음성과 출력 프롬프트의 에코의 조합일 것이다. 이 조합 신호의 스펙트럼은 사용자 음성만의 그것과 유사하지만(도 4A), 에코 신호의 스펙트럼이 1200㎐ 내지 1300㎐ 사이의 어떤 성분도 갖지 않기 때문에 1200㎐ 내지 1300㎐ 사이에서 작은 노치의 특징을 갖는다.
조합 신호는 입력 신호 분석기(21)로 전송되고, 여기서 대역통과필터를 통해 전송되고, 주파수 범위 1200㎐ 내지 1300㎐의 유효성분을 가지는 것으로 판명된다. 따라서 입력 신호 분석기(21)는 음성 인식기(22)와 다이얼로그 제어기(23)에 모두 (사용자의 음성이 존재한다는 것을 나타내는) 신호(23)를 출력한다. 신호(23)를 수신하면, 다이얼로그 제어기(30)는 기록 음성 처리기(25)에 프롬프트 R3의 출력을 중지하도록 지시한다. 그 후 바로 이어서, 프롬프트의 에코는 중단되어 음성 인식기(22)에 수신된 신호에 대한 성분이 되고, 인식기는 사용자가 현재 말하고 있는 단어를 보다 양호하게 인식할 수 있다. 사용자의 응답이 인식되었으면, 다이얼로그 제어기(30)로 전송된다.
그 후, 사용자는 요청 서비스 형태 프롬프트 R3를 중단시킨 방식과 유사한 방식으로 대화의 다음 2개의 프롬프트를 중단시킨다.
상기 실시예에서, 미리 조정된 구두 프롬프트에는 없는 성분은 주파수 스펙트럼의 일부를 포함한다는 것을 알 수 있을 것이다. 그러나, 다른 성분이 없을 수도 있다고 생각된다. 예를 들어, 짧은 기간의 타임슬롯(즉, 1 내지 5㎳)은 규칙적인 기간(즉 20㎳ 내지 100㎳ 마다)으로 구두 프롬프트에서 제거될 수 있다. 예를 들어, 음성이 이산적으로 8㎑로 샘플링되면, 160-800 샘플 기간에서 8 내지 40 샘플을 영값으로 설정함으로써 달성될 수 있다. 400 샘플 기간의 신호에서 20 샘플이 제거되면, 특정값을 취하기 위해, 입력 신호 분석기는 800 샘플의 수신된 신호 기간 동안 대응하는 무언 또는 거의 무언(즉, 볼륨이 지정 임계 아래인 경우)을 검출하지 못하면 사용자가 말하고 있다고 있다는 것을 나타내는 신호를 출력하도록 설정될 수 있다.
"바지-인" 기능이 사용자로 하여금 보다 빠르게 자신의 거래를 실행할 수 있도록 하는 방법을 알 수 있을 것이다. 보다 중요하게, 이런 방법으로 장치에 의해 송출된 프롬프트를 중단시킬 수 있음으로써, 사용자는 자신이 대화를 통제하고 있다고 느낀다.

Claims (15)

  1. 음성에서는 정상적으로 존재하는 성분이 제외된 조절 음성을 나타내는 신호를 출력하는 동작으로 구성된 신호 출력 수단,
    사용자의 구두 명령을 나타내는 신호를 수신하는 동작으로 구성된 신호 입력 수단 및
    조절 음성에서 제외된 성분을 포함하는 음성을 나타내는 신호의 입력을 검출하여 조절 음성이 나오는 동안 사용자의 구두 명령을 검출하도록 동작 가능한 명령 검출 수단을 포함하는 것을 특징으로 하는 대화형 장치.
  2. 제 1 항에 있어서,
    조절 음성을 나타내는 상기 신호를 제공하도록 음성을 표현하는 신호를 조절하는 수단을 또한 포함하는 것을 특징으로 하는 대화형 장치.
  3. 제 2 항에 있어서,
    상기 조절 수단은 디지털 필터를 포함하는 것을 특징으로 하는 대화형 장치.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 제외된 성분은 주파수 스펙트럼의 부분들 중 하나 이상을 포함하는 것을 특징으로 하는 대화형 장치.
  5. 제 4 항에 있어서,
    상기 부분 중 중간점은 1000㎐ 내지 1500㎐의 범위내에 있는 것을 특징으로 하는 대화형 장치.
  6. 제 5 항에 있어서,
    상기 중간점은 1200㎐ 내지 1300㎐의 범위내에 있는 것을 특징으로 하는 대화형 장치.
  7. 제 4 항 내지 제 6 항 중 어느 한 항에 있어서,
    상기 부분의 폭은 80㎐ 내지 120㎐의 범위내에 있는 것을 특징으로 하는 대화형 장치.
  8. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 제외된 성분은 상기 음성 신호의 복수의 이격된 단기 타임 세그먼트를 포함하는 것을 특징으로 하는 대화형 장치.
  9. 제 1 항 내지 제 8 항 중 어느 한 항에 따른 대화형 장치,
    조절 음성을 나타내는 상기 신호를 조절 음성으로 변환하는 수단 및
    사용자의 구두 명령을 그것을 나타내는 신호로 변환하는 수단을 포함하는 것을 특징으로 하는 음성 제어 가능 장치.
  10. 사용자의 구두 명령에 정상적으로 포함된 성분이 제외된 조절 음성을 나타내는 신호를 출력하는 단계,
    상기 성분을 포함하는 음성을 나타내는 신호의 유무에 대해 대화형 장치에 입력된 신호를 감시하는 단계 및
    상기 성분을 포함하는 음성을 나타내는 신호의 유무를 검출하여 입력 신호가 사용자의 구두 명령을 나타내는지를 결정하는 단계를 포함하는 것을 특징으로 하는 대화형 장치로의 사용자 구두 명령을 검출하는 방법.
  11. 제 10 항에 있어서,
    상기 구두 명령을 나타내는 신호를 조절하는 단계를 또한 포함하는 것을 특징으로 하는 대화형 장치로의 사용자 구두 명령을 검출하는 방법.
  12. 실질적으로 첨부한 도면에 도시되어 있고, 이 도면을 참조하여 앞에서 기술된 것과 같은 장치.
  13. 실질적으로 첨부한 도면에 도시되어 있고, 이 도면을 참조하여 앞에서 기술된 것과 같은 대화형 장치에 의해 송출된 프롬프트에 대한 사용자의 응답을 검출하는 방법.
  14. 제 1 항 내지 제 8 항 중 어느 한 항에 따른 장치를 포함하는 통신네트워크.
  15. 음성에 정상적으로 존재하는 성분이 제외된 미리 조절된 구두 프롬프트 또는 이를 나타내는 신호를 출력하는 동작으로 구성된 출력 수단,
    사용자의 음성을 나타내는 신호를 입력하는 동작으로 구성되는 입력 수단 및
    미리 지정된 프롬프트를 송출하는 동안 프롬프트에서 제외된 성분을 포함하는 신호의 입력을 검출하여 사용자로부터의 입력을 검출하도록 동작 가능한 응답 검출 수단을 포함하는 대화형 장치.
KR10-1999-7004705A 1996-11-28 1997-11-26 대화형 장치 KR100526216B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP96308590 1996-11-28
EP96308590.7 1996-11-28
PCT/GB1997/003231 WO1998024225A1 (en) 1996-11-28 1997-11-26 Interactive apparatus

Publications (2)

Publication Number Publication Date
KR20000069163A true KR20000069163A (ko) 2000-11-25
KR100526216B1 KR100526216B1 (ko) 2005-11-04

Family

ID=8225164

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-1999-7004705A KR100526216B1 (ko) 1996-11-28 1997-11-26 대화형 장치

Country Status (9)

Country Link
US (1) US6603836B1 (ko)
EP (1) EP0941597B1 (ko)
JP (1) JP3998724B2 (ko)
KR (1) KR100526216B1 (ko)
AU (1) AU5126698A (ko)
DE (1) DE69710213T2 (ko)
ES (1) ES2172011T3 (ko)
IL (1) IL129893A0 (ko)
WO (1) WO1998024225A1 (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1224797A1 (en) * 1999-10-01 2002-07-24 Bevocal, Inc. Vocal interface system and method
US6944594B2 (en) * 2001-05-30 2005-09-13 Bellsouth Intellectual Property Corporation Multi-context conversational environment system and method
KR100552468B1 (ko) * 2001-07-19 2006-02-15 삼성전자주식회사 음성인식에 따른 오동작을 방지 및 음성인식율을 향상 할수 있는 전자기기 및 방법
US7328159B2 (en) * 2002-01-15 2008-02-05 Qualcomm Inc. Interactive speech recognition apparatus and method with conditioned voice prompts
EP1540646A4 (en) * 2002-07-31 2005-08-10 Arie Ariav VOICE CONTROL SYSTEM AND ASSOCIATED METHOD
DE10243832A1 (de) * 2002-09-13 2004-03-25 Deutsche Telekom Ag Verfahren und Anordnung zur intelligenten Abbruchsteuerung in Sprachdialogsystemen
EP1576739A4 (en) * 2002-10-01 2006-11-08 Christopher Frank Mcconnell SYSTEM AND METHOD FOR WIRELESS AUDIO COMMUNICATION WITH A COMPUTER
US20060276230A1 (en) * 2002-10-01 2006-12-07 Mcconnell Christopher F System and method for wireless audio communication with a computer
US20050180464A1 (en) * 2002-10-01 2005-08-18 Adondo Corporation Audio communication with a computer
US7392188B2 (en) * 2003-07-31 2008-06-24 Telefonaktiebolaget Lm Ericsson (Publ) System and method enabling acoustic barge-in
DE10348408A1 (de) * 2003-10-14 2005-05-19 Daimlerchrysler Ag Nutzeradaptive Dialogunterstützung für Sprachdialogsysteme
US20150279373A1 (en) * 2014-03-31 2015-10-01 Nec Corporation Voice response apparatus, method for voice processing, and recording medium having program stored thereon
US10043516B2 (en) * 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3639848A (en) * 1970-02-20 1972-02-01 Electronic Communications Transverse digital filter
JPS5327332A (en) * 1976-08-26 1978-03-14 Hitachi Ltd Sound response unit of entirely double type
US4624012A (en) * 1982-05-06 1986-11-18 Texas Instruments Incorporated Method and apparatus for converting voice characteristics of synthesized speech
US4521647A (en) * 1984-02-17 1985-06-04 Octel Communications, Inc. Tone detection system and method
US4914692A (en) * 1987-12-29 1990-04-03 At&T Bell Laboratories Automatic speech recognition using echo cancellation
JPH02181559A (ja) * 1989-01-05 1990-07-16 Toshiba Corp 電話装置
US4932062A (en) * 1989-05-15 1990-06-05 Dialogic Corporation Method and apparatus for frequency analysis of telephone signals
US4979214A (en) * 1989-05-15 1990-12-18 Dialogic Corporation Method and apparatus for identifying speech in telephone signals
US5125024A (en) * 1990-03-28 1992-06-23 At&T Bell Laboratories Voice response unit
GB2251765B (en) * 1991-01-14 1995-03-08 Telsis Limited Interactive telephone announcement apparatus
US5155760A (en) * 1991-06-26 1992-10-13 At&T Bell Laboratories Voice messaging system with voice activated prompt interrupt
US5475791A (en) * 1993-08-13 1995-12-12 Voice Control Systems, Inc. Method for recognizing a spoken word in the presence of interfering speech
US5471527A (en) * 1993-12-02 1995-11-28 Dsc Communications Corporation Voice enhancement system and method
US5583933A (en) * 1994-08-05 1996-12-10 Mark; Andrew R. Method and apparatus for the secure communication of data
DE69612480T2 (de) * 1995-02-15 2001-10-11 British Telecomm Detektion von sprechaktivität
US5761638A (en) * 1995-03-17 1998-06-02 Us West Inc Telephone network apparatus and method using echo delay and attenuation
US5708704A (en) * 1995-04-07 1998-01-13 Texas Instruments Incorporated Speech recognition method and system with improved voice-activated prompt interrupt capability
US5765130A (en) * 1996-05-21 1998-06-09 Applied Language Technologies, Inc. Method and apparatus for facilitating speech barge-in in connection with voice recognition systems
US6233319B1 (en) * 1997-12-30 2001-05-15 At&T Corp. Method and system for delivering messages to both live recipients and recording systems

Also Published As

Publication number Publication date
AU5126698A (en) 1998-06-22
EP0941597A1 (en) 1999-09-15
EP0941597B1 (en) 2002-01-30
JP2001504600A (ja) 2001-04-03
DE69710213D1 (de) 2002-03-14
US6603836B1 (en) 2003-08-05
JP3998724B2 (ja) 2007-10-31
ES2172011T3 (es) 2002-09-16
KR100526216B1 (ko) 2005-11-04
WO1998024225A1 (en) 1998-06-04
DE69710213T2 (de) 2002-08-29
IL129893A0 (en) 2000-02-29

Similar Documents

Publication Publication Date Title
US5594784A (en) Apparatus and method for transparent telephony utilizing speech-based signaling for initiating and handling calls
US5822405A (en) Automated retrieval of voice mail using speech recognition
US6882973B1 (en) Speech recognition system with barge-in capability
US9485347B2 (en) Voice-operated interface for DTMF-controlled systems
EP0789349B1 (en) Pattern matching method and apparatus thereof
US4941168A (en) System for the recognition of automated telephone answering devices and delivery of prerecorded messages to such devices
EP0619913B1 (en) Voice controlled messaging system and processing method
EP0307137B1 (en) Multiple language telephone answering machine
US5033088A (en) Method and apparatus for effectively receiving voice input to a voice recognition system
KR100526216B1 (ko) 대화형 장치
US5524139A (en) System for automatic access to automated telephonic information services
US20030185380A1 (en) Interactive telephone reply system
US6625474B1 (en) Method and apparatus for audio signal based answer call message generation
US5802476A (en) Cordless telephone system having base unit with speaker
JP4059059B2 (ja) 情報取得装置および情報提供システム
JP2929676B2 (ja) 留守番電話装置
JP3325147B2 (ja) 電話機
JPH0519734B2 (ko)
KR100232787B1 (ko) 자동응답시스템에서 메모 확인 정보 전송 방법
KR100247197B1 (ko) 자동응답 시스템에서 메모녹음 확인방법
JPH0662093A (ja) 言語者の語音を識別する多機能電話システム
JPS63299446A (ja) 音声等の音による機械入力方式
JPH1065796A (ja) 留守番電話装置
JPH05176060A (ja) 音声蓄積装置
JPS60249193A (ja) 会話型音声入出力方式

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20080922

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee