KR20180082455A - 다국어 통신 시퀀싱 시스템 및 방법 - Google Patents

다국어 통신 시퀀싱 시스템 및 방법 Download PDF

Info

Publication number
KR20180082455A
KR20180082455A KR1020187013755A KR20187013755A KR20180082455A KR 20180082455 A KR20180082455 A KR 20180082455A KR 1020187013755 A KR1020187013755 A KR 1020187013755A KR 20187013755 A KR20187013755 A KR 20187013755A KR 20180082455 A KR20180082455 A KR 20180082455A
Authority
KR
South Korea
Prior art keywords
sequence
way
language
prompt
communication
Prior art date
Application number
KR1020187013755A
Other languages
English (en)
Inventor
스캇 피. 바우어
제임스 알. 울리요트
Original Assignee
인터랙티브 인텔리전스 그룹, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인터랙티브 인텔리전스 그룹, 인코포레이티드 filed Critical 인터랙티브 인텔리전스 그룹, 인코포레이티드
Publication of KR20180082455A publication Critical patent/KR20180082455A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • G06F9/454Multi-language systems; Localisation; Internationalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/35Aspects of automatic or semi-automatic exchanges related to information services provided via a voice call
    • H04M2203/355Interactive dialogue design tools, features or methods

Abstract

다국어 통신 시퀀싱을 위한 시스템 및 방법이 제공된다. 통신 흐름은 하나 이상의 언어를 지원할 수 있으며, 생성, 제거, 또는 편집되어야 할 수 있다. 시퀀스 편집 동안에 프롬프트, 데이터, 식, 일시 중지, 및 문자 음성 변환이 추가될 수 있다. 이는 인라인 셀렉터의 사용을 통해 이루어질 수 있으며, 이는 프롬프트 또는 TTS를 포함할 수 있으며, 또는 다이얼로그를 통해 이루어질 수 있으며, 이는 오류 피드백도 제공할 수 있다. 메인 시퀀스는 서로에 대해 독립되게 지원 및 관리되는 여러 언어를 처리할 수 있는 것일 수 있다.

Description

다국어 통신 시퀀싱 시스템 및 방법 {SYSTEM AND METHOD FOR MULTI-LANGUAGE COMMUNICATION SEQUENCING}
본 발명은 일반적으로 통신 시스템 및 방법뿐만 아니라 비즈니스 환경에 관한 것이다. 더 상세하게는, 본 발명은 비즈니스 환경 내 상호 작용에서 오디오 재생과 관련된 것이다.
다국어 통신 시퀀싱(multi-language communication sequencing)을 위한 시스템 및 방법이 제공된다. 통신 흐름(communication flow)은 하나 이상의 언어를 지원할 수 있으며, 생성, 제거, 또는 편집되어야 할 수 있다. 시퀀스(sequence) 편집 동안에 프롬프트, 데이터, 식(expression), 일시 중지(pause), 및 문자 음성 변환(text-to-speech, TTS)이 추가될 수 있다. 이는 인라인 셀렉터(inline selectors)의 사용을 통해 이루어질 수 있으며, 이는 프롬프트 또는 TTS를 포함할 수 있으며, 또는 다이얼로그(dialog)를 통해 이루어질 수 있으며, 이는 오류 피드백도 제공할 수 있다. 메인 시퀀스는 서로에 대해 독립되게 지원 및 관리되는 여러 언어를 처리할 수 있는 것일 수 있다.
일 실시 예에서, 음성 자동 응답(interactive voice response, IVR) 시스템에서 복수의 언어를 이용하는 파티(party)에 통신을 시퀀싱 하기 위한 방법이 제공되며, 상기 방법은, 상기 시스템의 사용자에 의해, 복수의 자원이 부가되어 있는 프롬프트를 생성하는 단계; 상기 음성 자동 응답 시스템에 의해, 적어도 하나의 지원되는 언어로 이루어지는 상기 통신을 위한 상기 적어도 하나의 지원되는 언어를 활성화하는 단계; 상기 시퀀스에 편집하기 위해, 하나 이상의 프롬프트, 데이터, 식, 일시 중지, 및 문자 음성 변환을 활성화하는 단계; 상기 통신을 위한, 대체 시퀀스를 포함하는 대체 언어를 활성화하는 단계;를 포함한다.
다른 일 실시 예에서, 음성 자동 응답 시스템에서 복수의 언어를 이용하는 파티에 통신을 시퀀싱 하기 위한 방법이 제공되며, 상기 방법은, 그래픽 사용자 인터페이스를 통해, 사용자에 의해 프롬프트가 선택되는 단계; 및 상기 프롬프트를 사용하여 컴퓨터 프로세서에 의해 런타임(run-time)에서 통신 시퀀스를 생성하는 단계;를 포함한다.
다른 일 실시 예에서, 음성 자동 응답 시스템에서 복수의 언어를 이용하는 파티에 통신을 시퀀싱 하기 위한 방법이 제공되며, 상기 방법은, 사용자에 의해 그래픽 사용자 인터페이스에 문자가 입력 -- 상기 문자는 컴퓨터 프로세서에 의해 문자 음성 변환으로 변환이 됨 -- 되는 단계; 및 상기 컴퓨터 프로세서에 의해 상기 문자 음성 변환을 사용한 통신 시퀀스를 생성하는 단계;를 포함한다.
도 1a 내지 1d는 인라인 셀렉터의 실시 예를 도시하는 다이어그램이다.
도 2a 내지 2e는 시퀀스 셀렉터의 실시 예를 도시하는 다이어그램이다.
도 3a 및 3b는 오디오 시퀀스의 실시 예를 도시하는 다이어그램이다.
도 4a 내지 4e는 다국어 시퀀스의 실시 예를 도시하는 다이어그램이다.
도 5a 및 5b는 오디오 시퀀스 편집의 실시 예를 도시하는 다이어그램이다.
도 6은 오류의 실시 예를 도시하는 다이어그램이다.
본 발명의 원리에 대한 이해를 돕기 위해, 도면에 도시된 실시 예를 참조하기로 하며, 또한 도면을 설명하기 위해서 특유의 표현을 사용하기로 한다. 그럼에도 불구하고, 이와 같은 본 발명의 범위를 제한하려는 의도는 없다는 것이 이해될 것이다. 본 발명과 관련된 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 통상적으로 본 발명에서 설명한 각 실시예에 대한 임의의 변형과 변경, 및 본 명세서에서 설명한 바와 같은 본 발명의 각 원칙에 대한 임의의 추가적인 응용이 가능함을 알 것이다.
연락 센터 또는 기업 환경과 같은 비즈니스 환경에서, 특히 인-바운드 및 아웃-바운드 상호 작용(예를 들어, 호출, 웹 상호 작용, 화상 채팅 등)을 위해 음성 자동 응답 시스템이 종종 이용된다. 상이한 미디어 유형에 대한 통신 흐름은 통신에 자동으로 응답하고, 메뉴 선택으로 파티를 상호 작용에 제시하고, 파티의 선택에 따라 상호 작용의 라우팅을 제공하도록 설계될 수 있다. 존재하는 옵션은 흐름이 사용되는 산업 또는 비즈니스를 기반한 것일 수 있다. 예를 들어, 은행은 고객에게 계좌 번호를 입력하는 옵션을 제공할 수 있는 반면에, 다른 비즈니스는 통신자(communicant)의 이름을 요청할 수 있다. 다른 회사는 단순히 고객이 옵션과 연관된 번호를 선택하도록 할 수 있다. 시스템은 여러 언어를 지원해야 할 수도 있다. 일 실시 예에서, 자동 런타임 데이터 재생, 음성 인식 및 문자 음성 변환(TTS)에 대한 통합 다국어 지원이 사용될 수 있다.
일 실시 예에서, 상호 작용을 달성하기 위해 IVR이 사용하는 호출 흐름 또는 통신 처리를 위한 논리는, 여러 다른 언어를 포함할 수 있다. 이러한 흐름의 관리에서, 메인 시퀀스는 시스템 사용자(예를 들어, 흐름 작성자)가 언어별로 대체 시퀀스를 특정할 수 있는 능력을 가진 흐름에서 지원되는 언어 모두에 대한 오디오 시퀀스를 제공한다. 메인 시퀀스는 하나 이상의 항목으로 구성될 수도 있다. 메인 시퀀스는 IVR 흐름에서 지원되는 여러 언어를 처리할 수 있는 것일 수 있다. 대체 시퀀스가 트리거(trigger) 되는 경우, 언어는 서로 독립적으로 관리될 수 있다. 시퀀스의 편집 중에, 시스템에 의해 오류 피드백이 트리거 될 수 있으며 발생하는 문제를 해결하기 위해 사용자에게 제공될 수 있다.
일 실시 예에서, 흐름은 여러 시퀀스를 포함할 수 있다. 예를 들어, 흐름에서 초기 인사말은 시퀀스를 포함하고, 통신자에게는 '판매를 위해 1을 누르십시오', '짐(Jim)을 위해 2를 누르십시오', 등과 같이 이에게 다른 시퀀스가 제공될 수 있는 메뉴가 제시될 수 있다. 이 예시에서 옵션의 선택은 상기 통신자에게 제시될 다른 시퀀스를 트리거 한다.
비즈니스 환경이 항상 일정하지는 않기 때문에, IVR을 분해할 필요 없이 오디오에 변화가 필요할 수 있다. 관련 프롬프트 자원에 대한 새로운 프롬프트의 TTS는 흐름에서 작성자가 설정한 TTS와 동일하게 유지될 것이며, 적절하게 수정될 수 있다.
예를 들어, 인사말을 위해 "안녕하세요"와 같은 프롬프트가 생성되고, Interactive Intelligence Group, Inc.의 Interaction Edge® 제품과 같은 미디어 서버와 같이, IVR 로직을 실행하는 런타임 엔진이 액세스하는 데이터베이스에 저장된다. 프롬프트에는 하나 이상의 자원이 부가될 수 있다. 자원은 오디오 (예를 들어, 발화된 "안녕하세요"), TTS (예를 들어, 합성된 "안녕하세요") 또는 언어 (예를 들어, en-US)를 포함할 수 있다. 일 실시 예에서, 자원은 TTS 및 오디오 및 언어 태그를 포함할 수 있다. 다른 예에서, 자원은 TTS 또는 오디오, 및 언어 태그를 포함할 수 있다. 언어 태그는 IETF 언어 태그(또는 언어에 태그를 붙이기 위한 다른 수단)를 포함할 수 있고 프롬프트 내에서 자원을 식별하는데 사용될 수 있다. 언어 태그는 오디오 및 TTS에 사용되는 그룹화를 제공할 수도 있다. 일 실시 예에서, 프롬프트는 언어 하나당 단지 하나의 프롬프트 자원만을 가질 수 있다. 예를 들어, 두 개의 자원이 독일어와 연관될 수 없다.
일 실시 예에서, 프롬프트 다음으로 TTS가 따르거나 그 반대 순서로 되도록 오디오 시퀀스가 편집될 수 있다. 사용자는 프롬프트를 지정하거나 TTS를 지정하기로 결정할 수 있다. 프롬프트 또는 TTS는 비즈니스 요구 사항에 따라 나중에 시퀀스로 전환될 수 있다. 예를 들어, 흐름을 개발하는 동안, 처음에 TTS가 사용되고 그 이후 어느 시점에 시퀀스로 변환될 수 있다.
오디오 시퀀스는 IVR과 상호 작용하는 통신자에게 재생하기 위해 인덱싱된 항목의 순서화된 목록을 포함한다. 항목은 TTS, 데이터 재생, 프롬프트, 일시 중지 또는 중단 및 임베디드(embedded) 오디오 식이 특별한 순서 없이 포함될 수 있다. 메인 시퀀스가 지정될 수 있으며 지정된 시퀀스는 흐름에 설정된 지원되는 언어 모두에 적용된다. 대체 시퀀스도 흐름에 존재할 수 있다. 이러한 대체 시퀀스는 특정 언어에 대해 활성화될 수 있으므로, 예를 들어 새로운 언어의 선택에 의하여 상호작용이 메인 시퀀스로부터 퇴장(exit)할 때, 상기 새로운 언어에 대한 대체 시퀀스가 인계(take over)한다. 대체 시퀀스는 메인 시퀀스로부터 초기에 복제될 수 있고 흐름 작성자에 의해 더 편집될 수 있다. 메인 시퀀스는 흐름 작성자에 의해 활성화된 대체 시퀀스를 제외하고 흐름에 있는 지원되는 모든 언어에 대해 사용될 수 있다. 대체 시퀀스가 흐름에 있는 각 지원되는 언어에 대해 활성화되는 경우, 각 대체 언어가 메인 시퀀스를 치환함으로써, 메인 시퀀스는 더 이상 적용되지 않는다. 따라서, 프롬프트에서 단어 순서는 언어별로 다를 수 있다. 일 실시 예에서, "전화해줘서_감사합니다" 프롬프트와 같은 하나의 프롬프트가 모든 언어에 대해 충분할 수 있다. 이 프롬프트 내에, 각 언어는 프롬프트에서 사용할 적절한 오디오를 가지며, 이는 메인 시퀀스에서 이용된다.
오디오 시퀀스는 다이얼로그 (예를 들면, 모달 다이얼로그 또는 윈도우) 또는 인라인 셀렉터를 통해 구성될 수 있다. 일 실시 예에서, 인라인 셀렉터는 TTS 또는 프롬프트를 용이하게 구성하기 위한 수단을 포함한다. 도 1a 내지 1d는 인라인 셀렉터의 실시 예를 도시하는 도면으로서, 도면 부호 '100'으로 일반적으로 표시된다. 일 실시 예에서, 인라인 셀렉터는 TTS 또는 프롬프트와 같은 단일 항목 시퀀스를 포함한다.
상호 작용과 관련하여, 작성자는 흐름이 지원할 언어를 설명할 수 있다. 일 실시 예에서, TTS 또는 이전에 생성된 프롬프트를 사용하여 초기 인사말을 만들 수 있다. 예를 들어, 작성자는 구성을 위해 시퀀스 편집기를 열지 않고도 초기 인사말을 위해 TTS를 입력하거나 기존 프롬프트를 선택할 수 있습니다. 일 실시 예에서, 인라인 셀렉터는 초기 인사로서 재생될 TTS를 포함한다. 다른 실시 예에서, 인라인 셀렉터는 초기 인사말로서 재생될 프롬프트 선택을 포함한다.
도 1a는 TTS를 이용하는 단일 항목 시퀀스의 일 예시이며, 도 1b는 프롬프트를 이용하는 단일 항목 시퀀스의 일 예시이다. 도 1a 및 도 1b에 도시된 바와 같이, 인라인 셀렉터는 "오디오(Audio)"(105)를 포함한다. 오디오 식(106)이 더 포함될 수도 있다. 오디오 식과 함께, 아이콘(107)이 있을 수 있으며, 아이콘을 선택함에 따라, 오디오 시퀀스를 편집하기 위한 창(window)이 열린다. 창은 프롬프트를 추가하기 위해 열릴 수도 있다. 이러한 편집 창들은 도 2a 내지 2e를 참조하여 아래에 더 상세하게 설명된다.
일 실시 예에서, 오류 및 이의 설명(108)은 도 1c에서와 같이, 항목에 대해 표시될 수 있으며, 도 1c에서 오류는 오디오 시퀀스에 문제가 있음을 표시한다 (예를 들어, "하나 이상의 오디오 시퀀스에 오류가 있음(1 or more audio sequences are in error)"). 예를 들어, 오류 및/또는 오류 설명에 하이라이트를 하거나 글꼴 색상을 변경시킴으로써 에러에 주의를 끌 수 있다.
도 1d는 오류가 없는 오디오 시퀀스의 일 실시 예이며, 이는 '하나의 오디오 시퀀스가 설정됨(1 audio sequence is set)'(109)을 표시한다. 도 1d에 예시된 대화 클라우드(dialogue cloud)(110)와 같은 아이콘은 이 입력(entry)이 TTS 또는 프롬프트의 인라인 입력이 아니라는 점을 나타내는 것일 수도 있다. 일 실시 예에서, 사용자는 TTS 또는 프롬프트를 선택하는 것과 대조적으로 다이얼로그를 통해 수동적으로 시퀀스에 들어갔을 수 있다.
도 2a 내지 2d는 시퀀스 셀렉터의 실시 예들을 일반적으로 도시하는 다이어그램이다. 각각의 도 2a 내지 2d는 간단함을 위해 단일 지원 언어를 도시한다. 이러한 창들은 일반적으로 다이얼로그를 구성하는 것과 오디오 식의 시퀀스 편집에 대한 예시를 나타낸다. 도 2a에서, 창은 오디오 식이 TTS(201)인 것을 도시한다. 사용자는, 몇 가지 제한적이지 않는 예시를 들자면, "프롬프트 추가(Add Prompt)", "데이터 추가(Add Data)", "TTS 추가(Add TTS)", "확장 추가(Add Extension)", 및 "빈 오디오 추가(Add Blank Audio)"와 같은 추가적인 다이얼로그를 더하기로 결정할 수 있다. 이러한 옵션은 태스크 바(task bar)(202)에 표시될 수 있다. 도 2a에서 "TTS 추가(Add TTS)"가 선택되었다. 결과적으로, 시퀀스에서 추가적인 항목이 생성될 수 있다. 도 2a에서, 이는 시퀀스에서 두 번째로 식별되고, "문자 음성 변환(Text to Speech)"(203)이다. 시퀀스에는 임의의 개수의 항목들이 추가될 수 있으며, 이의 순서는 편집 가능하다. 일 실시 예에서, 도 2c에서 더 설명되는 바와 같이, TTS 스트링은 프롬프트 및 오디오가 하나 이상의 언어로 부가되도록 추가로 승격될 수 있다.
도 2b에서, "빈 오디오 추가(Add Blank Audio)"가 초기에 선택(204) 되었다. 빈 오디오는 사용자가 지정된 지속 시간 동안 재생을 지연시키거나 일시 정지하도록 시스템을 구성하는 것을 허용할 수 있다. 일 실시 예에서, 이는 도 2b에 도시된 바와 같은 드롭다운 메뉴(205)로부터 수행될 수 있다. 100ms, 250ms, 500ms 등과 같이 상이한 지속 시간이 선택을 위해 제공될 수 있다.
또한, 간단한 TTS는, 도 2c에 도시된 바와 같이 여러 언어에 대한 오디오 및 TTS를 포함하는 관리되는 프롬프트로 승격될 수 있다. 흐름 작성자는 프롬프트를 생성하기 위해 프롬프트 이름(Name)(206) 및 설명(Description)(207)을 지정할 수 있다. 여기서 이름은 "ThanksforContacting"이고 설명은 "문의해줘서 감사하다고 말하기 위해 상호 작용이 끝날 때 사용됨(Used at the end of an interaction to say thanks for contacting us)"이다. 프롬프트가 사용자 인터페이스에서 생성된 후, 흐름 상에 설정된 지원 언어(208)에 의해 결정되는 각각의 프롬프트 자원에 TTS가 설정된다. 도 2c에서, 영어(English), 미국(United States)이 지정되었다. 흐름 작성자는 "문의해 주셔서 감사합니다(Thank you for contacting us)"(209)로 포함되도록 오디오를 특정할 수 있다. 일 실시 예에서 지원되는 언어가 예를 들어 영어와 스페인어인 경우, 두 자원이 프롬프트 자원으로 제공될 수 있다.
추가적인 데이터도 메인 시퀀스에 포함될 수 있다. 예를 들어, 도 2d에는 네 가지 항목이 메인 시퀀스에 포함되었다. 각각의 항목은 다이얼로그 "데이터 추가(Add Data)"를 태스크 바(202)로부터 선택함으로써 생성될 수 있다. 상이한 유형의 데이터: 날짜 및/또는 시간, 통화(currency), 고객 정보를 대표할 수 있는 번호, 등과 같은 데이터가 부가될 수 있다. 선택된 데이터의 유형에 따라, 사용자가 선택할 수 있는 다양한 옵션이 시스템으로부터 사용 가능하게 될 수 있다. 예를 들어, 항목 1(208)에서의 데이터는 통화를 포함할 수 있다. 사용자는 사용 가능한 옵션으로부터만 주요 단위(major unit)를 수락하도록 결정할 수 있다. 항목 2(209)의 경우, 소수점이 선택되었다. 사용자는 시스템이 각각의 숫자(digit)를 발화, 값 전체 등을 발화하기 원한다고 결정할 수 있다.
성별 및/또는 케이스를 이용하는 특정 언어에서, 옵션은 여성(feminine), 남성(masculine), 중성(neuter), 관사(articles), 등(210)으로부터 선택하는 것을 포함할 수도 있다. 시퀀스는 언어에 의존적으로 변경/ 재정/ 제거될 수도 있다.
성별 사용의 예시에서, 수의학 클리닉은 스페인어(Spanish)-미국(United States)(es-US)으로 실행되는 호출 흐름(call flow)를 갖는 IVR을 갖는다. 발신자의 파일 상에 어떤 애완 동물이 있는지 발신자와의 확인이 자동으로 수행된다. 이 특정 고객에 대해, 한 암컷 고양이가 파일 상에 있으며, 이는 확인이 필요하다. 예시적인 시퀀스는 다음과 같다:
TTS: "Usted Tiene"(당신은 갖고 있다)
데이터(Data): 1, 암컷
TTS: "gata"
런타임에서 IVR은, "Usted tiene una gata"를 반환할 것이다.
생성된 식은, Append(ToAudioTTS("Usted tiene"), ToAudioNumber(1, Language.Gender.Feminine), ToAudioTTS( "gata"))를 포함한다.
일 실시 예에서, 'ToAudioNumber'에 제출된 번호가 성별 특정적인 식을 갖는 경우, 런타임 재생은 올바른 프롬프트를 재생할 것이다. 위의 수의학 클리닉의 예를 보면, 숫자 '1'은 이를 따르는 명사(암컷 고양이)의 성별과 일치해야하기 때문에 "una"가 사용된다.
언어에 대해 관사도 지원될 수 있다. 언어에 대해서, 성별을 지원하는지에 대한 여부, 성별 유형에 어떤 것이 있는지 (예를 들어, 남성, 여성, 중성), 또는 케이스에 대한 메타 데이터가 유지될 수 있다. 이러한 옵션 중 하나가 흐름 작성자에 의해 특정되고 런타임에 해당 옵션에 대해 설정된 특수 오디오 처리기가 있으면, 해당 처리기가 통신자에게 재생될 것이다. 일 실시 예에서, 케이스 및 성별은 재생시 함께 결합 될 수 있으며, 서로 배타적이지 않다. 예를 들어 "ToAudioNumber (1, Language.Gender.masculine, Language.Case.article)"을 사용하면 성별 옵션이 함께 그룹화된 다음에 케이스 옵션이 함께 그룹화된다. 일 실시 예에서, 케이스 및 성별은 사용자 인터페이스에서 동일한 드롭다운 메뉴에서 지원될 수 있다.
오류는 또한 시퀀스 편집 동안 시스템에 의해 자동으로 지시될 수 있다. 도 2e에서, 인라인 오류(in-line error)(211)의 예시가 제공된다. 인라인 오류는 색상 변경, 경고, 하이라이트, 아이콘 등과 같은 수단에 의해 표시될 수 있다. 도 2e에서, 항목 입력 필드가 하이라이트 된다. 이 예시에서는 사용자가 시퀀스에 항목을 추가했지만 다이얼로그에서 식 텍스트를 특정하지 않았다. 시스템은 오류가 발생했음을 인식하고 피드백과 같은 표시를 제공하여 사용자가 빠른 편집 양식으로 오류를 수정할 수 있게 한다. 보다 긴 식을 갖는 실시 예에서, 오디오를 숫자로 변환하는 것과 같은 더 상세한 피드백을 제공하는 편집기가 열릴 수 있다. 도 2e에서, "정의된 식이 없다(There is no expression defined)"(212)라는 표시가 이루어져서, 사용자가 신속하게 오류를 정확히 지적하고,이 예시에서는, 식을 정의할 수 있게 한다.
예를 들어, 'ToAudioTTS(If(Hour(GetCurrentDateTimeUTC())>=12, "Good Afternoon", "Good Morning"))'과 같은 보다 큰 유연성을 허용하는 식이 시퀀스 그래픽 사용자 인터페이스에 포함될 수도 있다. 발신자가 영국의 그리니치에 있다면, 식은 12시 이전에 실행하면 "Good Morning"의 TTS을 재생할 것이고 그렇지 않으면 "Good Afternoon"이 재생될 것이다. 식은 "사회 보장 번호의 마지막 4 자리입니다(are the last four digits of your social security number"의 TTS와 같이 시퀀스 내에서 동적 재생을 허용할 수도 있다. 식은 다음과 같이 될 수 있다: "ToAudioTTS(Substring(Flow.CustomerSSN, Length(Flow.CustomerSSC)-4,4), Format.String.PlayChars)". 이 예시에서 식은 데이터의 일부를 추출하는 데 사용되고 있다. 데이터는 고객의 사회 보장 번호를 포함하며 마지막 4자가 선택되어 흐름이 실행되는 언어로 말한 정수로서 고객에게 다시 읽혀진다. 오더를 함께 더하거나 배달 날짜를 계산하는 등과 같이 수학적 계산 및 텍스트 조작을 수행하는 데에 식이 사용될 수도 있다.
식은 또한, 재생되는 데이터의 유형을 더 용이하게 제어하기 위해 오디오의 유형을 반환하는 문법을 포함할 수 있다. 일 실시 예에서, 이는 또한 통신자(예를 들어, 발신자)가 요원(예를 들어, 인-큐(In-Queue) 흐름)를 위해 보류되어 대기하는 동안 통신 및/또는 실행되는 흐름에 적용될 수 있다. 오디오 시퀀스는 편집될 수 있다. 도 3a 및 3b에서, 오디오 시퀀스의 예시가 일반적으로 제공된다. 오디오 시퀀스가 표시될 수 있으며 사용자는 크고 긴 식 편집기를 사용하기로 결정할 수 있다. 도 3a에서, 예를 들어, 인덱스 1(301)은 "Prompt.Hello"(302)와 같은 프롬프트를 기술하고, TTS(303)에 대한 항목이 따른다. 사용자는 그들이 시간을 제공받기 원한다고 나타낼 수 있다(304). 다른 데이터 항목(305)은 현재 시간(306)을 제공하기 위해 추가될 수 있다. 도 3b에서, 이용 가능하다면, 사용자가 보다 상세한 오류 피드백을 얻을 수 있도록 통합 식 도움말이 제공될 수 있다. 오디오 시퀀싱 편집기의 출력은 식을 포함한다. 여기서, 시스템은 식, "Append(ToAudio(Prompt.Hello), ToAudioTTS("The time is"), ToAudioTime (Flow.currentTime))"(307)으로 예시된 바와 같이, 시간의 삽입에 이어 사용자 정의 오디오 "the time is"를 오디오 프롬프트에 추가할 수 있다.
대체 언어가 활성화되는 실시 예에서, 예를 들어, 메인 시퀀스에 대해 생성된 식에 부가하여 그 언어에 대한 식이 생성될 수 있다. 오디오 시퀀스 편집기의 항목은 각 시퀀스 항목에 대해 적절한 오류를 표시하기 위해 개별적으로 정확성이 검증된다. 일 실시 예에서, 하나 이상의 시퀀스 항목이 시퀀스 내에서 오류가 있는 경우, 메인 시퀀스 또는 다이얼로그 근처의 언어 특정 시퀀스 탭 중에서 이 또한 오류에 있다는 것을 반영할 것이다.
도 4a 내지 도 4d는 다국어 시퀀스를 일반적으로 예시하는 도면이다. 일부 비-제한적인 예를 들자면, 하나 이상의 메인 언어 시퀀스 또는 대체 언어 시퀀스를 갖는 메인 언어가 있을 수 있도록 복수의 언어 시퀀스가 정의될 수 있다. 오류는 메인 언어 시퀀스가 대체 언어 시퀀스를 지원하지 않는지 여부를 자동으로 나타낼 수 있다. 예를 들어, TTS 엔진이 선택한 언어의 TTS를 다시 읽을 수 없는 언어에 대해 TTS가 선택될 수 있다. 따라서 TTS를 해당 언어로 사용할 수 없다는 것을 반영하여 유효성 오류가 발생할 수 있다. 도 4a에서, 다국어 시퀀스의 예시가 제공된다. 비-제한적인 일부 예시를 들자면, 지원할 수 있는 언어는 미국(United States) 영어(English) (en-US)(401), 캐나다(Canada) 프랑스어(French) (fr-CA)(402) 및 미국(United States) 스페인어(Spanish) (es-US) (403)이다. 제시된 오디오 시퀀스는 "Prompt.Hello"(405)와 같은 프롬프트(404)에 이어 "시간은(The time is)"(407)과 같은 TTS(406)의 항목을 포함한다. 데이터(Data)(408)에 대한 제3 항목은 "Flow.currentTime"(409)와 같은 현재 시간을 제공하기 위해 제시된다.
도 4b에서, es-US(403)와 같은 언어가 메인 시퀀스에 대해 지정될 수 있고, 항목에 대한 편집이 이루어진다. 이 예시에서, TTS(406)에 대한 항목은 "es el momento"(407)로 편집될 수 있고 순서가 재정렬되어 TTS에 대한 항목은 위치 3으로 이동되고 데이터 항목(408)은 위치 2로 이동될 수 있다. 도 4c에 도시된 바와 같이, fr-CA(402)와 같은 대체 시퀀스가 메인 언어에 대해 활성화될 수 있다. 일 실시 예에서, 지시자는 사용자가 프랑스어(French)(캐나다(Canada))에 대한 대체 시퀀스를 활성화하기 원한다는 것(Enable alternate sequence for French(Canada))(410)을 사용자로부터 확인받을 수 있다.
각각의 언어는 도 4d에서 일반적으로 예시된 바와 같이 그에 관련된 다양한 정보를 가질 수 있다. 예를 들어, "런타임 데이터 재생 지원(Supports runtime data playback)"(411), "음성 인식 지원(Supports speech recognition)"(412) 및 문자 음성 변환 지원(Supports text to speech)"(413)과 같은 정보가, 시스템이 지원하는 것에 대한 더 많은 정보를 허용하기 위해 포함될 수 있다. 이 비-제한적인 예시에서, 각 정보 다음에 "예(yes)"는 이들이 원하는 언어로 지원됨을 나타낸다. 따라서 언어 시퀀스가 특정 기능을 지원하는지 여부를 표시할 수 있다.
또 다른 실시 예에서, 메인 오디오 시퀀스는 오류에 의해 또는 의도적으로 런타임에 재생되도록 지정되지 않을 수 있다. 이 시나리오에서, 도 4e에 일반적으로 나타낸 바와 같이, 표시자(414)는 이 시퀀스가 재생되지 않을 것임을 사용자에게 알릴 수 있다. 결과적으로 시스템은 대체 시퀀스 중 하나로 되돌아 갈 수 있다.
도 5a 내지 도 5c는 오디오 시퀀스 편집을 위해 이용 가능한 다른 옵션들의 일반적인 다이어그램이다. 예를 들어, 도 5a에 예시된 다이얼로그의 항목 3(501)에서, 재생을 위한 데이터(Data)가 선택될 수 있다. 일 실시 예에서, 항목에 현재 시간 (예를 들어, "Flow.currentTime")이 표시되면, 옵션은 "날짜(Date)", "날짜 및 시간(Date and time)", "월(Month)" 등과 같은 현재 시간을 포함할 수 있다. 드롭다운 메뉴(503)에, 또는 예를 들어 별도의 창과 같은 다른 수단에 의해 제공될 수 있다.
도 5b에 일반적으로 도시된 바와 같은 일 실시 예에서, 정수가 데이터 항목(504) (예를 들어, "Flow.decimal"(505))에 표시되면, 합성된 스피치에 대해 "각 숫자를 발화"를 포함하고, "전체 값"을 제공, "백분율"로 제공, 등의 옵션을 제시할 수 있다.
오류가 발생하는 실시 예에서, 이들은 도 6에 일반적으로 제시된 바와 같이 사용자에게 표시될 수 있다. 일 실시 예에서, 인덱스된 아이템은 하이라이트 될 수 있고 오류가 발생했음을 나타내는 도구 팁을 포함할 수 있다. 이 예시에서, 항목 1 (601)은 오류를 나타내기 위해 하이라이트(602) 되어 있다. 항목 내에서, "프롬프트 선택(Select prompt)"(603) 메시지는 사용자에게 제공된다.
여기에 기술된 실시 예의 응용은 호출에 한정되지 않는다. 웹 채팅과 같은 텍스트 기반 상호 작용과 같은 일반적으로 통신이 적용되어 비 한정적인 예를 들 수 있다. 웹 채팅의 경우 런타임에서 오디오를 가져 오는 대신 프롬프트 자원의 TTS 구성 요소를 활용할 수 있다. 따라서 웹 채팅에서 "Hello"의 TTS는 'Hello'라는 텍스트가 된다.
본 발명은 도면 및 상기 설명에서 상세히 도시되고 설명되었지만, 이는 예시적인 것으로 고려되어야 하며 제한적인 것으로 고려되어서는 안 되며, 단지 바람직한 실시 예만이 도시되고 설명되었고 모든 본 명세서 및/ 또는 후술 되는 청구 범위에 기재된 본 발명의 사상 내에 있는 균등물, 변화 및 변형은 보호되는 것이 바람직하다.
따라서, 본 발명의 적절한 범위는 첨부된 특허 청구 범위의 가장 넓은 해석에 의해서만 결정되어야 하며, 이러한 모든 수정뿐만 아니라 도면에 도시되고 명세서에 기술된 것과 동일한 모든 관계를 포함해야 한다.

Claims (21)

  1. 음성 자동 응답 시스템에서 복수의 언어를 이용하는 파티에 통신을 시퀀싱 하기 위한 방법에 있어서,
    (a) 상기 시스템의 사용자에 의해, 복수의 자원이 부가되어 있는 프롬프트를 생성하는 단계;
    (b) 상기 음성 자동 응답 시스템에 의해, 적어도 하나의 지원되는 언어로 이루어지는 상기 통신을 위한 상기 적어도 하나의 지원되는 언어를 활성화하는 단계;
    (c) 상기 시퀀스에 편집하기 위해, 하나 이상의 프롬프트, 데이터, 식, 일시 중지, 및 문자 음성 변환을 활성화하는 단계; 및
    (d) 상기 통신을 위한, 대체 시퀀스를 포함하는 대체 언어를 활성화하는 단계;를 포함하는,
    방법.
  2. 제 1 항에 있어서,
    상기 복수의 자원은 언어 태그를 포함하고,
    상기 언어 태그는 문자 음성 변환을 포함하는,
    방법.
  3. 제 1 항에 있어서,
    상기 복수의 자원은 언어 태그를 포함하고,
    상기 언어 태그는 오디오를 포함하는,
    방법.
  4. 제 1 항에 있어서,
    상기 대체 언어는 상기 대체 언어가 선택된 경우에 상기 메인 시퀀스를 치환하는 대체 시퀀스에 속하는,
    방법.
  5. 제 1 항에 있어서,
    상기 데이터는,
    날짜, 시간, 통화, 숫자, 및 데이터베이스 검색을 포함하는,
    방법.
  6. 제 1 항에 있어서,
    상기 일시 정지는 오디오 재생의 지연을 포함하는,
    방법.
  7. 제 1 항에 있어서,
    상기 편집은 추가, 제거, 또는 재정렬을 포함하는,
    방법.
  8. 제 7 항에 있어서,
    편집에 대해 실시간으로 검증이 제공되는,
    방법.
  9. 제 8 항에 있어서,
    상기 검증은 오류에 있는 시퀀스 단계 인접하게 배치된 오류를 포함하는,
    방법.
  10. 제 1 항에 있어서,
    상기 시퀀스에 편집하기 위한 상기 활성화 단계는, 편집을 위한 시퀀스의 원 자원(raw source)을 활성화하는 단계를 포함하는,
    방법.
  11. 제 1 항에 있어서,
    상기 문자 음성 변환은 지원되는 언어 자원에 대해 프롬프트로 자동 변환될 수 있는,
    방법.
  12. 제 1 항에 있어서,
    상기 통신을 위해 대체 언어를 활성화하는 단계는, 메인 시퀀스의 스냅샷(snapshot)을 저장하고 상기 스냅샷을 상기 대체 시퀀스의 시작점으로 적용하는 단계를 포함하는,
    방법.
  13. 음성 자동 응답 시스템에서 복수의 언어를 이용하는 파티에 통신을 시퀀싱 하기 위한 방법에 있어서,
    (a) 그래픽 사용자 인터페이스를 통해, 사용자에 의해 프롬프트가 선택되는 단계; 및
    (b) 상기 프롬프트를 사용하여 컴퓨터 프로세서에 의해 런타임(run-time)에서 통신 시퀀스를 생성하는 단계;를 포함하는,
    방법.
  14. 제 13 항에 있어서,
    상기 프롬프트에는 복수의 자원이 부가된,
    방법.
  15. 제 13 항에 있어서,
    상기 통신 시퀀스는 시퀀스 항목을 포함하고,
    상기 시퀀스 항목은 상기 프롬프트를 포함하는,
    방법.
  16. 제 13 항에 있어서,
    상기 생성하는 단계는,
    상기 생성된 통신 시퀀스로 기존의 시퀀스 항목을 대체하는 단계를 포함하는,
    방법.
  17. 음성 자동 응답 시스템에서 복수의 언어를 이용하는 파티에 통신을 시퀀싱 하기 위한 방법에 있어서,
    (a) 사용자에 의해 그래픽 사용자 인터페이스에 문자가 입력 -- 상기 문자는 컴퓨터 프로세서에 의해 문자 음성 변환으로 변환이 됨 -- 되는 단계; 및
    (b) 상기 컴퓨터 프로세서에 의해 상기 문자 음성 변환을 사용한 통신 시퀀스를 생성하는 단계;를 포함하는,
    방법.
  18. 제 17 항에 있어서,
    상기 문자 음성 변환에는 복수의 캐릭터가 부가된,
    방법.
  19. 제 18 항에 있어서,
    상기 복수의 캐릭터는 단어를 포함하는,
    방법.
  20. 제 17 항에 있어서,
    상기 통신 시퀀스는 시퀀스 항목을 포함하고,
    상기 시퀀스 항목은 문자 음성 변환을 포함하는,
    방법.
  21. 제 17 항에 있어서,
    상기 생성하는 단계는,
    상기 생성된 통신 시퀀스로 기존의 시퀀스 항목을 대체하는 단계를 포함하는,
    방법.
KR1020187013755A 2015-10-15 2015-10-15 다국어 통신 시퀀싱 시스템 및 방법 KR20180082455A (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2015/055686 WO2017065770A1 (en) 2015-10-15 2015-10-15 System and method for multi-language communication sequencing

Publications (1)

Publication Number Publication Date
KR20180082455A true KR20180082455A (ko) 2018-07-18

Family

ID=58517748

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187013755A KR20180082455A (ko) 2015-10-15 2015-10-15 다국어 통신 시퀀싱 시스템 및 방법

Country Status (6)

Country Link
EP (1) EP3363016A4 (ko)
KR (1) KR20180082455A (ko)
CN (1) CN108475503B (ko)
AU (1) AU2015411582B2 (ko)
CA (1) CA3005710C (ko)
WO (1) WO2017065770A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111078830B (zh) * 2019-07-11 2023-11-24 广东小天才科技有限公司 一种听写提示方法及电子设备

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6205418B1 (en) * 1997-06-25 2001-03-20 Lucent Technologies Inc. System and method for providing multiple language capability in computer-based applications
CN1151488C (zh) * 1998-10-02 2004-05-26 国际商业机器公司 通过一般分层对象进行有效语音导航的结构框架
US7403888B1 (en) * 1999-11-05 2008-07-22 Microsoft Corporation Language input user interface
US6904401B1 (en) * 2000-11-01 2005-06-07 Microsoft Corporation System and method for providing regional settings for server-based applications
US20020184002A1 (en) * 2001-05-30 2002-12-05 International Business Machines Corporation Method and apparatus for tailoring voice prompts of an interactive voice response system
US7117158B2 (en) * 2002-04-25 2006-10-03 Bilcare, Inc. Systems, methods and computer program products for designing, deploying and managing interactive voice response (IVR) systems
US20040044517A1 (en) * 2002-08-30 2004-03-04 Robert Palmquist Translation system
US7817784B2 (en) * 2003-12-23 2010-10-19 Apptera, Inc. System for managing voice files of a voice prompt server
EP1679867A1 (en) 2005-01-06 2006-07-12 Orange SA Customisation of VoiceXML Application
DE602006003723D1 (de) * 2006-03-17 2009-01-02 Svox Ag Text-zu-Sprache-Synthese
US8433053B2 (en) * 2008-02-08 2013-04-30 Nuance Communications, Inc. Voice user interfaces based on sample call descriptions
US8352270B2 (en) * 2009-06-09 2013-01-08 Microsoft Corporation Interactive TTS optimization tool
TWI413105B (zh) * 2010-12-30 2013-10-21 Ind Tech Res Inst 多語言之文字轉語音合成系統與方法
KR101358999B1 (ko) * 2011-11-21 2014-02-07 (주) 퓨처로봇 캐릭터의 다국어 발화 시스템 및 방법
US9483461B2 (en) * 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages

Also Published As

Publication number Publication date
EP3363016A4 (en) 2019-05-15
CA3005710A1 (en) 2017-04-20
EP3363016A1 (en) 2018-08-22
CN108475503A (zh) 2018-08-31
AU2015411582A1 (en) 2018-06-07
CN108475503B (zh) 2023-09-22
CA3005710C (en) 2021-03-23
AU2015411582B2 (en) 2019-11-21
WO2017065770A1 (en) 2017-04-20

Similar Documents

Publication Publication Date Title
US11409425B2 (en) Transactional conversation-based computing system
JP7163355B2 (ja) メッセージ中のタスクの識別
Raj et al. Building chatbots with Python
US20200118566A1 (en) Human-computer interaction processing system, method, storage medium, and electronic device
JP2023178292A (ja) ユーザプログラマブル自動アシスタント
US8346563B1 (en) System and methods for delivering advanced natural language interaction applications
US9575936B2 (en) Word cloud display
US9728190B2 (en) Summarization of audio data
KR20210111343A (ko) 적절한 에이전트의 자동화된 어시스턴트 호출
US20210182326A1 (en) Call summary
CN101138228A (zh) 个性化语音扩展标记语言应用
US8285539B2 (en) Extracting tokens in a natural language understanding application
US20180226073A1 (en) Context-based cognitive speech to text engine
CN109992338B (zh) 用于跨多个平台显露虚拟助理服务的方法和系统
CN114647410A (zh) 用于使用用户界面创作平台来创作任务的方法和系统
US11538466B2 (en) Development of voice and other interaction applications
CN107624177B (zh) 用于提高用户效率和交互性能的可听呈现的选项的自动视觉显示
CN116235177A (zh) 与通过使用相关联的样本话语的已知意图从对话数据挖掘意图来进行机器人创作相关的系统和方法
KR102226244B1 (ko) 사용자의 컴퓨팅 디바이스의 사용자 인터페이스 디바이스들을 통해 사용자와의 다이얼로그의 자동화된 개시 및 적용
US11054970B2 (en) System and method for multi-language communication sequencing
KR20180082455A (ko) 다국어 통신 시퀀싱 시스템 및 방법
US7937687B2 (en) Generating voice extensible markup language (VXML) documents
Bisser et al. Introduction to the microsoft conversational ai platform
US11908450B2 (en) Dynamic translation for a conversation
Bisser Microsoft Conversational AI Platform for Developers

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E90F Notification of reason for final refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X601 Decision of rejection after re-examination