KR20170088997A

KR20170088997A - 음성 정보를 처리하기 위한 방법 및 장치

Info

Publication number: KR20170088997A
Application number: KR1020177018385A
Authority: KR
Inventors: 칭 링
Original assignee: 알리바바 그룹 홀딩 리미티드
Priority date: 2014-12-09
Filing date: 2015-12-03
Publication date: 2017-08-02
Also published as: US20170346947A1; US10708423B2; EP3232651A4; JP2018501721A; EP3232651A1; CN105744090A; KR102284973B1; JP6538846B2; KR20190037363A; SG11201704392QA; WO2016091110A1

Abstract

음성 정보를 처리하기 위한 방법 및 장치가 본 출원에 의해 제공된다. 방법은 사용자의 음성 데이터를 획득하는 단계; 음성 데이터의 우선순위를 결정하기 위해 음성 데이터에 대한 감정 분석을 수행하는 단계; 및 음성 데이터의 우선순위에 따라 대응하는 서비스 채널에 사용자를 연결하는 단계를 포함한다. 본 출원은 IVR의 서비스 품질을 개선할 수 있다.

Description

음성 정보를 처리하기 위한 방법 및 장치{METHOD AND APPARATUS FOR PROCESSING VOICE INFORMATION}

본 출원은 음성 처리 기술 분야에 관한 것이고, 더 구체적으로는, 음성 정보를 처리하기 위한 방법 및 장치에 관한 것이다.

인터넷 및 통신 기술의 발전으로, 사용자는 네트워크 또는 전화기를 통해 통신하고, 통신 동안 소정 질문을 하고, 그리고 관련된 답변을 받을 수 있다. 예컨대, 사용자가 소정 질문을 할 수 있도록 사용자와 통신하고 그리고 관련된 답변을 사용자에게 제공하기 위해 대화형 음성 응답(IVR) 방식을 채용하는 고객 서비스 시스템이 점점 더 많아지고 있다.

IVR을 사용하는 과정은 다음을 포함한다: 사용자는 전화기를 통해 IVR의 서비스 센터에 연결되고, 서비스 센터의 음성 프롬프트에 따라 서비스 채널을 선택하고, 그리고 선택된 서비스 채널을 사용함으로써 질문을 하되, 선택된 서비스 채널은 수동 서비스 채널 또는 지능형 서비스 채널일 수 있다. 현재, IVR의 서비스 모드는 단조롭고, 서비스 방식은 충분히 융통성 있지 않고, 그리하여 IVR의 서비스 품질은 낮다.

본 출원의 다수의 태양은, IVR의 서비스 품질을 개선하도록, 음성 정보를 처리하기 위한 방법 및 장치를 제공한다.

본 출원의 일 태양에서는, 음성 정보를 처리하기 위한 방법이 제공되며 다음을 포함한다:

사용자가 묻는 질문을 기술하기 위한 음성 데이터를 획득하는 단계;

사용자의 우선순위를 결정하기 위해 음성 데이터에 대한 감정 분석을 수행하는 단계; 및

사용자의 우선순위에 따라 대응하는 서비스 채널에 사용자를 연결하는 단계.

본 출원의 다른 태양에서는, 음성 정보를 처리하기 위한 장치가 제공되며 다음을 포함한다:

사용자가 묻는 질문을 기술하기 위한 음성 데이터를 획득하도록 구성된 획득 모듈;

사용자의 우선순위를 결정하기 위해 음성 데이터에 대한 감정 분석을 수행하도록 구성된 분석 모듈; 및

사용자의 우선순위에 따라 대응하는 서비스 채널에 사용자를 연결하도록 구성된 서비스 연결 모듈.

본 출원에서는, 사용자의 음성 데이터가 획득되고, 음성 데이터의 우선순위를 결정하기 위해 음성 데이터에 대한 감정 분석이 수행되고, 그리고 음성 데이터의 우선순위에 따라 대응하는 서비스 채널에 사용자가 연결된다. 종래 기술에 비해, 본 출원은 음성 데이터의 우선순위에 따라 대응하는 서비스 채널에 사용자를 연결할 수 있고, 이러한 식으로, 사용자는 융통성 있게 그리고 적시에 다른 서비스 채널에 연결될 수 있다. 예컨대, 더 높은-우선순위 음성 데이터를 갖는 사용자는 높은-우선순위 서비스 채널에 연결될 수 있고, 그리하여 사용자 경험 및 문제 해결 속도를 개선하는데 이바지하고, 그리고 동시에, IVR의 서비스 모드를 확장하고, 서비스의 융통성을 개선하고, 그리고 IVR의 서비스 품질을 개선하는데 이바지한다.

본 출원의 실시형태에서의 기술적 해법을 더 명확히 설명하기 위해, 종래 기술 또는 본 실시형태에 대한 설명에서 사용될 수반 도면이 이하에서 간략하게 소개된다. 이하의 설명에서의 수반 도면이 본 출원의 일부 실시형태이고, 당업자가 창의적 수고 없이 수반 도면에 따라 다른 수반 도면을 또한 획득할 수 있음은 분명하다.
도 1은 본 출원의 일 실시형태에 따라 음성 정보를 처리하기 위한 방법의 개략적 순서도;
도 2는 본 출원의 일 실시형태에 따른 단계(101)의 구현의 개략적 순서도;
도 3은 본 출원의 일 실시형태에 따른 단계(102)의 구현의 개략적 순서도;
도 4는 본 출원의 다른 실시형태에 따라 음성 정보를 처리하기 위한 방법의 개략적 순서도; 및
도 5는 본 출원의 다른 실시형태에 따라 음성 정보를 처리하기 위한 장치의 개략적 구조 선도.

본 출원의 실시형태의 목적, 기술적 해법 및 이점을 더 명확히 하기 위해, 본 출원의 실시형태에서의 기술적 해법이 본 출원의 실시형태에서의 수반 도면을 참조하여 아래에서 명확히 그리고 완전히 설명될 것이다. 설명되는 실시형태가 본 출원의 실시형태의, 전부라기보다는, 일부에 불과함은 분명하다. 본 출원에서의 실시형태에 기반하여, 창의적 수고 없이 당업자에 의해 획득되는 모든 다른 실시형태는 본 출원의 보호 범위 내에 드는 것이다.

도 1은 본 출원의 일 실시형태에 따라 음성 정보를 처리하기 위한 방법의 개략적 순서도이다. 도 1에서 도시된 바와 같이, 방법은 다음을 포함한다:

101: 사용자의 음성 데이터가 획득된다.

102: 음성 데이터의 우선순위를 결정하기 위해 음성 데이터에 대한 감정 분석이 수행된다.

103: 사용자는 음성 데이터의 우선순위에 따라 대응하는 서비스 채널에 연결된다.

이러한 실시형태는, 음성 정보를 처리하기 위한 장치에 의해 실행될 수 있는, 음성 정보를 처리하기 위한 방법을 제공한다. 구체적 구현 동안, 음성 정보를 처리하기 위한 장치는, IVR과 같은, 음성 서비스를 제공하는 고객 서비스 시스템에 적용가능한 그리고 특정 처리 능력을 갖는 어느 장치 또는 디바이스라도 될 수 있다.

구체적으로, 음성 정보를 처리하기 위한 장치는 사용자의 음성 데이터를 획득하고, 음성 데이터의 우선순위를 결정하기 위해 음성 데이터에 대한 감정 분석을 수행하고, 그 후 음성 데이터의 우선순위에 따라 대응하는 서비스 채널에 사용자를 연결한다.

음성 데이터의 우선순위는, 어느 정도까지는, 사용자의 우선순위를 표시 또는 반영할 수 있음을 유념해야 한다.

이러한 실시형태는 음성 데이터의 우선순위를 결정하기 위해 음성 데이터에 대한 감정 분석을 수행하고, 그래서, 사용자는 음성 데이터의 우선순위에 따라 융통성 있게 그리고 적시에 다른 서비스 채널에 연결될 수 있다. 예컨대, 더 높은-우선순위 음성 데이터를 갖는 사용자는, 종래 기술에서의 음성 프롬프트에 따라 사용자에 의해 서비스 채널을 선택하기보다는, 높은-우선순위 서비스 채널에 연결될 수 있고, 그래서, IVR의 서비스 모드는 확장되고, 그리고 IVR의 서비스 품질은 개선된다.

선택적 구현에서, 사용자의 음성 데이터는 사용자가 묻는 질문을 기술하기 위한 음성 데이터일 수 있다.

실제 애플리케이션에서, 각각의 애플리케이션은 일반적으로는, 사용자가 질문을 하거나, 관련된 정보를 습득하거나, 제안을 피드백하는 등, 애플리케이션을 사용하여 사용자에게 통신 플랫폼을 제공하도록 사용되는 고객 서비스 시스템을 제공할 수 있다.

이러한 실시형태에서, 고객 서비스 시스템은 적어도 하나의 서비스 채널(또는 서비스 방식)을 제공한다. 예컨대, 그것은 수동 채널 및 지능형 채널을 포함할 수 있다. 수동 채널은 고객 서비스 직원이 음성 방식으로 사용자에게 서비스를 제공하는 것을 주로 지칭하고, 그리고 지능형 채널은, 예컨대, 온라인 채팅 서비스, 온라인 셀프-서비스 등을 포함하는 비-수동 서비스 방식을 지칭한다.

이러한 실시형태에서, 서비스 채널은 우선순위에 따라 분류된다. 수동 채널의 우선순위는 지능형 채널의 우선순위보다 더 높아야 한다. 부가적으로, 수동 채널은 공통적 수동 채널, 전문가 수동 채널 등으로 더 분류될 수 있다. 전문가 수동 채널의 우선순위는 공통적 수동 채널의 우선순위보다 더 높다. 서비스 채널의 우선순위가 더 높을수록, 제공되는 서비스 품질은 더 양호하다. 예컨대, 전문가 수동 채널에 의해 제공될 수 있는 서비스 품질은 공통적 수동 채널의 서비스 품질보다 더 높다. 다른 서비스 채널의 서비스 품질은 해결할 수 있는 문제의 복잡도, 서비스 태도, 문제를 해결하는 속도, 및 문제를 해결하는 융통성과 같은 다수의 인자에 의해 결정될 수 있다.

이러한 실시형태에서 제공된 방법을 고객 서비스 시스템에 적용하는 구체적 과정은 다음을 포함한다: 사용자가 질문을 할 필요가 있을 때, 사용자가 묻는 질문을 기술하기 위한 음성 데이터가 획득되고, 사용자가 묻는 질문을 기술할 때 사용자의 감정을 획득하고 그리고 사용자가 질문을 할 때 사용자의 감정에 따라 음성 데이터의 우선순위를 결정하기 위해 음성 데이터에 대한 감정 분석이 수행되고, 그 후 음성 데이터의 우선순위에 따라 대응하는 서비스 채널에 사용자가 연결된다.

이러한 실시형태는, 사용자가 질문을 할 때 사용자의 음성 데이터에 대한 감정 분석을 수행함으로써, 음성 데이터의 우선순위를 통해 사용자의 우선순위를 구체화할 수 있고, 그리하여 사용자를 구별하고, 그 후 다른 우선순위를 갖는 사용자를 다른 서비스 채널에 연결하여, 사용자 경험 및 문제 해결 속도를 개선하는데 이바지하고, 그리고 고객 서비스 시스템의 서비스 품질을 개선하는데 이바지함을 알 수 있다. 부가적으로, 종래 기술에 비해, 이러한 실시형태에서 제공된 방법은 종래 기술에서처럼 모든 사용자를 획일적으로 취급하기보다는, 사용자를 구별하는 것과 등가인, 음성 데이터의 우선순위를 통해 사용자의 우선순위를 구체화할 수 있다. 긴급 요청을 갖는 사용자는 우선적으로 수동 채널에 연결될 수 있고, 그리하여 고객 서비스 시스템의 서비스 모드를 확장하고, 그리고 서비스의 융통성을 개선한다.

선택적 구현에서, 단계(101)의 구현은 도 2에서 도시된 바와 같으며, 구체적으로 다음을 포함한다:

1011: 사용자의 통신 요청이 수신되어, 사용자와의 음성 통신을 수행한다.

1012: 사용자를 위한 음성 프롬프트가 재생된다.

1013: 음성 프롬프트의 프롬프트에 따라 사용자에 의해 보내진 음성 데이터가 수신된다.

선택적 구현에서, 음성 프롬프트는 묻는 질문을 기술하라고 사용자에게 명령하기 위한 질문 기술 프롬프트일 수 있다. 대응하여, 사용자는, 질문 기술 프롬프트의 프롬프트에 따라, 묻는 질문을 기술하기 위한 음성 데이터를 보낼 수 있다.

구체적으로, IVR과 같이, 사용자에게 음성 서비스를 제공하는 소정 고객 서비스 시스템에 대해, 사용자가 고객 서비스 시스템에 질문을 할 때, 사용자는 일반적으로는, 고객 서비스 시스템에서 음성 정보를 처리하기 위한 장치에 통신 요청을 보내기 위해, 모바일 폰 및 고정식 전화기와 같은 통신 단말기를 통해 대응하는 고객 서비스 핫라인에 전화를 걸고, 그리고 음성 정보를 처리하기 위한 장치는 통신 요청을 수신하여 사용자와의 음성 통신을 확립한다. 그 후 음성 정보를 처리하기 위한 장치는, 묻는 질문을 기술하라고 사용자에게 프롬프트하기 위해, 사용자를 위한 질문 기술 프롬프트를 재생한다. 예컨대, 질문 기술 프롬프트는 "하나의 문장으로 당신의 질문을 기술해 주십시오" 및 "당신이 하기를 원하는 질문이 무엇입니까"와 같은 음성일 수 있다. 사용자는, 묻는 질문을 기술하는 음성 데이터를 형성하기 위해, 묻는 질문을 질문 기술 프롬프트에 따라 기술한다. 예컨대, 음성 데이터는 "패스워드를 잊었습니다" 및 "계정 및 패스워드를 입력한 후에 정상적으로 로그인할 수 없습니다"와 같은 음성일 수 있다.

사용자가 묻는 질문을 기술하기 위한 음성 데이터를 획득하기 위해 위의 방식을 채용하는 것에 부가하여, 음성 정보를 처리하기 위한 장치는 또한 다른 방식을 채용할 수 있음을 유념해야 한다. 예컨대, 음성 정보를 처리하기 위한 장치는, 다른 디바이스(예컨대, 사용자 단말기)로부터, 사용자가 묻는 질문을 기술하기 위한 음성 데이터를 획득할 수 있다.

음성 정보를 처리하기 위한 장치는, 음성 데이터를 획득한 후에, 음성 데이터의 우선순위를 결정하기 위해 음성 데이터에 대한 감정 분석을 수행할 수 있다. 선택적 구현에서, 단계(102)의 구현은 도 3에서 도시된 바와 같으며, 구체적으로 다음을 포함한다:

1021: 사용자가 음성 데이터를 보낼 때 사용자의 말 속도 및/또는 음량을 결정하기 위해 음성 데이터에 대한 감정 분석이 수행된다.

1022: 말 속도 및/또는 음량에 따라 사용자의 감정값이 획득된다.

1023: 사용자의 감정값 및 감정값과 우선순위 간 미리 설정된 매핑 관계에 따라 사용자의 우선순위가 획득된다.

감정 분석은 일종의 시맨틱 분석이고, 종래 기술에 속한다. 말 속도 및 음량을 분석할 수 있는 다양한 방법이 이러한 실시형태에 적용가능하다. 예컨대, 말 속도를 분석하는 과정은 음성 데이터가 획득된 후에 음성 데이터의 단시간 평균 진폭을 계산하는 것, 및 그 후 음성 데이터의 말 속도를 계산하기 위해 단시간 평균 진폭에 따라 음성 데이터의 시점 및 종점을 분석하는 것일 수 있다.

소리는 수 개의(또는 무한대의) 주파수 성분에 의해 형성된다. 주파수 스펙트럼은 일반적으로는 소리의 특성을 검출 및 기술하는데 사용된다. 그래서, 음량을 분석하는 과정은 음성 데이터를 시간-영역 신호로부터 주파수-영역 신호로 변환하는 것, 옥타브를 분할하는 것, 및 음성 데이터의 음량을 획득하기 위해 주파수-영역 신호를 절대 크기로부터 상대 크기, 즉, 데시벨(DB)로 변환하는 것일 수 있다.

음성 정보를 처리하기 위한 장치는 사용자가 묻는 질문을 기술할 때 사용자의 말 속도 및/또는 음량을 획득하기 위해 음성 데이터에 대한 감정 분석을 수행한다. 말 속도 및 음량은, 불안, 분노 및 침착과 같은, 사용자의 감정을 반영할 수 있다.

음량에 대해, 음량이 0 DB과 20 DB 사이에 있을 때, 그것은 매우 조용하고 거의 들리지 않는다. 음량이 20 DB과 40 DB 사이에 있을 때, 그것은 조용하고 속삭임처럼 들리며, 사용자가 비교적 평온함을 표시한다. 음량이 40 DB과 60 DB 사이에 있을 때, 그것은 일반적인 그리고 공통적인 실내 대화이며, 사용자가 감정적으로 안정적임을 표시한다. 음량이 60 DB과 70 DB 사이에 있을 때, 그것은 시끄럽고 신경에 해로우며, 사용자가 불안하거나 분노함을 표시한다.

말 속도에 대해, 정상적 사람의 말 속도는 공통적 문맥에서 분당 70-90 단어이고, 그리고 묻는 질문을 하나의 문장으로 기술하기 위한 시간이 15초이면, 약 18-23 단어가 포함되어야 한다. 사용자가 질문을 할 때 사용자의 말 속도가 약 18-23 단어이거나 그보다 더 적으면, 그것은 사용자가 비교적 평온하고, 그리고 묻는 질문이 긴급하지 않을 수 있음을 표시한다. 반대로, 사용자가 질문을 할 때 사용자의 말 속도가 23 단어보다 더 많으면, 예컨대, 질문을 할 때 말 속도가 약 25-32 단어이면, 그것은 사용자가 꽤 불안하고, 그리고 묻는 질문이 긴급할 수 있음을 표시한다.

이것에 기반하여, 음성 정보를 처리하기 위한 장치는, 사용자가 묻는 질문을 기술할 때 사용자의 말 속도 및/또는 음량을 획득한 후에, 말 속도 및/또는 음량에 따라 사용자의 감정값을 더 획득한다.

선택적으로, 말 속도 및/또는 음량에 대한 수치 처리가 수행될 수 있고, 그리고 수치 처리의 결과는 사용자의 감정값으로서 사용된다. 수치 처리의 방식은 가중 평균, 가중 등일 수 있다.

예컨대, 일 구현은, 음성 정보를 처리하기 위한 장치에 의해, 가중치와 음량의 곱을 사용자의 감정값으로서 사용하는 것을 포함한다. 가중치가 1일 때, 음량은 사용자의 감정값으로서 직접 사용될 수 있다.

다른 예로서, 일 구현은, 음성 정보를 처리하기 위한 장치에 의해, 가중치와 말 속도의 곱을 사용자의 감정값으로서 사용하는 것을 포함한다. 가중치가 1일 때, 말 속도는 사용자의 감정값으로서 직접 사용될 수 있다.

다른 예로서, 일 구현은, 음성 정보를 처리하기 위한 장치에 의해, 말 속도 및 음량에 대한 수치 처리를 수행하는 것, 및 수치 처리의 결과를 사용자의 감정값으로서 사용하는 것을 포함한다. 예컨대, 음성 정보를 처리하기 위한 장치는 말 속도와 음량을 승산하고, 그리고 승산의 결과를 사용자의 감정값으로서 사용하거나, 또는 음성 정보를 처리하기 위한 장치는 말 속도 및 음량에 대한 가중 평균을 수행하고, 그리고 그 결과를 사용자의 감정값으로서 사용할 수 있다. 수치 처리의 방식은 승산 및 가중 평균으로 한정되지 않는다.

사용자의 감정값이 획득된 후에, 음성 정보를 처리하기 위한 장치는 감정값과 우선순위 간 미리 설정된 매핑 관계에서 사용자의 감정값을 매칭시키고, 그리고 매칭된 우선순위는 사용자의 우선순위로서 사용된다.

감정값과 우선순위 간 매핑 관계는 구체적으로는 감정값 범위와 우선순위 간 대응일 수 있음을 유념해야 하고, 예컨대, 감정값 범위 0-10은 우선순위 -1에 대응하고, 감정값 범위 10-20은 우선순위 0에 대응하고, 감정값 범위 20-30은 우선순위 1에 대응하고, 그리고 감정값 범위 30 초과는 우선순위 2에 대응한다. 대안으로, 감정값과 우선순위 간 매핑 관계는 구체적으로는 감정값 임계치와 우선순위 간 대응일 수 있고, 예컨대, 감정값 임계치 10은 우선순위 -1에 대응하고, 감정값 임계치 20은 우선순위 0에 대응하고, 감정값 임계치 30은 우선순위 1에 대응하고, 그리고 우선순위 2에 대응하는 감정값 임계치는 제한되지 않는다.

선택적 구현에서, 음성 정보를 처리하기 위한 장치는 우선순위와 서비스 채널 간 매핑 관계를 미리 설정하고, 그리고 서비스 채널은 수동 채널 및 지능형 채널을 포함한다. 더 선택적으로, 수동 채널은 공통적 수동 채널 및 전문가 수동 채널로 더 분류될 수 있다. 음성 정보를 처리하기 위한 장치는 구체적으로는 우선순위와 서비스 채널 간 미리 설정된 매핑 관계에서 사용자의 우선순위를 매칭시키고, 수동 채널이 매칭될 때, 사용자는 수동 채널에 연결되고, 그리고 구체적으로, 사용자의 호출 요청은 수동 채널에서의 고객 서비스 직원의 클라이언트에 연결된다. 지능형 채널이 매칭될 때, 사용자는 지능형 채널에 연결되고, 그리고 구체적으로, 음성 정보를 처리하기 위한 장치는, 음성 브로드캐스트의 방식으로, 문제를 해결하도록 사용자를 안내할 수 있다.

예컨대, 우선순위 2는 전문가 수동 채널에 대응하고, 우선순위 1은 공통적 수동 채널에 대응하고, 그리고 우선순위 0 및 우선순위 -1은 지능형 채널에 대응한다. 사용자의 우선순위가 2라고 가정하면, 그때 음성 정보를 처리하기 위한 장치는 사용자를 전문가 수동 채널에 연결할 필요가 있다.

더욱, 음성 정보를 처리하기 위한 장치는, 음성 데이터에 따라, 사용자가 묻는 질문에 답변하기 위한 참조 정보를 더 발생시키고, 그리고, 고객 서비스 직원이 참조 정보에 따라 사용자에게 질문에 답변하도록, 참조 정보를 수동 채널에 대응하는 고객 서비스 직원에게 제공할 수 있고, 그리하여 질문에 답변하는 효율 및 품질을 개선한다.

참조 정보를 발생시키는 방식은, 국한되는 것은 아니지만, 시맨틱 정보 처리 장치가 음성 데이터에 대한 텍스트 변환을 수행하고, 사용자가 묻는 질문의 카테고리를 결정하기 위해 텍스트 정보를 인식하고, 사용자의 계정 정보를 취득하고, 그리고 참조 정보를 발생시키기 위해 사용자의 계정 정보와 사용자가 묻는 질문의 카테고리를 동적으로 어셈블링하는 것을 포함한다. 참조 정보는 음성 형태일 수도 있고 텍스트 형태일 수도 있다.

위의 실시형태는 사용자가 연결되어야 하는 서비스 채널을 결정하는데 사용자의 우선순위가 어떻게 사용되는지에 역점을 두고 있기는 하지만, 본 출원의 실시형태는 사용자가 연결되어야 하는 서비스 채널을 결정하는데 사용자의 우선순위를 따로 사용하는 것으로 한정되지 않고, 사용자의 우선순위는 다른 정보와 조합하여 더 사용될 수 있음을 유념해야 한다. 예컨대, 사용자의 우선순위는 사용자가 연결되는 서비스 채널을 결정(예컨대, 사용자가 묻는 질문의 카테고리에 기반하여, 사용자가 연결되어야 하는 서비스 채널을 결정)하기 위한, 기존 IVR에서 구현되었던, 방법과 조합될 수 있다. 구체적 조합 방식은 사용자의 우선순위를 우선 고려하고, 그 후 사용자가 묻는 질문의 카테고리를 고려하는 것, 또는 사용자가 묻는 질문의 카테고리를 우선 고려하고, 그 후 사용자의 우선순위를 고려하는 것, 또는 사용자가 묻는 질문의 카테고리와 사용자의 우선순위를 동시에 고려하는 것을 포함할 수 있다.

도 4에서 도시된 이하의 실시형태는 사용자의 우선순위를 사용함으로써 사용자에 대한 서비스 채널을 결정하는 상세한 흐름을 제공한다. 도 4에서 도시된 실시형태에서, 모듈은, 구체적으로는, 음성 정보를 처리하기 위한 장치를 구성할 수 있다.

도 4는 본 발명의 일 실시형태에 따라 음성 정보를 처리하기 위한 방법의 개략적 순서도이다. 도 4에서 도시된 바와 같이, 방법은 다음을 포함한다:

21: 대화형 음성 응답(IVR) 모듈은 사용자에 의해 보내진 통신 요청을 수신하여, 사용자와의 음성 통신을 확립한다.

22: IVR 모듈은 사용자를 위한 질문 기술 프롬프트를 재생하여, 묻는 질문을 기술하라고 사용자에게 프롬프트한다.

23: IVR 모듈은 사용자가 묻는 질문을 기술할 때 사용자에 의해 발생된 음성 데이터를 수신한다.

24: IVR 모듈은 음성 데이터를 알리페이 일반 알고리즘 플랫폼(AGAP) 모듈에 보낸다.

25: AGAP 모듈은 사용자의 말 속도 및/또는 음량을 획득하기 위해 음성 데이터에 대한 감정 분석을 수행하고, 말 속도 및/또는 음량에 따라 사용자의 우선순위를 획득하고, 그리고 사용자의 우선순위를 IVR 모듈에 반환한다.

26: IVR 모듈은 음성 데이터를 자동 음성 인식(ASR) 모듈에 보낸다.

27: ASR 모듈은 텍스트 정보를 획득하기 위해 음성 데이터에 대한 텍스트 변환을 수행하고, 그리고 텍스트 정보를 IVR 모듈에 반환한다.

28: IVR 모듈은 텍스트 정보 및 사용자의 우선순위를 고객 서비스 대화형 음성 응답(CSIVR) 모듈에 제공한다.

29: CSIVR 모듈은 텍스트 정보를 알리페이 텍스트 분석(ALITA) 모듈에 보낸다.

30: ALITA 모듈은 질문의 카테고리를 결정하기 위해 텍스트 정보에 대한 시맨틱 분석을 수행하고, 그리고 질문의 결정된 카테고리를 CSIVR 모듈에 반환한다.

31: CSIVR 모듈은 들어오는 호출 번호 및 ID 번호와 같은 사용자의 정보를 고객 정보 파일(CIF) 모듈에 제공한다.

32: CIF 모듈은 사용자의 들어오는 호출 번호 및 ID 번호에 따라 사용자의 계정 정보를 획득하고, 그리고 사용자의 계정 정보를 CSIVR 모듈에 반환한다.

33: CSIVR 모듈은 사용자의 계정 정보, 질문의 카테고리, 및 사용자의 우선순위를 고객 서비스 정확(CSACCURATE) 모듈에 보낸다.

34: CSACCURATE 모듈은, 사용자의 계정 정보, 질문의 카테고리, 및 사용자의 우선순위에 따라, 사용자에 대응하는 서비스 채널을 결정하고, 그리고 결정된 서비스 채널의 식별 정보를 CSIVR 모듈에 반환한다.

이러한 구현에서, CSACCURATE 모듈은, 사용자가 연결되어야 하는 서비스 채널을 결정하기 위해, 질문의 카테고리와 사용자의 우선순위를 동시에 고려한다.

예컨대, 사용자가 묻는 질문의 카테고리에 따라 사용자가 유효하지 않은 사용자라고 결정되고, 그리고 사용자가 질문을 할 때 사용자의 말 속도 및 음량에 따라 사용자의 우선순위가 -1이라고 결정된다고 가정하면, 사용자는 지능형 채널에 연결될 수 있다. 사용자가 묻는 질문의 카테고리에 따라 사용자가 질문하는 사용자라고 결정되고, 그리고 사용자가 질문을 할 때 사용자의 말 속도 및 음량에 따라 사용자의 우선순위가 0이라고 결정된다고 가정하면, 사용자는 지능형 채널에 연결될 수 있다. 사용자가 묻는 질문의 카테고리에 따라 사용자가 서비스를 요청하는 사용자라고 결정되고, 그리고 사용자가 질문을 할 때 사용자의 말 속도 및 음량에 따라 사용자의 우선순위가 1이라고 결정된다고 가정하면, 사용자는 공통적 수동 채널에 연결될 수 있다. 사용자가 묻는 질문의 카테고리에 따라 사용자가 긴급 요청을 갖는 사용자라고 결정되고, 그리고 사용자가 질문을 할 때 사용자의 말 속도 및 음량에 따라 사용자의 우선순위가 2라고 결정된다고 가정하면, 사용자는 전문가 수동 채널에 연결될 수 있다.

35: 서비스 채널이 지능형 채널이면, CSIVR 모듈은 사용자의 계정 정보, 질문의 카테고리, 및 사용자의 우선순위에 따라 대응하는 음성 재생 데이터를 발생시키고, 그리고, IVR 모듈이 문제를 해결하도록 사용자를 안내하기 위해, 음성 재생 데이터를 IVR 모듈에 반환한다.

36: 서비스 채널이 수동 채널이면, CSIVR 모듈은 사용자의 계정 정보, 질문의 카테고리, 및 사용자의 우선순위에 따라 참조 정보를 발생시키고, 사용자를 수동 채널에 연결하고, 그리고 동시에, 수동 채널에서의 고객 서비스 직원에게 참조 정보를 제공한다.

이러한 실시형태에서, 사용자의 우선순위는 사용자가 질문을 할 때 사용자의 감정에 따라 결정될 수 있고, 그리고 사용자는 우선순위에 기반하여 대응하는 서비스 채널에 연결되고, 이러한 식으로, 다른 우선순위의 사용자는 융통성 있게 그리고 적시에 다른 서비스 채널에 연결될 수 있다. 예컨대, 더 높은 우선순위의 사용자는 높은-우선순위 서비스 채널에 연결될 수 있고, 그리하여 사용자 경험 및 문제 해결 속도를 개선하는데 이바지하고, 그리고 그러는 동안, IVR의 서비스 모드를 확장하고, 서비스의 융통성을 개선하고, 그리고 IVR의 서비스 품질을 개선하는데 이바지한다.

설명의 용이함을 위해, 위에서 언급된 방법 실시형태는 모두 일련의 동작의 조합으로서 설명되지만, 당업자는 본 출원이 여기에서 설명된 동작 순서로 한정되지 않음을 알고 있어야 하고, 이것은 일부 단계가 본 출원에 따라 동시에 또는 다른 순서로 수행될 수 있기 때문임을 유념해야 한다. 다음으로, 당업자는 또한 본 명세서에서 설명된 실시형태가 모두 바람직한 실시형태이고, 그리고 거기에 수반된 동작 및 모듈이 본 출원에 의해 반드시 필요로 되지는 않음을 알고 있어야 한다.

위의 실시형태에서, 실시형태에 대한 설명은 각각의 역점을 갖고, 그리고 실시형태에서 상세히 설명되지 않는 부분에 대해서는, 다른 실시형태에서의 관련된 설명을 참조할 수 있다.

도 5는 본 출원의 일 실시형태에 따라 음성 정보를 처리하기 위한 장치의 개략적 구조 선도이다. 도 5에서 도시된 바와 같이, 장치는 획득 모듈(51), 분석 모듈(52), 및 서비스 연결 모듈(53)을 포함한다.

획득 모듈(51)은 사용자의 음성 데이터를 획득하도록 구성된다.

분석 모듈(52)은 획득 모듈(51)에 접속되고, 그리고, 음성 데이터의 우선순위를 결정하기 위해, 획득 모듈(51)에 의해 획득된 음성 데이터에 대한 감정 분석을 수행하도록 구성된다.

서비스 연결 모듈(53)은 분석 모듈(52)에 접속되고, 그리고 분석 모듈(52)에 의해 결정된 음성 데이터의 우선순위에 따라 대응하는 서비스 채널에 사용자를 연결하도록 구성된다.

선택적 구현에서, 획득 모듈(51)은 구체적으로는 사용자의 통신 요청을 수신하고, 사용자와의 음성 통신을 수행하고, 사용자를 위한 음성 프롬프트를 재생하고, 그리고 음성 프롬프트의 프롬프트에 따라 사용자에 의해 보내진 음성 데이터를 수신하도록 구성된다.

선택적 구현에서, 분석 모듈(52)은 구체적으로는 음성 데이터에 대한 감정 분석을 수행하고, 사용자가 음성 데이터를 보낼 때 사용자의 말 속도 및/또는 음량을 결정하고, 말 속도 및/또는 음량에 따라 사용자의 감정값을 획득하고, 그리고 사용자의 감정값 및 감정값과 우선순위 간 미리 설정된 매핑 관계에 따라 사용자의 우선순위를 획득하도록 구성된다.

분석 모듈(52)은 구체적으로는 음성 데이터에 대한 감정 분석을 수행하고, 사용자가 음성 데이터를 보낼 때 사용자의 말 속도 및/또는 음량을 결정하고, 말 속도 및/또는 음량에 대한 수치 처리를 수행하고, 그리고 수치 처리의 결과를 사용자의 감정값으로서 사용하고, 그리고 사용자의 감정값 및 감정값과 우선순위 간 미리 설정된 매핑 관계에 따라 음성 데이터의 우선순위를 획득하도록 구성된다.

선택적 구현에서, 서비스 연결 모듈은, 구체적으로는, 우선순위와 서비스 채널 간 미리 설정된 매핑 관계에서 음성 데이터의 우선순위를 매칭시키고, 그리고 수동 채널이 매칭될 때, 사용자를 수동 채널에 연결하도록 구성된다.

선택적 구현에서, 음성 정보를 처리하기 위한 장치는 음성 데이터에 따라 참조 정보를 발생시키고, 그리고 수동 채널에 대응하는 고객 서비스 직원에게 참조 정보를 제공하도록 구성된 참조 처리 모듈을 더 포함한다.

도 5에서 도시된 구현 구조를 채용하는 것에 부가하여, 음성 정보를 처리하기 위한 장치는, IVR 시스템을 형성하도록, 도 2에서 도시된 실시형태에서의 구현 구조를 더 채용할 수 있음을 유념해야 한다.

이러한 실시형태에 따라 음성 정보를 처리하기 위한 장치는 음성 데이터의 우선순위에 따라 대응하는 서비스 채널에 사용자를 연결할 수 있고, 이러한 식으로, 사용자는 융통성 있게 그리고 적시에 다른 서비스 채널에 연결될 수 있고, 예컨대, 더 높은-우선순위 음성 데이터를 갖는 사용자는 높은-우선순위 서비스 채널에 연결될 수 있고, 그리하여 사용자 경험 및 문제 해결 속도를 개선하는데 이바지하고, 그리고 동시에, IVR의 서비스 모드를 확장하고, 서비스의 융통성을 개선하고, 그리고 IVR의 서비스 품질을 개선하는데 이바지한다.

당업자는 위에서 설명된 시스템, 장치 및 유닛의 구체적 작동 과정이 상기 방법 실시형태에서의 대응하는 과정을 참조하여 획득될 수 있고, 그리고, 설명의 편의 및 명확화를 위해, 여기에서 반복되지는 않음을 명확히 이해할 수 있다.

본 출원에서 제공된 수 개의 실시형태에서, 개시된 시스템, 장치 및 방법은 다른 방식으로 구현될 수 있음을 이해하여야 한다. 예컨대, 상기 설명된 장치 실시형태는 개략적인 것에 불과하고, 예컨대, 유닛의 분할은 논리적 기능의 분할에 불과하고, 그리고 실제로, 구현 동안 다른 분할 방식이 있을 수 있고, 예컨대, 다수의 유닛 또는 컴포넌트가 조합될 수 있거나 다른 시스템에 통합될 수 있거나, 또는 일부 특징부가 생략되거나 실행되지 않을 수 있다. 다른 한편, 표시되거나 논의된 상호 결합 또는 직접 결합 또는 통신 접속은 소정 인터페이스, 장치 또는 유닛 간 간접 결합 또는 통신 접속을 통해 구현될 수 있고, 그리고 전기적, 기계적 또는 다른 형태일 수 있다.

별개의 부분으로서 설명된 유닛은 물리적으로 분리되어 있을 수도 있고 그렇지 않을 수도 있고, 그리고 유닛으로서 표시된 부분은 물리적 유닛일 수도 있고 그렇지 않을 수도 있다, 즉, 그것들은 동일한 곳에 위치하고 있을 수도 있고, 다수의 네트워크 유닛으로 분산되어 있을 수도 있다. 이러한 실시형태의 해법의 목적은 실제 요건에 따라 그 모든 유닛 또는 일부분을 선택함으로써 구현될 수 있다.

부가적으로, 본 출원의 실시형태에서의 다양한 기능 유닛은 하나의 처리 유닛으로 통합될 수 있고, 각각의 유닛은 또한 별개의 물리적 유닛으로서 존재할 수 있고, 그리고 2개 이상의 유닛은 또한 하나의 유닛으로 통합될 수 있다. 통합 유닛은 하드웨어의 형태로 구현될 수 있고, 그리고 또한 하드웨어 더하기 소프트웨어 기능 유닛의 형태로 구현될 수 있다.

소프트웨어 기능 유닛의 형태로 구현된 통합 유닛은 컴퓨터 판독가능한 저장 매체에 저장될 수 있다. 소프트웨어 기능 유닛은 저장 매체에 저장되고, 그리고 (퍼스널 컴퓨터, 서버, 네트워크 디바이스 등일 수 있는) 컴퓨터 디바이스 또는 프로세서가 본 출원의 실시형태에서의 방법의 단계의 일부분을 실행하는 것을 가능하게 하도록 사용된 수 개의 명령어를 포함한다. 저장 매체는 USB 플래시 디스크, 모바일 하드 디스크, ROM(Read-Only Memory), RAM(Random Access Memory), 자기 디스크, 광학 디스크, 또는 프로그램 코드를 저장할 수 있는 다른 매체를 포함한다.

마지막으로, 위의 실시형태는, 본 출원을 한정한다기보다는, 본 출원의 기술적 해법을 설명하도록 사용되는 것에 불과함을 유념해야 하고, 본 출원이 상기 실시형태를 참조하여 상세히 설명되고 있기는 하지만, 당업자는 그들이 여전히 위의 실시형태에서 설명된 기술적 해법에 수정을 하거나, 또는 그 기술적 특징의 일부분에 균등한 대체를 수행할 수 있음을 이해하여야 하고, 그리고 이들 수정 또는 대체는 대응하는 기술적 해법의 본질이 본 출원의 실시형태의 기술적 해법의 취지 및 범위로부터 벗어나게 하려는 의도는 아니다.

Claims

음성 정보를 처리하기 위한 방법으로서,
사용자의 음성 데이터를 획득하는 단계;
상기 음성 데이터의 우선순위를 결정하기 위해 상기 음성 데이터에 대한 감정 분석을 수행하는 단계; 및
상기 음성 데이터의 상기 우선순위에 따라 대응하는 서비스 채널에 상기 사용자를 연결하는 단계를 포함하는, 음성 정보를 처리하기 위한 방법.
제1항에 있어서, 상기 사용자의 상기 음성 데이터를 획득하는 단계는
상기 사용자의 통신 요청을 수신하여 상기 사용자와의 음성 통신을 수행하는 단계;
상기 사용자를 위한 음성 프롬프트를 재생하는 단계; 및
상기 음성 프롬프트의 프롬프트에 따라 상기 사용자에 의해 보내진 상기 음성 데이터를 수신하는 단계를 포함하는, 음성 정보를 처리하기 위한 방법.
제1항에 있어서, 상기 음성 데이터의 상기 우선순위를 결정하기 위해 상기 음성 데이터에 대한 상기 감정 분석을 수행하는 단계는
상기 사용자가 상기 음성 데이터를 보낼 때 상기 사용자의 말 속도 및/또는 음량을 결정하기 위해 상기 음성 데이터에 대한 상기 감정 분석을 수행하는 단계;
상기 말 속도 및/또는 음량에 따라 상기 사용자의 감정값을 획득하는 단계; 및
상기 사용자의 상기 감정값 및 상기 감정값과 상기 우선순위 간 미리 설정된 매핑 관계에 따라 상기 음성 데이터의 상기 우선순위를 획득하는 단계를 포함하는, 음성 정보를 처리하기 위한 방법.
제3항에 있어서, 상기 말 속도 및/또는 음량에 따라 상기 사용자의 상기 감정값을 획득하는 단계는
상기 말 속도 및/또는 음량에 대한 수치 처리를 수행하고, 그리고 상기 수치 처리의 결과를 상기 사용자의 상기 감정값으로서 사용하는 단계를 포함하는, 음성 정보를 처리하기 위한 방법.
제1항 내지 제4항 중 어느 한 항에 있어서, 상기 음성 데이터의 상기 우선순위에 따라 대응하는 상기 서비스 채널에 상기 사용자를 연결하는 단계는
상기 우선순위와 상기 서비스 채널 간 미리 설정된 매핑 관계에서 상기 음성 데이터의 상기 우선순위를 매칭시키는 단계; 및
수동 채널이 매칭될 때, 상기 사용자를 상기 수동 채널에 연결하는 단계를 포함하는, 음성 정보를 처리하기 위한 방법.
제5항에 있어서,
상기 음성 데이터에 따라 참조 정보를 발생시키는 단계; 및
상기 수동 채널에 대응하는 고객 서비스 직원에 상기 참조 정보를 제공하는 단계를 더 포함하는, 음성 정보를 처리하기 위한 방법.
음성 정보를 처리하기 위한 장치로서,
사용자의 음성 데이터를 획득하도록 구성된 획득 모듈;
상기 음성 데이터의 우선순위를 결정하기 위해 상기 음성 데이터에 대한 감정 분석을 수행하도록 구성된 분석 모듈; 및
상기 음성 데이터의 상기 우선순위에 따라 대응하는 서비스 채널에 상기 사용자를 연결하도록 구성된 서비스 연결 모듈을 포함하는, 음성 정보를 처리하기 위한 장치.
제7항에 있어서, 상기 획득 모듈은, 구체적으로는,
상기 사용자의 통신 요청을 수신하여 상기 사용자와의 음성 통신을 수행하고;
상기 사용자를 위한 음성 프롬프트를 재생하고; 그리고
상기 음성 프롬프트의 프롬프트에 따라 상기 사용자에 의해 보내진 상기 음성 데이터를 수신하도록 구성되는, 음성 정보를 처리하기 위한 장치.
제7항에 있어서, 상기 분석 모듈은, 구체적으로는,
상기 사용자가 상기 음성 데이터를 보낼 때 상기 사용자의 말 속도 및/또는 음량을 결정하기 위해 상기 음성 데이터에 대한 상기 감정 분석을 수행하고;
상기 말 속도 및/또는 음량에 따라 상기 사용자의 감정값을 획득하고; 그리고
상기 사용자의 상기 감정값 및 상기 감정값과 상기 우선순위 간 미리 설정된 매핑 관계에 따라 상기 음성 데이터의 상기 우선순위를 획득하도록 구성되는, 음성 정보를 처리하기 위한 장치.
제9항에 있어서, 상기 분석 모듈은, 구체적으로는,
상기 사용자가 상기 음성 데이터를 보낼 때 상기 사용자의 말 속도 및/또는 음량을 결정하기 위해 상기 음성 데이터에 대한 상기 감정 분석을 수행하고;
상기 말 속도 및/또는 음량에 대한 수치 처리를 수행하고, 그리고 상기 수치 처리의 결과를 상기 사용자의 상기 감정값으로서 사용하고; 그리고
상기 사용자의 상기 감정값 및 상기 감정값과 상기 우선순위 간 미리 설정된 매핑 관계에 따라 상기 음성 데이터의 상기 우선순위를 획득하도록 구성되는, 음성 정보를 처리하기 위한 장치.
제7항 내지 제10항 중 어느 한 항에 있어서, 상기 서비스 연결 모듈은, 구체적으로는,
상기 우선순위와 상기 서비스 채널 간 미리 설정된 매핑 관계에서 상기 음성 데이터의 상기 우선순위를 매칭시키고; 그리고
수동 채널이 매칭될 때, 상기 사용자를 상기 수동 채널에 연결하도록 구성되는, 음성 정보를 처리하기 위한 장치.
제11항에 있어서,
상기 음성 데이터에 따라 참조 정보를 발생시키고; 그리고 상기 수동 채널에 대응하는 고객 서비스 직원에 상기 참조 정보를 제공하도록 구성된 참조 처리 모듈을 더 포함하는, 음성 정보를 처리하기 위한 장치.