KR20080061549A

KR20080061549A - 음성 인식을 이용한 무선 환경에서의 정보 제공 시스템 및그 방법

Info

Publication number: KR20080061549A
Application number: KR1020060136411A
Authority: KR
Inventors: 유관식; 이현주; 이정훈; 정승우
Original assignee: 에스케이에너지 주식회사
Priority date: 2006-12-28
Filing date: 2006-12-28
Publication date: 2008-07-03
Also published as: KR100929531B1

Abstract

본 발명은 음성 인식을 이용한 무선 환경에서의 정보 제공 시스템 및 그 방법에 관한 것이다.

정보 제공 시스템은 네트워크를 통하여 적어도 하나 이상의 사용자 단말기에 연결되어 있으며, 사용자 단말기로부터의 요청에 따라 정보를 제공한다. 사용자의 정보 제공을 요청하는 음성 신호가 음성 인식 처리가 가능한 형태의 스트리밍 음성 데이터로 처리된 다음에 네트워크를 통하여 시스템으로 제공된다. 시스템은 수신된 스트리밍 음성 데이터에 대한 끝점을 검출하고 음성 인식 처리하여 사용자가 요청한 정보가 무엇인지를 인식한다. 그리고 인식 결과에 따른 정보를 전송 가능한 형태의 데이터로 처리하여 사용자 단말기로 제공한다.

따라서, 사용자 단말기에서 음성 인식 처리가 가능하도록 입력되는 사용자의 음성 신호를 전처리 한 후 전송함으로써, 음성 데이터 전송시 왜곡이 발생되는 것을 방지할 수 있다.

음성인식, 무선환경, 스트리밍, 끝점검출

Description

음성 인식을 이용한 무선 환경에서의 정보 제공 시스템 및 그 방법{Information Offering System and Method using voice recognition in wireless environment}

도 1은 본 발명의 실시 예에 따른 정보 제공 시스템의 네트워크 연결도이다.

도 2는 본 발명의 실시 예에 따른 사용자 단말기의 구조도이다.

도 3은 본 발명의 실시 예에 따른 정보 제공 시스템의 구체적인 구조도이다.

도 4 및 도 5는 본 발명의 실시 예에 따른 정보 제공 방법의 흐름도이다.

도 6은 본 발명의 실시 예에 따른 음성 인식 처리 결과에 따른 처리 과정을 나타낸 흐름도이다.

도 7 및 도 8은 본 발명의 실시 예에 따른 정보 제공 방법에 따라 사용자 단말기에 출력되는 정보의 예시도이다.

본 발명은 정보 제공 시스템에 관한 것으로, 더욱 상세하게는 무선 환경에서 음성 인식을 이용한 정보 제공 시스템 및 그 방법 그리고 정보 표시 장치에 관한 것이다.

일반적으로 전화를 통하여 사용자들에게 소정의 정보를 제공하는 시스템은 사용자가 유무선 통신으로 접속하면 사용자의 요청에 따라 다수의 정보를 제공하는 고객 상담 시스템이다. 종래의 고객 상담 시스템은 주로 고객이 유선 또는 무선으로 접속하면 고객을 소정의 상담원과 연결시켜, 고객과 상담원의 직접적인 통화에 의하여 고객이 원하는 정보를 제공받을 수 있도록 하는 형태로 이루어진다. 다른 형태로는 고객이 유선 또는 무선으로 통신하여 접속하면 고객을ARS(automatic response system) 서버로 연결시켜, 고객이 ARS 서버를 통하여 정보를 제공받을 수 있도록 한다. 또 다른 형태로는 고객이 원하는 서비스의 메뉴를 단말기 상에서 음성으로 요청하면 상기 음성을 분석하여 해당 정보를 제공한다.

음성 인식을 이용하여 정보를 제공하는 시스템은 전화망을 기반으로 서비스를 제공하거나, 또는 무선망을 기반으로 정보를 제공하는데 음성 처리 방식에 따라 제1 형태와 제2 형태로 나뉘어진다.

제1 형태는 단말기가 단지 사용자의 음성을 녹취한 아날로그 음성 파일을 시스템으로 전송하면, 시스템이 음성 파일을 소정 음성 인식 프로세스에 따라 처리하여 음성 데이터를 생성함으로써, 음성 인식이 수행되는 방식이다. 예를 들어, 단말기가 아날로그 음성 파일을 전화망을 통하여 시스템으로 전송하고, 시스템의 음성 인식 엔진이 교환기, IVR((interactive voice response) 서버를 통하여 전달되는 아날로그 음성 파일을 소정 음성 인식 프로세스에 따라 처리하여 인식한다. 그런데 이 경우 단말기가 아날로그 형태의 음성 파일을 시스템 상으로 전송하기 때문에 왜곡과 잡음 등이 수반된다.

반면, 제2 형태는 단말기가 사용자의 음성을 녹취한 아날로그 음성 파일을 전송하는 것이 아니라 상기 음성 파일을 소정 음성 인식 처리한 다음에 얻어지는 데이터를 시스템으로 전송하는 방식이다. 이러한 방식을 DSR(distribute speech recognition) 방식이라고 하며, 단말기가 음성 파일을 토대로 한 일반적인 음성 인식 프로세스 중 주요 부분을 수행한다.

그러나 이 경우에는 단말기가 처리하는 과정이 복잡하기 때문에 단말기의 부하가 증가되고, 또한 상기 과정을 구현하기 위한 하드웨어가 요구됨에 따라 단말기 제조 가격이 상승되는 단점이 있다.

그러므로 본 발명이 이루고자 하는 기술적 과제는 상기한 종래의 문제점들을 해결하기 위한 것으로, 무선 환경에서 보다 효율적으로 음성 인식을 수행하여 사용자들의 단말기로 해당하는 정보를 제공하고자 하는데 있다.

또한 본 발명이 이루고자 하는 기술적 과제는 단말기의 처리 부하는 감소시키면서 시스템을 통한 음성 인식이 왜곡 없이 수행되어, 정확한 정보가 단말기로 제공되도록 하는데 있다.

또한 본 발명이 이루고자 하는 기술적 과제는 음성 인식 상태를 단말기 상에 표시하여 사용자가 용이하게 확인할 수 있도록 하는데 있다.

이러한 본 발명의 기술적 과제를 달성하기 위한 본 발명의 특징에 따른 정보 제공 방법은, 네트워크를 통하여 적어도 하나 이상의 사용자 단말기 및 상담원 단 말기에 연결되어 있는 시스템에서, 상기 사용자 단말기로부터의 요청에 따라 정보를 제공하는 방법에서, a) 상기 사용자 단말기를 통하여 정보 제공 요청이 있는 경우, 상기 시스템이 상기 사용자 단말기로부터 상기 요청에 따른 스트리밍 음성 데이터를 수신하는 단계 b) 상기 시스템이 상기 스트리밍 음성 데이터를 복원 처리하여 음성 데이터를 생성하는 단계 c) 상기 시스템이 상기 음성 데이터에 대한 끝점 검출을 수행하는 단계 d) 상기 시스템이 상기 검출된 끝점을 토대로 상기 음성 데이터에 대한 음성 인식 처리를 수행하는 단계 및 e) 상기 시스템이 음성 인식 결과에 따라 해당하는 정보를 찾아서 상기 사용자 단말기로 전송하는 단계를 포함한다.

또한 본 발명의 다른 특징에 따른 정보 제공 시스템은, 네트워크를 통하여 적어도 하나 이상의 사용자 단말기 및 상담원 단말기에 연결되어, 상기 사용자 단말기로부터의 요청에 따라 정보를 제공하는 시스템에서, 상기 사용자 단말기로부터 정보 제공 요청에 따라 전송되는 스트리밍 음성 데이터를 수신하고 소정 처리하여 음성 데이터를 생성하는 음성 처리부 상기 생성된 음성 데이터에 대하여 끝점 검출을 수행하는 끝점 검출부 상기 검출된 끝점을 토대로 상기 음성 데이터에 대한 음성 인식 처리를 수행하는 음성 인식 엔진 및 상기 시스템이 음성 인식 결과에 따라 해당하는 정보를 찾아서 상기 사용자 단말기로 전송하는 서비스 제어부를 포함한다.

이 경우, 상기 사용자 단말기는 사용자 음성 신호를 출력하는 인터페이스부 상기 음성 신호를 스트리밍 음성 데이터로 처리하는 음성 신호 처리부 상기 스트리밍 음성 데이터를 상기 네트워크를 통하여 상기 시스템으로 전송하고, 상기 시스템 으로부터 전송되는 신호를 수신하는 송수신부 상기 시스템으로부터 전송되는 음성 인식 처리 결과, 시스템으로부터 전송된 정보를 포함하는 처리 정보를 표시하는 디스플레이부를 포함할 수 있다. 특히 상기 음성 신호 처리부는 사용자의 아날로그 음성 신호를 디지털 신호로 변환하고 압축한 후, 소정 포맷의 전송 가능한 스트리밍 음성 데이터를 생성하여 상기 시스템으로 전송한다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였다.

도 1은 본 발명의 실시 예에 따른 정보 제공 시스템의 네트워크 연결도이다.첨부한 도 1에 도시되어 있듯이, 본 발명의 실시 예에 따른 정보 제공 시스템(100)은, 무선 네트워크(200)를 통하여 다수의 사용자 단말기(300)와 연결되어 있다.

여기서, 사용자 단말기(300)는 무선 네트워크(200, 이하 설명의 편의를 위하여 "네트워크"라고도 명명함)를 통하여 정보 제공 시스템(100)에 접속할 수 있는 통신 장치이며, 예를 들어, 이동 통신 단말기, 인터넷 폰, PDA 등의 모든 무선 네트워크 접속이 가능한 통신 장치가 포함될 수 있다.

도 2는 본 발명의 실시 예에 따른 단말기의 구조도이다.

본 발명의 실시 예에 따른 사용자 단말기(300)는 도 2에서와 같이, 인터페이스부(310), 인터페이스부(310)를 통하여 입력되는 음성 신호를 처리하는 음성 신호 처리부(320), 처리된 음성 신호를 네트워크(200)를 통하여 시스템(100)으로 전송하는 송수신부(330), 그리고 음성 인식 처리 결과, 시스템으로부터 전송된 정보 등 다양한 형태의 정보를 표시하는 디스플레이부(340)를 포함한다. 또한 문자 형태의 정보를 처리하여 디스플레이부(340)에 표시하는 문자 정보 처리부(350), 영상 형태의 정보를 처리하여 디스플레이부(340)에 표시하는 영상 정보 처리부(360), 그리고 음성 신호의 전송, 문자 및 영상을 포함하는 정보의 수신 및 처리를 제어하는 서비스 제어부(370)를 더 포함한다.

인터페이스부(310)는 사용자와의 인터페이스를 위한 기능을 수행하며, 예를 들어 사용자의 음성을 전기적인 음성 신호로 변환하여 출력하는 마이크, 음성 신호를 출력하는 스피커를 포함하며, 이외에도 키패드, 마우스 등의 입력 장치를 포함한다.

음성 신호 처리부(320)는 인터페이스부(310)를 통하여 입력되는 사용자의 음성 신호를 처리하여 시스템으로 송부할 소정의 음성 데이터를 생성한다. 구체적으로 음성 신호 처리부(320)는 인터페이스부를 통하여 입력되는 아날로그 음성 신호를 디지털 음성 신호로 변환하며, 특히 설정된 비트율에 따라 상기 아날로그 음성 신호를 디지털 음성 신호로 변환 처리한다. 그리고 디지털 음성 신호를 압축하여 스트리밍 데이터로 처리한 다음에 송수신부(340)를 통하여 시스템(100)으로 전송한다. 특히 음성 신호 처리부(320)는 입력되는 사용자 음성 신호를 녹취하며, 이후 음성 인식이 실패한 경우 필요에 따라 음성 녹취 파일을 시스템(100)으로 전송한다. 또한 음성 신호 처리부(320)는 시스템(100)으로부터 전달되는 음성 신호를 처 리하여 인터페이스부(310)를 통하여 출력되도록 한다. 이하에서는 사용자 단말기로부터 출력되어 시스템으로 전송되는 음성 신호를 스트리밍 음성 데이터라고 명명한다. 한편 음성 신호 처리부(320)는 일명 음성 코덱(CODEC)이라고도 명명할 수 있으며, 문자 정보 처리부(350)는 문자 코덱, 영상 정보 처리부(360)는 영상 코덱이라고 명명할 수 있다.

송수신부(340)는 음성 신호 처리부(320)로부터 제공되는 소정 포맷의 디지털 음성 신호인 스트리밍 음성 데이터를 전송 가능한 신호로 처리하여 시스템(100)으로 전송하며, 또한 시스템(100)으로부터 전송되는 다양한 형태의 정보를 포함하는 신호를 수신한다.

문자 정보 처리부(350)는 송수신부(340)로부터 수신된 신호로부터 문자 정보를 추출한 다음에 디스플레이부에 표시 가능한 형태로 처리하며, 영상 정보 처리부(360)는 상기 수신된 신호로부터 영상 정보를 추출하여 표시 가능한 형태로 처리한다. 여기서 영상 정보는 정지 영상 및 동영상을 모두 포함한다.

서비스 제어부(370)는 본 발명의 실시 예에 따른 음성 인식을 통한 정보를 제공하는 서비스가 사용자 단말기를 통하여 이루어지도록, 위의 구성 요소(310∼360)를 제어한다. 예를 들어, 소정 서비스 메뉴별로 음성을 통한 정보 제공이 이루어지도록 하는 어플리케이션을 토대로 동작하여, 단말기(300)와 시스템(100) 사이의 연계에 따라 사용자가 요청한 메뉴에 해당하는 정보가 음성을 포함하는 다양한 형태로 사용자에게 제공될 수 있도록 한다.

이러한 본 발명의 실시 예에 따른 사용자 단말기(300)는 위에 기술된 구성 요소이외에도, 단말기 고유의 기능(예를 들어 콜 연결 처리를 포함한 통화 처리 기능)을 수행하기 위한 다른 구성 요소를 추가적으로 포함할 수 있다.

한편 위에 기술된 바와 같은 단말기(300)로부터의 요청에 따라 소정 정보를 단말기로 전송하는 정보 제공 시스템(100)은 다음과 같은 구조로 이루어진다.

도 3은 본 발명의 실시 예에 따른 정보 제공 시스템의 상세 구조도이다.

본 발명의 실시 예에 따른 정보 제공 시스템(100)은 도 1 및 도 3에서와 같이, 음성 인식 서버(10)를 포함하며, 이외에도 상담원 관리 서버(20)를 포함한다. 또한 사용자 단말기와의 콜 연결을 위한 콜 처리부(50)를 더 포함할 수 있다.

이러한 정보 제공 시스템(100)은 이동 통신사의 FEP 서버(도시하지 않음)를 통하여 연결될 수 있다. FEP 서버는 사용자 단말기로부터의 정보 요청시, 정보 제공을 위한 음성 인식 서버와 기지국 위치 찾기 등의 기능을 수행하여, 정보 제공 시스템(100)과 사용자 단말기(300) 사이의 효율적인 연결이 이루어지도록 할 수 있다. 물론 FEP 서버 이외에 동일한 기능을 수행하는 다른 서버가 사용될 수도 있다.

음성 인식 서버(10)는 사용자 단말기(300)로부터 전송되는 소정 포맷의 음성 신호를 처리하여 음성 인식을 수행한다. 이를 위하여 구체적으로 입력되는 스트리밍 음성 데이터를 복원 처리하여 해당하는 음성 데이터를 생성하는 음성 처리부(11), 복원된 음성 데이터에 대하여 끝점 검출(End-Point Detection, 이하, EPD라고 명명함) 처리를 수행하는 EPD 처리부(12), EPD 처리부에서 검출된 끝점을 토대로 상기 음성 데이터에 대한 음성 인식을 수행하여, 음성 데이터에 해당하는 문자 정보와 음성 인식 결과를 생성하는 음성 인식 엔진(13), 및 상기 문자 정보 및 음성 인식 결과를 상담원 관리 서버(20)로 제공하거나, 음성 인식 결과 및 음성 인식에 따라 검색된 정보들을 사용자 단말기(300)로 제공하는 서비스 제어부(15)를 포함한다. 한편 서비스 제어부(15)는 사용자 단말기(300)와 시스템(100) 사이의 동기화를 위한 통신 제어를 수행할 수 있다.

본 발명의 실시 예에 따른 음성 인식 엔진(12)은 음성 인식 결과를 소정 형태의 정보로 처리하여 사용자 단말기(300)로 전송함으로써, 사용자가 시스템의 음성 인식 결과를 확인할 수 있도록 한다. 이 때 사용자 단말기로 전송되는 음성 인식 결과는 문자 형태일 수도 있으며, 또는 영상 또는 음성 등의 복합매체 정보일 수도 있다. 또한 음성 인식 엔진(12)에는 입력된 음성 데이터에 대한 음성 인식을 위한 기본 정보가 저장된 음성 인식 DB(도시되지 않음)를 포함할 수 있다. 이러한 음성 인식 DB에는 고객별로 최근에 사용하였거나 자주 사용한 단어 목록 또는 전체 고객 대상으로 자주 사용된 단어 목록이 저장되어 있어도 좋다.

음성 인식 서버(10)의 음성 인식 결과를 토대로 사용자가 요청한 정보가 제공되며, 이를 위하여 다수의 상담원 1그룹 단말기(30) 및 상담원 2그룹 단말기(40)들이 상담원 관리 서버(20)에 연결될 수 있다. 상담원 1그룹 단말기(30)는 상담원 관리 서버(20)와 음성 인식 엔진(12)에 연결되어 있으며, 상담원 2그룹 단말기(40)는 상담원 관리 서버(20)와 콜 처리부(50)에 연결되어 있다.

상담원 관리 서버(20)는 상담원 1그룹 단말기(30) 및 상담원 2그룹 단말기(40)를 관리하며, 특히 사용자의 정보 요청에 따라 소정의 상담원 단말기를 선택하여 해당하는 정보가 사용자 단말기에게 제공되도록 한다.

특히 상담원 관리 서버(20)는 음성 인식 엔진(12)에 의한 음성 인식 결과가 미리 설정된 기준치보다 작은 경우, 상담원 1그룹 단말기(30)들 중에서 하나를 선택하고, 사용자 단말기로부터 전송되는 음성 녹취 파일과 음성 인식 엔진(12)에서 인식한 인식 단어 목록을 포함하는 문자 정보를 선택된 상담원 단말기로 제공한다. 그 결과 선택된 상담원 1그룹 단말기(30)를 통하여 재생되는 음성 녹취 파일과 상기 문자 정보를 토대로 해당하는 상담원이 사용자 요청을 인식하게 되고, 인식된 결과를 음성 인식 엔진(40)으로 전달한다. 여기서 음성 녹취 파일은 사용자 단말기로부터 전송된 파일이다.

한편 상담원 관리 서버(20)는 상담원 1그룹 단말기(30)를 통한 상담원 1그룹에 의한 음성 인식이 실패한 경우, 사용자의 음성을 상담원 2그룹의 상담원이 직접 청취할 수 있도록 하나의 상담원 2그룹 단말기(40)를 선택한다. 이후 선택된 2그룹 단말기의 상담원이 직접 사용자의 음성을 듣고 해당하는 처리 결과를 콜 처리부(50)로 전달한다. 이 때, 상담원 2그룹의 상담원은 사용자와 직접 통화하는 것이 아니라 사용자의 음성만을 직접 청취하는 것으로, 사용자에 대한 응대는 콜 처리부(50)에 의해 수행될 수 있다.

콜 처리부(50)는 도 3에서와 같이, 사용자 단말기(300)로부터의 콜 연결 요청에 따라 콜 처리를 수행하는 서버로서, 무선 통신사 또는 유선 통신사의 외부 교환기와 연결되는 내부의 교환기(51), 복수의 콜을 분배하는 콜 분배 서버(CTI: computer and telephony integration, 52)와, IVR(Interactive Voice Response) 서버(53)를 포함한다.

내부 교환기(51)는 유무선 통신사의 외부 교환기를 통하여 고객이 소지하고 있는 유무선 통신 단말기에 직접 접속되어 고객이 자신의 유무선 통신 단말기를 통하여, 본 발명의 실시 예에 따른 음성 인식을 통한 정보 제공 서비스를 받을 수 있도록 한다. 콜 분배 서버(52)는 교환기(51)에 접속되며, 전화와 컴퓨터간의 정보 자원 공유뿐만 아니라 그 연결된 장치들의 제어와 기존에 구축되어 있는 정보들과 네트워크를 형성하여 등록된 정보들을 제공한다. 특히 콜 분배 서버(52)는 사용자 단말기(300)로부터 콜 연결 요청이 입력되면, 상기 사용자 단말기(300)를 다수의 IVR 서버 중 하나의 IVR 서버로 연결시키며, IVR 서버(53)는 정해진 시나리오 서비스에 따른 음성 안내 멘트를 사용자 단말기(300)로 제공하여 사용자가 원하는 정보를 요청하도록 한다. 이를 위하여, IVR 서버(53)는 다수의 안내 멘트 및 제공할 정보를 음성화한 음성 정보 데이터를 저장 관리하며, 사용자 단말기와의 콜이 연결되면 저장된 안내 멘트를 재생시켜 출력한다. 이외에도 상담원 단말기(40)로부터 제공되는 사용자 요청에 대응하는 정보를 음성으로 제공하거나 또는 문자, 영상 등의 복합매체 데이터로 처리하여 사용자 단말기(300)로 제공한다. 특히 본 발명의 실시 예에서 콜 처리부(50)는 사용자의 요청에 대한 음성 인식이 실패한 경우 상담원 2그룹 단말기(40)와 사용자 단말기(300) 사이에 콜 연결이 이루어지도록 한다. 이 경우 상담원 2그룹에 속한 상담원이 상담원 2그룹 단말기(40)를 통해 직접 사용자와 통화 연결되어 사용자가 요청하는 정보를 직접 청취할 수 있게 된다.

한편, 본 발명의 실시 예에 따른 정보 제공 시스템에는 문자 데이터를 음성으로 변환하는 TTS(Text-to-Speech) 서버(도시되지 않음)가 더 포함될 수 있다.

본 실시 예에서, 각 서버의 구성 요소들이 해당 서버 내에서 동작되도록 도시되었으나, 이에 한정되지 않고 각각 독립적인 서버로서 구현되어 해당 기능을 처리할 수도 있다. 또한, 각 서버 및 서버를 구성하는 구성 요소들은 그 기능에 따라 분류된 것이며, 위에 기술된 바와 같이 분류되는 것으로 한정되지 않는다. 예를 들어, 상담원 관리 서버가 하는 기능을 음성 인식 서버에서 수행하도록 구현할 수 있다.

다음에는 이러한 구조를 토대로 하여 본 발명의 실시 예에 따른 정보 제공 방법에 대하여 설명한다.

사용자는 단말기(300)에서 본 발명의 실시 예에 따른 정보 제공 시스템(100)을 통하여 소정 정보를 제공받기 위하여, 단말기(300)를 소정 키트(kit)에 연결시키거나 또는 핫키(hot key) 등을 눌러서 네트워크 연결을 요청하면, 도 4 및 도 5에 도시되어 있듯이, 단말기(300)의 서비스 제어부(370)는 송수신부(340)를 통하여 네트워크(200)상의 정보 제공 시스템(100)으로의 접속을 시도한다. 접속이 이루어지면 정보 제공 시스템(100)으로부터 서비스 메뉴가 송신되어 단말기(300) 상에 표시될 수 있다.(S100). 이 경우 서비스 메뉴가 단말기에 저장되어 있다가 시스템으로의 접속이 이루어지면 표시될 수도 있으며, 필요에 따라 시스템을 통한 메뉴 업데이트가 이루어진 다음에 표시될 수도 있다.

이후 사용자가 소정 메뉴를 선택하면 단말기(300)의 서비스 제어부(370)는 선택된 메뉴에 해당하는 정보를 정보 제공 시스템(100)으로 전송하면서 서비스를 요청하게 된다(S110). 서비스 요청에 따라 정보 제공 시스템(100)은 사용자 단말기(300)에 대한 인증을 수행한다(S120). 단말기에 대한 인증은 접속시 제공되는 단말기의 식별 번호(예를 들어, 단말기 제조시 부여되는 고유 번호 등)를 토대로 서비스 제공 가능한 회원으로 등록된 사용자인지를 확인할 수 있다. 이러한 인증 과정은 선택적으로 수행될 수 있다.

서비스 요청에 따라 정보 제공 시스템(100)은 도 5에서와 같이, 단말기(300)로 선택된 서비스 메뉴에 따른 사용자 음성 데이터를 전송할 것을 요청한다. 그러면 단말기(300)는 인터페이스부(310)를 통하여 입력되는 사용자의 음성을 처리하여 시스템(100)으로 전송한다(S130∼S140). 즉, 단말기(300)의 음성 신호 처리부(320)는 인터페이스부(310)를 통하여 입력되는 사용자의 음성 신호를 소정 포맷의 스트리밍 음성 데이터로 처리한 후 송수신부(340)를 통하여 시스템(100)으로 전달한다. 이 때 음성 신호 처리부(320)는 입력되는 사용자 음성 신호를 녹취하여 소정 파일로서 저장한다.

위의 과정을 통하여 단말기(300)와 시스템(100) 사이에 스트리밍 음성 데이터 전송이 이루어진다. 이와 같이 사용자 단말기(300)에서 시스템(100)으로 전송되는 음성 데이터가 아날로그 음성 신호 자체가 아니라 시스템(100)에서 음성 인식 처리가 가능하도록 소정의 전처리가 이루어진 상태로 전송되기 때문에, 음성 데이터 전송시 왜곡이 발생되는 것을 방지할 수 있다. 또한 단말기는 전처리를 구현하기 위한 수단만을 포함함으로써, 상기 수단의 구현에 따른 비용 증가, 구조의 복잡화 등의 문제를 방지할 수 있다.

한편 사용자 단말기(300)로부터 전송된 스트리밍 음성 데이터는 음성 인식 서버(10)로 전달되며(S150), 음성 인식 서버(10)는 전달된 스트리밍 음성 데이터에 대한 음성 인식을 수행한다. 구체적으로 도 4에서와 같이, 입력되는 스트리밍 음성 데이터를 복원(디코딩 등) 처리하여 해당하는 음성 데이터를 생성하며(S160), 복원된 음성 데이터에 대하여 음성구간, 즉 음성의 시작점 및 끝점을 추출하고(S170), 추출된 끝점을 토대로 상기 음성 데이터에 대한 음성 인식을 수행한다(S180). 이 때 음성 인식 서버(10)의 음성 인식 엔진(12)은 소정 시나리오에 따른 음성 인식 DB를 검색하여 음성 인식을 수행할 수 있다.

음성 인식 결과 중 하나인 인식 스코어가 미리 정해놓은 기준치 이상인 경우, 서비스 제어부(15)는 음성 인식 결과를 사용하여 정보 검색을 완료한 후(S29), 검색된 정보를 사용자 단말기(300)로 제공한다(S190∼S200)). 이 때, 검색된 정보는 문자, 음성, 그래픽 또는 문자와 그래픽의 복합 형태 등과 같이 다양한 정보로써 사용자에게 제공될 수 있다. 이와 같이 본 발명의 실시 예에 따른 정보 제공 시스템(100)과 사용자 단말기(300) 사이의 정보 송수신이 교환기 등을 통한 음성망을 이용하여 이루어지는 것이 아니라, TCP/IP 망과 같은 데이터 송수신이 이루어지는 데이터망을 통하여 수행됨으로써, 음성 인식에 따른 보다 정확한 정보 제공이 이루어질 수 있다.

한편 음성 인식 처리 결과에 따라 시스템(100)의 정보 제공이 다르게 수행될 수 있다.

음성 인식 결과가 성공적으로 이루어진 경우에는 위에 기술된 바와 같이, 데이터망을 통하여 사용자 단말기(300)로 인식 결과에 따른 정보가 제공된다(S300 ∼S320). 그러나 음성 인식 엔진(12)에 의한 음성 인식 결과가 미리 설정된 기준치보다 작은 경우, 서비스 제어부(15)는 사용자 단말기(300)로 음성 인식 실패를 통보하여 사용자가 다시 응답을 하도록 하여 새로운 음성 데이터를 제공받는다(S330).

이 때 음성 인식 실패를 나타내는 문자나 또는 음성이 사용자 단말기(300)를 통하여 표시되거나 출력되어 사용자는 음성 인식 상태를 확인하게 되며, 이후 음성 입력을 통한 정보 요청을 재시도한다. 이 때 사용자 단말기(300)의 음성 신호 처리부(320)는 재시도에 따라 입력되는 음성 신호를 스트리밍 음성 데이터로 처리하여 전송하면서, 상기 음성 신호를 녹취한 음성 녹취 파일을 함께 전송한다. 그러면 시스템(100)의 음성 인식 서버(10)는 재전송되는 스트리밍 음성 데이터를 음성 인식 처리한다(S340∼S350).

이후 시스템(100)의 서비스 제어부(15)는 상담원 관리 서버(20)를 통하여 상담원 1그룹 단말기(30)들 중에서 하나를 선택하고, 선택된 상담원 단말기로 음성 인식 엔진(12)에서 인식한 인식 단어 목록을 포함하는 문자 정보와 함께 사용자 단말기(300)로부터 전송된 음성 녹취 파일을 제공하여, 상담원 1그룹에 의한 인식이 수행될 수 있도록 한다(SS360). 한편 서비스 제어부(15)는 재응답에 따라 수신된 음성 데이터에 의한 음성 인식 결과가 미리 설정된 기준치보다 작은 경우에만 상담원 1그룹을 위와 같이 호출할 수 있다.

상담원 1그룹 단말기(30)는 음성 인식 엔진(40)으로부터 전송된 인식 단어 목록을 표시하면서 상기 음성 녹취 파일을 재생시켜 출력한다. 따라서, 상담원 1그룹에 속한 상담원은 헤드셋 등을 통하여 녹취 파일을 청취하여 사용자의 음성을 인식한다. 인식 결과 해당 단어가 표시되는 인식 단어 목록에 있으면 이를 선택하고, 없는 경우에는 소정 DB를 검색하여 검색된 결과 단어를 입력한다. 상담원 1그룹 단말기(30)는 상담원 1그룹에 속한 상담원으로부터 인식된 결과 단어가 선택되거나 입력되면 해당 결과를 상담원 관리 서버(20)를 통하여 서비스 제어부(15)로 전송한다. 이후 서비스 제어부(15)는 상담원 1그룹에 의해 음성 인식이 성공적으로 완료된 것으로 판단하여, 인식된 결과를 사용하여 정보 검색을 수행하고 검색된 정보를 사용자 단말기(300)로 제공한다(S370∼S380). 이 때 서비스 제어부(15)가 아니라 상담원 1그룹에 속한 상담원이 직접 인식된 결과 단어에 따라 정보 검색을 수행할 수 있으며, 이 경우 서비스 제어부(15)는 검색된 정보를 단말기(300)로 전달하는 기능만을 수행할 수 있다.

한편, 상기 단계(S370)에서 상담원 1그룹에 의한 인식 결과, 상담원 1그룹에 속한 상담원이 녹취 파일 청취시 고객의 발음 불분명, 주변 소음 등에 의한 고객 음성 판단 불가, 고객의 원하는 정보 부재로 인한 검색 불가 등의 원인으로 인해 실패로 끝난 경우, 서비스 제어부(15)는 콜 처리부(50)를 통하여 해당 사용자의 단말기를 상담원 관리 서버(20)에 의하여 선택되는 소정의 상담원 2그룹 단말기(40)로 직접 연결시킨다(S390). 이에 따라 상담원 2그룹에 속한 상담원이 상담원 2그룹단말기(40)를 통해 직접 사용자와 통화 연결되어 사용자가 요청하는 정보를 직접 청취할 수 있게 된다. 이 때, 상담원 2그룹에 속한 상담원은 사용자와 직접 통화하는 것은 아니고, 콜 처리부(50)의 IVR 서버(53)가 상담원 1그룹에 의한 인식 실패로 인한 서비스 시나리오에 따라 사용자에게 음성 입력을 재요청하는 메시지를 보내고, 그 결과로 고객이 직접 입력하는 음성을 상담원 2그룹 단말기(40)를 통해 청취하여 인식하는 것이다. 즉, 상담원 2그룹 단말기(40)는 사용자로부터 직접 입력되는 음성을 전화기에 연결된 헤드셋 등을 통해 상담원 2그룹에 속한 상담원에게 들려주므로, 상담원 2그룹에 속한 상담원이 사용자와의 직접적인 통화 없이 직접 사용자의 음성을 들을 수 있다. 이 때 사용자 단말기(300)는 일반적인 무선망을 통한 음성 통화시와 동일하게, 사용자의 음성 신호를 시스템(100)으로 전송하며, 이 경우 단말기(300)와 시스템(100) 사이에는 음성망을 통한 신호 송신이 이루어지게 된다.

따라서, 상담원 2그룹에 속한 상담원은 헤드셋 등을 통해 직접 사용자의 음성을 들어서 인식한 후, 사용자가 요청한 정보를 정보 DB(도시하지 않음)를 검색하여 검색된 결과를 입력한다. 이후 상담원 2그룹 단말기(40)는 상담원 2그룹에 속한 상담원으로부터 인식된 결과가 입력되면 해당 결과를 IVR 서버(53)로 전송하고, IVR 서버(53)는 상담원 2그룹에 의해 음성 인식이 성공적으로 완료된 것으로 판단(S27)하여, 정보 검색을 수행하고 검색된 정보를 교환기(10)를 통해 사용자에게 제공한다(S400).

다음에는 이와 같이 수행되는 본 발명의 실시 예에 따른 정보 제공 방법이 실제로 어떻게 적용되는지를 예를 들어 설명한다.

도 7 및 도 8은 본 발명의 실시 예에 따른 정보 제공 방법이 적용되는 과정의 예시도이다. 즉, 도 7은 사용자 즉, 고객이 서울에서 소정 목적지 예를 들어 코엑스를 찾아가는 길에 대한 정보를 제공받고자 하는 경우, 본 발명의 실시 예에 따른 정보 제공 시스템과 연계하여 사용자 단말기 상에 표시되는 화면들을 나타낸 예시도이다.

첨부한 도 7에 예시되어 있듯이, 사용자가 시스템(100)으로부터 제공되는 <초기 메뉴 화면> 중에서 "음성 찾기" 의 메뉴를 선택하면, 시스템(100)은 단말기(300)로 음성 데이터 전송을 요청한다. 이에 따라 단말기(300) 상에 <음성 입력 화면>이 표시되며, 사용자는 찾고자 하는 목적지명을 음성으로 입력한다.

사용자가 목적지명을 음성으로 입력하면, 단말기(300)는 입력되는 음성 신호를 처리하여 스트리밍 음성 데이터를 생성하며, 이에 대응하는 목적지명이 도 7의 <시/도명 입력 화면>과 같이 화면 상에 표시되어 사용자가 확인할 수 있도록 한다.

이후 단말기(300)는 사용자 확인이 이루어진 목적지명인 <서울시, 코엑스>에 해당하는 스트리밍 음성 데이터를 시스템(100)으로 전송하며, 시스템(100)은 위에 기술된 바와 같이 복원 처리, 끝점 검출, 그리고 음성 인식 처리를 수행하여 사용자가 입력한 목적지명이 무엇인지를 인식한다. 이 경우 성공적으로 음성 인식이 이루어지거나 또는 음성 인식이 실패하여 상담원 1그룹 또는 상담원 2그룹과 연결된 다음의 음성 인식이 이루어지면, 도 7의 <길안내 초기 화면>과 같이 음성 인식 결과에 해당하는 정보가 단말기(300)로 제공되어 표시되어, 사용자가 확인할 수 있도록 한다. 이와는 달리 상기 전송된 정보는 음성 데이터로 처리되어 예를 들어 "코 엑스는 삼성역에서 영동 대교 방면으로 50m 진행하시면 됩니다. 전화번호는 02-XXXX-OOOO입니다" 라는 음성으로 출력될 수도 있다.

반면, 음성 인식이 실패한 경우 도 8의 <인식 실패 화면>과 같이 "음성 인식 실패" 및 "죄송합니다. 다시 한번 시도하여 주십시오"라는 정보가 출력되거나 안내 멘트가 출력되어, 고객이 시스템의 음성 인식 상태를 확인하게 된다. 이후 위의 시나리오와 같은 과정을 통하여 고객이 재응답한 목적지명 또는 서비스 메뉴명에 해당하는 정보 제공이 이루어진다.

이러한 본 발명에 따른 정보 제공은 무선 환경에서의 정보 제공에만 한정되지 않으며, 그 기술적 요지를 벗어나지 않는 범위에서 다양하게 변형 및 변경 실시할 수 있다.

비록, 본 발명이 가장 실제적이며 바람직한 실시 예를 참조하여 설명되었지만, 본 발명은 상기 개시된 실시 예에 한정되지 않으며, 후술되는 특허청구범위 내에 속하는 다양한 변형 및 등가 물들도 포함한다.

이상 설명한 바와 같이, 본 발명의 실시 예에 따르면, 음성 인식을 이용한 정보 제공시에, 사용자 단말기에서 음성 인식 처리가 가능하도록 입력되는 사용자의 음성 신호를 전처리 한 후 전송함으로써, 음성 데이터 전송시 왜곡이 발생되는 것을 방지할 수 있다. 따라서 무선 환경에서 보다 효율적으로 음성 인식을 수행하여 사용자들의 단말기로 요청된 정보를 정확하게 제공할 수 있다.

또한 사용자 단말기는 전처리를 구현하기 위한 수단만을 포함함으로써, 상기 수단의 구현에 따른 비용 증가, 구조의 복잡화 등의 문제를 방지할 수 있다. 그 결과 단말기의 처리 부하는 감소시키면서 시스템을 통한 음성 인식이 왜곡 없이 수행된다.

또한 시스템의 음성 인식 상태를 단말기 상에 표시함으로써, 사용자가 용이하게 상기 음성 인식 상태를 확인할 수 있다.

Claims

네트워크를 통하여 적어도 하나 이상의 사용자 단말기 및 상담원 단말기에 연결되어 있는 시스템에서, 상기 사용자 단말기로부터의 요청에 따라 정보를 제공하는 방법에서,

a) 상기 사용자 단말기를 통하여 정보 제공 요청이 있는 경우, 상기 시스템이 상기 사용자 단말기로부터 상기 요청에 따른 스트리밍 음성 데이터를 수신하는 단계

b) 상기 시스템이 상기 스트리밍 음성 데이터를 복원 처리하여 음성 데이터를 생성하는 단계

c) 상기 시스템이 상기 음성 데이터에 대한 끝점 검출을 수행하는 단계

d) 상기 시스템이 상기 검출된 끝점을 토대로 상기 음성 데이터에 대한 음성 인식 처리를 수행하는 단계 및

e) 상기 시스템이 음성 인식 결과에 따라 해당하는 정보를 찾아서 상기 사용자 단말기로 전송하는 단계

를 포함하는 정보 제공 방법.
제1항에 있어서

상기 사용자 단말기는 사용자의 아날로그 음성 신호를 디지털 신호로 변환하고 압축한 후, 소정 포맷의 전송 가능한 스트리밍 음성 데이터를 생성하여 상기 시 스템으로 전송하는 정보 제공 방법.
제1항 또는 제2항에 있어서

상기 상담원 단말기는 1그룹 단말기와 2그룹 단말기로 나뉘어지고,

상기 e) 단계는

상기 시스템이 음성 인식 처리 결과가 미리 설정된 기준치보다 작은 경우, 하나의 1그룹 단말기로 상기 사용자 단말기로부터 전송된 음성 녹취 파일과 음성 인식 결과에 따른 인식 단어 목록을 포함하는 문자 정보를 전달하는 단계

상기 1그룹 단말기에서 상기 문자 정보와 상기 음성 녹취 파일을 토대로 수행된 인식 결과에 따른 정보를 찾아서 상기 사용자 단말기로 전송하는 단계

를 더 포함하는 정보 제공 방법.
제3항에 있어서

상기 시스템이 상기 1그룹 단말기에 의해서도 인식이 실패한 경우, 상기 하나의 2그룹 단말기를 상기 사용자 단말기와 통화 연결시키는 단계를 더 포함하고,

상기 2그룹 단말기는 상기 사용자 단말기로부터 제공되는 음성 신호를 토대로 사용자의 요청을 인식하여 해당 정보를 상기 사용자 단말기로 제공하는 정보 제공 방법.
제3항에 있어서

상기 음성 인식 처리 결과가 실패한 경우, 상기 음성 인식 처리 결과를 문자, 음성, 영상 그리고 복합매체 정보 중 적어도 하나의 형태로 가공 처리하여 상기 사용자 단말기로 제공하는 단계를 더 포함하는 정보 제공 방법.
제1항에 있어서

상기 사용자 단말기와 시스템 사이의 스트리밍 음성 데이터는 상기 네트워크 상의 데이터망을 통하여 송수신되는 정보 제공 방법.
네트워크를 통하여 적어도 하나 이상의 사용자 단말기 및 상담원 단말기에 연결되어, 상기 사용자 단말기로부터의 요청에 따라 정보를 제공하는 시스템에서,

상기 사용자 단말기로부터 정보 제공 요청에 따라 전송되는 스트리밍 음성 데이터를 수신하고 소정 처리하여 음성 데이터를 생성하는 음성 처리부

상기 생성된 음성 데이터에 대하여 끝점 검출을 수행하는 끝점 검출부

상기 검출된 끝점을 토대로 상기 음성 데이터에 대한 음성 인식 처리를 수행하는 음성 인식 엔진 및

상기 시스템이 음성 인식 결과에 따라 해당하는 정보를 찾아서 상기 사용자 단말기로 전송하는 서비스 제어부

를 포함하는 정보 제공 시스템.
제7항에 있어서,

상기 상담원 단말기는 1그룹 단말기와 2그룹 단말기로 나뉘어지고,

상기 1그룹 또는 2그룹 단말기 중에서 상기 사용자 단말기로부터의 정보 제공 요청에 응답할 단말기를 선택하는 상담원 관리 서버를 더 포함하는 정보 제공 시스템.
제8항에 있어서,

상기 음성 인식 처리 결과가 미리 설정된 기준치보다 작은 경우, 상기 선택되는 하나의 1그룹 단말기가 상기 사용자 단말기로부터 전송된 음성 녹취 파일과 음성 인식 결과에 따른 인식 단어 목록을 포함하는 문자 정보를 토대로, 상담원을 통한 음성 인식을 수행하는 정보 제공 시스템.
제9항에 있어서,

상기 1그룹 단말기에 의해서도 인식이 실패한 경우, 상기 하나의 2그룹 단말기를 상기 사용자 단말기와 통화 연결시키는 콜 처리부를 더 포함하는 정보 제공 시스템.
제10항에 있어서,

상기 콜 처리부는

상기 사용자 단말기와 2그룹 단말기 사이의 콜을 연결시키는 콜 분배 서버 및

상기 콜이 연결된 사용자 단말기로부터 제공되는 음성 신호를 상기 2그룹 단말기로 전송하고, 상기 2그룹 단말기로부터 제공되는 응답 정보를 상기 사용자 단말기로 제공하는 응답 처리 서버

를 포함하는 정보 제공 시스템.
제7항 내지 제11항 중 어느 한 항에 있어서

상기 사용자 단말기는

사용자 음성 신호를 출력하는 인터페이스부

상기 음성 신호를 스트리밍 음성 데이터로 처리하는 음성 신호 처리부

상기 스트리밍 음성 데이터를 상기 네트워크를 통하여 상기 시스템으로 전송하고, 상기 시스템으로부터 전송되는 신호를 수신하는 송수신부

상기 시스템으로부터 전송되는 음성 인식 처리 결과, 시스템으로부터 전송된 정보를 포함하는 처리 정보를 표시하는 디스플레이부

를 포함하는 정보 제공 시스템.
제12항에 있어서

상기 음성 신호 처리부는 사용자의 아날로그 음성 신호를 디지털 신호로 변환하고 압축한 후, 소정 포맷의 전송 가능한 스트리밍 음성 데이터를 생성하여 상기 시스템으로 전송하는 정보 제공 시스템.