KR20240048802A

KR20240048802A - 치안현장 지원을 위한 단말내장형 음성인식 장치 및 그 방법

Info

Publication number: KR20240048802A
Application number: KR1020220128564A
Authority: KR
Inventors: 김용준; 이기석
Original assignee: 한국전자통신연구원
Priority date: 2022-10-07
Filing date: 2022-10-07
Publication date: 2024-04-16

Abstract

본 발명은 치안현장 지원을 위한 단말내장형 음성인식 장치 및 그 방법에 관한 것이다. 본 발명에 따른 단말내장형 음성인식 장치는, 제1 음성을 기초로 음성인식 모델을 이용하여 발화 텍스트를 생성하는 음성인식 모듈과, 상기 발화 텍스트를 발화 모델에 입력하여 인텐트와 엔티티를 추출하고, 상기 인텐트와 상기 엔티티를 기초로 지식데이터 DB에서 답변 데이터를 추출하며, 상기 답변 데이터를 기초로 답변 텍스트를 생성하는 대화의도 분석 및 지식데이터 모듈과, 상기 답변 텍스트를 기초로 제2 음성을 생성하는 음성합성 모듈을 포함한다.

Description

치안현장 지원을 위한 단말내장형 음성인식 장치 및 그 방법{BUILT-IN TYPE SPEECH RECOGNITION APPARATUS FOR PORTABLE TERMINAL TO SUPPORT ON-SITE POLICE OFFICER AND METHOD THEREOF}

본 발명은 치안현장 담당관이 현장에서 발생하는 다양한 상황에 대한 대응 매뉴얼을 확인하는 것을 지원하기 위한, 지식데이터와 연동되는 단말내장형 음성인식 장치와 그 방법에 대한 것이다.

최근 음성인식 기술의 동향을 살펴보면, 음성 인식률을 높이기 위해 칼디(Kaldi)라는 음성인식 및 신호처리 오픈소스 툴킷이 활용되고 있으며, 종단형(End-to-End) 음성인식 모델이 도입되고 있다. 그런데, 음성인식 모델을 생성하기 위해서는 음성데이터와, 음성데이터를 텍스트로 작성한 전사데이터가 많이 필요하므로 상당히 많은 시간과 비용이 소요되는 문제가 있다. 또한 음성인식을 진행하기 위해 많은 컴퓨팅 파워가 필요하기에 고성능 서버에서 음성인식을 진행하고 있다. 따라서, 현재 대부분의 음성인식 서비스들은 단말에서 음성을 입력받고, 음성데이터를 서버로 전송하며, 서버에서 음성인식 결과를 전송받는 형태로 진행된다. 이 경우, 비네트워크 환경이나 네크워크 연결이 불안정한 상황에서는 음성인식이 원활하게 이루어지기 어려운 문제가 있다.

그러나, 최근에는 음성인식 모델 경량화를 통해 음성인식 엔진이 로우-컴퓨팅 환경에서도 동작할 수 있도록 연구가 진행되고 있다. 비네트워크 및 로우-컴퓨팅 환경에서도 동작이 가능하다는 것은 특정 도메인에 특화된 음성인식 모델을 생성할 수 있음을 의미한다. 즉, 경량화된 음성인식 모델을 활용하여 도메인에 특화된 다양한 음성인식 엔진 기능 서비스를 제공할 수 있다.

음성인식뿐만 아니라, 챗봇을 위한 기술 개발도 활발히 진행되고 있다. 과거에는 단일 문장에 대해서 키워드를 추출해서 사전에 정해진 답변을 하는 형태이거나, 딥러닝 통해 생성한 언어 모델을 통해 새롭게 생성한 답변을 제공하는 방식으로 챗봇이 동작하였다. 하지만, 최근에는 위와 같은 싱글턴(Single-Turn) 기반의 챗봇 기술보다 멀티턴(Multi-Turn) 기반의 챗봇 기술이 활발히 연구되고 있다. 특정한 주제에 대해서 대화가 계속 이어지는 멀티턴 시나리오를 위해 슬롯 필링(Slot-Filling) 또는 내로우다운(Narrow-Down) 같은 방법도 사용했었지만, 현재는 챗봇과의 대화에서 주제가 계속 이어지도록 하기 위해 대화 의도에 해당하는 인텐트(Intent)와 의도 대상을 지칭하는 엔티티(Entity)를 추출하고 분석하는 방법이 사용되기도 한다.

치안현장 담당관은 매우 다양한 상황을 접할 수 있으며, 해당 상황에 적합한 매뉴얼을 숙지하지 못했을 때 대응이 곤란한 경우가 발생할 수 있다. 본 발명은 치안현장 담당관이 직면한 다양한 상황에 대한 매뉴얼을 신속하게 확인할 수 있도록 하고, 긴급한 현장 상황에서 손을 이용한 검색 대신에 음성을 이용하여 매뉴얼을 확인할 수 있도록 하기 위하여, 지식데이터와 연동된 단말내장형 음성인식 장치와 그 방법을 제공하는 것을 그 목적으로 한다.

본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

본 발명의 일 실시예에 따른 단말내장형 음성인식 장치는, 제1 음성을 기초로 음성인식 모델을 이용하여 발화 텍스트를 생성하는 음성인식 모듈; 상기 발화 텍스트를 발화 모델에 입력하여 인텐트와 엔티티를 추출하고, 상기 인텐트와 상기 엔티티를 기초로 지식데이터 DB에서 답변 데이터를 추출하며, 상기 답변 데이터를 기초로 답변 텍스트를 생성하는 대화의도 분석 및 지식데이터 모듈; 및 상기 답변 텍스트를 기초로 제2 음성을 생성하는 음성합성 모듈을 포함한다.

본 발명의 일 실시예에서, 상기 음성인식 모듈은, 시동어 인식 모델을 이용하여 상기 제1 음성 중 시동어에 해당하는 음성을 감지하고, 상기 시동어에 해당하는 음성의 감지 시점을 음성인식 시작 시점으로 설정하는 시동어 인식부; 및 상기 음성인식 시작 시점 이후에, 상기 제1 음성을 기초로 음성인식 모델을 이용하여 상기 발화 텍스트를 생성하는 음성인식부를 포함할 수 있다.

본 발명의 일 실시예에서, 상기 대화의도 분석 및 지식데이터 모듈은, 상기 발화 텍스트를 상기 발화 모델에 입력하여 상기 인텐트와 상기 엔티티를 추출하는 인텐트/엔티티 분석부; 및 상기 인텐트 및 상기 엔티티 중 적어도 어느 하나 또는 이들의 조합을 검색키로 삼아 상기 지식데이터 DB에서 상기 답변 데이터를 추출하며, 상기 답변 데이터를 기초로 상기 답변 텍스트를 생성하는 답변 생성부를 포함할 수 있다.

본 발명의 일 실시예에서, 상기 음성합성 모듈은, 상기 답변 텍스트에 대한 언어처리를 수행하여 상기 답변 텍스트를 소정의 문법 단위로 구분하는 언어 처리부; 상기 문법 단위로 구분된 답변 텍스트의 각 문법 단위에 부합하는 단위 음원을 단위 음원 DB에서 추출하는 단위 음원 선택부; 및 상기 단위 음원을 조합하여 상기 제2 음성을 생성하는 음원 합성부를 포함할 수 있다.

본 발명의 일 실시예에서, 상기 답변 텍스트는 요청문(request)의 형태를 가질 수 있다.

그리고, 본 발명의 일 실시예에 따른 음성인식 및 음성합성 방법은, 제1 음성을 기초로 음성인식 모델을 이용하여 발화 텍스트를 생성하는 발화음성 인식 단계; 상기 발화 텍스트를 발화 모델에 입력하여 인텐트와 엔티티를 추출하는 인텐트/엔티티 분석 단계; 상기 인텐트와 상기 엔티티를 기초로 지식데이터 DB에서 답변 데이터를 추출하며, 상기 답변 데이터를 기초로 답변 텍스트를 생성하는 답변 텍스트 생성 단계; 및 상기 답변 텍스트를 기초로 제2 음성을 생성하는 음성합성 단계를 포함한다.

본 발명의 일 실시예에서, 상기 발화음성 인식 단계는, 시동어 인식 모델을 이용하여 상기 제1 음성 중 시동어에 해당하는 음성을 감지하고, 상기 시동어에 해당하는 음성의 감지 시점을 음성인식 시작 시점으로 설정하는 단계; 및 상기 음성인식 시작 시점 이후에, 상기 제1 음성을 기초로 음성인식 모델을 이용하여 상기 발화 텍스트를 생성하는 단계를 포함할 수 있다.

본 발명의 일 실시예에서, 상기 답변 텍스트 생성 단계는, 상기 인텐트 및 상기 엔티티 중 적어도 어느 하나 또는 이들의 조합을 검색키로 삼아 상기 지식데이터 DB에서 상기 답변 데이터를 추출하고, 상기 답변 데이터를 기초로 상기 답변 텍스트를 생성하는 것일 수 있다.

본 발명의 일 실시예에서, 상기 음성합성 단계는, 상기 답변 텍스트에 대한 언어처리를 수행하여 상기 답변 텍스트를 소정의 문법 단위로 구분하는 단계; 상기 문법 단위로 구분된 답변 텍스트의 각 문법 단위에 부합하는 단위 음원을 단위 음원 DB에서 추출하는 단계; 및 상기 단위 음원을 조합하여 상기 제2 음성을 생성하는 단계를 포함할 수 있다.

치안현장 담당관은 본 발명에 따른 단말내장형 음성인식 장치 및 방법을 통하여, 다양한 치안환경에서 음성으로 대응 방법을 질의하고, 음성으로 대응 방법을 안내받을 수 있다. 가령 네트워크가 동작하지 않는 특수한 환경에서도 음성인식 및 대응 매뉴얼이 단말에 내장되었기 때문에 두 손을 쓰지 않고도 적합한 답변을 확인할 수 있다. 특히, 급박한 치안환경에서 양손이 자유롭지 못할 때, 치안현장 담당관은 본 발명에 따른 장치를 이용하여 음성으로 대응 방법을 질의하여 답변을 받을 수 있다.

한편, 본 발명에 따른 단말내장형 음성인식 장치 및 방법은 치안환경뿐만 아니라, 양손이 자유롭지 않는 다양한 산업군에서 유용하게 사용될 수 있다.

본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 치안현장 지원을 위한 단말내장형 음성인식 장치의 구성을 나타낸 블록도.
도 2는 본 발명의 일 실시예에 따른 음성인식 장치에 포함되는 음성인식 모듈의 구성을 나타낸 블록도.
도 3은 본 발명의 일 실시예에 따른 음성인식 장치에 포함되는 대화의도 분석 및 지식데이터 모듈의 구성을 나타낸 블록도.
도 4는 본 발명의 일 실시예에 따른 음성인식 장치에 포함되는 음성합성 모듈의 구성을 나타낸 블록도.
도 5는 본 발명의 일 실시예에 따른 음성인식 및 음성합성 방법을 설명하기 위한 흐름도.
도 6은 본 발명의 실시예에 따른 방법을 구현하기 위한 컴퓨터 시스템을 나타낸 블록도.

본 발명은 다음과 같은 기술을 활용한다.

[1] 단말내장형 음성인식 기술

[2] 대화의도 분석 기술

[3] 지식데이터 검색 기술

[4] 상황 대응 매뉴얼을 치안현장 담당관에게 전달하기 위한 음성합성 기술

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

이하, 본 발명의 실시예를 첨부한 도면들을 참조하여 상세히 설명한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면 번호에 상관없이 동일한 수단에 대해서는 동일한 참조 번호를 사용하기로 한다.

도 1은 본 발명의 일 실시예에 따른 치안현장 지원을 위한 단말내장형 음성인식 장치의 구성을 나타낸 블록도이다.

본 발명의 일 실시예에 따른 치안현장 지원을 위한 단말내장형 음성인식 장치(10, 이하 '단말내장형 음성인식 장치'로 약칭)은 음성인식 모듈(100), 대화의도 분석 및 지식데이터 모듈(200) 및 음성합성 모듈(300)을 포함하며, 업데이트 모듈(400)을 더 포함할 수 있다.

도면에 도시하지 않았으나, 단말내장형 음성인식 장치(10)는 사용자(예: 치안현장 담당관)의 단말(1, 이하 '단말'로 약칭)에 내장될 수 있다. 따라서, 비네트워크 환경(단말이 네트워크에 연결되지 않는 상황을 말함)에서도 단말내장형 음성인식 장치(10)는 사용자의 발화 음성을 인식하고, 대화 의도를 분석하고, 답변 음성을 합성하여 출력할 수 있다.

음성인식 모듈(100)은 제1 음성(31, 사용자의 발화 음성)을 기초로 음성인식 모델을 이용하여 발화 텍스트(32)를 생성한다.

대화의도 분석 및 지식데이터 모듈(200)은 발화 텍스트(32)를 발화 모델에 입력하여 인텐트와 엔티티를 추출하고, 인텐트와 엔티티를 기초로 치안현장 지식데이터 DB(230, 이하 '지식데이터 DB')에서 답변 데이터를 추출하며, 답변 데이터를 기초로 답변 텍스트(33)를 생성한다.

음성합성 모듈(300)은 답변 텍스트(33)를 기초로 제2 음성(34, 사용자의 발화에 대응하는 합성된 음성)을 생성한다.

음성인식 모듈(100), 대화의도 분석 및 지식데이터 모듈(200) 및 음성합성 모듈(300)에 대해서는 도 2 내지 도 4를 참조하여 상세히 후술한다.

한편, 업데이트 모듈(400)은 음성인식 모듈(100), 대화의도 분석 및 지식데이터 모듈(200) 및 음성합성 모듈(300)이 사용하는 모델이나 데이터를 업데이트할 수 있다. 단말내장형 음성인식 장치(10)를 포함하는 단말(1)에 대한 소유권을 가진 기관에서는 단말(1)을 위한 운영서버(20)를 운영할 수 있다. 단말(1)에 내장된 단말내장형 음성인식 장치(10)의 기능은 지속적으로 업데이트할 필요가 있다. 따라서 운영서버(20)는 단말내장형 음성인식 장치(10)와 유선 통신 또는 무선 통신을 통하여 단말내장형 음성인식 장치(10)가 사용하는 모델(예: 음성인식 모델)이나 데이터(예: 치안현장 지식데이터)를 지속적으로 업데이트한다. 운영서버(20)는 단말(1)의 업데이트 모듈(400)에 유선 네트워크 또는 무선 네트워크을 통해 접속하여 새로운 음성인식 모델이나 지식 데이터 등을 전송하며, 업데이트 모듈(400)은 단말내장형 음성인식 장치(10)에 포함된 각 모듈(100, 200, 300)에 내장된 각종 모델 및 데이터를 업데이트할 수 있다.

도 2는 본 발명의 일 실시예에 따른 음성인식 장치에 포함되는 음성인식 모듈의 구성을 나타낸 블록도이다.

음성인식 모듈(100)은 시동어 인식부(110), 음성인식 시작 버튼(120), 시작 신호 수신부(130) 및 음성인식부(140)를 포함한다. 음성인식 모듈(100)은 학습부(150)를 더 포함할 수 있다. 음성인식 모듈(100)은 치안현장 담당관의 발화 음성(31)을 입력받고, 발화 음성(31)을 기초로 음성 인식 모델을 이용하여 발화 텍스트(32)를 생성한다.

시동어 인식부(110)는 시동어 인식 모델을 이용하여 발화 음성(31) 중 시동어에 해당하는 음성을 감지하면, 시동어 감지 시점(時點)을 음성인식 시작 시점(時點)으로 설정하고, 발화 음성(31)을 음성인식부(140)가 처리하도록 한다. 따라서 시동어 감지 시점 이후에는 음성인식부(140)가 발화 음성(31)을 기초로 음성인식 모델을 이용하여 발화 텍스트(32)를 생성한다. 참고로, 시동어(Wake-Up-Word)는 음성인식이 시작되도록 하는 기준이 되는 단어/어구로서, 통상 3음절 이상의 단어/어구가 시동어로 사용된다.

다른 예로, 음성인식 모듈(100)은 시동어 인식부(110) 대신 음성인식 시작 버튼(120) 및 시작 신호 수신부(130)를 이용하여 음성인식을 시작할 수 있다. 이 경우, 사용자가 음성인식 시작 버튼(120)을 누르면, 음성인식 시작 버튼(120)은 시작 신호를 시작 신호 수신부(130)에 전달하고, 시작 신호 수신부(130)는 수신된 시작 신호를 음성인식부(140)에 전달한다. 음성인식 시작 버튼(120)이 눌러진 시점 이후, 음성인식부(140)가 발화 음성(31)을 기초로 음성인식 모델을 이용하여 발화 텍스트(32)를 생성한다.

예를 들어, 음성인식 모듈(100)은 단말(1)에 부착된 물리적인 음성인식 시작 버튼(120)을 클릭하여 음성인식 시점을 정할 수 있다. 사용자가 음성인식 시작버튼을 누르면, 음성인식 시작 버튼(120)은 압력을 음성인식 모듈(100)에서 인식할 수 있는 전기신호로 변환하여 시작 신호 수신부(130)에 전달하고, 시작 신호 수신부(130)는 전기신호 형태의 시작 신호를 음성인식부(140)에 전달하여 음성인식을 시작하도록 제어한다.

음성인식부(140)는 외부에서 음성인식 모듈(100)에 입력된 발화 음성(31)에 있는 반향 및 잡음을 제거하고, 반향 및 잡음이 제거된 음성을 음성인식 모델에 입력하여 발화 텍스트(32)를 생성한다. 발화 텍스트(32)는 음성인식 모듈(100)에 입력된 발화 음성(31)에 가장 유사한 텍스트 결과물이다. 음성인식부(140)는 발화 텍스트(32)를 대화의도 분석 및 지식데이터 모듈(200)에 전달한다.

음성인식 모듈(100)은 기 학습된 시동어 인식 모델과 음성인식 모델을 사용할 수도 있고, 학습부(150)를 통해 시동어 인식 모델과 음성인식 모델을 생성한 후, 생성된 시동어 인식 모델과 음성인식 모델을 사용할 수도 있다.

음성인식 모듈(100)은 시동어 인식 모델과 음성인식 모델을 구분하여 운용한다. 음성인식 모델은 일반적으로 용량이 크고, 동작에 있어서 많은 리소스를 점유하며, 시동어 인식 모델에 비해 상대적으로 긴 처리 시간을 필요로 한다. 음성 인식 모델을 항시 동작시키는 것은 비효율적이므로, 음성인식 모듈(100)은 시동어 인식부(110)를 통해 용량이 작고, 적은 리소스를 요구하는 시동어 인식 모델을 항시 동작시키고, 시동어가 인식되면 음성인식부(140)가 음성 인식 모델을 동작하도록 제어한다.

도면에는 학습부(150)가 도시되지 않았으나, 학습부(150)가 치안현장 음성데이터와 치안현장 전사데이터를 기초로 음향/언어모델을 학습하여 시동어 인식 모델과 음성인식 모델을 생성하는 과정을 아래에 설명한다.

학습부(150)는 치안현장 음성데이터(이하 '음성데이터')와 치안현장 전사데이터(이하 '전사데이터)를 입력받고, 치안현장 음성데이터의 반향 및 잡음을 제거한 후, 음성데이터에서 음성 부분만 추출한다. 학습부(150)는 추출된 음성과 전사데이터를 기초로 음향/언어모델에 대한 딥러닝 음성인식 알고리즘 학습을 진행하여, 그 결과물로 치안현장에 특화된 음성인식 모델을 생성한다.

또한, 학습부(150)는 치안현장 음성데이터 대신 시동어(Wake-Up-Word)에 대한 음성데이터와 시동어의 전사데이터를 입력받고, 상술한 과정을 반복하여 시동어 인식모델을 생성한다.

학습부(150)는 시동어 인식 모델을 시동어 인식부(110)에 전달하며, 음성인식 모델을 음성인식부(140)에 전달한다.

음성인식 모듈(100)은 전술한 대로 시동어 입력에 따라 음성인식 시점을 설정할 수 있다. 만약, "치안디비"라는 시동어를 기초로 학습을 통해 시동어 인식 모델이 생성되었다면, 치안현장 담당관은 단말내장형 음성인식 장치(10)를 포함한 단말(1)에 "치안디비" 라는 시동어를 발화함으로써 음성인식 시점을 정할 수 있다.

도 3은 본 발명의 일 실시예에 따른 음성인식 장치에 포함되는 대화의도 분석 및 지식데이터 모듈의 구성을 나타낸 블록도이다.

대화의도 분석 및 지식데이터 모듈(200)은 발화 텍스트(32)를 발화 모델에 입력하여 인텐트와 엔티티를 추출하고, 인텐트와 엔티티를 기초로 지식데이터 DB(230)에서 답변 데이터를 추출하며, 답변 데이터를 기초로 답변 텍스트(33)를 생성한다.

인텐트/엔티티 분석부(210)는 발화 텍스트(32)를 사전에 설정해 놓은 발화 모델(Utterance Model)에 입력하여 인텐트(Intent, 의도)와 엔티티(Entity, 의도 대상)를 추출한다. 즉, 인텐트/엔티티 분석부(210)는 발화 텍스트(32)에서 인텐트와 엔티티를 추출하여 발화 텍스트(32)에 내포된 대화의도를 분석한다. 예를 들어, 발화 텍스트(32)가 "주취자 체포 방법 알려줘"라면, 인텐트/엔티티 분석부(210)는 발화 텍스트(32)에서 '체포, 방법'이라는 인텐트를 추출할 수 있고, '체포'라는 인텐트와 관련하여 '현행범', '불구속'이라는 엔티티를 추출할 수 있다.

인텐트/엔티티 분석부(210)는 인텐트 및 엔티티를 답변 생성부(220)에 전달한다. 인텐트/엔티티 분석부(210)는 인텐트 및 엔티티와 함께 발화 텍스트(32)를 답변 생성부(220)에 전달할 수 있다.

답변 생성부(220)는 인텐트와 엔티티를 기초로 지식데이터 DB(230)에서 답변 데이터(예:상황별 대응 데이터)를 추출하며, 답변 데이터를 기초로 답변 텍스트(33)를 생성한다. 답변 생성부(220)는 인텐트 및 엔티티와 함께 발화 텍스트(32)를 지식데이터 DB(230) 검색에 활용할 수 있다. 답변 생성부(220)는 인텐트, 엔티티 및 발화 텍스트(32) 중 적어도 어느 하나 또는 이들의 조합을 검색키(key)로 삼아 지식데이터 DB(230)를 검색하여 답변 데이터를 추출할 수 있다. 답변 생성부(220)는 치안현장 지식데이터 DB(230)에서 인텐트 또는 엔티티의 유사어를 검색하고, 검색된 유사어를 검색키로 삼아 지식데이터 DB(230)에서 답변 데이터를 추출할 수도 있다.

지식데이터 DB(230)는 사용자의 예상되는 발화 내용에 대한 답변 데이터가 인텐트와 엔티티와 연동되어 저장되어 있는 데이터베이스이다. 예를 들어, 지식데이터 DB(230)는 치안현장 담당자가 처할 수 있는 다양한 상황에 대응할 수 있는 매뉴얼(상황별 대응 데이터)이 인텐트와 엔티티로 구분되어 정리된 데이터베이스일 수 있다.

답변 생성부(220)는 답변 데이터를 기초로 답변 텍스트(33)를 생성하여 음성합성 모듈(300)에 전달한다. 이때, 답변 텍스트(33)는 인텐트에 부합하는 정보를 포함하고 있는 평서문일 수도 있고, 사용자의 추가적인 발화를 유도하는 요청문(request)의 형태를 가질 수도 있다. 예를 들어, 인텐트가 '주취자 체포'인 경우, 답변 텍스트(33)는 "지속적으로 주취 행위를 하는지 말씀해 주세요." 라는 요청문(request)의 형태일 수도 있다. 답변 생성부(220)가 생성한 답변 텍스트(33)가 요청문(request)의 형태인 경우, 사용자가 추가적으로 발화하게 되므로 동일한 인텐트에 대한 멀티턴이 구현된다.

또한, 지식데이터 DB(230)는 상황 대응 매뉴얼이 시나리오(예:흐름도) 형태로 표현된 데이터를 저장할 수 있다. 답변 생성부(220)는 인텐트, 엔티티, 발화 텍스트(32) 중 적어도 어느 하나 또는 이들의 조합으로 구성된 데이터와 시나리오 형태의 상황 대응 매뉴얼에 기초하여 사용자에게 추가적으로 요구할 정보를 도출하고, 사용자에게 추가적으로 요구할 정보에 기초하여 사용자의 추가적인 발화를 유도하는 요청문(request)의 형태를 가지는 답변 텍스트(33)를 생성할 수 있다. 답변 생성부(220)는 발화 텍스트(32)에서 추출할 수 있는 정보(인텐트와 엔티티를 포함함)에 기반하여 시나리오 형태의 상황 대응 매뉴얼 상에서 궁극적인 대응 방법에 도달하기 위하여 추가적으로 확보해야 할 정보를 사용자에게 추가적으로 요구할 정보로 설정할 수 있다. 사용자에게 추가적으로 요구할 정보는 사용자가 처한 구체적인 상황(예: 대상자의 상태, 태도, 행위)이나 사용자의 현재까지의 조치에 관한 정보(예: 대상자에게 안내한 내용, 물리력 행사 여부, 물리력의 정도)일 수 있다. 답변 생성부(220)는 이전 턴(turn)에서 사용자에게 요구한 정보가 현재 턴(turn)의 발화 텍스트(32)에서 추출한 정보(인텐트와 엔티티를 포함)를 통해 완전히 확보되지 않는 경우, 누락된 정보를 사용자에게 요구할 정보로 설정하고, 사용자에게 요구할 정보에 기초하여 사용자의 추가적인 발화를 유도하는 요청문(request)의 형태를 가지는 답변 텍스트(33)를 생성할 수 있다.

도 4는 본 발명의 일 실시예에 따른 음성인식 장치에 포함되는 음성합성 모듈의 구성을 나타낸 블록도이다.

음성합성 모듈(300)은 언어 처리부(310), 단위 음원 선택부(320), 단위 음원 DB(330) 및 음원 합성부(340)를 포함한다.

언어 처리부(310)는 답변 텍스트(33)에 대한 언어처리를 수행하여 답변 텍스트(33)를 기 설정된 문법 단위(예: 형태소, 어절 등)로 구분한다.

단위 음원 선택부(320)는 문법 단위로 구분된 답변 텍스트(33)를 기초로 답변 텍스트(33)의 각 문법 단위에 부합하는 단위 음원을 단위 음원 DB(330)에서 추출하여, 음원 합성부(340)에 전달한다. 이때, 단위 음원 선택부(320)는 답변 텍스트(33)의 문장 단위별로 단위 음원을 음원 합성부(340)에 전달할 수 있다.

음원 합성부(340)는 단위 음원을 조합하여 음성을 합성한다. 즉, 음원 합성부(340)는 단위 음원을 기초로 합성된 음성(34)을 생성한다.

음원 합성부(340)는 합성된 음성(34)을 스피커를 통해 출력할 수 있다. 음원 합성부(340)는 합성된 음성(34)을 스피커를 통해 출력함으로써 사용자에게 정보를 제공하거나 사용자의 추가적인 발화를 유도한다.

만약, 대화의도 분석 및 지식데이터 모듈(200)이 생성한 답변 텍스트(33)가 요청문(request)의 형태를 가질 경우, 음성합성 모듈(300)이 출력하는 합성된 음성(34)에 의해 사용자는 추가적인 발화를 할 수 있다. 즉, 추가적인 발화 음성(31)이 음성인식 모듈(100)에 제공될 수 있다. 이 경우, 발화 음성(31)의 인식에서 합성된 음성(34)의 출력까지의 과정이 반복될 수 있다. 본 발명의 일 실시예에 따른 단말내장형 음성인식 장치(10)는 동일한 인텐트에 대하여 상기 과정을 반복하여 멀티턴을 구현할 수 있다.

도 5는 본 발명의 일 실시예에 따른 음성인식 및 음성합성 방법을 설명하기 위한 흐름도이다.

본 발명의 일 실시예에 따른 음성인식 및 음성합성 방법은 S510 내지 S550 단계를 포함한다. 다만, S550 단계는 생략될 수 있다.

S510 단계는 발화 음성 인식 단계이다. 본 단계는 단말내장형 음성인식 장치(10)가 사용자(치안현장 담당관)이 발화한 제1 음성(31, '발화 음성'과 동일한 의미임)을 입력받고, 발화 음성(31)을 기초로 음성 인식 모델을 이용하여 발화 텍스트(32)를 생성하는 단계이다. 단말내장형 음성인식 장치(10)는 발화 음성(31) 중 시동어에 해당하는 음성을 감지하면, 시동어 감지 시점(時點)을 음성인식 시작 시점(時點)으로 설정하고, 시동어 감지 시점 이후에는 발화 음성(31)을 기초로 음성인식 모델을 이용하여 발화 텍스트(32)를 생성한다. S510 단계에서 수행되는 상세한 내용은 음성인식 모듈(100)에 관한 설명을 참조하여 이해할 수 있다.

S520 단계는 인텐트/엔티티 분석 단계이다. 본 단계는 단말내장형 음성인식 장치(10)가 발화 텍스트(32)를 발화 모델에 입력하여 인텐트와 엔티티를 추출하는 단계이다. 단말내장형 음성인식 장치(10)는 발화 텍스트(32)를 사전에 설정해 놓은 발화 모델(Utterance Model)에 입력하여 인텐트와 엔티티를 추출한다. S520 단계에서 수행되는 상세한 내용은 대화의도 분석 및 지식데이터 모듈(200)에 관한 설명을 참조하여 이해할 수 있다.

S530 단계는 답변 텍스트 생성 단계이다. 본 단계는 단말내장형 음성인식 장치(10)가 인텐트와 엔티티를 기초로 지식데이터 DB(230)에서 답변 데이터를 추출하며, 답변 데이터를 기초로 답변 텍스트(33)를 생성하는 단계이다. 단말내장형 음성인식 장치(10)는 인텐트와 엔티티를 기초로 지식데이터 DB(230)에서 답변 데이터(예:상황별 대응 데이터)를 추출하며, 답변 데이터를 기초로 답변 텍스트(33)를 생성한다. 단말내장형 음성인식 장치(10)는 인텐트, 엔티티 및 발화 텍스트(32) 중 적어도 어느 하나 또는 이들의 조합을 검색키(key)로 삼아 지식데이터 DB(230)를 검색하여 답변 데이터를 추출할 수 있다. 단말내장형 음성인식 장치(10)는 치안현장 지식데이터 DB(230)에서 인텐트 또는 엔티티의 유사어를 검색하고, 검색된 유사어를 검색키로 삼아 지식데이터 DB(230)에서 답변 데이터를 추출할 수도 있다. 단말내장형 음성인식 장치(10)는 답변 데이터를 기초로 답변 텍스트(33)를 생성한다. 답변 텍스트(33)는 인텐트에 부합하는 정보를 포함하고 있는 평서문일 수도 있고, 사용자의 추가적인 발화를 유도하는 요청문(request)의 형태를 가질 수도 있다. S530 단계에서 수행되는 상세한 내용은 대화의도 분석 및 지식데이터 모듈(200)에 관한 설명을 참조하여 이해할 수 있다.

S540 단계는 음성 합성 단계이다. 본 단계에서 단말내장형 음성인식 장치(10)는 답변 텍스트(33)를 기초로 제2 음성(34, 사용자의 발화에 대응하는 합성된 음성)을 생성한다. 단말내장형 음성인식 장치(10)는 답변 텍스트(33)에 대한 언어처리를 수행하여 답변 텍스트(33)를 기 설정된 문법 단위(예:형태소, 어절 등)로 구분한다. 단말내장형 음성인식 장치(10)는 문법 단위로 구분된 답변 텍스트(33)를 기초로 답변 텍스트(33)의 각 문법 단위에 부합하는 단위 음원을 단위 음원 DB(330)에서 추출하고, 추출한 단위 음원을 조합하여 음성을 합성한다. 즉, 단말내장형 음성인식 장치(10)는 단위 음원을 기초로 제2 음성(34)을 생성한다. S540 단계에서 수행되는 상세한 내용은 음성합성 모듈(300)에 관한 설명을 참조하여 이해할 수 있다.

S550 단계는 출력 단계이다. 단말내장형 음성인식 장치(10)는 합성된 음성(34)을 스피커를 통해 출력함으로써 사용자에게 정보를 제공하거나 사용자의 추가적인 발화를 유도한다. S550 단계에서 수행되는 상세한 내용은 음성합성 모듈(300)에 관한 설명을 참조하여 이해할 수 있다.

만약, S530 단계에서 생성된 답변 텍스트(33)가 요청문(request)의 형태를 가질 경우, S550 단계에서 출력되는 합성된 음성(34)에 의해 사용자는 추가적인 발화를 할 수 있다. 즉, 추가적으로 발화 음성(31)이 단말내장형 음성인식 장치(10)에 제공될 수 있다. 이 경우, S510 단계 내지 S550 단계가 반복될 수 있다. 본 발명의 일 실시예에 따른 음성인식 및 음성합성 방법은 동일한 인텐트에 대하여 S510 단계 내지 S550 단계를 반복하여 멀티턴을 구현할 수 있다.

전술한 음성인식 및 음성합성 방법은 도면에 제시된 흐름도를 참조로 하여 설명되었다. 간단히 설명하기 위하여 상기 방법은 일련의 블록들로 도시되고 설명되었으나, 본 발명은 상기 블록들의 순서에 한정되지 않고, 몇몇 블록들은 다른 블록들과 본 명세서에서 도시되고 기술된 것과 상이한 순서로 또는 동시에 일어날 수도 있으며, 동일한 또는 유사한 결과를 달성하는 다양한 다른 분기, 흐름 경로, 및 블록의 순서들이 구현될 수 있다. 또한, 본 명세서에서 기술되는 방법의 구현을 위하여 도시된 모든 블록들이 요구되지 않을 수도 있다.

한편 도 5를 참조한 설명에서, 각 단계는 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다. 아울러, 기타 생략된 내용이라 하더라도 도 1 내지 도 4의 내용은 도 5의 내용에 적용될 수 있다. 또한, 도 5의 내용은 도 1 내지 도 4의 내용에 적용될 수 있다.

도 6은 본 발명의 실시예에 따른 방법을 구현하기 위한 컴퓨터 시스템을 나타낸 블록도이다.

도 6을 참조하면, 컴퓨터 시스템(1000)은, 버스(1070)를 통해 통신하는 프로세서(1010), 메모리(1030), 입력 인터페이스 장치(1050), 출력 인터페이스 장치(1060), 및 저장 장치(1040) 중 적어도 하나를 포함할 수 있다. 컴퓨터 시스템(1000)은 또한 네트워크에 결합된 통신 장치(1020)를 포함할 수 있다. 프로세서(1010)는 중앙 처리 장치(central processing unit, CPU)이거나, 또는 메모리(1030) 또는 저장 장치(1040)에 저장된 명령을 실행하는 반도체 장치일 수 있다. 메모리(1030) 및 저장 장치(1040)는 다양한 형태의 휘발성 또는 비휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리는 ROM(read only memory) 및 RAM(random access memory)를 포함할 수 있다. 본 기재의 실시예에서 메모리는 프로세서의 내부 또는 외부에 위치할 수 있고, 메모리는 이미 알려진 다양한 수단을 통해 프로세서와 연결될 수 있다. 메모리는 다양한 형태의 휘발성 또는 비휘발성 저장 매체이며, 예를 들어, 메모리는 읽기 전용 메모리(read-only memory, ROM) 또는 랜덤 액세스 메모리(random access memory, RAM)를 포함할 수 있다.

따라서, 본 발명의 실시예는 컴퓨터에 구현된 방법으로서 구현되거나, 컴퓨터 실행 가능 명령이 저장된 비일시적 컴퓨터 판독 가능 매체로서 구현될 수 있다. 한 실시예에서, 프로세서에 의해 실행될 때, 컴퓨터 판독 가능 명령은 본 기재의 적어도 하나의 양상에 따른 방법을 수행할 수 있다.

통신 장치(1020)는 유선 신호 또는 무선 신호를 송신 또는 수신할 수 있다.

또한, 본 발명의 실시예에 따른 방법은 다양한 컴퓨터 수단을 통해 수행될 수 있는 프로그램 명령 형태로 구현되어, 컴퓨터 판독 가능 매체에 기록될 수 있다.

상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은, 본 발명의 실시예를 위해 특별히 설계되어 구성된 것이거나, 컴퓨터 소프트웨어 분야의 통상의 기술자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체는 프로그램 명령을 저장하고 수행하도록 구성된 하드웨어 장치를 포함할 수 있다. 예를 들어, 컴퓨터 판독 가능 기록 매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광 기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 롬(ROM), 램(RAM), 플래시 메모리 등일 수 있다. 프로그램 명령은 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라, 인터프리터 등을 통해 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.

참고로, 본 발명의 실시예에 따른 구성 요소들은 소프트웨어 또는 DSP(digital signal processor), FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)와 같은 하드웨어 형태로 구현될 수 있으며, 소정의 역할들을 수행할 수 있다.

그렇지만 '구성 요소들'은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 각 구성 요소는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다.

따라서, 일 예로서 구성 요소는 소프트웨어 구성 요소들, 객체지향 소프트웨어 구성 요소들, 클래스 구성 요소들 및 태스크 구성 요소들과 같은 구성 요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다.

구성 요소들과 해당 구성 요소들 안에서 제공되는 기능은 더 작은 수의 구성 요소들로 결합되거나 추가적인 구성 요소들로 더 분리될 수 있다.

한편, 흐름도 도면들의 각 블록과 흐름도 도면들의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수 있음을 이해할 수 있을 것이다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 흐름도 블록(들)에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 흐름도 블록(들)에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.

또한, 각 블록은 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실행 예들에서는 블록들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.

본 실시예에서 사용되는 '~부' 또는 '~모듈'이라는 용어는 소프트웨어 또는 FPGA또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '~부' 또는 '~모듈'은 어떤 역할들을 수행한다. 그렇지만 '~부' 또는 '~모듈'은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부' 또는 '~모듈'은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부' 또는 '~모듈'은 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다. 구성요소들과 '~부' 또는 '~모듈'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부' 또는 '~모듈'들로 결합되거나 추가적인 구성요소들과 '~부' 또는 '~모듈'들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 '~부' 또는 '~모듈'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

본 발명은 치안현장 담당관이 치안현장에서 발생하는 다양한 상황에 대한 대응 매뉴얼을 신속하게 확인하는 것을 지원하기 위하여 제안된 것이기는 하지만, 치안 분야뿐만 아니라 유통 분야, 의료 분야, 교육 분야 등 음성 인식 기술과 음성 합성 기술이 활용될 수 있는 다양한 분야에 적용될 수 있으므로, 본 발명의 적용 분야에는 제한이 없다.

1: 사용자 단말
10: 단말내장형 음성인식 장치
20: 운영서버
31: 발화 음성
32: 발화 텍스트
33: 답변 텍스트
34: 합성된 음성
100: 음성인식 모듈
110: 시동어 인식부
120: 음성인식 시작 버튼
130: 시작 신호 수신부
140: 음성인식부
150: 학습부
200: 대화의도 분석 및 지식데이터 모듈
210: 인텐트/엔티티 분석부
220: 답변 생성부
230: 치안현장 지식데이터 DB
300: 음성합성 모듈
310: 언어 처리부
320: 단위 음원 선택부
330: 단위 음원 DB
340: 음원 합성부
400: 업데이트 모듈

Claims

제1 음성을 기초로 음성인식 모델을 이용하여 발화 텍스트를 생성하는 음성인식 모듈;
상기 발화 텍스트를 발화 모델에 입력하여 인텐트와 엔티티를 추출하고, 상기 인텐트와 상기 엔티티를 기초로 지식데이터 DB에서 답변 데이터를 추출하며, 상기 답변 데이터를 기초로 답변 텍스트를 생성하는 대화의도 분석 및 지식데이터 모듈; 및
상기 답변 텍스트를 기초로 제2 음성을 생성하는 음성합성 모듈;
을 포함하는 단말내장형 음성인식 장치.
제1항에 있어서, 상기 음성인식 모듈은,
시동어 인식 모델을 이용하여 상기 제1 음성 중 시동어에 해당하는 음성을 감지하고, 상기 시동어에 해당하는 음성의 감지 시점을 음성인식 시작 시점으로 설정하는 시동어 인식부; 및
상기 음성인식 시작 시점 이후에, 상기 제1 음성을 기초로 음성인식 모델을 이용하여 상기 발화 텍스트를 생성하는 음성인식부를 포함하는 것
인 단말내장형 음성인식 장치.
제1항에 있어서, 상기 대화의도 분석 및 지식데이터 모듈은,
상기 발화 텍스트를 상기 발화 모델에 입력하여 상기 인텐트와 상기 엔티티를 추출하는 인텐트/엔티티 분석부; 및
상기 인텐트 및 상기 엔티티 중 적어도 어느 하나 또는 이들의 조합을 검색키로 삼아 상기 지식데이터 DB에서 상기 답변 데이터를 추출하며, 상기 답변 데이터를 기초로 상기 답변 텍스트를 생성하는 답변 생성부를 포함하는 것
인 단말내장형 음성인식 장치.
제1항에 있어서, 상기 음성합성 모듈은,
상기 답변 텍스트에 대한 언어처리를 수행하여 상기 답변 텍스트를 소정의 문법 단위로 구분하는 언어 처리부;
상기 문법 단위로 구분된 답변 텍스트의 각 문법 단위에 부합하는 단위 음원을 단위 음원 DB에서 추출하는 단위 음원 선택부; 및
상기 단위 음원을 조합하여 상기 제2 음성을 생성하는 음원 합성부;를 포함하는 것
인 단말내장형 음성인식 장치.
제1항에 있어서, 상기 답변 텍스트는
요청문(request)의 형태를 가지는 것
인 단말내장형 음성인식 장치.
제1 음성을 기초로 음성인식 모델을 이용하여 발화 텍스트를 생성하는 발화음성 인식 단계;
상기 발화 텍스트를 발화 모델에 입력하여 인텐트와 엔티티를 추출하는 인텐트/엔티티 분석 단계;
상기 인텐트와 상기 엔티티를 기초로 지식데이터 DB에서 답변 데이터를 추출하며, 상기 답변 데이터를 기초로 답변 텍스트를 생성하는 답변 텍스트 생성 단계; 및
상기 답변 텍스트를 기초로 제2 음성을 생성하는 음성합성 단계;
를 포함하는 음성인식 및 음성합성 방법.
제6항에 있어서, 상기 발화음성 인식 단계는,
시동어 인식 모델을 이용하여 상기 제1 음성 중 시동어에 해당하는 음성을 감지하고, 상기 시동어에 해당하는 음성의 감지 시점을 음성인식 시작 시점으로 설정하는 단계; 및
상기 음성인식 시작 시점 이후에, 상기 제1 음성을 기초로 음성인식 모델을 이용하여 상기 발화 텍스트를 생성하는 단계를 포함하는 것
인 음성인식 및 음성합성 방법.
제6항에 있어서, 상기 답변 텍스트 생성 단계는,
상기 인텐트 및 상기 엔티티 중 적어도 어느 하나 또는 이들의 조합을 검색키로 삼아 상기 지식데이터 DB에서 상기 답변 데이터를 추출하며, 상기 답변 데이터를 기초로 상기 답변 텍스트를 생성하는 것
인 음성인식 및 음성합성 방법.
제6항에 있어서, 상기 음성합성 단계는,
상기 답변 텍스트에 대한 언어처리를 수행하여 상기 답변 텍스트를 소정의 문법 단위로 구분하는 단계;
상기 문법 단위로 구분된 답변 텍스트의 각 문법 단위에 부합하는 단위 음원을 단위 음원 DB에서 추출하는 단계; 및
상기 단위 음원을 조합하여 상기 제2 음성을 생성하는 단계를 포함하는 것
인 음성인식 및 음성합성 방법.
제6항에 있어서, 상기 답변 텍스트는
요청문(request)의 형태를 가지는 것
인 음성인식 및 음성합성 방법.