KR20200125034A

KR20200125034A - 음성분석장치 및 음성분석장치의 동작 방법

Info

Publication number: KR20200125034A
Application number: KR1020190048687A
Authority: KR
Inventors: 장석현; 김성왕
Original assignee: 에스케이텔레콤 주식회사
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2020-11-04
Also published as: KR102279319B1

Abstract

본 발명은, 음성 입력에 대한 사용자 발화 의도를 판단하기에 앞서, 음성 입력을 실제 대화 시 대표되는 문장 구조들 중 하나로 구분한 후 문장 구조에 맞는 방식으로 음성 입력의 텍스트 분석 및 사용자 발화 의도를 판단하는 하는 새로운 형태의 대화형 음성 인터페이스를 실현하는 기술을 개시하고 있다.

Description

음성분석장치 및 음성분석장치의 동작 방법{AUDIO ANALYSIS DEVICE AND CONTROL METHOD THEREOF}

본 발명은, 음성을 이용하여 기기를 제어하는 음성 인터페이스에 관한 것으로, 더욱 상세하게는 단순 명령형의 음성 인터페이스 수준에서 벗어나 대화형의 음성 인터페이스를 가능하게 하는 기술에 관한 것이다.

사용자가 발화하는 음성을 이용하여 기기를 제어하는 음성 인터페이스 기술이 발전하고 있으며, 이러한 발전에 힘 입어 최근 가정에는 음성 인터페이스를 기반으로 가정 내 기기를 제어할 수 있는 음성 기반 서비스장치가 설치 및 이용되기도 한다.

음성 인터페이스를 기반으로 가정 내 기기를 제어하는 음성 기반 서비스를 간단히 설명하면, 사용자가 음성으로 명령(입력)하면, 음성 기반 서비스장치는 사용자 발화에 따른 음성 입력을 수신하여 텍스트로 변환한 후, 텍스트에 대한 언어 분석을 통해 사용자 음성 입력의 의도를 파악하고, 그에 따른 제어 동작을 수행하는 방식이다.

헌데, 현재의 음성 인터페이스의 경우, 1회 발화 및 1개 명령으로 제한되는 단순 명령형의 음성 인터페이스 수준에 그치고 있다.

이에, 현재의 음성 인터페이스 기반으로 동작하는 음성 기반 서비스에서는, 사용자가 음성을 발화하는 음성 입력 중 명령을 바꾸고(수정) 싶은 경우가 있더라도 수정할 수 없으며, 이를 수정하기 위해서는 처음부터 다시 발화하여 새롭게 음성으로 명령해야만 제약이 있다.

또한, 현재의 음성 인터페이스 기반으로 동작하는 음성 기반 서비스에서는, 사용자가 음성으로 2 가지 이상의 명령을 한번에 하고 싶은 경우, 1회 발화의 음성 입력으로 2가지 이상 동작을 명령할 수 없기 때문에, 음성 입력으로 진입하기 위한 진입 동작(예: Wake up 음성 명령 또는 Mic 버튼)을 각기 수행하여 2번 이상 발화로 각기 음성 입력을 해야만 하는 불편함이 있다.

또한, 현재의 음성 인터페이스 기반으로 동작하는 음성 기반 서비스에서는, 발화 시작시점부터 발화 종료시점까지의 음성을 음성 입력으로 수신하기 때문에, 사용자가 음성을 발화하여 명령하는 중 잠시 멈추고 싶은 경우, 연속적인 음성 발화가 유지되지 못하므로 정확한 음성 입력이 불가능하여, 음성 인터페이스의 자유도가 낮다는 단점이 있다.

이에, 본 발명에서는, 전술의 제약/불편함/단점들 즉 기존 음성 인터페이스가 갖는 문제점들을 해결할 수 있는, 대화형의 음성 인터페이스를 실현하고자 한다.

본 발명은 상기한 사정을 감안하여 창출된 것으로서, 본 발명에서 해결하고자 하는 과제는, 1회 발화 및 1개 명령으로 제한되는 단순 명령형의 기존 음성 인터페이스 수준에서 벗어나, 대화형의 음성 인터페이스를 실현하고자 한다.

상기 목적을 달성하기 위한 본 발명의 제 1 관점에 따른 음성분석장치는, 사용자에 의해 발화되는 음성 입력을 수신하는 음성수신부; 상기 수신된 음성 입력을 분석하여 상기 음성 입력의 문장 구조를 구분하는 문장구조구분부; 상기 구분된 문장 구조에 따라 상기 음성 입력에 대한 발화 의도를 판단하는 발화의도판단부를 포함한다.

구체적으로, 상기 문장구조구분부는, 문장 구조 판단을 위해 기 정의된 특정 단어가 상기 음성 입력에 포함되는 경우, 상기 음성 입력의 문장 구조를 상기 특정 단어와 매칭되는 문장 구조로 구분할 수 있다.

구체적으로, 상기 문장구조구분부는, 문장 구조 판단을 위해 기 정의된 특정 단어가 상기 음성 입력에 포함되는 경우, 문장 구조 판단을 위해 기 저장된 특정 명칭정보와 매칭된다면 상기 음성 입력의 문장 구조를 단일 의도의 처리를 명령하는 제1 문장 구조로 구분할 수 있다.

구체적으로, 상기 문장구조구분부는, 상기 특정 단어가 상기 음성 입력에 포함되지 않는 경우, 상기 음성 입력의 문장 구조를 단일 의도의 처리를 명령하는 제1 문장 구조로 구분할 수 있다.

구체적으로, 상기 음성 입력의 문장 구조는, 단일 의도의 처리를 명령하는 문장으로 이루어지는 제1 문장 구조, 각 의도의 처리를 명령하는 2 이상의 문장이 특정 단어로 연결되는 제2 문장 구조, 특정 단어로 연결되는 2 이상의 문장 중, 상기 특정 단어 이후의 일부 문장의 의도 처리 만을 명령하는 제3 문장 구조, 문장의 가장 마지막에 특정 단어가 연결되어, 상기 문장에 따른 의도 처리 대기를 명령하는 제4 문장 구조 중 적어도 어느 하나로 구분될 수 있다.

구체적으로, 상기 발화의도판단부는, 상기 음성 입력의 문장 구조를 상기 제2 또는 상기 제3 문장 구조로 구분한 경우, 상기 음성 입력 전체 및 상기 음성 입력 전체에서 상기 특정 단어를 기준으로 구분되는 일부 음성 입력을 이용하여, 상기 음성 입력의 문장 구조를 구분한 결과에 대한 활용 여부를 판단할 수 있다.

구체적으로, 상기 발화의도판단부는, 상기 음성 입력의 문장 구조를 구분한 결과를 활용하는 것으로 판단하면, 상기 제2 문장 구조로 구분한 경우 상기 음성 입력 전체 중 상기 특정 단어로 구분되는 2 이상의 문장 각각을 순차적으로 분석하여 상기 음성 입력의 문장 별로 발화 의도를 판단하고, 상기 제3 문장 구조로 구분한 경우 상기 음성 입력 전체 중 상기 특정 단어 이후에 연결된 일부 문장 만을 분석하여 상기 음성 입력의 발화 의도를 판단할 수 있다.

구체적으로, 상기 발화의도판단부는, 상기 음성 입력의 문장 구조를 구분한 결과를 활용하지 않는 것으로 판단하면, 상기 음성 입력 전체를 분석하여 상기 음성 입력의 발화 의도를 판단할 수 있다.

구체적으로, 상기 음성수신부는, 사용자에 의한 발화 시작시점부터 발화 종료시점까지 수신되는 음성을 상기 음성 입력으로서 수신하며, 상기 발화의도판단부는, 상기 음성 입력의 문장 구조를 상기 제4 문장 구조로 구분한 경우, 상기 음성 입력에 대한 발화 의도 판단을 대기하며 상기 음성수신부로 하여금 상기 발화 종료시점 이후에도 음성 수신을 대기하도록 할 수 있다.

상기 목적을 달성하기 위한 본 발명의 제 2 관점에 따른 음성분석장치의 동작 방법, 사용자에 의해 발화되는 음성 입력을 수신하는 음성수신단계; 상기 수신된 음성 입력을 분석하여 상기 음성 입력의 문장 구조를 구분하는 문장구조구분단계; 및 상기 구분된 문장 구조에 따라 상기 음성 입력에 대한 발화 의도를 판단하는 발화의도판단단계를 포함한다.

구체적으로, 상기 문장구조구분단계는, 문장 구조 판단을 위해 기 정의된 특정 단어가 상기 음성 입력에 포함되는 경우, 상기 음성 입력의 문장 구조를 상기 특정 단어와 매칭되는 문장 구조로 구분할 수 있다.

구체적으로, 상기 발화의도판단단계는, 상기 음성 입력의 문장 구조를 상기 제2 또는 상기 제3 문장 구조로 구분한 경우, 상기 음성 입력 전체 및 상기 상기 음성 입력 전체에서 상기 특정 단어를 기준으로 구분되는 일부 음성 입력을 이용하여, 상기 음성 입력의 문장 구조를 구분한 결과에 대한 활용 여부를 판단할 수 있다.

구체적으로, 상기 발화의도판단단계는, 상기 음성 입력의 문장 구조를 구분한 결과를 활용하는 것으로 판단하면, 상기 제2 문장 구조로 구분한 경우 상기 음성 입력 전체 중 상기 특정 단어로 구분되는 2 이상의 문장 각각을 순차적으로 분석하여 상기 음성 입력의 문장 별로 발화 의도를 판단하고, 상기 제3 문장 구조로 구분한 경우 상기 음성 입력 전체 중 상기 특정 단어 이후에 연결된 일부 문장 만을 분석하여 상기 음성 입력의 발화 의도를 판단할 수 있다.

구체적으로, 상기 발화의도판단단계는, 상기 음성 입력의 문장 구조를 구분한 결과를 활용하지 않는 것으로 판단하면, 상기 음성 입력 전체를 분석하여 상기 음성 입력의 발화 의도를 판단할 수 있다.

구체적으로, 상기 음성수신단계는, 사용자에 의한 발화 시작시점부터 발화 종료시점까지 수신되는 음성을 음성수신부를 통해 상기 음성 입력으로서 수신하며, 상기 발화의도판단단계는, 상기 음성 입력의 문장 구조를 상기 제4 문장 구조로 구분한 경우, 상기 음성 입력에 대한 발화 의도 판단을 대기하며 상기 음성수신부로 하여금 상기 발화 종료시점 이후에도 음성 수신을 대기하도록 할 수 있다.

이에, 음성분석장치 및 음성분석장치의 동작 방법은, 음성 입력에 대한 사용자 발화 의도를 판단하기에 앞서, 음성 입력을 실제 대화 시 대표되는 문장 구조들 중 하나로 구분한 후 문장 구조에 맞는 방식으로 음성 입력의 분석 및 사용자 발화 의도를 판단하는 하는 새로운 형태의 대화형 음성 인터페이스를 실현할 수 있다.

따라서, 본 발명에서는, 기존의 단순한 명령형 음성 인터페이스가 갖는 문제점들을 해결하여, 음성 인터페이스의 자유도 및 사용 편의를 극대화하는 효과를 도출할 수 있다.

도 1은 본 발명이 적용되는 음성 기반 서비스 환경을 보여주는 예시도이다.
도 2는 본 발명의 바람직한 실시예에 따른 음성분석장치의 구성을 보여주는 예시도이다.
도 3 및 도 4는 본 발명의 바람직한 실시예에 따른 음성분석장치의 동작 방법을 보여주는 흐름도이다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 설명한다.

먼저, 도 1을 참조하여 본 발명이 적용되는 음성 기반 서비스 환경을 설명하도록 하겠다.

도 1에 도시된 바와 같이, 본 발명에서 제안하는 음성분석장치가 적용되는 음성 기반 서비스 환경은, 가정 또는 사무실 등 특정 장소에 설치되는 음성 기반 서비스장치(10)를 기본으로 한다.

음성 기반 서비스장치(10)는, 사용자가 발화하는 음성을 음성 입력으로 수신하고 이를 기반으로 제어대상 기기를 제어하는 장치로서, 음성 인터페이스 지원을 기본으로 한다.

이에, 음성 인터페이스를 기반으로 가정 내 기기를 제어하는 음성 기반 서비스를 간단히 설명하면, 사용자(1)가 음성으로 명령(입력)하면, 음성 기반 서비스장치(10)는 사용자 발화에 따른 음성 입력을 수신하여 텍스트로 변환한 후, 텍스트를 이용한 언어 분석을 통해 사용자 음성 입력의 의도를 파악하고, 그에 따른 제어 동작, 예컨대 전등을 켜거나 TV를 틀거나 또는 자체 내장된 컨텐츠 스트리밍 기능을 통해 음악을 재생하는 등의 제어 동작을 수행하는 방식이다.

헌데, 현재의 음성 인터페이스의 경우, 발화 시작시점부터 발화 종료시점까지의 음성을 음성 입력으로 수신하되, 1회 발화 및 1개 명령으로 제한되는 단순 명령형의 음성 인터페이스 수준에 그치고 있다.

또한, 현재의 음성 인터페이스 기반으로 동작하는 음성 기반 서비스에서는, 사용자가 음성을 발화하여 명령하는 중 잠시 멈추고 싶은 경우, 연속적인 음성 발화가 유지되지 못하므로 정확한 음성 입력이 불가능하여, 음성 인터페이스의 자유도가 낮다는 단점이 있다.

이에, 본 발명에서는, 전술의 제약/불편함/단점들 즉 기존 음성 인터페이스가 갖는 문제점들을 해결할 수 있는, 새로운 형태의 대화형 음성 인터페이스를 실현하고자 한다.

보다 구체적으로, 본 발명에서 실현하고자 하는 대화형 음성 인터페이스를 가능하게 하는 기술을 제안하며, 이러한 기술을 구현하는 음성분석장치를 제안하고자 한다.

도 2는 본 발명의 일 실시예에 따른 음성분석장치의 구성을 보여주고 있다.

도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 음성분석장치(100)는, 음성수신부(110), 문장구조구분부(130), 발화의도판단부(140)를 포함할 수 있다.

그리고, 본 발명의 실시예에 따른 음성분석장치(100)는, STT(120)를 더 포함할 수 있다.

그리고, 본 발명의 실시예에 따른 음성분석장치(100)는 출력부(150)를 더 포함할 수 있고, 이 경우 음성분석장치(100)는 출력부(150)에서 출력되는 제어신호를 각종 제어대상 기기로 유선 또는 무선 통신을 통해 전달하기 위한 실질적인 통신 기능을 담당하는 통신부(미도시)의 구성을 더 포함할 수도 있다.

여기서, 통신부(미도시)는 예컨대, 안테나 시스템, RF 송수신기, 하나 이상의 증폭기, 튜너, 하나 이상의 발진기, 디지털 신호 처리기, 코덱(CODEC) 칩셋, 및 메모리 등을 포함하지만 이에 제한되지는 않으며, 이 기능을 수행하는 공지의 회로는 모두 포함할 수 있다.

이러한 음성분석장치(100)의 구성 전체 내지는 적어도 일부는 하드웨어 모듈 형태 또는 소프트웨어 모듈 형태로 구현되거나, 하드웨어 모듈과 소프트웨어 모듈이 조합된 형태로도 구현될 수 있다.

여기서, 소프트웨어 모듈이란, 예컨대, 음성분석장치(100) 내에서 연산을 제어하는 프로세서에 의해 실행되는 명령어로 이해될 수 있으며, 이러한 명령어는 음성분석장치(100) 내 메모리에 탑재된 형태를 가질 수 있을 것이다.

결국, 본 발명의 실시예에 따른 음성분석장치(100)는 전술한 구성을 통해, 본 발명에서 제안하는 대화형 음성 인터페이스를 실현 가능하게 하는 기술을 구현하며, 이하에서는 이를 구현하기 위한 음성분석장치(100) 내 각 구성에 대해 보다 구체적으로 설명하기로 한다.

음성수신부(110)는, 사용자에 의해 발화되는 음성 입력을 수신하는 기능을 담당한다.

구체적으로, 음성수신부(110)는, 음성 입력으로 진입하기 위한 진입 동작(예: Wake up 음성 명령 또는 Mic 버튼) 감지 시 활성화되어 음성을 수신하고 수신되는 음성이 없으면(음성 발화 중단) 비활성화되는 마이크를 포함하거나 마이크와 연동하는 구조로서, 마이크를 통해 수신되는 음성 즉 사용자에 의한 발화 시작시점부터 발화 종료시점까지 수신되는 음성을 음성 입력으로서 수신할 수 있다.

문장구조구분부(130)는, 수신된 음성 입력을 분석하여 음성 입력의 문장 구조를 구분하는 기능을 담당한다.

구체적으로, STT(120)는 음성수신부(110)를 통해 수신되는 음성 입력을 STT(Speech to text) 기능을 통해 텍스트로 변환한다.

문장구조구분부(130)는 음성수신부(110)를 통해 수신된 음성 입력이 STT(120)에서 텍스트로 변환되면, 변환된 텍스트를 분석하는 방식으로 금번 수신된 음성 입력을 분석하여 금번 음성 입력의 문장 구조를 구분할 수 있다.

보가 구체적으로 설명하면, 문장구조구분부(130)는, 문장 구조 판단을 위해 기 정의된 특정 단어가 음성 입력 즉 음성 입력의 텍스트에 포함되어 있는지 여부를 확인하고, 특정 단어가 포함되어 있는 경우 금번 음성 입력의 문장 구조를 특정 단어와 매칭되는 문장 구조로 구분할 수 있다.

이를 위해, 본 발명의 음성분석장치(100)는, 문장 구조 판단을 위해 기 정의된 특정 단어를 보유하거나, 또는 특정 단어가 저장된 별도 DB와 연동할 수 있다.

여기서, 문장 구조 판단을 위해 기 정의된 특정 단어는, 크게 3가지 종류로 분류할 수 있다.

예를 들면, "그리고", "또", "..하고"등과 같이 대화 중 문장 연결 시 주로 사용되는 특정 단어들을 복수처리 명령어로 분류할 수 있고, "아니다", "아니라", "아니아니","취소" 등과 같이 대화 중 앞 문장을 부정할 때 주로 사용되는 특정 단어들을 취소 명령어로 분류할 수 있고, "잠시만", "잠깐", "기다려", 등과 같이 대화 중 대기를 요청할 때 주로 사용되는 특정 단어들을 대기 명령어로 분류할 수 있다.

이에, 문장구조구분부(130)는, 기 보유하고 있는 특정 단어 또는 별도로 연동하는 DB를 근거로, 금번 음성 입력의 텍스트에 복수처리 명령어, 취소 명령어, 대기 명령어 중 적어도 하나가 포함되어 있는지 여부를 확인할 수 있다.

그리고, 문장구조구분부(130)는, 음성 입력의 텍스트에 복수처리 명령어, 취소 명령어, 대기 명령어 중 적어도 하나가 포함되어 있는 경우, 금번 음성 입력의 문장 구조를 특정 단어(복수처리 명령어, 취소 명령어, 대기 명령어)와 매칭되는 문장 구조로 구분한다.

한편, 문장구조구분부(130)는, 음성 입력에 특정 단어가 포함되지 않은 경우, 금번 음성 입력의 문장 구조를 단일 의도의 처리를 명령하는 문장 구조(이하, 제1문장 구조)로 구분할 수 있다.

또 다른 실시예에 따르면, 문장구조구분부(130)는, 음성 입력에 특정 단어가 포함되는 경우라도, 문장 구조 판단을 위해 기 저장된 특정 명칭정보와 매칭된다면 금번 음성 입력의 문장 구조를 단일 의도의 처리를 명령하는 제1 문장 구조로 구분할 수도 있다.

이를 위해, 본 발명의 음성분석장치(100)는, 문장 구조 판단을 위해 특정 명칭정보를 기 저장하거나, 또는 특정 명칭정보가 저장된 별도 DB와 연동할 수 있다.

여기서, 문장 구조 판단을 위해 기 저장된 특정 명칭정보는, 전술의 복수처리 명령어, 취소 명령어, 대기 명령어 중 적어도 하나가 포함되는 컨텐츠 명칭 또는 제품 명칭 등 다양한 대상군에 대한 명칭정보를 포함한다.

이에, 문장구조구분부(130)는, 음성 입력 즉 음성 입력의 텍스트에 복수처리 명령어, 취소 명령어, 대기 명령어 중 적어도 하나가 포함되어 있는 경우, 기 보유하고 있는 특정 명칭정보 또는 별도로 연동하는 DB를 근거로 금번 음성 입력의 텍스트가 특정 명칭정보와 매칭된다면, 금번 음성 입력의 문장 구조를 단일 의도의 처리를 명령하는 제1 문장 구조로 구분할 수 있다.

본 발명의 일 실시예에 따르면, 음성 입력의 문장 구조는, 단일 의도의 처리를 명령하는 문장으로 이루어지는 제1 문장 구조, 각 의도의 처리를 명령하는 2 이상의 문장이 특정 단어로 연결되는 제2 문장 구조, 특정 단어로 연결되는 2 이상의 문장 중, 상기 특정 단어 이후의 일부 문장의 의도 처리 만을 명령하는 제3 문장 구조, 문장의 가장 마지막에 특정 단어가 연결되어, 상기 문장에 따른 의도 처리 대기를 명령하는 제4 문장 구조 중 적어도 어느 하나로 구분될 수 있다.

이에, 복수처리 명령어와 매칭되는 문장 구조는 전술의 제2 문장 구조를 의미하며, 취소 명령어와 매칭되는 문장 구조는 전술의 제3 문장 구조를 의미하며, 대기 명령어와 매칭되는 문장 구조는 전술의 제4 문장 구조를 의미하는 것으로 이해하면 된다.

이처럼 문장구조구분부(130)는, 음성 입력 즉 음성 입력의 텍스트에 대한 언어 분석을 통해 사용자 발화 의도를 파악하기에 앞서, 음성 입력(텍스트)을 분석하여 음성 입력의 문장 구조를 구분하고 있다.

이러한 문장구조구분부(130)는, STT(120)로부터 출력되는 음성 입력의 텍스트를 분석하여 문장 구조를 구분하는 엔진 형태로 구현될 수 있다.

발화의도판단부(140)는, 문장구조구분부(130)에서 구분된 문장 구조에 따라 금번 음성 입력에 대한 발화 의도를 판단하는 기능을 담당한다.

즉, 발화의도판단부(140)는, 문장구조구분부(130)에서 구분된 문장 구조에 따라 금번 음성 입력 즉 음성 입력의 텍스트를 분석하여, 금번 음성 입력에 대한 발화 의도를 판단하는 것이다.

구체적으로 설명하면, 발화의도판단부(140)는, STT(120)로부터 출력되는 음성 입력의 텍스트를 분석(예: NLU(natural language understanding) 분석)하여 분석 결과로서 사용자 발화 의도를 판단하는 NLU 엔진일 수 있다.

발화의도판단부(140)는, 텍스트 분석 결과 사용자 발화 의도 판단이 불가능한 경우, 음성 입력 오류를 출력하여 사용자로 하여금 인지시킬 수 있다.

이러한 발화의도판단부(140)는, 문장구조구분부(130)에서 금번 음성 입력의 문장 구조를 구분한 결과를 확인한다.

이에, 발화의도판단부(140)는, 금번 음성 입력의 문장 구조가 제1 문장 구조 즉 단일 의도의 처리를 명령하는 문장 하나로 이루어진 문장 구조로 구분된 경우, 금번 음성 입력 전체 즉 STT(120)로부터 출력되는 텍스트 전체를 분석하여 금번 음성 입력에 대한 발화 의도를 판단할 수 있다.

이와 같이, 발화의도판단부(140)에서 제1 문장 구조로 판단된 음성 입력(텍스트)를 분석하여 발화 의도를 판단하는 과정은, 기존 음성 인터페이스에서 텍스트에 대한 언어 분석(NLU 분석)을 통해 사용자 발화 의도를 파악하는 과정과 동일할 수 있다.

즉, 본 발명에 따르면, 특정 단어가 포함되지 않거나 또는 특정 단어가 포함되지만 특정 명칭정보와 매칭되는 음성 입력 다시 말해 1회 발화 및 1개 명령의 음성 입력에 대해서는, 기존과 동일한 절차에 따라 사용자 발화 의도를 /판단할 수 있다.

한편, 발화의도판단부(140)는, 금번 음성 입력의 문장 구조가 제2, 제3, 제4 문장 구조 중 적어도 하나의 문장 구조로 구분된 경우, 구분된 문장 구조에 따른 음성 입력(텍스트) 분석을 통해 금번 음성 입력에 대한 발화 의도를 판단할 수 있다.

보다 구체적으로 실시예를 설명하면, 발화의도판단부(140)는, 금번 음성 입력의 문장 구조가 제2 또는 제3 문장 구조 중 하나로 구분된 경우, 구분된 문장 구조에 따른 텍스트 분석을 수행하기에 앞서, 금번 음성 입력 전체(텍스트 전체) 및 음성 입력 전체에서 특정 단어를 기준으로 구분되는 일부 음성 입력(구분 텍스트)를 이용하여 금번 음성 입력의 문장 구조를 구분한 결과에 대한 활용 여부를 판단할 수 있다.

예를 들면, 금번 음성 입력(예: 불 꺼줘 그리고 TV 틀어줘)의 텍스트에서 특정 단어로서 "그리고"가 포함된 경우를 가정할 수 있다.

이 경우, 문장구조구분부(130)에서는 금번 음성 입력의 문장 구조를 복수처리 명령어("그리고")와 매칭되는 제2 문장 구조로 구분할 것이다.

이 경우, 발화의도판단부(140)는, 금번 음성 입력의 문장 구조가 제2 문장 구조로 구분된 경우이므로, 금번 음성 입력의 텍스트 전체(불 꺼줘 그리고 TV 틀어줘) 및 텍스트 전체에서 특정 단어(그리고)를 기준으로 구분되는 구분 텍스트(불 꺼줘/TV 틀어줘)를 이용하여 금번 음성 입력의 문장 구조를 구분한 결과에 대한 활용 여부를 판단할 수 있다.

예를 들면, 발화의도판단부(140)는, 금번 음성 입력의 텍스트 전체(불 꺼줘 그리고 TV 틀어줘)에 대한 언어 분석(NLU 분석) 및 금번 음성 입력의 구분 텍스트(불 꺼줘/TV 틀어줘) 별 언어 분석(NLU 분석)을 통해, 텍스트 전체 및 각 구분 텍스트 별로 비문(미완성 문장 또는 정상적이지 않은 문장) 여부 확인, 텍스트 전체에 컨텐츠 명칭이 있는지 여부 확인 등 지정된 확인 과정을 거쳐 금번 문장 구조(제2 문장 구조)에 대한 활용 여부를 판단할 수 있다.

예컨대, 발화의도판단부(140)는, 각 구분 텍스트 별 확인 결과 각 구분 텍스트 중 비문이 없고 텍스트 전체에 컨텐츠 명칭이 없으면, 금번 음성 입력의 문장 구조를 제2 문장 구조로 구분한 구분 결과를 활용하는 것으로 판단할 수 있다.

만약, 발화의도판단부(140)는, 각 구분 텍스트 별 확인 결과 각 구분 텍스트 중 비문이 있거나 또는 텍스트 전체에 컨텐츠 명칭이 있고 텍스트 전체의 확인 결과 비문이 아니면, 금번 음성 입력의 문장 구조를 제2 문장 구조로 구분한 구분 결과를 활용하지 않는 것으로 판단할 수 있다.

한편 다른 예를 들면, 금번 음성 입력(예: 6시 알람 맞춰줘 아니다 7시로 알람 맞춰줘)의 텍스트에서 특정 단어로서 "아니다"가 포함된 경우를 가정할 수 있다.

이 경우, 문장구조구분부(130)에서는 금번 음성 입력의 문장 구조를 취소 명령어("아니다")와 매칭되는 제3 문장 구조로 구분할 것이다.

이 경우, 발화의도판단부(140)는, 금번 음성 입력의 텍스트 전체(6시 알람 맞춰줘 아니다 7시로 알람 맞춰줘)에 대한 언어 분석(NLU 분석) 및 금번 음성 입력의 구분 텍스트(6시 알람 맞춰줘/7시로 알람 맞춰줘) 별 언어 분석(NLU 분석)을 통해, 텍스트 전체 및 각 구분 텍스트 별로 비문(미완성 문장 또는 정상적이지 않은 문장) 여부 확인, 텍스트 전체에 컨텐츠 명칭이 있는지 여부 확인 등 지정된 확인 과정을 거쳐 금번 문장 구조(제3 문장 구조)에 대한 활용 여부를 판단할 수 있다.

예컨대, 발화의도판단부(140)는, 특정 단어 이후의 구분 텍스트 확인 결과 비문이 아니고 텍스트 전체에 컨텐츠 명칭이 없으면, 금번 음성 입력의 문장 구조를 제3 문장 구조로 구분한 구분 결과를 활용하는 것으로 판단할 수 있다.

만약, 발화의도판단부(140)는, 특정 단어 이후의 구분 텍스트 확인 결과 비문이거나 또는 텍스트 전체에 컨텐츠 명칭이 있고 텍스트 전체의 확인 결과 비문이 아니면, 금번 음성 입력의 문장 구조를 제3 문장 구조로 구분한 구분 결과를 활용하지 않는 것으로 판단할 수 있다.

발화의도판단부(140)는, 음성 입력의 문장 구조를 구분한 결과를 활용하는 것으로 판단하면, 제2 문장 구조로 구분한 경우 금번 음성 입력 전체(텍스트 전체) 중 특정 단어로 구분되는 2 이상의 문장 각각을 순차적으로 분석하여 금번 음성 입력의 문장 별로 발화 의도를 판단할 수 있다.

즉, 전술의 음성 입력(예: 불 꺼줘 그리고 TV 틀어줘) 및 제2 문장 구조를 가정하여 설명하면, 발화의도판단부(140)는, 제2 문장 구조로 구분한 결과를 활용하는 것으로 판단하면, 금번 음성 입력의 텍스트 전체(불 꺼줘 그리고 TV 틀어줘) 중 특정 단어(그리고)를 기준으로 구분되는 각 문장의 텍스트 즉 구분 텍스트(불 꺼줘/TV 틀어줘)에 대해 순차적으로 언어 분석(NLU 분석)을 수행하여 금번 음성 입력의 문장 별로 발화 의도를 판단할 수 있다.

이렇게 되면, 출력부(150)는, 발화의도판단부(140)에서 판단된 각 문장(구분 텍스트) 별 발화 의도에 따른 각 제어신호를 각 제어대상 기기(예: 전등, TV)로 전송하여, 전등 불이 꺼지도록 하고 TV가 켜지도록 할 수 있다.

한편, 발화의도판단부(140)는, 음성 입력의 문장 구조를 구분한 결과를 활용하는 것으로 판단하면, 제3 문장 구조로 구분한 경우 금번 음성 입력 전체(텍스트 전체) 중 특정 단어 이후에 연결된 일부 문장 만을 분석하여 금번 음성 입력의 발화 의도를 판단할 수 있다.

즉, 전술의 음성 입력(예: 6시 알람 맞춰줘 아니다 7시로 알람 맞춰줘) 및 제3 문장 구조를 가정하여 설명하면, 발화의도판단부(140)는, 제3 문장 구조로 구분 결과를 활용하는 것으로 판단하면, 금번 음성 입력의 텍스트 전체(6시 알람 맞춰줘 아니다 7시로 알람 맞춰줘) 중 특정 단어(아니다) 이후에 연결된 일부 문장의 텍스트(7시로 알람 맞춰줘)에 대해서만 언어 분석(NLU 분석)을 수행하여 금번 음성 입력의 발화 의도를 판단할 수 있다.

이렇게 되면, 출력부(150)는, 발화의도판단부(140)에서 판단된 발화 의도에 따른 제어신호를 제어대상 기기(예: 알람시계, 또는 내부 알람기능)로 전송하여, 7시에 알람이 설정되도록 할 수 있다.

한편 또 다른 실시예를 설명하면, 발화의도판단부(140)는, 금번 음성 입력의 문장 구조가 제2 및 제3 문장 구조로 구분된 경우, 구분된 문장 구조에 따른 텍스트 분석을 수행하기에 앞서, 전술과 같이 금번 음성 입력의 문장 구조를 구분한 결과에 대한 활용 여부를 판단할 수 있다.

예를 들면, 금번 음성 입력(예: A 그리고 B 해줘 아니다 C 해줘)의 텍스트에서 2개의 특정 단어 "그리고" "아니다"가 포함된 경우를 가정할 수 있다.

이 경우, 문장구조구분부(130)에서는 금번 음성 입력의 문장 구조를 복수처리 명령어("그리고")와 매칭되는 제2 문장 구조 및 취소 명령어("아니다")와 매칭되는 제3 문장 구조로 구분할 것이다.

이 경우, 발화의도판단부(140)는, 금번 음성 입력의 문장 구조가 제2 및 제3 문장 구조로 구분된 경우이므로, 금번 음성 입력의 텍스트 전체(A 그리고 B 해줘 아니다 C 해줘) 및 텍스트 전체에서 특정 단어(그리고, 아니다)를 기준으로 구분되는 구분 텍스트(A/B 해줘/C 해줘)를 이용하여 금번 음성 입력의 문장 구조를 구분한 결과에 대한 활용 여부를 판단할 수 있다.

예를 들면, 발화의도판단부(140)는, 금번 음성 입력의 텍스트 전체(A 그리고 B 해줘 아니다 C 해줘)에 대한 언어 분석(NLU 분석) 및 금번 음성 입력의 구분 텍스트(A/B 해줘/C 해줘) 별 언어 분석(NLU 분석)을 통해, 텍스트 전체 및 각 구분 텍스트 별로 비문(미완성 문장 또는 정상적이지 않은 문장) 여부 확인, 텍스트 전체에 컨텐츠 명칭이 있는지 여부 확인 등 지정된 확인 과정을 거쳐 금번 문장 구조(제2 및 제3 문장 구조)에 대한 활용 여부를 판단할 수 있다.

예컨대, 발화의도판단부(140)는, 복수처리 명령어로서의 특정 단어(그리고)를 기준으로 구분된 구분 텍스트(A/B 해줘) 별 확인 결과 각 구분 텍스트 중 비문이 없고 텍스트 전체에 컨텐츠 명칭이 없으면, 금번 음성 입력의 문장 구조를 제2 문장 구조로 구분한 구분 결과에 대해서는 활용하는 것으로 판단할 수 있다.

또한, 발화의도판단부(140)는, 취소 명령어로서의 특정 단어(아니다) 이후의 구분 텍스트(C 해줘) 확인 결과 비문이 아니고 텍스트 전체에 컨텐츠 명칭이 없으면, 금번 음성 입력의 문장 구조를 제3 문장 구조로 구분한 구분 결과에 대해서는 활용하는 것으로 판단할 수 있다.

발화의도판단부(140)는, 음성 입력의 문장 구조를 구분한 결과를 활용하는 것으로 판단하면, 제2 및 제3 문장 구조로 구분한 경우 금번 음성 입력 전체(텍스트 전체) 중 복수처리 명령어로서의 특정 단어(그리고)로 구분되는 2 이상의 문장 각각을 순차적으로 분석하되, 금번 음성 입력 전체(텍스트 전체) 중 취소 명령어로서의 특정 단어(아니다) 이후에 연결된 일부 문장의 텍스트(C 해줘)에 대해서만 언어 분석(NLU 분석)을 수행하여 금번 음성 입력의 발화 의도를 판단할 수 있다.

이렇게 되면, 출력부(150)는, 발화의도판단부(140)에서 판단된 발화 의도에 따른 제어신호를 제어대상 기기로 전송하여, C(예: 에어컨 On)가 수행되도록 할 수 있다.

한편, 발화의도판단부(140)는, 음성 입력의 문장 구조를 구분한 결과를 활용하지 않는 것으로 판단하면, 금번 음성 입력의 텍스트 전체를 분석하여 금번 음성 입력의 발화 의도를 판단할 수 있다.

즉, 발화의도판단부(140)는, 음성 입력의 문장 구조를 제2 또는 제3 문장 구조로 구분한 경우라도 이를 활용하지 않는 것으로 판단하면, 금번 음성 입력의 텍스트 전체에 대해 언어 분석(NLU 분석)을 수행하여 금번 음성 입력의 발화 의도를 판단할 수 있다.

한편, 발화의도판단부(140)는, 금번 음성 입력의 문장 구조가 제4 문장 구조로 구분된 경우, 금번 음성 입력에 대한 발화 의도 판단을 대기하며 음성수신부(110)로 하여금 금번 음성 입력의 발화 종료시점 이후에도 음성 수신을 대기하도록 할 수 있다.

예를 들면, 금번 음성 입력(예: 불 꺼줘 잠깐만)의 텍스트에서 특정 단어로서 "잠깐만"이 포함된 경우를 가정할 수 있다.

이 경우, 문장구조구분부(130)에서는 금번 음성 입력의 문장 구조를 대기 명령어("잠깐만")와 매칭되는 제4 문장 구조로 구분할 것이다.

이 경우, 발화의도판단부(140)는, 금번 음성 입력의 문장 구조가 제4 문장 구조로 구분된 경우이므로, 금번 음성 입력의 텍스트(불 꺼줘)를 분석하지 않고 저장한 상태로 대기하며, 음성수신부(110)로 하여금 수신되는 음성이 없더라도 마이크를 활성화 상태로 유지시켜 음성 수신을 대기하도록 할 수 있다.

이후, 사용자가 다시 발화하여 음성 입력(예: 꺼줘)의 텍스트가 음성수신부(110) 및 STT(120)를 거쳐 수신되면, 발화의도판단부(140)는, 이전에 수신 및 저장하고 있던 음성 입력의 텍스트(불 꺼줘)와 새로 수신한 음성 입력의 텍스트(꺼줘)를 결합한 문장의 텍스트(불 꺼줘 꺼줘)에 대한 언어 분석(NLU 분석)을 수행하여 금번 음성 입력의 발화 의도를 판단할 수 있다.

출력부(150)는, 발화의도판단부(140)에서 판단된 발화 의도에 따른 제어신호를 제어대상 기기로 전송하여, 제어대상 기기로 하여금 사용자 발화 의도에 따라 동작하도록 한다.

이상에서 설명한 바와 같이, 본 발명에 따른 음성분석장치(100)는, 음성 입력에 대한 사용자 발화 의도를 판단하기에 앞서, 음성 입력을 실제 대화 시 구분할 수 있는 대표적인 문장 구조들 중 하나로 구분하고 구분한 문장 구조에 맞는 방식으로 음성 입력의 텍스트 분석 및 사용자 발화 의도를 판단하는 기술을 실현하고 있다.

이처럼 본 발명에 따르면, 음성 입력을 대화 시 대표되는 문장 구조로 구분한 후 그에 맞게 음성 입력의 텍스트 분석 및 사용자 발화 의도를 판단하는 방식으로 대화형 음성 인터페이스를 실현함으로써, 1회 발화 및 1개 명령으로 제한되는 기존의 단순한 명령형 음성 인터페이스가 갖는 문제점들, 예컨대 음성 발화 중 음성 입력을 수정할 수 없는 제약, 2 가지 이상의 명령을 한번의 음성 입력을 할 수 없었던 불편함, 음성 발화 중 명령을 잠시 멈춘 후 이어서 명령할 수 없었던 낮은 자유도의 단점을 해결할 수 있는 효과를 도출한다.

특히, 본 발명에서는, 음성 입력의 문장 구조를 구분한 결과에 대한 활용 여부를 판단하는 절차를 적용함으로써, 대화형 음성 인터페이스 실현 시 문장 구조 구분 오류로 인해 사용자 발화 의도를 잘못 판단할 수 있는 상황으로부터 자유로울 수 있다.

이하에서는, 도 3 및 도 4를 참조하여 본 발명의 일 실시예에 따른 음성분석장치의 동작 방법, 달리 말하면 대화형 음성 인터페이스를 제공하는 흐름을 구체적으로 설명하도록 한다.

설명의 편의를 위해 전술의 도 1 및 도 2에서 언급한 참조번호를 언급하여 설명하도록 하겠다.

먼저, 도 3을 참조하여 본 발명의 일 실시예에 따른 음성분석장치의 동작 방법의 전체 흐름을 설명하겠다.

본 발명의 음성분석장치의 동작 방법에서 음성분석장치(100)는, 사용자에 의해 발화되는 음성 입력을 수신한다(S100).

예를 들면, 음성분석장치(100)는, 음성 입력으로 진입하기 위한 진입 동작(예: Wake up 음성 명령 또는 Mic 버튼) 감지 시 음성수신부(110)의 마이크를 활성화시켜 음성을 수신함으로써, 사용자에 의한 발화 시작시점부터 발화 종료시점까지 수신되는 음성을 음성 입력으로서 수신할 수 있다.

본 발명의 음성분석장치의 동작 방법에서 음성분석장치(100)는, 음성 입력이 수신되면 음성 입력을 STT(Speech to text) 기능을 통해 텍스트로 변환한다(S20).

본 발명의 음성분석장치의 동작 방법에서 음성분석장치(100)는, 음성 입력으로부터 변환된 텍스트를 분석하여 금번 음성 입력의 문장 구조(예: 제1,제2,제3,제4 문장 구조)를 구분할 수 있다(S30).

그리고, 본 발명의 음성분석장치의 동작 방법에서 음성분석장치(100)는, S30단계에서 음성 입력의 문장 구조를 구분한 구분 결과에 따라 음성 입력의 텍스트를 분석하여, 금번 음성 입력에 대한 발화 의도를 판단한다(S40).

이에, 본 발명의 음성분석장치의 동작 방법에서 음성분석장치(100)는, S40단계에서 판단한 사용자 발화 의도에 따른 제어신호를 해당 제어대상 기기로 출력하여, 제어신호를 기반으로 제어대상 기기의 동작을 제어할 수 있다(S50).

이하에서는, 도 4를 참조하여 음성 입력의 문장 구조를 구분하는 S30단계, 문장 구조를 구분한 결과에 따라 음성 입력의 텍스트를 분석하는 S40단계를 구체적으로 설명하겠다.

본 발명의 음성분석장치의 동작 방법에서 음성분석장치(100)는, S20단계에서 변환된 텍스트를 분석하여 문장 구조 판단을 위해 기 정의된 특정 단어가 포함되어 있는지 확인한다(S32).

이에, 음성분석장치(100)는, 기 보유하고 있는 특정 단어 또는 별도로 연동하는 DB를 근거로, 금번 음성 입력의 텍스트에 복수처리 명령어 또는 취소 명령어 또는 대기 명령어가 포함되어 있는지 여부를 확인할 수 있다(S32).

그리고, 본 발명의 음성분석장치의 동작 방법에서 음성분석장치(100)는, 음성 입력의 텍스트에 복수처리 명령어 또는 취소 명령어 또는 대기 명령어가 포함되어 있는 경우(S32 Yes), 금번 음성 입력의 문장 구조를 텍스트에 포함된 특정 단어(복수처리 명령어, 또는 취소 명령어, 또는 대기 명령어)와 매칭되는 문장 구조로 구분한다(S36).

한편, 본 발명의 음성분석장치의 동작 방법에서 음성분석장치(100)는, 음성 입력의 텍스트에 특정 단어가 포함되지 않은 경우(S32 No), 금번 음성 입력의 문장 구조를 단일 의도의 처리를 명령하는 문장 구조(이하, 제1문장 구조)로 구분할 수 있다(S34).

이처럼 음성분석장치(100)는, 음성 입력의 텍스트에 대한 언어 분석을 통해 사용자 발화 의도를 파악하는 S40단계 이전에, 음성 입력의 텍스트를 분석하여 음성 입력의 문장 구조를 구분하고 있다.

본 발명의 음성분석장치의 동작 방법에서 음성분석장치(100)는, S36단계 S34단계에서 금번 음성 입력에 대해 구분한 문장 구조 구분 결과를 확인한다.

이에, 본 발명의 음성분석장치의 동작 방법에서 음성분석장치(100)는, 금번 음성 입력의 문장 구조가 제1 문장 구조 즉 단일 의도의 처리를 명령하는 문장 하나로 이루어진 문장 구조로 구분된 경우(S34), 금번 음성 입력의 텍스트 전체를 분석(NLU 분석)하여 금번 음성 입력에 대한 발화 의도를 판단할 수 있다(S47).

이와 같이, 제1 문장 구조로 판단된 음성 입력(텍스트)를 분석하여 발화 의도를 판단하는 과정은, 기존 음성 인터페이스에서 텍스트에 대한 언어 분석(NLU 분석)을 통해 사용자 발화 의도를 파악하는 과정과 동일할 수 있다.

한편, 본 발명의 음성분석장치의 동작 방법에서 음성분석장치(100)는, 금번 음성 입력의 문장 구조가 제2 또는 제3 또는 제4 문장 구조로 구분된 경우(S36), 구분된 문장 구조에 따른 텍스트 분석을 통해 금번 음성 입력에 대한 발화 의도를 판단할 수 있다.

보다 구체적으로 실시예를 설명하면, 음성분석장치(100)는, 금번 음성 입력의 문장 구조가 제4 문장 구조로 구분된 경우(S41 Yes), 금번 음성 입력에 대한 발화 의도 판단을 대기하며 음성수신부(110)로 하여금 금번 음성 입력의 발화 종료시점 이후에도 음성 수신을 대기하도록 할 수 있다(S45).

이 경우, S32 및 S36단계에서는 금번 음성 입력의 문장 구조를 대기 명령어("잠깐만")와 매칭되는 제4 문장 구조로 구분할 것이다.

이 경우, 음성분석장치(100)는, 금번 음성 입력의 문장 구조가 제4 문장 구조로 구분된 경우이므로, 금번 음성 입력의 텍스트(불 꺼줘)를 분석하지 않고 저장한 상태로 대기하며, 음성수신부(110)로 하여금 수신되는 음성이 없더라도 마이크를 활성화 상태로 유지시켜 음성 수신을 대기하도록 할 수 있다.

이후, 사용자가 다시 발화하여 음성 입력(예: 꺼줘)의 텍스트가 도 3의 S10, S20단계를 거쳐 수신되면, 음성분석장치(100)는, 이전에 수신 및 저장하고 있던 음성 입력의 텍스트(불 꺼줘)와 새로 수신한 음성 입력의 텍스트(꺼줘)를 결합한 문장의 텍스트(불 꺼줘 꺼줘)에 대한 언어 분석(NLU 분석)을 수행하여 금번 음성 입력의 발화 의도를 판단할 수 있다(S46).

한편, 음성분석장치(100)는, 금번 음성 입력의 문장 구조가 제2 또는 제3 문장 구조로 구분된 경우(S41 No), 구분된 문장 구조에 따른 텍스트 분석을 수행하기에 앞서, 금번 음성 입력 전체(텍스트 전체) 및 음성 입력 전체에서 특정 단어를 기준으로 구분되는 일부 음성 입력(구분 텍스트)를 이용하여 금번 음성 입력의 문장 구조를 구분한 결과에 대한 활용 여부를 판단할 수 있다(S42).

이 경우, S32 및 S36단계에서는 금번 음성 입력의 문장 구조를 복수처리 명령어("그리고")와 매칭되는 제2 문장 구조로 구분할 것이다.

이 경우, 음성분석장치(100)는, 금번 음성 입력의 문장 구조가 제2 문장 구조로 구분된 경우이므로, 금번 음성 입력의 텍스트 전체(불 꺼줘 그리고 TV 틀어줘) 및 텍스트 전체에서 특정 단어(그리고)를 기준으로 구분되는 구분 텍스트(불 꺼줘/TV 틀어줘)를 이용하여 금번 음성 입력의 문장 구조를 구분한 결과에 대한 활용 여부를 판단할 수 있다(S42).

예를 들면, 음성분석장치(100)는, 금번 음성 입력의 텍스트 전체(불 꺼줘 그리고 TV 틀어줘)에 대한 언어 분석(NLU 분석) 및 금번 음성 입력의 구분 텍스트(불 꺼줘/TV 틀어줘) 별 언어 분석(NLU 분석)을 통해, 텍스트 전체 및 각 구분 텍스트 별로 비문(미완성 문장 또는 정상적이지 않은 문장) 여부 확인, 텍스트 전체에 컨텐츠 명칭이 있는지 여부 확인 등 지정된 확인 과정을 거쳐 금번 문장 구조(제2 문장 구조)에 대한 활용 여부를 판단할 수 있다.

예컨대, 음성분석장치(100)는, 각 구분 텍스트 별 확인 결과 각 구분 텍스트 중 비문이 없고 텍스트 전체에 컨텐츠 명칭이 없으면, 금번 음성 입력의 문장 구조를 제2 문장 구조로 구분한 구분 결과를 활용하는 것으로 판단할 수 있다.

만약, 음성분석장치(100)는, 각 구분 텍스트 별 확인 결과 각 구분 텍스트 중 비문이 있거나 또는 텍스트 전체에 컨텐츠 명칭이 있고 텍스트 전체의 확인 결과 비문이 아니면, 금번 음성 입력의 문장 구조를 제2 문장 구조로 구분한 구분 결과를 활용하지 않는 것으로 판단할 수 있다.

이 경우, S32 및 S36단계에서는 금번 음성 입력의 문장 구조를 취소 명령어("아니다")와 매칭되는 제3 문장 구조로 구분할 것이다.

이 경우, 음성분석장치(100)는, 금번 음성 입력의 텍스트 전체(6시 알람 맞춰줘 아니다 7시로 알람 맞춰줘)에 대한 언어 분석(NLU 분석) 및 금번 음성 입력의 구분 텍스트(6시 알람 맞춰줘/7시로 알람 맞춰줘) 별 언어 분석(NLU 분석)을 통해, 텍스트 전체 및 각 구분 텍스트 별로 비문(미완성 문장 또는 정상적이지 않은 문장) 여부 확인, 텍스트 전체에 컨텐츠 명칭이 있는지 여부 확인 등 지정된 확인 과정을 거쳐 금번 문장 구조(제3 문장 구조)에 대한 활용 여부를 판단할 수 있다.

예컨대, 음성분석장치(100)는, 특정 단어 이후의 구분 텍스트 확인 결과 비문이 아니고 텍스트 전체에 컨텐츠 명칭이 없으면, 금번 음성 입력의 문장 구조를 제3 문장 구조로 구분한 구분 결과를 활용하는 것으로 판단할 수 있다.

만약, 음성분석장치(100)는, 특정 단어 이후의 구분 텍스트 확인 결과 비문이거나 또는 텍스트 전체에 컨텐츠 명칭이 있고 텍스트 전체의 확인 결과 비문이 아니면, 금번 음성 입력의 문장 구조를 제3 문장 구조로 구분한 구분 결과를 활용하지 않는 것으로 판단할 수 있다.

음성분석장치(100)는, 음성 입력의 문장 구조를 구분한 결과를 활용하는 것으로 판단하면(S43 Yes), 제2 문장 구조로 구분한 경우 금번 음성 입력 전체(텍스트 전체) 중 특정 단어로 구분되는 2 이상의 문장 각각을 순차적으로 분석하여 금번 음성 입력의 문장 별로 발화 의도를 판단할 수 있다(S44).

이렇게 되면, 도 3의 S50단계에서는, S40(도 4의 S44)단계에서 판단된 각 문장(구분 텍스트) 별 발화 의도에 따른 각 제어신호를 각 제어대상 기기(예: 전등, TV)로 전송하여, 전등 불이 꺼지도록 하고 TV가 켜지도록 할 수 있다.

한편, 음성분석장치(100)는, 음성 입력의 문장 구조를 구분한 결과를 활용하는 것으로 판단하면(S43 Yes), 제3 문장 구조로 구분한 경우 금번 음성 입력 전체(텍스트 전체) 중 특정 단어 이후에 연결된 일부 문장 만을 분석하여 금번 음성 입력의 발화 의도를 판단할 수 있다(S44).

이렇게 되면, 도 3의 S50단계에서는, S40(도 4의 S44)단계에서 판단된 발화 의도에 따른 제어신호를 제어대상 기기(예: 알람시계, 또는 내부 알람기능)로 전송하여, 7시에 알람이 설정되도록 할 수 있다.

한편, 음성분석장치(100)는, 음성 입력의 문장 구조를 구분한 결과를 활용하지 않는 것으로 판단하면(S43 No), 금번 음성 입력의 텍스트 전체를 분석하여 금번 음성 입력의 발화 의도를 판단할 수 있다(S47).

즉, 음성분석장치(100)는, 음성 입력의 문장 구조를 제2 또는 제3 문장 구조로 구분한 경우라도 이를 활용하지 않는 것으로 판단하면, 금번 음성 입력의 텍스트 전체에 대해 언어 분석(NLU 분석)을 수행하여 금번 음성 입력의 발화 의도를 판단할 수 있다.

이상에서 설명한 바와 같이, 본 발명에 따른 음성분석장치의 동작 방법에 의하면, 음성 입력에 대한 사용자 발화 의도를 판단하기에 앞서, 음성 입력을 실제 대화 시 구분할 수 있는 대표적인 문장 구조들 중 하나로 구분하고 구분한 문장 구조에 맞는 방식으로 음성 입력의 텍스트 분석 및 사용자 발화 의도를 판단하는 방식으로 대화형 음성 인터페이스를 실현함으로써, 기존의 단순한 명령형 음성 인터페이스가 갖는 문제점들, 예컨대 음성 발화 중 음성 입력을 수정할 수 없는 제약, 2 가지 이상의 명령을 한번의 음성 입력을 할 수 없었던 불편함, 음성 발화 중 명령을 잠시 멈춘 후 이어서 명령할 수 없었던 낮은 자유도의 단점을 해결할 수 있는 효과를 도출한다.

본 발명의 실시예들은, 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

지금까지 본 발명을 바람직한 실시 예를 참조하여 상세히 설명하였지만, 본 발명이 상기한 실시 예에 한정되는 것은 아니며, 이하의 특허청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 또는 수정이 가능한 범위까지 본 발명의 기술적 사상이 미친다 할 것이다.

본 발명에 따른 음성분석장치 및 음성분석장치의 동작 방법에 따르면, 단순 명령형의 음성 인터페이스 수준에서 벗어나 대화형의 음성 인터페이스를 실현하는 점에서, 기존 기술의 한계를 뛰어 넘음에 따라 관련 기술에 대한 이용만이 아닌 적용되는 장치의 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있는 발명이다.

100 : 음성분석장치
110 : 음성수신부 120 : STT
130 : 문장구조구분부 140 : 발화의도판단부
150 : 출력부

Claims

사용자에 의해 발화되는 음성 입력을 수신하는 음성수신부;
상기 수신된 음성 입력을 분석하여 상기 음성 입력의 문장 구조를 구분하는 문장구조구분부;
상기 구분된 문장 구조에 따라 상기 음성 입력에 대한 발화 의도를 판단하는 발화의도판단부를 포함하는 것을 특징으로 하는 음성분석장치.
제 1 항에 있어서,
상기 문장구조구분부는,
문장 구조 판단을 위해 기 정의된 특정 단어가 상기 음성 입력에 포함되는 경우, 상기 음성 입력의 문장 구조를 상기 특정 단어와 매칭되는 문장 구조로 구분하는 것을 특징으로 하는 음성분석장치.
제 2 항에 있어서,
상기 문장구조구분부는,
문장 구조 판단을 위해 기 정의된 특정 단어가 상기 음성 입력에 포함되는 경우, 문장 구조 판단을 위해 기 저장된 특정 명칭정보와 매칭된다면 상기 음성 입력의 문장 구조를 단일 의도의 처리를 명령하는 제1 문장 구조로 구분하는 것을 특징으로 하는 음성분석장치.
제 2 항에 있어서,
상기 문장구조구분부는,
상기 특정 단어가 상기 음성 입력에 포함되지 않는 경우, 상기 음성 입력의 문장 구조를 단일 의도의 처리를 명령하는 제1 문장 구조로 구분하는 것을 특징으로 하는 음성분석장치.
제 1 항에 있어서,
상기 음성 입력의 문장 구조는,
단일 의도의 처리를 명령하는 문장으로 이루어지는 제1 문장 구조,
각 의도의 처리를 명령하는 2 이상의 문장이 특정 단어로 연결되는 제2 문장 구조,
특정 단어로 연결되는 2 이상의 문장 중, 상기 특정 단어 이후의 일부 문장의 의도 처리 만을 명령하는 제3 문장 구조,
문장의 가장 마지막에 특정 단어가 연결되어, 상기 문장에 따른 의도 처리 대기를 명령하는 제4 문장 구조 중 적어도 어느 하나로 구분되는 것을 특징으로 하는 음성분석장치.
제 5 항에 있어서,
상기 발화의도판단부는,
상기 음성 입력의 문장 구조를 상기 제2 또는 상기 제3 문장 구조로 구분한 경우,
상기 음성 입력 전체 및 상기 음성 입력 전체에서 상기 특정 단어를 기준으로 구분되는 일부 음성 입력을 이용하여, 상기 음성 입력의 문장 구조를 구분한 결과에 대한 활용 여부를 판단하는 것을 특징으로 하는 음성분석장치.
제 6 항에 있어서,
상기 발화의도판단부는,
상기 음성 입력의 문장 구조를 구분한 결과를 활용하는 것으로 판단하면,
상기 제2 문장 구조로 구분한 경우 상기 음성 입력 전체 중 상기 특정 단어로 구분되는 2 이상의 문장 각각을 순차적으로 분석하여 상기 음성 입력의 문장 별로 발화 의도를 판단하고,
상기 제3 문장 구조로 구분한 경우 상기 음성 입력 전체 중 상기 특정 단어 이후에 연결된 일부 문장 만을 분석하여 상기 음성 입력의 발화 의도를 판단하는 것을 특징으로 하는 음성분석장치.
제 6 항에 있어서,
상기 발화의도판단부는,
상기 음성 입력의 문장 구조를 구분한 결과를 활용하지 않는 것으로 판단하면, 상기 음성 입력 전체를 분석하여 상기 음성 입력의 발화 의도를 판단하는 것을 특징으로 하는 음성분석장치.
제 5 항에 있어서,
상기 음성수신부는, 사용자에 의한 발화 시작시점부터 발화 종료시점까지 수신되는 음성을 상기 음성 입력으로서 수신하며,
상기 발화의도판단부는,
상기 음성 입력의 문장 구조를 상기 제4 문장 구조로 구분한 경우, 상기 음성 입력에 대한 발화 의도 판단을 대기하며 상기 음성수신부로 하여금 상기 발화 종료시점 이후에도 음성 수신을 대기하도록 하는 것을 특징으로 하는 음성분석장치.
사용자에 의해 발화되는 음성 입력을 수신하는 음성수신단계;
상기 수신된 음성 입력을 분석하여 상기 음성 입력의 문장 구조를 구분하는 문장구조구분단계; 및
상기 구분된 문장 구조에 따라 상기 음성 입력에 대한 발화 의도를 판단하는 발화의도판단단계를 포함하는 것을 특징으로 하는 음성분석장치의 동작 방법.
제 10 항에 있어서,
상기 문장구조구분단계는,
문장 구조 판단을 위해 기 정의된 특정 단어가 상기 음성 입력에 포함되는 경우, 상기 음성 입력의 문장 구조를 상기 특정 단어와 매칭되는 문장 구조로 구분하는 것을 특징으로 하는 음성분석장치의 동작 방법.
제 10 항에 있어서,
상기 음성 입력의 문장 구조는,
단일 의도의 처리를 명령하는 문장으로 이루어지는 제1 문장 구조,
각 의도의 처리를 명령하는 2 이상의 문장이 특정 단어로 연결되는 제2 문장 구조,
특정 단어로 연결되는 2 이상의 문장 중, 상기 특정 단어 이후의 일부 문장의 의도 처리 만을 명령하는 제3 문장 구조,
문장의 가장 마지막에 특정 단어가 연결되어, 상기 문장에 따른 의도 처리 대기를 명령하는 제4 문장 구조 중 적어도 어느 하나로 구분되는 것을 특징으로 하는 음성분석장치의 동작 방법.
제 10 항 내지 제 12 항 중 어느 한 항의 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능 기록매체.
제 10 항 내지 제 12 항 중 어느 한 항의 방법을 실행시키기 위해 매체에 저장된 컴퓨터 프로그램.