KR20230012715A - 대화 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램 - Google Patents

대화 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR20230012715A
KR20230012715A KR1020210093284A KR20210093284A KR20230012715A KR 20230012715 A KR20230012715 A KR 20230012715A KR 1020210093284 A KR1020210093284 A KR 1020210093284A KR 20210093284 A KR20210093284 A KR 20210093284A KR 20230012715 A KR20230012715 A KR 20230012715A
Authority
KR
South Korea
Prior art keywords
feedback
user
candidate
applications
speech
Prior art date
Application number
KR1020210093284A
Other languages
English (en)
Inventor
백두산
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020210093284A priority Critical patent/KR20230012715A/ko
Publication of KR20230012715A publication Critical patent/KR20230012715A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

대화 서비스를 제공하는 서버는 복수의 어플리케이션에 대한 독음 사전을 구축하는 사전 구축부, 음성 인터페이스 제공 장치로부터 사용자 발화를 수신하는 수신부, 독음 사전에 기초하여 수신된 사용자 발화에 대한 적어도 하나의 후보 피드백 발화 정보를 생성하는 후보 피드백 발화 생성부 및 복수의 어플리케이션 중 후보 피드백 발화 정보를 처리 가능할 수 있는 적어도 하나의 후보 어플리케이션을 도출하고, 도출된 후보 어플리케이션에 기초하여 사용자 발화에 대한 피드백을 제공할지 여부를 결정하는 결정부를 포함할 수 있다.

Description

대화 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램{SERVER, METHOD AND COMPUTER PROGRAM FOR PROVIDING DIALOG SERVICE}
본 발명은 대화 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램에 관한 것이다.
기존의 음성 기반 AI 플랫폼은 STT(Speech To Text, 음성인식) 과정과 NLU(Natural Language Understand, 언어 이해 및 분석) 과정을 통해 사용자의 발화로부터 사용자 의도를 파악한 후, 이에 적합한 서비스를 호출하여 제공하였다.
STT 과정은 AI 단말로부터 수신된 사용자의 발화를 텍스트로 변환하는 과정이다. 음성인식의 결과(텍스트 형태의 사용자 발화)를 음성 인식 서비스에 그대로 활용할 수도 있으나 사용자 발화의 변형이 크기 때문에 이를 어플리케이션에서 수용하기에는 어려움이 있다. 예를 들어, 도 1a를 참조하면, '노래 틀어줘', '노래 틀어주라', '노래 틀어줄래?' 등과 같은 사용자 발화가 입력되면, 음악 어플리케이션은 해당 사용자 발화에 대응하여 음악 서비스를 제공해야 한다. 만일, 음악 어플리케이션에서 '노래 틀어줘', '노래 틀어주라'에 대응하는 발화에 대하여 서비스 처리가 되도록 구현되었고, '노래 틀어줄래?'에 대응하는 발화에 대해서는 서비스 처리가 구현되지 않았다면 '노래 틀어줄래'의 사용자 발화에 대해서는 음성 서비스가 제공되지 않는다.
현재 서비스되고 있는 음성 기반 AI 플랫폼은 도 1b와 같이 NLU 과정을 사용하여 텍스트로 변환된 사용자 발화를 해석하고, 해석 결과를 어플리케이션의 입력으로 활용한다. 도 1b를 참조하면 NLU 과정은 '노래 틀어줘', '노래 틀어주라', '노래 틀어줄래?' 등의 다양한 사용자 발화로부터 사용자 의도에 해당하는 <Intent: 'PlayMusic'>를 출력한다. 따라서, 뒷 단의 어플리케이션은 사용자 발화에 대한 텍스트 변형과 상관없이 'PlayMusic'에 대한 기능을 수행함으로써 어플리케이션 본연의 비즈니스 로직에 집중할 수 있다.
음성 기반 AI 플랫폼은 사용자 발화에 대한 STT 처리 및 NLU 처리 기능을 제공하고, 어플리케이션은 이를 활용하여 서비스를 제공한다. 음성 기반 AI 플랫폼과 어플리케이션은 에코 시스템(Eco-System)을 구성하고 있으며, 에코 시스템 내에서 상호 독립적으로 운용된다. 이로 인해, 하나의 AI 플랫폼에서 다양한 어플리케이션이 실행될 수도, 동일한 형상을 갖는 하나의 어플리케이션이 다양한 AI 플랫폼에서 실행될 수도 있다.
음성 기반 AI 플랫폼이 NLU 처리 기능을 제공함에도 불구하고, 어플리케이션에 따른 적절한 대화 분석을 제공하기 위해서는 어플리케이션 별로 서로 다른 대화모델(DM, Dialog Model)이 구축되어야 한다. 이는 동일한 발화임에도 서비스별로 의도('intent')가 다르기 때문이다. 예를 들면, '알려줘', '보여줘'라는 서술어는 어플리케이션에 따라 동일한 의도로 파악되어야 하거나, 혹은 서로 다른 의도로 파악되어야 할 수 있다.
한편, 음성 기반 AI 플랫폼 및 복수의 어플리케이션으로 구성되는 에코 시스템에서는 동일 사용자 발화에 대한 서로 다른 어플리케이션 간의 충돌 문제, 동일한 발음을 갖는 표제어로 인한 충돌 문제가 발생한다.
도 1c와 같이 동일한 사용자 발화에 대하여 서로 다른 어플리케이션에서 처리가능한 경우, 어떠한 어플리케이션을 실행할지에 대한 충돌 문제가 발생할 수 있다. 도 1c를 참조하면, '보헤미안 랩소디'는 노래 제목이면서 동시에 영화 제목이기도 하다. 사용자로부터 '보헤미안 랩소디 틀어'라는 사용자 발화가 입력되면, 에코 시스템에서는 동일한 사용자 발화에 대하여 음악 어플리케이션을 실행해야 하는지 영화 어플리케이션을 실행해야 하는지를 명확하게 판단할 수 없다.
동일한 발음을 갖는 표제어로 인한 충돌 문제도 발생할 수 있다. 일반적으로 어플리케이션의 서비스 제공을 위해 필요한 인덱스 정보(예컨대, 노래 이름, 영화 이름, 사람 이름 등)는 텍스트를 기반으로 하고 있다. 하지만, 음성 기반 AI 플랫폼은 VUI(Voice User Interface) 상에서 사용자의 입력을 음성의 형태로 수신한다. 어플리케이션에서 관리되는 정보의 형태(텍스트)와 이를 호출하기 위한 파라미터의 형태(음성) 간의 이질적인 특징을 고려하여 GUI(Graphical User Interface)와는 다른 처리가 필요하다.
예를 들면, 사용자가 [땡큐]라는 발화를 한 경우, 해당 발화에 대하여 해석될 수 있는 표제어(Text)는 'thnak u', 'thank you', '땡큐', 'thank q' 등이 있다. 이는, 음성 형태와 텍스트 형태의 차이로 인해 나타난다. 도 1d는 [땡큐]라는 발음을 갖는 'Thank U' 표제어(10), 'Thank you' 표제어(20), '땡큐' 표제어(30) 각각을 음악 어플리케이션에서 검색할 때의 검색 결과이다. 도 1d의 예시와 같이, 음악 어플리케이션에서 사용자가 [땡큐] 라고 발음할 때, 도 1e와 같이, 'thank u' 표제어, 'thank you' 표제어, '땡큐' 표제어, '땡유' 표제어, 'thank q' 표제어 중 어떤 것을 선택하여 검색을 수행할지에 대한 이슈가 발생한다.
이러한 동일 사용자 발화에 대한 서로 다른 어플리케이션 간의 충돌 문제와 동일한 발음을 갖는 표제어로 인한 충돌 문제는 하나의 동일한 사용자 발화에 대응하여 제공할 수 있는 복수의 선택지 중 하나를 선택하는 문제로 치환하여 생각할 수 있다.
복수의 선택지 중 하나를 선택함에 있어 활용되는 방안에는 서비스 제공자의 판단에 기초하여 선택적으로 제공하는 제1 방안, 사용자에게 직접 질의 응답을 수행하는 제 2 방안과, 간접 정보를 활용하여 사용자의 의도를 유추하는 제 3 방안이 있다.
제 1 방안의 경우, 서비스 제공자의 판단에 기초하여 서비스를 제공하기 때문에 사용자의 의도와는 다른 서비스가 제공될 여지가 있다. 또한, 보다 정확한 서비스 제공을 위해 서비스 제공자가 지속적으로 판단 근거를 추적하고 판단 정책을 관리해야 한다는 어려움을 갖는다.
제 2 방안의 경우, 사용자에게 직접 질의 응답을 수행하기 때문에 사용자의 의도에 맞는 서비스 제공이 가능하다. 하지만, VUI를 통해 제공된 정보는 사용자의 기억에서 빠른 시간 내 휘발될 개연성이 높고, 비순차적 임의 접근이 불가능하기 때문에 정보량에 비례하여 시간이 오래 걸린다는 특정을 갖는다. 이로 인해, 질의 응답 과정에서 사용자의 불편함을 야기한다.
제 3 방안의 경우, 사용자의 과거 사용 이력이 있다면, 과거 사용 이력에 기반한 선택지를 선택할 수 있고, 과거 사용 이력이 없다면 다른 사용자들의 사용 이력을 참고할 수 있다. 하지만, 사용 이력을 활용하는 주체인 음성 기반 AI 플랫폼과 사용 이력에 접근 가능한 주체인 어플리케이션이 서로 다르다. 이로 인해, 사용 이력 참조를 위해서는 음성 기반 AI 플랫폼과 에코 시스템 내 모든 어플리케이션 간의 추가적인 인터페이스 확보해야 하는 단점이 있다.
한국공개특허공보 제2019-0061706호 (2019.06.05. 공개)
본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 복수의 어플리케이션별 독음 사전에 기초하여 사용자 발화에 대한 후보 피드백 발화 정보를 생성하고자 한다. 또한, 본 발명은 후보 피드백 발화 정보를 처리 가능한 어플리케이션에 기초하여 사용자 발화에 대한 피드백을 제공할지 여부를 결정하고자 한다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 대화 서비스를 제공하는 서버는 복수의 어플리케이션에 대한 독음 사전을 구축하는 사전 구축부; 음성 인터페이스 제공 장치로부터 사용자 발화를 수신하는 수신부; 상기 독음 사전에 기초하여 상기 수신된 사용자 발화에 대한 적어도 하나의 후보 피드백 발화 정보를 생성하는 후보 피드백 발화 생성부; 및 상기 복수의 어플리케이션 중 상기 후보 피드백 발화 정보를 처리 가능할 수 있는 적어도 하나의 후보 어플리케이션을 도출하고, 상기 도출된 후보 어플리케이션에 기초하여 상기 사용자 발화에 대한 피드백을 제공할지 여부를 결정하는 결정부를 포함할 수 있다.
본 발명의 제 2 측면에 따른 대화 서비스 제공 서버에 의해 수행되는 대화 서비스를 제공하는 방법은 복수의 어플리케이션에 대한 독음 사전을 구축하는 단계; 음성 인터페이스 제공 장치로부터 사용자 발화를 수신하는 단계; 상기 독음 사전에 기초하여 상기 수신된 사용자 발화에 대한 적어도 하나의 후보 피드백 발화 정보를 생성하는 단계; 상기 복수의 어플리케이션 중 상기 후보 피드백 발화 정보를 처리 가능할 수 있는 적어도 하나의 후보 어플리케이션을 도출하는 단계; 및 상기 도출된 후보 어플리케이션에 기초하여 상기 사용자 발화에 대한 피드백을 제공할지 여부를 결정하는 단계를 포함할 수 있다.
본 발명의 제 3 측면에 따른 대화 서비스를 제공하는 명령어들의 시퀀스를 포함하는 컴퓨터 판독가능 기록매체에 저장된 컴퓨터 프로그램은 컴퓨팅 장치에 의해 실행될 경우, 복수의 어플리케이션에 대한 독음 사전을 구축하고, 음성 인터페이스 제공 장치로부터 사용자 발화를 수신하고, 상기 독음 사전에 기초하여 상기 수신된 사용자 발화에 대한 적어도 하나의 후보 피드백 발화 정보를 생성하고, 상기 복수의 어플리케이션 중 상기 후보 피드백 발화 정보를 처리 가능할 수 있는 적어도 하나의 후보 어플리케이션을 도출하고, 상기 도출된 후보 어플리케이션에 기초하여 상기 사용자 발화에 대한 피드백을 제공할지 여부를 결정하는 명령어들의 시퀀스를 포함할 수 있다.
상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 본 발명은 복수의 어플리케이션별 독음 사전에 기초하여 사용자 발화에 대한 후보 피드백 발화 정보를 생성하고, 후보 피드백 발화 정보를 처리 가능한 어플리케이션에 기초하여 사용자 발화에 대한 피드백을 제공할지 여부를 서비스 제공자(또는 어플리케이션 관리자 등)의 개입없이 동적으로 결정할 수 있다.
이를 통해, 본 발명은 기존의 음성 기반 AI 플랫폼에서 수행되던 일률적인 연속 발화 피드백 과정을 거치지 않으면서 사용자 편리성을 확보할 수 있다.
또한, 본 발명은 동일한 사용자 발화를 처리할 수 있는 서로 다른 어플리케이션 간 충돌 문제 및 동일한 발음을 갖는 표제어로 인한 충돌 문제를 복수의 어플리케이션에 대한 과거 사용자 피드백 정보에 기초하여 해결하기 때문에 발화 응답에 대한 정확성을 높일 수 있다.
도 1a 내지 1e은 종래의 대화 서비스를 제공하는 방법을 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른, 대화 서비스 제공 시스템의 구성도이다.
도 3은 본 발명의 일 실시예에 따른, 도 2에 도시된 대화 서비스 제공 서버의 블록도이다.
도 4는 본 발명의 일 실시예에 따른, 독음 사전을 구축하는 방법을 설명하기 위한 도면이다.
도 5a 내지 5e는 본 발명의 일 실시예에 따른, 대화 서비스를 제공하는 방법을 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른, 대화 서비스를 제공하는 방법을 나타낸 흐름도이다.
도 7은 본 발명의 다른 실시예에 따른, 대화 서비스를 제공하는 방법을 나타낸 흐름도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다.
본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다.
이하, 첨부된 구성도 또는 처리 흐름도를 참고하여, 본 발명의 실시를 위한 구체적인 내용을 설명하도록 한다.
도 2는 본 발명의 일 실시예에 따른, 대화 서비스 제공 시스템의 구성도이다.
도 2를 참조하면, 대화 서비스 제공 시스템은 대화 서비스 제공 서버(100) 및 음성 인터페이스 제공 장치(110)를 포함할 수 있다. 다만, 이러한 도 2의 대화 서비스 제공 시스템은 본 발명의 일 실시예에 불과하므로 도 2를 통해 본 발명이 한정 해석되는 것은 아니며, 본 발명의 다양한 실시예들에 따라 도 2와 다르게 구성될 수도 있다.
일반적으로, 도 2의 대화 서비스 제공 시스템의 각 구성요소들은 네트워크(미도시)를 통해 연결된다. 네트워크는 단말들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network), 인터넷 (WWW: World Wide Web), 유무선 데이터 통신망, 전화망, 유무선 텔레비전 통신망 등을 포함한다. 무선 데이터 통신망의 일례에는 3G, 4G, 5G, 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), WIMAX(World Interoperability for Microwave Access), 와이파이(Wi-Fi), 블루투스 통신, 적외선 통신, 초음파 통신, 가시광 통신(VLC: Visible Light Communication), 라이파이(LiFi) 등이 포함되나 이에 한정되지는 않는다.
대화 서비스 제공 서버(100)는 VUI 기반으로 사용자 발화를 입력 및 처리함으로써 음성인식을 수행할 수 있으며, 음성인식을 통해 각 어플리케이션을 제어함으로써 각 어플리케이션에 해당하는 서비스를 제공할 수 있다.
대화 서비스 제공 서버(100)는 복수의 어플리케이션에 대한 독음 사전을 구축할 수 있다. 여기서, 독음 사전은 복수의 어플리케이션 각각에서 처리할 수 있는 표제어 및 표제어에 대한 발음 정보로 구성된 사전일 수 있다.
대화 서비스 제공 서버(100)는 음성 인터페이스 제공 장치(110)로부터 사용자 발화를 수신할 수 있다.
대화 서비스 제공 서버(100)는 독음 사전에 기초하여 수신된 사용자 발화에 대한 적어도 하나의 후보 피드백 발화 정보를 생성할 수 있다.
대화 서비스 제공 서버(100)는 복수의 어플리케이션 중 후보 피드백 발화 정보를 처리 가능할 수 있는 적어도 하나의 후보 어플리케이션을 도출하고, 도출된 후보 어플리케이션에 기초하여 사용자 발화에 대한 피드백을 제공할지 여부를 결정할 수 있다.
사용자 발화에 대한 피드백 제공 여부에 따라 피드백 과정을 생략하는 경우, 대화 서비스 제공 서버(100)는 사용자 발화에 기초하여 특정 어플리케이션을 바로 실행시켜 음성 인터페이스 제공 장치(110)를 통해 서비스를 제공할 수 있다. 이를 통해, 피드백 과정을 생략함으로써 사용자의 편의성을 증가시킬 수 있다.
사용자 발화에 대한 피드백 과정을 수행하는 것으로 결정한 경우, 대화 서비스 제공 서버(100)는 복수의 후보 어플리케이션 중 어느 어플리케이션으로 서비스를 실행할지 여부를 질의하는 피드백을 음성 인터페이스 제공 장치(110)를 통해 사용자에게 제공할 수 있다. 이를 통해, 사용자 발화에 대한 피드백 과정을 제공함으로써 음성 인식 서비스에 대한 정확성을 높일 수 있다.
이하에서는 도 2의 대화 서비스 제공 시스템의 각 구성요소의 동작에 대해 보다 구체적으로 설명한다.
도 3은 본 발명의 일 실시예에 따른, 도 2에 도시된 대화 서비스 제공 서버(100)의 블록도이다.
도 3을 참조하면, 대화 서비스 제공 서버(100)는 사전 구축부(300), 수신부(310), 후보 피드백 발화 생성부(320) 및 결정부(330)를 포함할 수 있다. 다만, 도 3에 도시된 대화 서비스 제공 서버(100)는 본 발명의 하나의 구현 예에 불과하며, 도 3에 도시된 구성요소들을 기초로 하여 여러 가지 변형이 가능하다.
이하에서는 도 4 내지 도 5e를 함께 참조하여 도 3을 설명하기로 한다.
사전 구축부(300)는 복수의 어플리케이션에 대한 독음 사전을 구축할 수 있다. 여기서, 독음 사전은 복수의 어플리케이션 각각에서 처리할 수 있는 표제어 및 표제어에 대한 발음 정보로 구성된 사전일 수 있다.
예를 들어, 도 4를 참조하면, 사전 구축부(300)는 제 1 어플리케이션(예컨대, 음악 어플리케이션)에서 처리할 수 있는 표제어 및 표제어에 대한 발음 정보를 포함하는 제 1 어플리케이션에 대한 독음 사전(400)을 구축할 수 있다. 또한, 사전 구축부(300)는 제 2 어플리케이션(예컨대, 올레 TV)에서 처리할 수 있는 표제어 및 표제어에 대한 발음 정보를 포함하는 제 2 어플리케이션에 대한 독음 사전(402)을 구축할 수 있다. 또한, 사전 구축부(300)는 제 3 어플리케이션(예컨대, 동영상 제공 어플리케이션)에서 처리할 수 있는 표제어 및 표제어에 대한 발음 정보를 포함하는 제 3 어플리케이션에 대한 독음 사전(404)을 구축할 수 있다.
수신부(310)는 음성 인터페이스 제공 장치(110)로부터 사용자 발화를 수신할 수 있다.
음성 인식부(미도시)는 복수의 어플리케이션에 대한 독음 사전에 기초하여 사용자 발화에 대한 음성인식을 수행할 수 있다. 예를 들면, 도 5a를 참조하면, 사용자 발화가 '[땡큐] 들어줘'인 경우, 음성 인식부(미도시)는 해당 사용자 발화에 대한 STT 결과로서 'Thank you 틀어줘'를 도출할 수 있고, 'Thank U 틀어줘'를 도출할 수도 있다. 또한, 음성 인식부(미도시)는 독음 사전에 기초하여 해당 사용자 발화에 대한 독음 결과로서 '[땡큐] 틀어줘'를 도출할 수 있다.
후보 피드백 발화 생성부(320)는 독음 사전에 기초하여 수신된 사용자 발화에 대한 적어도 하나의 후보 피드백 발화 정보를 생성할 수 있다.
예를 들어, 도 5a를 참조하면, 후보 피드백 발화 생성부(320)는 음성인식된 사용자 발화(예컨대, '[땡큐] 틀어줘')에 포함된 표제어의 발음(예컨대, '[땡큐]')과 동일한 발음을 갖는 표제어(예컨대, 'Thank you', 'Thank U')를 독음 사전으로부터 검색하고, 검색된 검색 결과에 기초하여 후보 피드백 발화 정보(501, 505, 예컨대, 'Thank you 틀어줘', 'Thank U 틀어줘')를 생성할 수 있다.
결정부(330)는 복수의 어플리케이션 중 후보 피드백 발화 정보를 처리 가능할 수 있는 적어도 하나의 후보 어플리케이션을 도출할 수 있다.
결정부(330)는 각 어플리케이션 고유의 대화 처리를 위해 복수의 어플리케이션별 대화 모델(DM, Dialog Model)을 이용하여 후보 피드백 발화 정보를 처리할 수 있는 후보 어플리케이션을 도출할 수 있다.
예를 들면, 도 5a를 참조하면, 결정부(330)는 복수의 어플리케이션 각각에 대응하는 대화 모델을 이용하여 제 1 후보 피드백 발화 정보(501, 예컨대, 'Thank you 틀어줘')를 처리할 수 있는 제 1 후보 어플리케이션 후보군(503)을 도출할 수 있다.
결정부(330)는 복수의 어플리케이션 각각에 대응하는 대화 모델을 이용하여 제 1 후보 피드백 발화 정보(501)에 대한 대화 분석을 수행하고, 대화 분석이 가능한 어플리케이션을 제 1 후보 어플리케이션 후보군(503)으로 선정할 수 있다.
결정부(330)는 복수의 어플리케이션 각각에 대응하는 대화 모델을 이용하여 제 2 후보 피드백 발화 정보(505, 예컨대, 'Thank U 틀어줘')를 처리할 수 있는 제 2 후보 어플리케이션 후보군(507)을 도출할 수 있다.
결정부(330)는 복수의 어플리케이션 각각에 대응하는 대화 모델을 이용하여 제 2 후보 피드백 발화 정보(505)에 대한 대화 분석을 수행하고, 대화 분석이 가능한 어플리케이션을 제 2 후보 어플리케이션 후보군(507)으로 선정할 수 있다.
다시 도 3으로 돌아오면, 결정부(330)는 기설정된 조건에 기초하여 도출된 후보 어플리케이션 중 적어도 어느 하나의 후보 어플리케이션을 제외시킬 수 있다. 여기서, 기설정된 조건은 음성 인터페이스 제공 장치(110)에서 실행 중이거나 음성 인터페이스 제공 장치(110)와 연계된 장치에서 실행 중인 어플리케이션에 대한 정보를 포함할 수 있다.
예를 들면, 도 5a를 참조하면, 결정부(330)는 음성 인터페이스 제공 장치(110)와 연계된 셋탑 박스를 통해 제 1 어플리케이션(509, 예컨대, 동영상 제공 어플리케이션)가 실행중인 경우, 제 1 후보 어플리케이션 후보군(503) 및 제 2 후보 어플리케이션 후보군(507)에서 제 1 어플리케이션(509)을 제외하고 나머지 후보군을 제거할 수 있다.
다른 예로, 음성 인터페이스 제공 장치(110)에서 제 2 어플리케이션(예컨대, 음악 어플리케이션)을 통해 음악이 출력되고 있는 상황인 경우, 결정부(330)는 복수의 후보 어플리케이션에서 제 2 어플리케이션을 제외하고 나머지 후보군을 제거할 수 있다.
다른 예로, 결정부(330)는 기설정된 기간 동안 어플리케이션에 대한 사용자 사용 이력이 없는 어플리케이션을 도출된 후보 어플리케이션에서 제외시킬 수 있다.
다른 예로, 사용자 발화에 대한 피드백을 수행했던 유효 기간 내 사용자가 이용했던 어플리케이션이 후보 어플리케이션에 존재하는 경우, 결정부(330)는 해당 어플리케이션을 제외한 나머지 후보군을 후보 어플리케이션에서 제외시킬 수 있다.
결정부(330)는 도출된 적어도 하나의 후보 어플리케이션에 기초하여 사용자 발화에 대한 피드백을 제공할지 여부를 결정할 수 있다.
결정부(330)는 복수의 어플리케이션에 대한 과거 사용자 피드백 정보에 기초하여 복수의 어플리케이션별로 후보 피드백 발화 정보에 대한 피드백 제공 확률을 계산할 수 있다.
이 때, 결정부(330)는 [수학식 1]을 이용하여 피드백 제공 확률을 계산할 수 있다.
[수학식 1]
Figure pat00001
여기서,
Figure pat00002
()는 어플리케이션별 총사용횟수 내 i 번째 큰값이고,
Figure pat00003
는 피드백을 통해 어플리케이션 i를 선택한 횟수이고,
Figure pat00004
은 피드백 제공 임계 확률값이고, Y는 피드백 제공 확률을 의미한다.
예를 들어, 도 5a 및 도 5b를 함께 참조하면, 결정부(330)는 제 1 후보 어플리케이션 후보군(503)에 대한 과거 사용자 피드백 정보(511)에 기초하여 제 1 후보 어플리케이션 후보군(503)에 포함된 후보 어플리케이션별 제 1 후보 피드백 발화 정보(501)에 대한 피드백 제공 확률을 계산할 수 있다. 예를 들어, 과거 사용자 피드백 정보(511)는 기설정된 기간 동안 날짜별로 사용자가 제 1 후보 어플리케이션 후보군(503)을 사용한 어플리케이션 사용 횟수 정보를 포함할 수 있다.
도 5c를 참조하면, 결정부(330)는 제 1 후보 어플리케이션 후보군(503)에 포함된 각 어플리케이션에 대한 과거 사용자 피드백 정보(511)를 이용하여 기설정된 기간 동안(예컨대, 6/7~6/11)의 각 어플리케이션별 총 사용 횟수 정보를 계산할 수 있다. 이어서, 결정부(330)는 각 어플리케이션별 총 사용 횟수 정보 중 가장 큰값을 갖는 총 사용횟수 정보(총 '452'회 사용횟수) 및 다음으로 큰값을 갖는 사용횟수 정보(총 '388'회 사용횟수)를 이용하여 사용자 발화에 대한 피드백 제공 확률을 계산할 수 있다. 도 5b 및 도 5c를 함께 참조하면, 유효 기간(6/7~6/11) 내 [수학식 1]을 통해 계산된 피드백 제공 확률(Y)은
Figure pat00005
(
Figure pat00006
,
Figure pat00007
)이다. 즉, 결정부(330)는 피드백 제공 임계 확률값이 0.858(388/452) 보다 작다면, 85.8%의 확률로 사용자 발화에 대한 피드백을 수행할 수 있다.
한편, 도출된 복수의 후보 어플리케이션의 개수가 기설정된 개수 이상인 경우, 결정부(330)는 각 후보 어플리케이션에 대한 사용자 선택 비율을 계산하고, 각 후보 어플리케이션별 사용자 선택 비율에 기초하여 복수의 후보 어플리케이션에서 일부 후보 어플리케이션을 제외시킬 수 있다.
예를 들어, 도 5d를 참조하면, 음성 유저 인터페이스(VLU)에 대한 단점(예컨대, 정보 휘발성의 한계)를 고려하여 후보군으로 선정된 후보 어플리케이션의 개수가 5개 이상인 경우, 결정부(330)는 각 후보 어플리케이션마다 사용자 선택 비율을 계산한 후, 사용자 선택 비율에 기초하여 4개의 후보 어플리케이션(513)을 선택하고, 선택된 4개의 후보 어플리케이션(513)별 후보 피드백 발화 정보에 대한 피드백 제공 확률을 계산할 수 있다.
결정부(330)는 복수의 어플리케이션별 사용 이력 정보에 기초하여 가중치를 부여함으로써 복수의 어플리케이션별로 후보 피드백 발화 정보에 대한 피드백 제 공 확률을 계산할 수 있다. 이 때, 결정부(330)는 [수학식 2]와 같이 어플리케이션의 사용 이력 정보에 기초하여 가중치를 부여하여 피드백 제공 확률을 계산할 수 있다.
[수학식 2]
Figure pat00008
여기서,
Figure pat00009
()는 어플리케이션별 총사용횟수 내 i 번째 큰값이고,
Figure pat00010
는 (어플리케이션의 사용 이력 정보를 고려한) 피드백을 통해 어플리케이션 i를 선택한 횟수이고,
Figure pat00011
은 피드백 제공 임계 확률값 이고, Y는 피드백 제공 확률을 의미한다.
예를 들면, 도 5e를 참조하면, 결정부(330)는 제 1 후보 어플리케이션 후보군(503)을 사용한 어플리케이션 사용 횟수 정보마다 기설정된 기간 내 날짜별로 상이한 가중치를 부여하고, 각 어플리케이션별로 가중치가 반영된 총 사용횟수를 계산할 수 있다.
예를 들면, 6/7 내지 6/11 동안의 날짜별 가중치가 6/7에 대한 제 1 가중치(예컨대, 1점), 6/8에 대한 제 2 가중치(예컨대, 2점), 6/9에 대한 제 3 가중치(예컨대, 3점), 6/10에 대한 제 4 가중치(예컨대, 4점) 및 6/11에 대한 제 5 가중치(예컨대, 5점)로 설정된 경우, 결정부(330)는 6/7에서의 제 1 어플리케이션(509, 예컨대, 동영상 제공 어플리케이션)에 대한 사용 횟수에 제 1 가중치를 반영하고, 6/8에서의 제 1 어플리케이션(509)에 대한 사용 횟수에 제 2 가중치를 반영하고, 6/9에서의 제 1 어플리케이션(509)에 대한 사용 횟수에 제 3 가중치를 반영하고, 6/10에서의 제 1 어플리케이션(509)에 대한 사용 횟수에 제 4 가중치를 반영하고, 6/11에서의 제 1 어플리케이션(509)에 대한 사용 횟수에 제 5 가중치를 반영한 후, 각 날짜별로 가중치가 반영된 사용 횟수에 대한 총합(가중치가 반영된 총 '1518'회 사용횟수을 계산할 수 있다.
이어서, 결정부는 각 어플리케이션별 가중치가 반영된 총 사용 횟수 정보 중 큰값을 갖는 총 사용횟수 정보(총 '1953'회 사용횟수) 및 다음으로 큰값을 갖는 사용횟수 정보(총 '1518'회 사용횟수)를 이용하여 사용자 발화에 대한 피드백 제공 확률을 계산할 수 있다. 도 5e를 참조하면, 유효 기간(6/7~6/11) 내 날짜별로 상이한 가중치(즉, 최근 날짜일수록 가중치가 큼)를 각 어플리케이션의 피드백에 대한 사용 횟수에 부여한 후, [수학식 2]를 통해 피드백 제공 확률(Y)을 계산하면,
Figure pat00012
(
Figure pat00013
,
Figure pat00014
)로, 대략 77.7%가 나온다.
결정부(330)는 복수의 어플리케이션별로 도출된 피드백 제공 확률에 기초하여 사용자 발화에 대한 피드백을 제공할지 여부를 결정할 수 있다.
결정부(330)는 기설정된 피드백 제공 임계 확률값(
Figure pat00015
및 복수의 어플리케이션별로 도출된 피드백 제공 확률에 기초하여 사용자 발화에 대한 피드백을 제공할지 여부를 결정할 수 있다. 예를 들면, 결정부(330)는 계산된 피드백 제공 확률이 기설정된 피드백 제공 임계 확률보다 큰 경우, 사용자 발화에 대한 피드백을 제공하는 것으로 결정할 수 있다. 만일, 계산된 피드백 제공 확률이 기설정된 피드백 제공 임계 확률값보다 작은 경우, 사용자 발화에 대한 피드백을 진행하지 않는 것으로 결정할 수 있다.
잠시, 사용자 발화에 대한 피드백의 제공 여부를 결정할 때, 피드백 제공 임계 확률값을 이용하는 이유에 대하여 설명하기로 한다.
본 발명에서 해결하려는 문제는 동일한 사용자 발화에 대하여 제공할 수 있는 복수의 어플리케이션 후보군 중 하나를 선택함에 있어, 사용자의 의도에 맞는 피드백(답변)을 불편하지 않게 사용자에게 제공하는 것이다.
앞서 상술한 바와 같이, 사용자의 정확한 의도 파악을 위해 사용자와의 연속 대화를 통해 어플리케이션 후보군을 안내하고 사용자로부터 피드백 답변을 받는 과정은 사용자에게 불편함을 끼친다.
반대로, 연속 대화를 통한 질의 응답 과정을 생략하고 임의로 특정 서비스를 사용자에게 제안할 경우, 사용자의 의도와는 다른 부정확한 서비스를 제공하게 될 수 있다.
통계적으로 복수의 어플리케이션 후보군 중 어느 하나의 어플리케이션 후보를 선택하는 비율이 높은 경우에는 사용자와의 질의 응답 과정을 생략할 수 있다. 반면, 복수의 어플리케이션 후보군을 선택하는 비율이 비등한 경우, 질의 응답을 수행한다면 정확하면서도 편리한 서비스를 제공할 수 있다.
앞서 언급한 두가지 대응 방식을 통계적인 사용자 선택 비중에 기초하여 확률적으로 제공하기 위해서는 통계적으로 사용자의 선택 비중 정보를 획득하는 과정이 필요하며 연속 대화를 통한 질의 응답 과정이 필요하다.
이는 통계적 사용자의 선택 비중 정보를 획득하기 위한 별도의 추가 노력이 요구되지 않기 때문에 효율적이면서 지속적으로 수행할 수 있고, 시간의 흐름에 따른 변화(트랜드)를 반영할 수도 있다.
이 때, 통계적으로 복수의 어플리케이션 후보군 중 어느 하나를 선택하는 비율이 매우 높아 질의 응답 과정을 수행하는 확률이 0에 수렴하게 되면, 통계적 사용자 선택 비중 정보를 획득하는 경로를 잃게 되어 추후 시간의 흐름에 따른 변화에 대응할 수 없다.
이러한 문제점을 해결하기 위해 피드백 제공 임계 확률값이 필요하며, 이를 통해 복수의 어플리케이션 후보군 중 하나를 선택하는 비율이 매우 높은 경우에도 매우 낮은 확률로도 질의 응답 과정을 수행하여 지속적으로 시간의 흐름에 따른 변화에 적응할 수 있다.
결정부(330)는 도출된 후보 어플리케이션이 1개 인 경우, 사용자 발화에 대한 피드백을 진행하지 않는 것으로 결정할 수 있다.
만일, 사용자의 과거 사용자 피드백 정보가 존재하지 않는다면, 결정부(330)는 복수의 어플리케이션에 대한 복수의 다른 사용자의 사용 이력 정보에 기초하여 사용자 발화에 대한 피드백을 제공할지 여부를 결정할 수 있다.
서비스 제공부(미도시)는 결정부(330)에 의해 결정된 사용자 발화에 대한 피드백의 제공 여부에 기초하여 대화 서비스를 음성 인터페이스 제공 장치(110)를 통해 제공할 수 있다. 예를 들어, 도 5b를 참조하면, 결정부(330)에 의해 사용자 발화(예컨대, '땡큐 틀어줘')에 대한 피드백을 제공하기로 결정된 경우, 서비스 제공부(미도시)는 '제 1 어플리케이션(509, 예컨대, 동영상 제공 어플리케이션), 제 2 어플리케이션(515, 예컨대, 티비 어플리케이션) 및 제 3 어플리케이션(519, 예컨대, 음악 어플리케이션) 중 하나를 선택해주세요'를 포함하는 피드백에 대한 대화 서비스를 음성 인터페이스 제공 장치(110)를 통해 사용자에게 제공할 수 있다.
한편, 당업자라면, 사전 구축부(300), 수신부(310), 후보 피드백 발화 생성부(320) 및 결정부(330) 각각이 분리되어 구현되거나, 이 중 하나 이상이 통합되어 구현될 수 있음을 충분히 이해할 것이다.
도 6은 본 발명의 일 실시예에 따른, 대화 서비스를 제공하는 방법을 나타낸 흐름도이다.
도 6을 참조하면, 단계 S601에서 대화 서비스 제공 서버(100)는 음성 인터페이스 제공 장치(110)로부터 사용자 발화를 수신할 수 있다.
단계 S603에서 대화 서비스 제공 서버(100)는 독음 사전에 기초하여 사용자 발화에 대한 후보 피드백 발화 정보를 생성하고, 후보 피드백 발화 정보를 처리할 수 있는 후보 어플리케이션을 도출할 수 있다.
단계 S605에서 대화 서비스 제공 서버(100)는 기설정된 조건에 기초하여 사용자 발화에 대한 피드백 예외 케이스를 판정할 수 있다. 여기서, 기설정된 조건은 음성 인터페이스 제공 장치(110)를 통해 실행 중인 어플리케이션에 대한 정보를 포함할 수 있다. 예를 들면, 대화 서비스 제공 서버(100)는 음성 인터페이스 제공 장치(110)를 통해 음악이 출력되고 있는 상황인 경우, 사용자 발화에 대한 피드백을 예외처리할 수 있다.
단계 S607에서 대화 서비스 제공 서버(100)는 단계 S605에서 사용자 발화에 대한 피드백 예외 케이스에 해당하지 않는 경우, 후보 피드백 발화 정보를 처리할 수 있는 후보 어플리케이션별 후보 피드백 발화 정보에 대한 피드백 제공 확률을 계산할 수 있다.
단계 S609에서 대화 서비스 제공 서버(100)는 계산된 피드백 제공 확률에 기초하여 사용자 발화에 대한 피드백 제공 여부를 결정할 수 있다.
단계 S611에서 대화 서비스 제공 서버(100)는 단계 S609에서 결정된 사용자 발화에 대한 피드백 제공 여부에 기초하여 음성 인터페이스 제공 장치(11)를 통해 대화 서비스를 제공할 수 있다.
상술한 설명에서, 단계 S601 내지 S611은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.
도 7은 본 발명의 다른 실시예에 따른, 대화 서비스를 제공하는 방법을 나타낸 흐름도이다.
도 7을 참조하면, 단계 S701에서 시뮬레이션 서비스 제공 서버(100)는 복수의 어플리케이션에 대한 독음 사전을 구축할 수 있다.
단계 S703에서 시뮬레이션 서비스 제공 서버(100)는 음성 인터페이스 제공 장치(110)로부터 사용자 발화를 수신할 수 있다.
단계 S705에서 시뮬레이션 서비스 제공 서버(100)는 독음 사전에 기초하여 수신된 사용자 발화에 대한 적어도 하나의 후보 피드백 발화 정보를 생성할 수 있다.
단계 S707에서 시뮬레이션 서비스 제공 서버(100)는 복수의 어플리케이션 중 후보 피드백 발화 정보를 처리 가능할 수 있는 적어도 하나의 후보 어플리케이션을 도출할 수 있다.
단계 S709에서 시뮬레이션 서비스 제공 서버(100)는 도출된 후보 어플리케이션에 기초하여 사용자 발화에 대한 피드백을 제공할지 여부를 결정할 수 있다.
상술한 설명에서, 단계 S701 내지 S709는 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.
본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 대화 서비스 제공 서버
110: 음성 인터페이스 제공 장치
300: 사전 구축부
310: 수신부
320: 후보 피드백 발화 생성부
330: 결정부

Claims (19)

  1. 대화 서비스를 제공하는 서버에 있어서,
    복수의 어플리케이션에 대한 독음 사전을 구축하는 사전 구축부;
    음성 인터페이스 제공 장치로부터 사용자 발화를 수신하는 수신부;
    상기 독음 사전에 기초하여 상기 수신된 사용자 발화에 대한 적어도 하나의 후보 피드백 발화 정보를 생성하는 후보 피드백 발화 생성부; 및
    상기 복수의 어플리케이션 중 상기 후보 피드백 발화 정보를 처리 가능할 수 있는 적어도 하나의 후보 어플리케이션을 도출하고, 상기 도출된 후보 어플리케이션에 기초하여 상기 사용자 발화에 대한 피드백을 제공할지 여부를 결정하는 결정부
    를 포함하는 것인, 대화 서비스 제공 서버.
  2. 제 1 항에 있어서,
    상기 독음 사전은 상기 복수의 어플리케이션 각각에서 처리할 수 있는 표제어 및 상기 표제어에 대한 발음 정보로 구성된 사전인 것인, 대화 서비스 제공 서버.
  3. 제 1 항에 있어서,
    상기 결정부는 기설정된 조건에 기초하여 상기 도출된 후보 어플리케이션 중 적어도 어느 하나의 후보 어플리케이션을 제외시키는 것인, 대화 서비스 제공 서버.
  4. 제 3 항에 있어서,
    상기 기설정된 조건은 상기 음성 인터페이스 제공 장치에서 실행 중인 어플리케이션에 대한 정보를 포함하는 것인, 대화 서비스 제공 서버.
  5. 제 1 항에 있어서,
    상기 결정부는
    상기 복수의 어플리케이션에 대한 과거 사용자 피드백 정보에 기초하여 상기 복수의 어플리케이션 별로 상기 후보 피드백 발화 정보에 대한 피드백 제공 확률을 계산하는 것인, 대화 서비스 제공 서버.
  6. 제 5 항에 있어서,
    상기 결정부는
    어플리케이션 별 사용 이력 정보에 기초한 가중치를 부여함으로써 상기 복수의 어플리케이션 별로 상기 후보 피드백 발화 정보에 대한 피드백 제공 확률을 계산하는 것인, 대화 서비스 제공 서버.
  7. 제 6 항에 있어서,
    상기 결정부는
    상기 복수의 어플리케이션 별로 도출된 피드백 제공 확률에 기초하여 상기 사용자 발화에 대한 피드백을 제공할지 여부를 결정하는 것인, 대화 서비스 제공 서버.
  8. 제 6 항에 있어서,
    상기 결정부는
    기설정된 피드백 제공 임계 확률값 및 상기 복수의 어플리케이션 별로 도출된 피드백 제공 확률에 기초하여 상기 사용자 발화에 대한 피드백을 제공할지 여부를 결정하는 것인, 대화 서비스 제공 서버.
  9. 제 6 항에 있어서,
    상기 결정부는
    상기 복수의 어플리케이션에 대한 복수의 다른 사용자의 사용 이력 정보에 기초하여 상기 사용자 발화에 대한 피드백을 제공할지 여부를 결정하는 것인, 대화 서비스 제공 서버.
  10. 대화 서비스 제공 서버에 의해 수행되는 대화 서비스를 제공하는 방법에 있어서,
    복수의 어플리케이션에 대한 독음 사전을 구축하는 단계;
    음성 인터페이스 제공 장치로부터 사용자 발화를 수신하는 단계;
    상기 독음 사전에 기초하여 상기 수신된 사용자 발화에 대한 적어도 하나의 후보 피드백 발화 정보를 생성하는 단계;
    상기 복수의 어플리케이션 중 상기 후보 피드백 발화 정보를 처리 가능할 수 있는 적어도 하나의 후보 어플리케이션을 도출하는 단계; 및
    상기 도출된 후보 어플리케이션에 기초하여 상기 사용자 발화에 대한 피드백을 제공할지 여부를 결정하는 단계
    를 포함하는 것인, 대화 서비스 제공 방법.
  11. 제 10 항에 있어서,
    상기 독음 사전은 상기 복수의 어플리케이션 각각에서 처리할 수 있는 표제어 및 상기 표제어에 대한 발음 정보로 구성된 사전인 것인, 대화 서비스 제공 방법.
  12. 제 10 항에 있어서,
    상기 후보 어플리케이션을 도출하는 단계는
    기설정된 조건에 기초하여 상기 도출된 후보 어플리케이션 중 적어도 어느 하나의 후보 어플리케이션을 제외시키는 단계를 포함하는 것인, 대화 서비스 제공 방법.
  13. 제 12 항에 있어서,
    상기 기설정된 조건은 상기 음성 인터페이스 제공 장치에서 실행 중인 어플리케이션에 대한 정보를 포함하는 것인, 대화 서비스 제공 방법.
  14. 제 10 항에 있어서,
    상기 사용자 발화에 대한 피드백을 제공할지 여부를 결정하는 단계는
    상기 복수의 어플리케이션에 대한 과거 사용자 피드백 정보에 기초하여 상기 복수의 어플리케이션 별로 상기 후보 피드백 발화 정보에 대한 피드백 제공 확률을 계산하는 단계를 포함하는 것인, 대화 서비스 제공 방법.
  15. 제 14 항에 있어서,
    상기 사용자 발화에 대한 피드백을 제공할지 여부를 결정하는 단계는
    어플리케이션 별 사용 이력 정보에 기초한 가중치를 부여함으로써 상기 복수의 어플리케이션 별로 상기 후보 피드백 발화 정보에 대한 피드백 제공 확률을 계산하는 단계를 포함하는 것인, 대화 서비스 제공 방법.
  16. 제 15 항에 있어서,
    상기 사용자 발화에 대한 피드백을 제공할지 여부를 결정하는 단계는
    상기 복수의 어플리케이션 별로 도출된 피드백 제공 확률에 기초하여 상기 사용자 발화에 대한 피드백을 제공할지 여부를 결정하는 단계를 포함하는 것인, 대화 서비스 제공 방법.
  17. 제 15 항에 있어서,
    상기 사용자 발화에 대한 피드백을 제공할지 여부를 결정하는 단계는
    기설정된 피드백 제공 임계 확률값 및 상기 복수의 어플리케이션 별로 도출된 피드백 제공 확률에 기초하여 상기 사용자 발화에 대한 피드백을 제공할지 여부를 결정하는 단계를 포함하는 것인, 대화 서비스 제공 방법.
  18. 제 15 항에 있어서,
    상기 사용자 발화에 대한 피드백을 제공할지 여부를 결정하는 단계는
    상기 복수의 어플리케이션에 대한 복수의 다른 사용자의 사용 이력 정보에 기초하여 상기 사용자 발화에 대한 피드백을 제공할지 여부를 결정하는 단계를 포함하는 것인, 대화 서비스 제공 방법.
  19. 대화 서비스를 제공하는 명령어들의 시퀀스를 포함하는 컴퓨터 판독가능 기록매체에 저장된 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램은 컴퓨팅 장치에 의해 실행될 경우,
    복수의 어플리케이션에 대한 독음 사전을 구축하고,
    음성 인터페이스 제공 장치로부터 사용자 발화를 수신하고,
    상기 독음 사전에 기초하여 상기 수신된 사용자 발화에 대한 적어도 하나의 후보 피드백 발화 정보를 생성하고,
    상기 복수의 어플리케이션 중 상기 후보 피드백 발화 정보를 처리 가능할 수 있는 적어도 하나의 후보 어플리케이션을 도출하고, 상기 도출된 후보 어플리케이션에 기초하여 상기 사용자 발화에 대한 피드백을 제공할지 여부를 결정하는 명령어들의 시퀀스를 포함하는, 컴퓨터 판독가능 기록매체에 저장된 컴퓨터 프로그램.
KR1020210093284A 2021-07-16 2021-07-16 대화 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램 KR20230012715A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210093284A KR20230012715A (ko) 2021-07-16 2021-07-16 대화 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210093284A KR20230012715A (ko) 2021-07-16 2021-07-16 대화 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램

Publications (1)

Publication Number Publication Date
KR20230012715A true KR20230012715A (ko) 2023-01-26

Family

ID=85110397

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210093284A KR20230012715A (ko) 2021-07-16 2021-07-16 대화 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램

Country Status (1)

Country Link
KR (1) KR20230012715A (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190061706A (ko) 2017-11-28 2019-06-05 현대자동차주식회사 복수의도를 포함하는 명령어를 분석하는 음성 인식 시스템 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190061706A (ko) 2017-11-28 2019-06-05 현대자동차주식회사 복수의도를 포함하는 명령어를 분석하는 음성 인식 시스템 및 방법

Similar Documents

Publication Publication Date Title
JP6317111B2 (ja) ハイブリッド型クライアントサーバ音声認識
US10276160B2 (en) Automated assistant for user interaction via speech
KR101683943B1 (ko) 음성번역 시스템, 제1 단말장치, 음성인식 서버장치, 번역 서버장치, 및 음성합성 서버장치
US7698137B2 (en) Speech recognition device using statistical language model
JP2021018797A (ja) 対話の交互方法、装置、コンピュータ可読記憶媒体、及びプログラム
US10453456B2 (en) Tailoring an interactive dialog application based on creator provided content
KR20170033722A (ko) 사용자의 발화 처리 장치 및 방법과, 음성 대화 관리 장치
TW201935273A (zh) 語句的使用者意圖識別方法和裝置
JP2017107078A (ja) 音声対話方法、音声対話装置及び音声対話プログラム
US10089978B2 (en) Detecting customers with low speech recognition accuracy by investigating consistency of conversation in call-center
CN111402894B (zh) 语音识别方法及电子设备
CN105631022A (zh) 信息处理方法及装置
CN112131359A (zh) 一种基于图形化编排智能策略的意图识别方法及电子设备
RU2711104C2 (ru) Способ и компьютерное устройство для определения намерения, связанного с запросом для создания зависящего от намерения ответа
CN111566728B (zh) 能够实现用户意图和机器服务之间的语义理解映射的对话系统
US20230064756A1 (en) Streaming End-to-End Speech Recognition Method, Apparatus and Electronic Device
JP2020042131A (ja) 情報処理装置、情報処理方法、およびプログラム
KR102335048B1 (ko) 음성 인식 서비스를 제공하는 사용자 단말, 방법 및 서버
KR20230012715A (ko) 대화 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램
CN114023309A (zh) 语音识别系统、相关方法、装置及设备
CN109002498B (zh) 人机对话方法、装置、设备及存储介质
AU2022204669B2 (en) Disfluency removal using machine learning
JP2020119221A (ja) 対話装置、対話方法、及びプログラム
KR102181742B1 (ko) 추천 문장을 제공하는 대화 분석 서버, 방법 및 컴퓨터 프로그램
US20170185587A1 (en) Machine translation method and machine translation system