KR20210029383A - 음성인식에 기반한 부가 서비스 제공 시스템 및 그 방법 - Google Patents

음성인식에 기반한 부가 서비스 제공 시스템 및 그 방법 Download PDF

Info

Publication number
KR20210029383A
KR20210029383A KR1020190110522A KR20190110522A KR20210029383A KR 20210029383 A KR20210029383 A KR 20210029383A KR 1020190110522 A KR1020190110522 A KR 1020190110522A KR 20190110522 A KR20190110522 A KR 20190110522A KR 20210029383 A KR20210029383 A KR 20210029383A
Authority
KR
South Korea
Prior art keywords
voice recognition
response
providing
server
client
Prior art date
Application number
KR1020190110522A
Other languages
English (en)
Other versions
KR102342715B1 (ko
Inventor
김선희
김성일
신광수
박지혜
Original Assignee
주식회사 엘지유플러스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엘지유플러스 filed Critical 주식회사 엘지유플러스
Priority to KR1020190110522A priority Critical patent/KR102342715B1/ko
Publication of KR20210029383A publication Critical patent/KR20210029383A/ko
Application granted granted Critical
Publication of KR102342715B1 publication Critical patent/KR102342715B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

일 실시 예에 의한 음성인식에 기반한 부가 서비스 제공 시스템은, 사용자 발화에 따른 음성 입력을 수신하는 클라이언트; 및 상기 클라이언트와 연동되어 상기 음성 입력에 상응하는 사용자 발화 의도를 도출하고, 상기 사용자 발화 의도에 기반하여 복수의 응답 데이터를 생성하는 음성인식 플랫폼 제공 장치;를 포함하고, 상기 클라이언트는, 응답 대기시간에 기반하여 상기 복수의 응답 데이터를 동기화하여 외부로 출력할 수 있다.

Description

음성인식에 기반한 부가 서비스 제공 시스템 및 그 방법{SYSTEM AND METHOD FOR PROVIDING SUPPLEMENTARY SERVICE BASED ON SPEECH RECOGNITION}
본 발명은 음성인식에 기반한 부가 서비스 제공 시스템 및 그 방법에 관한 것이다.
기술이 발달함에 따라 최근 많은 분야에서 음성인식 기술을 적용한 각종 서비스들이 소개되고 있다. 음성인식 기술은 사람이 발성하는 음성을 이해하여 컴퓨터가 다룰 수 있는 문자 정보로 변환하는 일련의 과정이라 할 수 있으며, 일반적인 음성인식 서비스는 사용자의 음성을 인식하고, 이에 해당하는 적합한 서비스를 청각 기반의 인터페이스를 통해 제공하는 일련의 과정을 포함할 수 있다.
그러나, 일반적인 음성인식 서비스는 사용자의 눈에 보이지 않는 특성 때문에 정보 전달에 있어 해상도가 높지 않다는 한계가 있다. 예를 들면, 서울역이 지도상에서 어느 위치에 있는지 사용자에게 알려줄 때 시각 기반의 인터페이스를 통하면 단번에 위치를 특정해 알려줄 수 있는 반면에, 청각 기반의 인터페이스에서는 주소와 같은 위치정보를 알려주고, 이로도 설명이 안 되면 주변에 무엇이 있는지 보조 설명을 거치는 등 정보 전달에 많은 노력이 필요하다.
이러한 음성인식 기술의 한계는 적은 노력으로 다중 과제(multitasking)를 용이하게 수행할 수 있다는 장점을 희석시키고, 음성인식 서비스의 이용률을 저해하는 요인으로 작용하고 있다.
실시 예는 청각 기반의 인터페이스에 시각 기반의 인터페이스가 이식된 음성인식 플랫폼을 제시하여 사용자 경험을 개선할 수 있는 음성인식에 기반한 부가 서비스 제공 시스템 및 그 방법을 제공하기 위한 것이다.
실시 예에서 해결하고자 하는 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제는 아래의 기재로부터 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
일 실시 예는, 사용자 발화에 따른 음성 입력을 수신하는 클라이언트; 및 상기 클라이언트와 연동되어 상기 음성 입력에 상응하는 사용자 발화 의도를 도출하고, 상기 사용자 발화 의도에 기반하여 복수의 응답 데이터를 생성하는 음성인식 플랫폼 제공 장치;를 포함하고, 상기 클라이언트는, 응답 대기시간에 기반하여 상기 복수의 응답 데이터를 동기화하여 외부로 출력하는, 음성인식에 기반한 부가 서비스 제공 시스템을 제공할 수 있다.
상기 복수의 응답 데이터는, 청각적 형태의 음성 데이터를 포함하는 제1 응답 데이터; 및 시각적 형태의 콘텐츠 데이터를 포함하는 제2 응답 데이터;를 포함할 수 있다.
상기 음성인식 플랫폼 제공 장치는, 상기 음성 입력을 질의 텍스트로 변환하고, 자연어 처리 및 개체명 인식 중 적어도 하나를 이용하여 상기 사용자 발화 의도를 도출하는 제1 서버; 기 구축된 데이터 베이스를 토대로 상기 사용자 발화 의도를 탐색하여 응답 텍스트를 생성하는 제2 서버; 및 상기 클라이언트와 규정된 프로토콜에 따라 세션 연결을 수행하는 제3 서버;를 포함할 수 있다.
상기 제2 서버는, 상기 제1 서버로 상기 응답 텍스트를 전송하고, 상기 제1 서버는, 상기 응답 텍스트를 음성 신호로 변환하여 상기 제1 응답 데이터를 생성할 수 있다.
상기 제2 서버는, 상기 응답 텍스트의 핵심어를 추출하여 상기 제2 응답 데이터를 생성하고, 상기 제3 서버로 상기 제2 응답 데이터를 전송할 수 있다.
상기 클라이언트는, 상기 제1 서버로부터 상기 제1 응답 데이터를 수신하고, 상기 제3 서버로부터 상기 세션 연결이 유지된 상태에서 상기 제2 응답 데이터를 수신할 수 있다.
상기 응답 대기시간은, 상기 음성 입력을 수신하는 제1 시점과 상기 제1 및 제2 응답 데이터를 전부 수신하는 제2 시점 사이의 출력 지연시간일 수 있다.
상기 클라이언트는, 상기 응답 대기시간이 경과되기 전, 상기 제1 및 제2 응답 데이터 중 어느 하나의 데이터에 대한 출력을 대기 상태로 제어할 수 있다.
상기 클라이언트는, 상기 음성 입력과 상기 제1 및 제2 응답 데이터를 서로 매핑하여 저장할 수 있다.
상기 프로토콜은 HTTP/2(Hyper Text Transfer Protocol Version 2)를 포함할 수 있다.
본 발명의 적어도 일 실시 예에 의하면, 청각과 함께 시각 정보를 함께 전달할 수 있는 음성인식 플랫폼을 제시하여 사용자에게 다중 감각 통합의 효과를 제공할 수 있다.
또한, 사용자 단말과 음성인식 플랫폼 사이에 중계 서버를 구축하여 우회적으로 시각 정보를 전송할 수 있으므로 시스템의 안정성이 향상될 수 있다. 아울러, 청각 정보와 시각 정보의 출력 시점이 일치되도록 사용자 단말을 제어함으로써 사용자가 느끼는 이질감을 저감시킬 수 있다.
본 실시 예에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며 언급하지 않은 또 다른 효과는 아래의 기재로부터 본 발명이 속하는 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시 예에 따른 음성인식에 기반한 부가 서비스 제공 시스템의 운용 환경을 도시한 예시도이다.
도 2는 도 1에 도시된 부가 서비스 제공 시스템의 개략적인 블록도이다.
도 3은 본 발명의 일 실시 예에 따른 음성인식 플랫폼 제공 장치에 의해 생성되는 응답 텍스트 및 부가 정보의 일 례를 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시 예에 따른 음성인식에 기반한 부가 서비스 제공 방법을 설명하기 위한 흐름도이다.
도 5는 본 발명의 일 실시 예에 따른 클라이언트에 설치된 음성인식 어플리케이션 프로그램을 통하여 구현되는 사용자 발화에 대한 응답을 나타내는 도면이다.
이하, 첨부된 도면들을 참조하여 실시 예를 상세히 설명한다. 실시 예는 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 본문에 상세하게 설명하고자 한다. 그러나 이는 실시 예를 특정한 개시 형태에 대해 한정하려는 것이 아니며, 실시 예의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
"제1", "제2" 등의 용어는 다양한 구성요소들을 설명하는 데 사용될 수 있지만, 이러한 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로 사용된다. 또한, 실시 예의 구성 및 작용을 고려하여 특별히 정의된 용어들은 실시 예를 설명하기 위한 것일 뿐이고, 실시 예의 범위를 한정하는 것이 아니다.
본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석될 수 있으며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 실시 예에 의한 음성인식에 기반한 부가 서비스 제공 시스템을 첨부된 도면을 참조하여 다음과 같이 설명한다.
도 1은 본 발명의 일 실시 예에 따른 음성인식에 기반한 부가 서비스 제공 시스템의 운용 환경을 도시한 예시도이다.
도 1을 참조하면, 음성인식에 기반한 부가 서비스 제공 시스템(1)은 네트워크(30)을 통해 서로 연동되는 클라이언트(10)와 음성인식 플랫폼 제공 장치(20)를 포함할 수 있다.
클라이언트(10)는 특정 명령 또는 질의를 내포하는 사용자 발화를 수신할 수 있다. 예컨대, 클라이언트(10)는 사용자의 요청에 의해 음성인식 서비스의 운용을 지원하는 어플리케이션 프로그램을 실행하고, 상기 프로그램의 실행에 따라 활성화되는 입력 장치를 기반으로 사용자 발화에 따른 음성 입력(이하, 편의상 '사용자 발화 음성'이라 칭함)을 수신할 수 있다.
이러한 클라이언트(10)는 스마트폰, 웨어러블 단말기, 인공지능 스피커, 로봇 청소기, 셋톱박스, TV, 냉장고 등과 같은 사물인터넷(IoT)에 해당하는 각종 디바이스를 포함하며, 상기 각종 디바이스는 통신망 사업자에 의해 운영되는 이동 통신 서비스에 미리 가입 및/또는 등록될 수 있다. 다만, 이는 예시적인 것으로 본 발명의 범주가 반드시 이에 한정되는 것은 아니다.
음성인식 플랫폼 제공 장치(20)는 음성인식에 기반하여 사용자에게 부가 서비스를 제공하기 위한 일련의 프로세스를 수행할 수 있다. 예컨대, 음성인식 플랫폼 제공 장치(20)는 클라이언트(10)로부터 수신한 사용자 발화 음성을 인식하여 사용자의 발화 의도를 도출하고, 상기 발화 의도에 대응하는 적어도 하나의 정보 자원을 클라이언트(10)에 탑재된 출력 장치로 전송하여 사용자 발화에 대한 응답을 지원할 수 있다.
네트워크(30)는 클라이언트(10)와 음성인식 플랫폼 제공 장치(20)를 연결하는 역할을 수행할 수 있다. 이러한 네트워크(30)는 LANs(local area networks), WANs(wide area networks), MANs(metropolitan area networks), ISDNs(integrated service digital networks) 등의 유선 통신망 및/또는 WCDMA(Wideband Code Division Multiple Access), LTE(Long Term Evolution), LTE-A(Long Term Evolution-Advanced), 5G(Generation) 등의 이동 통신 규격을 지원하는 무선 통신망을 포함할 수 있으나, 이는 예시적인 것에 불과하고 본 발명의 범주가 반드시 이에 국한되는 것은 아니다.
도 2는 도 1에 도시된 부가 서비스 제공 시스템의 개략적인 블록도이다.
도 2를 참조하면, 클라이언트(10)와 연동되는 음성인식 플랫폼 제공 장치(20)는, 음성인식 서비스를 지원하는 지능형 음성인식 서버(210), 사용자의 발화 의도와 관련된 적어도 하나의 정보 자원을 탐색하는 서비스 제공 서버(230), 및 클라이언트(10)와의 세션 연결을 수행하는 중계 서버(250)를 포함할 수 있다. 이하에서는, 음성인식 플랫폼 제공 장치(20)를 설명하기에 앞서 클라이언트(10)의 각 구성요소에 대하여 먼저 서술하기로 한다.
클라이언트(10)는 마이크(110), 통신부(120), 스피커(130), 디스플레이 (140), 메모리(150), 및 제어부(160)를 포함할 수 있다. 다만, 이는 예시적인 것으로 클라이언트(10)는 상술한 구성요소 중 적어도 하나를 생략하거나, 다른 구성요소를 추가적으로 포함할 수 있다.
마이크(110)는 사용자 발화에 따른 음성 입력을 수신할 수 있다. 상기 마이크(110)는 음성인식 어플리케이션 프로그램의 실행에 따라 구동되거나 또는, 상시 구동되는 상태로 제어될 수 있다. 여기서, 음성인식 어플리케이션 프로그램은 사용자의 조작 또는 지정된 발화 명령(wake-up)에 의하여 실행될 수 있다.
통신부(120)는 클라이언트(100)와 외부 장치 간의 통신을 지원할 수 있다. 예컨대, 통신부(120)는 지능형 음성인식 서버(210) 및/또는 중계 서버(250)와 규정된 프로토콜(protocol)에 따라 유선 또는 무선 통신을 수립할 수 있다. 통신부(120)는 상기 유선 또는 무선 통신을 기반으로 네트워크(30)에 접속함으로써, 지능형 음성인식 서버(210) 및/또는 중계 서버(250)와 음성인식 서비스의 운용에 수반되는 적어도 하나의 정보 자원을 송수신할 수 있다.
스피커(130)는 클라이언트(10)의 내부에서 생성되거나, 또는 지능형 음성인식 서버(210)로부터 수신하는 음성 신호를 출력할 수 있다. 예컨대, 스피커(130)는 지능형 음성인식 서버(210)로부터 수신하는 청각적 형태의 응답 발화음성을 전송 받아 제어부(160)의 제어 하에 외부로 출력할 수 있다.
디스플레이(140)는 제어부(160)의 제어 하에 각종 부가 정보를 출력할 수 있다. 디스플레이(140)는 적어도 일 영역으로 중계 서버(250)로부터 전송 받는 텍스트, 그래픽, 이미지, 비디오 또는 이들의 조합을 포함하는 시각적 형태의 부가 정보를 출력할 수 있으며, 상기 부가 정보는 사용자 발화에 대한 응답의 적어도 일부로써 이해될 수 있다. 이러한 디스플레이(140)는 일 예로, 사용자(User)에 의한 터치 입력을 수신하는 터치 패드와 상호 레이어 구조를 이루어 터치스크린으로 구성될 수 있으며, 클라이언트(100)의 시스템 설정과 관계된 인터페이스를 출력할 수 있다.
메모리(150)는 음성인식 서비스의 운용에 수반되는 적어도 하나의 정보 자원을 저장하거나, 클라이언트(100)를 이루는 구성요소의 기능 동작과 관계된 명령을 저장할 수 있다. 여기서, 음성인식 서비스의 운용에 수반되는 적어도 하나의 정보 자원은 마이크(110)에 인가되는 사용자 발화 음성, 지능형 음성인식 서버(210)로부터 수신하는 응답 발화음성, 및 중계 서버(250)로부터 전송 받는 부가 정보 중 적어도 하나를 포함할 수 있다. 또한, 메모리(150)는 전술한 음성인식 어플리케이션 프로그램을 비롯하여, 클라이언트(10)의 운용과 관계되는 적어도 하나의 어플리케이션 프로그램을 저장할 수도 있다.
제어부(160)는 전술한 클라이언트(100)의 적어도 하나의 구성요소와 전기적으로 연결되어, 구성요소에 대한 제어, 연산 또는 데이터 처리 등을 수행할 수 있다. 예컨대, 제어부(160)는 스피커(130)로 하여금 음답 발화음성을 출력하도록 제어할 수 있고, 디스플레이(140)를 제어하여 부가 정보를 출력시킬 수 있다. 또는, 제어부(160)는 음성인식 서비스의 운용에 수반되는 적어도 하나의 정보 자원을 메모리(150)에 저장하거나, 메모리(150)로부터 로드하여 처리할 수 있다.
이때, 제어부(160)는 사용자 발화에 대한 응답의 제공과 관련하여, 응답 대기시간(latency time)을 기반으로 응답 발화음성과 부가 정보를 동기화하여 출력할 수 있다. 예컨대, 제어부(160)는 응답 발화음성 및 부가 정보 중 어느 하나의 데이터를 수신한 시점에서 클라이언트(10)를 스탠바이(standby) 상태로 제어하고, 나머지 하나의 데이터를 수신하는 시점에서 상기 응답 발화음성과 부가 정보를 동기화(synchronization)할 수 있다. 여기서, 스탠바이 상태란 응답 대기시간 동안 클라이언트(10)가 수신하는 어느 하나의 데이터에 대한 출력을 대기 또는 보류하는 것으로 이해할 수 있다. 또한, 응답 대기시간은 사용자 발화음성을 수신한 시점과 상기 응답 발화음성 및 부가 정보를 전부 수신한 시점 사이의 출력 지연시간으로 정의할 수 있다.
음성인식 플랫폼 제공 장치(20)는 지능형 음성인식 서버(210), 서비스 제공 서버(230), 및 중계 서버(250)를 포함할 수 있다.
지능형 음성인식 서버(210)는 음성인식 서비스를 지원하며, 음성 인식부(211), 의도 분석부(212), 및 음성 합성부(213)를 포함할 수 있다.
음성 인식부(211)는 클라이언트(10)로부터 수신된 사용자 발화음성을 인식하여 질의 텍스트로 변환할 수 있다. 음성 인식부(211)는 발화 또는 발성과 관련된 적어도 하나의 정보를 포함하는 음향 모델(acoustic model) 또는 적어도 하나의 단위 음소 정보를 포함하는 언어 모델(language model)을 이용하여 사용자 발화음성을 질의 텍스트로 변환(Speech To Text, STT)할 수 있다.
의도 판단부(212)는 음성 인식부(211)로부터 전달받은 질의 텍스트에 대한 자연어 처리(Natural Language Processing, NLP) 및 개체명 인식(Named Entity Recognition, NER)을 수행하여 사용자의 발화 의도를 도출할 수 있다. 여기서, 자연어 처리(NLP)란 질의 텍스트를 구문, 품사, 형태소 등의 문법적 단위로 구분하고, 각각의 문법적 단위에 대한 언어적 특징을 분석하여 의미를 판단하는 자연 언어 이해를 의미한다. 그리고, 개체명 인식(NER)이란 질의 텍스트에 내포된 사람, 장소, 시간, 대상, 기관 등의 개체명을 추출하고, 추출되는 개체명의 종류를 분류하는 정보 검색 기술을 말한다.
의도 판단부(212)는 인공지능(Artificial Intelligence, AI) 알고리즘-예컨대, 딥러닝, 기계학습 등-을 적용하여 사용자의 언어 습관을 학습함으로써 음성인식의 정확도를 높일 수 있으며, 지능형 음성인식 서버(210)와 연계된 서비스 제공 서버(230)로 상기 발화 의도에 대응하는 응답을 요청할 수 있다. 일 예로, 질의 텍스트가 [오늘 예능 뭐해]인 경우, 의도 판단부(212)는 자연어 처리 및 개체명 인식을 통해 [오늘]이라는 '시간' 개체에 대응되는 [예능 프로그램 정보 요청]울 사용자의 발화 의도로 도출하고, 이를 서비스 제공 서버(250)로 전달할 수 있다.
음성 합성부(213)는 후술하는 서비스 제공 서버(230)가 생성한 자연어 형태의 응답 텍스트를 음성 신호로 변환(Text To Speech, TTS)한 응답 발화음성을 클라이언트(10)로 전송할 수 있다.
서비스 제공 서버(230)는 의도 판단부(212)로부터 전달 받은 사용자의 발화 의도에 기반하여 적절한 응답을 생성하며, 탐색부(231) 및 데이터 베이스(Database, 232)를 포함할 수 있다.
탐색부(231)는 데이터 베이스(232)에 구축된 지식 관리를 통해 사용자의 발화 의도를 검색하여 사용자가 원하는 응답을 획득할 수 있다. 여기서, 데이터 베이스(232)는 사용자의 질의에 응답하기 위한 필수적인 기초 데이터의 집합으로 지식 기반 데이터 베이스일 수 있다. 데이터 베이스(232)에는 각 도메인-예컨대, 음악, 영화, 방송, 날씨, 뉴스, 스포츠, 교통, 금융, 쇼핑 등-의 범주 별로 연관된 콘텐츠의 메타 데이터가 기 분류되어 저장되며, 상기 메타 데이터는 음성인식 서비스에 대한 가입 또는 제휴를 기반으로 하는 서드 파티(third party) 업체에 의해 제공될 수 있다. 예컨대, '방송' 도메인의 경우, 메타 데이터에는 관련된 콘텐츠의 타이틀, 등장인물, 줄거리, 방송시간, 시청률, 방송국 등에 관한 정보가 포함될 수 있다.
탐색부(231)는 사용자의 발화 의도에 기반하여 데이터 베이스(232) 상에서 특정 도메인과 각 콘텐츠의 메타 데이터를 추출하고 텍스트 요약 및 개인화 추천 기술을 이용하여 자연어 형태의 적절한 응답 텍스트를 생성할 수 있다. 예컨대, 사용자의 발화 의도가 [오늘] 방송되는 [예능 프로그램 정보 요청]인 경우, 탐색부(231)는 [오늘의 예능 프로그램으로는 영화가 좋다, 아는 형님, 놀면 뭐하니, 불후의 명곡 등이 있어요]를 응답 텍스트로 출력할 수 있다.
또한, 탐색부(231)는 상기 응답 텍스트의 핵심어를 추출하고, 서비스 제공 서버(250)의 내부 및/또는 외부에 구비된 검색 엔진(미도시)을 활용하여 사용자의 발화 의도에 대응되는 부가 정보를 생성할 수 있다. 여기서, 부가 정보는 텍스트, 그래픽, 이미지, 비디오 또는 이들의 조합을 포함하는 시각적 형태의 콘텐츠 데이터를 포함할 수 있다.
상술한 응답 텍스트 및 부가 정보에 대한 일 례에 대하여는 도 3을 참조하여 이하에서 먼저 설명한다.
도 3은 본 발명의 일 실시 예에 따른 음성인식 플랫폼 제공 장치에 의해 생성되는 응답 텍스트 및 부가 정보의 일 례를 설명하기 위한 도면이다.
도 3의 (a)를 참조하면, 클라이언트(10)로부터 [오늘 날씨 알려줘]라는 사용자 발화음성(Q)이 전달되는 경우, 지능형 음성인식 서버(210)는 사용자의 발화 의도를 도출(예; '오늘의 날씨 정보 요청')를 도출하고, 서비스 제공 서버(230)는 이에 대응하는 응답 텍스트(A) 및 부가 정보(B)를 생성할 수 있다.
탐색부(231)는 데이터 베이스(232) 상의 '날씨' 도메인에 저장된 메타 데이터를 토대로 텍스트 요약 기술을 이용하여 [현재 날씨는 맑아요]라는 응답 텍스트(A)를 획득할 수 있다.
또한, 탐색부(231)는 데이터 베이스(232) 및/또는 검색 엔진(미도시)에 상기 사용자 발화 의도를 검색하여 획득되는, 오늘의 기온(최저/최고 기온 포함), 습도, 미세먼지 등의 수치 정보(text)와 날씨 상태(맑음, 구름, 비, 눈)를 형상화한 이미지(image)를 조합하여 부가 정보(B)를 생성할 수 있다.
도 3의 (b)를 참조하면, 클라이언트(10)로부터 [최근 토트넘 경기 결과 알려줘]라는 사용자 발화음성(Q)이 전달되는 경우, 지능형 음성인식 서버(210)는 사용자의 발화 의도를 도출(예; '최근에 시합한 토트넘의 경기 결과 정보 요청')를 도출하고, 서비스 제공 서버(230)는 이에 대응하는 응답 텍스트(A) 및 부가 정보(B)를 생성할 수 있다.
탐색부(231)는 데이터 베이스(232) 상의 '스포츠' 도메인에 저장된 메타 데이터를 토대로 텍스트 요약 및 개인화 추천 기술을 이용하여 [토트넘은 어제 뉴캐슬과의 경기에서 0 대 1로 패했습니다]라는 응답 텍스트(A)를 획득할 수 있다.
또한, 탐색부(231)는 검색 엔진(미도시)에 상기 응답 텍스트(A)에서 추출된 핵심어(예: 토트넘, 경기결과, 어제)를 검색하여 획득되는 스포츠 리그, 경기장, 경기 일시, 경기 스코어 등의 정보(text)와 양 팀의 엠블럼을 형상화한 이미지(image)를 조합하여 부가 정보(B)를 생성할 수 있다.
도 3의 (a) 내지 (b)에 도시된 바와 같이, 사용자 발화에 대한 응답 결과로 시각적 형태의 부가 정보(B)가 함께 제공될 경우, 사용자는 정보를 직관적으로 이해할 수 있게 되므로 음성인식 서비스 분야에서 사용자 경험(User Experience, UX)이 개선될 수 있다. 예컨대, 일 실시 예에 따르면 청각과 함께 시각 정보를 함께 전달하기 때문에 다중 감각 통합 효과가 발생해 청각의 한계를 보완하는 것을 넘어 사용자에게 더 빠르고 정확한 사용경험을 제공할 수 있다.
다시 도 2로 돌아와서, 전술한 서비스 제공 서버(230)는 생성되는 응답 텍스트 및 부가 정보 각각을 지능형 음성인식 서버(210) 및 중계 서버(250)로 각각 전송할 수 있다.
중계 서버(250)는 서비스 제공 서버(230)와 클라이언트(10) 사이에서 부가 정보의 전송을 중계할 수 있다. 이를 위해, 중계 서버(250)는 클라이언트(10)와 규정된 프로토콜(protocol)에 따라 통신을 수립하고, 상호 간에 세션(session) 연결을 수행하여 음성인식에 기반한 부가 서비스를 지원하기 위한 인프라를 구축할 수 있다. 여기서, 프로토콜의 일 예로 HTTP/2(Hyper Text Transfer Protocol Version 2)가 적용될 수 있으나, 본 발명의 범주가 반드시 이에 한정되는 것은 아니다.
중계 서버(250)는 클라이언트(10)로부터 세션 요청 메시지를 수신하면, 상기 클라이언트(10)에 세션 정보-예컨대, 세션 ID-를 할당하고 세션 응답 메시지를 송신함으로써 세션 연결이 수행될 수 있다. 그리고, 클라이언트(10)와 중계 서버(250)는 상호 간에 상태 체크 메시지-예컨대, 핑(ping)-를 주기적으로 송수신함으로써 상기 세션을 유지할 수 있다.
중계 서버(250)는 클라이언트(10)와의 세션이 유지된 상태에서, 서비스 제공 서버(230)로부터 부가 정보를 수신하여 클라이언트(10)로 전송할 수 있다. 이에 따라, 사용자는 클라이언트(10)의 사양이 서비스 제공 서버(250)가 지원하는 통신 규격에 부합하지 않더라도 중계 서버(10)를 통해 우회적으로 부가 정보를 제공받을 수 있다.
또한, 중계 서버(250)는 음성인식 플랫폼 제공 장치(20)에서 클라이언트 (10)로 제공하는 데이터의 지원 범위를 확장하는 역할을 수행할 수 있다. 즉, 일 실시 예에 따른 음성인식 플랫폼 제공 장치(20)는 지능형 음성인식 서버(210) 이외에 별도의 중계 서버(250)를 구축하여 데이터의 형태, 포맷, 또는 전송 규격 등이 서로 상이한 응답 발화음성과 부가 정보의 전송 주체를 이원적으로 할당함으로써, 지능형 음성인식 서버(210)가 지원하는 데이터의 전송 규격에 의존하지 않고 다양한 종류 또는 형태의 데이터-일 예로, 텍스트, 그래픽, 이미지, 비디오, 오디오 또는 이들의 조합을 포함함-를 사용자에게 제공할 수 있다.
예컨대, 음성인식 플랫폼 제공 장치(20)는, 청각적 형태의 음성 데이터로 구성된 응답 발화음성의 전송 주체로 지능형 음성인식 서버(210)를 할당하고, 시각적 형태의 콘텐츠 데이터로 구성된 부가 정보의 전송 주체로 중계 서버(250)를 각각 할당할 수 있다. 이처럼, 데이터의 형태에 따라 전송 주체를 이원적으로 할당하는 이유는 지능형 음성인식 서버(210)가 지원하는 데이터의 전송 규격이 극히 제한적이기 때문이다. 좀 더 부연하자면, 음성인식 서비스 실행 시 사용자에게 제공하고자 하는 부가 정보가 존재할지라도, 지능형 음성인식 서버(210)에서 클라이언트(10)로 전달할 규격이 지원되지 아니하면 사용자는 상기 부가 정보를 제공받을 수 없는 문제가 발생한다. 전술한 이유로, 일 실시 예는 중계 서버(250)의 구축을 통해, 클라이언트(10)에서 표현하고자 하는 다양한 종류의 데이터를 지능형 음성인식 서버(210)의 규격에 구애 받지 아니하고 제공하는 효과를 얻을 수 있다.
이하에서는, 도 4를 참조하여 음성인식에 기반한 부가 서비스를 제공하는 방법에 대하여 설명하기로 한다.
도 4는 본 발명의 일 실시 예에 따른 음성인식에 기반한 부가 서비스 제공 방법을 설명하기 위한 흐름도이다.
먼저, 중계 서버(250)는 클라이언트(10)와의 세션 연결을 수행할 수 있다(S1). S1 단계에서, 중계 서버(250)는 클라이언트(10)와 규정된 프로토콜(protocol)에 따라 통신을 수립하고, 클라이언트(10)로부터 세션 요청 메시지(request)를 수신하면 상기 클라이언트(10)에 할당된 세션 ID와 함께 세션 응답 메시지(reply)를 송신함으로써 세션 연결을 실행한다. 세션 연결이 완료되면, 중계 서버(250)는 클라이언트(10)와 상태 체크 메시지를 주기적으로 송수신함으로써 상호 간에 세션 연결 상태를 유지할 수 있다.
이후, 클라이언트(10)는 특정 명령 또는 질의를 내포하는 사용자 발화를 수신할 수 있다(S2). S2 단계에서, 클라이언트(10)는 음성인식 서비스의 운용을 지원하는 어플리케이션 프로그램이 실행됨에 따라 활성화되며, 상기 프로그램은 사용자의 조작 또는 지정된 발화 명령(wake-up)에 의해 실행될 수 있다.
그리고, 클라이언트(10)는 사용자 발화에 따른 음성 입력(이하, '사용자 발화음성'이라 칭함)을 지능형 음성인식 서버(210)로 전송할 수 있다(S3).
지능형 음성인식 서버(210)는 클라이언트(10)로부터 수신된 사용자 발화음성을 인식하여 질의 텍스트로 변환하고(S4), 질의 텍스트에 대한 자연어 처리 및 개체명 인식을 수행하여 사용자의 발화 의도를 도출할 수 있다(S5). S4 및 S5 단계에서, 지능형 음성인식 서버(210)는 음성 인식 내지 발화 의도의 정확도를 향상시키기 위하여 인공지능(AI) 알고리즘을 토대로 사용자의 언어 습관을 학습할 수 있다.
이후, 지능형 음성인식 서버(210)는 서비스 제공 서버(230)로 사용자의 발화 의도에 대응하는 응답을 요청할 수 있다(S6).
서비스 제공 서버(230)는 데이터 베이스에 구축된 지식 관리를 통해 사용자의 발화 의도를 탐색하여 사용자가 원하는 응답을 획득할 수 있다(S7). 예컨대, 서비스 제공 서버(230)는 사용자의 발화 의도에 기반하여 데이터 베이스 상에서 특정 도메인-예컨대, 음악, 영화, 방송, 날씨, 뉴스, 스포츠, 교통, 금융, 쇼핑 등 중 적어도 하나를 포함한다-에 내재된 관련 콘텐츠의 메타 데이터를 추출하고, 텍스트 요약 및 개인화 추천 기술을 이용하여 자연어 형태의 적절한 응답 텍스트를 생성할 수 있다. 또한, 서비스 제공 서버(230)는 상기 응답 텍스트의 핵심어를 추출하고, 내부 및/또는 외부에 구비된 검색 엔진을 활용하여 사용자의 발화 의도에 대응되는 부가 정보를 생성할 수 있다. 여기서, 부가 정보는 사용자가 응답 결과를 직관적으로 이해할 수 있도록 텍스트, 그래픽, 이미지, 비디오 또는 이들의 조합을 포함하는 시각적 형태의 콘텐츠 데이터를 포함할 수 있다.
이후, 서비스 제공 서버(230)는 S7 단계에서 생성되는 응답의 적어도 일부인 응답 텍스트를 지능형 음성 인식 서버(210)로 전송할 수 있다(S8).
그리고, 서비스 제공 서버(230)는 S7 단계에서 생성되는 응답의 나머지 일부인 부가 정보를 중계 서버(250)로 전송할 수 있다(S9).
S8 단계 이후, 지능형 음성인식 서버(230)는 자연어 형태의 응답 텍스트를 음성 신호로 변환(Text To Speech, TTS)하고(S9), 상기 변환된 음성 신호에 대응하는 청각적 형태의 응답 발화음성을 클라이언트(10)로 전송할 수 있다(S11).
S9 단계 이후, 중계 서버(250)는 상호 간에 세션 연결 상태를 유지하고 있는 클라이언트(10)로 부가 정보를 전송할 수 있다(S12). 이에 따라, 사용자는 클라이언트(10)의 사양이 서비스 제공 서버(250)가 지원하는 통신 규격에 부합하지 않더라도 중계 서버(10)를 통해 우회적으로 부가 정보를 제공받을 수 있다.
또한, S11 및 S12 단계를 참조하면, 음성인식 플랫폼 제공 장치(20)는 지능형 음성인식 서버(210) 이외에 별도의 중계 서버(250)를 구축하여 데이터의 형태, 포맷, 또는 전송 규격 등이 서로 상이한 응답 발화음성과 부가 정보의 전송 주체를 이원적으로 할당함으로써, 지능형 음성인식 서버(210)가 지원하는 데이터의 전송 규격에 의존하지 않고 다양한 종류 또는 형태의 데이터-일 예로, 텍스트, 그래픽, 이미지, 비디오, 오디오 또는 이들의 조합을 포함함-를 사용자에게 제공할 수도 있다. 이에 따라, 음성인식 플랫폼 제공 장치(20)에서 클라이언트(10)로 제공되는 데이터의 지원 내지 서비스 범위가 확대될 수 있다.
이후, 클라이언트(10)는 지능형 음성인식 서버(210) 및 중계 서버(250) 각각으로부터 전달 받은 응답 발화음성과 부가 정보를 동기화하여 응답을 출력할 수 있다(S13). S13 단계에서, 클라이언트(10)는 응답 대기시간(latency time)을 기반으로 상기 응답 발화음성과 부가 정보의 출력 시점을 일치시킬 수 있다. 여기서, 응답 대기시간은 사용자 발화음성을 수신한 제1 시점(t1)과 상기 응답 발화음성 및 부가 정보를 전부 수신한 제3 시점(t3) 사이의 출력 지연 시간으로 이해할 수 있다.
응답 발화음성과 부가 정보를 송신하는 각 서버(210, 250)는 물리적 또는 논리적으로 분리되며, 각 서버(210, 230)는 서로 다른 감각(청각 또는 시각)의 데이터를 클라이언트(10)로 전송하기 때문에, 클라이언트(10) 입장에서 각각의 데이터를 수신하는 시점에 간극이 발생할 수 있다. 그 이유는, 각 서버 간의 데이터 처리 속도(또는, 전송 속도) 내지 전송되는 데이터의 용량이 서로 다르기 때문이다. 따라서, 클라이언트(10)가 응답 발화음성을 수신하는 제2 시점(t2)과 부가 정보를 수신하는 제3 시점(t3) 간에는 소정의 시간 차(
Figure pat00001
)가 발생될 수 있다.
만일, 클라이언트(10)가 응답 발화음성 또는 부가 정보 중 어느 하나의 데이터를 수신하는 즉시 응답을 출력할 경우, 각 데이터가 소정의 시간 차(
Figure pat00002
)를 두고 따로따로 구현되기 때문에 사용자 측면에서 음성인식 서비스에 대한 신뢰도를 저해하는 요인으로 작용할 수 있다. 특히, 각 데이터는 인간의 오감 중 서로 다른 감각(청각 또는 시각)에 의존하기 때문에 제공되는 응답에 대하여 사용자가 느끼는 이질감은 증대될 수밖에 없다.
전술한 이유로, 일 실시 예에 따른 클라이언트(10)는 응답 발화음성 및 부가 정보 중 어느 하나의 데이터를 수신한 시점(t2)에서 상기 데이터의 출력을 대기 상태로 제어하고, 나머지 하나의 데이터를 수신하는 시점(t3)에서 상기 응답 발화음성과 부가 정보를 동기화함으로써 출력 시점을 일치시킬 수 있다. 이때, 클라이언트(10)는 메모리(150, 도 2 참조)에 사용자 발화음성과 응답 발화음성 및 부가 정보를 서로 매핑하여 저장하고, 응답 대기시간이 경과되면 메모리(150, 도 2 참조)로부터 응답 결과를 로드하여 처리할 수 있다.
전술한 클라이언트(10)에서 구현되는 사용자 발화에 대한 응답의 일 예는 도 5를 참조하여 이하에서 설명한다.
도 5는 본 발명의 일 실시 예에 따른 클라이언트에 설치된 음성인식 어플리케이션 프로그램을 통하여 구현되는 사용자 발화에 대한 응답을 나타내는 도면이다.
도 5를 참조하면, 클라이언트(10)는 사용자(User)의 발화에 대한 응답으로, 스피커(130, 도 2 참조)를 통해 응답 발화음성(A)을 출력함과 동시에 디스플레이(140, 도 2 참조)에 부가 정보(B)를 표시할 수 있다.
이하에서는, 클라이언트(10)가 사용자(User)로부터 [오늘 예능 뭐해]라는 사용자 발화음성(Q)을 수집하는 것으로 가정하고 설명하기로 한다. 다만, 이는 예시적인 것에 불과하고, 사용자 발화음성(Q)의 범주는 이에 한정되지 아니함은 통상의 기술자에게 자명하다.
사용자로(User)부터 [오늘 예능 뭐해]라는 사용자 발화음성(Q)이 클라이언트(10)로 입력되는 경우, 클라이언트(10)는 음성인식 플랫폼 제공 장치(미도시)로부터 생성된 응답 발화음성(A)과 부가 정보(B)를 수신할 수 있다.
클라이언트(10)가 수신하는 응답 발화음성(A)과 부가 정보(B)는 음성인식 플랫폼 제공 장치(미도시)에 의하여 도출되는 사용자의 발화 의도-예: '오늘 방송되는 예능 프로그램'-와 상응하는 응답 결과를 포함할 수 있다. 일 예로, 응답 발화음성(A)은 [오늘의 예능 프로그램으로는 영화가 좋다, 아는 형님, 놀면 뭐하니, 불후의 명곡 등이 있어요]라는 청각적 형태의 데이터를 포함하고, 부가 정보(B)는 '오늘 방송되는 예능 프로그램'의 각 콘텐츠에 대한 썸네일 이미지(image)와 각 콘텐츠의 타이틀, 방송국, 방송시간, 및 시청률에 대한 정보가 수록된 텍스트(text)를 포함하는 시각적 형태의 데이터를 포함할 수 있다.
클라이언트(10)는 스피커(130, 도 2 참조)를 통해 상기 응답 발화음성(A)을 출력하고, 디스플레이(140, 도 2 참조)를 통해 상기 부가 정보(B)를 출력하되, 상기 응답 발화음성(A)과 부가 정보(B)의 출력 시점을 일치시켜 동시에 구현함으로써 사용자 경험(UX)을 개선할 수 있다.
상술한 실시예에 따른 음성인식에 기반한 부가 서비스 제공 방법은 컴퓨터에서 실행되기 위한 프로그램으로 제작되어 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있으며, 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 포함될 수 있다.
컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 상술한 방법을 구현하기 위한 기능적인(function) 프로그램, 코드 및 코드 세그먼트들은 실시예가 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.
실시 예와 관련하여 전술한 바와 같이 몇 가지만을 기술하였지만, 이외에도 다양한 형태의 실시가 가능하다. 앞서 설명한 실시 예들의 기술적 내용들은 서로 양립할 수 없는 기술이 아닌 이상은 다양한 형태로 조합될 수 있으며, 이를 통해 새로운 실시 형태로 구현될 수도 있다.
한편, 전술한 실시 예에 의한 음성인식에 기반한 부가 서비스 제공 시스템 및 그 방법은 스마트폰, 웨어러블 단말기, 인공지능 스피커, 로봇 청소기, 셋톱박스, TV, 냉장고 등과 같은 사물인터넷(IoT)에 해당하는 각종 디바이스에서 사용할 수 있다.
본 발명은 본 발명의 정신 및 필수적 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있음은 통상의 기술자에게 자명하다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

Claims (21)

  1. 사용자 발화에 따른 음성 입력을 수신하는 클라이언트; 및
    상기 클라이언트와 연동되어 상기 음성 입력에 상응하는 사용자 발화 의도를 도출하고, 상기 사용자 발화 의도에 기반하여 복수의 응답 데이터를 생성하는 음성인식 플랫폼 제공 장치;를 포함하고,
    상기 클라이언트는,
    응답 대기시간에 기반하여 상기 복수의 응답 데이터를 동기화하여 외부로 출력하는, 음성인식에 기반한 부가 서비스 제공 시스템.
  2. 제1 항에 있어서,
    상기 복수의 응답 데이터는,
    청각적 형태의 음성 데이터를 포함하는 제1 응답 데이터; 및
    시각적 형태의 콘텐츠 데이터를 포함하는 제2 응답 데이터;를 포함하는, 음성인식에 기반한 부가 서비스 제공 시스템.
  3. 제2 항에 있어서,
    상기 음성인식 플랫폼 제공 장치는,
    상기 음성 입력을 질의 텍스트로 변환하고, 자연어 처리 및 개체명 인식 중 적어도 하나를 이용하여 상기 사용자 발화 의도를 도출하는 제1 서버;
    기 구축된 데이터 베이스를 토대로 상기 사용자 발화 의도를 탐색하여 응답 텍스트를 생성하는 제2 서버; 및
    상기 클라이언트와 규정된 프로토콜에 따라 세션 연결을 수행하는 제3 서버;를 포함하는, 음성인식에 기반한 부가 서비스 제공 시스템.
  4. 제3 항에 있어서,
    상기 제2 서버는, 상기 제1 서버로 상기 응답 텍스트를 전송하고,
    상기 제1 서버는, 상기 응답 텍스트를 음성 신호로 변환하여 상기 제1 응답 데이터를 생성하는, 음성인식에 기반한 부가 서비스 제공 시스템.
  5. 제4 항에 있어서,
    상기 제2 서버는,
    상기 응답 텍스트의 핵심어를 추출하여 상기 제2 응답 데이터를 생성하고,
    상기 제3 서버로 상기 제2 응답 데이터를 전송하는, 음성인식에 기반한 부가 서비스 제공 시스템.
  6. 제5 항에 있어서,
    상기 클라이언트는,
    상기 제1 서버로부터 상기 제1 응답 데이터를 수신하고,
    상기 제3 서버로부터 상기 세션 연결이 유지된 상태에서 상기 제2 응답 데이터를 수신하는, 음성인식에 기반한 부가 서비스 제공 시스템.
  7. 제6 항에 있어서,
    상기 응답 대기시간은,
    상기 음성 입력을 수신하는 제1 시점과 상기 제1 및 제2 응답 데이터를 전부 수신하는 제2 시점 사이의 출력 지연시간인, 음성인식에 기반한 부가 서비스 제공 시스템.
  8. 제2 항에 있어서,
    상기 클라이언트는,
    상기 응답 대기시간이 경과되기 전, 상기 제1 및 제2 응답 데이터 중 어느 하나의 데이터에 대한 출력을 대기 상태로 제어하는, 음성인식에 기반한 부가 서비스 제공 시스템.
  9. 제6 항에 있어서,
    상기 클라이언트는,
    상기 음성 입력과 상기 제1 및 제2 응답 데이터를 서로 매핑하여 저장하는, 음성인식에 기반한 부가 서비스 제공 시스템.
  10. 제3 항에 있어서,
    상기 프로토콜은 HTTP/2(Hyper Text Transfer Protocol Version 2)를 포함하는, 음성인식에 기반한 부가 서비스 제공 시스템.
  11. 클라이언트; 및 음성인식 플랫폼 제공 장치를 포함하는 부가 서비스 제공 시스템의 음성인식에 기반한 부가 서비스 제공 방법에 있어서,
    음성인식 플랫폼 제공 장치에서, 상기 클라이언트로부터 사용자 발화에 따른 음성 입력을 수신하는 단계;
    음성인식 플랫폼 제공 장치에서, 상기 음성 입력에 상응하는 사용자 발화 의도를 도출하고, 상기 사용자 발화 의도에 기반하여 복수의 응답 데이터를 생성하는 단계;
    상기 클라이언트에서, 상기 음성인식 플랫폼 제공 장치로부터 상기 복수의 응답 데이터를 수신하는 단계; 및
    상기 클라이언트에서, 응답 대기시간에 기반하여 상기 복수의 응답 데이터를 동기화하여 외부로 출력하는 단계;를 포함하는, 음성인식에 기반한 부가 서비스 제공 방법.
  12. 제11 항에 있어서,
    상기 복수의 응답 데이터는,
    청각적 형태의 음성 데이터를 포함하는 제1 응답 데이터; 및
    시각적 형태의 콘텐츠 데이터를 포함하는 제2 응답 데이터;를 포함하는, 음성인식에 기반한 부가 서비스 제공 방법.
  13. 제12 항에 있어서,
    상기 음성인식 플랫폼 제공 장치는 제1 내지 제3 서버를 포함하고,
    상기 제1 서버에서, 상기 음성 입력을 질의 텍스트로 변환하고, 자연어 처리 및 개체명 인식 중 적어도 하나를 이용하여 상기 사용자 발화 의도를 도출하는 단계;
    상기 제2 서버에서, 기 구축된 데이터 베이스를 토대로 상기 사용자 발화 의도를 탐색하여 응답 텍스트를 생성하는 단계; 및
    상기 제3 서버에서, 상기 클라이언트와 규정된 프로토콜에 따라 세션 연결을 수행하는 단계;를 포함하는, 음성인식에 기반한 부가 서비스 제공 방법.
  14. 제13 항에 있어서,
    상기 제2 서버에서, 상기 제1 서버로 상기 응답 텍스트를 전송하는 단계; 및
    상기 제1 서버에서, 상기 전송 받은 응답 텍스트를 음성 신호로 변환하여 상기 제1 응답 데이터를 생성하는 단계;를 포함하는, 음성인식에 기반한 부가 서비스 제공 방법.
  15. 제14 항에 있어서,
    상기 제2 서버에서, 상기 응답 텍스트의 핵심어를 추출하여 상기 제2 응답 데이터를 생성하고 상기 제3 서버로 상기 제2 응답 데이터를 전송하는 단계를 포함하는, 음성인식에 기반한 부가 서비스 제공 방법.
  16. 제15 항에 있어서,
    상기 클라이언트에서,
    상기 제1 서버로부터 상기 제1 응답 데이터를 수신하는 단계; 및
    상기 제3 서버로부터 상기 세션 연결이 유지된 상태에서 상기 제2 응답 데이터를 수신하는 단계;를 포함하는, 음성인식에 기반한 부가 서비스 제공 방법.
  17. 제16 항에 있어서,
    상기 응답 대기시간은,
    상기 음성 입력을 수신하는 제1 시점과 상기 제1 및 제2 응답 데이터를 전부 수신하는 제2 시점 사이의 출력 지연시간인, 음성인식에 기반한 부가 서비스 제공 방법.
  18. 제12 항에 있어서,
    상기 클라이언트에서,
    상기 응답 대기시간이 경과되기 전, 상기 제1 및 제2 응답 데이터 중 어느 하나의 데이터에 대한 출력을 대기 상태로 제어하는 단계;를 포함하는, 음성인식에 기반한 부가 서비스 제공 방법.
  19. 제16 항에 있어서,
    상기 클라이언트에서,
    상기 음성 입력과 상기 제1 및 제2 응답 데이터를 서로 매핑하여 저장하는 단계;를 포함하는, 음성인식에 기반한 부가 서비스 제공 방법.
  20. 제13 항에 있어서,
    상기 프로토콜은 HTTP/2(Hyper Text Transfer Protocol Version 2)를 포함하는, 음성인식에 기반한 부가 서비스 제공 방법.
  21. 프로세서에 의해 실행되는 것을 통하여, 제11 항 내지 제 20항 중 어느 한 항에 기재된 음성인식에 기반한 부가 서비스 제공 방법을 실현하는 응용 프로그램이 기록된 컴퓨터 판독 가능한 기록매체.
KR1020190110522A 2019-09-06 2019-09-06 음성인식에 기반한 부가 서비스 제공 시스템 및 그 방법 KR102342715B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190110522A KR102342715B1 (ko) 2019-09-06 2019-09-06 음성인식에 기반한 부가 서비스 제공 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190110522A KR102342715B1 (ko) 2019-09-06 2019-09-06 음성인식에 기반한 부가 서비스 제공 시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20210029383A true KR20210029383A (ko) 2021-03-16
KR102342715B1 KR102342715B1 (ko) 2021-12-23

Family

ID=75224212

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190110522A KR102342715B1 (ko) 2019-09-06 2019-09-06 음성인식에 기반한 부가 서비스 제공 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR102342715B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116069915A (zh) * 2023-02-16 2023-05-05 支付宝(杭州)信息技术有限公司 政务服务处理方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015503119A (ja) * 2011-11-23 2015-01-29 キム ヨンジン 音声認識付加サービス提供方法及びこれに適用される装置
KR20190096853A (ko) * 2019-07-30 2019-08-20 엘지전자 주식회사 음성 처리 방법 및 음성 처리 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015503119A (ja) * 2011-11-23 2015-01-29 キム ヨンジン 音声認識付加サービス提供方法及びこれに適用される装置
KR20190096853A (ko) * 2019-07-30 2019-08-20 엘지전자 주식회사 음성 처리 방법 및 음성 처리 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116069915A (zh) * 2023-02-16 2023-05-05 支付宝(杭州)信息技术有限公司 政务服务处理方法及装置

Also Published As

Publication number Publication date
KR102342715B1 (ko) 2021-12-23

Similar Documents

Publication Publication Date Title
WO2018021237A1 (ja) 音声対話装置、音声対話方法、および記録媒体
EP4206952A1 (en) Interactive information processing method and apparatus, device and medium
CN109474843B (zh) 语音操控终端的方法、客户端、服务器
US10586536B2 (en) Display device and operating method therefor
KR101683944B1 (ko) 음성번역 시스템, 제어장치, 및 제어방법
JP6681450B2 (ja) 情報処理方法および装置
US10225621B1 (en) Eyes free entertainment
CN111919249A (zh) 词语的连续检测和相关的用户体验
US11514907B2 (en) Activation of remote devices in a networked system
CN111095892A (zh) 电子装置及其控制方法
US20210249007A1 (en) Conversation assistance device, conversation assistance method, and program
US20140129228A1 (en) Method, System, and Relevant Devices for Playing Sent Message
CN114064943A (zh) 会议管理方法、装置、存储介质及电子设备
KR102342715B1 (ko) 음성인식에 기반한 부가 서비스 제공 시스템 및 그 방법
KR20200008341A (ko) 화면을 제어하는 미디어 재생 장치, 방법 및 화면을 분석하는 서버
KR101351264B1 (ko) 음성인식 기반의 메시징 통역서비스 제공 시스템 및 그 방법
JP7284204B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
KR102220253B1 (ko) 메신저 서비스 시스템, 그 시스템에서의 상용구를 이용한 메신저 서비스 방법 및 장치
WO2021140816A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
WO2024032111A9 (zh) 在线会议的数据处理方法、装置、设备、介质及产品
WO2022237381A1 (zh) 保存会议记录的方法、终端及服务器
CN115396709A (zh) 显示设备、服务器及免唤醒语音控制方法
CN113906502A (zh) 语音处理装置、语音对的语料库的生成方法、以及记录程序的记录介质
KR20150114323A (ko) 말하기 서비스 제공 시스템 및 방법

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant