KR102144286B1

KR102144286B1 - 음성 서비스 제공 방법, 장치 및 서버

Info

Publication number: KR102144286B1
Application number: KR1020197020272A
Authority: KR
Inventors: 싱 루오; 구앙하오 셴; 펭 왕; 준타오 쉬에; 지동 왕; 시지에 양
Original assignee: 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Priority date: 2017-06-30
Filing date: 2017-12-22
Publication date: 2020-08-14
Also published as: EP3550801A4; CN107277153A; EP3550801A1; JP2020511804A; WO2019000871A1; EP3550801B1; CN107277153B; US10791200B2; KR20190091545A; US20190335020A1; JP6754011B2

Abstract

본 출원은 음성 서비스 제공 방법, 장치 및 서버를 공개한다. 상기 방법의 일 구체적인 실시형태는, 제3자 음성 서비스에 접속된 기기단에 타겟 음성 서비스를 제공하기 위한 요청 메시지를 수신하되, 요청 메시지는 요청 내용 및 기기단의 상태 정보를 포함하는 단계; 기기단의 상태 정보에 기반하여 요청 내용을 처리하여 생성된 응답 메시지를 획득하되, 응답 메시지는 작동 명령을 포함하는 단계; 및 기기단에 응답 메시지를 발송하는 단계를 포함하며, 요청 메시지와 응답 메시지는, 이미 구축된 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 메시지 포맷에 따라 생성되고, 상기 데이터 서비스 프레임워크 모델에 구성된 전송 프로토콜에 기반하여 전송되며, 상기 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 메시지 포맷 및 전송 프로토콜은 제3자 음성 서비스의 메시지 포맷 및 전송 프로토콜과 각각 일치한다. 상기 음성 서비스 제공 방법은 기기단이 상이한 음성 서비스에 접속되는 개발 비용과 운영 유지 비용을 감소시킬 수 있다.

Description

음성 서비스 제공 방법, 장치 및 서버

본 출원은 2017년 6월 30일에 제출한 제201710525724.1호 중국 특허 출원의 우선권을 주장하는 바, 상기 중국 특허 출원의 모든 내용은 본 출원에 원용된다.

본 출원은 컴퓨터 기술 분야에 관한 것으로, 구체적으로 인공지능 분야, 특히 음성 서비스 제공 방법, 장치 및 서버에 관한 것이다.

컴퓨터 기술의 발전과 네트워크 데이터의 지속적인 축적에 따라 인공지능 기술이 급속하게 발전하고 있다. 인공 지능 분야에서 음성 인식, 자연어 처리 및 기계 학습 기술을 통합한 지능형 음성 서비스는 갈수록 더 널리 적용되고 있다.

현재 다양한 지능형 음성 서비스 제공 업체는 각자 음성 서비스의 접속 프로토콜을 독립적으로 개발하고 개발자에게 음성 서비스 접속 인터페이스를 제공함으로써, 개발자는 상이한 접속 프로토콜에 따라 상이한 지능형 음성 서비스에 접속할 수 있다. 그러나 지능형 음성 서비스의 접속 프로토콜 간의 비 호환성으로 인해 개발자는 상이한 지능형 음성 서비스에 접속하기 위해 많은 반복적인 개발 작업을 진행해야 하므로, 개발 주기가 길고 비용이 높으며, 후속 제품에 대해 각각 운영 유지해야 하므로 운영 유지 비용이 높다.

배경 기술에서 제출한 하나 또는 복수의 기술적 과제를 해결하기 위하여, 본 출원의 실시예는 음성 서비스 제공 방법, 장치 및 서버를 제공한다.

제1 양태에 있어서, 본 출원의 실시예는, 제3자 음성 서비스에 접속된 기기단에 타겟 음성 서비스를 제공하기 위한 요청 메시지를 수신하되, 요청 메시지는 요청 내용 및 기기단의 상태 정보를 포함하는 단계; 기기단의 상태 정보에 기반하여 요청 내용을 처리하여 생성된 응답 메시지를 획득하되, 응답 메시지는 작동 명령을 포함하는 단계; 및 기기단에 응답 메시지를 발송하는 단계를 포함하며, 요청 메시지와 응답 메시지는, 이미 구축된 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 메시지 포맷에 따라 생성되고, 상기 데이터 서비스 프레임워크 모델에 구성된 전송 프로토콜에 기반하여 전송되며, 구축된 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 메시지 포맷은 제3자 음성 서비스의 메시지 포맷과 일치하고, 구축된 상기 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 전송 프로토콜은 제3자 음성 서비스의 전송 프로토콜과 일치하는 음성 서비스 제공 방법을 제공한다.

일부 실시예에 있어서, 상기 음성 서비스 제공 방법은, 사용자가 기기단의 구성 파일 중 대응되는 구성 아이템을 교체하도록, 사용자로부터 발송된 기기단에 대한 타겟 음성 서비스 등록 요청을 획득한 것에 응답하여, 사용자에게 타겟 음성 서비스의 교체할 구성 정보를 제공하는 단계를 더 포함하고, 교체할 구성 정보는 사용자 식별자, 사용자 패스워드 및 액세스 토큰(token) 획득 경로 주소를 포함한다.

일부 실시예에 있어서, 상기 음성 서비스 제공 방법은, 기기단을 타겟 음성 서비스에 접속시키는 접속 요청을 수신하되, 타겟 음성 서비스 접속 요청은 사용자 식별자, 사용자 패스워드 및 기기단의 식별자를 포함하는 단계; 및 기기단이 액세스 토큰 획득 경로 주소를 통해 발급된 액세스 토큰을 획득하도록, 접속 요청에 기반하여 기기단에 타겟 음성 서비스의 액세스 토큰을 발급하는 단계를 더 포함한다.

일부 실시예에 있어서, 접속 요청에 기반하여 기기단에 타겟 음성 서비스의 액세스 토큰을 발급하는 단계는, 사용자 식별자와 사용자 패스워드에 따라, 사용자로부터 권한을 부여 받은 기기 식별자를 검색하는 단계; 타겟 음성 서비스 접속 요청의 기기단 식별자가 사용자로부터 권한을 부여 받은 기기 식별자와 일치한지의 여부를 판단하는 단계; 및 타겟 음성 서비스 접속 요청의 기기단 식별자가 사용자로부터 권한을 부여 받은 기기 식별자와 일치하면, 기기단에 타겟 음성 서비스의 액세스 토큰을 발급하는 단계를 포함한다.

일부 실시예에 있어서, 제3자 음성 서비스에 접속된 기기단에 타겟 음성 서비스를 제공하기 위한 요청 메시지를 수신하는 단계는, 타겟 음성 서비스의 액세스 토큰을 획득한, 제3자 음성 서비스에 접속된 기기단에 의해 발송된 요청 메시지를 수신하는 단계를 포함한다.

일부 실시예에 있어서, 응답 메시지는, 요청 메시지를 파싱(parsing)하여 요청 내용과 기기단의 상태 정보를 획득하는 단계; 기기단의 상태 정보와 요청 내용에 기반하여 대응되는 작동 명령을 생성하는 단계; 및 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 메시지 포맷과 전송 프로토콜에 따라, 작동 명령을 패키징하여 응답 메시지를 생성하는 단계에 따라 생성된다.

일부 실시예에 있어서, 기기단의 상태 정보는 기기단의 능력 선언, 기기단의 컨텍스트 정보 및 기기단의 이벤트 정보를 포함한다.

일부 실시예에 있어서, 기기단의 상태 정보와 요청 내용에 기반하여 대응되는 작동 명령을 생성하는 단계는, 기기단의 능력 선언, 기기단의 컨텍스트 정보 및 기기단의 이벤트 정보에 기반하여, 기기단의 호출 가능한 작동 인터페이스를 결정하는 단계; 호출 가능한 작동 인터페이스로부터 요청 내용에 대응되는 타겟 작동 인터페이스를 결정하는 단계; 및 요청 내용에 따라 음성 서비스 내용을 결정하고, 타겟 작동 인터페이스를 호출하여 음성 서비스 내용을 출력하기 위한 작동 명령을 생성하는 단계를 포함한다.

일부 실시예에 있어서, 기기단의 상태 정보에 기반하여 요청 내용을 처리하여 생성된 응답 메시지를 획득하는 단계는, 요청 내용이 음성 인터랙션 수요를 포함하는지 여부를 검출하는 단계; 및 요청 내용이 음성 인터랙션 수요를 포함하는 것을 검출한 것에 응답하여, 기설정된 시간 길이 또는 기설정된 메시지 길이에 따라 음성 서비스 데이터를 구획하여 복수의 응답 메시지 세그멘트를 생성하는 단계를 포함하고, 기기단에 응답 메시지를 발송하는 단계는, 응답 메시지 세그멘트의 생성 시간에 따라 순차적으로 기기단에 응답 메시지 세그멘트를 발송하는 단계를 포함한다.

일부 실시예에 있어서, 상기 음성 서비스 제공 방법은, 타겟 음성 서비스의 데이터 서비스 프레임워크 모델을 구축하되, 데이터 서비스 프레임워크 모델은 전송 프로토콜층, 메시지 포맷층 및 기기단 능력층을 포함하는 단계를 더 포함하고, 타겟 음성 서비스의 데이터 서비스 프레임워크 모델을 구축하는 단계는, 타겟 음성 서비스에 적용되는 전송 프로토콜을 구성하는 단계를 포함하는 전송 프로토콜층 구축 단계; 타겟 음성 서비스의 요청 메시지와 응답 메시지의 메시지 포맷을 구성하는 단계를 포함하는 메시지 포맷층 구축 단계; 및 요청 메시지와 응답 메시지로부터 기기단의 능력을 파싱하는 로직을 구성하는 단계를 포함하는 기기단 능력층 구축 단계를 포함한다.

제2 양태에 있어서, 본 출원의 실시예는 음성 서비스 제공 장치를 제공하며, 상기 음성 서비스 제공 장치는, 제3자 음성 서비스에 접속된 기기단에 타겟 음성 서비스를 제공하기 위한 요청 메시지를 수신하도록 구성되되, 요청 메시지는 요청 내용 및 기기단의 상태 정보를 포함하는 제1 수신 유닛; 기기단의 상태 정보에 기반하여 요청 내용을 처리하여 생성된 응답 메시지를 획득하도록 구성되되, 응답 메시지는 작동 명령을 포함하는 획득 유닛; 및 기기단에 응답 메시지를 발송하도록 구성된 발송 유닛을 포함하고, 요청 메시지와 응답 메시지는, 이미 구축된 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 메시지 포맷에 따라 생성되고, 이미 구축된 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 전송 프로토콜에 기반하여 전송되며, 구축된 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 메시지 포맷은 제3자 음성 서비스의 메시지 포맷과 일치하고, 구축된 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 전송 프로토콜은 제3자 음성 서비스의 전송 프로토콜과 일치한다.

일부 실시예에 있어서, 상기 음성 서비스 제공 장치는, 사용자가 기기단의 구성 파일 중 대응되는 구성 아이템을 교체하도록, 사용자로부터 발송된 기기단에 대한 타겟 음성 서비스 등록 요청을 획득한 것에 응답하여, 사용자에게 상기 타겟 음성 서비스의 교체할 구성 정보를 제공하도록 구성된 제공 유닛을 더 포함하고, 교체할 구성 정보는 사용자 식별자, 사용자 패스워드 및 액세스 토큰 획득 경로 주소를 포함한다.

일부 실시예에 있어서, 상기 음성 서비스 제공 장치는, 기기단을 타겟 음성 서비스에 접속하는 접속 요청을 수신하도록 구성되되, 타겟 음성 서비스 접속 요청은 사용자 식별자, 사용자 패스워드 및 기기단의 식별자를 포함하는 제2 수신 유닛; 및 기기단이 액세스 토큰 획득 경로 주소를 통해 발급된 액세스 토큰을 획득하도록, 접속 요청에 기반하여 기기단에 타겟 음성 서비스의 액세스 토큰을 발급하도록 구성된 권한부여 유닛을 더 포함한다.

일부 실시예에 있어서, 권한부여 유닛은 또한, 사용자 식별자와 사용자 패스워드에 따라, 사용자로부터 권한을 부여 받은 기기 식별자를 검색하는 단계; 및 타겟 음성 서비스 접속 요청의 기기단 식별자가 사용자로부터 권한을 부여 받은 기기 식별자와 일치한지의 여부를 판단하는 단계; 및 타겟 음성 서비스 접속 요청의 기기단 식별자가 상기 사용자로부터 권한을 부여 받은 기기 식별자와 일치하면, 기기단에 타겟 음성 서비스의 액세스 토큰을 발급하는 단계에 따라 기기단에 타겟 음성 서비스의 액세스 토큰을 발급하도록 구성된다.

일부 실시예에 있어서, 제1 수신 유닛은 또한, 타겟 음성 서비스의 액세스 토큰을 획득한, 제3자 음성 서비스에 접속된 기기단에 의해 발송된 요청 메시지를 수신하도록 구성된다.

일부 실시예에 있어서, 획득 유닛이 획득한 상기 응답 메시지는, 요청 메시지를 파싱하여 요청 내용과 기기단의 상태 정보를 획득하는 단계; 기기단의 상태 정보와 요청 내용에 기반하여 대응되는 작동 명령을 생성하는 단계; 및 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 메시지 포맷과 전송 프로토콜에 따라, 작동 명령을 패키징하여 응답 메시지를 생성하는 단계에 따라 생성된다.

일부 실시예에 있어서, 획득 유닛이 획득한 응답 메시지의 작동 명령은, 기기단의 능력 선언, 기기단의 컨텍스트 정보 및 기기단의 이벤트 정보에 기반하여, 기기단의 호출 가능한 작동 인터페이스를 결정하는 단계; 호출 가능한 작동 인터페이스로부터 요청 내용에 대응되는 타겟 작동 인터페이스를 결정하는 단계; 및 요청 내용에 따라 음성 서비스 내용을 결정하고, 타겟 작동 인터페이스를 호출하여 음성 서비스 내용을 출력하기 위한 작동 명령을 생성하는 단계에 따라 생성된다.

일부 실시예에 있어서, 획득 유닛은 또한, 요청 내용이 음성 인터랙션 수요를 포함하는지 여부를 검출하고, 요청 내용이 음성 인터랙션 수요를 포함하는 것을 검출한 것에 응답하여, 기설정된 시간 길이 또는 기설정된 메시지 길이에 따라 음성 서비스 데이터를 구획하여 복수의 응답 메시지 세그멘트를 생성하도록 구성되며, 발송 유닛은 또한, 응답 메시지 세그멘트의 생성 시간에 따라 순차적으로 기기단에 응답 메시지 세그멘트를 발송하도록 구성된다.

일부 실시예에 있어서, 상기 음성 서비스 제공 장치는, 타겟 음성 서비스의 데이터 서비스 프레임워크 모델을 구축하도록 구성되되, 데이터 서비스 프레임워크 모델은 전송 프로토콜층, 메시지 포맷층 및 기기단 능력층을 포함하는 구축 유닛을 더 포함하고, 구축 유닛은 구체적으로, 타겟 음성 서비스에 적용되는 전송 프로토콜을 구성하는 단계를 포함하여 전송 프로토콜층을 구축하고, 타겟 음성 서비스의 요청 메시지와 응답 메시지의 메시지 포맷을 구성하는 단계를 포함하여 메시지 포맷층을 구축하며, 요청 메시지와 응답 메시지로부터 기기단의 능력을 파싱하는 로직을 구성하는 단계를 포함하여 기기단 능력층을 구축하도록 구성된다.

제3 양태에 있어서, 본 출원의 실시예는, 하나 또는 복수 개의 프로세서; 및 하나 또는 복수 개의 프로그램을 저장하는 저장 장치를 포함하며, 하나 또는 복수 개의 프로그램이 하나 또는 복수 개의 프로세서에 의해 실행될 경우, 하나 또는 복수 개의 프로세서가 음성 서비스 제공 방법을 구현하도록 하는 서버를 제공한다.

본 출원에 의해 제공된 음성 서비스 제공 방법, 장치 및 서버는 제3자 음성 서비스에 접속된 기기단에 타겟 음성 서비스를 제공하기 위한, 요청 내용 및 기기단의 상태 정보를 포함하는 요청 메시지를 수신하고, 다음으로 기기단의 상태 정보에 기반하여 요청 내용을 처리하여 생성된 응답 메시지를 획득하되, 상기 응답 메시지는 작동 명령을 포함하며, 마지막으로 기기단에 응답 메시지를 발송하고, 여기서 요청 메시지와 응답 메시지는, 이미 구축된 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된, 제3자 음성 서비스의 메시지 포맷과 일치하는 메시지 포맷에 따라 생성되며, 데이터 서비스 프레임워크 모델에 구성된, 제3자 음성 서비스의 전송 프로토콜과 일치하는 전송 프로토콜에 기반하여 전송됨으로써, 이미 개발된 제3자 음성 서비스의 서비스 인터랙션 등 로직을 이용하여 타겟 음성 서비스에 빠르게 접속할 수 있고 타겟 음성 서비스를 위해 서비스 인터랙션 등 로직을 별도로 개발할 필요가 없으므로, 상이한 음성 서비스에 접속하는 제품의 개발 비용과 운영 유지 비용을 감소시키는데 유리하다.

이하 첨부된 도면을 참조하여 설명된 비제한적인 실시예에 대한 상세한 설명으로부터 본 출원의 다른 특징, 목적 및 이점은 더욱 명백해질 것이다.
도 1은 본 출원이 응용될 수 있는 예시적인 시스템 구조도이다.
도 2는 본 출원에 따른 음성 서비스 제공 방법의 일 실시예의 흐름도이다.
도 3a는 본 출원에 따른 음성 서비스 제공 방법의 일 응용 시나리오의 모식도이다.
도 3b는 본 출원에 따른 음성 서비스 제공 방법의 다른 일 응용 시나리오의 모식도이다.
도 4는 본 출원에 따른 음성 서비스 제공 방법에 사용되는 음성 서비스 접속 방법의 응용 시나리오의 모식도이다.
도 5는 타겟 음성 서비스의 데이터 서비스 프레임워크 모델의 일 모식도이다.
도 6은 본 출원에 따른 음성 서비스 제공 장치의 일 실시예의 구조 모식도이다.
도 7은 본 출원의 실시예를 구현하기 위한 서버에 적용되는 컴퓨터 시스템의 구조 모식도이다.

이하, 도면 및 실시예를 결부하여 본 출원을 보다 더 상세하게 설명한다. 여기서 설명된 구체적인 실시예는 단지 관련 발명을 해석하기 위한 것일 뿐 해당 발명에 대한 한정이 아님을 이해해야 한다. 이 밖에 더 설명해야 할 것은 설명의 편의를 위해 도면에서 관련 발명과 관련되는 부분만 도시한다.

설명해야 할 것은, 본 출원에 따른 실시예 및 실시예의 특징은 모순되지 않는 한 서로 조합될 수 있다. 이하 첨부된 도면을 참조하고 실시예를 결부하여 본 출원을 상세하게 설명하기로 한다.

도 1은 본 출원에 따른 음성 서비스 제공 방법 또는 음성 서비스 제공 장치가 적용될 수 있는 실시예의 예시적인 시스템 구조(100)를 나타낸다.

도 1에 도시된 바와 같이, 시스템 구조(100)는 단말기(101), 기기(102, 103), 네트워크(104) 및 서버(105)를 포함할 수 있다. 네트워크(104)는 단말기(101)와 서버(105) 사이 및 기기(102, 103)와 서버(105) 사이에 통신 링크를 제공하기 위한 매체이다. 네트워크(104)는 다양한 연결 타입 예를 들어 유선 통신 링크, 무선 통신 링크 또는 광섬유 케이블 등을 포함할 수 있다.

사용자(110)는 메시지 등을 송수신하도록 단말기(101)를 사용하여 네트워크(104)를 통해 서버(105)와 인터랙션할 수 있다. 단말기(101)에는 예를 들어 웹 브라우저 애플리케이션, 음성 서비스 클라이언트 애플리케이션 등 서버(105)와 인터랙션하는 애플리케이션이 설치될 수 있다. 단말기(101)는 스크린을 구비하는 다양한 전자기기일 수 있으며 스마트폰, 태블릿 컴퓨터, 데스크톱 컴퓨터 등을 포함하나 이에 한정되지 않는다.

기기(102, 103)도 메시지 등을 송수신하도록 네트워크(104)를 통해 서버(105)와 인터랙션할 수 있다. 기기(102, 103)는 예를 들어 마이크를 구비하는 스피커와 같은, 오디오 입출력 인터페이스를 구비하는 전자기기일 수 있다.

서버(105)는 다양한 서비스를 제공하는 서버일 수 있으며, 예를 들어 단말기(101)에 디스플레이되는 웹 내용을 지원하고 기기(102, 103)에 의해 수행되는 오디오 출력 작동을 제어하는 음성 서버일 수 있다. 음성 서버는, 사용자가 단말기(101)를 통해 발송되는 기기(102, 103)에 대한 음성 서비스 작동 요청을 처리할 수 있으며, 처리 결과(예를 들어 오디오 데이터와 오디오 출력 인테페이스의 제어 명령)를 기기(102, 103)에 발송할 수 있다. 기기(102, 103)는, 서버(105)가 발송한 오디오 데이터와 제어 명령을 네트워크(104)를 통해 수신할 수 있으며 대응되는 작동을 수행할 수 있으므로, 기기(102, 103)를 음성 서버(105)에 의해 제공되는 음성 서비스에 접속시킨다.

설명해야 할 것은, 본 출원의 실시예에 의해 제공된 음성 서비스 제공 방법은 일반적으로 서버(105)에 의해 수행되며, 상응하게, 음성 서비스 제공 장치는 일반적으로 서버(105)에 설치된다.

이해해야 할 것은, 도 1의 단말기, 기기, 네트워크 및 서버의 개수는 예시적인 것일 뿐 구현의 필요에 따라 임의 개수의 단말기, 기기, 네트워크 및 서버를 구비할 수 있다. 예를 들어 서버는 클러스터식 서버일 수 있고 다양한 프로세스를 배치하는 복수의 서버를 포함한다.

계속하여 도 2를 참조하면, 이는 본 출원에 따른 음성 서비스 제공 방법의 일 실시예의 흐름(200)을 나타낸다. 상기 음성 서비스 제공 방법은 하기와 같은 단계를 포함한다.

단계201에서, 제3자 음성 서비스에 접속된 기기단으로 타겟 음성 서비스를 제공하기 위한 요청 메시지를 수신한다.

본 실시예에 있어서, 음성 서비스 제공 방법이 수행되는 전자기기(즉 타겟 음성 서비스의 서버, 예를 들어 도 1에 도시된 바와 같은 서버)는, 사용자의 음성 서비스 요청이 수행되는 전자기기(예를 들어 도 1에 도시된 바와 같은 단말기(101))에서 유선 연결 방식 또는 무선 연결 방식을 통해 상기 요청 메시지를 수신하거나, 사용자의 음성 인터랙션이 수행되는 기기단(예를 들어 도 1에 도시된 바와 같은 기기(102, 103))에서 상기 요청 메시지를 수신할 수 있다. 여기서 요청 메시지는 요청 내용 및 제3자 음성 서비스에 접속된 기기단의 상태 정보를 포함한다. 요청 내용은, 사용자가 요청한 음성 서비스의 내용을 포함할 수 있고, 예를 들어 사용자가 오디오 입력 인터페이스를 통해 입력한 음성 데이터를 포함할 수 있다. 기기단의 상태 정보는, 기기단의 현재 운영 상태를 나타내는 정보일 수 있으며, 기기단의 현재 실행 중인 작동 정보, 기기단의 현재 인터페이스의 상태 정보 등을 포함할 수 있다.

상기 요청 메시지는, 제3자 음성 서비스에 접속된 기기단으로 타겟 음성 서비스를 제공하기 위한 요청 메시지일 수 있다. 여기서 타겟 음성 서비스와 제3자 음성 서비스는 다양한 서버 또는 서버 클러스터에 의해 제공되는 음성 서비스일 수 있고, 양자는 특성이 부동한 음성 서비스를 제공할 수 있다. 예를 들어, 제3자 음성 서비스와 타겟 음성 서비스는 부동한 언어 타입을 지원하는 음성 서비스일 수 있다. 기기는 제3자 음성 서비스에 접속된 후, 제3자 음성 서비스에서 지원되는 언어 타입(예를 들어, 영어)의 음성 서비스를 적용할 수 있으며, 만약 기기에서 다른 언어 타입(예를 들어, 중국어)의 서비스가 필요하면 다른 언어 타입을 지원하는 타겟 음성 서비스에 접속할 수 있다.

본 실시예에 있어서, 상기 요청 메시지는, 구축된 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 메시지 포맷에 따라 생성되고, 구축된 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 전송 프로토콜에 기반하여 전송되며, 상기 구축된 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 메시지 포맷은, 제3자 음성 서비스의 메시지 포맷과 일치하고, 상기 구축된 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 전송 프로토콜은 제3자 음성 서비스의 전송 프로토콜과 일치한다. 즉, 타겟 음성 서비스는 데이터 서비스 프레임워크 모델을 미리 구축하고, 다른 전자기기는 상기 데이터 서비스 프레임워크 모델과 타겟 음성 서비스의 서버에 따라 인터랙션을 수행할 수 있다. 상기 데이터 서비스 프레임워크 모델에서 메시지 포맷과 전송 프로토콜이 구성되고, 타겟 음성 서비스의 서버와 인터랙션하는 전자기기는, 구성된 메시지 포맷에 따라 메시지를 송수신할 수 있으며, 데이터 전송 시, 구성된 전송 프로토콜에 기반하여 메시지를 패키징한다. 상기 데이터 서비스 프레임워크 모델에 구성된 메시지 포맷과 전송 프로토콜에 따라 생성되고 전송되는 메시지는, 타겟 음성 서비스의 서버에 의해 수신되고 성공적으로 파싱될 수 있으므로, 타겟 음성 서비스의 서버는 파싱을 통해 획득한 내용에 따라 응답할 수 있다.

상기 전송 프로토콜은, 타겟 음성 서버와 다른 전자기기 사이의 연결 방식을 정의할 수 있으며 통용 전송 프로토콜일 수 있다. 상기 메시지 포맷은 메시지의 복수의 필드에 의해 표시된 내용을 정의할 수 있다.

예를 들어, 제3자 음성 서비스가 Http2.0 기반 전송 프로토콜에 적용되고, 메시지 포맷 중 첫번째 필드에 의해 오디오 데이터를 표시하고 2번째 필드에 의해 기기단 상태를 표시한다고 정의되면, 타겟 음성 서비스의 데이터 서비스 프레임워크 구축 시, 해당 전송 프로토콜을 Http2.0으로 구성할 수 있고, 메시지 포맷도 오디오 데이터를 표시하는 첫번째 필드 및 기기 상태를 표시하는 2번째 필드를 포함할 수 있다.

일부 선택 가능한 실시 형태에 있어서, 상기 요청 메시지는, 사용자가 상기 기기단과 통신 연결된 전자기기를 통해 발송될 수 있으며, 상기 전자기기는 기기단의 상태 정보를 획득하도록 기기단으로 미리 요청할 수 있고, 기기단은 상태 정보를 상기 전자기기에 송신할 수 있다. 이에 따라 타겟 음성 서비스를 제공하도록 요청할 시, 상기 전자기기는 요청 내용과 기기단의 상태 정보를 동시에 타겟 음성 서비스의 서버에 송신할 수 있다.

실제 시나리오에 있어서, 사용자는 전자기기(예를 들어, 핸드폰)의 브라우저 애플리케이션에서 타겟 음성 서비스의 서비스 웹 사이트 주소를 입력하고, 사용자 계정에 로그인한 후 알람 설정, 음악 재생 등과 같은 필요한 음성 서비스를 선택할 수 있고, 사용자는 타겟 음성 서비스의 클라이언트 애플리케이션(예를 들어, 핸드폰에 설치된 음성 서비스 클라이언트)에서 요청할 음성 서비스를 선택할 수도 있다. 사용자가 선택한 음성 서비스에 따라 요청 내용을 생성하고, 미리 획득한 기기단의 상태 정보를 결부하여 상기 요청 메시지를 생성하며, 상기 음성 서비스 제공 방법이 수행되는 전자기기에 발송할 수 있다.

다른 일부 선택 가능한 실시 형태에 있어서, 상기 요청 메시지는 제3자 음성 서비스에 접속된 기기단에 의해 발송될 수 있다. 사용자가 기기단에서 로그인 하거나 음성 서비스에 접속한 후, 상기 기기단은 상태 정보와 요청 내용을 이용하여, 이미 구축된 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 메시지 포맷에 따라 요청 메시지를 생성할 수 있으며, 이미 구축된 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 전송 프로토콜에 기반하여 상기 요청 메시지를 전송한다.

단계202에서, 기기단의 상태 정보에 기반하여 요청 내용을 처리하여 생성된 응답 메시지를 획득한다.

요청 내용 및 기기단의 상태 정보를 포함한 요청 메시지를 수신한 후, 요청 내용에 대해 의도를 분석하여 음성 서비스 요청의 의도를 확정할 수 있으며, 다음으로 기기단을 통해 실행되는 작동 명령을 확정한다. 여기서 작동 명령은, 상기 음성 서비스 요청의 의도와 매칭되는 음성 서비스 데이터 및 기기단이 지정한 인터페이스를 호출하여 음성 서비스 데이터를 출력하도록 제어하기 위한 명령을 포함할 수 있다. 그 후 상기 작동 명령을 포함하는 응답 메시지를 생성할 수 있다.

음성 서비스 제공 방법이 수행되는 전자기기(예를 들어 타겟 음성 서비스의 서버)는 생성된 응답 메시지를 획득할 수 있다. 구체적으로, 복수의 상호 통신 연결을 유지하는 서버를 포함하는 서버 클러스터에 타겟 음성 서비스가 배치될 경우, 상기 응답 메시지를 생성하는 서비스 및 기기단에 응답 메시지를 발송하기 위한 서비스가 서버 클러스터 중 상이한 서버에 배치되면, 기기단에 응답 메시지를 발송하기 위한 서비스가 배치되는 서버는 상기 응답 메시지를 생성하는 서버로부터 상기 응답 메시지를 수신할 수 있다. 상기 응답 메시지를 생성하는 서비스 및 기기단에 응답 메시지를 발송하기 위한 서비스가 서버 클러스터 중 동일한 서버에 배치되면, 상기 서버는 생성된 응답 메시지를 포집하고 캐시할 수 있다.

본 실시예에 있어서, 타겟 음성 서비스의 서버와 제3자 음성 서비스에 접속된 기기단이 음성 서비스 인터랙션을 성공적으로 진행되기 위해, 상기 응답 메시지도 이미 구축된 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 메시지 포맷에 따라 생성되고, 이미 구축된 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 전송 프로토콜에 기반하여 전송된다. 마찬가지로, 여기서 이미 구축된 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 메시지 포맷은 제3자 음성 서비스의 메시지 포맷과 일치하고, 이미 구축된 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 전송 프로토콜은 제3자 음성 서비스의 전송 프로토콜과 일치한다. 이에 따라 제3자 음성 서비스에 접속된 기기단은 타겟 음성 서비스의 데이터 서비스 프레임워크에 따라 음성 서비스의 인터랙션 로직을 다시 개발할 필요가 없이, 이미 개발된 제3자 음성 서비스의 인터랙션 로직을 이용하여 타겟 음성 서비스의 서버와 인터랙션할 수 있으므로 개발 비용을 대폭 감소시킨다.

본 실시예의 일부 선택 가능한 실시 형태에 있어서, 상기 응답 메시지는 하기와 같은 단계에 따라 생성될 수 있으며, 요청 메시지를 파싱하여 요청 내용 및 기기단의 상태 정보를 획득한 후, 기기단의 상태 정보와 요청 내용에 기반하여 대응되는 작동 명령을 생성하며, 마지막으로 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 메시지 포맷과 전송 프로토콜에 따라 작동 명령을 패키징하여 응답 메시지를 생성한다. 여기서 상기 음성 서비스 제공 방법이 수행되는 전자기기(즉 타겟 음성 서비스의 서버)는 이미 구성된 전송 프로토콜에 따라 수신된 요청 메시지의 요청 헤드와 텍스트를 파싱할 수 있다. 요청 헤드는, 사용자가 제공한 기기단의 식별자를 포함할 수 있으며, 텍스트는 요청 내용 및 기기단의 다른 상태 정보를 포함할 수 있다. 다음으로, 이미 구성된 메시지 포맷에 따라, 대응되는 요청 내용과 기기단의 상태 정보를 추출할 수 있다. 그 후, 기기단의 상태 정보에 따라, 기기단의 실행 가능한 작동을 확정할 수 있고, 요청 내용에 대응되는 음성 서비스 데이터를 검색하며, 음성 서비스 데이터에 의해 실행되는 작동을 포함하는 작동 명령을 생성하고, 마지막으로 구성된 전송 프로토콜의 요청 헤드, 요청 방법 및 통합 자원 식별자(Uniform Resource Identifier, URI) 등을 이용하여 작동 명령을 패키징하여 상기 응답 메시지를 생성할 수 있다.

나아가, 상기 요청 메시지 중 기기단의 상태 정보는 기기단의 능력 선언, 기기단의 컨텍스트 정보 및 기기단의 이벤트 정보를 포함할 수 있다. 기기단의 능력 선언은, 기기단에 의해 리포팅되는 그가 구비한 능력의 선언, 즉 기기단이 호출될 수 있는 인터페이스의 선언일 수 있으며, 음성 입력, 음성 출력, 스피커 제어, 오디오 플레이어, 알람 설정 등을 포함한다. 기기단의 컨텍스트 정보는, 기기단에 의해 리포팅되는 기기단의 현재 상태 또는 기기단의 현재 실행중인 작동 정보, 예를 들어 기기단이 현재 음악을 재생하고 있는지 여부, 음성 입력을 수신하고 있는지 여부 및 기기단에 알람이 설치되어 있는지 여부 등일 수 있다. 기기단의 이벤트 정보는, 기기단에서 발생된 이벤트의 정보, 예를 들어 기기단의 알람이 울리는지 여부, 기기단이 음악 재상을 시작함 및 기기단이 음악 재생을 종료함 등일 수 있다. 기기단의 이러한 상태 정보는 기기단에 의해 리포팅될 수 있고 요청 메시지의 텍스트 중에 첨부된다.

나아가, 응답 메시지 생성 과정에서, 기기단의 상태 정보와 요청 내용에 기반하여 대응되는 작동 명령을 생성하는 단계는, 기기단의 능력 선언, 기기단의 컨텍스트 정보 및 기기단의 이벤트 정보에 기반하여, 기기단의 호출 가능한 작동 인터페이스를 확정하는 단계; 호출 가능한 작동 인터페이스로부터 요청 내용에 대응되는 타겟 작동 인터페이스를 확정하는 단계; 및 요청 내용에 따라 음성 서비스 내용을 확정하고, 타겟 작동 인터페이스를 호출하여 음성 서비스 내용을 출력하기 위한 작동 명령을 생성하는 단계를 포함할 수 있다.

구체적으로, 기기단이 선언한 능력(즉 기기단이 구비한 작동 인터페이스), 기기단의 현재 실행중인 작동 및 기기단에서 발생된 이벤트 정보에 따라, 요청 메시지에 응답할 수 있는 호출 가능한 작동 인터페이스를 결정할 수 있다. 요청 내용에 따라 타겟 작동 인터페이스를 결정하며, 예를 들어 요청 내용이 날씨 상황 문의일 경우 타겟 작동 인터페이스가 음성 출력 인터페이스를 포함하는 것을 결정한다. 이후 요청 내용에 따라 음성 서비스의 내용을 결정할 수 있고 즉 음성 서비스 데이터를 검색하고 생성하며, 예를 들어 요청 내용이 날씨 상황 문의일 경우 네트워크를 통해 현재 날씨 상황의 텍스트를 검색하고 오디오 데이터로 전환하여 음성 서비스 데이터로서 사용할 수 있다. 마지막으로 음성 서비스 내용과 타겟 작동 인터페이스를 조합하여 작동 명령을 생성할 수 있으며, 예를 들어 상기 오디오 데이터와 호출된 음성 출력 인터페이스를 조합하여 작동 명령을 생성한다. 이에 따라 기기단의 상태 정보에 따라 기기단의 현재 호출 가능한 인터페이스를 정확하게 포지셔닝할 수 있으므로, 음성 서비스의 서비스 결과와 기기단의 현재 실행중인 작동 사이의 충돌로 인한 음성 서비스 응답 지연을 방지한다.

단계203에서, 기기단에 응답 메시지를 발송한다.

요청 내용 및 기기단의 상태 정보에 기반하여 생성되는 응답 메시지를 획득한 후, 상기 음성 서비스 제공 방법이 수행되는 전자기기는 네트워크를 통해 응답 메시지를 기기단에 발송할 수 있으며, 상기 응답 메시지는 작동 명령을 포함한다.

기기단은 응답 메시지를 수신하고 파싱하여 상기 작동 명령을 획득할 수 있다. 그 후 기기단은 작동 명령에 따라 대응되는 인터페이스가 음성 서비스 데이터를 출력하도록 호출할 수 있다.

여기서, 기기단이 제3자 음성 서비스에 접속 시, 제3자 음성 서비스와 인터랙션하는 로직이 이미 개발되었으므로, 기기단은 상기 이미 개발된 로직을 이용하여 제3자 음성 서비스의 전송 프로토콜을 기반으로 전송되는 응답 메시지를 수신할 수 있다. 또한, 응답 메시지의 메시지 포맷은 제3자 음성 서비스의 메시지 포맷과 일치하므로, 기기단은 상기 이미 개발된 로직을 이용하여 응답 메시지 중 각 필드가 나타내는 내용을 성공적으로 파싱할 수 있으며, 예를 들어 호출된 인터페이스 및 상기 인터페이스에 의해 출력된 데이터를 추출한 후 대응되는 작동을 실행할 수 있다.

계속하여 도 3a와 도 3b를 참조하면, 이는 본 출원에 따른 음성 서비스 제공 방법의 2 개의 시나리오 모식도를 나타낸다.

도 3a에 도시된 바와 같이, 일 시나리오에서, 사용자(D)는 제3자 음성 서비스에 접속된 기기단(A)에서 작동하여 음성 서비스를 가동한다. 기기단(A)은 사용자 작동의 검출에 응답하여 단계(1)에서 타겟 음성 서비스의 서버(B)에 요청 메시지를 발송하여, 기기단(A)에 타겟 음성 서비스를 제공하도록 요청할 수 있으며, 서버(B)는 단계(2)에서 요청을 처리하여 음성 서비스 결과를 획득하고, 단계(3)에서 기기단(A)에 응답 메시지 형식으로 음성 서비스 결과를 발송한다. 이러한 과정에서, 단계(1)에서 기기단(A)이 서버(B)에 발송한 요청 메시지 및 단계(3)에서 서버(B)가 기기단에 발송한 응답 메시지는, 모두 이미 구축된 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된, 제3자 음성 서비스와 일치하는 메시지 포맷에 따라 생성되며, 이미 구축된 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된, 제3자 음성 서비스와 일치하는 전송 프로토콜에 기반하여 전송된다.

도 3b에 도시된 바와 같이, 다른 일 시나리오에서, 사용자(D)는 기기단(A)에 이미 연결된 전자기기(C)에서 기기단(A)의 작동 애플리케이션(APP)을 오픈할 수 있으며, 사용자(D)는 기기단(A)의 작동 애플리케이션에서 기기단(A)에 타겟 음성 서비스를 푸싱(pushing)할 수 있다. 전자기기(C)는 사용자에 의해 입력된 요청에 응답하여 기기단(A)에 음성 서비스를 제공하도록 요청하는 요청 메시지를 생성할 수 있으며, 단계(1)에서 요청 메시지를 타겟 음성 서비스의 서버(B)에 발송하고, 서버(B)는 단계(2)에서 요청 메시지를 처리하여 음성 서비스 결과를 획득하며, 단계(3)에서 기기단(A)에 응답 메시지 형식으로 음성 서비스 결과를 발송한다. 이러한 과정에서, 단계(1)에서 전자기기(C)가 서버(B)에 발송한 요청 메시지 및 단계(3)에서 기기단에 발송한 응답 메시지는, 모두 이미 구축된 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된, 제3자 음성 서비스와 일치하는 메시지 포맷에 따라 생성되며, 이미 구축된 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된, 제3자 음성 서비스와 일치하는 전송 프로토콜에 기반하여 전송된다.

본 출원의 상기 실시예에 의해 제공된 음성 서비스 제공 방법은 제3자 음성 서비스에 접속된 기기단에 타겟 음성 서비스를 제공하는, 요청 내용 및 기기단의 상태 정보를 포함하는 요청 메시지를 수신하고, 다음으로 기기단의 상태 정보에 기반하여 요청 내용을 처리한 후 생성된, 작동 명령을 포함하는 응답 메시지를 획득하며, 마지막으로 기기단에 응답 메시지를 발송하고, 여기서 요청 메시지와 응답 메시지는, 이미 구축된 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된, 제3자 음성 서비스의 메시지 포맷과 일치하는 메시지 포맷에 따라 생성되며, 데이터 서비스 프레임워크 모델에 구성된, 제3자 음성 서비스의 전송 프로토콜과 일치하는 전송 프로토콜에 기반하여 전송됨으로써, 이미 개발된 제3자 음성 서비스의 서비스 인터랙션 등 로직을 이용하여 타겟 음성 서비스에 빠르게 접속할 수 있고 타겟 음성 서비스를 위해 서비스 인터랙션 등 로직을 별도로 개발할 필요가 없으므로, 상이한 음성 서비스 접속 제품의 개발 비용과 운영 유지 비용을 감소시키는데 유리하다.

구체적인 응용 시나리오에서, 타겟 음성 서비스의 서버가 음성 서비스를 제공하전에, 타겟 음성 서비스와의 연결을 구축하기 위해 사용자에게 제3자 음성 서비스 인터랙션과 관련된 기기단의 구성 정보를 변경하도록 지시해야 한다.

구체적으로, 일부 실시예에 있어서, 상기 음성 서비스 제공 방법은, 사용자가 기기단의 구성 파일 중 대응되는 구성 아이템을 교체하도록, 사용자로부터 발송된 기기단에 대한 타겟 음성 서비스 등록 요청을 획득한 것에 응답하여 사용자에게 타겟 음성 서비스의 교체할 구성 정보를 제공하는 단계를 더 포함할 수 있다. 여기서 교체할 구성 정보는, 사용자 식별자, 사용자 패스워드 및 액세스 토큰 획득 경로 주소를 포함한다. 사용자는 타겟 음성 서비스의 서비스 플랫폼에 로그인하고 등록할 수 있으며, 타겟 음성 서비스의 서버는 사용자 등록 후에 사용자에게 사용자 식별자, 사용자 패스워드 및 액세스 토큰 획득 경로 주소를 제공할 수 있다. 사용자는 해당 ID과 패스워드를 이용하여 기기단의 구성 파일(예를 들어 javaClient의 툴 킷의 구성 파일 config.json) 중 ID과 패스워드를 교체할 수 있고, 기기단의 로그인 방식을 정의하기 위한 구성 파일을 교체할 수 있다. 또한, 사용자는 기기의 액세스 토큰 획득 방식을 정의하기 위한 구성 파일의 액세스 토큰 획득 경로 주소를 변경할 수 있다.

나아가, 타겟 음성 서비스를 요청하기 전에, 기기단은 타겟 음성 서비스의 액세스 토큰을 획득해야 하고 액세스 토큰을 통해 타겟 음성 서비스의 인터페이스를 연결해야 한다. 구체적으로 일부 실시예에 있어서, 상기 음성 서비스 제공 방법은, 상기 기기단을 상기 타겟 음성 서비스에 접속시키는 접속 요청을 수신하며, 기기단이 상기 액세스 토큰 획득 경로 주소를 통해 발급된 액세스 토큰을 획득하도록, 접속 요청에 기반하여 기기단에 타겟 음성 서비스의 액세스 토큰을 발급하는 단계를 포함할 수 있고, 접속 요청은 사용자 식별자, 사용자 패스워드 및 기기단의 식별자를 포함한다. 즉 사용자는 타겟 음성 서비스의 플랫폼에서 기기단을 타겟 음성 서비스에 접속시키는 요청을 발송할 수 있고, 상기 요청은 사용자 등록 시 타겟 음성 서비스의 서버에 의해 제공된 사용자 식별자와 사용자 패스워드를 포함한다. 기기단에 사용자를 대표하여 타겟 음성 서비스를 요청하도록 권한부여하기 위해 사용자는 상기 접속 요청에 기기단의 식별자를 추가할 수 있다. 타겟 음성 서비스의 서버는 사용자 식별자와 사용자 패스워드에 따라 인증할 수 있고 토큰을 기기단에 발급한다.

나아가, 상기 접속 요청에 기반하여 기기단에 타겟 음성 서비스의 액세스 토큰을 발급하는 단계는, 사용자 식별자와 사용자 패스워드에 따라, 사용자로부터 권한을 부여 받은 기기 식별자를 검색하는 단계; 타겟 음성 서비스 접속 요청의 기기단 식별자가 사용자로부터 권한을 부여 받은 기기 식별자와 일치한지의 여부를 판단하는 단계; 및 타겟 음성 서비스 접속 요청의 기기단 식별자가 상기 사용자로부터 권한을 부여 받은 기기 식별자와 일치하면, 기기단에 타겟 음성 서비스의 액세스 토큰을 발급하는 단계를 포함할 수 있다. 여기서 사용자는 등록 또는 로그인 후 타겟 음성 서비스의 서버에 권한부여된 기기 식별자를 제공할 수 있고, 사용자로부터 접속 요청을 수신한 후, 접속 요청의 기기단의 식별자와 권한부여된 기기 식별자를 비교할 수 있으며, 일치하면 기기단에 액세스 토큰을 발급할 수 있다. 기기단은 변경된 구성 파일의 액세스 토큰 획득 경로에 따라 발급된 액세스 토큰을 획득할 수 있으며 상기 액세스 토큰을 이용하여 타겟 음성 서비스의 인터페이스를 연결한다.

이러한 전제 하에서 나아가, 상기 제3자 음성 서비스에 접속된 기기단에 타겟 음성 서비스를 제공하기 위한 요청 메시지를 수신하는 단계(즉 단계201)는, 상기 타겟 음성 서비스의 액세스 토큰을 획득한, 상기 제3자 음성 서비스에 접속된 기기단에 의해 발송된 상기 요청 메시지를 수신하는 단계를 포함할 수 있다. 즉 타겟 음성 서비스의 서버는 이미 액세스 토큰을 획득한 기기단에 음성 서비스를 제공하는 요청 메시지만 수신한다. 이에 따라 타겟 음성 서비스의 서버에 대한 너무 높은 요청 빈도로 인한 서비스 사용 불가를 방지할 수 있고 타겟 음성 서비스의 안전성을 향상시킬 수도 있다.

도 4를 참조하면, 이는 본 출원에 따른 음성 서비스 제공 방법에서 음성 서비스에 접속하는 방법의 응용 시나리오 모식도를 나타낸다.

도 4에 도시된 바와 같이，단계(1)에서 사용자(D)는 단말기기(E)를 이용하여 타겟 음성 서비스의 서비스 페이지에 접속하는데, 구체적인 방식은 타겟 음성 서비스 플랫폼의 웹 사이트 주소에 들어가는 방식일 수 있다. 단계(2)에서 단말기기(E)는 사용자의 등록 작동에 따라 타겟 음성 서비스의 서버(B)에 등록을 요청할 수 있고, 등록 후 단계(3)에서 서버(B)는 단말기기(E)에 ID(client_id), 패스워드(client_secrect) 및 토큰 획득 경로를 리턴하고, 단말기기(E)는 ID, 패스워드 및 토큰 획득 경로를 사용자(D)에게 표시하며, 단계(4)에서 사용자는 서버(B)에 의해 제공된 ID, 패스워드 및 토큰 획득 경로를 이용하여 대응되는 구성을 변경해야 한다.

다음으로, 기기단(A)을 서버(B)가 제공한 타겟 음성 서비스에 접속시켜야 하는 바, 사용자는 단계(5)에서 단말기기(E)를 이용하여 로그인 작동을 수행하고, 사용자 식별자, 사용자 패스워드 및 기기단(A)의 식별자를 입력하며, 단말기기(E)는 단계(6)에서 로그인 정보(사용자 식별자, 사용자 패스워드 및 기기단(A)의 식별자)를 서버(B)에 발송하고, 서버(B)는 단계(7)에서 사용자 식별자, 사용자 패스워드에 기반하여 기기단(A)의 식별자가 사용자로부터 권한부여 받은 기기 식별자와 일치한지의 여부를 검증하며, 검증 통과 후 단계(8)에서 기기단(A)에 토큰을 발급함으로써 기기단(A)이 서버(B)가 제공한 타겟 음성 서비스에 접속된다.

상기 실시예에 있어서, 사용자 등록 시 사용자에게 제공하는 교체할 구성 정보를 통해 사용자에게 기기단의 대응되는 구성 아이템을 교체하도록 지시하며, 사용자는 간단한 구성 아이템 교체 작동 및 로그인 권한부여 작동을 통해 기기단이 액세스 토큰을 획득하도록 할 수 있으므로, 신뢰성이 있는 음성 서비스를 제공하는 동시에 타겟 음성 서비스에 접속되는 기술적 조건을 저하시키고, 타겟 음성 서비스 접속의 개발 작업량을 효과적으로 감소시켜 고효율, 저비용의 부동한 음성 서비스를 제공하는데 유리하다.

상기 실시예의 일부 실제 응용 시나리오에서, 상기 요청 내용은 사용자로부터 입력된 오디오 스트림 데이터를 포함할 수 있다. 이 경우, 상기 음성 서비스 제공 방법이 수행되는 전자기기는 음성 활동 감지(Voice Activity Detection，VAD)를 수행하여 사용자로부터 입력된 오디오 스트림 데이터의 갭을 검출할 수 있고, 즉 사용자 목소리의 포즈(pause)를 검출할 수 있으며, 또한 검출된 포즈에 따라 사용자로부터 입력된 오디오 스트림 데이터를 복수의 세그멘트로 구획한다. 기기단과 음성 서비스의 서버의 인터랙션 과정에서 사용자가 복수의 세그멘트식 오디오 스트림 데이터를 입력하면, 음성 서비스의 서버는 복수의 세그멘트식 응답 메시지를 상응하게 리턴할 수 있으며 각각의 응답 메시지 세그멘트는 하나의 오디오 스트림 데이터 세그멘트에 대응될 수 있다.

본 실시예의 일부 선택 가능한 실현 형태에 있어서, 상기 기기단의 상태 정보에 기반하여 상기 요청 내용을 처리하여 생성된 응답 메시지를 획득하는 단계에서, 먼저 요청 내용이 음성 인터랙션 수요를 포함하는지 여부를 검출할 수 있으며, 예를 들어 요청 내용이 알람 설정일 경우 요청 내용은 음성 인터랙션 수요를 포함하지 않고, 요청 내용이 질문식 대화일 경우 요청 내용은 음성 인터랙션 수요를 포함한다. 요청 내용이 음성 인터랙션 수요를 포함하는 것을 검출할 경우 복수의 응답 메시지 세그멘트를 생성하도록, 기설정된 시간 길이 또는 기설정된 메시지 길이로 음성 서비스 데이터를 구획할 수 있다. 상기 기설정된 시간 길이 및 기설정된 메시지 길이는 미리 구성될 수 있다.

예를 들어, 기기단과 음성 서비스의 서버의 인터랙션 과정에서 음성 서비스의 서버는 음성 서비스의 결과를 세그먼트 단위로 나누어 리턴할 수 있다. 이러한 과정에서 음성 서비스의 서버는 데이터 스트림 방식으로 기기단에 세그멘트식 응답 메시지를 발송할 수 있으며, 즉 응답 메시지 세그멘트의 생성 시간에 따라 순차적으로 기기단에 응답 메시지 세그멘트를 발송할 수 있다. 이에 따라 요청 메시지 처리 시간이 너무 길어 음성 서비스의 실시간성이 낮아지는 문제점을 방지할 수 있다.

일부 실시예에 있어서, 상기 음성 서비스 제공 방법은, 타겟 음성 서비스의 데이터 서비스 프레임워크 모델을 구축하는 단계를 더 포함할 수 있다. 도 5를 참조하면, 본 실시예에 따른 타겟 음성 서비스의 데이터 서비스 프레임워크 모델의 일 모식적인 구조를 나타낸다.

도 5에 도시된 바와 같이，타겟 음성 서비스의 데이터 서비스 프레임워크 모델은 전송 프로토콜층(501), 메시지 포맷층(502) 및 기기단 능력층(503)을 포함한다. 전송 프로토콜층(501)은 최하층에 위치하고, 기기단과 서버단 사이의 전송 프로토콜을 정의하기 위한 것으로서 제3자 음성 서비스와 일치하는 전송 프로토콜을 정의할 수 있다. 메시지 포맷층(502)은 요청 메시지와 응답 메시지의 포맷을 정의할 수 있으며, 예를 들어 요청 메시지의 텍스트 중 각 필드가 나타내는 내용을 정의한다. 기기단 능력층(503)은 최상층에 위치하고 호출 가능한 기기단의 작동 인터페이스를 정의하기 위한 것으로서 음성 출력 능력, 음량 제어 능력 등과 같은 기기단의 여러 가지 능력을 정의한다.

본 실시예에 있어서, 타겟 음성 서비스의 데이터 서비스 프레임워크 모델을 구축하는 단계는, 타겟 음성 서비스에 적용되는 전송 프로토콜을 구성하는 단계를 포함하는 전송 프로토콜층 구축 단계; 타겟 음성 서비스의 요청 메시지와 응답 메시지의 메시지 포맷을 구성하는 단계를 포함하는 메시지 포맷층 구축 단계; 및 요청 메시지와 응답 메시지로부터 기기단의 능력을 파싱하는 로직을 구성하는 단계를 포함하는 기기단 능력층 구축 단계를 포함할 수 있다. 상기 데이터 서비스 프레임워크가 구축된 후, 타겟 음성 서비스는 상기 프레임워크에 구성된 전송 프로토콜과 메시지 포맷에 따라 메시지를 전송할 수 있으며, 구성된 요청 메시지와 응답 메시지로부터 기기단의 능력을 파싱하는 로직에 기반하여 요청 메시지와 응답 메시지를 파싱할 수 있다. 상기 데이터 서비스 프레임워크를 이용하면 타겟 음성 서비스의 서버는 기기단의 요청 내용, 기기단의 호출 가능한 인터페이스 정보를 획득할 수 있으므로, 요청 내용과 기기단의 호출 가능한 인터페이스 정보에 따라 응답을 수행하여 응답된 작동 명령을 생성할 수 있다.

기기단이 대량의 반복 개발 작업 필요없이 상이한 음성 서비스에 접속되도록, 상기 타겟 음성 서비스의 데이터 서비스 프레임워크 모델은 제3자 음성 서비스와 서로 호환될 수 있다.

나아가 도 6을 참조하면, 상기 도 2에 도시된 바와 같은 방법의 구현으로서 본 출원은 음성 서비스 제공 장치의 일 실시예를 제공하되, 상기 장치의 실시예가 도 2에 도시된 바와 같은 방법 실시예와 대응되고 상기 장치가 구체적으로 타겟 음성 서비스의 서버에 응용될 수 있다.

도 6에 도시된 바와 같이, 본 실시예에 따른 음성 서비스 제공 장치(600)는 제1 수신 유닛(601), 획득 유닛(602) 및 발송 유닛(603)을 포함한다. 제1 수신 유닛(601)은 제3자 음성 서비스에 접속된 기기단에 타겟 음성 서비스를 제공하기 위한 요청 메시지를 수신하도록 구성되되, 요청 메시지는 요청 내용 및 기기단의 상태 정보를 포함한다. 획득 유닛(602)은 기기단의 상태 정보에 기반하여 요청 내용을 처리하여 생성된 응답 메시지를 획득하도록 구성되되, 응답 메시지는 작동 명령을 포함한다. 발송 유닛(603)은 기기단에 상기 응답 메시지를 발송하도록 구성된다.

본 실시예에 있어서, 요청 메시지와 응답 메시지는, 이미 구축된 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 메시지 포맷에 따라 생성되고, 이미 구축된 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 전송 프로토콜에 기반하여 전송된다. 또한, 이미 구축된 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 메시지 포맷은 제3자 음성 서비스의 메시지 포맷과 일치하며, 이미 구축된 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 전송 프로토콜은 제3자 음성 서비스의 전송 프로토콜과 일치한다.

본 실시예에 있어서, 제1 수신 유닛(601)은 네트워크를 통해 사용자에 이용되어 사용자의 음성 서비스 요청이 수행되는 전자기기(예를 들어 도 1에 도시된 바와 같은 단말기(101))로부터, 또는 사용자에 이용되어 사용자의 음성 인터랙션이 수행되는 기기단(예를 들어 도 1에 도시된 바와 같은 기기(102, 103))으로부터 상기 요청 메시지를 수신할 수 있다. 상기 요청 메시지는 제3자 음성 서비스와의 전송 프로토콜에 따라 전송되고, 제3자 음성 서비스에 의해 정의되는 메시지 포맷에 따라 조직된다. 이에 따라 기기단이 요청 메시지를 발송할 시, 제3자 음성 서비스와 인터랙션하기 위한 로직을 변경하지 않는 경우 타겟 음성 서비스는 상기 요청 메시지를 수신하고 파싱할 수 있다.

획득 유닛(602)은 요청 메시지에 응답하여 생성된 응답 메시지를 획득할 수 있다. 상기 응답 메시지는 기기단에 대한 작동 명령을 포함하고, 작동 명령은 출력된 음성 서비스 데이터 및 호출된 기기단의 작동 인터페이스를 포함할 수 있다. 여기서 응답 메시지도 제3자 음성 서비스와의 전송 프로토콜에 따라 전송되고, 제3자 음성 서비스에 의해 정의되는 메시지 포맷에 따라 조직된다. 이에 따라 기기단에 응답 메시지를 발송할 시 제3자 음성 서비스와 인터랙션하기 위한 로직을 변경하지 않는 경우, 기기단은 상기 요청 메시지를 수신하고 파싱할 수 있다.

기기단이 응답 메시지에 따라 대응되는 작동을 실행하도록, 발송 유닛(603)은 응답 메시지를 기기단에 발송할 수 있다.

일부 실시예에 있어서, 장치(600)는 사용자가 기기단의 구성 파일 중 대응되는 구성 아이템을 교체하도록, 사용자로부터 발송된 기기단에 대한 타겟 음성 서비스 등록 요청을 획득한 것에 응답하여 사용자에게 타겟 음성 서비스의 교체할 구성 정보를 제공하도록 구성된 제공 유닛을 더 포함할 수 있고, 교체할 구성 정보는 사용자 식별자, 사용자 패스워드 및 액세스 토큰 획득 경로 주소를 포함한다.

추가 실시예에 있어서, 상기 음성 서비스 제공 장치는, 기기단을 타겟 음성 서비스에 접속하는 접속 요청을 수신하도록 구성되되, 타겟 음성 서비스 접속 요청은 사용자 식별자, 사용자 패스워드 및 기기단의 식별자를 포함하는 제2 수신 유닛; 및 기기단이 액세스 토큰 획득 경로 주소를 통해 발급된 액세스 토큰을 획득하도록, 접속 요청에 기반하여 기기단에 타겟 음성 서비스의 액세스 토큰을 발급하도록 구성된 권한부여 유닛을 더 포함할 수 있다.

추가 실시예에 있어서, 상기 권한부여 유닛은 또한, 사용자 식별자와 사용자 패스워드에 따라, 사용자로부터 권한을 부여 받은 기기 식별자를 검색하는 단계; 및 타겟 음성 서비스 접속 요청의 기기단 식별자가 사용자로부터 권한을 부여 받은 기기 식별자와 일치한지의 여부를 판단하는 단계; 및 타겟 음성 서비스 접속 요청의 기기단 식별자가 사용자로부터 권한을 부여 받은 기기 식별자와 일치하면, 기기단에 타겟 음성 서비스의 액세스 토큰을 발급하는 단계에 따라, 기기단에 타겟 음성 서비스의 액세스 토큰을 발급하도록 구성될 수 있다.

추가 실시예에 있어서, 제1 수신 유닛은 또한, 타겟 음성 서비스의 액세스 토큰을 획득하고 제3자 음성 서비스에 접속된 기기단에 의해 발송된 요청 메시지를 수신하도록 구성될 수 있다.

일부 실시예에 있어서, 획득 유닛이 획득한 응답 메시지는, 요청 메시지를 파싱하여 요청 내용과 기기단의 상태 정보를 획득하는 단계; 기기단의 상태 정보와 요청 내용에 기반하여 대응되는 작동 명령을 생성하는 단계; 및 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 메시지 포맷과 전송 프로토콜에 따라 작동 명령을 패키징하여 응답 메시지를 생성하는 단계에 따라 생성될 수 있다. 선택 가능하게 획득 유닛은 상기 단계에 따라 응답 메시지를 생성하기 위한 생성 모듈을 포함할 수 있다.

나아가, 상기 기기단의 상태 정보는 기기단의 능력 선언, 기기단의 컨텍스트 정보 및 기기단의 이벤트 정보를 포함할 수 있다.

나아가, 획득 유닛이 획득한 응답 메시지의 작동 명령은, 기기단의 능력 선언, 기기단의 컨텍스트 정보 및 기기단의 이벤트 정보에 기반하여, 기기단의 호출 가능한 작동 인터페이스를 결정하는 단계; 호출 가능한 작동 인터페이스로부터 요청 내용에 대응되는 타겟 작동 인터페이스를 결정하는 단계; 및 요청 내용에 따라 음성 서비스 내용을 결정하고, 타겟 작동 인터페이스를 호출하여 음성 서비스 내용을 출력하기 위한 작동 명령을 생성하는 단계에 따라 생성될 수 있다.

일부 실시예에 있어서, 획득 유닛은 또한, 요청 내용이 음성 인터랙션 수요를 포함하는지 여부를 검출하고, 요청 내용이 음성 인터랙션 수요를 포함하는 것을 검출한 것에 응답하여, 기설정된 시간 길이 또는 기설정된 메시지 길이에 따라 음성 서비스 데이터를 구획하여 복수의 응답 메시지 세그멘트를 생성하도록 구성될 수 있으며, 발송 유닛은 또한, 응답 메시지 세그멘트의 생성 시간에 따라 순차적으로 기기단에 상기 응답 메시지 세그멘트를 발송하도록 구성된다.

일부 실시예에 있어서, 상기 음성 서비스 제공 장치(600)는 타겟 음성 서비스의 데이터 서비스 프레임워크 모델을 구축하도록 구성되되, 데이터 서비스 프레임워크 모델은 전송 프로토콜층, 메시지 포맷층 및 기기단 능력층을 포함하는 구축 유닛을 더 포함할 수 있다. 구축 유닛은 구체적으로, 타겟 음성 서비스에 적용되는 전송 프로토콜을 구성하는 단계를 포함하여 전송 프로토콜층을 구축하고, 타겟 음성 서비스의 요청 메시지와 응답 메시지의 메시지 포맷을 구성하는 단계를 포함하여 메시지 포맷층을 구축하며, 요청 메시지와 응답 메시지로부터 기기단의 능력을 파싱하는 로직을 구성하는 단계를 포함하여 기기단 능력층을 구축하도록 구성된다.

이해해야 할 것은 장치(600)에 기재된 모든 유닛은 도 2에 설명된 방법 중 각 단계와 대응된다. 이로부터, 상기에서 방법에 대해 설명된 작동과 특징도 마찬가지로 서버(105) 및 이에 포함되는 유닛에 적용되므로 여기서 더 설명하지 않기로 한다.

본 출원의 실시예에 의해 제공된 음성 서비스 제공 장치(600)에 있어서, 제1 수신 유닛을 통해 제3자 음성 서비스에 접속된 기기단에 타겟 음성 서비스를 제공하기 위한 요청 메시지를 수신하며, 획득 유닛은 기기단의 상태 정보에 기반하여 요청 내용을 처리하여 생성된 응답 메시지를 획득하도록 구성되되, 응답 메시지는 작동 명령을 포함하며, 발송 유닛은 기기단에 상기 응답 메시지를 발송하도록 구성된다. 요청 메시지와 응답 메시지는, 이미 구축된 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 메시지 포맷에 따라 생성되고, 이미 구축된 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 전송 프로토콜에 기반하여 전송된다. 따라서 이미 기기단에 의해 개발된 제3자 음성 서비스와 인터랙션하는 로직을 재활용하여 타겟 음성 서비스에 신속하게 접속할 수 있으므로, 기기에서 타겟 음성 서비스 접속 시의 개발 작업량을 대폭 감소시켜 상이한 음성 서비스 접속 제품의 개발 비용과 운영 유지 비용을 감소시키는데 유리하다.

이하, 도 7을 참조하면, 이는 본 출원의 실시예를 구현하기 위한 서버에 적용되는 컴퓨터 시스템(700)의 구조 모식도를 나타낸다. 도 7에 도시된 서버는 단지 하나의 예일 뿐 본 출원의 실시예의 기능과 사용 범위에 대한 어떠한 한정도 아니다.

도 7에 도시된 바와 같이, 컴퓨터 시스템(700)은 중앙 처리 장치(CPU)(701)를 포함하고, 판독 전용 메모리(ROM)(702)에 저장된 프로그램 또는 저장 부분(708)으로부터 랜덤 액세스 메모리(RAM)(703)에 로딩되는 프로그램에 따라 여러 가지 적절한 동작과 처리를 수행할 수 있다. RAM(703)에 시스템(700) 작동에 필요한 부동한 프로그램과 데이터가 더 저장된다. CPU(701), ROM(702) 및 RAM(703)은 버스(704)를 통해 서로 연결된다. 입출력(I/O) 인터페이스(705)도 버스(704)에 연결된다.

키보드, 마우스 등을 포함하는 입력 부분(706); 음극선관(CRT), 액정 디스플레이(LCD) 등 및 스피커 등을 포함하는 출력 부분(707); 하드 드라이버 등을 포함하는 저장 부분(708); 및 LAN 카드, 모뎀 등과 같은 네트워크 인터페이스 카드를 포함하는 통신 부분(709)과 같은 부품은 I/O 인터페이스(705)에 연결된다. 통신 부분(709)은 인터넷과 같은 네트워크를 통해 통신 처리를 수행한다. 드라이버(710)도 필요에 따라 I/O 인터페이스(705)에 연결된다. 디스크, CD, 광자기 디스크, 반도체 메모리 등과 같은 착탈 가능한 매체(711)는 이에 의해 판독된 컴퓨터 프로그램을 필요에 따라 저장 부분(708)에 용이하게 설치하도록 필요에 따라 드라이버(710)에 설치된다.

특히 본 출원에 공개된 실시예에 따르면, 상기에서 흐름도를 참조하여 설명한 과정은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있다. 예를 들어, 본 출원에 공개된 실시예는 컴퓨터 프로그램 제품을 포함하고, 컴퓨터 판독 가능한 매체에 탑재되는 컴퓨터 프로그램을 포함하며, 상기 컴퓨터 프로그램은 흐름도에 도시된 방법을 수행하기 위한 프로그램 코드를 포함한다. 이러한 실시예에서, 상기 컴퓨터 프로그램은 통신 부분(709)을 통해 네트워크로부터 다운로드 또는 설치될 수 있거나 및/또는 착탈 가능한 매체(711)로부터 설치될 수 있다. 상기 컴퓨터 프로그램이 중앙 처리 장치(CPU)(701)에 의해 실행될 경우, 본 출원에 따른 방법에서 한정된 상기 기능을 수행한다. 설명해야 할 것은, 본 출원에서 설명하는 컴퓨터 판독 가능한 매체는 컴퓨터 판독 가능한 신호 매체 또는 컴퓨터 판독 가능한 저장 매체 또는 상기 양자의 임의의 조합일 수 있다. 예를 들어 컴퓨터 판독 가능한 저장 매체는 전기, 자기, 광, 전자기, 적외선 또는 반도체 시스템, 장치 또는 소자 또는 이상의 임의의 조합일 수 있으나 이에 한정되는 것은 아니다. 컴퓨터 판독 가능한 저장 매체의 보다 구체적인 예로서 하나 또는 복수의 도선을 구비하는 전기적 연결, 휴대용 컴퓨터 디스크, 하드 디스크, RAM, ROM, 소거 가능 프로그래머블 롬(EPROM 또는 플래시 메모리), 광섬유, 휴대용 시디롬(compact disk read-only memory, CD-ROM), 광학 저장 소자, 자기 저장 소자 또는 이상의 임의의 적절한 조합을 포함할 수 있으나 이에 한정되는 것은 아니다. 본 출원에서, 컴퓨터 판독 가능한 저장 매체는 프로그램을 포함하거나 저장하는 임의의 유형 매체일 수 있으며, 상기 프로그램은 명령 실행 시스템, 장치 또는 소자 또는 이들의 조합에 의해 사용될 수 있다. 본 출원에 있어서, 컴퓨터 판독 가능한 신호 매체는 기저 대역 또는 반송파의 일부분으로서 전파되는 데이터 신호에 포함될 수 있으며 컴퓨터 판독 가능한 프로그램 코드가 탑재된다. 이렇게 전파되는 데이터 신호는 부동한 형식을 사용할 수 있고, 전자기 신호, 광학 신호 또는 상기의 임의의 적절한 조합을 포함하나 이에 한정되는 것은 아니다. 컴퓨터 판독 가능한 신호 매체는 컴퓨터 판독 가능한 저장 매체 이외의 임의의 컴퓨터 판독 가능한 매체일 수도 있으며, 상기 컴퓨터 판독 가능한 매체는 명령 실행 시스템, 장치 또는 소자 또는 이들의 조합에 의해 사용되는 프로그램을 발송, 전파 또는 전송할 수 있다. 컴퓨터 판독 가능한 매체에 포함되는 프로그램 코드는 임의의 적절한 매체로 전송될 수 있으며, 무선, 전기선, 광케이블, RF 등 또는 상기의 임의의 적절한 조합을 포함하나 이에 한정되는 것은 아니다.

도면 중 흐름도 및 블록도는 본 출원의 각 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품에 따라 구현 가능한 아키텍처, 기능 및 작동을 도시한다. 이 점에 있어서, 흐름도 또는 블록도 중 각 블록은 하나의 모듈, 프로그램대 또는 코드의 일부를 대표할 수 있으며, 상기 모듈, 프로그램대 또는 코드의 일부는 하나 또는 복수의 일정한 로직 기능을 구현하기 위한 실행 가능한 명령을 포함한다. 주의해야 할 점은, 일부 교체용 구현에 있어서, 블록에 표시된 기능도 도면에 표시된 순서와 달리 발생할 수 있다. 예를 들어, 2개의 연속적으로 표시되는 블록은 실제상 병렬로 수행될 수 있고 역순서에 따라 실행될 수도 있으며 이는 관련된 기능에 따라 정해진다. 또한 주의해야 할 점은, 블록도 및/또는 흐름도 중 각 블록 및 블록도 및/또는 흐름도 중 블록의 조합은 일정한 기능 또는 작동을 수행하기 위한 전용 하드웨어 기반 시스템에 의해 구현될 수 있거나 전용 하드웨어와 컴퓨터 명령의 조합에 의해 구현될 수 있다.

본 출원의 실시예를 설명하는 과정에서 언급된 유닛은 소프트웨어에 의해 구현될 수 있고 하드웨어에 의해 구현될 수도 있다. 설명된 유닛은 프로세서에 설치될 수 있으며, 예를 들어 제1 수신 유닛, 획득 유닛 및 발송 유닛을 포함하는 프로세서로 설명될 수 있다. 이러한 유닛들의 명칭은 어떠한 상황에서도 해당 유닛 자체에 대한 한정이 되지 않으며, 예를 들어, 제1 수신 유닛은 또한 “제3자 음성 서비스에 접속된 기기단에 타겟 음성 서비스를 제공하기 위한 요청 메시지를 수신하는 유닛”으로 설명될 수도 있다.

한편, 본 출원은 컴퓨터 판독 가능한 매체를 더 제공하며, 상기 컴퓨터 판독 가능한 매체는 상기 실시예에서 설명한 장치에 포함될 수 있고 해당 장치에 조립되지 않고 독립적으로 존재할 수도 있다. 상기 컴퓨터 판독 가능한 매체는 하나 또는 복수 개의 프로그램을 탑재하고 상기 하나 또는 복수 개의 프로그램이 상기 장치에 의해 실행될 경우, 사기 장치가 제3자 음성 서비스에 접속된 기기단에 타겟 음성 서비스를 제공하기 위한 요청 메시지를 수신하도록 하되 상기 요청 메시지는 요청 내용 및 상기 기기단의 상태 정보를 포함하고; 상기 기기단의 상태 정보에 기반하여 상기 요청 내용을 처리하여 생성된 응답 메시지를 획득하도록 하되 상기 응답 메시지는 작동 명령을 포함하며; 상기 기기단에 상기 응답 메시지를 발송하도록 하고; 상기 요청 메시지와 상기 응답 메시지는 이미 구축된 상기 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 메시지 포맷에 따라 생성되고, 이미 구축된 상기 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 전송 프로토콜에 기반하여 전송되며; 상기 이미 구축된 상기 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 메시지 포맷은 상기 제3자 음성 서비스의 메시지 포맷과 일치하고 상기 이미 구축된 상기 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 전송 프로토콜은 상기 제3자 음성 서비스의 전송 프로토콜과 일치한다.

이상의 설명은 단지 본 출원의 바람직한 실시예 및 적용된 기술 원리에 대한 설명이다. 본 기술분야의 통상의 기술자는 본 출원에 언급된 발명 범위는 상기 기술 특징의 특정적 조합에 의한 기술적 해결수단에 한정되지 않고, 아울러 본 출원의 사상을 벗어나지 않는 한 상기 기술 특징 또는 그 동등한 특징에 의해 임의로 조합되어 형성된 다른 기술적 해결수단을 포함함을 이해해야 한다. 예를 들어, 상기 특징은 본 출원에서 공개되고(그러나 한정되지 않음) 유사 기능을 가진 기술 특징과 상호 대체되어 형성된 기술적 해결수단이다.

Claims

음성 서비스 제공 방법에 있어서,
제3자 음성 서비스에 접속된 기기단에 타겟 음성 서비스를 제공하기 위한 요청 메시지를 수신하되, 상기 요청 메시지는 요청 내용 및 상기 기기단의 상태 정보를 포함하는 단계;
상기 기기단의 상태 정보에 기반하여 상기 요청 내용을 처리하여 생성된 응답 메시지를 획득하되, 상기 응답 메시지는 작동 명령을 포함하는 단계; 및
상기 기기단에 상기 응답 메시지를 발송하는 단계를 포함하고,
상기 요청 메시지와 상기 응답 메시지는, 이미 구축된 상기 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 메시지 포맷에 따라 생성되고, 이미 구축된 상기 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 전송 프로토콜에 기반하여 전송되며,
상기 이미 구축된 상기 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 메시지 포맷은 상기 제3자 음성 서비스의 메시지 포맷과 일치하고, 상기 이미 구축된 상기 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 전송 프로토콜은 상기 제3자 음성 서비스의 전송 프로토콜과 일치하는 것을 특징으로 하는 음성 서비스 제공 방법.
제1항에 있어서,
상기 음성 서비스 제공 방법은,
사용자가 상기 기기단의 구성 파일 중 대응되는 구성 아이템을 교체하도록, 사용자로부터 발송된 상기 기기단에 대한 타겟 음성 서비스 등록 요청을 획득한 것에 응답하여, 상기 사용자에게 상기 타겟 음성 서비스의 교체할 구성 정보를 제공하는 단계를 더 포함하고,
상기 교체할 구성 정보는 사용자 식별자, 사용자 패스워드 및 액세스 토큰(token) 획득 경로 주소를 포함하는 것을 특징으로 하는 음성 서비스 제공 방법.
제2항에 있어서,
상기 음성 서비스 제공 방법은,
상기 기기단을 상기 타겟 음성 서비스에 접속시키는 접속 요청을 수신하되, 상기 타겟 음성 서비스 접속 요청은 상기 사용자 식별자, 상기 사용자 패스워드 및 상기 기기단의 식별자를 포함하는 단계; 및
상기 기기단이 상기 액세스 토큰 획득 경로 주소를 통해 발급된 액세스 토큰을 획득하도록, 상기 접속 요청에 기반하여 상기 기기단에 상기 타겟 음성 서비스의 액세스 토큰을 발급하는 단계를 더 포함하는 것을 특징으로 하는 음성 서비스 제공 방법.
제3항에 있어서,
상기 접속 요청에 기반하여 상기 기기단에 상기 타겟 음성 서비스의 액세스 토큰을 발급하는 단계는,
상기 사용자 식별자와 상기 사용자 패스워드에 따라, 사용자로부터 권한을 부여 받은 기기 식별자를 검색하는 단계;
상기 타겟 음성 서비스 접속 요청의 기기단 식별자가 상기 사용자로부터 권한을 부여 받은 기기 식별자와 일치한지의 여부를 판단하는 단계; 및
상기 타겟 음성 서비스 접속 요청의 기기단 식별자가 상기 사용자로부터 권한을 부여 받은 기기 식별자와 일치하면, 상기 기기단에 상기 타겟 음성 서비스의 액세스 토큰을 발급하는 단계를 포함하는 것을 특징으로 하는 음성 서비스 제공 방법.
제4항에 있어서,
상기 제3자 음성 서비스에 접속된 기기단에 타겟 음성 서비스를 제공하기 위한 요청 메시지를 수신하는 단계는,
상기 타겟 음성 서비스의 액세스 토큰을 획득한, 상기 제3자 음성 서비스에 접속된 기기단에 의해 발송된 상기 요청 메시지를 수신하는 단계를 포함하는 것을 특징으로 하는 음성 서비스 제공 방법.
제1항에 있어서,
상기 응답 메시지는,
상기 요청 메시지를 파싱(parsing)하여 상기 요청 내용과 상기 기기단의 상태 정보를 획득하는 단계;
상기 기기단의 상태 정보와 상기 요청 내용에 기반하여 대응되는 작동 명령을 생성하는 단계; 및
상기 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 메시지 포맷과 전송 프로토콜에 따라, 상기 작동 명령을 패키징하여 상기 응답 메시지를 생성하는 단계에 따라 생성되는 것을 특징으로 하는 음성 서비스 제공 방법.
제6항에 있어서,
상기 기기단의 상태 정보는 기기단의 능력 선언, 기기단의 컨텍스트(context) 정보 및 기기단의 이벤트 정보를 포함하는 것을 특징으로 하는 음성 서비스 제공 방법.
제7항에 있어서,
상기 기기단의 상태 정보와 상기 요청 내용에 기반하여 대응되는 작동 명령을 생성하는 단계는,
상기 기기단의 능력 선언, 기기단의 컨텍스트 정보 및 기기단의 이벤트 정보에 기반하여, 상기 기기단의 호출 가능한 작동 인터페이스를 결정하는 단계;
상기 호출 가능한 작동 인터페이스로부터 상기 요청 내용에 대응되는 타겟 작동 인터페이스를 결정하는 단계; 및
상기 요청 내용에 따라 음성 서비스 내용을 결정하고, 상기 타겟 작동 인터페이스를 호출하여 상기 음성 서비스 내용을 출력하기 위한 작동 명령을 생성하는 단계를 포함하는 것을 특징으로 하는 음성 서비스 제공 방법.
제1항에 있어서,
상기 기기단의 상태 정보에 기반하여 상기 요청 내용을 처리하여 생성된 응답 메시지를 획득하는 단계는,
상기 요청 내용이 음성 인터랙션 수요를 포함하는지 여부를 검출하는 단계; 및
상기 요청 내용이 음성 인터랙션 수요를 포함하는 것을 검출한 것에 응답하여, 기설정된 시간 길이 또는 기설정된 메시지 길이에 따라 음성 서비스 데이터를 구획하여 복수의 응답 메시지 세그멘트를 생성하는 단계를 포함하고,
상기 기기단에 상기 응답 메시지를 발송하는 단계는, 상기 응답 메시지 세그멘트의 생성 시간에 따라 순차적으로 상기 기기단에 상기 응답 메시지 세그멘트를 발송하는 단계를 포함하는 것을 특징으로 하는 음성 서비스 제공 방법.
제1항에 있어서,
상기 음성 서비스 제공 방법은,
상기 타겟 음성 서비스의 데이터 서비스 프레임워크 모델을 구축하되, 상기 데이터 서비스 프레임워크 모델은 전송 프로토콜층, 메시지 포맷층 및 기기단 능력층을 포함하는 단계를 더 포함하고,
상기 타겟 음성 서비스의 데이터 서비스 프레임워크 모델을 구축하는 단계는,
상기 타겟 음성 서비스에 적용되는 전송 프로토콜을 구성하는 단계를 포함하는 상기 전송 프로토콜층을 구축하는 단계;
상기 타겟 음성 서비스의 요청 메시지와 응답 메시지의 메시지 포맷을 구성하는 단계를 포함하는 상기 메시지 포맷층을 구축하는 단계; 및
요청 메시지와 응답 메시지로부터 기기단의 능력을 파싱하는 로직을 구성하는 단계를 포함하는 상기 기기단 능력층을 구축하는 단계를 포함하는 것을 특징으로 하는 음성 서비스 제공 방법.
음성 서비스 제공 장치에 있어서,
제3자 음성 서비스에 접속된 기기단에 타겟 음성 서비스를 제공하기 위한 요청 메시지를 수신하도록 구성되되, 상기 요청 메시지는 요청 내용 및 상기 기기단의 상태 정보를 포함하는 제1 수신 유닛;
상기 기기단의 상태 정보에 기반하여 상기 요청 내용을 처리하여 생성된 응답 메시지를 획득하도록 구성되되, 상기 응답 메시지는 작동 명령을 포함하는 획득 유닛; 및
상기 기기단에 상기 응답 메시지를 발송하도록 구성된 발송 유닛을 포함하고,
상기 요청 메시지와 상기 응답 메시지는, 이미 구축된 상기 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 메시지 포맷에 따라 생성되고, 이미 구축된 상기 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 전송 프로토콜에 기반하여 전송되며,
상기 이미 구축된 상기 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 메시지 포맷은 상기 제3자 음성 서비스의 메시지 포맷과 일치하고, 상기 이미 구축된 상기 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 전송 프로토콜은 상기 제3자 음성 서비스의 전송 프로토콜과 일치하는 것을 특징으로 하는 음성 서비스 제공 장치.
제11항에 있어서,
상기 음성 서비스 제공 장치는,
사용자가 상기 기기단의 구성 파일 중 대응되는 구성 아이템을 교체하도록, 사용자로부터 발송된 상기 기기단에 대한 타겟 음성 서비스 등록 요청을 획득한 것에 응답하여, 상기 사용자에게 상기 타겟 음성 서비스의 교체할 구성 정보를 제공하도록 구성된 제공 유닛을 더 포함하고,
상기 교체할 구성 정보는 사용자 식별자, 사용자 패스워드 및 액세스 토큰 획득 경로 주소를 포함하는 것을 특징으로 하는 음성 서비스 제공 장치.
제12항에 있어서,
상기 음성 서비스 제공 장치는,
상기 기기단을 상기 타겟 음성 서비스에 접속시키는 접속 요청을 수신하도록 구성되되, 상기 타겟 음성 서비스 접속 요청은 상기 사용자 식별자, 상기 사용자 패스워드 및 상기 기기단의 식별자를 포함하는 제2 수신 유닛; 및
상기 기기단이 상기 액세스 토큰 획득 경로 주소를 통해 발급된 액세스 토큰을 획득하도록, 상기 접속 요청에 기반하여 상기 기기단에 상기 타겟 음성 서비스의 액세스 토큰을 발급하도록 구성된 권한부여 유닛을 더 포함하는 것을 특징으로 하는 음성 서비스 제공 장치.
제13항에 있어서,
상기 권한부여 유닛은 또한,
상기 사용자 식별자와 상기 사용자 패스워드에 따라, 사용자로부터 권한을 부여 받은 기기 식별자를 검색하는 단계;
상기 타겟 음성 서비스 접속 요청의 기기단 식별자가 상기 사용자로부터 권한을 부여 받은 기기 식별자와 일치한지의 여부를 판단하는 단계; 및
상기 타겟 음성 서비스 접속 요청의 기기단 식별자가 상기 사용자로부터 권한을 부여 받은 기기 식별자와 일치하면, 상기 기기단에 상기 타겟 음성 서비스의 액세스 토큰을 발급하는 단계에 따라, 상기 기기단에 상기 타겟 음성 서비스의 액세스 토큰을 발급하도록 구성되는 것을 특징으로 하는 음성 서비스 제공 장치.
제14항에 있어서,
제1 수신 유닛은 또한,
상기 타겟 음성 서비스의 액세스 토큰을 획득한, 상기 제3자 음성 서비스에 접속된 기기단에 의해 발송된 상기 요청 메시지를 수신하도록 구성된 것을 특징으로 하는 음성 서비스 제공 장치.
제11항에 있어서,
상기 획득 유닛이 획득한 상기 응답 메시지는,
상기 요청 메시지를 파싱하여 상기 요청 내용과 상기 기기단의 상태 정보를 획득하는 단계;
상기 기기단의 상태 정보와 상기 요청 내용에 기반하여 대응되는 작동 명령을 생성하는 단계; 및
상기 타겟 음성 서비스의 데이터 서비스 프레임워크 모델에 구성된 메시지 포맷과 전송 프로토콜에 따라, 상기 작동 명령을 패키징하여 상기 응답 메시지를 생성하는 단계에 따라 생성되는 것을 특징으로 하는 음성 서비스 제공 장치.
제16항에 있어서,
상기 기기단의 상태 정보는 기기단의 능력 선언, 기기단의 컨텍스트 정보 및 기기단의 이벤트 정보를 포함하는 것을 특징으로 하는 음성 서비스 제공 장치.
제17항에 있어서,
상기 획득 유닛이 획득한 응답 메시지의 작동 명령은,
상기 기기단의 능력 선언, 기기단의 컨텍스트 정보 및 기기단의 이벤트 정보에 기반하여, 상기 기기단의 호출 가능한 작동 인터페이스를 결정하는 단계;
상기 호출 가능한 작동 인터페이스로부터 상기 요청 내용에 대응되는 타겟 작동 인터페이스를 결정하는 단계; 및
상기 요청 내용에 따라 음성 서비스 내용을 결정하고, 상기 타겟 작동 인터페이스를 호출하여 상기 음성 서비스 내용을 출력하기 위한 작동 명령을 생성하는 단계에 따라 생성되는 것을 특징으로 하는 음성 서비스 제공 장치.
제11항에 있어서,
상기 획득 유닛은 또한,
상기 요청 내용이 음성 인터랙션 수요를 포함하는지 여부를 검출하고,
상기 요청 내용이 음성 인터랙션 수요를 포함하는 것을 검출한 것에 응답하여, 기설정된 시간 길이 또는 기설정된 메시지 길이에 따라 음성 서비스 데이터를 구획하여 복수의 응답 메시지 세그멘트를 생성하도록 구성되며,
상기 발송 유닛은 또한,
상기 응답 메시지 세그멘트의 생성 시간에 따라 순차적으로 상기 기기단에 상기 응답 메시지 세그멘트를 발송하도록 구성되는 것을 특징으로 하는 음성 서비스 제공 장치.
제11항에 있어서,
상기 음성 서비스 제공 장치는,
상기 타겟 음성 서비스의 데이터 서비스 프레임워크 모델을 구축하도록 구성되되, 상기 데이터 서비스 프레임워크 모델은 전송 프로토콜층, 메시지 포맷층 및 기기단 능력층을 포함하는 구축 유닛을 더 포함하고,
상기 구축 유닛은 구체적으로,
상기 타겟 음성 서비스에 적용되는 전송 프로토콜을 구성하는 단계를 포함하여 상기 전송 프로토콜층을 구축하고,
상기 타겟 음성 서비스의 요청 메시지와 응답 메시지의 메시지 포맷을 구성하는 단계를 포함하여 상기 메시지 포맷층을 구축하며,
요청 메시지와 응답 메시지로부터 기기단의 능력을 파싱하는 로직을 구성하는 단계를 포함하여 상기 기기단 능력층을 구축하도록 구성되는 것을 특징으로 하는 음성 서비스 제공 장치.
서버에 있어서,
하나 또는 복수 개의 프로세서; 및
하나 또는 복수 개의 프로그램을 저장하는 저장 장치를 포함하며,
상기 하나 또는 복수 개의 프로그램이 상기 하나 또는 복수 개의 프로세서에 의해 실행될 경우, 상기 하나 또는 복수 개의 프로세서가 제1항 내지 제10항 중 어느 한 항에 따른 음성 서비스 제공 방법을 구현하는 것을 특징으로 하는 서버.
컴퓨터 프로그램이 저장된 컴퓨터 판독 가능한 저장 매체에 있어서,
상기 프로그램이 프로세서에 의해 실행될 경우, 제1항 내지 제10항 중 어느 한 항에 따른 음성 서비스 제공 방법을 구현하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장 매체.