WO2018131752A1 - 인공 지능 자동 화자 식별 방법을 이용하는 개인 맞춤형 음성 인식 서비스 제공 방법 및 이에 사용되는 서비스 제공 서버 - Google Patents

인공 지능 자동 화자 식별 방법을 이용하는 개인 맞춤형 음성 인식 서비스 제공 방법 및 이에 사용되는 서비스 제공 서버 Download PDF

Info

Publication number
WO2018131752A1
WO2018131752A1 PCT/KR2017/003807 KR2017003807W WO2018131752A1 WO 2018131752 A1 WO2018131752 A1 WO 2018131752A1 KR 2017003807 W KR2017003807 W KR 2017003807W WO 2018131752 A1 WO2018131752 A1 WO 2018131752A1
Authority
WO
WIPO (PCT)
Prior art keywords
service providing
speaker
voice
service
providing server
Prior art date
Application number
PCT/KR2017/003807
Other languages
English (en)
French (fr)
Inventor
정희석
이형엽
진세훈
임형택
Original Assignee
(주)파워보이스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)파워보이스 filed Critical (주)파워보이스
Priority to US16/477,330 priority Critical patent/US11087768B2/en
Priority to JP2019558316A priority patent/JP6909311B2/ja
Publication of WO2018131752A1 publication Critical patent/WO2018131752A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Definitions

  • the present invention relates to a method for providing a personalized speech recognition service and a service provision server used therein, and more particularly, to identify a speaker using a speech recognition service.
  • artificial intelligence automatic speaker identification method to provide a customized speech recognition service considering the unique information for each user
  • the present invention relates to a method for providing a personalized speech recognition service to be used and a service providing server used therein.
  • the speech recognition service merely responds to the speaker's voice command and provides a related service, and does not identify the speaker's identity in the process of providing the speech recognition service.
  • an object of the present invention is to be able to identify a speaker using a speech recognition service, thereby preventing unauthorized persons from using the speech recognition service without unauthorized use, and using multiple speech recognition services.
  • the present invention provides a method for providing a personalized speech recognition service using an artificial intelligence automatic speaker identification method for providing a personalized speech recognition service considering unique information for each user, and a service providing server used therein. Is in.
  • a method for providing a personalized voice recognition service comprising: (a) receiving, by a service providing server, a service providing request message including a speaker's voice from a user terminal; (b) the service providing server identifying the speaker of the voice by analyzing the voice included in the service providing request message; (c) generating, by the service providing server, a control command for providing a customized service for the speaker based on speaker identification information; And (d) the service providing server transmitting the generated control command to an external electronic device.
  • step (b) comprises: (b1) the service providing server executing sentence dependent speaker identification for the voice; And (b2) performing, by the service providing server, sentence independent speaker identification for the voice.
  • the service providing server for receiving a service providing request message containing the speaker's voice from the user terminal;
  • a speaker identification unit configured to identify the speaker of the voice by analyzing the voice included in the service providing request message;
  • a determination unit generating a control command necessary to provide a customized service for the speaker based on the speaker identification information generated by the speaker identification unit;
  • a transmitter for transmitting the control command to an external electronic device.
  • the speaker identification unit is characterized in that the sentence-dependent speaker identification for the speech and the sentence-independent speaker identification for the speech.
  • the present invention it is possible to identify the speaker using the speech recognition service, thereby preventing unauthorized use of the speech recognition service by unauthorized persons, and also allowing a plurality of users using the same speech recognition service. In this case, it is possible to provide a customized speech recognition service considering unique information for each user.
  • FIG. 1 is a structural diagram of a system for providing a personalized voice recognition service according to an embodiment of the present invention
  • FIG. 2 is a functional block diagram illustrating a structure of a service providing server for providing a personalized voice recognition service according to an embodiment of the present invention.
  • FIG. 3 is a signal flow diagram illustrating an execution process of a method for providing a personalized voice recognition service according to an embodiment of the present invention.
  • a personalized service providing system based on speaker identification information includes a user terminal 100, a service providing server 200, and an external electronic device 300.
  • the user terminal 100 is a terminal installed in a space where a user resides, such as a living room of a home, and is provided with a microphone module and a speaker module as a unit, and includes a service providing server 200 or a smart phone possessed by a user. And a communication module for performing wireless communication with a wireless communication terminal.
  • the user terminal 100 receives the service request voice of the speaker through the microphone module, transmits a service providing request message including the corresponding voice to the service providing server 200, and then from the service providing server 200. This function outputs the received customized service proposal message through the speaker module.
  • the user terminal 100 may perform short-range communication with a wireless communication terminal such as a smart phone, and in this case, the service request voice input by the user through the wireless communication terminal may be a user terminal ( 100, the user terminal 100 will transmit a service providing request message including the corresponding voice to the service providing server 200.
  • a wireless communication terminal such as a smart phone
  • the user terminal 100 transmits a customized service proposal message received from the service providing server 200 to the wireless communication terminal, and the message will be output to the user through the wireless communication terminal.
  • a wireless communication terminal such as a smart phone possessed by a user may perform the functions of the user terminal 100 described above as such.
  • the service providing server 200 is a server installed and operated by an operator providing a personalized voice recognition service according to the present invention.
  • the service providing server 200 requests a service providing including a speaker's voice from the user terminal 100. Receives a message, analyzes the voice included in the service request request message to identify the speaker of the voice, generates a control command for providing a customized service based on the speaker identification information, and transmits the control command to the external electronic device ( 300).
  • the external electronic device 300 is a device operated according to a control command from the service providing server 200, a smart TV installed in the home, lighting equipment linked to the service providing server 200, heating equipment, air conditioner It may be a device for various Internet of Things (IoT).
  • IoT Internet of Things
  • the service providing server 200 for providing a personalized voice recognition service may include a receiver 210, a storage 230, a speaker identifier 250, and a determiner ( 270, and a transmitter 290.
  • the receiving unit 210 of the service providing server 200 receives a service providing request message including a speaker's voice from the user terminal 100, and the corresponding message is stored in the storage 230.
  • the storage unit 230 of the service providing server 200 in addition to the service providing request message received from the user terminal 100, various media such as a sound source and a video output through an external electronic device 300 such as a smart TV.
  • Content files and file lists are stored, and can be controlled through voice registration information of a plurality of users using the user terminal 100, a list of personalized voice recognition services provided to each user, and a service providing server 200.
  • Device registration information including IP addresses of the plurality of external electronic devices 300 is individually stored.
  • the speaker identification unit 250 of the service providing server 200 identifies and extracts the speaker of the corresponding voice by extracting and analyzing voice information included in the service providing request message received from the user terminal 100.
  • the speaker identification unit 250 performs speaker identification according to sentence-dependent analysis on the voice included in the service request request message, and performs speaker identification according to the sentence-independent analysis on the corresponding voice. The speaker is finally identified based on the two identification results performed.
  • the determination unit 270 of the service providing server 200 based on the speaker identification information generated by the speaker identification unit 250 to provide a service for the speaker, the external electronic device 300 and the corresponding external electronic device ( The customized service provided through 300 is determined, and a control command of the external electronic device 300 necessary for providing the corresponding service is generated.
  • the transmission unit 290 of the service providing server 200 transmits the control command generated by the determination unit 270 to the external electronic device 300 selected by the determination unit 270, and is also generated by the determination unit 270.
  • a customized service proposal message is transmitted to the user terminal 100.
  • FIGS. 1 to 3 is a signal flow diagram illustrating an execution process of a method for providing a personalized voice recognition service according to an embodiment of the present invention.
  • a personalized service providing method based on speaker identification information according to an embodiment of the present invention will be described with reference to FIGS. 1 to 3.
  • the service providing server 200 receives registration information from an external electronic device 300 which is an Internet of Things (IoT) device such as a smart TV, a lighting device, a heating device, and an air conditioner interworking with the service providing server 200.
  • IoT Internet of Things
  • the received registration information of the external electronic device 300 is stored in the storage 230 of the service providing server 200 (S400).
  • the registration information of the external electronic device 300 includes device type information (lighting device, image device, heating device, cooling device, etc.) of the external electronic device 300 and IP address information of the external electronic device 300. This would be desirable.
  • the service providing server 200 receives a voice registration request of a plurality of users using the user terminal 100 from the user terminal 100, the individual voice information of the plurality of users included in the voice registration request is It is mapped to user information including ID information assigned to the user and stored in the storage unit 230 as shown in Table 1 below (S405).
  • the user information (user ID, gender, age, preferred content information) in Table 1 below is inputted through the personal computer or smart phone in the subscription procedure to the personalized voice recognition service through a PC or smart phone
  • the service providing server 200 may be provided by storing and receiving the received information.
  • a specific user in the space where the user terminal 100 is installed, such as 'Olle, boring, what is funny?'
  • the user terminal 100 receives the speaker's voice as described above.
  • a service providing request message including the received speaker voice is generated and then transmitted to the service providing server 200 (S415).
  • the receiving unit 210 of the service providing server 200 receives a service providing request message from the user terminal 100, and the speaker identification unit 250 of the service providing server 200 receives the speaker from the corresponding service providing request message. To extract the voice of (S420).
  • the speaker identification unit 250 of the service providing server 200 analyzes the speaker's voice, extracts speaker voice data having the same format as the registered voice data in Table 1, and extracts the extracted speaker voice data from Table 1. As described above, the speaker is identified by comparing with the voice data already registered in the storage unit 230 (S425).
  • the speaker identification unit 250 of the service providing server 200 is the voice of the extracted speaker 'Olle, bored but what is funny?' Of the 'oleya' part (so-called call part), sentence-dependent speech analysis and speaker identification are performed, and it is boring.
  • the part [so-called request part] it is preferable to independently execute sentence independent speech analysis and speaker identification, and finally to identify the speaker based on the two identification results thus independently performed.
  • the determination unit 270 of the service providing server 200 is shown in Table 1 below. Based on the user information in Esau, and the voice analysis results of 'I'm bored, what's funny?' [Request part] is determined as the 'US Drama' as a customized content for 'USER1' (S430).
  • the determination unit 270 of the service providing server 200 is different from the age group of the 'USER1' among the 'American Drama / Family Movie / Latest' which is the preferred content information of 'USER1'
  • the US drama which is a relatively high-content content, may be determined as an American drama as customized content for USER1.
  • the determination unit 270 of the service providing server 200 generates a customized service suggestion message such as 'Yes, would you like to watch an American drama recommended by Olleh TV?' 290 transmits the message to the user terminal 100 (S435).
  • the user terminal 100 outputs a customized service proposal message from the service providing server 200 to the user through the speaker module.
  • the user terminal 100 receives the voice of another user as described above (S440), and transmits a service providing request message including the received voice to the service providing server 200 (S445).
  • the receiving unit 210 of the service providing server 200 receives a service providing request message from the user terminal 100, and the speaker identification unit 250 of the service providing server 200 receives the speaker from the corresponding service providing request message. To extract the voice of (S450).
  • the identification unit of the service providing server 200 analyzes the speaker's voice to extract the speaker voice data having the same format as the registered voice data in Table 1, and stores the extracted voice data in the storage unit 230 as shown in Table 1 below.
  • the speaker is identified by comparing with the voice data already registered at S425.
  • the determination unit 270 of the service providing server 200 is based on the user information in Table 1, Considering not only 'USER1' but also 'USER2', the customized content is determined again, and as a result, 'family movie' may be determined as customized content for 'USER1' and 'USER2' (S460).
  • the determination unit 270 of the service providing server 200 is 'American Drama / Family Movie / Latest', which is the preferred content information of 'USER1', and the preferred content information of 'USER2'.
  • 'Family Movies' which are contents information commonly included in 'Family Movies / Action Movies / Hip Hop Music', can be determined as customized contents.
  • the determination unit 270 of the service providing server 200 generates a customized service suggestion message such as 'Yes, if so, would you like to watch a family movie recommended by Olleh TV?'
  • the transmitter 290 transmits the message to the user terminal 100 (S465).
  • the user terminal 100 outputs a customized service suggestion message from the service providing server 200 through the speaker module, and the user terminal when the user (USER1 or USER2) who has listened to this says 'Olleya, okay'. 100 receives the approval voice of the user as described above (S470), and transmits the customized service approval message including the approval voice to the service providing server 200.
  • the determination unit 270 of the service providing server 200 generates a control command for playing the customized content 'family movie' or recommending a family movie list, and selects the external electronic device 300 to receive the control command. do.
  • the determination unit 270 of the service providing server 200 may execute the playback of a 'family movie' or the recommendation of a family movie list among the external electronic devices 300 registered in the storage unit 230.
  • the transmitter 290 of the service providing server 200 transmits a corresponding control command to the IP address of the smart TV registered in the storage 230.
  • the smart TV executes the reproduction or playlist recommendation of the 'family movie' based on the control command received from the service providing server 200.
  • the present invention is recognized in the field of voice recognition service industry.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Telephonic Communication Services (AREA)

Abstract

인공 지능 자동 화자 식별 방법을 이용하는 개인 맞춤형 음성 인식 서비스 제공 방법 및 이에 사용되는 서비스 제공 서버가 개시된다. 본 발명은, 서비스 제공 서버가 사용자 단말기로부터 화자의 음성이 포함된 서비스 제공 요청 메시지를 수신하고, 서비스 제공 요청 메시지에 포함된 음성을 분석하여 음성의 화자를 식별하며, 화자 식별 정보에 기초하여 화자를 위한 맞춤형 서비스 제공에 필요한 제어 명령을 생성하고, 생성된 제어 명령을 외부 전자 기기로 송신하는 과정을 통해 구현된다. 본 발명에 따르면, 음성 인식 서비스를 이용하는 화자를 식별할 수 있게 됨에 따라, 정당한 사용 권한이 없는 자가 음성 인식 서비스를 무단으로 이용하는 것을 방지할 수 있을 뿐만 아니라, 동일한 음성 인식 서비스를 이용하는 다수의 사용자가 있는 경우에 있어서, 개개의 사용자별 고유 정보를 고려한 맞춤형 음성 인식 서비스를 제공할 수 있게 된다.

Description

인공 지능 자동 화자 식별 방법을 이용하는 개인 맞춤형 음성 인식 서비스 제공 방법 및 이에 사용되는 서비스 제공 서버
본 발명은 개인 맞춤형 음성 인식 서비스 제공 방법 및 이에 사용되는 서비스 제공 서버에 관한 것으로, 더욱 상세하게는 음성 인식 서비스를 이용하는 화자를 식별할 수 있게 됨에 따라, 정당한 사용 권한이 없는 자가 음성 인식 서비스를 무단으로 이용하는 것을 방지할 수 있을 뿐만 아니라, 동일한 음성 인식 서비스를 이용하는 다수의 사용자가 있는 경우에 있어서, 개개의 사용자별 고유 정보를 고려한 맞춤형 음성 인식 서비스를 제공할 수 있도록 하는 인공 지능 자동 화자 식별 방법을 이용하는 개인 맞춤형 음성 인식 서비스 제공 방법 및 이에 사용되는 서비스 제공 서버에 관한 것이다.
최근 음성 인식 기술의 발전에 따라, 애플의 시리(Siri), 구글의 나우(Now), 마이크로소프트의 코타나(Cortana), 아마존의 알렉사(Alexa) 등과 같은 다앙한 음성 인식 서비스가 출시되어 있다.
그러나, 종래 기술에 따른 음성 인식 서비스는 단순히 화자의 음성 명령에 반응하여, 그와 관련되는 서비스를 제공함에 그치고 있을 뿐, 음성 인식 서비스를 제공하는 과정에서 화자의 고유성(Identitiy)을 식별하지는 않는다.
그 결과, 해당 음성 인식 서비스를 이용할 수 있는 정당한 사용 권한이 없는 자라도 음성 인식 서비스를 무단으로 이용할 수도 있을 뿐만 아니라, 동일한 음성 인식 서비스를 이용하는 다수의 사용자가 있는 경우에 있어서, 개개의 사용자별 맞춤형 서비스가 제공될 수 없다는 기술적 한계가 있다.
따라서, 본 발명의 목적은, 음성 인식 서비스를 이용하는 화자를 식별할 수 있게 됨에 따라, 정당한 사용 권한이 없는 자가 음성 인식 서비스를 무단으로 이용하는 것을 방지할 수 있을 뿐만 아니라, 동일한 음성 인식 서비스를 이용하는 다수의 사용자가 있는 경우에 있어서, 개개의 사용자별 고유 정보를 고려한 맞춤형 음성 인식 서비스를 제공할 수 있도록 하는 인공 지능 자동 화자 식별 방법을 이용하는 개인 맞춤형 음성 인식 서비스 제공 방법 및 이에 사용되는 서비스 제공 서버를 제공함에 있다.
상기 목적을 달성하기 위한 본 발명에 따른 개인 맞춤형 음성 인식 서비스 제공 방법은, (a) 서비스 제공 서버가, 사용자 단말기로부터 화자의 음성이 포함된 서비스 제공 요청 메시지를 수신하는 단계; (b) 상기 서비스 제공 서버가, 상기 서비스 제공 요청 메시지에 포함된 상기 음성을 분석하여 상기 음성의 화자를 식별하는 단계; (c) 상기 서비스 제공 서버가, 화자 식별 정보에 기초하여 상기 화자를 위한 맞춤형 서비스 제공에 필요한 제어 명령을 생성하는 단계; 및 (d) 상기 서비스 제공 서버가, 생성된 상기 제어 명령을 외부 전자 기기로 송신하는 단계를 포함한다.
바람직하게는, 상기 (b) 단계는, (b1) 상기 서비스 제공 서버가, 상기 음성에 대한 문장 종속형 화자 식별을 실행하는 단계; 및 (b2) 상기 서비스 제공 서버가, 상기 음성에 대한 문장 독립형 화자 식별을 실행하는 단계를 포함하는 것을 특징으로 한다.
한편, 본 발명에 따른 서비스 제공 서버는, 사용자 단말기로부터 화자의 음성이 포함된 서비스 제공 요청 메시지를 수신하는 수신부; 상기 서비스 제공 요청 메시지에 포함된 상기 음성을 분석하여 상기 음성의 화자를 식별하는 화자 식별부; 상기 화자 식별부가 생성한 화자 식별 정보에 기초하여 상기 화자를 위한 맞춤형 서비스 제공에 필요한 제어 명령을 생성하는 판단부; 및 상기 제어 명령을 외부 전자 기기로 송신하는 송신부를 포함한다.
바람직하게는, 상기 화자 식별부는, 상기 음성에 대한 문장 종속형 화자 식별 및 상기 음성에 대한 문장 독립형 화자 식별을 실행하는 것을 특징으로 한다.
본 발명에 따르면, 음성 인식 서비스를 이용하는 화자를 식별할 수 있게 됨에 따라, 정당한 사용 권한이 없는 자가 음성 인식 서비스를 무단으로 이용하는 것을 방지할 수 있을 뿐만 아니라, 동일한 음성 인식 서비스를 이용하는 다수의 사용자가 있는 경우에 있어서, 개개의 사용자별 고유 정보를 고려한 맞춤형 음성 인식 서비스를 제공할 수 있게 된다.
도 1은 본 발명의 일 실시예에 따른 개인 맞춤형 음성 인식 서비스 제공 시스템의 구조도,
도 2는 본 발명의 일 실시예에 따른 개인 맞춤형 음성 인식 서비스를 제공하는 서비스 제공 서버의 구조를 나타낸 기능 블록도, 및
도 3은 본 발명의 일 실시예에 따른 개인 맞춤형 음성 인식 서비스 제공 방법의 실행 과정을 설명하는 신호 흐름도이다.
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다. 도면들 중 동일한 구성요소들은 가능한 한 어느 곳에서든지 동일한 부호들로 나타내고 있음에 유의해야 한다. 또한 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다.
도 1은 본 발명의 일 실시예에 따른 화자 식별 정보에 기초한 개인 맞춤형 서비스 제공 시스템의 구조도이다. 도 1을 참조하면, 본 발명의 일 실시예에 따른 화자 식별 정보에 기초한 개인 맞춤형 서비스 제공 시스템은 사용자 단말기(100), 서비스 제공 서버(200), 및 외부 전자 기기(300)를 포함한다.
사용자 단말기(100)는 가정의 거실 등과 같이 사용자가 거주하고 있는 공간에 설치되어 있는 단말기로서, 마이크 모듈과 스피커 모듈을 일체로서 구비하고 있으며 서비스 제공 서버(200) 또는 사용자가 소지하고 있는 스마트 폰 등의 무선 통신 단말기와의 무선 통신을 수행하는 통신 모듈을 구비하고 있다.
구체적으로, 사용자 단말기(100)는 화자의 서비스 요청 음성을 마이크 모듈을 통해 입력받으며, 해당 음성을 포함하는 서비스 제공 요청 메시지를 서비스 제공 서버(200)에 송신하고, 이후 서비스 제공 서버(200)로부터 수신되는 맞춤형 서비스 제안 메시지를 스피커 모듈을 통해 출력하는 기능을 수행한다.
한편, 본 발명을 실시함에 있어서는, 사용자 단말기(100)는 스마트 폰 등의 무선 통신 단말기와 근거리 통신을 수행할 수도 있으며, 이러한 경우에 사용자가 무선 통신 단말기를 통해 입력한 서비스 요청 음성은 사용자 단말기(100)로 전달되고, 사용자 단말기(100)는 해당 음성을 포함하는 서비스 제공 요청 메시지를 서비스 제공 서버(200)로 송신하게 될 것이다.
또한, 이러한 경우에 사용자 단말기(100)는 서비스 제공 서버(200)로부터 수신되는 맞춤형 서비스 제안 메시지를 무선 통신 단말기로 전달하게 되며, 해당 메시지는 무선 통신 단말기를 통해 사용자에게 출력될 것이다.
한편, 본 발명을 실시함에 있어서 사용자가 소지하고 있는 스마트 폰 등의 무선 통신 단말기가 그 자체로서 상술한 사용자 단말기(100)의 기능을 수행할 수도 있을 것이다.
서비스 제공 서버(200)는 본 발명에 따른 개인 맞춤형 음성 인식 서비스를 제공하는 사업자가 설치 및 운영하는 서버로서, 서비스 제공 서버(200)는 사용자 단말기(100)로부터 화자의 음성이 포함된 서비스 제공 요청 메시지를 수신하고, 해당 서비스 제공 요청 메시지에 포함된 음성을 분석하여 해당 음성의 화자를 식별하며, 화자 식별 정보에 기초하여 맞춤형 서비스 제공에 필요한 제어 명령을 생성하고, 해당 제어 명령을 외부 전자 기기(300)로 송신하는 기능을 수행한다.
한편, 외부 전자 기기(300)는 서비스 제공 서버(200)로부터의 제어 명령에 따라 동작되는 장비로서, 가정 내에 설치되어 있는 스마트 TV, 서비스 제공 서버(200)와 연동되는 조명 기기, 난방 기기, 에어컨 등의 다양한 사물 인터넷(IoT)용 장비가 될 수 있을 것이다.
도 2는 본 발명의 일 실시예에 따른 개인 맞춤형 음성 인식 서비스를 제공하는 서비스 제공 서버(200)의 구조를 나타낸 기능 블록도이다. 도 2를 참조하면, 본 발명의 일 실시예에 따른 개인 맞춤형 음성 인식 서비스를 제공하는 서비스 제공 서버(200)는 수신부(210), 저장부(230), 화자 식별부(250), 판단부(270), 및 송신부(290)를 포함한다.
먼저, 서비스 제공 서버(200)의 수신부(210)는 사용자 단말기(100)로부터 화자의 음성이 포함된 서비스 제공 요청 메시지를 수신하며, 해당 메시지는 저장부(230)에 저장된다.
한편, 서비스 제공 서버(200)의 저장부(230)에는 사용자 단말기(100)로부터 수신된 서비스 제공 요청 메시지 이외에도, 스마트 TV 등의 외부 전자 기기(300)를 통해 출력되는 음원, 동영상 등의 다양한 미디어 콘텐츠 파일 및 파일 목록이 저장되어 있고, 사용자 단말기(100)를 사용하는 복수의 사용자의 음성 등록 정보, 각각의 사용자에게 제공한 개인 맞춤형 음성 인식 서비스 목록, 및 서비스 제공 서버(200)를 통해 제어 가능한 복수의 외부 전자 기기(300)의 IP 주소를 포함하는 기기 등록 정보가 개별 저장되어 있다.
또한, 서비스 제공 서버(200)의 화자 식별부(250)는 사용자 단말기(100)로부터 수신된 서비스 제공 요청 메시지에 포함된 음성 정보를 추출 및 분석함으로써, 해당 음성의 화자를 식별한다.
구체적으로, 화자 식별부(250)는 서비스 제공 요청 메시지에 포함된 음성에 대한 문장 종속형 분석에 따른 화자 식별과 함께, 해당 음성에 대한 문장 독립형 분석에 따른 화자 식별을 병행하며, 이와 같이 독립적으로 실행된 두가지 식별 결과에 기초하여 최종적으로 화자를 식별한다.
한편, 서비스 제공 서버(200)의 판단부(270)는 화자 식별부(250)가 생성한 화자 식별 정보에 기초하여 해당 화자를 위한 서비스를 제공할 외부 전자 기기(300) 및 해당 외부 전자 기기(300)를 통해 제공되는 맞춤형 서비스를 결정하고, 해당 서비스의 제공에 필요한 외부 전자 기기(300)의 제어 명령을 생성한다.
서비스 제공 서버(200)의 송신부(290)는 판단부(270)가 생성한 상기 제어 명령을 상기 판단부(270)가 선택한 외부 전자 기기(300)로 송신하고, 또한 판단부(270)가 생성한 맞춤형 서비스 제안 메시지를 사용자 단말기(100)로 송신하는 기능을 수행한다.
도 3은 본 발명의 일 실시예에 따른 개인 맞춤형 음성 인식 서비스 제공 방법의 실행 과정을 설명하는 신호 흐름도이다. 이하에서는 도 1 내지 도 3을 참조하여, 본 발명의 일 실시예에 따른 화자 식별 정보에 기초한 개인 맞춤형 서비스 제공 방법을 설명하기로 한다.
먼저, 서비스 제공 서버(200)는 스마트 TV, 서비스 제공 서버(200)와 연동되는 조명 기기, 난방 기기, 및 에어컨 등과 같은 사물 인터넷(IoT)용 장비인 외부 전자 기기(300)로부터 등록 정보를 수신하며, 수신된 외부 전자 기기(300)의 등록 정보는 서비스 제공 서버(200)의 저장부(230)에 저장된다(S400).
구체적으로, 외부 전자 기기(300)의 등록 정보에는 외부 전자 기기(300)의 기기 종류 정보(조명 기기, 영상 기기, 난방 기기, 냉방 기기 등)와 외부 전자 기기(300)의 IP 주소 정보가 포함됨이 바람직할 것이다.
또한, 서비스 제공 서버(200)는 사용자 단말기(100)로부터 사용자 단말기(100)를 사용하는 복수의 사용자의 음성 등록 요청을 수신하며, 음성 등록 요청에 포함된 복수의 사용자의 개별 음성 정보는 각각의 사용자에게 부여된 아이디 정보를 포함하는 사용자 정보에 맵핑되어 다음의 표 1에서와 같이 저장부(230)에 저장된다(S405).
구체적으로, 하기 표 1에서의 사용자 정보(사용자 ID, 성별, 연령, 선호 콘텐츠 정보)는 PC 또는 스마트 폰을 통한 개인 맞춤형 음성 인식 서비스에 가입 절차에서, 각각의 사용자의 PC 또는 스마트 폰을 통해 입력된 정보를 서비스 제공 서버(200)가 수신 및 저장하여 둠으로써 구비될 수 있을 것이다.
사용자 ID 성별 연령 등록 음성 데이터 선호 콘텐츠 정보
USER1 여자 35세 DATA1 미국드라마 / 가족영화 / 최신가요
USER2 남자 39세 DATA2 액션 영화 / 영어학습 / 올드팝
USER3 남자 14세 DATA3 가족영화 / 액션영화 / 힙합음악
이후 사용자 단말기(100)가 설치되어 있는 공간에 있는 특정 사용자(USER1)가 '올레야, 심심한데 뭐 재밌는거 없을까?'와 같이 말하는 경우에 사용자 단말기(100)는 상기와 같은 화자의 음성을 수신하고(S410), 수신된 화자 음성이 포함된 서비스 제공 요청 메시지를 생성한 다음, 이를 서비스 제공 서버(200)로 송신한다(S415).
이에 따라, 서비스 제공 서버(200)의 수신부(210)는 사용자 단말기(100)로부터 서비스 제공 요청 메시지를 수신하며, 서비스 제공 서버(200)의 화자 식별부(250)는 해당 서비스 제공 요청 메시지로부터 화자의 음성을 추출한다(S420).
이후 서비스 제공 서버(200)의 화자 식별부(250)는 화자의 음성을 분석하여, 표 1에서의 등록 음성 데이터와 동일한 포맷을 갖는 화자 음성 데이터를 추출하며, 추출된 화자 음성 데이터를 표 1에서와 같이 저장부(230)에 이미 등록되어 있는 음성 데이터와 비교함으로써 화자를 식별한다(S425).
구체적으로, 전술한 S425 단계를 실시함에 있어서, 서비스 제공 서버(200)의 화자 식별부(250)는 추출된 화자의 음성 '올레야, 심심한데 뭐 재밌는거 없을까?' 중에서 '올레야' 부분[이른바, 호출 부분]에 대해서는 문장 종속형 음성 분석 및 화자 식별을 실행하고, '심심한데 뭐 재밌는거 없을까?' 부분[이른바, 요청 부분]에 대해서는 문장 독립형 음성 분석 및 화자 식별을 독립적으로 실행한 다음, 이와 같이 독립적으로 실행된 두가지 식별 결과에 기초하여 최종적으로 화자를 식별함이 바람직할 것이다.
이에 따라, 서비스 제공 서버(200)의 화자 식별부(250)가 해당 음성에 대한 화자를 표 1에서의 'USER1'로 식별한 경우에 서비스 제공 서버(200)의 판단부(270)는 표 1에서의 사용자 정보와, '심심한데 뭐 재밌는거 없을까?'[요청 부분]에 대한 음성 분석 결과에 기초하여 'USER1'을 위한 맞춤형 콘텐츠로 '미국드라마'로 결정하게 된다(S430).
한편, 서비스 제공 서버(200)의 판단부(270)가 '심심한데 뭐 재밌는거 없을까?[요청 부분]에 대한 음성 분석 및 음성 인식을 실행함에 있어서는, 종래 기술에 따른 다양한 음성 인식 서비스에서의 음성 분석 및 인식 기술이 사용될 수 있을 것이다.
구체적으로, S430 단계를 실시함에 있어서, 서비스 제공 서버(200)의 판단부(270)는 'USER1'의 선호 콘텐츠 정보인 '미국드라마 / 가족영화 / 최신가요' 중에서 'USER1'의 연령대에 속하는 다른 여성 회원의 선호 콘텐츠 정보를 참고하여, 상대적 선호도가 높은 콘텐츠인 '미국드라마'를 'USER1'을 위한 맞춤형 콘텐츠로 '미국드라마'로 결정할 수도 있을 것이다.
이에 따라, 서비스 제공 서버(200)의 판단부(270)는 '네, 올레 TV에서 추천하는 미국드라마를 시청하시겠습니까?'와 같은 맞춤형 서비스 제안 메시지를 생성하고, 서비스 제공 서버(200)의 송신부(290)는 해당 메시지를 사용자 단말기(100)로 송신한다(S435).
이에 사용자 단말기(100)는 서비스 제공 서버(200)로부터의 맞춤형 서비스 제안 메시지가 스피커 모듈을 통해 사용자에게 출력하게 된다.
한편, 본 발명을 실시함에 있어서, 사용자 단말기(100)를 통해 출력된 맞춤형 서비스 제안 메시지를 'USER1' 뿐만 아니라, 동일 공간 내에 있는 다른 사용자도 청취할 수 있을 것이며, 이에 대해 다른 사용자는 '올레야, 난 싫어, 딴 거를 추천해줘'와 같이 말할 수도 있을 것이다.
이 경우에 사용자 단말기(100)는 상기와 같은 다른 사용자의 음성을 수신하고(S440), 수신된 음성이 포함된 서비스 제공 요청 메시지를 서비스 제공 서버(200)에 송신한다(S445).
이에 따라, 서비스 제공 서버(200)의 수신부(210)는 사용자 단말기(100)로부터 서비스 제공 요청 메시지를 수신하며, 서비스 제공 서버(200)의 화자 식별부(250)는 해당 서비스 제공 요청 메시지로부터 화자의 음성을 추출한다(S450).
이후 서비스 제공 서버(200)의 식별부는 화자의 음성을 분석하여 표 1에서의 등록 음성 데이터와 동일한 포맷을 갖는 화자 음성 데이터를 추출하며, 추출된 음성 데이터를 표 1에서와 같이 저장부(230)에 이미 등록되어 있는 음성 데이터들과 비교함으로써 화자를 식별한다(S425).
이에 따라, 서비스 제공 서버(200)의 식별부가 해당 화자를 표 1에서의 'USER2'로 식별한 경우에 서비스 제공 서버(200)의 판단부(270)는 표 1에서의 사용자 정보에 기초하여, 'USER1' 뿐만 아니라 'USER2'도 함께 고려하여 맞춤형 콘텐츠를 다시 결정하며, 그 결과 '가족영화'를 'USER1'과 'USER2'를 위한 맞춤형 콘텐츠로 결정할 수 있을 것이다(S460).
구체적으로, S460 단계를 실시함에 있어서, 서비스 제공 서버(200)의 판단부(270)는 'USER1'의 선호 콘텐츠 정보인 '미국드라마 / 가족영화 / 최신가요'과, 'USER2'의 선호 콘텐츠 정보인 '가족영화 / 액션영화 / 힙합음악'에 공통으로 포함되어 있는 콘텐츠 정보인 '가족영화'를 맞춤형 콘텐츠로 결정할 수 있게 된다.
이에 따라, 서비스 제공 서버(200)의 판단부(270)는 '네, 그렇다면 올레 TV에서 추천하는 가족영화를 시청하시겠습니까?'와 같은 맞춤형 서비스 제안 메시지를 생성하게 되며, 서비스 제공 서버(200)의 송신부(290)는 해당 메시지를 사용자 단말기(100)로 송신한다(S465).
이에 사용자 단말기(100)는 서비스 제공 서버(200)로부터의 맞춤형 서비스 제안 메시지를 스피커 모듈을 통해 출력하며, 이를 청취한 사용자(USER1 또는 USER2)가 '올레야, 좋아'와 같이 말하는 경우에 사용자 단말기(100)는 상기와 같은 사용자의 승인 음성을 수신하고(S470), 승인 음성이 포함된 맞춤형 서비스 승인 메시지를 서비스 제공 서버(200)로 송신한다.
이에 서비스 제공 서버(200)의 판단부(270)는 맞춤형 콘텐츠인 '가족영화'의 재생 또는 가족 영화 목록 추천에 필요한 제어 명령을 생성하고, 해당 제어 명령을 수신할 외부 전자 기기(300)를 선택한다.
구체적으로, 서비스 제공 서버(200)의 판단부(270)는 저장부(230)에 등록되어 있는 외부 전자 기기(300) 중에서 '가족영화'의 재생 또는 가족 영화 목록 추천을 실행할 전자 기기(300)로서 스마트 TV를 선택하며, 서비스 제공 서버(200)의 송신부(290)는 저장부(230)에 등록되어 있는 스마트 TV의 IP 주소로 해당 제어 명령을 송신한다.
그 결과, 스마트 TV는 서비스 제공 서버(200)로부터 수신된 제어 명령에 기초하여 '가족영화'의 재생 또는 재생목록 추천을 실행하게 된다.
본 발명에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이상에서는 본 발명의 바람직한 실시예 및 응용예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예 및 응용예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
본 발명은 음성 인식 서비스 산업 분야에서의 산업상 이용 가능성이 인정된다.

Claims (2)

  1. (a) 서비스 제공 서버가, 사용자 단말기로부터 화자의 음성이 포함된 서비스 제공 요청 메시지를 수신하는 단계;
    (b) 상기 서비스 제공 서버가, 상기 서비스 제공 요청 메시지에 포함된 상기 음성을 분석하여 상기 음성의 화자를 식별하는 단계;
    (c) 상기 서비스 제공 서버가, 화자 식별 정보에 기초하여 상기 화자를 위한 맞춤형 서비스 제공에 필요한 제어 명령을 생성하는 단계; 및
    (d) 상기 서비스 제공 서버가, 생성된 상기 제어 명령을 외부 전자 기기로 송신하는 단계
    를 포함하는 개인 맞춤형 음성 인식 서비스 제공 방법.
  2. 사용자 단말기로부터 화자의 음성이 포함된 서비스 제공 요청 메시지를 수신하는 수신부;
    상기 서비스 제공 요청 메시지에 포함된 상기 음성을 분석하여 상기 음성의 화자를 식별하는 화자 식별부;
    상기 화자 식별부가 생성한 화자 식별 정보에 기초하여 상기 화자를 위한 맞춤형 서비스 제공에 필요한 제어 명령을 생성하는 판단부; 및
    상기 제어 명령을 외부 전자 기기로 송신하는 송신부
    를 포함하는 서비스 제공 서버.
PCT/KR2017/003807 2017-01-11 2017-04-07 인공 지능 자동 화자 식별 방법을 이용하는 개인 맞춤형 음성 인식 서비스 제공 방법 및 이에 사용되는 서비스 제공 서버 WO2018131752A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US16/477,330 US11087768B2 (en) 2017-01-11 2017-04-07 Personalized voice recognition service providing method using artificial intelligence automatic speaker identification method, and service providing server used therein
JP2019558316A JP6909311B2 (ja) 2017-01-11 2017-04-07 人工知能自動話者識別方法を用いる個人カスタマイズ型音声認識サービスの提供方法及びこれに使用されるサービス提供サーバ

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170004094A KR101883301B1 (ko) 2017-01-11 2017-01-11 인공 지능 자동 화자 식별 방법을 이용하는 개인 맞춤형 음성 인식 서비스 제공 방법 및 이에 사용되는 서비스 제공 서버
KR10-2017-0004094 2017-01-11

Publications (1)

Publication Number Publication Date
WO2018131752A1 true WO2018131752A1 (ko) 2018-07-19

Family

ID=62839511

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2017/003807 WO2018131752A1 (ko) 2017-01-11 2017-04-07 인공 지능 자동 화자 식별 방법을 이용하는 개인 맞춤형 음성 인식 서비스 제공 방법 및 이에 사용되는 서비스 제공 서버

Country Status (4)

Country Link
US (1) US11087768B2 (ko)
JP (1) JP6909311B2 (ko)
KR (1) KR101883301B1 (ko)
WO (1) WO2018131752A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109102803A (zh) * 2018-08-09 2018-12-28 珠海格力电器股份有限公司 家电设备的控制方法、装置、存储介质及电子装置
EP3842939A4 (en) * 2018-08-24 2021-10-27 Tencent Technology (Shenzhen) Company Limited PROCESS AND APPARATUS FOR PROCESSING SERVICE DATA, AND ASSOCIATED DEVICE

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101883301B1 (ko) * 2017-01-11 2018-07-30 (주)파워보이스 인공 지능 자동 화자 식별 방법을 이용하는 개인 맞춤형 음성 인식 서비스 제공 방법 및 이에 사용되는 서비스 제공 서버
US10258295B2 (en) 2017-05-09 2019-04-16 LifePod Solutions, Inc. Voice controlled assistance for monitoring adverse events of a user and/or coordinating emergency actions such as caregiver communication
KR102574903B1 (ko) * 2018-08-08 2023-09-05 삼성전자주식회사 개인화된 장치 연결을 지원하는 전자 장치 및 그 방법
KR102275873B1 (ko) 2018-12-18 2021-07-12 한국전자기술연구원 화자인식 장치 및 방법
KR20200098025A (ko) 2019-02-11 2020-08-20 삼성전자주식회사 전자 장치 및 그 제어 방법
WO2020184753A1 (ko) * 2019-03-12 2020-09-17 엘지전자 주식회사 음성 추출 필터를 이용하여 음성 제어를 수행하는 인공 지능 장치 및 그 방법
US11410655B1 (en) 2021-07-26 2022-08-09 LifePod Solutions, Inc. Systems and methods for managing voice environments and voice routines
US11404062B1 (en) 2021-07-26 2022-08-02 LifePod Solutions, Inc. Systems and methods for managing voice environments and voice routines

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050023941A (ko) * 2003-09-03 2005-03-10 삼성전자주식회사 음성 인식 및 화자 인식을 통한 개별화된 서비스를제공하는 a/v 장치 및 그 방법
KR20080023033A (ko) * 2006-09-08 2008-03-12 한국전자통신연구원 지능형 로봇 서비스 시스템에서 무선 마이크로폰을 이용한화자 인식 방법 및 장치
KR20120066523A (ko) * 2010-12-14 2012-06-22 한국전자통신연구원 음성 인식 방법 및 이를 위한 시스템
US20150025888A1 (en) * 2013-07-22 2015-01-22 Nuance Communications, Inc. Speaker recognition and voice tagging for improved service
KR20160027728A (ko) * 2014-09-02 2016-03-10 현대모비스 주식회사 사용자 맞춤형 서비스를 위한 차량 기기 제어 장치 및 방법

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774858A (en) * 1995-10-23 1998-06-30 Taubkin; Vladimir L. Speech analysis method of protecting a vehicle from unauthorized accessing and controlling
US20030171930A1 (en) * 2002-03-07 2003-09-11 Junqua Jean-Claude Computer telephony system to access secure resources
JP2005086768A (ja) * 2003-09-11 2005-03-31 Toshiba Corp 制御装置、制御方法およびプログラム
US8442824B2 (en) * 2008-11-26 2013-05-14 Nuance Communications, Inc. Device, system, and method of liveness detection utilizing voice biometrics
US9489950B2 (en) * 2012-05-31 2016-11-08 Agency For Science, Technology And Research Method and system for dual scoring for text-dependent speaker verification
KR20140119968A (ko) * 2013-04-01 2014-10-13 삼성전자주식회사 콘텐츠 서비스 방법 및 시스템
TWI508057B (zh) * 2013-07-15 2015-11-11 Chunghwa Picture Tubes Ltd 語音辨識系統以及方法
JP6054283B2 (ja) * 2013-11-27 2016-12-27 シャープ株式会社 音声認識端末、サーバ、サーバの制御方法、音声認識システム、音声認識端末の制御プログラム、サーバの制御プログラムおよび音声認識端末の制御方法
WO2016018111A1 (en) * 2014-07-31 2016-02-04 Samsung Electronics Co., Ltd. Message service providing device and method of providing content via the same
KR102383791B1 (ko) * 2014-12-11 2022-04-08 삼성전자주식회사 전자 장치에서의 개인 비서 서비스 제공
JP6084654B2 (ja) * 2015-06-04 2017-02-22 シャープ株式会社 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法
KR101883301B1 (ko) * 2017-01-11 2018-07-30 (주)파워보이스 인공 지능 자동 화자 식별 방법을 이용하는 개인 맞춤형 음성 인식 서비스 제공 방법 및 이에 사용되는 서비스 제공 서버

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050023941A (ko) * 2003-09-03 2005-03-10 삼성전자주식회사 음성 인식 및 화자 인식을 통한 개별화된 서비스를제공하는 a/v 장치 및 그 방법
KR20080023033A (ko) * 2006-09-08 2008-03-12 한국전자통신연구원 지능형 로봇 서비스 시스템에서 무선 마이크로폰을 이용한화자 인식 방법 및 장치
KR20120066523A (ko) * 2010-12-14 2012-06-22 한국전자통신연구원 음성 인식 방법 및 이를 위한 시스템
US20150025888A1 (en) * 2013-07-22 2015-01-22 Nuance Communications, Inc. Speaker recognition and voice tagging for improved service
KR20160027728A (ko) * 2014-09-02 2016-03-10 현대모비스 주식회사 사용자 맞춤형 서비스를 위한 차량 기기 제어 장치 및 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109102803A (zh) * 2018-08-09 2018-12-28 珠海格力电器股份有限公司 家电设备的控制方法、装置、存储介质及电子装置
EP3842939A4 (en) * 2018-08-24 2021-10-27 Tencent Technology (Shenzhen) Company Limited PROCESS AND APPARATUS FOR PROCESSING SERVICE DATA, AND ASSOCIATED DEVICE
US11404052B2 (en) 2018-08-24 2022-08-02 Tencent Technology (Shenzhen) Company Limited Service data processing method and apparatus and related device

Also Published As

Publication number Publication date
KR101883301B1 (ko) 2018-07-30
KR20180082783A (ko) 2018-07-19
JP6909311B2 (ja) 2021-07-28
US20190378518A1 (en) 2019-12-12
US11087768B2 (en) 2021-08-10
JP2020504413A (ja) 2020-02-06

Similar Documents

Publication Publication Date Title
WO2018131752A1 (ko) 인공 지능 자동 화자 식별 방법을 이용하는 개인 맞춤형 음성 인식 서비스 제공 방법 및 이에 사용되는 서비스 제공 서버
US7554973B2 (en) Multiple virtual telephones sharing a single physical address
EP3973413A1 (en) Method and system for context association and personalization using a wake-word in virtual personal assistants
CN108369596A (zh) 个性化自然语言理解系统
WO2013137660A1 (en) Collaborative personal assistant system for delegating provision of services by third party task providers and method therefor
JP2006229884A (ja) 電話機
CN107748500A (zh) 用于控制智能设备的方法和装置
WO2019225201A1 (ja) 情報処理装置及び情報処理方法、並びに情報処理システム
WO2013168988A1 (en) Electronic apparatus and method for controlling electronic apparatus thereof
JP2010003288A (ja) ネットワーク基盤のサービス提供システム及び方法
EP2616948A2 (en) Method and apparatus for managing data
WO2011142638A2 (en) System and method for enabling communication between a rich communication service system and a non-rich communication service stystem
CN106776039A (zh) 一种数据处理方法及装置
WO2015133818A1 (ko) 통신 시스템에서 콘텐츠를 제공하는 방법 및 장치
WO2019221385A1 (ko) 대화용 애플리케이션의 운영 방법
CN109510743B (zh) 一种智能音箱系统的快速集群方法
WO2018117660A1 (en) Security enhanced speech recognition method and device
WO2016163565A1 (ko) 멀티모달 다중 에이전트 기반의 감정 통신 시스템
CN108389574A (zh) 一种支持iot设备智能互联的装置、系统和方法
CN101729995A (zh) 一种集群呼叫中的话权控制的方法及设备
CN106843882A (zh) 一种信息处理方法、装置及信息处理系统
WO2021251761A1 (ko) 아바타 로봇을 이용한 비대면 범용원격플랫폼 제공 시스템
CN109510821A (zh) 一种报文处理方法及装置
CN113918916A (zh) 数据迁移方法、终端设备及可读存储介质
WO2016047818A1 (ko) 멀티 코덱, 멀티 채널 기반의 동시통역 서비스 제공 시스템 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17891006

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019558316

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 07/10/2019)

122 Ep: pct application non-entry in european phase

Ref document number: 17891006

Country of ref document: EP

Kind code of ref document: A1