WO2019054681A1 - Method for providing artificial intelligence secretarial service, and voice recognition device used therefor - Google Patents

Method for providing artificial intelligence secretarial service, and voice recognition device used therefor Download PDF

Info

Publication number
WO2019054681A1
WO2019054681A1 PCT/KR2018/010229 KR2018010229W WO2019054681A1 WO 2019054681 A1 WO2019054681 A1 WO 2019054681A1 KR 2018010229 W KR2018010229 W KR 2018010229W WO 2019054681 A1 WO2019054681 A1 WO 2019054681A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
user
service
speaker
caller
Prior art date
Application number
PCT/KR2018/010229
Other languages
French (fr)
Korean (ko)
Inventor
정희석
진세훈
이형엽
임형택
Original Assignee
(주)파워보이스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)파워보이스 filed Critical (주)파워보이스
Publication of WO2019054681A1 publication Critical patent/WO2019054681A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Definitions

  • the present invention relates to a method for providing an artificial intelligent secretary service and a speech recognition apparatus used therein. More specifically, the present invention enables a user to continuously use an artificial intelligent secretarial service without repeatedly inputting a predetermined call word, It is possible not only to prevent a malfunction caused by an unauthorized third party's voice by separately executing a speaker authentication procedure for a service request of a user but also to prevent a malicious operation of a service request when a service request voice is cumulatively inputted from a plurality of authorized users A secretary service providing method, and a voice recognition device used therefor.
  • the artificial intelligent speaker requires a user to utter a predetermined call word for switching to an active mode (wake-up mode) in an operation standby state, and an artificial intelligent speaker When there is a service provision request of the user in the activated state, speech recognition of the voice of the request and provision of the service is performed.
  • the artificial intelligent speaker when the caller is recognized, the artificial intelligent speaker according to the related art provides a service according to the service request without performing any authentication for the user after the service request voice of the user.
  • the user A inputs the caller and then the user B in the same space
  • the artificial intelligent speaker recognizes the voice of the user A as a service request voice to cause a malfunction.
  • the artificial intelligent speaker according to the related art can not discriminate and recognize the voices of a plurality of users A, B, C, and D, the service request of the user A, the service request of the user B, In the case where service requests are sequentially performed, there is a technical limitation in that these requests can not be divided and processed according to users, and each request can be processed in parallel.
  • a method for providing an artificial intelligent assistant service comprising the steps of: (a) receiving speech data from a user; (b) determining whether the voice recognition device matches the caller entered by the user with a preset caller; And (c) when the voice recognition device judges that the caller matches the preset caller, and when the service request voice is input from the user, And authenticating the speaker by comparing the parameters for analysis.
  • the speech recognition apparatus further includes outputting the call alert voice guidance voice.
  • the set call word is a call word arbitrarily selected by the user.
  • the method further includes the step of (d) outputting a voice guiding the authentication result of the service use authority executed based on the ID of the speaker authenticated in the step (c).
  • the method further includes (d) determining, by the voice recognition apparatus, a service content to be provided to the user based on the ID of the speaker authenticated in step (c).
  • a speech recognition apparatus comprising: an input unit for receiving a speech sound from a user; And determining whether or not the caller input by the user coincides with a predetermined caller, and when it is determined that the caller matches the preset caller, and if the service request voice is input from the user, And a speaker authentication unit for authenticating the speaker by comparing the voice print analysis parameter of the set user voice.
  • the mobile communication terminal further includes an output unit for outputting the calling speech voice guidance voice.
  • the set call word is a call word arbitrarily selected by the user.
  • the apparatus further includes an output unit outputting a voice for guiding an authentication result of the service utilization right executed based on the ID of the authenticated speaker.
  • a determination unit for determining a service content to be provided to the user based on the ID of the authenticated speaker.
  • the user can continuously use the AI secretarial service without having to repeatedly input a predetermined call word.
  • the service request when a service request voice is cumulatively input from a plurality of authorized users, the service request can be divided and processed for each user.
  • FIG. 1 is a configuration diagram of an artificial intelligent assistant service providing system according to a first embodiment of the present invention
  • FIG. 2 is a functional block diagram illustrating a structure of a speech recognition apparatus according to a first embodiment of the present invention.
  • FIG. 3 is a flowchart illustrating a speaker authentication method in the speech recognition apparatus according to the first embodiment of the present invention.
  • FIG. 4 is a signal flow diagram illustrating an execution procedure of the artificial intelligent assistant service providing method according to the second embodiment of the present invention.
  • an artificial intelligent assistant service providing system includes a voice recognition device 100 and a service providing server 200.
  • the voice recognition apparatus 100 is an artificial intelligent speaker equipped with a voice recognition function, and is installed in a space such as a living room in which a user resides.
  • the voice recognition apparatus 100 includes a smart phone .
  • the voice recognition apparatus 100 guides the user to utter a predetermined call word (for example, 'silo') for a user registration procedure in the artificial intelligence secretary service, and then performs voice registration for each user according to the utterance of the user And authenticates the user on the basis of the voice information of the callee through the voice recognition function when the user utters the callee after completing voice registration for each user.
  • a predetermined call word for example, 'silo'
  • the speech recognition apparatus 100 can be implemented as a speaker identification method that combines text dependent speaker recognition via an alias keyword and text independent speaker recognition based on an atypical natural language instruction .
  • the speech recognition apparatus 100 generates and stores parameter values for voice print analysis such as a frequency bandwidth and an amplitude spectrum in a user's speech voice signal and an unstructured natural language command speech (service request speech) signal, If there is an input of the service request voice of the user, the voice parameter values in the voice of the service request are compared with the previously stored parameter values, so that authentication through the text-independent speaker recognition method for the speaker Perform the procedure.
  • parameter values for voice print analysis such as a frequency bandwidth and an amplitude spectrum in a user's speech voice signal and an unstructured natural language command speech (service request speech) signal
  • the service providing server 200 is a server installed and operated by a company that manufactures and sells the voice recognition apparatus 100 such as an artificial intelligent speaker.
  • the speech recognition apparatus 100 includes an input unit 110, an output unit 130, a speaker authentication unit 150, a determination unit 170, a storage unit 180, And a communication unit 190.
  • the input unit 110 of the voice recognition apparatus 100 is implemented by a microphone module or the like.
  • the voice of the user is input through the input unit 110.
  • the output unit 130 of the voice recognition apparatus 100 may be implemented as a speaker module or the like and may be a voice recognition system such as a voice recognition system (For example, say 'silo' if a beep sounds), and outputs a result of a subsequent service request of the registered user (such as a service unavailable guide, request information information such as weather, etc.) ) To the user.
  • a voice recognition system such as a voice recognition system (For example, say 'silo' if a beep sounds)
  • a result of a subsequent service request of the registered user such as a service unavailable guide, request information information such as weather, etc.)
  • the caller information set by the manufacturer or the purchaser (user) of the voice recognition apparatus 100 is stored. Also, in the user registration procedure, The voice is correlated with the user's ID for each user, and thereafter, parameter values for the voiceprint analysis in the caller voice signal inputted by the user for activation of the voice recognition apparatus 100, The parameter values for the grammar analysis are cumulatively associated with the user ID.
  • the speaker authentication unit 150 of the voice recognition apparatus 100 performs a context-dependent speaker identification based on the caller keyword and a context-independent speaker identification based on the unstructured natural language command as a speaker identification method.
  • the speaker authenticating unit 150 stores the parameter value for the sentence analysis in the service request voice signal as the parameter value of the user's voiceprint analysis stored in the storage unit 180 And performs an authentication procedure for the speaker requesting the service.
  • the speaker authentication unit 150 separately performs the authentication procedure for the service request voice of the user using the text-independent speaker recognition method.
  • the determination unit 170 of the voice recognition apparatus 100 performs a function of determining a customized service content to be provided to the user based on the ID information of the speaker identified by the speaker authentication unit 150,
  • the communication unit 190 of the server 100 performs data communication with the service providing server 200 or an external server providing the service contents requested by the user.
  • FIG. 3 is a flowchart illustrating a speaker authentication method in the speech recognition apparatus according to the first embodiment of the present invention.
  • a speaker authentication method in a speech recognition apparatus according to a first embodiment of the present invention will be described with reference to FIG.
  • the speech recognition apparatus 100 may include a voice for guiding the user to register his / her voice in order to utilize the artificial intelligent assistant service according to the present invention, such as a voice call (for example, 'silo').
  • a voice call for example, 'silo'
  • the voice recognition device 100 outputs voice to the user through the output unit 130.
  • the user speaks the voice call according to voice guidance of the voice recognition device 100, Accordingly, the voice of the user is input through the input unit 110 of the voice recognition apparatus 100.
  • the user inputs his or her user ID through the input panel separately provided to the input unit 110.
  • a directory for the user is created in the storage unit 180 of the voice recognition apparatus 100, The ID of the user and the voice information of the caller inputted by the user are stored in association with each other (S210).
  • the ID input by the user is the ID provided by the user at the time of subscription to the artificial intelligence secret service according to the present invention, so that the ID is the same as the ID stored in the service providing server 200 Lt; / RTI >
  • the above-described user registration procedure is repeatedly performed for each of a plurality of users (for example, family members) to be used together with the voice recognition apparatus 100 through the same call word.
  • step S210 the user first utters the call word to use the artificial intelligent assistant service according to the present invention, and based on the call word voice information uttered by the user,
  • the controller 150 performs speaker identification for the user (S220).
  • the speaker authentication unit recognizes the user- Frequency bandwidth, amplitude spectrum, and the like), and the user-specific parameter values thus generated are stored together with the corresponding user's directory (S250).
  • the speaker authentication unit 150 can independently perform the context-dependent speaker identification based on the caller keyword and the context-independent speaker identification based on the parameter values generated for each user.
  • the speaker authentication unit 150 determines whether the first speaker identification through the caller keyword (S260), and then the second speaker identification (context independent speaker identification) through the atypical natural language instruction is continuously executed (S270).
  • the speaker authentication unit 150 receives a sum of a value obtained by applying a predetermined weight to the first speaker identification result value through the context dependent speaker identification method and a value obtained by applying a predetermined weight to the second speaker identification result value through the context independent speaker identification And finally identifies the speaker based on the value (S280).
  • the final speaker identification method of the speaker authentication unit 150 will be referred to as a hybrid speaker identification method in which the context-dependent speaker identification method and the context-independent speaker identification method are fused.
  • the speech information of the atypical natural language instruction word in step S270 is cumulatively stored in the user's directory, so that the user-specific speech recognition parameters generated in step S250 are additionally generated, It is desirable that the accuracy of the context independent speaker identification in the authentication unit 150 is continuously improved.
  • FIG. 4 is a signal flow diagram illustrating an execution procedure of the artificial intelligent assistant service providing method according to the second embodiment of the present invention.
  • FIG. 1, FIG. 2, and FIG. 4 description will be made of an execution procedure of the artificial intelligent assistant service providing method according to an embodiment of the present invention.
  • FIG. 4 is a state in which the user registration procedure in the speaker authentication method according to the first embodiment of the present invention shown in FIG. 3 is completed, It is assumed that the hybrid speaker identification method can be executed through cumulative learning in the speaker authentication unit 150.
  • a user who wishes to use the artificial intelligent assistant service speaks a predetermined caller speech (for example, 'silos') and then successively transmits a service request voice (for example, Recommendation ') (S310).
  • a predetermined caller speech for example, 'silos'
  • a service request voice for example, Recommendation '
  • the speaker identification unit 150 of the voice recognition apparatus 100 can identify the user ID of the corresponding user through execution of the hybrid speaker identification method through steps S260 through S280 (S320).
  • the third party even if the third party knows the caller information or has spoken the caller by accident, the third party who has not proceeded with the registration process and the directory creation process according to the user in FIG. 3 described above, (I.e., authentication is disabled), thereby limiting the use of the artificial intelligent assistant service according to the present invention.
  • the voice recognition device After completing the speaker identification process, the voice recognition device provides the related service through voice analysis and recognition of the service request voice in step S310.
  • the user then inputs a voice requesting a specific service desired by the user through the input unit 110 of the voice recognition device 100 without generating another call (S330).
  • the speaker authentication unit 150 of the voice recognition apparatus 100 cumulatively stores the parameter values for the voiceprint analysis in the service request voice signal in the storage unit 180 (S335) And the parameter value for the grammar analysis in the service request speech signal stored in the above-described step S335 are compared with each other to judge whether or not the parameters match, thereby executing the parameter authentication procedure, which is an additional authentication procedure for the user S340).
  • the voice recognition apparatus 100 transmits a call speech announcement voice message such as 'Please call the caller first to use the service' To the user (S345).
  • the voice recognition device 100 by executing the additional authentication procedure for determining whether or not the parameter value for the voice-sentence analysis in the service request voice signal of the user coincides with the parameter value for the voice- It is possible to prevent the voice recognition device 100 from erroneously recognizing the voice uttered by the user B in the same space without the intention of the service request as the voice of the service request of the user A .
  • the speaker authentication The unit 150 cumulatively stores the parameter values for the sentence analysis in the secondary service request speech signal in the storage unit and then transmits the stored parameter values to the storage unit 1 through step S335 described above with respect to the primary service request in the above-
  • a parameter value for voiceprint analysis in the voice service request signal or a parameter value for voiceprint analysis generated and stored in step S250 is determined and the parameter authentication procedure for the user is executed.
  • the parameter value for the grammar analysis (or the parameter value for the grammar analysis generated and stored in the step S250) (Context independent speaker authentication) through comparison with the previous service request, and if there is a tertiary service request, the parameter value for the grammar analysis, which was stored at the time of the previous service request (primary or secondary service request)
  • the user authentication (context independent speaker authentication) through comparison with the parameter values for the generated and stored sentence analysis in step S250, the user who uttered the call word once in step S310 repeatedly It is possible to utilize continuous artificial intelligence service through speech recognition equipment through context independent speaker authentication procedure do.
  • the speaker authentication unit 150 of the voice recognition apparatus 100 may include a plurality of users inputting the voice of the caller in step S315, The service requests of a plurality of users can be recognized separately for each user even when the service requests are sporadically requested.
  • the voice recognition device associates the first service request of the user A with the second service request of the user A It is possible to process the service request in a linked manner.
  • step S340 If it is determined in step S340 that the parameter values for the sentence analysis match, the speaker authentication unit 150 of the speech recognition apparatus 100 recognizes and analyzes the service request speech of the user, Transmits the service use authorization authentication request message including the user ID information and the requested service content to the service providing server 200 at step S350.
  • the speaker authentication unit 150 performs the service request speech analysis and the speech recognition
  • the speech analysis and recognition technology in various speech recognition services according to the related art may be used.
  • the service providing server 200 executes the authentication procedure for the usage right of the requested service based on the user's ID information and the requested service content information included in the service usage right request message received from the voice recognition device 100 (S355).
  • the service providing server 200 may store user-specific information provided by the user in the step of joining the artificial intelligence assistant service according to the present invention as shown in Table 1 below.
  • the same information as shown in Table 1 may be stored in the storage unit 180 of the voice recognition apparatus 100 as well.
  • the service providing server 200 transmits' The access right rejection message is transmitted to the voice recognition apparatus 100 in step S360 without authenticating the usage right of the service based on the user information in Table 1.
  • the output unit 130 outputs a service unavailable guidance voice such as 'the requested service is unavailable' to the corresponding user.
  • the service providing server 200 authenticates the service using right in step S355
  • the service providing server 200 transmits a service use permission completion message to the voice recognition apparatus 100 (S370)
  • the voice recognition apparatus 100 performs service provision according to the service request in step S330 (S375).
  • the voice recognition apparatus 100 may provide a personalized service based on the user ID of the speaker identified in step S325 and related information in Table 1 will be.
  • step S320 the speaker authentication unit 150 of the voice recognition apparatus 100 searches the service request voice in step S330 for '
  • the determination unit 170 of the voice recognition apparatus 100 determines the personalized content for 'PARK78' as 'PARK78' based on the user information in Table 1 and the voice analysis result for the service request voice, American drama '.
  • step S375 the determination unit 170 of the voice recognition apparatus 100 provides preferential content information of 'PARK78' to the service providing server 200 and voice recognition
  • the US drama ' which is a content having a relatively high preference, can be determined as' US drama' as customized content for 'PARK78'.
  • the determination unit 170 of the voice recognition apparatus 100 generates a customized service proposal message such as 'Would you like to watch American dramas recommended by the silos?', 130 outputs a voice message to the user.
  • the present invention is recognized as being industrially applicable in the field of speech recognition service industry.

Abstract

Disclosed are a method for providing an artificial intelligence secretarial service, and a voice recognition device used therefor. The present invention is implemented through a process performed by a voice recognition device, the process comprising: receiving an input of a call word voice from a user; determining whether a call word input by the user matches a preconfigured call word; and when it is determined that the call word matches the preconfigured call word and when a service request voice has been input by a user, authenticating a speaker, by comparing the service request voice with a preconfigured parameter for analysis of a voice print of a user. According to the present invention, a user can continuously use an artificial intelligent secretarial service without needing to repeatedly input a predetermined call word. In addition, according to the present invention, speaker authentication, which is separately performed in response to a service request from a user, can prevent an erroneous operation caused by an unauthorized third party's voice.

Description

인공 지능 비서 서비스 제공 방법, 및 이에 사용되는 음성 인식 장비A method for providing an artificial intelligence secretary service, and a speech recognition apparatus used therein
본 발명은 인공 지능 비서 서비스 제공 방법, 및 이에 사용되는 음성 인식 장비에 관한 것으로, 더욱 상세하게는 사용자가 소정의 호출어를 반복적으로 입력할 필요없이 연속적으로 인공 지능 비서 서비스를 이용할 수 있게 되고, 사용자의 서비스 요청에 대한 화자 인증 절차를 별도로 실행함으로써 권한없는 제3자의 음성에 의한 오작동을 방지할 수 있게 될 뿐만 아니라, 정당한 권한있는 복수의 사용자들로부터 서비스 요청 음성이 누적적으로 입력되는 경우에 서비스 요청을 사용자별로 구분하여 연계 처리할 수 있도록 하는 인공 지능 비서 서비스 제공 방법, 및 이에 사용되는 음성 인식 장비에 관한 것이다. The present invention relates to a method for providing an artificial intelligent secretary service and a speech recognition apparatus used therein. More specifically, the present invention enables a user to continuously use an artificial intelligent secretarial service without repeatedly inputting a predetermined call word, It is possible not only to prevent a malfunction caused by an unauthorized third party's voice by separately executing a speaker authentication procedure for a service request of a user but also to prevent a malicious operation of a service request when a service request voice is cumulatively inputted from a plurality of authorized users A secretary service providing method, and a voice recognition device used therefor.
최근 국내외에서는 음성 인식 기술을 이용한 인공 지능 비서 서비스가 다양하게 출시되고 있으며, 인공 지능 스피커의 세계 시장 규모는 2020년 약 2조 5천억원에 달할 것으로 전망되는 등 향후 관련 시장 규모는 급격하게 증가될 것으로 예상된다.Recently, the artificial intelligence secretary service using voice recognition technology has been widely launched at home and abroad, and the world market of artificial intelligent speaker is expected to reach about 2.5 trillion won in 2020, and the related market size will increase sharply It is expected.
한편, 종래 기술에 따른 인공 지능 스피커는 동작 대기 상태에서의 활성화 모드(wake-up mode)로의 전환을 위해 사용자에게 소정의 호출어의 발성을 요구하고 있으며, 인공 지능 스피커가 호출어의 음성 인식을 통해 활성화된 상태에서 이후 사용자의 서비스 제공 요청이 있는 경우에 해당 요청 음성에 대한 음성 인식 및 그에 따른 서비스의 제공이 실행된다.Meanwhile, the artificial intelligent speaker according to the related art requires a user to utter a predetermined call word for switching to an active mode (wake-up mode) in an operation standby state, and an artificial intelligent speaker When there is a service provision request of the user in the activated state, speech recognition of the voice of the request and provision of the service is performed.
이와 같이 종래 기술에 따른 인공 지능 스피커의 활성화에 요구되고 있는 호출어의 발성은 최초 1회만 요구되는 것은 아니며, 동일한 사용자라고 하더라도 시간 간격을 두고 추가의 인공 지능 서비스를 요청하는 경우에는 매 요청에 앞서 호출어를 발성함으로써 인공 지능 스피커를 활성화 상태로 전환해야 하는 번거로운 절차가 요구된다.In this way, the utterance of the caller required for activating the artificial intelligent speaker according to the prior art is not required only once, and even if the same user requests additional artificial intelligence service at a time interval, A cumbersome procedure is required to turn the artificial intelligent speaker into an active state by uttering a call word.
아울러, 종래 기술에 따른 인공 지능 스피커는 호출어가 인식된 경우에는 그 이후의 사용자의 서비스 요청 음성에 대해서는 해당 사용자에 대한 별도의 인증을 거치지 않고 서비스 요청에 따른 서비스를 제공한다.In addition, when the caller is recognized, the artificial intelligent speaker according to the related art provides a service according to the service request without performing any authentication for the user after the service request voice of the user.
이러한 이유에서 인공 지능 스피커가 설치된 공간에 다수의 사용자(A,B,C,D..)가 있는 경우에 사용자 A가 호출어를 입력한 다음, 동일 공간에 있는 사용자 B가 서비스 요청의 의사없이 발성한 소리에 대해서도 인공 지능 스피커는 사용자 A의 서비스 요청 음성으로 인식하여 오작동되는 오류가 발생하게 된다.For this reason, when there are a large number of users (A, B, C, D ..) in the space where the artificial intelligent speaker is installed, the user A inputs the caller and then the user B in the same space The artificial intelligent speaker recognizes the voice of the user A as a service request voice to cause a malfunction.
아울러, 종래 기술에 따른 인공 지능 스피커는 복수의 사용자(A,B,C,D..)의 음성을 구분하여 인식할 수 없기 때문에 사용자 A의 서비스 요청, 사용자 B의 서비스 요청, 다시 사용자 A의 서비스 요청이 순차적으로 이루어지는 경우 이들 요청을 사용자별로 구분하여 연계 처리하지 못하고, 각각의 요청을 병렬적으로 처리할 수 밖에 없다는 기술적 한계가 있었다.In addition, since the artificial intelligent speaker according to the related art can not discriminate and recognize the voices of a plurality of users A, B, C, and D, the service request of the user A, the service request of the user B, In the case where service requests are sequentially performed, there is a technical limitation in that these requests can not be divided and processed according to users, and each request can be processed in parallel.
따라서, 본 발명의 목적은, 사용자가 소정의 호출어를 반복적으로 입력할 필요없이 연속적으로 인공 지능 비서 서비스를 이용할 수 있게 되고, 사용자의 서비스 요청에 대한 화자 인증 절차를 별도로 실행함으로써 권한없는 제3자의 음성에 의한 오작동을 방지할 수 있게 될 뿐만 아니라, 정당한 권한있는 복수의 사용자들로부터 서비스 요청 음성이 누적적으로 입력되는 경우에 서비스 요청을 사용자별로 구분하여 연계 처리할 수 있도록 하는 인공 지능 비서 서비스 제공 방법, 및 이에 사용되는 음성 인식 장비를 제공함에 있다.Accordingly, it is an object of the present invention to provide a method and system for enabling a user to continuously use an artificial intelligent secretarial service without repeatedly inputting a predetermined call word, and separately executing a speaker authentication procedure for a service request of a user, It is possible to prevent a malfunction caused by a voice of a person who is not authorized by the user and also to classify and process the service request in a case where the service request voice is cumulatively input from a plurality of authorized users, And a speech recognition device used therein.
상기 목적을 달성하기 위한 본 발명에 따른 인공 지능 비서 서비스 제공 방법은, (a) 음성 인식 장비가, 사용자로부터 호출어 음성을 입력받는 단계; (b) 상기 음성 인식 장비가, 상기 사용자가 입력한 상기 호출어가 기 설정된 호출어와 일치하는지 여부를 판단하는 단계; 및 (c) 상기 음성 인식 장비가, 상기 호출어가 기 설정된 호출어와 일치하는 것으로 판단되고, 상기 사용자로부터 서비스 요청 음성을 입력받은 경우에 상기 서비스 요청 음성과 기 설정된 상기 사용자 음성의 성문(voice print) 분석용 파라미터를 비교함으로써 화자를 인증하는 단계를 포함한다.According to another aspect of the present invention, there is provided a method for providing an artificial intelligent assistant service, comprising the steps of: (a) receiving speech data from a user; (b) determining whether the voice recognition device matches the caller entered by the user with a preset caller; And (c) when the voice recognition device judges that the caller matches the preset caller, and when the service request voice is input from the user, And authenticating the speaker by comparing the parameters for analysis.
바람직하게는, 상기 (a) 단계 이전에, 상기 음성 인식 장비가, 상기 호출어 발성 안내 음성을 출력하는 단계를 더 포함한다.Preferably, before the step (a), the speech recognition apparatus further includes outputting the call alert voice guidance voice.
또한, 상기 설정된 호출어는 상기 사용자가 임의로 선택한 호출어인 것을 특징으로 한다.In addition, the set call word is a call word arbitrarily selected by the user.
또한, (d) 상기 음성 인식 장비가, 상기 (c) 단계에서 인증된 화자의 아이디에 기초하여 실행된 서비스 이용 권한에 대한 인증 결과를 안내하는 음성을 출력하는 단계를 더 포함한다.The method further includes the step of (d) outputting a voice guiding the authentication result of the service use authority executed based on the ID of the speaker authenticated in the step (c).
또한, (d) 상기 음성 인식 장비가, 상기 (c) 단계에서 인증된 화자의 아이디에 기초하여 상기 사용자에게 제공할 서비스 콘텐츠를 결정하는 단계를 더 포함한다.The method further includes (d) determining, by the voice recognition apparatus, a service content to be provided to the user based on the ID of the speaker authenticated in step (c).
한편, 본 발명에 따른 음성 인식 장비는, 사용자로부터 호출어 음성을 입력받는 입력부; 및 상기 사용자가 입력한 상기 호출어가 기 설정된 호출어와 일치하는지 여부를 판단하고, 상기 호출어가 기 설정된 호출어와 일치하는 것으로 판단되고, 상기 사용자로부터 서비스 요청 음성을 입력받은 경우에 상기 서비스 요청 음성과 기 설정된 상기 사용자 음성의 성문(voice print) 분석용 파라미터를 비교함으로써 화자를 인증하는 화자 인증부를 포함한다.According to another aspect of the present invention, there is provided a speech recognition apparatus comprising: an input unit for receiving a speech sound from a user; And determining whether or not the caller input by the user coincides with a predetermined caller, and when it is determined that the caller matches the preset caller, and if the service request voice is input from the user, And a speaker authentication unit for authenticating the speaker by comparing the voice print analysis parameter of the set user voice.
바람직하게는, 상기 호출어 발성 안내 음성을 출력하는 출력부를 더 포함한다.Preferably, the mobile communication terminal further includes an output unit for outputting the calling speech voice guidance voice.
또한, 상기 설정된 호출어는 상기 사용자가 임의로 선택한 호출어인 것을 특징으로 한다.In addition, the set call word is a call word arbitrarily selected by the user.
또한, 상기 인증된 화자의 아이디에 기초하여 실행된 서비스 이용 권한에 대한 인증 결과를 안내하는 음성을 출력하는 출력부를 더 포함한다.The apparatus further includes an output unit outputting a voice for guiding an authentication result of the service utilization right executed based on the ID of the authenticated speaker.
또한, 상기 인증된 화자의 아이디에 기초하여 상기 사용자에게 제공할 서비스 콘텐츠를 결정하는 판단부를 더 포함한다.And a determination unit for determining a service content to be provided to the user based on the ID of the authenticated speaker.
본 발명에 따르면, 사용자는 소정의 호출어를 반복적으로 입력할 필요없이 연속적으로 인공 지능 비서 서비스를 이용할 수 있게 된다.According to the present invention, the user can continuously use the AI secretarial service without having to repeatedly input a predetermined call word.
아울러, 본 발명에 따르면, 사용자의 서비스 요청에 대해 화자 인증을 별도로 실행함으로써 권한없는 제3자의 음성에 의한 오작동을 방지할 수 있게 된다.In addition, according to the present invention, it is possible to prevent a malfunction caused by an unauthorized third party's voice by executing a speaker authentication separately for a service request of a user.
아울러, 본 발명에 따르면, 정당한 권한있는 복수의 사용자들로부터 서비스 요청 음성이 누적적으로 입력되는 경우에 서비스 요청을 사용자별로 구분하여 연계 처리할 수 있게 된다.In addition, according to the present invention, when a service request voice is cumulatively input from a plurality of authorized users, the service request can be divided and processed for each user.
도 1은 본 발명의 제1 실시예에 따른 인공 지능 비서 서비스 제공 시스템의 구성도,1 is a configuration diagram of an artificial intelligent assistant service providing system according to a first embodiment of the present invention;
도 2는 본 발명의 제1 실시예에 따른 음성 인식 장비의 구조를 나타내는 기능 블록도, 2 is a functional block diagram illustrating a structure of a speech recognition apparatus according to a first embodiment of the present invention.
도 3은 본 발명의 제1 실시예에 따른 음성 인식 장비에서의 화자 인증 방법을 설명하는 절차 흐름도, 및3 is a flowchart illustrating a speaker authentication method in the speech recognition apparatus according to the first embodiment of the present invention, and FIG.
도 4는 본 발명의 제2 실시예에 따른 인공 지능 비서 서비스 제공 방법의 실행 과정을 설명하는 신호 흐름도이다.4 is a signal flow diagram illustrating an execution procedure of the artificial intelligent assistant service providing method according to the second embodiment of the present invention.
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다. 도면들 중 동일한 구성요소들은 가능한 한 어느 곳에서든지 동일한 부호들로 나타내고 있음에 유의해야 한다. 또한 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다.Hereinafter, the present invention will be described in detail with reference to the drawings. It is to be noted that the same elements among the drawings are denoted by the same reference numerals whenever possible. In the following description, well-known functions or constructions are not described in detail since they would obscure the invention in unnecessary detail.
도 1은 본 발명의 일 실시예에 따른 인공 지능 비서 서비스 제공 시스템의 구성도이다. 도 1을 참조하면, 본 발명의 일 실시예에 따른 인공 지능 비서 서비스 제공 시스템은 음성 인식 장비(100) 및 서비스 제공 서버(200)를 포함한다.1 is a configuration diagram of an artificial intelligent assistant service providing system according to an embodiment of the present invention. Referring to FIG. 1, an artificial intelligent assistant service providing system according to an embodiment of the present invention includes a voice recognition device 100 and a service providing server 200.
음성 인식 장비(100)는 음성 인식 기능이 구비된 인공 지능 스피커로서, 거실 등과 같이 사용자가 거주하는 공간 내에 설치되며, 본 발명을 실시함에 있어서 음성 인식 장비(100)는 사용자가 소지하고 있는 스마트 폰이 될 수도 있을 것이다.The voice recognition apparatus 100 is an artificial intelligent speaker equipped with a voice recognition function, and is installed in a space such as a living room in which a user resides. In implementing the present invention, the voice recognition apparatus 100 includes a smart phone .
음성 인식 장비(100)는 인공 지능 비서 서비스에서의 사용자 등록 절차를 위해 사용자에게 소정의 호출어(예를 들면, '사일로') 발성을 안내하고, 이후 사용자의 발성에 따라 사용자별 음성 등록을 실행하며, 사용자별 음성 등록이 완료된 후에 사용자가 해당 호출어를 발성하는 경우에 음성 인식 기능을 통해 해당 호출어의 음성 정보를 기초로 사용자를 인증한다.The voice recognition apparatus 100 guides the user to utter a predetermined call word (for example, 'silo') for a user registration procedure in the artificial intelligence secretary service, and then performs voice registration for each user according to the utterance of the user And authenticates the user on the basis of the voice information of the callee through the voice recognition function when the user utters the callee after completing voice registration for each user.
보다 구제적으로, 음성 인식 장비(100)는 화자 식별 방법으로서 호출어 키워드를 통한 문맥 종속 화자 식별(text dependant speaker recognition)과 비정형 자연어 명령어에 기초한 문맥 독립 화자 식별(text independant speaker recognition)을 복합적으로 실행한다.More sophisticatedly, the speech recognition apparatus 100 can be implemented as a speaker identification method that combines text dependent speaker recognition via an alias keyword and text independent speaker recognition based on an atypical natural language instruction .
아울러, 음성 인식 장비(100)는 사용자의 호출어 음성 신호 및 비정형 자연어 명령어 음성(서비스 요청 음성) 신호에서의 주파수 대역폭, 진폭 스펙트럼 등의 성문(voice print) 분석용 파라미터 값들을 생성 및 저장하고, 이후 사용자의 서비스 요청 음성의 입력이 있는 경우에 해당 서비스 요청 음성에서의 음성 파라미터 값들과 기 저장되어 있는 파라미터 값들을 비교함으로써 화자에 대한 문맥 독립 화자 인증방법(text-independant speaker recognition method)을 통한 인증 절차를 수행한다.In addition, the speech recognition apparatus 100 generates and stores parameter values for voice print analysis such as a frequency bandwidth and an amplitude spectrum in a user's speech voice signal and an unstructured natural language command speech (service request speech) signal, If there is an input of the service request voice of the user, the voice parameter values in the voice of the service request are compared with the previously stored parameter values, so that authentication through the text-independent speaker recognition method for the speaker Perform the procedure.
한편, 음성 인식 장비(100)가 성문 분석용 파라미터를 통한 화자 인증 절차를 수행함에 있어서는, 대한민국 공개 특허 제10-2012-72906호 등에서와 같은 종래의 다양한 방법이 사용될 수 있을 것이다.On the other hand, when the speech recognition apparatus 100 performs the speaker authentication procedure using the parameter for the grammar analysis, various conventional methods such as Korean Patent Laid-Open No. 10-2012-72906 may be used.
한편, 서비스 제공 서버(200)는 인공 지능 스피커 등의 음성 인식 장비(100)를 제조 및 판매하는 사업자가 설치 및 운영하는 서버로서, 서비스 제공 서버(200)에는 인공 지능 비서 서비스에 가입한 사용자가 서비스 가입시에 제공한 사용자별 아이디, 나이, 성별, 선호 콘텐츠 정보 등의 사용자 개인 정보 및 사용자별 서비스 이용 권한 범위에 대한 정보가 저장되어 있다.On the other hand, the service providing server 200 is a server installed and operated by a company that manufactures and sells the voice recognition apparatus 100 such as an artificial intelligent speaker. In the service providing server 200, a user who subscribes to the artificial intelligence secretary service Information on user personal information such as ID, age, sex, and preferred content information provided by the user at the time of subscription to the service, and information on the scope of use of the service for each user.
도 2는 본 발명의 일 실시예에 따른 음성 인식 장비(100)의 구조를 나타내는 기능 블록도이다. 도 2를 참조하면, 본 발명의 일 실시예에 따른 음성 인식 장비(100)는 입력부(110), 출력부(130), 화자 인증부(150), 판단부(170), 저장부(180), 및 통신부(190)를 포함한다.2 is a functional block diagram illustrating the structure of a speech recognition apparatus 100 according to an embodiment of the present invention. 2, the speech recognition apparatus 100 according to an embodiment of the present invention includes an input unit 110, an output unit 130, a speaker authentication unit 150, a determination unit 170, a storage unit 180, And a communication unit 190. [
먼저, 음성 인식 장비(100)의 입력부(110)는 마이크 모듈 등으로 구현되며, 사용자가 호출어를 발성하는 경우에 사용자의 호출어 음성이 입력부(110)를 통해 입력된다.First, the input unit 110 of the voice recognition apparatus 100 is implemented by a microphone module or the like. When a user speaks a call word, the voice of the user is input through the input unit 110.
또한, 음성 인식 장비(100)의 출력부(130)는 스피커 모듈 등으로 구현되며, 인공 지능 서비스에의 사용자 등록을 위한 절차로서 사용자에게 소정의 호출어(예를 들면, '사일로')의 발성을 안내하는 음성(예를 들면, '삐'소리가 나면 '사일로'라고 말해 주세요.)을 출력하며, 등록된 사용자의 이후 서비스 요청에 따른 결과(서비스 이용 불가 안내, 날씨 등의 요청 정보 안내 등)를 사용자에게 출력하는 기능을 수행한다.The output unit 130 of the voice recognition apparatus 100 may be implemented as a speaker module or the like and may be a voice recognition system such as a voice recognition system (For example, say 'silo' if a beep sounds), and outputs a result of a subsequent service request of the registered user (such as a service unavailable guide, request information information such as weather, etc.) ) To the user.
한편, 음성 인식 장비(100)의 저장부(180)에는 음성 인식 장비(100)의 제조자 또는 구매자(사용자)에 의해 설정된 호출어 정보가 저장되어 있으며, 또한 사용자 등록 절차에서 사용자가 발성한 호출어 음성이 사용자별로 사용자의 아이디와 함께 연관 저장되어 있으며, 이후 사용자가 음성 인식 장비(100)의 활성화를 위해 입력한 호출어 음성 신호에서의 성문 분석용 파라미터 값들과, 사용자의 서비스 요청 음성 신호에서의 성문 분석용 파라미터 값들이 사용자의 아이디와 함께 누적적으로 연관 저장되어 있다.Meanwhile, in the storage unit 180 of the voice recognition apparatus 100, the caller information set by the manufacturer or the purchaser (user) of the voice recognition apparatus 100 is stored. Also, in the user registration procedure, The voice is correlated with the user's ID for each user, and thereafter, parameter values for the voiceprint analysis in the caller voice signal inputted by the user for activation of the voice recognition apparatus 100, The parameter values for the grammar analysis are cumulatively associated with the user ID.
음성 인식 장비(100)의 화자 인증부(150)는 화자 식별 방법으로서 호출어 키워드를 통한 문맥 종속 화자 식별과 비정형 자연어 명령어에 기초한 문맥 독립 화자 식별을 복합적으로 실행한다.The speaker authentication unit 150 of the voice recognition apparatus 100 performs a context-dependent speaker identification based on the caller keyword and a context-independent speaker identification based on the unstructured natural language command as a speaker identification method.
또한, 화자 인증부(150)는 사용자로부터 서비스 요청 음성이 입력되는 경우에 해당 서비스 요청 음성 신호에서의 성문 분석용 파라미터 값을 저장부(180)에 저장되어 있는, 해당 사용자의 성문 분석용 파라미터 값과 비교함으로써 해당 서비스를 요청한 화자에 대한 인증 절차를 수행한다.In addition, when the service request voice is inputted from the user, the speaker authenticating unit 150 stores the parameter value for the sentence analysis in the service request voice signal as the parameter value of the user's voiceprint analysis stored in the storage unit 180 And performs an authentication procedure for the speaker requesting the service.
즉, 화자 인증부(150)는 문맥 독립 화자 인증방법(text-independant speaker recognition method)을 이용하여, 사용자의 서비스 요청 음성에 대한 인증 절차를 별도로 실행한다.That is, the speaker authentication unit 150 separately performs the authentication procedure for the service request voice of the user using the text-independent speaker recognition method.
한편, 음성 인식 장비(100)의 판단부(170)는 화자 인증부(150)가 식별한 화자의 아이디 정보에 기초해서 해당 사용자에게 제공할 맞춤형 서비스 콘텐츠를 결정하는 기능을 수행하며, 음성 인식 장비(100)의 통신부(190)는 서비스 제공 서버(200) 또는 사용자가 요청한 서비스 콘텐츠를 제공하는 외부 서버와 유/무선의 데이터 통신을 수행한다.On the other hand, the determination unit 170 of the voice recognition apparatus 100 performs a function of determining a customized service content to be provided to the user based on the ID information of the speaker identified by the speaker authentication unit 150, The communication unit 190 of the server 100 performs data communication with the service providing server 200 or an external server providing the service contents requested by the user.
도 3은 본 발명의 제1 실시예에 따른 음성 인식 장비에서의 화자 인증 방법을 설명하는 절차 흐름도이다. 이하에서는 도 3을 참조하여, 본 발명의 제1 실시예에 따른 음성 인식 장비에서의 화자 인증 방법을 설명하기로 한다.3 is a flowchart illustrating a speaker authentication method in the speech recognition apparatus according to the first embodiment of the present invention. Hereinafter, a speaker authentication method in a speech recognition apparatus according to a first embodiment of the present invention will be described with reference to FIG.
음성 인식 장비(100)는 본 발명에 따른 인공 지능 비서 서비스를 이용하기 위해서 자신의 음성을 등록하려는 사용자에게 소정의 호출어(예를 들면, '사일로')의 발성을 안내하는 음성(예를 들면, '삐'소리가 나면 '사일로'라고 말해 주세요.)을 출력부(130)를 통해 사용자에게 출력하며, 이와 같은 음성 인식 장비(100)의 음성 안내에 따라 사용자는 해당 호출어를 발성하며, 그에 따라 음성 인식 장비(100)의 입력부(110)를 통해 사용자의 호출어 음성이 입력된다.The speech recognition apparatus 100 may include a voice for guiding the user to register his / her voice in order to utilize the artificial intelligent assistant service according to the present invention, such as a voice call (for example, 'silo' The voice recognition device 100 outputs voice to the user through the output unit 130. The user speaks the voice call according to voice guidance of the voice recognition device 100, Accordingly, the voice of the user is input through the input unit 110 of the voice recognition apparatus 100.
이후 사용자는 자신의 사용자 아이디를 입력부(110)에 별도 구비된 입력 패널을 통해 입력하며, 그 결과 음성 인식 장비(100)의 저장부(180)에는 해당 사용자에 대한 디렉토리가 생성되며, 생성된 디렉토리에는 사용자의 아이디와 해당 사용자가 입력한 호출어 음성 정보가 연관 저장된다(S210).Then, the user inputs his or her user ID through the input panel separately provided to the input unit 110. As a result, a directory for the user is created in the storage unit 180 of the voice recognition apparatus 100, The ID of the user and the voice information of the caller inputted by the user are stored in association with each other (S210).
한편, 전술한 S210 단계에서 사용자가 입력하는 아이디는 해당 사용자가 본 발명에 따른 인공 지능 비서 서비스에 가입시에 제공한 아이디로서, 서비스 제공 서버(200)에 저장되어 있는 아이디와 동일한 아이디가 되도록 함이 바람직할 것이다.Meanwhile, in step S210, the ID input by the user is the ID provided by the user at the time of subscription to the artificial intelligence secret service according to the present invention, so that the ID is the same as the ID stored in the service providing server 200 Lt; / RTI >
아울러, 상기와 같은 사용자 등록 절차는 음성 인식 장비(100)를 함께 사용할 복수의 사용자(예를 들면, 가족 구성원) 각각에 대해서 동일한 호출어를 통하여 반복 실행되게 된다.In addition, the above-described user registration procedure is repeatedly performed for each of a plurality of users (for example, family members) to be used together with the voice recognition apparatus 100 through the same call word.
전술한 S210 단계에서의 사용자 등록이 완료된 다음, 사용자는 본 발명에 따른 인공 지능 비서 서비스를 이용하기 위해서 호출어를 먼저 발성하며, 이와 같이 사용자에 의해 발성된 호출어 음성 정보에 기초하여, 화자 인증부(150)는 해당 사용자에 대한 화자 식별을 실행하게 되며(S220), 인공 지능 비서 서비스를 이용하기 위해 발성된 호출어에 뒤따라 발성되는 비정형 자연어 명령어의 음성 정보는 상기 사용자에 대해 전술한 S210 단계에서 생성된 디렉토리에 추가로 저장된다(S230).After the user registration in step S210 is completed, the user first utters the call word to use the artificial intelligent assistant service according to the present invention, and based on the call word voice information uttered by the user, The controller 150 performs speaker identification for the user (S220). The voice information of the atypical natural language command, which is uttered following the uttered voice to use the artificial intelligent assistant service, (S230). ≪ / RTI >
즉, 이후에도 해당 사용자가 본 발명에 따른 인공 지능 비서 서비스를 이용하기 위해서 호출어와 비정형 자연어 명령어를 순차적으로 발성하게 되는 경우에, 전술한 S230 단계에서의 절차를 통해 해당 사용자가 발성한 비정형 자연어 명령어의 음성 정보가 해당 사용자의 디렉토리에 누적하여 저장된다(S240).That is, if the user subsequently utters the idle language and unstructured natural language commands in order to utilize the artificial intelligence secretarial service according to the present invention, it is possible to use the atypical natural language command spoken by the user through the procedure of the above- The voice information is accumulated in the directory of the corresponding user (S240).
이와 같이 해당 사용자의 디렉토리에 비정형 자연어 명령어의 음성 정보가 일정 정도 이상(예를 들면, 30초 이상의 net voice)가 누적되게 되면, 화자 인증부는 문맥 독립 화자 식별을 위한 자동 학습을 통해 사용자별 모델(주파수 대역폭, 진폭 스펙트럼 등의 성문(voice print) 분석용 파라미터 값)을 생성하게 되며, 이와 같이 생성된 사용자별 파라미터 값은 해당 사용자의 디렉토리에 함께 저장된다(S250).When the voice information of the atypical natural language instruction is accumulated in the directory of the corresponding user in a certain degree or more (for example, a net voice of 30 seconds or more), the speaker authentication unit recognizes the user- Frequency bandwidth, amplitude spectrum, and the like), and the user-specific parameter values thus generated are stored together with the corresponding user's directory (S250).
이에 따라, 화자 인증부(150)는 호출어 키워드에 기초한 문맥 종속 화자 식별과, 사용자별로 생성된 파라미터 값에 기초한 문맥 독립 화자 식별을 독립적으로 수행할 수 있게 된다.Accordingly, the speaker authentication unit 150 can independently perform the context-dependent speaker identification based on the caller keyword and the context-independent speaker identification based on the parameter values generated for each user.
한편, 이후 본 발명에 따른 인공 지능 비서 서비스를 이용하기 위해서 특정 사용자가 호출어와 비정형 자연어 명령어를 순차적으로 발성하는 경우에 화자 인증부(150)는 호출어 키워드를 통한 1차 화자 식별(문맥 종속 화자 식별)을 실행한 다음(S260), 비정형 자연어 명령어를 통한 2차 화자 식별(문맥 독립 화자 식별)을 연속적으로 실행하게 된다(S270).When a specific user utteres a caller and an unstructured natural language command sequentially in order to use the artificial intelligent assistant service according to the present invention, the speaker authentication unit 150 determines whether the first speaker identification through the caller keyword (S260), and then the second speaker identification (context independent speaker identification) through the atypical natural language instruction is continuously executed (S270).
화자 인증부(150)는 문맥 종속 화자 식별 방법을 통한 1차 화자 식별 결과값에 소정의 가중치를 적용한 값과, 문맥 독립 화자 식별을 통한 2차 화자 식별 결과값에 소정의 가중치를 적용한 값의 합산값에 기초하여 최종적으로 화자를 식별하게 된다(S280).The speaker authentication unit 150 receives a sum of a value obtained by applying a predetermined weight to the first speaker identification result value through the context dependent speaker identification method and a value obtained by applying a predetermined weight to the second speaker identification result value through the context independent speaker identification And finally identifies the speaker based on the value (S280).
본 명세서에서는 상술한 바와 같은 화자 인증부(150)의 최종 화자 식별 방법을 문맥 종속 화자 식별 방법과 문맥 독립 화자 식별 방법이 융합된 하이브리드 화자 식별 방법이라 명하기로 한다.In the present specification, the final speaker identification method of the speaker authentication unit 150 will be referred to as a hybrid speaker identification method in which the context-dependent speaker identification method and the context-independent speaker identification method are fused.
한편, 본 발명을 실시함에 있어서, 전술한 S270 단계에서의 비정형 자연어 명령어의 음성 정보가 사용자의 디렉토리에 누적적으로 저장됨으로써, 전술한 S250 단계에서 생성된 사용자별 음성 인식 파라미터가 추가적으로 생성됨으로써, 화자 인증부(150)에서의 문맥 독립 화자 식별의 정밀도가 지속적으로 향상되도록 함이 바람직할 것이다.In the meantime, in implementing the present invention, the speech information of the atypical natural language instruction word in step S270 is cumulatively stored in the user's directory, so that the user-specific speech recognition parameters generated in step S250 are additionally generated, It is desirable that the accuracy of the context independent speaker identification in the authentication unit 150 is continuously improved.
도 4는 본 발명의 제2 실시예에 따른 인공 지능 비서 서비스 제공 방법의 실행 과정을 설명하는 신호 흐름도이다. 이하에서는 도 1, 도 2, 및 도 4를 참조하여, 본 발명의 일 실시예에 따른 인공 지능 비서 서비스 제공 방법의 실행 과정을 설명하기로 한다.4 is a signal flow diagram illustrating an execution procedure of the artificial intelligent assistant service providing method according to the second embodiment of the present invention. Hereinafter, with reference to FIG. 1, FIG. 2, and FIG. 4, description will be made of an execution procedure of the artificial intelligent assistant service providing method according to an embodiment of the present invention.
한편, 도 4에서의 본 발명의 제2 실시예에 따른 인공 지능 비서 서비스 제공 방법은 상술한 도 3에서의 본 발명의 제1 실시예에 따른 화자 인증 방법에서의 사용자 등록 절차가 완료된 상태로서, 화자 인증부(150)에서의 누적 학습을 통한 하이브리드 화자 식별 방법의 실행이 가능한 상태인 것을 전제로 실행된다.4 is a state in which the user registration procedure in the speaker authentication method according to the first embodiment of the present invention shown in FIG. 3 is completed, It is assumed that the hybrid speaker identification method can be executed through cumulative learning in the speaker authentication unit 150. [
먼저, 본 발명에 따른 인공 지능 비서 서비스를 이용하려는 사용자는 소정의 호출어 음성(예를 들면, '사일로')을 발성한 후, 연속적으로 비정형 자연어 명령어인 서비스 요청 음성(예를 들면, '영화 추천해줘')을 발성한다(S310).First, a user who wishes to use the artificial intelligent assistant service according to the present invention speaks a predetermined caller speech (for example, 'silos') and then successively transmits a service request voice (for example, Recommendation ') (S310).
이에 따라, 음성 인식 장비(100)의 화자 식별부(150)는 전술한 S260 단계 내지 S280 단계를 통한 하이브리드 화자 식별 방법의 실행을 통해 해당 사용자의 사용자 아이디를 식별할 수 있게 된다(S320).Accordingly, the speaker identification unit 150 of the voice recognition apparatus 100 can identify the user ID of the corresponding user through execution of the hybrid speaker identification method through steps S260 through S280 (S320).
한편, 본 발명에서는 호출어 정보를 알고 있고 있거나, 호출어를 우연히 발성한 제3자라 하더라도 전술한 도 3에서의 사용자별 등록 및 디렉토리 생성 절차를 진행하지 않은 제3자는 전술한 S320 단계에서 사용자 아이디를 식별할 수 없는 상태(즉, 인증 불가)가 됨으로써 본 발명에 따른 인공 지능 비서 서비스의 이용이 제한되게 된다.Meanwhile, in the present invention, even if the third party knows the caller information or has spoken the caller by accident, the third party who has not proceeded with the registration process and the directory creation process according to the user in FIG. 3 described above, (I.e., authentication is disabled), thereby limiting the use of the artificial intelligent assistant service according to the present invention.
상기와 같은 화자 식별 절차를 완료한 후, 음성 인식 장비는 전술한 S310 단계에서의 서비스 요청 음성에 대한 음성 분석 및 인식을 통해 관련 서비스를 제공하게 된다.After completing the speaker identification process, the voice recognition device provides the related service through voice analysis and recognition of the service request voice in step S310.
한편, 이후 사용자는 자신이 원하는 구체적인 서비스를 요청하는 음성을 별도의 호출어 발성없이 음성 인식 장비(100)의 입력부(110)를 통해 입력한다(S330).The user then inputs a voice requesting a specific service desired by the user through the input unit 110 of the voice recognition device 100 without generating another call (S330).
이에 따라, 음성 인식 장비(100)의 화자 인증부(150)는 해당 서비스 요청 음성 신호에서의 성문 분석용 파라미터 값들을 저장부(180)에 누적적으로 저장한 다음(S335), 전술한 S250 단계에서 생성 및 저장된 성문 분석용 파라미터 값과 전술한 S335 단계에서 저장된 서비스 요청 음성 신호에서의 성문 분석용 파라미터 값을 비교하여 일치 여부를 판단함으로써 해당 사용자에 대한 추가 인증 절차인 파라미터 인증 절차를 실행한다(S340).Accordingly, the speaker authentication unit 150 of the voice recognition apparatus 100 cumulatively stores the parameter values for the voiceprint analysis in the service request voice signal in the storage unit 180 (S335) And the parameter value for the grammar analysis in the service request speech signal stored in the above-described step S335 are compared with each other to judge whether or not the parameters match, thereby executing the parameter authentication procedure, which is an additional authentication procedure for the user S340).
그 결과, 파라미터 값이 상호 일치하지 않는 것으로 판단된 경우에는 음성 인식 장비(100)는 '서비스 이용을 위해 먼저 호출어를 발성해 주세요'와 같은 호출어 발성 안내 음성 메시지를 출력부(130)를 통해 사용자에게 출력한다(S345).As a result, when it is determined that the parameter values do not coincide with each other, the voice recognition apparatus 100 transmits a call speech announcement voice message such as 'Please call the caller first to use the service' To the user (S345).
이와 같이 본 발명에 의하면, 사용자의 서비스 요청 음성 신호에서의 성문 분석용 파라미터 값이 이전의 호출어 음성 신호에서의 성문 분석용 파라미터 값과 일치하는지 여부를 판단하는 추가 인증 절차를 실행함으로써, 사용자 A가 호출어를 입력한 다음, 동일 공간에 있는 사용자 B가 서비스 요청의 의사 없이 발성한 소리에 대해서 음성 인식 장비(100)가 사용자 A의 서비스 요청 음성으로 잘못 인식하여 오작동하는 것을 방지할 수 있게 된다.As described above, according to the present invention, by executing the additional authentication procedure for determining whether or not the parameter value for the voice-sentence analysis in the service request voice signal of the user coincides with the parameter value for the voice- It is possible to prevent the voice recognition device 100 from erroneously recognizing the voice uttered by the user B in the same space without the intention of the service request as the voice of the service request of the user A .
또한, 본 발명을 실시함에 있어서는, 전술한 S330 단계에서 서비스 요청(1차 서비스 요청)한 사용자가 이후 다시 서비스를 요청(2차 서비스 요청)하는 경우에 있어서도, 음성 인식 장비(100)의 화자 인증부(150)는 2차 서비스 요청 음성 신호에서의 성문 분석용 파라미터 값들을 저장부에 누적적으로 저장한 다음, 이를 전술한 S330 단계에서의 1차 서비스 요청에 대해 전술한 S335 단계를 통해 저장된 1차 서비스 요청 음성 신호에서의 성문 분석용 파라미터 값 또는 전술한 S250 단계에서 생성 및 저장된 성문 분석용 파라미터 값과 비교하여 그 일치 여부를 판단함으로써 해당 사용자에 대한 파라미터 인증 절차를 실행한다.In addition, when the present invention is implemented, even when the user who has made the service request (primary service request) in the above-described step S330 requests the service again (secondary service request), the speaker authentication The unit 150 cumulatively stores the parameter values for the sentence analysis in the secondary service request speech signal in the storage unit and then transmits the stored parameter values to the storage unit 1 through step S335 described above with respect to the primary service request in the above- A parameter value for voiceprint analysis in the voice service request signal or a parameter value for voiceprint analysis generated and stored in step S250 is determined and the parameter authentication procedure for the user is executed.
이와 같이 본 발명에 의하면, 동일 사용자로부터의 2차 서비스 요청에 있는 경우에는 1차 서비스 요청시에 저장되었던 성문 분석용 파라미터 값(또는 전술한 S250 단계에서 생성 및 저장되어 있는 성문 분석용 파라미터 값)과의 비교를 통해 사용자 인증(문맥 독립 화자 인증)을 실행하고, 또한 3차 서비스 요청이 있는 경우에는 그 이전의 서비스 요청(1차 또는 2차 서비스 요청)시에 저장되었던 성문 분석용 파라미터 값 또는 전술한 S250 단계에서 생성 및 저장된 성문 분석용 파라미터 값과의 비교를 통해 사용자 인증(문맥 독립 화자 인증)을 실행함으로써, 전술한 S310 단계에서 호출어를 1회 발성한 사용자는 이후 호출어를 반복적으로 발성할 필요없이, 문맥 독립 화자 인증 절차를 통해 음성 인식 장비를 통한 연속적인 인공 지능 서비스를 이용할 수 있게 된다.As described above, according to the present invention, in the case of the second service request from the same user, the parameter value for the grammar analysis (or the parameter value for the grammar analysis generated and stored in the step S250) (Context independent speaker authentication) through comparison with the previous service request, and if there is a tertiary service request, the parameter value for the grammar analysis, which was stored at the time of the previous service request (primary or secondary service request) By performing the user authentication (context independent speaker authentication) through comparison with the parameter values for the generated and stored sentence analysis in step S250, the user who uttered the call word once in step S310 repeatedly It is possible to utilize continuous artificial intelligence service through speech recognition equipment through context independent speaker authentication procedure do.
아울러, 본 발명에서는 음성 인식 장비(100)의 저장부(180)에는 복수의 사용자의 각 아이디 별로 해당 사용자의 호출어 음성에서의 성문 분석용 파라미터 값과 이후 서비스 요청에서의 성문 분석용 파라미터 값과, 서비스 요청의 내용이 누적적으로 저장되도록 함이 바람직할 것이며, 이러한 경우에 음성 인식 장비(100)의 화자 인증부(150)는 각각 전술한 S315 단계에서의 호출어 음성을 입력한 복수의 사용자들이 이후 번갈아가며 산발적으로 서비스를 요청하는 경우라도 복수의 사용자들의 서비스 요청을 사용자 별로 구분하여 인식할 수 있게 된다.In addition, in the present invention, in the storage unit 180 of the voice recognition apparatus 100, parameter values for the voiceprint analysis in the caller speech of the corresponding user for each ID of a plurality of users, The speaker authentication unit 150 of the voice recognition apparatus 100 may include a plurality of users inputting the voice of the caller in step S315, The service requests of a plurality of users can be recognized separately for each user even when the service requests are sporadically requested.
그 결과, 예를 들어 사용자 A의 1차 서비스 요청, 사용자 B의 서비스 요청, 사용자 A의 2차 서비스 요청이 순차적으로 이루어지는 경우 음성 인식 장비는 사용자 A의 1차 서비스 요청과 연계하여 사용자 A의 2차 서비스 요청을 연계하여 처리할 수 있게 된다.As a result, if the primary service request of the user A, the service request of the user B, and the secondary service request of the user A are sequentially performed, for example, the voice recognition device associates the first service request of the user A with the second service request of the user A It is possible to process the service request in a linked manner.
한편, 전술한 S340 단계에서 성문 분석용 파라미터 값이 일치하는 것으로 판단된 경우에는 음성 인식 장비(100)의 화자 인증부(150)는 사용자의 서비스 요청 음성을 인식 및 분석하고, 음성 인식 장비(100)의 통신부(190)는 해당 사용자의 아이디 정보 및 요청 서비스 내용을 포함하는 서비스 이용 권한 인증 요청 메시지를 서비스 제공 서버(200)로 송신한다(S350).If it is determined in step S340 that the parameter values for the sentence analysis match, the speaker authentication unit 150 of the speech recognition apparatus 100 recognizes and analyzes the service request speech of the user, Transmits the service use authorization authentication request message including the user ID information and the requested service content to the service providing server 200 at step S350.
한편, 화자 인증부(150)가 서비스 요청 음성 분석 및 음성 인식을 실행함에 있어서는, 종래 기술에 따른 다양한 음성 인식 서비스에서의 음성 분석 및 인식 기술이 사용될 수 있을 것이다.Meanwhile, when the speaker authentication unit 150 performs the service request speech analysis and the speech recognition, the speech analysis and recognition technology in various speech recognition services according to the related art may be used.
이후 서비스 제공 서버(200)는 음성 인식 장비(100)로부터 수신된 서비스 이용 권한 요청 메시지에 포함된 사용자의 아이디 정보 및 요청 서비스 내용 정보에 기초하여 요청된 서비스의 이용 권한에 대한 인증 절차를 실행한다(S355).Then, the service providing server 200 executes the authentication procedure for the usage right of the requested service based on the user's ID information and the requested service content information included in the service usage right request message received from the voice recognition device 100 (S355).
구체적으로, 서비스 제공 서버(200)에는 본 발명에 따른 인공 지능 비서 서비스 가입 단계에서 사용자로부터 제공받은 사용자별 정보가 하기의 표 1에서와 같이 저장되어 있을 수 있다. Specifically, the service providing server 200 may store user-specific information provided by the user in the step of joining the artificial intelligence assistant service according to the present invention as shown in Table 1 below.
한편, 본 발명을 실시함에 있어서는 음성 인식 장비(100)의 저장부(180)에도 표 1에서와 같은 정보가 동일하게 저장될 수도 있을 것이다. In the meantime, in the present invention, the same information as shown in Table 1 may be stored in the storage unit 180 of the voice recognition apparatus 100 as well.
사용자 IDUser ID 생년월일date of birth 성별gender 접근 제한 서비스Access Restriction Service
KIM77KIM77 1977.08.12.December 7, 1977. south 없음none
PARK78PARK78 1978.05.01.May 1, 1978. female 유료 콘텐츠Paid content
KIM08KIM08 2008.12.15.December 15, 2008. south 성인용 콘텐츠Adult content
한편, 전술한 S350 단계에서의 서비스 이용 권한 인증 요청 메시지에 포함된 사용자 아이디가 'KIM08'이고, 해당 메시지에 포함된 요청 서비스 내용이 '성인용 영화 콘텐츠의 시청'인 경우에 서비스 제공 서버(200)는 상기 표 1에서의 사용자 정보에 기초하여 해당 서비스의 이용 권한을 인증하지 않고, 음성 인식 장비(100)로 서비스 이용 승인 거절 메시지를 송신한다(S360).이에 따라, 음성 인식 장비(100)의 출력부(130)는 '요청하신 서비스는 이용할 수 없는 서비스입니다'와 같은 서비스 이용 불가 안내 음성을 해당 사용자에게 출력하게 된다.If the user ID included in the service use authorization authentication request message in step S350 is' KIM08 'and the requested service content included in the corresponding message is' viewing adult movie content', the service providing server 200 transmits' The access right rejection message is transmitted to the voice recognition apparatus 100 in step S360 without authenticating the usage right of the service based on the user information in Table 1. In step S360, The output unit 130 outputs a service unavailable guidance voice such as 'the requested service is unavailable' to the corresponding user.
한편, 전술한 S355 단계에서 서비스 제공 서버(200)가 서비스 이용 권한을 인증한 경우에 서비스 제공 서버(200)는 음성 인식 장비(100)로 서비스 이용 승인 완료 메시지를 송신하게 되며(S370), 이에 따라 음성 인식 장비(100)는 전술한 S330 단계에서의 서비스 요청에 따른 서비스 제공을 실행하게 된다(S375). Meanwhile, when the service providing server 200 authenticates the service using right in step S355, the service providing server 200 transmits a service use permission completion message to the voice recognition apparatus 100 (S370) Accordingly, the voice recognition apparatus 100 performs service provision according to the service request in step S330 (S375).
한편, 본 발명을 실시함에 있어서, 상기 표 1에서의 사용자 정보가 음성 인식 장비(100)의 저장부(180)에 저장되어 있는 경우에는 전술한 S355 단계에서의 서비스 이용 권한 인증 절차를 음성 인식 장비(100)의 판단부(170)를 통해 자체적으로 실행할 수도 있을 것이다.In the case where the user information in Table 1 is stored in the storage unit 180 of the voice recognition apparatus 100 in the present invention, May be executed by itself through the determination unit 170 of the control unit 100.
아울러, 전술한 S375 단계에서 서비스 제공을 실행함에 있어서, 음성 인식 장비(100)는 전술한 S325 단계에서 식별된 화자의 사용자 ID 및 상기 표 1에서의 관련 정보에 기초한 개인 맞춤형 서비스를 제공할 수도 있을 것이다.In executing the service provision in the above-described step S375, the voice recognition apparatus 100 may provide a personalized service based on the user ID of the speaker identified in step S325 and related information in Table 1 will be.
구체적으로, 전술한 S330 단계에서의 서비스 요청 음성이 '심심한데 뭐 재밌는거 없을까?'이고, 전술한 S320 단계에서 음성 인식 장비(100)의 화자 인증부(150)가 해당 화자의 아이디를 표 1에서의 'PARK78'로 인식한 경우에 음성 인식 장비(100)의 판단부(170)는 표 1에서의 사용자 정보와, 서비스 요청 음성에 대한 음성 분석 결과에 기초하여 'PARK78'을 위한 맞춤형 콘텐츠를 '미국 드라마'로 결정할 수 있을 것이다.Specifically, in step S320, the speaker authentication unit 150 of the voice recognition apparatus 100 searches the service request voice in step S330 for ' The determination unit 170 of the voice recognition apparatus 100 determines the personalized content for 'PARK78' as 'PARK78' based on the user information in Table 1 and the voice analysis result for the service request voice, American drama '.
구체적으로, 전술한 S375 단계를 실시함에 있어서, 음성 인식 장비(100)의 판단부(170)는 'PARK78'의 선호 콘텐츠 정보로서 해당 사용자가 서비스 가입시 제공함으로써, 서비스 제공 서버(200) 및 음성 인식 장비(100)의 저장부(180)에 상기 표 1에서의 사용자 정보와 함께 추가로 저장되어 있는 선호 콘텐츠 정보인 '미국드라마 / 가족영화 / 최신가요' 중에서 'PARK78'의 연령대에 속하는 다른 여성 회원의 선호 콘텐츠 정보를 참고하여, 상대적 선호도가 높은 콘텐츠인 '미국드라마'를 'PARK78'을 위한 맞춤형 콘텐츠로 '미국드라마'로 결정할 수 있을 것이다.Specifically, in step S375, the determination unit 170 of the voice recognition apparatus 100 provides preferential content information of 'PARK78' to the service providing server 200 and voice recognition The other female members belonging to the age range of 'PARK78' among the 'American drama / family movie / latest song' which is the favorite content information additionally stored together with the user information in the above table 1 in the storage unit 180 of the apparatus 100 The US drama ', which is a content having a relatively high preference, can be determined as' US drama' as customized content for 'PARK78'.
이에 따라, 음성 인식 장비(100)의 판단부(170)는 '네, 사일로가 추천하는 미국드라마를 시청하시겠습니까?'와 같은 맞춤형 서비스 제안 메시지를 생성하고, 음성 인식 장비(100)의 출력부(130)는 해당 메시지를 사용자에게 음성 출력하게 된다.Accordingly, the determination unit 170 of the voice recognition apparatus 100 generates a customized service proposal message such as 'Would you like to watch American dramas recommended by the silos?', 130 outputs a voice message to the user.
본 발명에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terminology used herein is for the purpose of describing particular embodiments only and is not intended to be limiting of the invention. The singular expressions include plural expressions unless the context clearly dictates otherwise. In the present application, the terms "comprises" or "having" and the like are used to specify that there is a feature, a number, a step, an operation, an element, a component or a combination thereof described in the specification, But do not preclude the presence or addition of one or more other features, integers, steps, operations, elements, components, or combinations thereof.
이상에서는 본 발명의 바람직한 실시예 및 응용예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예 및 응용예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments, It will be understood by those skilled in the art that various changes in form and details may be made therein without departing from the spirit and scope of the present invention.
본 발명은 음성 인식 서비스 산업 분야에서의 산업상 이용 가능성이 인정된다.The present invention is recognized as being industrially applicable in the field of speech recognition service industry.

Claims (8)

  1. (a) 음성 인식 장비가, 사용자로부터 호출어 음성을 입력받는 단계;(a) a voice recognition device receiving voice of a caller from a user;
    (b) 상기 음성 인식 장비가, 상기 사용자가 입력한 상기 호출어가 기 설정된 호출어와 일치하는지 여부를 판단하는 단계; 및(b) determining whether the voice recognition device matches the caller entered by the user with a preset caller; And
    (c) 상기 음성 인식 장비가, 상기 호출어가 기 설정된 호출어와 일치하는 것으로 판단되고, 상기 사용자로부터 서비스 요청 음성을 입력받은 경우에 상기 서비스 요청 음성과 기 설정된 상기 사용자 음성의 성문(voice print) 분석용 파라미터를 비교함으로써 화자를 인증하는 단계(c) when the voice recognition device judges that the caller matches the predetermined caller, and when a service request voice is input from the user, voice call analysis of the service request voice and predetermined user voice Authenticating the speaker by comparing the parameters for the speaker
    를 포함하는 인공 지능 비서 서비스 제공 방법.The method comprising the steps of:
  2. 제1항에 있어서,The method according to claim 1,
    상기 (a) 단계 이전에,Before the step (a)
    상기 음성 인식 장비가, 상기 호출어 발성 안내 음성을 출력하는 단계를 더 포함하는 인공 지능 비서 서비스 제공 방법.Further comprising the step of the voice recognition device outputting the call alert utterance announcement voice.
  3. 제1항에 있어서,The method according to claim 1,
    상기 설정된 호출어는 상기 사용자가 임의로 선택한 호출어인 것인 인공 지능 비서 서비스 제공 방법.Wherein the set call word is a call word arbitrarily selected by the user.
  4. 제1항에 있어서,The method according to claim 1,
    (d) 상기 음성 인식 장비가, 상기 (c) 단계에서 인증된 화자의 아이디에 기초하여 실행된 서비스 이용 권한에 대한 인증 결과를 안내하는 음성을 출력하는 단계를 더 포함하는 인공 지능 비서 서비스 제공 방법.(d) outputting a voice guiding the voice recognition device to the authentication result of the service use right executed based on the ID of the speaker authenticated in the step (c) .
  5. 사용자로부터 호출어 음성을 입력받는 입력부; 및An input unit for receiving a call voice from a user; And
    상기 사용자가 입력한 상기 호출어가 기 설정된 호출어와 일치하는지 여부를 판단하고, 상기 호출어가 기 설정된 호출어와 일치하는 것으로 판단되고, 상기 사용자로부터 서비스 요청 음성을 입력받은 경우에 상기 서비스 요청 음성과 기 설정된 상기 사용자 음성의 성문(voice print) 분석용 파라미터를 비교함으로써 화자를 인증하는 화자 인증부Determining whether or not the caller input by the user coincides with a preset caller, determining that the caller matches the preset caller, and when receiving the service request voice from the user, A speaker authentication unit for authenticating a speaker by comparing parameters for voice print analysis of the user voice,
    를 포함하는 음성 인식 장비.A voice recognition device.
  6. 제5항에 있어서,6. The method of claim 5,
    상기 호출어 발성 안내 음성을 출력하는 출력부를 더 포함하는 음성 인식 장비.And an output unit for outputting the call alert voice guidance voice.
  7. 제5항에 있어서,6. The method of claim 5,
    상기 설정된 호출어는 상기 사용자가 임의로 선택한 호출어인 것인 음성 인식 장비.Wherein the set call word is a call word arbitrarily selected by the user.
  8. 제5항에 있어서,6. The method of claim 5,
    상기 인증된 화자의 아이디에 기초하여 실행된 서비스 이용 권한에 대한 인증 결과를 안내하는 음성을 출력하는 출력부를 더 포함하는 음성 인식 장비.Further comprising: an output unit outputting a voice for guiding an authentication result on the service usage right executed based on the ID of the authenticated speaker.
PCT/KR2018/010229 2017-09-13 2018-09-03 Method for providing artificial intelligence secretarial service, and voice recognition device used therefor WO2019054681A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2017-0117364 2017-09-13
KR1020170117364A KR102087202B1 (en) 2017-09-13 2017-09-13 Method for Providing Artificial Intelligence Secretary Service, and Voice Recognition Device Used Therein

Publications (1)

Publication Number Publication Date
WO2019054681A1 true WO2019054681A1 (en) 2019-03-21

Family

ID=65722932

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/010229 WO2019054681A1 (en) 2017-09-13 2018-09-03 Method for providing artificial intelligence secretarial service, and voice recognition device used therefor

Country Status (2)

Country Link
KR (1) KR102087202B1 (en)
WO (1) WO2019054681A1 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102135182B1 (en) * 2019-04-05 2020-07-17 주식회사 솔루게이트 Personalized service system optimized on AI speakers using voiceprint recognition
KR20200126675A (en) * 2019-04-30 2020-11-09 삼성전자주식회사 Electronic device and Method for controlling the electronic device thereof
KR102305555B1 (en) * 2020-04-09 2021-09-27 주식회사 유비벨록스모바일 Integral gateway for linking ai speaker platform and ai multi speaker interlocking method using this
KR20220053795A (en) 2020-10-23 2022-05-02 주식회사 동영엠텍 System and method for providing artificial intelligence secretary service
KR20220162484A (en) 2021-06-01 2022-12-08 주식회사 디엔엑스 Artificial intelligence dialogue providing service method and apparatus for a sense of reality

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030033890A (en) * 2001-10-25 2003-05-01 (주)인터루션 Cyber secretary system using analysis of user's voice information and method thereof
KR20040075646A (en) * 2003-02-22 2004-08-30 천두배 Control method of voice indication home automation system
KR20140079328A (en) * 2012-12-18 2014-06-26 삼성전자주식회사 Method and apparatus for controlling a home device remotely in a home network system
JP2016502829A (en) * 2013-11-15 2016-01-28 ▲華▼▲為▼▲終▼端有限公司 Terminal voice control method, apparatus, terminal, and program
KR20160147280A (en) * 2015-03-20 2016-12-22 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 Artificial intelligence based voiceprint login method and device
JP2017068243A (en) * 2014-06-24 2017-04-06 グーグル インコーポレイテッド Dynamic threshold for speaker verification

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107016999B (en) * 2015-10-16 2022-06-14 谷歌有限责任公司 Hot word recognition

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030033890A (en) * 2001-10-25 2003-05-01 (주)인터루션 Cyber secretary system using analysis of user's voice information and method thereof
KR20040075646A (en) * 2003-02-22 2004-08-30 천두배 Control method of voice indication home automation system
KR20140079328A (en) * 2012-12-18 2014-06-26 삼성전자주식회사 Method and apparatus for controlling a home device remotely in a home network system
JP2016502829A (en) * 2013-11-15 2016-01-28 ▲華▼▲為▼▲終▼端有限公司 Terminal voice control method, apparatus, terminal, and program
JP2017068243A (en) * 2014-06-24 2017-04-06 グーグル インコーポレイテッド Dynamic threshold for speaker verification
KR20160147280A (en) * 2015-03-20 2016-12-22 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 Artificial intelligence based voiceprint login method and device

Also Published As

Publication number Publication date
KR102087202B1 (en) 2020-03-10
KR20190030081A (en) 2019-03-21

Similar Documents

Publication Publication Date Title
WO2019054681A1 (en) Method for providing artificial intelligence secretarial service, and voice recognition device used therefor
EP0477688B1 (en) Voice recognition telephone dialing
KR101931006B1 (en) Device access using voice authentication
US11763808B2 (en) Temporary account association with voice-enabled devices
US5917890A (en) Disambiguation of alphabetic characters in an automated call processing environment
US20060074658A1 (en) Systems and methods for hands-free voice-activated devices
WO2013187610A1 (en) Terminal apparatus and control method thereof
WO2015005679A1 (en) Voice recognition method, apparatus, and system
CN106773742A (en) Sound control method and speech control system
JPH0730643A (en) Communication system and communication method
JPH02183653A (en) Pass-word control exchange system and control method thereof
US20090216525A1 (en) System and method for treating homonyms in a speech recognition system
US10891446B2 (en) Bidirectional call translation in controlled environment
JP2004032685A (en) Method and system for accessing protected resource by computer telephony
CN109378006A (en) A kind of striding equipment method for recognizing sound-groove and system
KR20180046780A (en) Method for providing of voice recognition service using double wakeup and apparatus thereof
CN110175016A (en) Start the method for voice assistant and the electronic device with voice assistant
CN111094924A (en) Data processing apparatus and method for performing voice-based human-machine interaction
CN110858841A (en) Electronic device and method for registering new user by authentication of registered user
WO2016175443A1 (en) Method and apparatus for information search using voice recognition
WO2018117660A1 (en) Security enhanced speech recognition method and device
WO2021054671A1 (en) Electronic apparatus and method for controlling voice recognition thereof
WO2019078492A1 (en) Voice authentication system
JPH08163252A (en) Pbx/computer interlock system
WO2022177103A1 (en) Electronic device for supporting service for artificial intelligent agent that talks with user

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18855504

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18855504

Country of ref document: EP

Kind code of ref document: A1

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 20.01.2021)

122 Ep: pct application non-entry in european phase

Ref document number: 18855504

Country of ref document: EP

Kind code of ref document: A1