WO2019054680A1 - 문맥 종속 화자 식별 및 문맥 독립 화자 식별이 융합된 인공 지능 비서 서비스에서의 화자 식별 방법, 및 이에 사용되는 음성 인식 장비 - Google Patents

문맥 종속 화자 식별 및 문맥 독립 화자 식별이 융합된 인공 지능 비서 서비스에서의 화자 식별 방법, 및 이에 사용되는 음성 인식 장비 Download PDF

Info

Publication number
WO2019054680A1
WO2019054680A1 PCT/KR2018/010225 KR2018010225W WO2019054680A1 WO 2019054680 A1 WO2019054680 A1 WO 2019054680A1 KR 2018010225 W KR2018010225 W KR 2018010225W WO 2019054680 A1 WO2019054680 A1 WO 2019054680A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
speaker identification
speech
context
voice
Prior art date
Application number
PCT/KR2018/010225
Other languages
English (en)
French (fr)
Inventor
정희석
진세훈
이형엽
임형택
Original Assignee
(주)파워보이스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)파워보이스 filed Critical (주)파워보이스
Publication of WO2019054680A1 publication Critical patent/WO2019054680A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Definitions

  • the present invention relates to a speaker identification method in an artificial intelligent assistant service and a speech recognition apparatus used therein. More particularly, the present invention relates to a speaker identification method and a speaker recognition method for preventing artificial intelligent assistant service from being provided using a self- It is possible to individually identify a plurality of users using artificial intelligent speakers, thereby preventing the occurrence of malfunctions due to the inability to distinguish the users, and at the same time, providing a personalized service for each user To a speaker identification method in an intelligent secretary service, and to a speech recognition apparatus used therefor.
  • the artificial intelligent speaker according to the prior art can not prevent the unauthorized use of the unregistered user who has no legitimate use right, and can not distinguish the individual user when there are a plurality of persons having legitimate use rights such as family members Malfunctions frequently occur, resulting in customer complaints and damages.
  • the artificial intelligent speaker according to the prior art has a technical limitation in that it can not provide a personalized service for each user because it can not distinguish individual users.
  • the present invention provides a speaker identification method in an artificial intelligence secretary service and a speech recognition apparatus used therein, which can prevent a malfunction caused by a user's inability to identify a user and provide a personalized service for each user .
  • a speaker identification method comprising the steps of: (a) storing, in a user's directory, speech information of a user for a predetermined call word; (b) the voice recognition device identifies the user based on the call speech voice information from the user, thereby generating voice information of the atypical natural language instruction following the call speech of the user in the user's directory Storing; And (c) generating, by the speech recognition apparatus, user speech parameters for context independent speaker identification based on utterance speech information of the atypical natural language instruction stored cumulatively in the user's directory.
  • the speech recognition apparatus performs context dependent speaker identification based on the call speech voice information in the case where there is utterance of an atypical natural language instruction together with the call speech from the user, And performing context independent speaker identification based on atypical natural language command speech voice information.
  • a speech recognition apparatus comprising: a storage unit for storing speech utterance information of a user on a predetermined call word in a directory of the user; And a speaker identification unit for identifying the user based on the call speech voice information from the user, wherein the speaker identification unit identifies the user based on the call speech voice information, wherein the speech identification information of the atypical natural language instruction following the speech utterance is cumulatively stored and the speaker identification unit identifies a user speech parameter for context independent speaker identification based on utterance speech information of the atypical natural language instruction cumulatively stored in the user's directory .
  • the speaker identification unit performs context dependent speaker identification based on the call speech voice information when the user has uttered the atypical natural language instruction together with the call speech, And performing context independent speaker identification based on the speech information.
  • the speaker identification unit may perform speaker identification for the user based on the result of the context dependent speaker identification and the result of the context independent speaker identification.
  • the present invention it is possible to individually identify a plurality of users using the artificial intelligent speaker, thereby preventing a malfunction due to the inability to identify the user and providing a personalized service for each user do.
  • FIG. 1 is a configuration diagram of an artificial intelligent assistant service providing system according to a first embodiment of the present invention
  • FIG. 2 is a functional block diagram illustrating a structure of a speech recognition apparatus according to a first embodiment of the present invention.
  • FIG. 3 is a flowchart illustrating a speaker identification method in the speech recognition apparatus according to the first embodiment of the present invention.
  • FIG. 4 is a signal flow diagram illustrating an execution procedure of the artificial intelligent assistant service providing method according to the second embodiment of the present invention.
  • an artificial intelligent assistant service providing system includes a speech recognition apparatus 100 and a service providing server 200.
  • the voice recognition apparatus 100 is an artificial intelligent speaker equipped with a voice recognition function, and is installed in a space such as a living room in which a user resides.
  • the voice recognition apparatus 100 includes a smart phone .
  • the voice recognition apparatus 100 guides the user to utter a predetermined call word (for example, 'silo') for a user registration procedure in the artificial intelligence secretary service, and then performs voice registration for each user according to the utterance of the user And authenticates the user on the basis of the voice information of the callee through the voice recognition function when the user utters the callee after completing voice registration for each user.
  • a predetermined call word for example, 'silo'
  • the speech recognition apparatus 100 can be implemented as a speaker identification method that combines text dependent speaker recognition via an alias keyword and text independent speaker recognition based on an atypical natural language instruction .
  • the speech recognition apparatus 100 generates and stores parameter values for voice print analysis such as a frequency bandwidth and an amplitude spectrum in a user's speech voice signal and an unstructured natural language command speech (service request speech) signal, If there is an input of the service request voice of the user, the voice parameter values in the voice of the service request are compared with the previously stored parameter values, so that authentication through the text-independent speaker recognition method for the speaker Perform the procedure.
  • parameter values for voice print analysis such as a frequency bandwidth and an amplitude spectrum in a user's speech voice signal and an unstructured natural language command speech (service request speech) signal
  • the service providing server 200 is a server installed and operated by a company that manufactures and sells the voice recognition apparatus 100 such as an artificial intelligent speaker.
  • the speech recognition apparatus 100 includes an input unit 110, an output unit 130, a speaker identification unit 150, a determination unit 170, a storage unit 180, And a communication unit 190.
  • the input unit 110 of the voice recognition apparatus 100 is implemented by a microphone module or the like.
  • the voice of the user is input through the input unit 110.
  • the output unit 130 of the voice recognition apparatus 100 may be implemented as a speaker module or the like and may be a voice recognition system such as a voice recognition system (For example, say 'silo' if a beep sounds), and outputs a result of a subsequent service request of the registered user (such as a service unavailable guide, request information information such as weather, etc.) ) To the user.
  • a voice recognition system such as a voice recognition system (For example, say 'silo' if a beep sounds)
  • a result of a subsequent service request of the registered user such as a service unavailable guide, request information information such as weather, etc.)
  • the caller information set by the manufacturer or the purchaser (user) of the voice recognition apparatus 100 is stored. Also, in the user registration procedure, The voice is associated with the user's ID for each user.
  • the speaker identification unit 150 of the voice recognition apparatus 100 performs a context-dependent speaker identification based on the caller keyword and a context-independent speaker identification based on the unstructured natural language instruction as a speaker identification method.
  • the determination unit 170 of the voice recognition apparatus 100 performs a function of determining a customized service content to be provided to the user based on the ID information of the speaker identified by the speaker identification unit 150,
  • the communication unit 190 of the server 100 performs data communication with the service providing server 200 or an external server providing the service contents requested by the user.
  • FIG. 3 is a flowchart illustrating a speaker identification method in the speech recognition apparatus according to the first embodiment of the present invention.
  • a speaker identification method in the speech recognition apparatus according to the first embodiment of the present invention will be described with reference to FIG.
  • the speech recognition apparatus 100 may include a voice for guiding the user to register his / her voice in order to utilize the artificial intelligent assistant service according to the present invention, such as a voice call (for example, 'silo').
  • a voice call for example, 'silo'
  • the voice recognition device 100 outputs voice to the user through the output unit 130.
  • the user speaks the voice call according to voice guidance of the voice recognition device 100, Accordingly, the voice of the user is input through the input unit 110 of the voice recognition apparatus 100.
  • the user inputs his or her user ID through the input panel separately provided to the input unit 110.
  • a directory for the user is created in the storage unit 180 of the voice recognition apparatus 100, The ID of the user and the voice information of the caller inputted by the user are stored in association with each other (S210).
  • the ID input by the user is the ID provided by the user at the time of subscription to the artificial intelligence secret service according to the present invention, so that the ID is the same as the ID stored in the service providing server 200 Lt; / RTI >
  • the above-described user registration procedure is repeatedly performed for each of a plurality of users (for example, family members) to be used together with the voice recognition apparatus 100 through the same call word.
  • step S210 the user first utters the caller in order to use the artificial intelligent assistant service according to the present invention, and based on the caller voice information uttered by the user,
  • the controller 150 performs speaker identification for the user (S220).
  • the speaker identification unit recognizes the user- Frequency bandwidth, amplitude spectrum, and the like), and the user-specific parameter values thus generated are stored together with the corresponding user's directory (S250).
  • the speaker identification unit 150 can independently perform the context dependent speaker identification based on the caller keyword and the context independent speaker identification based on the parameter values generated for each user.
  • the speaker identification unit 150 identifies the first speaker identification through the caller keyword (S260), and then the second speaker identification (context independent speaker identification) through the atypical natural language instruction is continuously executed (S270).
  • the speaker identification unit 150 calculates a sum of a value obtained by applying a predetermined weight to the result of the first speaker identification by the context dependent speaker identification method and a value obtained by applying a predetermined weight to the result of the second speaker identification performed through the context independent speaker identification And finally identifies the speaker based on the value (S280).
  • the final speaker identification method of the speaker identification unit 150 as described above will be referred to as a hybrid speaker identification method in which a context-dependent speaker identification method and a context-independent speaker identification method are fused.
  • the speech information of the atypical natural language instruction word in step S270 is cumulatively stored in the user's directory, so that the user-specific speech recognition parameters generated in step S250 are additionally generated, It is desirable that the accuracy of the context independent speaker identification in the identification unit 150 is continuously improved.
  • FIG. 4 is a signal flow diagram illustrating an execution procedure of the artificial intelligent assistant service providing method according to the second embodiment of the present invention.
  • FIG. 1, FIG. 2, and FIG. 4 description will be made of an execution procedure of the artificial intelligent assistant service providing method according to an embodiment of the present invention.
  • FIG. 4 is a state in which the user registration procedure in the speaker identification method according to the first embodiment of the present invention shown in FIG. 3 is completed, It is assumed that the hybrid speaker identification method can be executed through cumulative learning in the speaker identification unit 150.
  • a user who wishes to use the artificial intelligent assistant service speaks a predetermined caller speech (for example, 'silos') and then successively transmits a service request voice (for example, Recommendation ') (S310).
  • a predetermined caller speech for example, 'silos'
  • a service request voice for example, Recommendation '
  • the speaker identification unit 150 of the voice recognition apparatus 100 can identify the user ID of the corresponding user through execution of the hybrid speaker identification method through steps S260 through S280 (S320).
  • the third party even if the third party knows the caller information or has spoken the caller by accident, the third party who has not proceeded with the registration process and the directory creation process according to the user in FIG. 3 described above, (I.e., authentication is disabled), thereby limiting the use of the artificial intelligent assistant service according to the present invention.
  • the speaker identification unit 150 of the voice recognition apparatus 100 analyzes the voice of the user's service request at step S330, and the communication unit 190 of the voice recognition apparatus 100
  • the service providing authority authentication request message including the user's ID information and the requested service content is transmitted to the service providing server 200 (S340).
  • the service providing server 200 executes the authentication procedure for the usage right of the requested service based on the user's ID information and the requested service content information included in the service usage right request message received from the voice recognition device 100 (S350).
  • the service providing server 200 may store user-specific information provided by the user in the step of joining the artificial intelligence assistant service according to the present invention as shown in Table 1 below.
  • the same information as shown in Table 1 may be stored in the storage unit 180 of the voice recognition apparatus 100 as well.
  • the service providing server 200 The access right rejection message is transmitted to the voice recognition apparatus 100 in step S360 without authenticating the usage right of the service based on the user information in Table 1.
  • the output unit 130 outputs a service unavailable guidance voice such as 'the requested service is unavailable' to the corresponding user.
  • the service providing server 200 authenticates the service using right in step S350, the service providing server 200 transmits a service use permission completion message to the voice recognition apparatus 100 (S380) Accordingly, the voice recognition apparatus 100 performs service provision according to the service request in step S310 (S390).
  • the voice recognition apparatus 100 may provide a personalized service based on the user ID of the speaker identified in step S320 and the related information in the above table 1 will be.
  • step S320 the speaker identification unit 150 of the voice recognition apparatus 100 searches for a service request voice in the above-described step S310 as 'bored and there is nothing interesting'
  • the determination unit 170 of the voice recognition apparatus 100 determines the personalized content for 'PARK78' as 'PARK78' based on the user information in Table 1 and the voice analysis result for the service request voice, American drama '.
  • the determination unit 170 of the voice recognition apparatus 100 provides preferential contents information of 'PARK78' at the time of service subscription by the corresponding user.
  • the service providing server 200 and the voice recognition The other female members belonging to the age range of 'PARK78' among the 'American drama / family movie / latest song' which is the favorite content information additionally stored together with the user information in the above table 1 in the storage unit 180 of the apparatus 100
  • the US drama ' which is a content having a relatively high preference, can be determined as' US drama' as customized content for 'PARK78'.
  • the determination unit 170 of the voice recognition apparatus 100 generates a customized service proposal message such as 'Would you like to watch American dramas recommended by the silos?', 130 outputs a voice message to the user.
  • the present invention is recognized as being industrially applicable in the field of speech recognition service industry.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)

Abstract

문맥 종속 화자 식별 및 문맥 독립 화자 식별이 융합된 인공 지능 비서 서비스에서의 화자 식별 방법, 및 이에 사용되는 음성 인식 장비가 개시된다. 본 발명은, 음성 인식 장비가, 소정의 호출어에 대한 사용자의 발성 음성 정보를 사용자의 디렉토리에 저장하고, 사용자로부터의 호출어 발성 음성 정보에 기초하여 사용자를 식별함으로써, 사용자의 호출어 발성에 뒤따른 비정형 자연어 명령어의 발성 음성 정보를 사용자의 디렉토리에 누적 저장하며, 사용자의 디렉토리에 누적 저장된 비정형 자연어 명령어의 발성 음성 정보에 기초하여 문맥 독립 화자 식별을 위한 사용자 음성 파라미터를 생성하는 과정을 통해 구현된다. 본 발명에 따르면, 정당한 사용 권원이 없는 자가 인공 지능 스피커를 이용하여 인공 지능 비서 서비스를 제공받는 것을 방지할 수 있게 된다.

Description

문맥 종속 화자 식별 및 문맥 독립 화자 식별이 융합된 인공 지능 비서 서비스에서의 화자 식별 방법, 및 이에 사용되는 음성 인식 장비
본 발명은 인공 지능 비서 서비스에서의 화자 식별 방법, 및 이에 사용되는 음성 인식 장비에 관한 것으로, 더욱 상세하게는 정당한 사용 권원이 없는 자가 인공 지능 스피커를 이용하여 인공 지능 비서 서비스를 제공받는 것을 방지할 수 있을 뿐만 아니라, 인공 지능 스피커를 이용하는 복수의 사용자들을 개별적으로 식별할 수 있게 됨에 따라, 사용자를 구분하지 못함에 따른 오동작의 발생을 방지함과 동시에 사용자별 개인 맞춤형 서비스를 제공할 수 있도록 하는 인공 지능 비서 서비스에서의 화자 식별 방법, 및 이에 사용되는 음성 인식 장비에 관한 것이다.
최근 국내외에서는 음성 인식 기술을 이용한 인공 지능 비서 서비스가 다양하게 출시되고 있으며, 인공 지능 스피커의 세계 시장 규모는 2020년 약 2조 5천억원에 달할 것으로 전망되는 등 향후 관련 시장 규모는 급격하게 증가될 것으로 예상된다.
그러나, 종래 기술에 따른 인공 지능 스피커는 정당한 사용 권원이 없는 미등록자의 불법적 사용을 차단하지 못할 뿐만 아니라, 가족 구성원들과 같이 정당한 사용 권원을 갖는 자들이 여러명 있는 경우에 개별 사용자를 구분하지 못함으로 인한 오동작이 빈번하게 발생하여, 그로 인한 고객 불만과 피해가 발생하고 있다.
아울러, 종래 기술에 따른 인공 지능 스피커는 개별 사용자를 구분하지 못함으로 인해 사용자별 개인 맞춤형 서비스를 제공하지 못하다는 기술적 한계가 있다.
따라서, 본 발명의 목적은, 정당한 사용 권원이 없는 자가 인공 지능 스피커를 이용하여 인공 지능 비서 서비스를 제공받는 것을 방지할 수 있을 뿐만 아니라, 인공 지능 스피커를 이용하는 복수의 사용자들을 개별적으로 식별할 수 있게 됨에 따라, 사용자를 구분하지 못함에 따른 오동작의 발생을 방지함과 동시에 사용자별 개인 맞춤형 서비스를 제공할 수 있도록 하는 인공 지능 비서 서비스에서의 화자 식별 방법, 및 이에 사용되는 음성 인식 장비를 제공함에 있다.
상기 목적을 달성하기 위한 본 발명에 따른 화자 식별 방법은, (a) 음성 인식 장비가, 소정의 호출어에 대한 사용자의 발성 음성 정보를 상기 사용자의 디렉토리에 저장하는 단계; (b) 상기 음성 인식 장비가, 상기 사용자로부터의 상기 호출어 발성 음성 정보에 기초하여 상기 사용자를 식별함으로써, 상기 사용자의 호출어 발성에 뒤따른 비정형 자연어 명령어의 발성 음성 정보를 상기 사용자의 디렉토리에 누적 저장하는 단계; 및 (c) 상기 음성 인식 장비가, 상기 사용자의 디렉토리에 누적 저장된 상기 비정형 자연어 명령어의 발성 음성 정보에 기초하여 문맥 독립 화자 식별을 위한 사용자 음성 파라미터를 생성하는 단계를 포함한다.
바람직하게는, (d) 상기 음성 인식 장비가, 상기 사용자로부터 상기 호출어 발성과 함께 비정형 자연어 명령어의 발성이 있는 경우에, 상기 호출어 발성 음성 정보에 기초하여 문맥 종속 화자 식별을 실행하고, 상기 비정형 자연어 명령어 발성 음성 정보에 기초하여 문맥 독립 화자 식별을 실행하는 단계를 더 포함한다.
또한, (e) 상기 음성 인식 장비가, 상기 문맥 종속 화자 식별의 결과값과 상기 문맥 독립 화자 식별의 결과값에 기초하여 상기 사용자에 대한 화자 식별을 실행하는 단계를 더 포함한다.
한편, 본 발명에 따른 음성 인식 장비는, 소정의 호출어에 대한 사용자의 발성 음성 정보를 상기 사용자의 디렉토리에 저장하는 저장부; 및 상기 사용자로부터의 상기 호출어 발성 음성 정보에 기초하여 상기 사용자를 식별하는 화자 식별부를 포함하며, 상기 화자 식별부가 호출어 발성 음성 정보에 기초하여 상기 사용자를 식별함으로써, 상기 저장부에는 상기 사용자의 호출어 발성에 뒤따른 비정형 자연어 명령어의 발성 음성 정보가 누적 저장되고, 상기 화자 식별부는, 상기 사용자의 디렉토리에 누적 저장된 상기 비정형 자연어 명령어의 발성 음성 정보에 기초하여 문맥 독립 화자 식별을 위한 사용자 음성 파라미터를 생성하는 것을 특징으로 한다.
바람직하게는, 상기 화자 식별부는, 상기 사용자로부터 상기 호출어 발성과 함께 비정형 자연어 명령어의 발성이 있는 경우에, 상기 호출어 발성 음성 정보에 기초하여 문맥 종속 화자 식별을 실행하고, 상기 비정형 자연어 명령어 발성 음성 정보에 기초하여 문맥 독립 화자 식별을 실행하는 것을 특징으로 한다.
또한, 상기 화자 식별부는, 상기 문맥 종속 화자 식별의 결과값과 상기 문맥 독립 화자 식별의 결과값에 기초하여 상기 사용자에 대한 화자 식별을 실행하는 것을 특징으로 한다.
본 발명에 따르면, 정당한 사용 권원이 없는 자가 인공 지능 스피커를 이용하여 인공 지능 비서 서비스를 제공받는 것을 방지할 수 있게 된다.
아울러, 본 발명에 따르면, 인공 지능 스피커를 이용하는 복수의 사용자들을 개별적으로 식별할 수 있게 됨에 따라, 사용자를 구분하지 못함에 따른 오동작의 발생을 방지함과 동시에 사용자별 개인 맞춤형 서비스를 제공할 수 있게 된다.
도 1은 본 발명의 제1 실시예에 따른 인공 지능 비서 서비스 제공 시스템의 구성도,
도 2는 본 발명의 제1 실시예에 따른 음성 인식 장비의 구조를 나타내는 기능 블록도,
도 3은 본 발명의 제1 실시예에 따른 음성 인식 장비에서의 화자 식별 방법을 설명하는 절차 흐름도, 및
도 4는 본 발명의 제2 실시예에 따른 인공 지능 비서 서비스 제공 방법의 실행 과정을 설명하는 신호 흐름도이다.
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다. 도면들 중 동일한 구성요소들은 가능한 한 어느 곳에서든지 동일한 부호들로 나타내고 있음에 유의해야 한다. 또한 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다.
도 1은 본 발명의 제1 실시예에 따른 인공 지능 비서 서비스 제공 시스템의 구성도이다. 도 1을 참조하면, 본 발명의 제1 실시예에 따른 인공 지능 비서 서비스 제공 시스템은 음성 인식 장비(100) 및 서비스 제공 서버(200)를 포함한다.
음성 인식 장비(100)는 음성 인식 기능이 구비된 인공 지능 스피커로서, 거실 등과 같이 사용자가 거주하는 공간 내에 설치되며, 본 발명을 실시함에 있어서 음성 인식 장비(100)는 사용자가 소지하고 있는 스마트 폰이 될 수도 있을 것이다.
음성 인식 장비(100)는 인공 지능 비서 서비스에서의 사용자 등록 절차를 위해 사용자에게 소정의 호출어(예를 들면, '사일로') 발성을 안내하고, 이후 사용자의 발성에 따라 사용자별 음성 등록을 실행하며, 사용자별 음성 등록이 완료된 후에 사용자가 해당 호출어를 발성하는 경우에 음성 인식 기능을 통해 해당 호출어의 음성 정보를 기초로 사용자를 인증한다.
보다 구제적으로, 음성 인식 장비(100)는 화자 식별 방법으로서 호출어 키워드를 통한 문맥 종속 화자 식별(text dependant speaker recognition)과 비정형 자연어 명령어에 기초한 문맥 독립 화자 식별(text independant speaker recognition)을 복합적으로 실행한다.
아울러, 음성 인식 장비(100)는 사용자의 호출어 음성 신호 및 비정형 자연어 명령어 음성(서비스 요청 음성) 신호에서의 주파수 대역폭, 진폭 스펙트럼 등의 성문(voice print) 분석용 파라미터 값들을 생성 및 저장하고, 이후 사용자의 서비스 요청 음성의 입력이 있는 경우에 해당 서비스 요청 음성에서의 음성 파라미터 값들과 기 저장되어 있는 파라미터 값들을 비교함으로써 화자에 대한 문맥 독립 화자 인증방법(text-independant speaker recognition method)을 통한 인증 절차를 수행한다.
한편, 음성 인식 장비(100)가 성문 분석용 파라미터를 통한 화자 인증 절차를 수행함에 있어서는, 대한민국 공개 특허 제10-2012-72906호 등에서와 같은 종래의 다양한 방법이 사용될 수 있을 것이다.
한편, 서비스 제공 서버(200)는 인공 지능 스피커 등의 음성 인식 장비(100)를 제조 및 판매하는 사업자가 설치 및 운영하는 서버로서, 서비스 제공 서버(200)에는 인공 지능 비서 서비스에 가입한 사용자가 서비스 가입시에 제공한 사용자별 아이디, 나이, 성별, 선호 콘텐츠 정보 등의 사용자 개인 정보 및 사용자별 서비스 이용 권한 범위에 대한 정보가 저장되어 있다.
도 2는 본 발명의 일 실시예에 따른 음성 인식 장비(100)의 구조를 나타내는 기능 블록도이다. 도 2를 참조하면, 본 발명의 일 실시예에 따른 음성 인식 장비(100)는 입력부(110), 출력부(130), 화자 식별부(150), 판단부(170), 저장부(180), 및 통신부(190)를 포함한다.
먼저, 음성 인식 장비(100)의 입력부(110)는 마이크 모듈 등으로 구현되며, 사용자가 호출어를 발성하는 경우에 사용자의 호출어 음성이 입력부(110)를 통해 입력된다.
또한, 음성 인식 장비(100)의 출력부(130)는 스피커 모듈 등으로 구현되며, 인공 지능 서비스에의 사용자 등록을 위한 절차로서 사용자에게 소정의 호출어(예를 들면, '사일로')의 발성을 안내하는 음성(예를 들면, '삐'소리가 나면 '사일로'라고 말해 주세요.)을 출력하며, 등록된 사용자의 이후 서비스 요청에 따른 결과(서비스 이용 불가 안내, 날씨 등의 요청 정보 안내 등)를 사용자에게 출력하는 기능을 수행한다.
한편, 음성 인식 장비(100)의 저장부(180)에는 음성 인식 장비(100)의 제조자 또는 구매자(사용자)에 의해 설정된 호출어 정보가 저장되어 있으며, 또한 사용자 등록 절차에서 사용자가 발성한 호출어 음성이 사용자별로 사용자의 아이디와 함께 연관 저장되어 있다.
음성 인식 장비(100)의 화자 식별부(150)는 화자 식별 방법으로서 호출어 키워드를 통한 문맥 종속 화자 식별과 비정형 자연어 명령어에 기초한 문맥 독립 화자 식별을 복합적으로 실행한다.
한편, 음성 인식 장비(100)의 판단부(170)는 화자 식별부(150)가 식별한 화자의 아이디 정보에 기초해서 해당 사용자에게 제공할 맞춤형 서비스 콘텐츠를 결정하는 기능을 수행하며, 음성 인식 장비(100)의 통신부(190)는 서비스 제공 서버(200) 또는 사용자가 요청한 서비스 콘텐츠를 제공하는 외부 서버와 유/무선의 데이터 통신을 수행한다.
도 3은 본 발명의 제1 실시예에 따른 음성 인식 장비에서의 화자 식별 방법을 설명하는 절차 흐름도이다. 이하에서는 도 3을 참조하여, 본 발명의 제1 실시예에 따른 음성 인식 장비에서의 화자 식별 방법을 설명하기로 한다.
음성 인식 장비(100)는 본 발명에 따른 인공 지능 비서 서비스를 이용하기 위해서 자신의 음성을 등록하려는 사용자에게 소정의 호출어(예를 들면, '사일로')의 발성을 안내하는 음성(예를 들면, '삐'소리가 나면 '사일로'라고 말해 주세요.)을 출력부(130)를 통해 사용자에게 출력하며, 이와 같은 음성 인식 장비(100)의 음성 안내에 따라 사용자는 해당 호출어를 발성하며, 그에 따라 음성 인식 장비(100)의 입력부(110)를 통해 사용자의 호출어 음성이 입력된다.
이후 사용자는 자신의 사용자 아이디를 입력부(110)에 별도 구비된 입력 패널을 통해 입력하며, 그 결과 음성 인식 장비(100)의 저장부(180)에는 해당 사용자에 대한 디렉토리가 생성되며, 생성된 디렉토리에는 사용자의 아이디와 해당 사용자가 입력한 호출어 음성 정보가 연관 저장된다(S210).
한편, 전술한 S210 단계에서 사용자가 입력하는 아이디는 해당 사용자가 본 발명에 따른 인공 지능 비서 서비스에 가입시에 제공한 아이디로서, 서비스 제공 서버(200)에 저장되어 있는 아이디와 동일한 아이디가 되도록 함이 바람직할 것이다.
아울러, 상기와 같은 사용자 등록 절차는 음성 인식 장비(100)를 함께 사용할 복수의 사용자(예를 들면, 가족 구성원) 각각에 대해서 동일한 호출어를 통하여 반복 실행되게 된다.
전술한 S210 단계에서의 사용자 등록이 완료된 다음, 사용자는 본 발명에 따른 인공 지능 비서 서비스를 이용하기 위해서 호출어를 먼저 발성하며, 이와 같이 사용자에 의해 발성된 호출어 음성 정보에 기초하여, 화자 식별부(150)는 해당 사용자에 대한 화자 식별을 실행하게 되며(S220), 인공 지능 비서 서비스를 이용하기 위해 발성된 호출어에 뒤따라 발성되는 비정형 자연어 명령어의 음성 정보는 상기 사용자에 대해 전술한 S210 단계에서 생성된 디렉토리에 추가로 저장된다(S230).
즉, 이후에도 해당 사용자가 본 발명에 따른 인공 지능 비서 서비스를 이용하기 위해서 호출어와 비정형 자연어 명령어를 순차적으로 발성하게 되는 경우에, 전술한 S230 단계에서의 절차를 통해 해당 사용자가 발성한 비정형 자연어 명령어의 음성 정보가 해당 사용자의 디렉토리에 누적하여 저장된다(S240).
이와 같이 해당 사용자의 디렉토리에 비정형 자연어 명령어의 음성 정보가 일정 정도 이상(예를 들면, 30초 이상의 net voice)가 누적되게 되면, 화자 식별부는 문맥 독립 화자 식별을 위한 자동 학습을 통해 사용자별 모델(주파수 대역폭, 진폭 스펙트럼 등의 성문(voice print) 분석용 파라미터 값)을 생성하게 되며, 이와 같이 생성된 사용자별 파라미터 값은 해당 사용자의 디렉토리에 함께 저장된다(S250).
이에 따라, 화자 식별부(150)는 호출어 키워드에 기초한 문맥 종속 화자 식별과, 사용자별로 생성된 파라미터 값에 기초한 문맥 독립 화자 식별을 독립적으로 수행할 수 있게 된다.
한편, 이후 본 발명에 따른 인공 지능 비서 서비스를 이용하기 위해서 특정 사용자가 호출어와 비정형 자연어 명령어를 순차적으로 발성하는 경우에 화자 식별부(150)는 호출어 키워드를 통한 1차 화자 식별(문맥 종속 화자 식별)을 실행한 다음(S260), 비정형 자연어 명령어를 통한 2차 화자 식별(문맥 독립 화자 식별)을 연속적으로 실행하게 된다(S270).
화자 식별부(150)는 문맥 종속 화자 식별 방법을 통한 1차 화자 식별 결과값에 소정의 가중치를 적용한 값과, 문맥 독립 화자 식별을 통한 2차 화자 식별 결과값에 소정의 가중치를 적용한 값의 합산값에 기초하여 최종적으로 화자를 식별하게 된다(S280).
본 명세서에서는 상술한 바와 같은 화자 식별부(150)의 최종 화자 식별 방법을 문맥 종속 화자 식별 방법과 문맥 독립 화자 식별 방법이 융합된 하이브리드 화자 식별 방법이라 명하기로 한다.
한편, 본 발명을 실시함에 있어서, 전술한 S270 단계에서의 비정형 자연어 명령어의 음성 정보가 사용자의 디렉토리에 누적적으로 저장됨으로써, 전술한 S250 단계에서 생성된 사용자별 음성 인식 파라미터가 추가적으로 생성됨으로써, 화자 식별부(150)에서의 문맥 독립 화자 식별의 정밀도가 지속적으로 향상되도록 함이 바람직할 것이다.
도 4는 본 발명의 제2 실시예에 따른 인공 지능 비서 서비스 제공 방법의 실행 과정을 설명하는 신호 흐름도이다. 이하에서는 도 1, 도 2, 및 도 4를 참조하여, 본 발명의 일 실시예에 따른 인공 지능 비서 서비스 제공 방법의 실행 과정을 설명하기로 한다.
한편, 도 4에서의 본 발명의 제2 실시예에 따른 인공 지능 비서 서비스 제공 방법은 상술한 도 3에서의 본 발명의 제1 실시예에 따른 화자 식별 방법에서의 사용자 등록 절차가 완료된 상태로서, 화자 식별부(150)에서의 누적 학습을 통한 하이브리드 화자 식별 방법의 실행이 가능한 상태인 것을 전제로 실행된다.
먼저, 본 발명에 따른 인공 지능 비서 서비스를 이용하려는 사용자는 소정의 호출어 음성(예를 들면, '사일로')을 발성한 후, 연속적으로 비정형 자연어 명령어인 서비스 요청 음성(예를 들면, '영화 추천해줘')을 발성한다(S310).
이에 따라, 음성 인식 장비(100)의 화자 식별부(150)는 전술한 S260 단계 내지 S280 단계를 통한 하이브리드 화자 식별 방법의 실행을 통해 해당 사용자의 사용자 아이디를 식별할 수 있게 된다(S320).
한편, 본 발명에서는 호출어 정보를 알고 있고 있거나, 호출어를 우연히 발성한 제3자라 하더라도 전술한 도 3에서의 사용자별 등록 및 디렉토리 생성 절차를 진행하지 않은 제3자는 전술한 S320 단계에서 사용자 아이디를 식별할 수 없는 상태(즉, 인증 불가)가 됨으로써 본 발명에 따른 인공 지능 비서 서비스의 이용이 제한되게 된다.
상기와 같은 화자 식별 절차를 완료한 후, 음성 인식 장비(100)의 화자 식별부(150)는 사용자의 서비스 요청 음성을 분석하고(S330), 음성 인식 장비(100)의 통신부(190)는 해당 사용자의 아이디 정보 및 요청 서비스 내용을 포함하는 서비스 이용 권한 인증 요청 메시지를 서비스 제공 서버(200)로 송신한다(S340).
한편, 전술한 S330 단계에서 화자 식별부(150)가 서비스 요청 음성 분석 및 음성 인식을 실행함에 있어서는, 종래 기술에 따른 다양한 음성 인식 서비스에서의 음성 분석 및 인식 기술이 사용될 수 있을 것이다.
이후 서비스 제공 서버(200)는 음성 인식 장비(100)로부터 수신된 서비스 이용 권한 요청 메시지에 포함된 사용자의 아이디 정보 및 요청 서비스 내용 정보에 기초하여 요청된 서비스의 이용 권한에 대한 인증 절차를 실행한다(S350).
구체적으로, 서비스 제공 서버(200)에는 본 발명에 따른 인공 지능 비서 서비스 가입 단계에서 사용자로부터 제공받은 사용자별 정보가 하기의 표 1에서와 같이 저장되어 있을 수 있다.
한편, 본 발명을 실시함에 있어서는 음성 인식 장비(100)의 저장부(180)에도 표 1에서와 같은 정보가 동일하게 저장될 수도 있을 것이다.
사용자 ID 생년월일 성별 접근 제한 서비스
KIM77 1977.08.12. 없음
PARK78 1978.05.01. 유료 콘텐츠
KIM08 2008.12.15. 성인용 콘텐츠
한편, 전술한 S340 단계에서의 서비스 이용 권한 인증 요청 메시지에 포함된 사용자 아이디가 'KIM08'이고, 해당 메시지에 포함된 요청 서비스 내용이 '성인용 영화 콘텐츠의 시청'인 경우에 서비스 제공 서버(200)는 상기 표 1에서의 사용자 정보에 기초하여 해당 서비스의 이용 권한을 인증하지 않고, 음성 인식 장비(100)로 서비스 이용 승인 거절 메시지를 송신한다(S360).이에 따라, 음성 인식 장비(100)의 출력부(130)는 '요청하신 서비스는 이용할 수 없는 서비스입니다'와 같은 서비스 이용 불가 안내 음성을 해당 사용자에게 출력하게 된다.
한편, 전술한 S350 단계에서 서비스 제공 서버(200)가 서비스 이용 권한을 인증한 경우에 서비스 제공 서버(200)는 음성 인식 장비(100)로 서비스 이용 승인 완료 메시지를 송신하게 되며(S380), 이에 따라 음성 인식 장비(100)는 전술한 S310 단계에서의 서비스 요청에 따른 서비스 제공을 실행하게 된다(S390).
한편, 본 발명을 실시함에 있어서, 상기 표 1에서의 사용자 정보가 음성 인식 장비(100)의 저장부(180)에 저장되어 있는 경우에는 전술한 S350 단계에서의 서비스 이용 권한 인증 절차를 음성 인식 장비(100)의 판단부(170)를 통해 자체적으로 실행할 수도 있을 것이다.
아울러, 전술한 S390 단계에서 서비스 제공을 실행함에 있어서, 음성 인식 장비(100)는 전술한 S320 단계에서 식별된 화자의 사용자 ID 및 상기 표 1에서의 관련 정보에 기초한 개인 맞춤형 서비스를 제공할 수도 있을 것이다.
구체적으로, 전술한 S310 단계에서의 서비스 요청 음성이 '심심한데 뭐 재밌는거 없을까?'이고, 전술한 S320 단계에서 음성 인식 장비(100)의 화자 식별부(150)가 해당 화자의 아이디를 표 1에서의 'PARK78'로 인식한 경우에 음성 인식 장비(100)의 판단부(170)는 표 1에서의 사용자 정보와, 서비스 요청 음성에 대한 음성 분석 결과에 기초하여 'PARK78'을 위한 맞춤형 콘텐츠를 '미국 드라마'로 결정할 수 있을 것이다.
구체적으로, 전술한 S390 단계를 실시함에 있어서, 음성 인식 장비(100)의 판단부(170)는 'PARK78'의 선호 콘텐츠 정보로서 해당 사용자가 서비스 가입시 제공함으로써, 서비스 제공 서버(200) 및 음성 인식 장비(100)의 저장부(180)에 상기 표 1에서의 사용자 정보와 함께 추가로 저장되어 있는 선호 콘텐츠 정보인 '미국드라마 / 가족영화 / 최신가요' 중에서 'PARK78'의 연령대에 속하는 다른 여성 회원의 선호 콘텐츠 정보를 참고하여, 상대적 선호도가 높은 콘텐츠인 '미국드라마'를 'PARK78'을 위한 맞춤형 콘텐츠로 '미국드라마'로 결정할 수 있을 것이다.
이에 따라, 음성 인식 장비(100)의 판단부(170)는 '네, 사일로가 추천하는 미국드라마를 시청하시겠습니까?'와 같은 맞춤형 서비스 제안 메시지를 생성하고, 음성 인식 장비(100)의 출력부(130)는 해당 메시지를 사용자에게 음성 출력하게 된다.
본 발명에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이상에서는 본 발명의 바람직한 실시예 및 응용예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예 및 응용예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
본 발명은 음성 인식 서비스 산업 분야에서의 산업상 이용 가능성이 인정된다.

Claims (6)

  1. (a) 음성 인식 장비가, 소정의 호출어에 대한 사용자의 발성 음성 정보를 상기 사용자의 디렉토리에 저장하는 단계;
    (b) 상기 음성 인식 장비가, 상기 사용자로부터의 상기 호출어 발성 음성 정보에 기초하여 상기 사용자를 식별함으로써, 상기 사용자의 호출어 발성에 뒤따른 비정형 자연어 명령어의 발성 음성 정보를 상기 사용자의 디렉토리에 누적 저장하는 단계; 및
    (c) 상기 음성 인식 장비가, 상기 사용자의 디렉토리에 누적 저장된 상기 비정형 자연어 명령어의 발성 음성 정보에 기초하여 문맥 독립 화자 식별을 위한 사용자 음성 파라미터를 생성하는 단계
    를 포함하는 화자 식별 방법.
  2. 제1항에 있어서,
    (d) 상기 음성 인식 장비가, 상기 사용자로부터 상기 호출어 발성과 함께 비정형 자연어 명령어의 발성이 있는 경우에, 상기 호출어 발성 음성 정보에 기초하여 문맥 종속 화자 식별을 실행하고, 상기 비정형 자연어 명령어 발성 음성 정보에 기초하여 문맥 독립 화자 식별을 실행하는 단계를 더 포함하는 화자 식별 방법.
  3. 제2항에 있어서,
    (e) 상기 음성 인식 장비가, 상기 문맥 종속 화자 식별의 결과값과 상기 문맥 독립 화자 식별의 결과값에 기초하여 상기 사용자에 대한 화자 식별을 실행하는 단계를 더 포함하는 화자 식별 방법.
  4. 소정의 호출어에 대한 사용자의 발성 음성 정보를 상기 사용자의 디렉토리에 저장하는 저장부; 및
    상기 사용자로부터의 상기 호출어 발성 음성 정보에 기초하여 상기 사용자를 식별하는 화자 식별부
    를 포함하며,
    상기 화자 식별부가 호출어 발성 음성 정보에 기초하여 상기 사용자를 식별함으로써, 상기 저장부에는 상기 사용자의 호출어 발성에 뒤따른 비정형 자연어 명령어의 발성 음성 정보가 누적 저장되고,
    상기 화자 식별부는, 상기 사용자의 디렉토리에 누적 저장된 상기 비정형 자연어 명령어의 발성 음성 정보에 기초하여 문맥 독립 화자 식별을 위한 사용자 음성 파라미터를 생성하는 것인 음성 인식 장비.
  5. 제4항에 있어서,
    상기 화자 식별부는, 상기 사용자로부터 상기 호출어 발성과 함께 비정형 자연어 명령어의 발성이 있는 경우에, 상기 호출어 발성 음성 정보에 기초하여 문맥 종속 화자 식별을 실행하고, 상기 비정형 자연어 명령어 발성 음성 정보에 기초하여 문맥 독립 화자 식별을 실행하는 것인 음성 인식 장비.
  6. 제5항에 있어서,
    상기 화자 식별부는, 상기 문맥 종속 화자 식별의 결과값과 상기 문맥 독립 화자 식별의 결과값에 기초하여 상기 사용자에 대한 화자 식별을 실행하는 것인 음성 인식 장비.
PCT/KR2018/010225 2017-09-13 2018-09-03 문맥 종속 화자 식별 및 문맥 독립 화자 식별이 융합된 인공 지능 비서 서비스에서의 화자 식별 방법, 및 이에 사용되는 음성 인식 장비 WO2019054680A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170117367A KR101993827B1 (ko) 2017-09-13 2017-09-13 문맥 종속 화자 식별 및 문맥 독립 화자 식별이 융합된 인공 지능 비서 서비스에서의 화자 식별 방법, 및 이에 사용되는 음성 인식 장비
KR10-2017-0117367 2017-09-13

Publications (1)

Publication Number Publication Date
WO2019054680A1 true WO2019054680A1 (ko) 2019-03-21

Family

ID=65723990

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/010225 WO2019054680A1 (ko) 2017-09-13 2018-09-03 문맥 종속 화자 식별 및 문맥 독립 화자 식별이 융합된 인공 지능 비서 서비스에서의 화자 식별 방법, 및 이에 사용되는 음성 인식 장비

Country Status (2)

Country Link
KR (1) KR101993827B1 (ko)
WO (1) WO2019054680A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004294755A (ja) * 2003-03-27 2004-10-21 Secom Co Ltd 話者認証装置及び話者認証プログラム
KR20080090034A (ko) * 2007-04-03 2008-10-08 삼성전자주식회사 음성 화자 인식 방법 및 시스템
KR20100027865A (ko) * 2008-09-03 2010-03-11 엘지전자 주식회사 화자 및 음성 인식 장치 및 그 방법
KR20100073178A (ko) * 2008-12-22 2010-07-01 한국전자통신연구원 음성 인식을 위한 화자 적응 장치 및 그 방법
US20160093304A1 (en) * 2014-09-30 2016-03-31 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004294755A (ja) * 2003-03-27 2004-10-21 Secom Co Ltd 話者認証装置及び話者認証プログラム
KR20080090034A (ko) * 2007-04-03 2008-10-08 삼성전자주식회사 음성 화자 인식 방법 및 시스템
KR20100027865A (ko) * 2008-09-03 2010-03-11 엘지전자 주식회사 화자 및 음성 인식 장치 및 그 방법
KR20100073178A (ko) * 2008-12-22 2010-07-01 한국전자통신연구원 음성 인식을 위한 화자 적응 장치 및 그 방법
US20160093304A1 (en) * 2014-09-30 2016-03-31 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques

Also Published As

Publication number Publication date
KR101993827B1 (ko) 2019-06-27
KR20190030083A (ko) 2019-03-21

Similar Documents

Publication Publication Date Title
WO2019054681A1 (ko) 인공 지능 비서 서비스 제공 방법, 및 이에 사용되는 음성 인식 장비
CN110661927B (zh) 语音交互方法、装置、计算机设备及存储介质
EP0477688B1 (en) Voice recognition telephone dialing
US11763808B2 (en) Temporary account association with voice-enabled devices
US5917890A (en) Disambiguation of alphabetic characters in an automated call processing environment
US20200043502A1 (en) Information processing method and device, multimedia device and storage medium
US10714085B2 (en) Temporary account association with voice-enabled devices
US20190355352A1 (en) Voice and conversation recognition system
WO2015005679A1 (ko) 음성 인식 방법, 장치 및 시스템
US20070100637A1 (en) Autonomous integrated headset and sound processing system for tactical applications
US20030182119A1 (en) Speaker authentication system and method
CN106773742A (zh) 语音控制方法及语音控制系统
US20090204392A1 (en) Communication terminal having speech recognition function, update support device for speech recognition dictionary thereof, and update method
CN111094924A (zh) 用于执行基于语音的人机交互的数据处理装置和方法
CN110347901A (zh) 一种搜索方法以及一种应用该方法的电子装置
CN110858841B (zh) 通过已注册用户的认证来注册新用户的电子设备和方法
KR20140067687A (ko) 대화형 음성인식이 가능한 차량 시스템
Maskeliunas et al. Voice-based human-machine interaction modeling for automated information services
WO2022177103A1 (ko) 사용자와 대화하는 인공 지능 에이전트 서비스를 지원하는 전자 장치
US7146317B2 (en) Speech recognition device with reference transformation means
WO2019054680A1 (ko) 문맥 종속 화자 식별 및 문맥 독립 화자 식별이 융합된 인공 지능 비서 서비스에서의 화자 식별 방법, 및 이에 사용되는 음성 인식 장비
JP5510069B2 (ja) 翻訳装置
CN109616116A (zh) 通话系统及其通话方法
CN112513845A (zh) 与语音使能设备的暂时账户关联
KR20200058612A (ko) 인공지능 스피커 및 이를 이용한 대화 진행 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18857299

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18857299

Country of ref document: EP

Kind code of ref document: A1