KR101995443B1 - Method for verifying speaker and system for recognizing speech - Google Patents
Method for verifying speaker and system for recognizing speech Download PDFInfo
- Publication number
- KR101995443B1 KR101995443B1 KR1020170094968A KR20170094968A KR101995443B1 KR 101995443 B1 KR101995443 B1 KR 101995443B1 KR 1020170094968 A KR1020170094968 A KR 1020170094968A KR 20170094968 A KR20170094968 A KR 20170094968A KR 101995443 B1 KR101995443 B1 KR 101995443B1
- Authority
- KR
- South Korea
- Prior art keywords
- speaker
- speech recognition
- voice
- speech
- signal
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 239000013598 vector Substances 0.000 claims abstract description 83
- 238000012795 verification Methods 0.000 claims abstract description 65
- 238000004891 communication Methods 0.000 claims description 34
- 230000005236 sound signal Effects 0.000 claims description 30
- 230000004044 response Effects 0.000 claims description 17
- 230000006870 function Effects 0.000 description 35
- 230000009471 action Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 239000000284 extract Substances 0.000 description 11
- 238000012545 processing Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000005057 refrigeration Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computer Security & Cryptography (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
화자를 정확하게 인식할 수 있는 음성 인식 시스템 및 이의 화자 검증 방법이 제공된다. 화자 검증 방법은 상기 음성인식 서버에 의하여, 상기 음성인식 장치로부터 제1 화자의 음성을 포함하는 음성 신호를 수신하는 단계, 상기 음성 신호에 대하여 음성인식을 수행하여 음성인식 결과를 생성하는 단계, 상기 음성 신호에서 화자 특징 벡터를 추출하여 상기 화자 특징 벡터를 등록된 화자 특징 벡터와 비교하고, 상기 비교 결과에 따라 상기 음성 신호의 화자가 등록된 제2 화자라고 결정하는 단계, 상기 제2 화자의 휴대 장치로 상기 음성인식 결과 및 상기 음성 신호를 송신하는 단계, 상기 휴대 장치로부터 승인 입력을 수신하는 단계, 및 상기 음성인식 결과에 대응하는 동작을 실행하는 단계를 포함한다.There is provided a speech recognition system and speaker verification method capable of accurately recognizing a speaker. The speaker verification method includes receiving, by the speech recognition server, a speech signal including a speech of a first speaker from the speech recognition apparatus, performing speech recognition on the speech signal to generate a speech recognition result, Extracting a speaker feature vector from a speech signal, comparing the speaker feature vector with a registered speaker feature vector, and determining the speaker as a registered second speaker based on the comparison result; Transmitting the speech recognition result and the speech signal to a device, receiving an approval input from the portable device, and executing an operation corresponding to the speech recognition result.
Description
본 개시는 화자 검증 방법 및 음성인식 시스템에 관한 것으로서, 보다 상세하게는 음성인식 장치와 음성인식 서버를 포함하는 음성인식 시스템에서 화자를 검증하는 방법에 관한 것이다.The present disclosure relates to a speaker verification method and a speech recognition system, and more particularly, to a method of verifying a speaker in a speech recognition system including a speech recognition apparatus and a speech recognition server.
음성인식 기능이 탑재된 인공지능 스피커 장치가 출시되고 있다. 인공지능 스피커 장치는 사용자의 음성을 인식하고 음성에 포함된 명령을 추출하여 명령에 따른 동작을 실행하고 그 결과를 음성으로 출력함으로써 인공지능 비서와 같은 역할을 수행할 수 있다. 인공지능 스피커 장치가 단순히 음성 질의에 응답하여 질의 결과를 음성으로 출력하는 수준을 넘어서 금융 거래나 쇼핑과 같이 보안이 필요한 분야에서 사용되기 위해서는 정확하게 화자를 인식 및 식별할 수 있어야 한다. 그러나, 인공지능 스피커 장치는 목소리를 기초로 사용자를 식별할 수 밖에 없기 때문에 지문이나 홍채 인식과 같은 생체 정보를 이용한 사용자 식별 또는 인증 방법에 비해 정확도가 떨어진다.An artificial intelligent speaker device equipped with a speech recognition function is being released. The artificial intelligent speaker device recognizes the voice of the user, extracts commands included in the voice, performs an operation according to the command, and outputs the result as a voice, thereby performing the role of the artificial intelligence secretary. In order to be used in fields requiring security such as financial transaction or shopping, the artificial intelligent speaker apparatus must be capable of correctly recognizing and identifying the speaker beyond the level of outputting a query result in response to a voice query. However, since the artificial intelligent speaker device can only identify the user based on the voice, it is less accurate than the user identification or authentication method using biometric information such as fingerprint or iris recognition.
본 개시가 해결하고자 하는 과제는 전술한 문제를 해결하기 위한 것으로서, 화자를 정확하게 인식 및 식별할 수 있는 방법을 제공하는 것이다.SUMMARY OF THE INVENTION The present invention has been made to solve the above-mentioned problems, and it is an object of the present invention to provide a method for accurately recognizing and identifying a speaker.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제1 측면은 음성인식 장치와 음성인식 서버를 포함하는 음성인식 시스템에서 화자를 검증하는 방법을 제공한다. 화자 검증 방법은 상기 음성인식 서버에 의하여, 상기 음성인식 장치로부터 제1 화자의 음성을 포함하는 음성 신호를 수신하는 단계, 상기 음성 신호에 대하여 음성인식을 수행하여 음성인식 결과를 생성하는 단계, 상기 음성 신호에서 화자 특징 벡터를 추출하여 상기 화자 특징 벡터를 등록된 화자 특징 벡터와 비교하고, 상기 비교 결과에 따라 상기 음성 신호의 화자가 등록된 제2 화자라고 결정하는 단계, 상기 제2 화자의 휴대 장치로 상기 음성인식 결과 및 상기 음성 신호를 송신하는 단계, 상기 휴대 장치로부터 승인 입력을 수신하는 단계, 및 상기 음성인식 결과에 대응하는 동작을 실행하는 단계를 포함한다.As a technical means to achieve the above-mentioned technical object, a first aspect of the present disclosure provides a method for verifying a speaker in a speech recognition system including a speech recognition apparatus and a speech recognition server. The speaker verification method includes receiving, by the speech recognition server, a speech signal including a speech of a first speaker from the speech recognition apparatus, performing speech recognition on the speech signal to generate a speech recognition result, Extracting a speaker feature vector from a speech signal, comparing the speaker feature vector with a registered speaker feature vector, and determining the speaker as a registered second speaker based on the comparison result; Transmitting the speech recognition result and the speech signal to a device, receiving an approval input from the portable device, and executing an operation corresponding to the speech recognition result.
일 예에 따르면, 상기 등록된 제2 화자는 상기 음성인식 시스템에 등록된 복수의 사용자들 중 하나일 수 있다.According to one example, the registered second speaker may be one of a plurality of users registered in the voice recognition system.
본 개시의 제2 측면은 음성인식 장치 및 휴대 장치와 통신한는 통신 모듈 및 프로세서를 포함하는 음성인식 서버를 제공한다. 프로세서는 상기 통신 모듈을 이용하여 상기 음성인식 장치로부터 제1 화자의 음성을 포함하는 음성 신호를 수신하고, 상기 음성 신호에 대하여 음성인식을 수행하여 음성인식 결과를 생성하고, 상기 음성 신호에서 화자 특징 벡터를 추출하고, 상기 화자 특징 벡터를 등록된 화자 특징 벡터와 비교하고, 상기 비교 결과에 따라 상기 음성 신호의 화자가 등록된 제2 화자라고 결정하고, 상기 통신 모듈을 이용하여 상기 제2 화자의 휴대 장치로 상기 음성인식 결과 및 상기 음성 신호를 송신하고, 상기 통신 모듈을 이용하여 상기 제 휴대 장치로부터 승인 입력을 수신하고, 상기 음성인식 결과에 대응하는 동작을 실행하도록 구성된다.A second aspect of the present disclosure provides a speech recognition server including a communication module and a processor in communication with the speech recognition device and the portable device. The processor receives the speech signal including the speech of the first speaker from the speech recognition apparatus using the communication module, performs speech recognition on the speech signal to generate speech recognition result, Extracts a speech characteristic vector of the second speaker from the first speaker, compares the speaker characteristic vector with a registered speaker feature vector, determines the second speaker as a speaker of the speech signal according to the comparison result, The voice recognition result and the voice signal are transmitted to the portable device, the approval input is received from the portable device using the communication module, and the operation corresponding to the voice recognition result is executed.
본 개시의 제3 측면은 음성인식 서버와 음성인식 장치를 포함하는 음성인식 시스템을 제공한다. 음성인식 장치는 상기 음성인식 서버와 통신하는 제1 통신 모듈, 오디오 신호를 생성하는 마이크로폰, 상기 오디오 신호로부터 상기 음성 신호를 검출하고 상기 음성 신호를 상기 음성인식 서버로 송신하고 상기 음성인식 서버로부터 합성음 신호를 수신하는 제1 프로세서, 및 상기 합성음 신호에 대응하는 합성음을 재생하는 스피커를 포함한다. 음성인식 서버는 제2 프로세서, 및 상기 음성인식 장치 및 휴대 장치와 통신할 수 있는 제2 통신 모듈을 포함한다. 상기 제2 프로세서는 상기 음성인식 장치로부터 제1 화자의 음성을 포함하는 음성 신호를 수신하고, 상기 음성 신호에 대하여 음성인식을 수행하여 음성인식 결과를 생성하고, 상기 음성 신호에서 화자 특징 벡터를 추출하고, 상기 화자 특징 벡터를 등록된 화자 특징 벡터와 비교하고, 상기 비교 결과에 따라 상기 음성 신호의 화자가 등록된 제2 화자라고 인식하고, 상기 제2 화자의 휴대 장치로 상기 음성인식 결과 및 상기 음성 신호를 송신하고, 상기 휴대 장치로부터 승인 입력을 수신하고, 상기 음성인식 결과에 대응하는 동작을 실행하도록 구성된다.A third aspect of the present disclosure provides a speech recognition system including a speech recognition server and a speech recognition device. The voice recognition apparatus includes a first communication module that communicates with the voice recognition server, a microphone that generates an audio signal, a voice recognition server that detects the voice signal from the audio signal, transmits the voice signal to the voice recognition server, And a speaker for reproducing a synthesized sound corresponding to the synthesized sound signal. The speech recognition server includes a second processor and a second communication module capable of communicating with the speech recognition device and the portable device. The second processor receives a speech signal including a speech of a first speaker from the speech recognition apparatus, performs speech recognition on the speech signal to generate speech recognition result, extracts a speech feature vector from the speech signal, The speech recognition result is compared with a registered speaker feature vector, and the recognition result is recognized as a second speaker in which the speaker of the voice signal is registered according to the comparison result, Receives an approval input from the portable device, and executes an operation corresponding to the speech recognition result.
본 개시의 제4 측면은 음성인식 시스템의 음성인식 서버의 프로세서가 제1 측면에 따른 화자 검증 방법을 실행하도록 하는 명령어들을 포함하는 하나 이상의 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체를 제공할 수 있다.A fourth aspect of the present disclosure provides a computer-readable recording medium having recorded thereon one or more programs including instructions for causing a processor of a speech recognition server of a speech recognition system to perform a speaker verification method according to the first aspect have.
본 개시의 다양한 실시예들에 따르면, 화자 검증 절차를 통해 화자를 정확하게 식별 및 인식할 수 있기 때문에 도용의 우려 없이 화자의 명령을 실행할 수 있다. 뿐만 아니라, 화자 검증 오류 또는 목소리 도용이 발생하더라도 이러한 사실을 화자 당사자가 파악할 수 있다.According to various embodiments of the present disclosure, a speaker's command can be executed without fear of theft because the speaker can be correctly identified and recognized through the speaker verification procedure. In addition, even if a speaker verification error or a voice theft occurs, the speaker party can grasp this fact.
도 1은 일 실시예에 따른 음성인식 시스템의 예시적인 네트워크 구성도이다.
도 2a는 일 실시예에 따른 음성인식 스피커 장치의 내부 구성을 설명하기 위한 블록도이다.
도 2b는 다른 실시예에 따른 음성인식 스피커 장치의 내부 구성을 설명하기 위한 블록도이다.
도 3은 일 실시예에 따른 음성인식 서버의 내부 구성을 설명하기 위한 블록도이다.
도 4a는 일 실시예에 따른 음성인식 서버의 프로세서의 내부 구성을 설명하기 위한 블록도이다.
도 4b는 일 실시예에 따른 음성인식 서버의 프로세서의 내부 구성을 설명하기 위한 블록도이다.
도 5a 및 도 5b는 일 실시예에 따른 음성인식 시스템의 화자 검증 방법을 설명하기 위한 예시적인 흐름도이다.
도 6은 일 실시예에 따라서 음성인식 시스템에 접속되는 제2 화자의 휴대 장치의 예시적인 화면을 도시한다.
도 7은 다른 실시예에 따른 음성인식 시스템의 화자 검증 방법을 설명하기 위한 예시적인 흐름도이다.1 is an exemplary network configuration diagram of a speech recognition system according to an embodiment.
2A is a block diagram for explaining an internal configuration of a speech recognition speaker apparatus according to an embodiment.
2B is a block diagram for explaining an internal configuration of a voice recognition speaker device according to another embodiment.
3 is a block diagram illustrating an internal configuration of a speech recognition server according to an exemplary embodiment of the present invention.
4A is a block diagram illustrating an internal configuration of a processor of a speech recognition server according to an exemplary embodiment of the present invention.
4B is a block diagram illustrating an internal configuration of a processor of a speech recognition server according to an embodiment.
5A and 5B are exemplary flowcharts for explaining a speaker verification method of a speech recognition system according to an embodiment.
6 illustrates an exemplary screen of a portable device of a second speaker connected to a speech recognition system in accordance with one embodiment.
7 is an exemplary flowchart for explaining a speaker verification method of a speech recognition system according to another embodiment.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings, which will be readily apparent to those skilled in the art. The present invention may, however, be embodied in many different forms and should not be construed as limited to the embodiments set forth herein. In order to clearly illustrate the present invention, parts not related to the description are omitted, and similar parts are denoted by like reference characters throughout the specification.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.Throughout the specification, when a part is referred to as being "connected" to another part, it includes not only "directly connected" but also "electrically connected" with another part in between . Also, when an element is referred to as "comprising ", it means that it can include other elements as well, without departing from the other elements unless specifically stated otherwise.
본 명세서에서 다양한 곳에 등장하는 "일부 실시예에서" 또는 "일 실시예에서" 등의 어구는 반드시 모두 동일한 실시예를 가리키는 것은 아니다.The phrases "in some embodiments" or "in one embodiment" appearing in various places in this specification are not necessarily all referring to the same embodiment.
일부 실시예는 기능적인 블럭 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블럭들의 일부 또는 전부는, 특정 기능들을 실행하는 다양한 개수의 하드웨어 및/또는 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 개시의 기능 블럭들은 하나 이상의 마이크로프로세서들에 의해 구현되거나, 소정의 기능을 위한 회로 구성들에 의해 구현될 수 있다. 또한, 예를 들어, 본 개시의 기능 블럭들은 다양한 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능 블럭들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 개시는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. “모듈” 및 “구성”등과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다.Some embodiments may be represented by functional block configurations and various processing steps. Some or all of these functional blocks may be implemented with various numbers of hardware and / or software configurations that perform particular functions. For example, the functional blocks of the present disclosure may be implemented by one or more microprocessors, or by circuit configurations for a given function. Also, for example, the functional blocks of the present disclosure may be implemented in various programming or scripting languages. The functional blocks may be implemented with algorithms running on one or more processors. In addition, the present disclosure may employ conventional techniques for electronic configuration, signal processing, and / or data processing, and the like. The terms " module " and " configuration " and the like are used extensively and are not limited to mechanical and physical configurations.
또한, 도면에 도시된 구성 요소들 간의 연결 선 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것일 뿐이다. 실제 장치에서는 대체 가능하거나 추가된 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들에 의해 구성 요소들 간의 연결이 나타내어질 수 있다.Also, the connection lines or connection members between the components shown in the figures are merely illustrative of functional connections and / or physical or circuit connections. In practical devices, connections between components can be represented by various functional connections, physical connections, or circuit connections that can be replaced or added.
본 개시에서 음성인식 기능은 사용자의 음성을 포함하는 음성 신호를 문자열(또는 텍스트)로 변환하는 것을 말한다. 음성 인식 기능에 의해 음성 신호가 변환된 문자열(또는 텍스트)은 음성인식 결과로 지칭될 수 있다. 사용자의 음성 신호는 음성 명령을 포함할 수 있으며, 음성인식 결과 역시 음성 명령에 대응하는 명령을 포함할 수 있다. 음성 명령은 음성인식 스피커 장치 또는 음성인식 서버의 특정 기능을 실행할 수 있다. 한편, 본 개시에서 음성합성 기능은 음성인식 기능과 반대로 문자열(또는 텍스트)을 음성 신호로 변환하는 것을 말한다. 음성 인식 기능에 의해 문자열(또는 텍스트)이 변환된 음성 신호는 합성음 신호로 지칭될 수 있다.In the present disclosure, the speech recognition function refers to converting a speech signal including a user's voice into a character string (or text). The string (or text) in which the speech signal is converted by the speech recognition function can be referred to as a speech recognition result. The user's voice signal may include voice commands, and the voice recognition results may also include commands corresponding to voice commands. The voice command can perform certain functions of the voice recognition speaker device or the voice recognition server. On the other hand, the speech synthesis function in the present disclosure refers to the conversion of a string (or text) into a speech signal as opposed to a speech recognition function. A voice signal in which a character string (or text) is converted by the voice recognition function may be referred to as a synthetic voice signal.
본 개시에서 "등록된(registered)"이라는 표현은 음성인식 시스템에 사용자 또는 이의 관련 정보로서 등록되어 있음을 의미한다. "등록된 사용자"는 음성인식 시스템에 사용자 등록을 마친 사용자를 의미한다. 어느 한 사람은 본 개시에 따른 음성인식 시스템에 사용자로 등록할 수 있으며, 사용자로 등록할 때 본인의 음성을 입력할 수 있다. 음성인식 시스템은 사용자 등록 시에 입력된 음성의 음성 신호에서 화자 특징 벡터를 추출하여 등록된 사용자의 관련 정보로 저장할 수 있다. 이와 같이 음성인식 시스템에 저장된 화자 특징 벡터는 등록된 화자 특징 벡터라고 지칭할 수 있다. 또한, 사용자 등록 시에, 자기 소유의 휴대 장치의 식별 번호를 함께 저장할 수 있다.The expression " registered "in this disclosure means that the speech recognition system is registered as a user or its associated information. "Registered user" means a user who has registered the user in the speech recognition system. One can register as a user in the speech recognition system according to the present disclosure, and can input his or her voice when registering as a user. The speech recognition system can extract the speaker feature vector from the voice signal of the voice inputted at the time of user registration and store it as related information of the registered user. The speaker feature vector stored in the speech recognition system may be referred to as a registered speaker feature vector. Further, at the time of user registration, the identification number of the portable device of its own can be stored together.
음성인식 시스템에는 복수의 사용자들이 등록될 수 있다. 본 개시에서, 제1 화자는 음성 신호의 음성을 실제로 발성한 사람을 의미하고, 등록된 제2 화자(registered second speaker)는 음성인식 시스템에 등록된 복수의 사용자들 중에서 음성인식 시스템이 음성 신호의 음성을 발성한 것으로 인식 또는 결정한 사용자를 의미한다. 등록된 제2 화자는 일반적으로 제1 화자와 동일하지만, 음성인식 시스템의 화자 오인식 및 목소리 도용이 발생하는 경우, 등록된 제2 화자는 제1 화자와 상이할 수 있다.A plurality of users can be registered in the speech recognition system. In this disclosure, a first speaker means a person who actually uttered the voice of a voice signal, and a registered second speaker is a registered second speaker, among the plurality of users registered in the voice recognition system, Means a user who has recognized or determined that the voice has been uttered. The registered second speaker is generally the same as the first speaker, but when the speaker recognition system and the voice theft of the speech recognition system occur, the registered second speaker may be different from the first speaker.
본 개시에서 키워드는 워드 형태를 갖거나, 구 형태를 가질 수 있다. 본 개시에서, 웨이크업 키워드 이후에 발화되는 음성 명령은 자연어 형태의 문장 형태, 워드 형태, 또는 구 형태를 가질 수 있다.In the present disclosure, the keyword may have a word form or a sphere form. In the present disclosure, voice commands that are uttered after the wakeup keyword may have the form of a sentence form, a word form, or a sphere form in natural language form.
이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS The present invention will be described in detail with reference to the accompanying drawings.
도 1은 일 실시예에 따른 음성인식 시스템의 예시적인 네트워크 구성도이다.1 is an exemplary network configuration diagram of a speech recognition system according to an embodiment.
도 1을 참조하면, 음성인식 시스템의 네트워크 환경은 음성인식 스피커 장치(100), 음성인식 서버(200), 휴대 장치(300) 및 네트워크(400)를 포함하는 것으로 예시적으로 도시된다. 음성인식 시스템은 음성인식 스피커 장치(100) 및 음성인식 서버(200)를 포함한다.Referring to FIG. 1, the network environment of the speech recognition system is illustratively illustrated as including a speech
음성인식 스피커 장치(100)는 음성인식 장치의 일 예로서, 음성 제어 기능이 탑재되어 특정 기능을 수행하는 스피커 장치이다. 음성인식 스피커 장치(100)는 스마트 스피커 장치 또는 인공지능 스피커 장치로 지칭될 수도 있다. 음성인식 스피커 장치(100)는 화자의 음성을 수신하면 음성과 화자를 인식하고 음성에 포함된 명령을 추출하여 명령에 따른 동작을 실행하고 그 결과를 음성으로 출력할 수 있다. 음성인식 스피커 장치(100)가 수행할 수 있는 특정 기능은 예컨대 음성 정보 제공, 음악 재생, 인터넷 쇼핑, 금융 거래, 전화 연결, 메시지 전송, 알람 설정, 및 음성인식 스피커 장치에 네트워크를 통해 접속된 전자 또는 기계 장치의 제어 등을 포함할 수 있다. The speech
예를 들면, 음성인식 스피커 장치(100)가 네트워크를 통해 스마트 텔레비전에 접속된 경우, 특정 기능은 채널 시청, 채널 검색, 동영상 재생, 및 프로그램 검색 등을 포함할 수 있다. 예를 들어, 음성인식 스피커 장치(100)가 스마트 냉장고와 같은 가전 기기에 접속된 경우, 특정 기능은 냉장 및 냉동 상태 점검 및 온도 설정 등을 포함할 수 있다. 그러나, 본 개시에서 특정 기능은 상술한 바로 제한되지 않는다.For example, when the speech
음성인식 스피커 장치(100)는 무선 또는 유선 통신을 통해 네트워크(400)를 통해 음성인식 서버(200)와 통신할 수 있다.The speech
네트워크(400)의 통신 방식은 제한되지 않으며, 네트워크(400)에 포함될 수 있는 통신망(일례로, 이동통신망, 유선 인터넷, 무선 인터넷, 방송망)을 활용한 통신 방식뿐만 아니라, 음성인식 스피커 장치(100)와의 근거리 무선 통신이 포함될 수 있다. 예를 들어, 네트워크(400)는 PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다. 네트워크(400)는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.The communication method of the
음성인식 서버(200)는 네트워크(400)를 통해 음성인식 스피커 장치(100)와 통신하며, 적어도 하나의 컴퓨터 장치로 구현될 수 있다. 음성인식 서버(200)는 클라우드 형태로 분산될 수 있으며, 명령, 코드, 파일, 컨텐츠 등을 제공할 수 있다.The
음성인식 서버(200)는 음성인식 스피커 장치(100)로부터 수신되는 음성 신호를 문자열(또는 텍스트)로 변환하여 음성인식 결과를 생성할 수 있다. 음성인식 서버(200)는 음성인식 스피커 장치(100)에서 재생될 음성을 합성하여 합성음 신호를 생성하고 합성음 신호를 음성인식 스피커 장치(100)에 송신할 수 있다.The
음성인식 서버(200)는 음성인식 스피커 장치(100)가 수행할 수 있는 특정 기능들을 실제로 수행할 수 있다. 예컨대, 음성 정보 제공 기능의 경우, 음성인식 서버(200)는 음성인식 스피커 장치(100)로부터 수신된 음성 신호에 포함된 정보 요청을 인식하고, 이에 대한 결과를 생성하여, 합성음 신호의 형태로 음성인식 스피커 장치(100)로 송신할 수 있다. 전화 연결 기능의 경우, 음성인식 서버(200)는 음성인식 스피커 장치(100)로부터 수신된 음성 신호에 포함된 전화 연결 요청을 인식하고, 요청에 따라 전화 연결을 수행하며, 전화 연결 시 송신 신호와 수신 신호를 중계할 수 있다. 음성인식 서버(200)는 네트워크(400)를 통해 가전 기기에도 접속될 수 있으며, 음성인식 서버(200)는 음성인식 스피커 장치(100)로부터 수신된 음성 신호에 포함된 제어 명령에 따라 가전 기기를 제어할 수 있다.The
음성인식 서버(200)는 네트워크(400)를 통해 휴대 장치(300)에 접속될 수 있다. 음성인식 서버(200)와 음성인식 스피커 장치(100)를 연결하는 네트워크와 음성인식 서버(200)와 휴대 장치(300)를 연결하는 네트워크는 서로 다른 종류일 수도 있다. 예컨대, 음성인식 서버(200)와 음성인식 스피커 장치(100)를 연결하는 네트워크는 LAN 또는 인터넷일 수 있으며, 음성인식 서버(200)와 휴대 장치(300)를 연결하는 네트워크는 이동통신망일 수 있다.The
휴대 장치(300)는 사용자가 휴대하고 다닐 수 있는 무선 통신을 지원하는 전자 기기이다. 예컨대, 휴대 장치(300)는 휴대 전화, 스마트폰, 태블릿, 또는 노트북 등일 수 있다. 휴대 장치(300)는 전화 기능, 메시지 기능, 또는 메신저 기능을 가질 수 있으며, 음성인식 서버(200)로부터 수신되는 음성 신호 또는 영상 신호를 재생할 수 있다. 또한, 휴대 장치(300)는 음성 신호를 음성인식 서버(200)로 제공할 수도 있다. 휴대 장치(300)는 일반적으로 한 개인이 사용하는 전자 기기일 수 있다.The
도 1에는 음성인식 스피커 장치(100)가 네트워크(400)를 통해 음성인식 기능을 수행하는 음성인식 서버(200)에 접속되는 것으로 도시되어 있지만, 이는 예시적이며, 음성인식 스피커 장치(100)는 독립적으로 음성인식 또는 음성합성 기능을 수행할 수도 있다.Although FIG. 1 shows the speech
도 2a는 일 실시예에 따른 음성인식 스피커 장치(100)의 내부 구성을 설명하기 위한 블록도이다.2A is a block diagram for explaining an internal configuration of a voice
도 2a를 참조하면, 음성인식 스피커 장치(100)는 프로세서(110), 마이크로폰(120), 스피커(130) 및 통신 모듈(140)을 포함할 수 있다. 음성인식 스피커 장치(100)는 도 2a에 도시된 구성요소보다 많은 구성 요소들을 포함할 수 있다. 예를 들면, 음성인식 스피커 장치(100)는 메모리를 더 포함할 수 있다. 음성인식 스피커 장치(100)는 통신 모듈(140)을 통해 도 1의 네트워크(400)에 접속되어, 음성인식 서버(200)와 통신할 수 있다.2A, a voice
마이크로폰(120)은 주변의 오디오를 전기적인 음향 데이터로 변환함으로써 오디오 신호를 직접 생성할 수 있다. 음성인식 스피커 장치(100)는 복수의 마이크로폰(120)을 포함할 수 있으며, 복수의 마이크로폰(120)을 이용하여 오디오 신호의 입력 방향을 찾아낼 수 있다.The
다른 예에 따르면, 음성인식 스피커 장치(100)는 통신 모듈(140)을 통해 외부 장치로부터 송신된 오디오 신호를 수신할 수도 있다. 스피커(130)는 오디오 신호를 음성으로 변환하여 출력할 수 있다. According to another example, the speech
프로세서(110)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리로부터 프로세서(110)에 제공되거나, 통신 모듈(140)을 통해 수신되어 프로세서(110)로 제공될 수 있다. 예를 들면 프로세서(110)는 메모리와 같은 기록 장치에 저장된 프로그램 코드에 따라 명령을 실행하도록 구성될 수 있다.The
프로세서(110)는 마이크로폰(120)에서 생성된 오디오 신호로부터 화자의 음성에 대응하는 음성 신호를 검출하고, 통신 모듈(140)을 통해 검출된 음성 신호를 음성인식 서버(200)로 송신할 수 있다. 프로세서(110)는 키워드를 이용하여 오디오 신호로부터 음성 신호를 검출할 수 있다. 프로세서(110)는 오디오 신호 중에서 키워드에 대응하는 키워드 음성 신호를 추출함으로써 키워드 음성 신호에 후속하여 수신되는 음성 신호를 식별할 수 있다.The
프로세서(110)는 음성인식 서버(200)로부터 합성음 신호를 수신하고 스피커(130)를 통해 합성음 신호에 대응하는 합성음을 재생할 수 있다.The
도 2b는 다른 실시예에 따른 음성인식 스피커 장치(100a)의 내부 구성을 설명하기 위한 블록도이다.2B is a block diagram for explaining an internal configuration of the speech
도 2b를 참조하면, 음성인식 스피커 장치(100a)는 도 2a의 음성인식 스피커 장치(100)에 비해 카메라(150)를 더 포함할 수 있다.Referring to FIG. 2B, the speech
카메라(150)는 프로세서(110)에 의해 제어되며, 마이크로폰(120)으로부터 수신되는 오디오 신호에서 음성 신호가 검출된 시점의 영상에 대응하는 영상 신호를 생성할 수 있다. 프로세서(110)는 통신 모듈(140)을 통해 영상 신호를 음성인식 서버(200)로 송신할 수 있다. 카메라(150)는 예컨대 360도를 모두 촬영할 수 있는 360도 카메라일 수 있다.The
다른 예에 따르면, 음성인식 스피커 장치(100a)는 카메라(150)의 촬영 방향을 조절할 수 있다. 음성인식 스피커 장치(100a)는 음성이 발생한 방향을 감지할 수 있는 센서를 포함할 수 있다. 프로세서(110)는 음성 신호가 검출된 방향을 감지하고, 카메라(150)의 촬영 방향을 음성 신호가 검출된 방향으로 조절할 수 있다. 이때, 프로세서(110)에서 음성인식 서버(200)로 전송되는 영상 신호는 화자의 음성이 발생한 방향의 영상을 포함할 수 있다.According to another example, the speech
또 다른 예에 따르면, 음성인식 스피커 장치(100a)는 주변 360도를 촬영할 수 있도록 일정한 간격으로 배열되는 복수의 카메라(150)를 포함할 수 있다. 음성인식 스피커 장치(100a)는 음성이 발생한 방향을 감지할 수 있는 센서를 포함할 수 있다. 프로세서(110)는 음성 신호가 검출된 방향을 감지하고, 복수의 카메라(150) 중에서 음성 신호가 검출된 방향을 촬영할 수 있는 카메라(150)를 이용하여 화자의 음성이 발생한 방향의 영상에 대응하는 영상 신호를 획득할 수 있다.According to another example, the speech
도 3은 일 실시예에 따른 음성인식 서버(200)의 내부 구성을 설명하기 위한 블록도이다.3 is a block diagram for explaining an internal configuration of the
도 3을 참조하면, 음성인식 서버(200)는 프로세서(210), 메모리(220) 및 통신 모듈(230)을 포함한다. 음성인식 서버(200)는 도 3에 도시된 구성요소보다 많은 구성 요소들을 포함할 수 있다. 예를 들면, 음성인식 서버(200)는 입출력 장치를 더 포함할 수 있다.Referring to FIG. 3, the
통신 모듈(230)은 네트워크(400)를 통해 음성인식 서버(200)가 음성인식 스피커 장치(100) 및 휴대 장치(300)와 통신하기 위한 기능을 제공할 수 있다. 음성인식 서버(200)는 통신 모듈(230)을 통해 도 1의 네트워크(400)에 접속되어, 음성인식 스피커 장치(100) 및 휴대 장치(300)와 통신할 수 있다.The
메모리(220)는 컴퓨터에서 판독 가능한 기록 매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 메모리(220)에는 운영체제와 적어도 하나의 프로그램 코드(예컨대, 음성인식 서버(200)에 설치되어 구동되는 음성인식 어플리케이션, 음성합성 어플리케이션 등을 위한 코드)가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 통신 모듈(230)을 이용하여 통신을 통해 메모리(220)에 로딩될 수도 있다. 예를 들어, 적어도 하나의 프로그램은 개발자들 또는 어플리케이션의 설치 파일을 배포하는 파일 배포 시스템이 네트워크(400)를 통해 제공하는 파일들에 의해 설치되는 프로그램에 기반하여 메모리(220)에 로딩될 수 있다.The
프로세서(210)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 프로세서(210)는 메모리(220)에 저장된 프로그램 코드에 따라 명령을 실행하도록 구성될 수 있다.The
프로세서(210)는 음성인식 스피커 장치(100)로부터 제1 화자의 음성을 포함하는 음성 신호를 수신하고, 음성 신호에 대하여 음성인식을 수행하여 음성인식 결과를 생성하도록 구성될 수 있다. 예를 들어, 프로세서(210)는 음성 신호에 대한 음성 인식을 수행하기 위하여, 음성 신호의 주파수 특성을 추출하고, 음향 모델과 언어 모델을 이용하여 음성 인식을 수행할 수 있다. 주파수 특성은 음향 입력의 주파수 스펙트럼을 분석하여 추출되는 음향 입력의 주파수 성분들의 분포를 의미할 수 있다. 음향 모델과 언어 모델은 메모리(220)에 저장될 수 있다. 다만 음성인식 방법은 이에 한정되는 것은 아니며, 음성 신호를 문자열(또는 텍스트)로 변환하는 다양한 기술들이 사용될 수 있다.The
프로세서(210)는 음성 신호를 분석하여 음성 신호에 포함된 음성을 발화한 화자가 누구인지를 판단할 수 있다. 예를 들어, 음성 신호에서 화자 특징 벡터를 추출하여 화자 특징 벡터를 등록된 화자 특징 벡터와 비교하고, 비교 결과에 따라 음성 신호의 화자가 등록된 제2 화자(registered second speaker)라고 결정하도록 구성될 수 있다. 등록된 화자 특징 벡터(registered speaker feature vector)는 메모리(220)에 미리 저장될 수 있다. 음성인식 서버(200)에 복수의 화자들이 음성인식 스피커 장치(100)의 사용자로 등록할 수 있으며, 이 경우, 메모리(220)에는 복수의 등록된 화자 특징 벡터들이 저장될 수 있다. 등록된 화자 특징 벡터들은 등록된 화자들에 각각 대응할 수 있다.
프로세서(210)는 음성 신호의 화자가 제2 화자라고 결정하기 위하여, 음향 모델로부터 추출된 사후 정보(states posteriors), 일반적 배경 모델, 및 전체 변이성 변환 정보 중 적어도 하나를 이용하여 음성 신호의 주파수 특성으로부터 화자 특징 벡터를 생성할 수 있다. 프로세서(210)는 생성된 화자 특징 정보와 메모리(220)에 저장된 등록된 화자 특징 벡터들에 기초하여 음성 신호의 화자가 등록된 화자인지 여부를 판단할 수 있다. 메모리(220)에는 사후 정보, 일반적 배경 모델, 전체 변이성 변환 정보, 및 등록된 화자 정보 중 적어도 하나가 저장될 수 있다.The
프로세서(210)는 제2 화자의 휴대 장치(300)로 음성인식 결과 및 음성 신호를 송신하고, 제2 화자의 휴대 장치(300)로부터 승인 입력을 수신하도록 구성될 수 있다. 제2 화자의 등록된 휴대 장치(300)에 관한 정보는 메모리(220)에 미리 저장될 수 있다. 제2 화자가 음성인식 스피커 장치(100)를 통해 음성인식 서버(200)에 음성인식 스피커 장치(100)의 사용자로 등록할 때, 자신의 휴대 장치(300)에 관한 정보(예컨대, 휴대 장치(300)의 식별번호)를 함께 등록할 수 있다.The
프로세서(210)는 음성인식 결과에 대응하는 동작을 실행하도록 구성될 수 있다. 프로세서(210)는 음성인식 결과에 대응하는 기능을 결정하고, 해당 기능을 수행할 수 있다. 프로세서(210)는 동작의 실행 결과를 보고하기 위한 합성음 신호를 생성하도록 구성될 수 있다. 프로세서(210)는 함성음 신호를 음성인식 스피커 장치(100)에 송신하도록 구성될 수 있다.
음성인식 서버(200)는 입출력 장치로서, 마이크로폰 또는 스피커를 더 포함할 수 있다. 음성인식 서버(200)는 음성 신호를 직접 생성하고 합성음을 직접 재생할 수도 있다.The
도 4a는 일 실시예에 따른 음성인식 서버의 프로세서의 내부 구성을 설명하기 위한 블록도이다.4A is a block diagram illustrating an internal configuration of a processor of a speech recognition server according to an exemplary embodiment of the present invention.
도 4a를 참조하면, 음성인식 서버(200)의 프로세서(210)는 음성 신호 수신부(211), 음성 인식부(212), 화자 인식부(213), 화자 검증부(214), 및 기능부(215)를 포함한다. 음성인식 서버(200)는 합성음 신호 생성부(216)를 더 포함할 수 있다. 화자 인식부(213)는 화자 특징 벡터 추출부(213a), 화자 특징 벡터 비교부(213b), 및 등록 화자 결정부(213c)를 포함한다.4A, the
음성 신호 수신부(211)는 음성인식 스피커 장치(100)로부터 제1 화자의 음성을 포함하는 음성 신호를 수신한다.The voice
음성 인식부(212)는 음성 신호 수신부(211)에 의해 수신된 음성 신호에 대하여 음성인식을 수행하여 음성인식 결과를 생성한다. 음성 인식부(212)는 음성 신호에 대하여 음성인식을 수행하여 화자의 음성을 문자열(또는 텍스트)로 변환할 수 있다. 음성 인식부(212)는 변환된 문자열(또는 텍스트)을 자연어 처리하여 음성 신호에 포함된 화자의 명령을 추출할 수 있다. 음성인식 결과는 화자의 명령을 포함하며, 음성인식 결과에 대응하는 동작은 화자의 명령에 따른 동작을 의미한다.The
화자 인식부(213)는 음성 신호 수신부(211)에 의해 수신된 음성 신호의 화자가 제2 화자라고 결정한다. 제2 화자는 음성인식 시스템에 음성인식 스피커 장치(100)의 사용자로 등록된 화자이다. 예를 들면, 화자 특징 벡터 추출부(213a)는 음성 신호 수신부(211)에 의해 수신된 음성 신호에서 화자 특징 벡터를 추출한다. 화자 특징 벡터 추출부(213a)는 시간 도메인(time domain) 기반의 음성 신호를 주파수 도메인(frequency domain) 상의 신호로 변환하고, 변환된 신호의 주파수 에너지를 서로 다르게 변형함으로써 화자 특징 벡터를 추출할 수 있다. 예컨대, 화자 특징 벡터는 멜 주파수 켑스트럼 계수(Mel-Frequency Cepstral Coefficients) 또는 필터뱅크 에너지(Filter Bank Energy)를 기초로 추출될 수 있으나, 이에 한정되는 것은 아니며 다양한 방식으로 오디오 데이터로부터 화자 특징 벡터를 추출할 수 있다.The
화자 특징 벡터 비교부(213b)는 화자 특징 벡터 추출부(213a)에 의해 추출된 화자 특징 벡터를 메모리(220)에 저장된 등록된 화자 특징 벡터와 비교한다. 메모리(220)에는 복수의 등록된 화자 특징 벡터들이 존재하며, 화자 특징 벡터 비교부(213b)는 추출된 화자 특징 벡터를 복수의 등록된 화자 특징 벡터들과 비교하여, 가장 유사도가 높은 등록된 화자 특징 벡터를 결정한다. 등록 화자 결정부(213c)는 화자 특징 벡터 비교부(213b)의 비교 결과에 따라 음성 신호의 화자가 등록된 제2 화자라고 결정한다. 등록 화자 결정부(213c)는 가장 유사도가 높은 등록된 화자 특징 벡터의 화자를 음성 신호의 화자로 결정한다. 등록된 화자 특징 벡터들이 모두 미리 설정한 기준치를 넘는 유사도를 갖지 못한 경우, 등록 화자 결정부(213c)는 음성 신호의 화자가 등록된 화자가 아니라고 결정할 수 있다. 이때, 프로세서(210)는 음성인식 결과에 대응하는 동작을 수행하지 않거나, 음성인식 결과에 대응하는 동작이 누구나 수행할 수 있는 동작으로 설정된 경우에 한하여 해당 동작을 수행할 수 있다.The speaker feature
화자 검증부(214)는 화자 인식부(213)에서 결정되는 제2 화자의 휴대 장치로 음성 인식부(213)에서 생성된 음성인식 결과와 음성 신호 수신부(211)에서 수신된 음성 신호를 송신한다. 제2 화자의 휴대 장치의 식별 번호는 메모리(220)에 미리 저장될 수 있다. 화자 검증부(214)는 제2 화자의 휴대 장치로부터 승인 입력을 수신할 수 있다.The
기능부(215)는 화자 검증부(214)에서 승인 입력을 수신하면, 음성 인식부(213)에서 생성된 음성인식 결과에 대응하는 동작을 실행한다. 기능부(215)는 음성 신호의 화자가 등록된 화자가 아니라고 판단되는 경우 음성인식 결과에 대응하는 동작을 실행하지 않을 수 있다. 기능부(215)는 화자 검증부(214)에서 거절 입력을 수신하면 음성인식 결과에 대응하는 동작을 실행하지 않는다. When the
합성음 신호 생성부(216)는 기능부(215)에서 동작을 실행한 경우, 동작의 실행 결과를 보고하기 위한 합성음 신호를 생성한다. 합성음 신호 생성부(216)는 음성 신호의 화자가 등록된 화자가 아니라고 판단되어 음성인식 결과에 대응하는 동작이 실행되지 않은 경우나, 화자 검증부(214)에서 승인 입력을 수신하지 못하여 음성인식 결과에 대응하는 동작이 실행되지 않은 경우에는 동작이 실행되지 않았음을 보고하기 위한 합성음 신호를 생성할 수 있다.When the
다른 실시예에 따르면, 프로세서(210)는 음성인식 스피커 장치(100)로부터 영상 신호를 수신하는 영상 신호 수신부를 더 포함할 수 있다. 이때, 화자 검증부(214)는 영상 신호 수신부에 의해 수신된 영상 신호를 제2 화자의 휴대 장치로 송신할 수 있다.According to another embodiment, the
다른 실시예에 따르면, 프로세서(210)는 화자 벡터 개선부를 더 포함하여 구성될 수 있다. 화자 검증부(214)가 제2 화자의 휴대 장치로부터 승인 입력을 수신하면, 수신된 음성 신호의 화자가 제2 화자임이 확인된 것이므로, 화자 벡터 개선부는 수신된 음성 신호에서 추출된 화자 특징 벡터를 이용하여 메모리(220)에 저장된 제2 화자의 등록된 화자 특징 벡터를 개선할 수 있다. 화자 특징 벡터 개선부는 음성 신호에서 추출된 화자 특징 벡터를 이용한 적응 훈련 방식을 통해 제2 화자의 등록된 화자 특징 벡터를 생성하고, 새로 생성된 등록된 화자 특징 벡터가 적응 훈련 이전의 등록된 화자 특징 벡터에 비해 적응 훈련 성능이 상승한 경우, 새로 생성된 등록된 화자 특징 벡터를 메모리(220)에 저장함으로써 등록된 화자 특징 벡터를 개선할 수 있다.According to another embodiment, the
도 4b는 일 실시예에 따른 음성인식 서버의 프로세서의 내부 구성을 설명하기 위한 블록도이다.4B is a block diagram illustrating an internal configuration of a processor of a speech recognition server according to an embodiment.
도 4b를 참조하면, 음성인식 서버(200)의 프로세서(210a)는 음성 신호 수신부(211), 음성 인식부(212), 화자 인식부(213), 검증 여부 결정부(217), 화자 검증부(214), 기능부(215), 및 합성음 신호 생성부(216)를 포함한다.4B, the
검증 여부 결정부(217)는 음성인식 결과에 대응하는 동작 및 제2 화자의 설정 중 적어도 하나를 기초로 화자 검증부(214)의 동작을 실행할 것인지의 여부를 결정한다.
일 예에 따르면, 검증 여부 결정부(217)는 음성인식 결과에 따른 동작이 제2 화자가 미리 설정한 사전 승인 동작 리스트에 포함되는 경우, 화자 검증부(214)의 동작을 실행하도록 결정할 수 있다. 사전 승인 동작 리스트는 메모리(220)에 저장될 수 있으며, 음성인식 스피커 장치(100)를 통해 수행할 수 있는 동작들 또는 기능들 중 일부가 미리 설정한 사전 승인 동작 리스트에 포함될 수 있다. 예컨대, 금융 거래나 인터넷 쇼핑, 메시지 보내기 등과 같은 동작들이 미리 설정한 사전 승인 동작 리스트에 포함될 수 있다. 사전 승인 동작 리스트에 포함되는 동작들은 등록된 화자들마다 다르게 설정될 수 있다.According to one example, when the operation according to the speech recognition result is included in the pre-approval operation list set in advance by the second speaker, the verification-for-
다른 예에 따르면, 음성인식 결과에 따른 동작이 제2 화자가 미리 설정한 사후 통지 동작 리스트에 포함되는 경우, 검증 여부 결정부(217)는 기능부(215)에 의해 음성인식 결과에 대응하는 동작이 먼저 실행되고, 제2 화자의 휴대 장치로 음성인식 결과 및 음성 신호를 송신하도록 결정할 수 있다. 사후 통지 동작 리스트는 메모리(220)에 저장될 수 있으며, 음성인식 스피커 장치(100)가 수행할 수 있는 동작들 중 일부의 동작이 미리 설정한 사후 통지 동작 리스트에 포함될 수 있다. 예컨대, 전화 걸기, 설정 변경 등과 같은 동작들이 미리 설정한 사후 통지 동작 리스트에 포함될 수 있다. 사후 통지 동작 리스트에 포함되는 동작들은 등록된 화자들마다 다르게 설정될 수 있다.According to another example, when the operation according to the speech recognition result is included in the post-notification operation list set in advance by the second speaker, the verification-whether or not-
또 다른 예에 따르면, 검증 여부 결정부(217)는 제2 화자의 휴대 장치의 위치 및 현재 시간 중 적어도 하나가 사전 승인 조건에 부합하는 경우, 화자 검증부(214)의 동작을 실행하도록 결정할 수 있다. 예를 들면, 제2 화자의 휴대 장치의 위치가 음성인식 스피커 장치(100)의 위치와 가깝게 위치하는 경우, 예컨대, 제2 화자의 휴대 장치와 음성인식 스피커 장치(100)가 동일한 무선 와이파이 액세스 포인트에 접속되는 경우나, 제2 화자의 휴대 장치의 GPS 위치 또는 무선망 접속 위치가 음성인식 스피커 장치(100)의 위치와 실질적으로 일치하는 경우, 제2 화자가 음성 신호 수신부(211)에서 수신한 음성 신호에 대응하는 음성을 실제로 말했을 가능성이 높으므로, 검증 여부 결정부(217)는 화자 검증부(214)의 동작을 생략할 수 있다. 등록된 화자들은 이러한 화자 검증부(214)의 동작의 생략 여부를 각각 설정할 수 있다.According to another example, when at least one of the position and the current time of the portable device of the second speaker meets the pre-approval condition, the verification-verifying
검증 여부 결정부(217)는 제2 화자가 설정한 시간, 예컨대, 주중 낮 시간에는 화자 검증부(214)의 동작을 실행하도록 결정할 수 있다. 예컨대, 직장인인 제2 화자는 주중 낮 시간에는 집에 없을 가능성이 높으므로, 집에 위치한 음성인식 스피커 장치(100)가 제2 화자의 음성을 수신할 가능성이 낮다. 검증 여부 결정부(217)는 이러한 경우에 화자 검증부(214)의 동작을 실행하도록 결정할 수 있다. 등록된 화자들은 시간을 기초로 화자 검증부(214)의 동작을 실행할 것인지의 여부를 각각 설정할 수 있다.
사전 승인 조건은 등록된 화자에 의해 미리 설정되어 메모리(220)에 저장될 수 있다. 또한, 사전 승인 조건은 등록된 화자의 행동 패턴에 기초하여 결정될 수 있다. 등록된 화자의 행동 패턴은 등록된 화자의 휴대 장치의 위치를 기초로 생성될 수 있다. 예를 들면, 검증 여부 결정부(217)는 등록된 화자의 휴대 장치의 위치를 오랜 시간 동안 수집할 수 있다. 검증 여부 결정부(217)는 수집된 휴대 장치의 위치를 분석하여 등록된 화자가 음성인식 스피커 장치(100)와 가깝게 위치하지 않는 시간대를 결정할 수 있다. 검증 여부 결정부(217)는 현재 시간이 이 시간대에 해당하는 경우에 화자 검증부(214)의 동작을 실행하도록 자동적으로 결정할 수 있다.The pre-approval condition may be preset by the registered speaker and stored in the
도 5a 및 도 5b는 일 실시예에 따른 음성인식 시스템의 화자 검증 방법을 설명하기 위한 예시적인 흐름도이다.5A and 5B are exemplary flowcharts for explaining a speaker verification method of a speech recognition system according to an embodiment.
도 5a 및 도 5b를 참조하면, 음성인식 시스템은 음성인식 스피커 장치(100)와 음성인식 서버(200)를 포함한다. 제2 화자의 휴대 장치(300)는 음성인식 서버(200)에 네트워크를 통해 접속된다.Referring to FIGS. 5A and 5B, the speech recognition system includes a speech
음성인식 스피커 장치(100)는 마이크로폰(도 2a의 120)을 이용하여 주변의 소리를 전기적으로 변환하여 오디오 신호를 생성할 수 있다(S101).The speech
음성인식 스피커 장치(100)는 오디오 신호로부터 음성 신호를 검출할 수 있다(S102). 음성 신호는 사용자의 음성을 포함할 수 있다. 여기서 사용자는 제1 화자로 지칭한다. 음성은 사용자의 음성 명령을 포함할 수 있다. 음성 명령에는 음성 정보 검색, 전화 연결, 메시지 전송, 금융 거래, 인터넷 쇼핑, 음식 배달, 주변 가전 기기 제어, 스마트 홈 제어 등이 포함될 수 있다. 본 예에서는 음성 명령이 금융 거래에 관한 것으로서, 제1 화자의 음성이 "B에게 100만원을 송금해줘"라고 가정한다. 제1 화자의 음성에는 음성인식 스피커 장치(100)를 웨이크업하기 위한 트리거 키워드가 포함될 수 있다. 음성인식 스피커 장치(100)는 트리거 키워드를 인식함으로써 오디오 신호로부터 음성 신호를 검출할 수 있다.The speech
음성인식 스피커 장치(100)는 음성 신호를 음성인식 서버(200)로 송신하고(S103), 음성인식 서버(200)는 음성인식 스피커 장치(100)로부터 음성 신호를 수신한다(S201).The voice
음성인식 서버(200)는 음성 신호에 대하여 음성인식을 수행하여 음성인식 결과를 생성한다(S202). 음성인식 서버(200)는 음성 신호의 주파수 특성을 추출하고, 음향 모델과 언어 모델을 이용하여 음성 인식을 수행할 수 있다. 음성인식 서버(200)는 음성 신호를 문자열로 변환하고, 문자열을 자연어 처리함으로써 음성인식 결과를 생성할 수 있다. 음성인식 결과는 음성 명령을 포함할 수 있다.The
음성인식 서버(200)는 음성 신호에서 화자 특징 벡터를 추출한다(S203). 음성인식 서버(200)는 음향 모델로부터 추출된 사후 정보(states posteriors), 일반적 배경 모델, 및 전체 변이성 변환 정보 중 적어도 하나를 이용하여 음성 신호의 주파수 특성으로부터 화자 특징 벡터를 생성할 수 있다.The
음성인식 서버(200)는 추출된 화자 특징 벡터와 등록된 화자 특징 벡터를 비교한다(S204). 등록된 화자 특징 벡터는 메모리(도 3의 220)에 저장될 수 있으며, 사용자가 음성인식 시스템에 등록할 때 입력되는 사용자의 음성을 기초로 미리 생성될 수 있다.The
음성인식 서버(200)는 단계(S204)의 비교 결과에 따라 음성 신호의 화자가 등록된 제2 화자라고 결정한다(S205). 단계(S204)에서 음성인식 서버(200)는 추출된 화자 특징 벡터를 등록된 화자 특징 벡터들 각각과 비교할 수 있다. 비교 결과, 등록된 화자 특징 벡터들 중에서 추출된 화자 특징 벡터와 가장 유사도가 높은 등록된 화자 특징 벡터가 결정될 수 있다. 음성인식 서버(200)는 가장 유사도가 높은 등록된 화자 특징 벡터의 사용자가 음성 신호의 화자라고 결정하며, 여기서 가장 유사도가 높은 등록된 화자 특징 벡터에 대응하는 사용자는 제2 화자로 지칭한다. 제2 화자는 일반적으로 제1 화자와 동일하다. 그러나, 음성인식 서버(200)의 화자 인식 기능의 오류로 인하여, 제2 화자는 제1 화자와 상이할 수 있다. The
예를 들면, 제1 화자가 음성 명령을 발화하였으나, 음성인식 서버(200)는 화자 인식 기능의 오류로 인하여 음성 명령을 제1 화자와 다른 제2 화자가 발화한 것으로 인식할 수 있다. 이 경우, 음성인식 서버(200)는 제2 화자가 "B에게 100만원 송금해줘"라고 발화한 것으로 인식할 것이므로, 음성인식 서버(200)는 제2 화자의 계좌에서 B에게 100만원을 송금하는 문제가 발생한다.For example, although the first speaker has uttered the voice command, the
다른 예로서, 제1 화자가 제2 화자의 목소리를 흉내내어 음성 명령을 발화하였고, 음성인식 서버(200)는 이 음성 명령을 제2 화자가 발화한 것으로 인식할 수 있다. 이 경우는 목소리 도용으로 인한 경우이다. 이 경우에도, 음성인식 서버(200)는 제2 화자가 "B에게 100만원 송금해줘"라고 발화한 것으로 인식할 것이므로, 음성인식 서버(200)는 제2 화자의 계좌에서 B에게 100만원을 송금하는 문제가 발생한다.As another example, the first speaker imitates the voice of the second speaker and uttered the voice command, and the
음성인식 서버(200)는 이러한 문제를 해소하기 위하여 추가적인 화자 검증 절차를 실행할 수 있다. 음성인식 서버(200)는 음성인식 결과 및 음성 신호를 제2 화자의 휴대 장치(300)로 송신할 수 있다. 제2 화자가 음성인식 시스템에 음성인식 스피커 장치(100)의 사용자로 등록할 때 자신의 휴대 장치(300)의 식별번호를 입력할 수 있으며, 제2 화자의 휴대 장치(300)의 식별번호는 메모리(220)에 저장될 수 있다.The
한편, 음성인식 서버(200)는 단계(S204)의 비교 결과에 따라 음성 신호의 화자가 미리 등록된 사용자가 아니라고 결정할 수 있다. 추출된 화자 특징 벡터와 등록된 화자 특징 벡터들 간의 유사도가 미리 설정한 기준 유사도를 넘지 못하는 경우, 음성인식 서버(200)는 음성 신호의 화자가 미리 등록되지 않았다고 결정하고, 음성 명령에 따른 동작을 실행하지 않을 수 있다. 이 경우, 음성인식 서버(200)는 바로 단계(S209)로 진행하여, 동작이 실행되지 않았음을 보고하기 위한 합성음을 생성할 수 있다. 이 경우에도, 음성 명령의 내용이 누구나 할 수 있도록 설정된 것이라면, 음성인식 서버(200)는 음성 신호의 화자가 미리 등록되지 않았다고 하더라도 음성 명령에 따른 동작을 수행할 수 있다. 이 경우, 음성인식 서버(200)는 화자 검증 절차(단계들(S206, S301-S305, S207))를 생략하고, 바로 단계(S208)로 진행하여 음성 명령에 따른 동작을 수행할 수 있다. 일 실시예에 따르면, 음성 명령에 따른 동작이 누구나 할 수 있는 동작인 경우라면, 음성인식 서버(200)는 단계(S203-S205)를 실행하지 않을 수도 있다.On the other hand, the
제2 화자의 휴대 장치(300)는 음성인식 서버(200)로부터 음성인식 결과 및 음성 신호를 수신한다(S301). 전술한 바와 같이, 제2 화자는 실제로 음성 신호에 포함되는 음성을 발화한 제1 화자와 동일할 수도 있고 동일하지 않을 수도 있다.The
휴대 장치(300)는 음성인식 결과를 표시할 수 있다(S302). 도 6은 일 실시예에 따라서 음성인식 시스템에 접속되는 제2 화자의 휴대 장치의 예시적인 화면을 도시한다.The
도 6에 도시된 바와 같이, 휴대 장치(300)의 디스플레이 창(310) 상에는 "음성인식 스피커 장치에서 다음 명령이 실행되었습니다."라는 문구(301)가 표시될 수 있다. 수신된 음성인식 결과 또는 음성인식 결과에 포함되는 음성 명령이 문구(301) 아래의 영역(302)에 표시될 수 있다. 본 예에서, 영역(302)에는 "B에게 100만원을 송금해줘"라는 문구가 표시될 수 있다. As shown in Fig. 6, the phrase "The following command has been executed in the speech recognition speaker apparatus" 301 may be displayed on the
디스플레이 창(310)에는 음성인식 스피커 장치(100)에서 검출한 음성 신호를 재생할 수 있는 재생 버튼(303)이 표시될 수 있다. 제2 화자가 재생 버튼(303)을 터치하는 경우, 음성인식 서버(200)로부터 수신된 음성 신호가 재생될 수 있다.The
디스플레이 창(310)에는 "승인하시겠습니까"라는 문구(304)가 표시될 수 있다. 문구(304) 아래에 승인 버튼(305)과 거절 버튼(306)이 표시될 수 있다. 제2 화자는 수신된 음성인식 결과 또는 재생되는 음성을 확인한 후 승인 버튼(305)을 터치함으로써 음성인식 서버(200)가 음성인식 결과의 음성 명령에 따른 동작을 실행하도록 승인할 수 있다. 제2 화자는 자신이 발화한 적이 없거나 수신된 음성인식 결과가 자신이 발화한 음성 명령과 상이하다면, 거절 버튼(306)을 터치함으로써 음성인식 서버(200)가 음성인식 결과에 대응하는 동작을 실행하지 않도록 할 수 있다. 음성인식 서버(200)의 화자 인식 기능에 오류가 있거나, 제2 화자가 자신이 목소리를 도용당한 경우, 제2 화자가 휴대 장치(300)를 이용하여 음성인식 결과에 대응하는 동작을 실행하지 않도록 함으로써 피해를 방지할 수 있다.In the
디스플레이 창(310)에는 신고하기 버튼(307)이 표시될 수 있다. 제2 화자는 재생 버튼(303)을 터치하여 재생되는 음성을 들은 후, 자신의 목소리를 도용당했다고 판단되는 경우, 신고하기 버튼(307)을 터치하여 목소리 도용 사실을 관련 금융회사, 관청, 또는 음성인식 시스템의 제조사와 같은 외부 기관에 신고할 수 있다. 이 경우, 휴대 장치(300)는 목소리 도용과 관련된 정보와 함께 음성인식 서버(200)로부터 수신된 음성 신호를 외부 기관에 송신할 수 있다.A
디스플레이 창(310)에는 음성 피드백 보내기 버튼(308)이 표시될 수 있다. 제2 화자가 음성 피드백 보내기 버튼(308)을 터치하면 음성인식 스피커 장치(100)에서 출력될 음성을 입력할 수 있다. 제2 화자는 음성 피드백 보내기 버튼(308)을 터치한 후 목소리 도용자 등에게 전할 응답 음성을 발화할 수 있다. 휴대 장치(300)는 응답 음성에 대응하는 응답 음성 신호를 생성하고, 응답 음성 신호를 음성인식 서버(200)로 송신할 수 있다. 음성인식 서버(200)는 응답 음성 신호를 수신하고 음성인식 스피커 장치(100)로 전달할 수 있다. 음성인식 스피커 장치(100)는 음성인식 서버(200)로부터 전송된 응답 음성 신호를 수신하고, 응답 음성 신호에 대응하는 제2 화자의 응답 음성을 출력할 수 있다.A voice feedback send
다른 실시예에 따르면, 디스플레이 창(310)에는 음성 통신 버튼이 표시될 수 있으며, 제2 화자가 음성 통신 버튼을 터치하면, 음성인식 스피커 장치(100)와 휴대 장치(300) 사이에 음성을 송수신할 수 있는 세션이 연결된다. 제2 화자는 연결된 세션을 통해 음성인식 스피커 장치(100)의 주변에 위치한 사람과 음성을 주고 받을 수 있다. 예컨대, 제1 화자가 제2 화자의 가족인 경우, 제1 화자는 제2 화자에게 음성인식 결과에 따른 동작이 필요한 이유를 설명하고, 제2 화자는 제1 화자의 설명을 들은 후 해당 동작을 승인할 수도 있다. 휴대 장치(300)는 음성인식 스피커 장치(100)와 직접 연결되거나, 음성인식 서버(200)의 중계 하에 음성인식 스피커 장치(100)와 연결될 수 있다.According to another embodiment, a voice communication button may be displayed on the
다시 도 5a 및 도 5b를 참조하면, 휴대 장치(300)는 디스플레이 창(310)의 영역(302) 상에 음성인식 결과를 표시할 수 있다(S302). 또한, 휴대 장치(300)는 제2 화자가 재생 버튼(303)을 터치함으로써 음성 신호를 재생할 수 있다(S303).Referring again to FIGS. 5A and 5B, the
휴대 장치(300)는 제2 화자가 승인 버튼(305)을 터치함으로써 승인 입력을 수신하거나, 제2 화자가 거절 버튼(306)을 터치함으로써 거절 입력을 수신할 수 있다(S304). 휴대 장치(300)는 승인 입력 또는 거절 입력을 음성인식 서버(200)로 송신할 수 있다(S305). 휴대 장치(300)는 미리 설정된 시간 동안 승인 입력이 수신되지 않으면 거절 입력이 수신된 것으로 간주하여 거절 입력을 음성인식 서버(200)로 송신할 수 있다.The
음성인식 서버(200)는 휴대 장치(300)로부터 승인 입력 또는 거절 입력을 수신할 수 있다(S207). 음성인식 서버(200)는 승인 입력을 수신한 경우 음성인식 결과에 대응하는 동작을 실행하고, 거절 입력을 수신한 경우 음성인식 결과에 대응하는 동작을 실행하지 않는다(S208). 본 예에서, 음성인식 서버(200)는 승인 입력을 수신한 경우 제2 화자의 계좌에서 B에게 100만원을 송금할 수 있다. 음성인식 서버(200)는 거절 입력을 수신한 경우 B에게 100만원을 송금하지 않는다.The
음성인식 서버(200)는 음성인식 결과에 대응하는 동작을 실행한 후 동작의 실행 결과를 보고하기 위한 합성음 신호를 생성한다(S209). 이때, 합성음 신호는 예컨대 "제2 화자의 계좌에서 B에게 100만원을 송금하였습니다"라는 합성음에 대응될 수 있다. 음성인식 서버(200)는 음성인식 결과에 대응하는 동작을 실행하지 않은 경우, 동작의 미실행을 보고하기 위한 합성음 신호를 생성한다(S209). 이때, 합성음 신호는 예컨대 "제2 화자의 불승인으로 인하여 B에게 100만원을 송금하지 않았습니다"라는 합성음에 대응될 수 있다. 음성인식 서버(200)는 생성된 합성음 신호를 음성인식 스피커 장치(100)로 송신할 수 있다(S210).The
음성인식 스피커 장치(100)는 합성음 신호를 수신하고(S104), 합성음 신호에 대응하는 합성음을 재생할 수 있다(S105). 따라서, 음성 신호의 음성을 발화했던 제1 화자는 자신의 음성 명령의 실행 결과를 직접 확인할 수 있다.The speech
다른 실시예에 따라, 음성인식 스피커 장치(100)가 카메라(도 2b의 150)를 포함하는 경우, 단계(S102)에서 음성인식 스피커 장치(100)는 카메라(150)를 이용하여 음성 신호가 검출된 시점의 영상을 포함하는 영상 신호를 생성할 수 있다. 또한, 단계(S103)에서 음성인식 스피커 장치(100)는 음성 신호와 함께 영상 신호를 음성인식 서버(200)로 송신할 수 있다.According to another embodiment, when the speech
단계(S201)에서 음성인식 서버(200)는 음성인식 스피커 장치(100)로부터 영상 신호를 수신하고, 단계(S206)에서 음성인식 결과 및 음성 신호와 함께 영상 신호를 제2 화자의 휴대 장치(300)로 전송할 수 있다.In step S201, the
이 경우, 휴대 장치(300)는 영상 신호를 표시할 수 있는 인터페이스, 예컨대, 영상 표시 버튼을 가질 수 있다. 제2 화자가 영상 신호를 표시하기 위해 영상 표시 버튼을 터치하면, 휴대 장치(300)가 영상 신호의 영상을 표시함으로써, 제2 화자는 자신이 발화하지 않은 음성인식 결과를 수신한 경우에 음성을 발화한 사람이 포함된 영상을 확인할 수 있다. 영상 신호는 제1 화자의 음성이 발생한 방향의 영상을 포함할 수 있다. 영상 신호는 동영상 신호일 수도 있다. 휴대 장치(300)는 동영상 신호를 재생할 수 있는 인터페이스, 예컨대, 영상 재생 버튼을 가질 수 있다. 제2 화자가 영상 재생 버튼을 터치하면, 휴대 장치(300)는 동영상 신호에 포함된 동영상을 재생할 수 있다.In this case, the
다른 실시예에 따라, 단계(S207)에서 음성인식 서버(200)가 휴대 장치(300)로부터 승인 입력을 수신한 경우, 제1 화자와 제2 화자의 동일성이 확인된 것이므로, 음성인식 서버(200)는 추출된 화자 특징 벡터를 이용하여 제2 화자의 등록된 화자 특징 벡터를 개선할 수 있다.According to another embodiment, when the
도 7은 다른 실시예에 따른 음성인식 시스템의 화자 검증 방법을 설명하기 위한 예시적인 흐름도이다.7 is an exemplary flowchart for explaining a speaker verification method of a speech recognition system according to another embodiment.
도 7을 참조하면, 다른 실시예에 따른 화자 검증 방법에 따르면, 도 5의 단계(S205)가 수행된 후에, 음성인식 서버(200)는 음성인식 결과에 대응하는 동작 및 제2 화자의 설정 중 적어도 하나를 기초로, 제2 화자의 휴대 장치(300)를 이용한 검증 절차(S206, S301-S305, S207)의 실행 여부를 결정할 수 있다(S211).Referring to FIG. 7, according to the speaker verification method according to another embodiment, after the step S205 of FIG. 5 is performed, the
단계(S211)에서 검증 절차를 실행하기로 결정한 경우, 음성인식 서버(200)는 단계(S206)로 진행하여 음성인식 결과 및 음성 신호를 송신할 수 있다. 그러나, 단계(S211)에서 검증 절차를 실행하지 않기로 결정한 경우, 음성인식 서버(200)는 검증 절차를 생략하고 단계(S208)로 진행하여 음성인식 결과에 대응하는 동작을 실행할 수 있다.If it is determined in step S211 that the verification procedure is to be executed, the
일 예에 따르면, 음성인식 결과에 따른 동작이 제2 화자가 미리 설정한 사전 승인 동작 리스트에 포함되는 경우, 단계(S211)에서 음성인식 서버(200)는 검증 절차(S206, S301-S305, S207)를 실행하도록 결정할 수 있다. 사전 승인 동작 리스트는 메모리(도 3의 220)에 저장될 수 있다. 사전 승인 동작 리스트에는 음성인식 스피커 장치(100)를 통해 수행할 수 있는 동작들 중에서 제2 화자가 미리 선택한 일부의 동작이 포함될 수 있다. 예컨대, 제2 화자는 금융 거래나 인터넷 쇼핑, 메시지 보내기 등과 같은 동작들을 선택하여 사전 승인 동작 리스트에 포함시킬 수 있다.According to one example, when the operation according to the speech recognition result is included in the pre-approval operation list set in advance by the second speaker, in step S211, the
다른 예에 따르면, 단계(S211)에서 음성인식 서버(200)는 제2 화자의 휴대 장치(300)의 위치 및 현재 시간 중 적어도 하나가 사전 승인 조건에 부합하는 경우, 검증 절차(S206, S301-S305, S207)를 실행하도록 결정할 수 있다. 예를 들면, 제2 화자의 휴대 장치(300)가 음성인식 스피커 장치(100)로부터 떨어져 위치하는 경우, 제2 화자가 음성 신호에 대응하는 음성을 실제로 발화했을 가능성이 낮으므로, 단계(S211)에서 음성인식 서버(200)는 검증 절차(S206, S301-S305, S207)를 실행하도록 결정할 수 있다. 그러나, 제2 화자의 휴대 장치(300)가 음성인식 스피커 장치(100)와 가깝게 위하는 경우, 단계(S211)에서 음성인식 서버(200)는 검증 절차(S206, S301-S305, S207)를 생략할 수 있다. 이러한 사전 승인 조건은 휴대 장치(300)의 위치 외에도 제2 화자가 설정한 시간대를 기초로 정해질 수 있다.According to another example, in step S211, when at least one of the position and the current time of the
예를 들면, 단계(S211)에서 음성인식 서버(200)는 현재 시간이 제2 화자가 설정한 시간, 예컨대, 주중 낮 시간에 해당하는 경우에 검증 절차(S206, S301-S305, S207)를 실행하도록 결정할 수 있다. 예컨대, 제2 화자는 자신이 집에 없을만한 시간대를 미리 설정할 수 있다. 이러한 사전 승인 조건은 등록된 화자들마다 상이하게 설정될 수 있다.For example, in step S211, the
사전 승인 조건은 등록된 화자에 의해 미리 설정되어 메모리(220)에 저장될 수 있다. 예를 들어, 사전 승인 조건은 등록된 화자의 휴대 장치(300)의 위치를 기초로 생성되는 등록된 화자의 행동 패턴에 기초하여 결정될 수 있다. 음성인식 서버(200)는 등록된 화자의 휴대 장치(300)의 위치를 수집할 수 있다. 음성인식 서버(200)는 수집된 휴대 장치(300)의 위치를 분석하여 등록된 화자가 음성인식 스피커 장치(100)와 멀리 떨어져 위치하는 시간대를 결정할 수 있다. 음성인식 서버(200)는 현재 시간이 이 시간대에 해당하는 경우에 검증 절차(S206, S301-S305, S207)를 실행하도록 자동적으로 결정할 수 있다.The pre-approval condition may be preset by the registered speaker and stored in the
또 다른 예에 따르면, 음성인식 결과에 따른 동작이 제2 화자가 미리 설정한 사후 통지 동작 리스트에 포함되는 경우, 음성인식 서버(200)는 단계(S209)를 먼저 실행하고, 사후 통지 절차(S206, S301-S303)를 나중에 수행하도록 결정할 수 있다. 사후 통지 동작 리스트는 메모리(220)에 저장될 수 있으며, 사후 통지 동작 리스트에는 음성인식 스피커 장치(100)가 수행할 수 있는 동작들 중에서 제2 화자가 선택한 일부의 동작이 포함될 수 있다. 예컨대, 전화 걸기, 설정 변경 등과 같은 동작들이 미리 설정한 사후 통지 동작 리스트에 포함될 수 있다. 사후 통지 동작 리스트에 포함되는 동작들은 등록된 화자들마다 다르게 설정될 수 있다.According to another example, when the operation according to the speech recognition result is included in the post-notification operation list set in advance by the second speaker, the
이상 설명된 본 발명에 따른 실시예는 컴퓨터 상에서 다양한 구성요소를 통하여 실행될 수 있는 컴퓨터 프로그램의 형태로 구현될 수 있으며, 이와 같은 컴퓨터 프로그램은 컴퓨터로 판독 가능한 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수개 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 애플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.The embodiments of the present invention described above can be embodied in the form of a computer program that can be executed on various components on a computer, and the computer program can be recorded on a computer-readable medium. At this time, the medium may be a program that continuously stores a computer executable program, or temporarily stores the program for execution or downloading. In addition, the medium may be a variety of recording means or storage means in the form of a combination of a single hardware or a plurality of hardware, but is not limited to a medium directly connected to a computer system, but may be dispersed on a network. Examples of the medium include a magnetic medium such as a hard disk, a floppy disk and a magnetic tape, an optical recording medium such as CD-ROM and DVD, a magneto-optical medium such as a floptical disk, And program instructions including ROM, RAM, flash memory, and the like. As another example of the medium, a recording medium or a storage medium managed by a site or a server that supplies or distributes an application store or various other software to distribute the application may be mentioned.
본 명세서에서, "부", "모듈" 등은 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다. 예를 들면, "부", "모듈" 등은 소프트웨어 구성 요소들, 객체 지향 소프트웨어 구성 요소들, 클래스 구성 요소들 및 태스크 구성 요소들과 같은 구성 요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들에 의해 구현될 수 있다.In this specification, "part," " module, "and the like, may be a hardware component, such as a processor or circuit, and / or a software component, executed by a hardware configuration, such as a processor. For example, "part," "module, " and / or the like, may refer to elements such as software components, object oriented software components, class components and task components, Microcode, circuitry, data, databases, data structures, tables, arrays, and variables, as will be appreciated by those skilled in the art.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.It will be understood by those skilled in the art that the foregoing description of the present invention is for illustrative purposes only and that those of ordinary skill in the art can readily understand that various changes and modifications may be made without departing from the spirit or essential characteristics of the present invention. will be. It is therefore to be understood that the above-described embodiments are illustrative in all aspects and not restrictive. For example, each component described as a single entity may be distributed and implemented, and components described as being distributed may also be implemented in a combined form.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is defined by the appended claims rather than the detailed description and all changes or modifications derived from the meaning and scope of the claims and their equivalents are to be construed as being included within the scope of the present invention do.
100: 음성인식 스피커 장치
110: 프로세서
120: 마이크로폰
130: 스피커
140: 통신 모듈
150: 카메라
200: 음성인식 서버
210: 프로세서
220: 메모리
230: 통신 모듈
300: 휴대 장치100: Speech recognition speaker unit
110: Processor
120: microphone
130: Speaker
140: Communication module
150: camera
200: voice recognition server
210: Processor
220: Memory
230: Communication module
300: Portable device
Claims (19)
상기 음성인식 서버에 의하여,
상기 음성인식 장치로부터 제1 화자의 음성을 포함하는 음성 신호를 수신하는 단계;
상기 음성 신호에 대하여 음성인식을 수행하여 음성인식 결과를 생성하는 단계;
상기 음성 신호에서 화자 특징 벡터를 추출하여 상기 화자 특징 벡터를 등록된 화자 특징 벡터(registered speaker feature vector)와 비교하고, 상기 비교 결과에 따라 상기 음성 신호의 화자가 등록된 제2 화자(registered second speaker)라고 결정하는 단계;
상기 음성인식 장치와 다른 장치인 상기 제2 화자의 휴대 장치로 상기 음성인식 결과 및 상기 음성 신호를 송신하는 단계;
상기 휴대 장치로부터 승인 입력을 수신하는 단계; 및
상기 음성인식 결과에 대응하는 동작을 실행하는 단계를 포함하는 음성인식 시스템의 화자 검증 방법.A method for verifying a speaker in a speech recognition system including a speech recognition device and a speech recognition server,
By the speech recognition server,
Receiving a speech signal including a speech of a first speaker from the speech recognition apparatus;
Performing voice recognition on the voice signal to generate a voice recognition result;
Extracting a speaker feature vector from the speech signal, comparing the speaker feature vector with a registered speaker feature vector, and comparing the registered speaker feature vector with a registered second speaker );
Transmitting the voice recognition result and the voice signal to a portable device of the second speaker which is a device different from the voice recognition device;
Receiving an approval input from the portable device; And
And performing an operation corresponding to the speech recognition result.
상기 등록된 제2 화자(registered second speaker)는 상기 음성인식 시스템에 등록된 복수의 사용자들 중 하나인 것을 특징으로 하는 음성인식 시스템의 화자 검증 방법.The method according to claim 1,
Wherein the registered second speaker is one of a plurality of users registered in the speech recognition system.
상기 음성인식 장치에 의하여, 카메라를 이용하여 상기 음성 신호가 생성된 시점의 영상을 포함하는 영상 신호를 생성하고, 상기 영상 신호를 상기 음성인식 서버로 송신하는 단계; 및
상기 음성인식 서버에 의하여, 상기 휴대 장치로 상기 음성인식 결과 및 상기 음성 신호와 함께 상기 영상 신호를 송신하는 단계를 더 포함하는 음성인식 시스템의 화자 검증 방법.The method according to claim 1,
Generating a video signal including an image at a time point at which the voice signal is generated using the camera by the voice recognition device and transmitting the video signal to the voice recognition server; And
And transmitting the video signal together with the voice recognition result and the voice signal to the portable device by the voice recognition server.
상기 영상 신호는 상기 제1 화자의 음성이 발생한 방향의 영상을 포함하는 것을 특징으로 하는 음성인식 시스템의 화자 검증 방법.The method of claim 3,
Wherein the video signal includes an image of a direction in which a sound of the first speaker is generated.
상기 음성인식 서버에 의하여, 상기 비교 결과에 따라 상기 음성 신호의 화자가 등록되지 않은 사용자(unregistered user)라고 결정하는 경우, 상기 음성인식 결과에 대응하는 동작을 실행하지 않는 단계를 더 포함하는 음성인식 시스템의 화자 검증 방법.The method according to claim 1,
Further comprising the step of not performing an operation corresponding to the speech recognition result when the speech recognition server determines that the speaker of the speech signal is an unregistered user according to the result of the comparison, Speaker verification method of the system.
상기 음성인식 서버에 의하여,
상기 음성인식 결과에 대응하는 동작 및 상기 제2 화자의 설정 중 적어도 하나를 기초로 상기 휴대 장치를 이용한 검증 절차의 실행 여부를 결정하는 단계를 더 포함하고,
상기 검증 절차는,
상기 휴대 장치로 상기 음성인식 결과 및 상기 음성 신호를 송신하는 단계; 및
상기 휴대 장치로부터 승인 입력을 수신하는 단계를 포함하는 것을 특징으로 하는 음성인식 시스템의 화자 검증 방법.The method according to claim 1,
By the speech recognition server,
Further comprising the step of determining whether to perform the verification procedure using the portable device based on at least one of the operation corresponding to the speech recognition result and the setting of the second speaker,
The verification procedure includes:
Transmitting the voice recognition result and the voice signal to the portable device; And
And receiving an approval input from the portable device.
상기 휴대 장치를 이용한 검증 절차의 실행 여부를 결정하는 단계는, 상기 음성인식 결과에 따른 동작이 상기 제2 화자가 미리 설정한 사전 승인 동작 리스트에 포함되는 경우, 상기 검증 절차의 실행을 결정하는 단계를 포함하는 것을 특징으로 하는 음성인식 시스템의 화자 검증 방법.The method according to claim 6,
Wherein the step of determining whether or not to execute the verification procedure using the portable device includes the step of determining execution of the verification procedure when the operation according to the speech recognition result is included in the pre- And a speaker verification step of verifying the speech of the speech recognition system.
상기 음성인식 서버에 의하여, 상기 음성인식 결과에 따른 동작이 상기 제2 화자가 미리 설정한 사후 통지 동작 리스트에 포함되는 경우, 상기 음성인식 결과에 대응하는 상기 동작이 실행된 후에, 상기 휴대 장치로 상기 음성인식 결과 및 상기 음성 신호를 송신하는 단계를 더 포함하는 음성인식 시스템의 화자 검증 방법.The method according to claim 6,
When the operation corresponding to the speech recognition result is included in the post-notification operation list set in advance by the second speaker by the speech recognition server, after the operation corresponding to the speech recognition result is executed, And transmitting the speech recognition result and the speech signal.
상기 휴대 장치를 이용한 검증 절차의 실행 여부를 결정하는 단계는, 상기 휴대 장치의 위치 및 현재 시간 중 적어도 하나가 사전 승인 조건에 부합하는 경우, 상기 검증 절차의 실행을 결정하는 단계를 포함하는 것을 특징으로 하는 음성인식 시스템의 화자 검증 방법.The method according to claim 6,
Wherein the step of determining whether or not to execute the verification procedure using the portable device includes the step of determining execution of the verification procedure when at least one of the position and the current time of the portable device meets the pre- A speaker verification method for a speech recognition system.
상기 사전 승인 조건은 상기 제2 화자에 의해 미리 설정되거나, 상기 제2 화자의 행동 패턴에 기초하여 결정되는 것을 특징으로 하는 음성인식 시스템의 화자 검증 방법.10. The method of claim 9,
Wherein the pre-approval condition is set in advance by the second speaker or is determined based on a behavior pattern of the second speaker.
상기 휴대 장치에 의하여,
상기 음성인식 서버로부터 상기 음성인식 결과 및 상기 음성 신호를 수신하는 단계;
상기 음성인식 결과가 상기 휴대 장치 상에 표시되는 단계;
상기 음성 신호를 재생하는 단계;
상기 음성인식 결과에 대응하는 동작의 실행을 승인 또는 거절하기 위한 상기 제2 화자의 승인 입력 또는 거절 입력을 수신하는 단계; 및
상기 승인 입력 또는 거절 입력을 상기 음성인식 서버로 송신하는 단계를 더 포함하는 음성인식 시스템의 화자 검증 방법.The method according to claim 1,
By the portable device,
Receiving the speech recognition result and the speech signal from the speech recognition server;
Displaying the speech recognition result on the portable device;
Reproducing the audio signal;
Receiving an approval input or reject input of the second speaker to approve or reject execution of an operation corresponding to the speech recognition result; And
And transmitting the approval input or rejection input to the speech recognition server.
상기 음성인식 서버에 의하여,
상기 휴대 장치로부터 거절 입력을 수신하는 단계; 및
상기 음성인식 결과에 대응하는 동작을 실행하지 않는 단계를 더 포함하는 음성인식 시스템의 화자 검증 방법.The method according to claim 1,
By the speech recognition server,
Receiving a rejection input from the portable device; And
Further comprising the step of not performing an operation corresponding to the speech recognition result.
상기 음성인식 서버에 의하여,
상기 휴대 장치로부터 상기 제2 화자의 응답 음성을 포함하는 응답 음성 신호를 수신하는 단계; 및
상기 음성인식 장치에 의해 상기 제2 화자의 응답 음성이 재생되도록, 상기 응답 음성 신호를 상기 음성인식 장치로 송신하는 단계를 더 포함하는 음성인식 시스템의 화자 검증 방법.13. The method of claim 12,
By the speech recognition server,
Receiving a response voice signal including a response voice of the second speaker from the portable device; And
And transmitting the response speech signal to the speech recognition apparatus such that the response speech of the second speaker is reproduced by the speech recognition apparatus.
상기 음성인식 서버에 의하여, 상기 휴대 장치로부터 승인 입력이 수신되면, 상기 음성 신호에서 추출된 상기 화자 특징 벡터를 이용하여 상기 제2 화자의 상기 등록된 화자 특징 벡터를 개선하는 단계를 더 포함하는 음성인식 시스템의 화자 검증 방법.The method according to claim 1,
Further comprising the step of, when the recognition input is received from the portable device by the speech recognition server, using the speaker feature vector extracted from the speech signal to improve the registered speaker feature vector of the second speaker Speaker verification method of recognition system.
상기 통신 모듈을 이용하여 상기 음성인식 장치로부터 제1 화자의 음성을 포함하는 음성 신호를 수신하고,
상기 음성 신호에 대하여 음성인식을 수행하여 음성인식 결과를 생성하고,
상기 음성 신호에서 화자 특징 벡터를 추출하고, 상기 화자 특징 벡터를 등록된 화자 특징 벡터(registered speaker feature vector)와 비교하고, 상기 비교 결과에 따라 상기 음성 신호의 화자가 등록된 제2 화자(registered second speaker)라고 결정하고,
상기 통신 모듈을 이용하여, 상기 음성인식 장치와 다른 장치인 상기 제2 화자의 상기 휴대 장치로 상기 음성인식 결과 및 상기 음성 신호를 송신하고,
상기 통신 모듈을 이용하여 상기 휴대 장치로부터 승인 입력을 수신하고,
상기 음성인식 결과에 대응하는 동작을 실행하도록 구성되는 프로세서를 포함하는 음성인식 서버.A communication module for communicating with the voice recognition device and the portable device; And
Receiving a voice signal including a voice of a first speaker from the voice recognition device using the communication module,
Performing voice recognition on the voice signal to generate a voice recognition result,
Extracting a speaker feature vector from the speech signal; comparing the speaker feature vector with a registered speaker feature vector; and comparing a registered speaker feature vector with a registered speaker feature vector, speaker,
The speech recognition result and the voice signal are transmitted to the portable device of the second speaker which is a device different from the voice recognition device using the communication module,
Receives an approval input from the portable device using the communication module,
And a processor configured to execute an operation corresponding to the speech recognition result.
상기 프로세서는,
상기 휴대 장치로부터 거절 입력과 함께 상기 제2 화자의 응답 음성을 포함하는 응답 음성 신호를 수신하고,
상기 음성인식 장치에 의해 상기 제2 화자의 응답 음성이 재생되도록, 상기 통신 모듈을 이용하여 상기 응답 음성 신호를 상기 음성인식 장치로 송신하도록 구성되는 것을 특징으로 하는 음성인식 서버.17. The method of claim 16,
The processor comprising:
Receiving a response voice signal including a response voice of the second speaker together with a rejection input from the portable device,
Wherein the speech recognition server is configured to transmit the response speech signal to the speech recognition device using the communication module so that the response speech of the second speaker is reproduced by the speech recognition device.
오디오 신호를 생성하는 마이크로폰;
상기 오디오 신호로부터 제1 화자의 음성을 포함하는 음성 신호를 검출하고, 상기 음성 신호를 상기 음성인식 서버로 송신하고, 상기 음성인식 서버로부터 합성음 신호를 수신하도록 구성되는 프로세서; 및
상기 합성음 신호에 대응하는 상기 합성음을 재생하는 스피커를 포함하는 음성인식 장치.A communication module for communicating with the speech recognition server of claim 16 or 17;
A microphone for generating an audio signal;
A processor configured to detect a speech signal including a speech of a first speaker from the audio signal, transmit the speech signal to the speech recognition server, and receive a synthetic speech signal from the speech recognition server; And
And a speaker for reproducing the synthesized sound corresponding to the synthesized sound signal.
상기 음성인식 장치는 상기 음성인식 서버와 통신하는 제1 통신 모듈, 오디오 신호를 생성하는 마이크로폰, 상기 오디오 신호로부터 상기 음성 신호를 검출하고 상기 음성 신호를 상기 음성인식 서버로 송신하고 상기 음성인식 서버로부터 합성음 신호를 수신하는 제1 프로세서, 및 상기 합성음 신호에 대응하는 합성음을 재생하는 스피커를 포함하고,
상기 음성인식 서버는 제2 프로세서, 및 상기 음성인식 장치 및 휴대 장치와 통신하는 제2 통신 모듈을 포함하고,
상기 제2 프로세서는,
상기 음성인식 장치로부터 제1 화자의 음성을 포함하는 음성 신호를 수신하고,
상기 음성 신호에 대하여 음성인식을 수행하여 음성인식 결과를 생성하고,
상기 음성 신호에서 화자 특징 벡터를 추출하고, 상기 화자 특징 벡터를 등록된 화자 특징 벡터(registered speaker feature vector)와 비교하고, 상기 비교 결과에 따라 상기 음성 신호의 화자가 등록된 제2 화자(registered second speaker)라고 인식하고,
상기 음성인식 장치와 다른 장치인 상기 제2 화자의 휴대 장치로 상기 음성인식 결과 및 상기 음성 신호를 송신하고,
상기 휴대 장치로부터 승인 입력을 수신하면, 상기 음성인식 결과에 대응하는 동작을 실행하도록 구성되는 것을 특징으로 하는 음성인식 시스템.
A speech recognition system comprising a speech recognition server and a speech recognition device,
The voice recognition apparatus includes a first communication module for communicating with the voice recognition server, a microphone for generating an audio signal, a voice recognition module for detecting the voice signal from the audio signal, transmitting the voice signal to the voice recognition server, A first processor for receiving a synthesized voice signal, and a speaker for reproducing a synthesized voice corresponding to the synthesized voice signal,
Wherein the speech recognition server comprises a second processor and a second communication module for communicating with the speech recognition device and the portable device,
Wherein the second processor comprises:
Receiving a speech signal including a speech of a first speaker from the speech recognition apparatus,
Performing voice recognition on the voice signal to generate a voice recognition result,
Extracting a speaker feature vector from the speech signal; comparing the speaker feature vector with a registered speaker feature vector; and comparing a registered speaker feature vector with a registered speaker feature vector, speaker,
The voice recognition result and the voice signal are transmitted to the portable device of the second speaker which is a device different from the voice recognition device,
And when the recognition input is received from the portable device, performing an operation corresponding to the speech recognition result.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170094968A KR101995443B1 (en) | 2017-07-26 | 2017-07-26 | Method for verifying speaker and system for recognizing speech |
JP2018140622A JP6662962B2 (en) | 2017-07-26 | 2018-07-26 | Speaker verification method and speech recognition system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170094968A KR101995443B1 (en) | 2017-07-26 | 2017-07-26 | Method for verifying speaker and system for recognizing speech |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190076340A Division KR102098237B1 (en) | 2019-06-26 | 2019-06-26 | Method for verifying speaker and system for recognizing speech |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190012065A KR20190012065A (en) | 2019-02-08 |
KR101995443B1 true KR101995443B1 (en) | 2019-07-02 |
Family
ID=65365192
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170094968A KR101995443B1 (en) | 2017-07-26 | 2017-07-26 | Method for verifying speaker and system for recognizing speech |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6662962B2 (en) |
KR (1) | KR101995443B1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220166465A (en) | 2021-06-10 | 2022-12-19 | (주)에어사운드 | Meeting minutes creating system and method using multi-channel receiver |
KR20230066797A (en) | 2021-11-08 | 2023-05-16 | (주)에어사운드 | Real-time subtitle and document creation method by voice separation, computer program and device using the method |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102311289B1 (en) * | 2019-08-30 | 2021-10-14 | (주)쿠첸 | Heating appliance having child-lock function |
WO2023233754A1 (en) * | 2022-05-30 | 2023-12-07 | パナソニックIpマネジメント株式会社 | Voice authentication device and voice authentication method |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009289253A (en) * | 2008-04-30 | 2009-12-10 | Hitachi Ltd | Biometric authentication system, authentication client terminal, and biometric authentication method |
WO2014171144A1 (en) * | 2013-04-19 | 2014-10-23 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | Control method for household electrical appliance, household electrical appliance control system, and gateway |
JP2016099469A (en) * | 2014-11-20 | 2016-05-30 | シャープ株式会社 | Voice recognition operation device, control device of voice recognition operation device, method for operating voice recognition operation device, program, and control system of voice recognition operation device |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3603756B2 (en) * | 2000-06-30 | 2004-12-22 | 日本電気株式会社 | Voice signature commerce system and method |
JP2007052496A (en) * | 2005-08-15 | 2007-03-01 | Advanced Media Inc | User authentication system and user authentication method |
JP5612887B2 (en) * | 2009-08-07 | 2014-10-22 | 株式会社富士通ソーシアルサイエンスラボラトリ | Information system and program |
US9343068B2 (en) * | 2013-09-16 | 2016-05-17 | Qualcomm Incorporated | Method and apparatus for controlling access to applications having different security levels |
CA2891742C (en) * | 2014-05-15 | 2023-11-28 | Tyco Safety Products Canada Ltd. | System and method for processing control commands in a voice interactive system |
KR102371697B1 (en) * | 2015-02-11 | 2022-03-08 | 삼성전자주식회사 | Operating Method for Voice function and electronic device supporting the same |
US10127926B2 (en) * | 2016-06-10 | 2018-11-13 | Google Llc | Securely executing voice actions with speaker identification and authentication input types |
-
2017
- 2017-07-26 KR KR1020170094968A patent/KR101995443B1/en active IP Right Grant
-
2018
- 2018-07-26 JP JP2018140622A patent/JP6662962B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009289253A (en) * | 2008-04-30 | 2009-12-10 | Hitachi Ltd | Biometric authentication system, authentication client terminal, and biometric authentication method |
WO2014171144A1 (en) * | 2013-04-19 | 2014-10-23 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | Control method for household electrical appliance, household electrical appliance control system, and gateway |
JP2016099469A (en) * | 2014-11-20 | 2016-05-30 | シャープ株式会社 | Voice recognition operation device, control device of voice recognition operation device, method for operating voice recognition operation device, program, and control system of voice recognition operation device |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220166465A (en) | 2021-06-10 | 2022-12-19 | (주)에어사운드 | Meeting minutes creating system and method using multi-channel receiver |
KR20230066797A (en) | 2021-11-08 | 2023-05-16 | (주)에어사운드 | Real-time subtitle and document creation method by voice separation, computer program and device using the method |
Also Published As
Publication number | Publication date |
---|---|
KR20190012065A (en) | 2019-02-08 |
JP6662962B2 (en) | 2020-03-11 |
JP2019028465A (en) | 2019-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111699528B (en) | Electronic device and method for executing functions of electronic device | |
KR102002903B1 (en) | Method for certifying speaker and system for recognizing speech | |
CN109643549B (en) | Speech recognition method and device based on speaker recognition | |
US11763808B2 (en) | Temporary account association with voice-enabled devices | |
US10714085B2 (en) | Temporary account association with voice-enabled devices | |
KR101995443B1 (en) | Method for verifying speaker and system for recognizing speech | |
JP6510117B2 (en) | Voice control device, operation method of voice control device, computer program and recording medium | |
US10706848B1 (en) | Anomaly detection for voice controlled devices | |
CN106663430A (en) | Keyword detection using speaker-independent keyword models for user-designated keywords | |
Gong et al. | Protecting voice controlled systems using sound source identification based on acoustic cues | |
US11862153B1 (en) | System for recognizing and responding to environmental noises | |
WO2017166651A1 (en) | Voice recognition model training method, speaker type recognition method and device | |
US10916249B2 (en) | Method of processing a speech signal for speaker recognition and electronic apparatus implementing same | |
US11514890B2 (en) | Method for user voice input processing and electronic device supporting same | |
CN111640434A (en) | Method and apparatus for controlling voice device | |
WO2020202862A1 (en) | Response generation device and response generation method | |
KR101181060B1 (en) | Voice recognition system and method for speaker recognition using thereof | |
US20180182393A1 (en) | Security enhanced speech recognition method and device | |
KR102098237B1 (en) | Method for verifying speaker and system for recognizing speech | |
TW201944320A (en) | Payment authentication method, device, equipment and storage medium | |
US11798538B1 (en) | Answer prediction in a speech processing system | |
CN112513845A (en) | Transient account association with voice-enabled devices | |
JP6571587B2 (en) | Voice input device, method thereof, and program | |
CN110635976A (en) | Accompanying equipment control method, accompanying equipment control system and storage medium | |
JP7254316B1 (en) | Program, information processing device, and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
A107 | Divisional application of patent | ||
GRNT | Written decision to grant |