KR20190030081A - 인공 지능 비서 서비스 제공 방법, 및 이에 사용되는 음성 인식 장비 - Google Patents

인공 지능 비서 서비스 제공 방법, 및 이에 사용되는 음성 인식 장비 Download PDF

Info

Publication number
KR20190030081A
KR20190030081A KR1020170117364A KR20170117364A KR20190030081A KR 20190030081 A KR20190030081 A KR 20190030081A KR 1020170117364 A KR1020170117364 A KR 1020170117364A KR 20170117364 A KR20170117364 A KR 20170117364A KR 20190030081 A KR20190030081 A KR 20190030081A
Authority
KR
South Korea
Prior art keywords
voice
user
service
speaker
service request
Prior art date
Application number
KR1020170117364A
Other languages
English (en)
Other versions
KR102087202B1 (ko
Inventor
정희석
진세훈
이형엽
임형택
Original Assignee
(주)파워보이스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)파워보이스 filed Critical (주)파워보이스
Priority to KR1020170117364A priority Critical patent/KR102087202B1/ko
Priority to PCT/KR2018/010229 priority patent/WO2019054681A1/ko
Publication of KR20190030081A publication Critical patent/KR20190030081A/ko
Application granted granted Critical
Publication of KR102087202B1 publication Critical patent/KR102087202B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Abstract

인공 지능 비서 서비스 제공 방법, 및 이에 사용되는 음성 인식 장비가 개시된다. 본 발명은, 음성 인식 장비가, 사용자로부터 호출어 음성을 입력받고, 사용자가 입력한 호출어가 기 설정된 호출어와 일치하는지 여부를 판단하며, 호출어가 기 설정된 호출어와 일치하는 것으로 판단되고, 사용자로부터 서비스 요청 음성을 입력받은 경우에 서비스 요청 음성과 기 설정된 사용자 음성의 성문(voice print) 분석용 파라미터를 비교함으로써 화자를 인증하는 과정을 통해 구현된다. 본 발명에 따르면, 사용자는 소정의 호출어를 반복적으로 입력할 필요없이 연속적으로 인공 지능 비서 서비스를 이용할 수 있게 된다. 아울러, 본 발명에 따르면, 사용자의 서비스 요청에 대해 화자 인증을 별도로 실행함으로써 권한없는 제3자의 음성에 의한 오작동을 방지할 수 있게 된다. 아울러, 본 발명에 따르면, 정당한 권한있는 복수의 사용자들로부터 서비스 요청 음성이 누적적으로 입력되는 경우에 서비스 요청을 사용자별로 구분하여 연계 처리할 수 있게 된다.

Description

인공 지능 비서 서비스 제공 방법, 및 이에 사용되는 음성 인식 장비{Method for Providing Artificial Intelligence Secretary Service, and Voice Recognition Device Used Therein}
본 발명은 인공 지능 비서 서비스 제공 방법, 및 이에 사용되는 음성 인식 장비에 관한 것으로, 더욱 상세하게는 사용자가 소정의 호출어를 반복적으로 입력할 필요없이 연속적으로 인공 지능 비서 서비스를 이용할 수 있게 되고, 사용자의 서비스 요청에 대한 화자 인증 절차를 별도로 실행함으로써 권한없는 제3자의 음성에 의한 오작동을 방지할 수 있게 될 뿐만 아니라, 정당한 권한있는 복수의 사용자들로부터 서비스 요청 음성이 누적적으로 입력되는 경우에 서비스 요청을 사용자별로 구분하여 연계 처리할 수 있도록 하는 인공 지능 비서 서비스 제공 방법, 및 이에 사용되는 음성 인식 장비에 관한 것이다.
최근 국내외에서는 음성 인식 기술을 이용한 인공 지능 비서 서비스가 다양하게 출시되고 있으며, 인공 지능 스피커의 세계 시장 규모는 2020년 약 2조 5천억원에 달할 것으로 전망되는 등 향후 관련 시장 규모는 급격하게 증가될 것으로 예상된다.
한편, 종래 기술에 따른 인공 지능 스피커는 동작 대기 상태에서의 활성화 모드(wake-up mode)로의 전환을 위해 사용자에게 소정의 호출어의 발성을 요구하고 있으며, 인공 지능 스피커가 호출어의 음성 인식을 통해 활성화된 상태에서 이후 사용자의 서비스 제공 요청이 있는 경우에 해당 요청 음성에 대한 음성 인식 및 그에 따른 서비스의 제공이 실행된다.
이와 같이 종래 기술에 따른 인공 지능 스피커의 활성화에 요구되고 있는 호출어의 발성은 최초 1회만 요구되는 것은 아니며, 동일한 사용자라고 하더라도 시간 간격을 두고 추가의 인공 지능 서비스를 요청하는 경우에는 매 요청에 앞서 호출어를 발성함으로써 인공 지능 스피커를 활성화 상태로 전환해야 하는 번거로운 절차가 요구된다.
아울러, 종래 기술에 따른 인공 지능 스피커는 호출어가 인식된 경우에는 그 이후의 사용자의 서비스 요청 음성에 대해서는 해당 사용자에 대한 별도의 인증을 거치지 않고 서비스 요청에 따른 서비스를 제공한다.
이러한 이유에서 인공 지능 스피커가 설치된 공간에 다수의 사용자(A,B,C,D..)가 있는 경우에 사용자 A가 호출어를 입력한 다음, 동일 공간에 있는 사용자 B가 서비스 요청의 의사없이 발성한 소리에 대해서도 인공 지능 스피커는 사용자 A의 서비스 요청 음성으로 인식하여 오작동되는 오류가 발생하게 된다.
아울러, 종래 기술에 따른 인공 지능 스피커는 복수의 사용자(A,B,C,D..)의 음성을 구분하여 인식할 수 없기 때문에 사용자 A의 서비스 요청, 사용자 B의 서비스 요청, 다시 사용자 A의 서비스 요청이 순차적으로 이루어지는 경우 이들 요청을 사용자별로 구분하여 연계 처리하지 못하고, 각각의 요청을 병렬적으로 처리할 수 밖에 없다는 기술적 한계가 있었다.
따라서, 본 발명의 목적은, 사용자가 소정의 호출어를 반복적으로 입력할 필요없이 연속적으로 인공 지능 비서 서비스를 이용할 수 있게 되고, 사용자의 서비스 요청에 대한 화자 인증 절차를 별도로 실행함으로써 권한없는 제3자의 음성에 의한 오작동을 방지할 수 있게 될 뿐만 아니라, 정당한 권한있는 복수의 사용자들로부터 서비스 요청 음성이 누적적으로 입력되는 경우에 서비스 요청을 사용자별로 구분하여 연계 처리할 수 있도록 하는 인공 지능 비서 서비스 제공 방법, 및 이에 사용되는 음성 인식 장비를 제공함에 있다.
상기 목적을 달성하기 위한 본 발명에 따른 인공 지능 비서 서비스 제공 방법은, (a) 음성 인식 장비가, 사용자로부터 호출어 음성을 입력받는 단계; (b) 상기 음성 인식 장비가, 상기 사용자가 입력한 상기 호출어가 기 설정된 호출어와 일치하는지 여부를 판단하는 단계; 및 (c) 상기 음성 인식 장비가, 상기 호출어가 기 설정된 호출어와 일치하는 것으로 판단되고, 상기 사용자로부터 서비스 요청 음성을 입력받은 경우에 상기 서비스 요청 음성과 기 설정된 상기 사용자 음성의 성문(voice print) 분석용 파라미터를 비교함으로써 화자를 인증하는 단계를 포함한다.
바람직하게는, 상기 (a) 단계 이전에, 상기 음성 인식 장비가, 상기 호출어 발성 안내 음성을 출력하는 단계를 더 포함한다.
또한, 상기 설정된 호출어는 상기 사용자가 임의로 선택한 호출어인 것을 특징으로 한다.
또한, (d) 상기 음성 인식 장비가, 상기 (c) 단계에서 인증된 화자의 아이디에 기초하여 실행된 서비스 이용 권한에 대한 인증 결과를 안내하는 음성을 출력하는 단계를 더 포함한다.
또한, (d) 상기 음성 인식 장비가, 상기 (c) 단계에서 인증된 화자의 아이디에 기초하여 상기 사용자에게 제공할 서비스 콘텐츠를 결정하는 단계를 더 포함한다.
한편, 본 발명에 따른 음성 인식 장비는, 사용자로부터 호출어 음성을 입력받는 입력부; 및 상기 사용자가 입력한 상기 호출어가 기 설정된 호출어와 일치하는지 여부를 판단하고, 상기 호출어가 기 설정된 호출어와 일치하는 것으로 판단되고, 상기 사용자로부터 서비스 요청 음성을 입력받은 경우에 상기 서비스 요청 음성과 기 설정된 상기 사용자 음성의 성문(voice print) 분석용 파라미터를 비교함으로써 화자를 인증하는 화자 인증부를 포함한다.
바람직하게는, 상기 호출어 발성 안내 음성을 출력하는 출력부를 더 포함한다.
또한, 상기 설정된 호출어는 상기 사용자가 임의로 선택한 호출어인 것을 특징으로 한다.
또한, 상기 인증된 화자의 아이디에 기초하여 실행된 서비스 이용 권한에 대한 인증 결과를 안내하는 음성을 출력하는 출력부를 더 포함한다.
또한, 상기 인증된 화자의 아이디에 기초하여 상기 사용자에게 제공할 서비스 콘텐츠를 결정하는 판단부를 더 포함한다.
본 발명에 따르면, 사용자는 소정의 호출어를 반복적으로 입력할 필요없이 연속적으로 인공 지능 비서 서비스를 이용할 수 있게 된다.
아울러, 본 발명에 따르면, 사용자의 서비스 요청에 대해 화자 인증을 별도로 실행함으로써 권한없는 제3자의 음성에 의한 오작동을 방지할 수 있게 된다.
아울러, 본 발명에 따르면, 정당한 권한있는 복수의 사용자들로부터 서비스 요청 음성이 누적적으로 입력되는 경우에 서비스 요청을 사용자별로 구분하여 연계 처리할 수 있게 된다.
도 1은 본 발명의 제1 실시예에 따른 인공 지능 비서 서비스 제공 시스템의 구성도,
도 2는 본 발명의 제1 실시예에 따른 음성 인식 장비의 구조를 나타내는 기능 블록도,
도 3은 본 발명의 제1 실시예에 따른 음성 인식 장비에서의 화자 인증 방법을 설명하는 절차 흐름도, 및
도 4는 본 발명의 제2 실시예에 따른 인공 지능 비서 서비스 제공 방법의 실행 과정을 설명하는 신호 흐름도이다.
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다. 도면들 중 동일한 구성요소들은 가능한 한 어느 곳에서든지 동일한 부호들로 나타내고 있음에 유의해야 한다. 또한 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다.
도 1은 본 발명의 일 실시예에 따른 인공 지능 비서 서비스 제공 시스템의 구성도이다. 도 1을 참조하면, 본 발명의 일 실시예에 따른 인공 지능 비서 서비스 제공 시스템은 음성 인식 장비(100) 및 서비스 제공 서버(200)를 포함한다.
음성 인식 장비(100)는 음성 인식 기능이 구비된 인공 지능 스피커로서, 거실 등과 같이 사용자가 거주하는 공간 내에 설치되며, 본 발명을 실시함에 있어서 음성 인식 장비(100)는 사용자가 소지하고 있는 스마트 폰이 될 수도 있을 것이다.
음성 인식 장비(100)는 인공 지능 비서 서비스에서의 사용자 등록 절차를 위해 사용자에게 소정의 호출어(예를 들면, '사일로') 발성을 안내하고, 이후 사용자의 발성에 따라 사용자별 음성 등록을 실행하며, 사용자별 음성 등록이 완료된 후에 사용자가 해당 호출어를 발성하는 경우에 음성 인식 기능을 통해 해당 호출어의 음성 정보를 기초로 사용자를 인증한다.
보다 구제적으로, 음성 인식 장비(100)는 화자 식별 방법으로서 호출어 키워드를 통한 문맥 종속 화자 식별(text dependant speaker recognition)과 비정형 자연어 명령어에 기초한 문맥 독립 화자 식별(text independant speaker recognition)을 복합적으로 실행한다.
아울러, 음성 인식 장비(100)는 사용자의 호출어 음성 신호 및 비정형 자연어 명령어 음성(서비스 요청 음성) 신호에서의 주파수 대역폭, 진폭 스펙트럼 등의 성문(voice print) 분석용 파라미터 값들을 생성 및 저장하고, 이후 사용자의 서비스 요청 음성의 입력이 있는 경우에 해당 서비스 요청 음성에서의 음성 파라미터 값들과 기 저장되어 있는 파라미터 값들을 비교함으로써 화자에 대한 문맥 독립 화자 인증방법(text-independant speaker recognition method)을 통한 인증 절차를 수행한다.
한편, 음성 인식 장비(100)가 성문 분석용 파라미터를 통한 화자 인증 절차를 수행함에 있어서는, 대한민국 공개 특허 제10-2012-72906호 등에서와 같은 종래의 다양한 방법이 사용될 수 있을 것이다.
한편, 서비스 제공 서버(200)는 인공 지능 스피커 등의 음성 인식 장비(100)를 제조 및 판매하는 사업자가 설치 및 운영하는 서버로서, 서비스 제공 서버(200)에는 인공 지능 비서 서비스에 가입한 사용자가 서비스 가입시에 제공한 사용자별 아이디, 나이, 성별, 선호 콘텐츠 정보 등의 사용자 개인 정보 및 사용자별 서비스 이용 권한 범위에 대한 정보가 저장되어 있다.
도 2는 본 발명의 일 실시예에 따른 음성 인식 장비(100)의 구조를 나타내는 기능 블록도이다. 도 2를 참조하면, 본 발명의 일 실시예에 따른 음성 인식 장비(100)는 입력부(110), 출력부(130), 화자 인증부(150), 판단부(170), 저장부(180), 및 통신부(190)를 포함한다.
먼저, 음성 인식 장비(100)의 입력부(110)는 마이크 모듈 등으로 구현되며, 사용자가 호출어를 발성하는 경우에 사용자의 호출어 음성이 입력부(110)를 통해 입력된다.
또한, 음성 인식 장비(100)의 출력부(130)는 스피커 모듈 등으로 구현되며, 인공 지능 서비스에의 사용자 등록을 위한 절차로서 사용자에게 소정의 호출어(예를 들면, '사일로')의 발성을 안내하는 음성(예를 들면, '삐'소리가 나면 '사일로'라고 말해 주세요.)을 출력하며, 등록된 사용자의 이후 서비스 요청에 따른 결과(서비스 이용 불가 안내, 날씨 등의 요청 정보 안내 등)를 사용자에게 출력하는 기능을 수행한다.
한편, 음성 인식 장비(100)의 저장부(180)에는 음성 인식 장비(100)의 제조자 또는 구매자(사용자)에 의해 설정된 호출어 정보가 저장되어 있으며, 또한 사용자 등록 절차에서 사용자가 발성한 호출어 음성이 사용자별로 사용자의 아이디와 함께 연관 저장되어 있으며, 이후 사용자가 음성 인식 장비(100)의 활성화를 위해 입력한 호출어 음성 신호에서의 성문 분석용 파라미터 값들과, 사용자의 서비스 요청 음성 신호에서의 성문 분석용 파라미터 값들이 사용자의 아이디와 함께 누적적으로 연관 저장되어 있다.
음성 인식 장비(100)의 화자 인증부(150)는 화자 식별 방법으로서 호출어 키워드를 통한 문맥 종속 화자 식별과 비정형 자연어 명령어에 기초한 문맥 독립 화자 식별을 복합적으로 실행한다.
또한, 화자 인증부(150)는 사용자로부터 서비스 요청 음성이 입력되는 경우에 해당 서비스 요청 음성 신호에서의 성문 분석용 파라미터 값을 저장부(180)에 저장되어 있는, 해당 사용자의 성문 분석용 파라미터 값과 비교함으로써 해당 서비스를 요청한 화자에 대한 인증 절차를 수행한다.
즉, 화자 인증부(150)는 문맥 독립 화자 인증방법(text-independant speaker recognition method)을 이용하여, 사용자의 서비스 요청 음성에 대한 인증 절차를 별도로 실행한다.
한편, 음성 인식 장비(100)의 판단부(170)는 화자 인증부(150)가 식별한 화자의 아이디 정보에 기초해서 해당 사용자에게 제공할 맞춤형 서비스 콘텐츠를 결정하는 기능을 수행하며, 음성 인식 장비(100)의 통신부(190)는 서비스 제공 서버(200) 또는 사용자가 요청한 서비스 콘텐츠를 제공하는 외부 서버와 유/무선의 데이터 통신을 수행한다.
도 3은 본 발명의 제1 실시예에 따른 음성 인식 장비에서의 화자 인증 방법을 설명하는 절차 흐름도이다. 이하에서는 도 3을 참조하여, 본 발명의 제1 실시예에 따른 음성 인식 장비에서의 화자 인증 방법을 설명하기로 한다.
음성 인식 장비(100)는 본 발명에 따른 인공 지능 비서 서비스를 이용하기 위해서 자신의 음성을 등록하려는 사용자에게 소정의 호출어(예를 들면, '사일로')의 발성을 안내하는 음성(예를 들면, '삐'소리가 나면 '사일로'라고 말해 주세요.)을 출력부(130)를 통해 사용자에게 출력하며, 이와 같은 음성 인식 장비(100)의 음성 안내에 따라 사용자는 해당 호출어를 발성하며, 그에 따라 음성 인식 장비(100)의 입력부(110)를 통해 사용자의 호출어 음성이 입력된다.
이후 사용자는 자신의 사용자 아이디를 입력부(110)에 별도 구비된 입력 패널을 통해 입력하며, 그 결과 음성 인식 장비(100)의 저장부(180)에는 해당 사용자에 대한 디렉토리가 생성되며, 생성된 디렉토리에는 사용자의 아이디와 해당 사용자가 입력한 호출어 음성 정보가 연관 저장된다(S210).
한편, 전술한 S210 단계에서 사용자가 입력하는 아이디는 해당 사용자가 본 발명에 따른 인공 지능 비서 서비스에 가입시에 제공한 아이디로서, 서비스 제공 서버(200)에 저장되어 있는 아이디와 동일한 아이디가 되도록 함이 바람직할 것이다.
아울러, 상기와 같은 사용자 등록 절차는 음성 인식 장비(100)를 함께 사용할 복수의 사용자(예를 들면, 가족 구성원) 각각에 대해서 동일한 호출어를 통하여 반복 실행되게 된다.
전술한 S210 단계에서의 사용자 등록이 완료된 다음, 사용자는 본 발명에 따른 인공 지능 비서 서비스를 이용하기 위해서 호출어를 먼저 발성하며, 이와 같이 사용자에 의해 발성된 호출어 음성 정보에 기초하여, 화자 인증부(150)는 해당 사용자에 대한 화자 식별을 실행하게 되며(S220), 인공 지능 비서 서비스를 이용하기 위해 발성된 호출어에 뒤따라 발성되는 비정형 자연어 명령어의 음성 정보는 상기 사용자에 대해 전술한 S210 단계에서 생성된 디렉토리에 추가로 저장된다(S230).
즉, 이후에도 해당 사용자가 본 발명에 따른 인공 지능 비서 서비스를 이용하기 위해서 호출어와 비정형 자연어 명령어를 순차적으로 발성하게 되는 경우에, 전술한 S230 단계에서의 절차를 통해 해당 사용자가 발성한 비정형 자연어 명령어의 음성 정보가 해당 사용자의 디렉토리에 누적하여 저장된다(S240).
이와 같이 해당 사용자의 디렉토리에 비정형 자연어 명령어의 음성 정보가 일정 정도 이상(예를 들면, 30초 이상의 net voice)가 누적되게 되면, 화자 인증부는 문맥 독립 화자 식별을 위한 자동 학습을 통해 사용자별 모델(주파수 대역폭, 진폭 스펙트럼 등의 성문(voice print) 분석용 파라미터 값)을 생성하게 되며, 이와 같이 생성된 사용자별 파라미터 값은 해당 사용자의 디렉토리에 함께 저장된다(S250).
이에 따라, 화자 인증부(150)는 호출어 키워드에 기초한 문맥 종속 화자 식별과, 사용자별로 생성된 파라미터 값에 기초한 문맥 독립 화자 식별을 독립적으로 수행할 수 있게 된다.
한편, 이후 본 발명에 따른 인공 지능 비서 서비스를 이용하기 위해서 특정 사용자가 호출어와 비정형 자연어 명령어를 순차적으로 발성하는 경우에 화자 인증부(150)는 호출어 키워드를 통한 1차 화자 식별(문맥 종속 화자 식별)을 실행한 다음(S260), 비정형 자연어 명령어를 통한 2차 화자 식별(문맥 독립 화자 식별)을 연속적으로 실행하게 된다(S270).
화자 인증부(150)는 문맥 종속 화자 식별 방법을 통한 1차 화자 식별 결과값에 소정의 가중치를 적용한 값과, 문맥 독립 화자 식별을 통한 2차 화자 식별 결과값에 소정의 가중치를 적용한 값의 합산값에 기초하여 최종적으로 화자를 식별하게 된다(S280).
본 명세서에서는 상술한 바와 같은 화자 인증부(150)의 최종 화자 식별 방법을 문맥 종속 화자 식별 방법과 문맥 독립 화자 식별 방법이 융합된 하이브리드 화자 식별 방법이라 명하기로 한다.
한편, 본 발명을 실시함에 있어서, 전술한 S270 단계에서의 비정형 자연어 명령어의 음성 정보가 사용자의 디렉토리에 누적적으로 저장됨으로써, 전술한 S250 단계에서 생성된 사용자별 음성 인식 파라미터가 추가적으로 생성됨으로써, 화자 인증부(150)에서의 문맥 독립 화자 식별의 정밀도가 지속적으로 향상되도록 함이 바람직할 것이다.
도 4는 본 발명의 제2 실시예에 따른 인공 지능 비서 서비스 제공 방법의 실행 과정을 설명하는 신호 흐름도이다. 이하에서는 도 1, 도 2, 및 도 4를 참조하여, 본 발명의 일 실시예에 따른 인공 지능 비서 서비스 제공 방법의 실행 과정을 설명하기로 한다.
한편, 도 4에서의 본 발명의 제2 실시예에 따른 인공 지능 비서 서비스 제공 방법은 상술한 도 3에서의 본 발명의 제1 실시예에 따른 화자 인증 방법에서의 사용자 등록 절차가 완료된 상태로서, 화자 인증부(150)에서의 누적 학습을 통한 하이브리드 화자 식별 방법의 실행이 가능한 상태인 것을 전제로 실행된다.
먼저, 본 발명에 따른 인공 지능 비서 서비스를 이용하려는 사용자는 소정의 호출어 음성(예를 들면, '사일로')을 발성한 후, 연속적으로 비정형 자연어 명령어인 서비스 요청 음성(예를 들면, '영화 추천해줘')을 발성한다(S310).
이에 따라, 음성 인식 장비(100)의 화자 식별부(150)는 전술한 S260 단계 내지 S280 단계를 통한 하이브리드 화자 식별 방법의 실행을 통해 해당 사용자의 사용자 아이디를 식별할 수 있게 된다(S320).
한편, 본 발명에서는 호출어 정보를 알고 있고 있거나, 호출어를 우연히 발성한 제3자라 하더라도 전술한 도 3에서의 사용자별 등록 및 디렉토리 생성 절차를 진행하지 않은 제3자는 전술한 S320 단계에서 사용자 아이디를 식별할 수 없는 상태(즉, 인증 불가)가 됨으로써 본 발명에 따른 인공 지능 비서 서비스의 이용이 제한되게 된다.
상기와 같은 화자 식별 절차를 완료한 후, 음성 인식 장비는 전술한 S310 단계에서의 서비스 요청 음성에 대한 음성 분석 및 인식을 통해 관련 서비스를 제공하게 된다.
한편, 이후 사용자는 자신이 원하는 구체적인 서비스를 요청하는 음성을 별도의 호출어 발성없이 음성 인식 장비(100)의 입력부(110)를 통해 입력한다(S330).
이에 따라, 음성 인식 장비(100)의 화자 인증부(150)는 해당 서비스 요청 음성 신호에서의 성문 분석용 파라미터 값들을 저장부(180)에 누적적으로 저장한 다음(S335), 전술한 S250 단계에서 생성 및 저장된 성문 분석용 파라미터 값과 전술한 S335 단계에서 저장된 서비스 요청 음성 신호에서의 성문 분석용 파라미터 값을 비교하여 일치 여부를 판단함으로써 해당 사용자에 대한 추가 인증 절차인 파라미터 인증 절차를 실행한다(S340).
그 결과, 파라미터 값이 상호 일치하지 않는 것으로 판단된 경우에는 음성 인식 장비(100)는 '서비스 이용을 위해 먼저 호출어를 발성해 주세요'와 같은 호출어 발성 안내 음성 메시지를 출력부(130)를 통해 사용자에게 출력한다(S345).
이와 같이 본 발명에 의하면, 사용자의 서비스 요청 음성 신호에서의 성문 분석용 파라미터 값이 이전의 호출어 음성 신호에서의 성문 분석용 파라미터 값과 일치하는지 여부를 판단하는 추가 인증 절차를 실행함으로써, 사용자 A가 호출어를 입력한 다음, 동일 공간에 있는 사용자 B가 서비스 요청의 의사 없이 발성한 소리에 대해서 음성 인식 장비(100)가 사용자 A의 서비스 요청 음성으로 잘못 인식하여 오작동하는 것을 방지할 수 있게 된다.
또한, 본 발명을 실시함에 있어서는, 전술한 S330 단계에서 서비스 요청(1차 서비스 요청)한 사용자가 이후 다시 서비스를 요청(2차 서비스 요청)하는 경우에 있어서도, 음성 인식 장비(100)의 화자 인증부(150)는 2차 서비스 요청 음성 신호에서의 성문 분석용 파라미터 값들을 저장부에 누적적으로 저장한 다음, 이를 전술한 S330 단계에서의 1차 서비스 요청에 대해 전술한 S335 단계를 통해 저장된 1차 서비스 요청 음성 신호에서의 성문 분석용 파라미터 값 또는 전술한 S250 단계에서 생성 및 저장된 성문 분석용 파라미터 값과 비교하여 그 일치 여부를 판단함으로써 해당 사용자에 대한 파라미터 인증 절차를 실행한다.
이와 같이 본 발명에 의하면, 동일 사용자로부터의 2차 서비스 요청에 있는 경우에는 1차 서비스 요청시에 저장되었던 성문 분석용 파라미터 값(또는 전술한 S250 단계에서 생성 및 저장되어 있는 성문 분석용 파라미터 값)과의 비교를 통해 사용자 인증(문맥 독립 화자 인증)을 실행하고, 또한 3차 서비스 요청이 있는 경우에는 그 이전의 서비스 요청(1차 또는 2차 서비스 요청)시에 저장되었던 성문 분석용 파라미터 값 또는 전술한 S250 단계에서 생성 및 저장된 성문 분석용 파라미터 값과의 비교를 통해 사용자 인증(문맥 독립 화자 인증)을 실행함으로써, 전술한 S310 단계에서 호출어를 1회 발성한 사용자는 이후 호출어를 반복적으로 발성할 필요없이, 문맥 독립 화자 인증 절차를 통해 음성 인식 장비를 통한 연속적인 인공 지능 서비스를 이용할 수 있게 된다.
아울러, 본 발명에서는 음성 인식 장비(100)의 저장부(180)에는 복수의 사용자의 각 아이디 별로 해당 사용자의 호출어 음성에서의 성문 분석용 파라미터 값과 이후 서비스 요청에서의 성문 분석용 파라미터 값과, 서비스 요청의 내용이 누적적으로 저장되도록 함이 바람직할 것이며, 이러한 경우에 음성 인식 장비(100)의 화자 인증부(150)는 각각 전술한 S315 단계에서의 호출어 음성을 입력한 복수의 사용자들이 이후 번갈아가며 산발적으로 서비스를 요청하는 경우라도 복수의 사용자들의 서비스 요청을 사용자 별로 구분하여 인식할 수 있게 된다.
그 결과, 예를 들어 사용자 A의 1차 서비스 요청, 사용자 B의 서비스 요청, 사용자 A의 2차 서비스 요청이 순차적으로 이루어지는 경우 음성 인식 장비는 사용자 A의 1차 서비스 요청과 연계하여 사용자 A의 2차 서비스 요청을 연계하여 처리할 수 있게 된다.
한편, 전술한 S340 단계에서 성문 분석용 파라미터 값이 일치하는 것으로 판단된 경우에는 음성 인식 장비(100)의 화자 인증부(150)는 사용자의 서비스 요청 음성을 인식 및 분석하고, 음성 인식 장비(100)의 통신부(190)는 해당 사용자의 아이디 정보 및 요청 서비스 내용을 포함하는 서비스 이용 권한 인증 요청 메시지를 서비스 제공 서버(200)로 송신한다(S350).
한편, 화자 인증부(150)가 서비스 요청 음성 분석 및 음성 인식을 실행함에 있어서는, 종래 기술에 따른 다양한 음성 인식 서비스에서의 음성 분석 및 인식 기술이 사용될 수 있을 것이다.
이후 서비스 제공 서버(200)는 음성 인식 장비(100)로부터 수신된 서비스 이용 권한 요청 메시지에 포함된 사용자의 아이디 정보 및 요청 서비스 내용 정보에 기초하여 요청된 서비스의 이용 권한에 대한 인증 절차를 실행한다(S355).
구체적으로, 서비스 제공 서버(200)에는 본 발명에 따른 인공 지능 비서 서비스 가입 단계에서 사용자로부터 제공받은 사용자별 정보가 하기의 표 1에서와 같이 저장되어 있을 수 있다.
한편, 본 발명을 실시함에 있어서는 음성 인식 장비(100)의 저장부(180)에도 표 1에서와 같은 정보가 동일하게 저장될 수도 있을 것이다.
사용자 ID 생년월일 성별 접근 제한 서비스
KIM77 1977.08.12. 없음
PARK78 1978.05.01. 유료 콘텐츠
KIM08 2008.12.15. 성인용 콘텐츠
한편, 전술한 S350 단계에서의 서비스 이용 권한 인증 요청 메시지에 포함된 사용자 아이디가 'KIM08'이고, 해당 메시지에 포함된 요청 서비스 내용이 '성인용 영화 콘텐츠의 시청'인 경우에 서비스 제공 서버(200)는 상기 표 1에서의 사용자 정보에 기초하여 해당 서비스의 이용 권한을 인증하지 않고, 음성 인식 장비(100)로 서비스 이용 승인 거절 메시지를 송신한다(S360).
이에 따라, 음성 인식 장비(100)의 출력부(130)는 '요청하신 서비스는 이용할 수 없는 서비스입니다'와 같은 서비스 이용 불가 안내 음성을 해당 사용자에게 출력하게 된다.
한편, 전술한 S355 단계에서 서비스 제공 서버(200)가 서비스 이용 권한을 인증한 경우에 서비스 제공 서버(200)는 음성 인식 장비(100)로 서비스 이용 승인 완료 메시지를 송신하게 되며(S370), 이에 따라 음성 인식 장비(100)는 전술한 S330 단계에서의 서비스 요청에 따른 서비스 제공을 실행하게 된다(S375).
한편, 본 발명을 실시함에 있어서, 상기 표 1에서의 사용자 정보가 음성 인식 장비(100)의 저장부(180)에 저장되어 있는 경우에는 전술한 S355 단계에서의 서비스 이용 권한 인증 절차를 음성 인식 장비(100)의 판단부(170)를 통해 자체적으로 실행할 수도 있을 것이다.
아울러, 전술한 S375 단계에서 서비스 제공을 실행함에 있어서, 음성 인식 장비(100)는 전술한 S325 단계에서 식별된 화자의 사용자 ID 및 상기 표 1에서의 관련 정보에 기초한 개인 맞춤형 서비스를 제공할 수도 있을 것이다.
구체적으로, 전술한 S330 단계에서의 서비스 요청 음성이 '심심한데 뭐 재밌는거 없을까?'이고, 전술한 S320 단계에서 음성 인식 장비(100)의 화자 인증부(150)가 해당 화자의 아이디를 표 1에서의 'PARK78'로 인식한 경우에 음성 인식 장비(100)의 판단부(170)는 표 1에서의 사용자 정보와, 서비스 요청 음성에 대한 음성 분석 결과에 기초하여 'PARK78'을 위한 맞춤형 콘텐츠를 '미국 드라마'로 결정할 수 있을 것이다.
구체적으로, 전술한 S375 단계를 실시함에 있어서, 음성 인식 장비(100)의 판단부(170)는 'PARK78'의 선호 콘텐츠 정보로서 해당 사용자가 서비스 가입시 제공함으로써, 서비스 제공 서버(200) 및 음성 인식 장비(100)의 저장부(180)에 상기 표 1에서의 사용자 정보와 함께 추가로 저장되어 있는 선호 콘텐츠 정보인 '미국드라마 / 가족영화 / 최신가요' 중에서 'PARK78'의 연령대에 속하는 다른 여성 회원의 선호 콘텐츠 정보를 참고하여, 상대적 선호도가 높은 콘텐츠인 '미국드라마'를 'PARK78'을 위한 맞춤형 콘텐츠로 '미국드라마'로 결정할 수 있을 것이다.
이에 따라, 음성 인식 장비(100)의 판단부(170)는 '네, 사일로가 추천하는 미국드라마를 시청하시겠습니까?'와 같은 맞춤형 서비스 제안 메시지를 생성하고, 음성 인식 장비(100)의 출력부(130)는 해당 메시지를 사용자에게 음성 출력하게 된다.
본 발명에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이상에서는 본 발명의 바람직한 실시예 및 응용예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예 및 응용예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
100: 음성 인식 장비, 200: 서비스 제공 서버.

Claims (8)

  1. (a) 음성 인식 장비가, 사용자로부터 호출어 음성을 입력받는 단계;
    (b) 상기 음성 인식 장비가, 상기 사용자가 입력한 상기 호출어가 기 설정된 호출어와 일치하는지 여부를 판단하는 단계; 및
    (c) 상기 음성 인식 장비가, 상기 호출어가 기 설정된 호출어와 일치하는 것으로 판단되고, 상기 사용자로부터 서비스 요청 음성을 입력받은 경우에 상기 서비스 요청 음성과 기 설정된 상기 사용자 음성의 성문(voice print) 분석용 파라미터를 비교함으로써 화자를 인증하는 단계
    를 포함하는 인공 지능 비서 서비스 제공 방법.
  2. 제1항에 있어서,
    상기 (a) 단계 이전에,
    상기 음성 인식 장비가, 상기 호출어 발성 안내 음성을 출력하는 단계를 더 포함하는 인공 지능 비서 서비스 제공 방법.
  3. 제1항에 있어서,
    상기 설정된 호출어는 상기 사용자가 임의로 선택한 호출어인 것인 인공 지능 비서 서비스 제공 방법.
  4. 제1항에 있어서,
    (d) 상기 음성 인식 장비가, 상기 (c) 단계에서 인증된 화자의 아이디에 기초하여 실행된 서비스 이용 권한에 대한 인증 결과를 안내하는 음성을 출력하는 단계를 더 포함하는 인공 지능 비서 서비스 제공 방법.
  5. 사용자로부터 호출어 음성을 입력받는 입력부; 및
    상기 사용자가 입력한 상기 호출어가 기 설정된 호출어와 일치하는지 여부를 판단하고, 상기 호출어가 기 설정된 호출어와 일치하는 것으로 판단되고, 상기 사용자로부터 서비스 요청 음성을 입력받은 경우에 상기 서비스 요청 음성과 기 설정된 상기 사용자 음성의 성문(voice print) 분석용 파라미터를 비교함으로써 화자를 인증하는 화자 인증부
    를 포함하는 음성 인식 장비.
  6. 제5항에 있어서,
    상기 호출어 발성 안내 음성을 출력하는 출력부를 더 포함하는 음성 인식 장비.
  7. 제5항에 있어서,
    상기 설정된 호출어는 상기 사용자가 임의로 선택한 호출어인 것인 음성 인식 장비.
  8. 제5항에 있어서,
    상기 인증된 화자의 아이디에 기초하여 실행된 서비스 이용 권한에 대한 인증 결과를 안내하는 음성을 출력하는 출력부를 더 포함하는 음성 인식 장비.
KR1020170117364A 2017-09-13 2017-09-13 인공 지능 비서 서비스 제공 방법, 및 이에 사용되는 음성 인식 장비 KR102087202B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020170117364A KR102087202B1 (ko) 2017-09-13 2017-09-13 인공 지능 비서 서비스 제공 방법, 및 이에 사용되는 음성 인식 장비
PCT/KR2018/010229 WO2019054681A1 (ko) 2017-09-13 2018-09-03 인공 지능 비서 서비스 제공 방법, 및 이에 사용되는 음성 인식 장비

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170117364A KR102087202B1 (ko) 2017-09-13 2017-09-13 인공 지능 비서 서비스 제공 방법, 및 이에 사용되는 음성 인식 장비

Publications (2)

Publication Number Publication Date
KR20190030081A true KR20190030081A (ko) 2019-03-21
KR102087202B1 KR102087202B1 (ko) 2020-03-10

Family

ID=65722932

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170117364A KR102087202B1 (ko) 2017-09-13 2017-09-13 인공 지능 비서 서비스 제공 방법, 및 이에 사용되는 음성 인식 장비

Country Status (2)

Country Link
KR (1) KR102087202B1 (ko)
WO (1) WO2019054681A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102135182B1 (ko) * 2019-04-05 2020-07-17 주식회사 솔루게이트 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템
WO2020222384A1 (ko) * 2019-04-30 2020-11-05 삼성전자주식회사 전자 장치 및 이의 제어 방법
WO2021206304A1 (ko) * 2020-04-09 2021-10-14 주식회사 유비벨록스모바일 Ai 스피커 플랫폼 연계형 통합 게이트웨이 및 이를 사용한 ai 멀티 스피커 연동 방법

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220053795A (ko) 2020-10-23 2022-05-02 주식회사 동영엠텍 인공지능 비서 서비스 제공 시스템 및 방법
KR20220162484A (ko) 2021-06-01 2022-12-08 주식회사 디엔엑스 실제감을 위한 인공지능 대화제공 서비스 방법 및 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140079328A (ko) * 2012-12-18 2014-06-26 삼성전자주식회사 홈 네트워크 시스템에서 홈 디바이스를 원격으로 제어하는 방법 및 장치
JP2016502829A (ja) * 2013-11-15 2016-01-28 ▲華▼▲為▼▲終▼端有限公司 端末音声制御方法、装置、端末、およびプログラム
JP2017068243A (ja) * 2014-06-24 2017-04-06 グーグル インコーポレイテッド 発話者の検証のための動的な閾値
KR20170045123A (ko) * 2015-10-16 2017-04-26 구글 인코포레이티드 핫 워드 인식

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030033890A (ko) * 2001-10-25 2003-05-01 (주)인터루션 사용자의 음성정보 분석을 통한 사이버 비서 시스템 및 그방법
KR20040075646A (ko) * 2003-02-22 2004-08-30 천두배 자연어 음성명령에 의한 음성인식 홈 오토메이션 시스템의제어방법
CN104821934B (zh) * 2015-03-20 2018-11-20 百度在线网络技术(北京)有限公司 基于人工智能的声纹登录方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140079328A (ko) * 2012-12-18 2014-06-26 삼성전자주식회사 홈 네트워크 시스템에서 홈 디바이스를 원격으로 제어하는 방법 및 장치
JP2016502829A (ja) * 2013-11-15 2016-01-28 ▲華▼▲為▼▲終▼端有限公司 端末音声制御方法、装置、端末、およびプログラム
JP2017068243A (ja) * 2014-06-24 2017-04-06 グーグル インコーポレイテッド 発話者の検証のための動的な閾値
KR20170045123A (ko) * 2015-10-16 2017-04-26 구글 인코포레이티드 핫 워드 인식

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102135182B1 (ko) * 2019-04-05 2020-07-17 주식회사 솔루게이트 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템
CN111798844A (zh) * 2019-04-05 2020-10-20 索鲁盖特株式会社 根据声纹识别的人工智能扬声器定制型个人化服务系统
US11488595B2 (en) 2019-04-05 2022-11-01 Solugate Inc. User-customized AI speaker-based personalized service system using voiceprint recognition
WO2020222384A1 (ko) * 2019-04-30 2020-11-05 삼성전자주식회사 전자 장치 및 이의 제어 방법
WO2021206304A1 (ko) * 2020-04-09 2021-10-14 주식회사 유비벨록스모바일 Ai 스피커 플랫폼 연계형 통합 게이트웨이 및 이를 사용한 ai 멀티 스피커 연동 방법

Also Published As

Publication number Publication date
WO2019054681A1 (ko) 2019-03-21
KR102087202B1 (ko) 2020-03-10

Similar Documents

Publication Publication Date Title
KR20190030081A (ko) 인공 지능 비서 서비스 제공 방법, 및 이에 사용되는 음성 인식 장비
US10803869B2 (en) Voice enablement and disablement of speech processing functionality
US10600414B1 (en) Voice control of remote device
US11763808B2 (en) Temporary account association with voice-enabled devices
CN110661927B (zh) 语音交互方法、装置、计算机设备及存储介质
US11386905B2 (en) Information processing method and device, multimedia device and storage medium
US10714085B2 (en) Temporary account association with voice-enabled devices
KR101931006B1 (ko) 음성 인증을 사용하는 디바이스 액세스
US20030182119A1 (en) Speaker authentication system and method
KR20180046780A (ko) 이중 웨이크업을 이용한 음성 인식 서비스 제공 방법 및 이를 위한 장치
JP2007124686A (ja) 音声認識データベースにアドレスを登録する方法とシステム
US20190318744A1 (en) Voice-based authentication
CN110517686A (zh) 智能音箱端语音开通应用的方法及系统
CN110858841B (zh) 通过已注册用户的认证来注册新用户的电子设备和方法
Maskeliunas et al. Voice-based human-machine interaction modeling for automated information services
US20030163309A1 (en) Speech dialogue system
KR101993827B1 (ko) 문맥 종속 화자 식별 및 문맥 독립 화자 식별이 융합된 인공 지능 비서 서비스에서의 화자 식별 방법, 및 이에 사용되는 음성 인식 장비
EP3502938B1 (en) A conversational registration method for client devices
WO2019236745A1 (en) Temporary account association with voice-enabled devices
KR102415694B1 (ko) 음성 제어 가능한 안마 의자
US11450325B1 (en) Natural language processing
WO2019174604A1 (zh) 电子设备及电子设备控制方法
KR20220118109A (ko) 스피커 및 마이크를 포함하는 전자 장치 및 그 동작 방법
KR20230135396A (ko) 대화 관리 방법, 사용자 단말 및 컴퓨터로 판독 가능한 기록 매체

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant