KR20180082783A - 인공 지능 자동 화자 식별 방법을 이용하는 개인 맞춤형 음성 인식 서비스 제공 방법 및 이에 사용되는 서비스 제공 서버 - Google Patents
인공 지능 자동 화자 식별 방법을 이용하는 개인 맞춤형 음성 인식 서비스 제공 방법 및 이에 사용되는 서비스 제공 서버 Download PDFInfo
- Publication number
- KR20180082783A KR20180082783A KR1020170004094A KR20170004094A KR20180082783A KR 20180082783 A KR20180082783 A KR 20180082783A KR 1020170004094 A KR1020170004094 A KR 1020170004094A KR 20170004094 A KR20170004094 A KR 20170004094A KR 20180082783 A KR20180082783 A KR 20180082783A
- Authority
- KR
- South Korea
- Prior art keywords
- service
- speaker
- providing server
- voice
- service providing
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000010438 heat treatment Methods 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Telephonic Communication Services (AREA)
Abstract
인공 지능 자동 화자 식별 방법을 이용하는 개인 맞춤형 음성 인식 서비스 제공 방법 및 이에 사용되는 서비스 제공 서버가 개시된다. 본 발명은, 서비스 제공 서버가 사용자 단말기로부터 화자의 음성이 포함된 서비스 제공 요청 메시지를 수신하고, 서비스 제공 요청 메시지에 포함된 음성을 분석하여 음성의 화자를 식별하며, 화자 식별 정보에 기초하여 화자를 위한 맞춤형 서비스 제공에 필요한 제어 명령을 생성하고, 생성된 제어 명령을 외부 전자 기기로 송신하는 과정을 통해 구현된다. 본 발명에 따르면, 음성 인식 서비스를 이용하는 화자를 식별할 수 있게 됨에 따라, 정당한 사용 권한이 없는 자가 음성 인식 서비스를 무단으로 이용하는 것을 방지할 수 있을 뿐만 아니라, 동일한 음성 인식 서비스를 이용하는 다수의 사용자가 있는 경우에 있어서, 개개의 사용자별 고유 정보를 고려한 맞춤형 음성 인식 서비스를 제공할 수 있게 된다.
Description
본 발명은 개인 맞춤형 음성 인식 서비스 제공 방법 및 이에 사용되는 서비스 제공 서버에 관한 것으로, 더욱 상세하게는 음성 인식 서비스를 이용하는 화자를 식별할 수 있게 됨에 따라, 정당한 사용 권한이 없는 자가 음성 인식 서비스를 무단으로 이용하는 것을 방지할 수 있을 뿐만 아니라, 동일한 음성 인식 서비스를 이용하는 다수의 사용자가 있는 경우에 있어서, 개개의 사용자별 고유 정보를 고려한 맞춤형 음성 인식 서비스를 제공할 수 있도록 하는 인공 지능 자동 화자 식별 방법을 이용하는 개인 맞춤형 음성 인식 서비스 제공 방법 및 이에 사용되는 서비스 제공 서버에 관한 것이다.
최근 음성 인식 기술의 발전에 따라, 애플의 시리(Siri), 구글의 나우(Now), 마이크로소프트의 코타나(Cortana), 아마존의 알렉사(Alexa) 등과 같은 다앙한 음성 인식 서비스가 출시되어 있다.
그러나, 종래 기술에 따른 음성 인식 서비스는 단순히 화자의 음성 명령에 반응하여, 그와 관련되는 서비스를 제공함에 그치고 있을 뿐, 음성 인식 서비스를 제공하는 과정에서 화자의 고유성(Identitiy)을 식별하지는 않는다.
그 결과, 해당 음성 인식 서비스를 이용할 수 있는 정당한 사용 권한이 없는 자라도 음성 인식 서비스를 무단으로 이용할 수도 있을 뿐만 아니라, 동일한 음성 인식 서비스를 이용하는 다수의 사용자가 있는 경우에 있어서, 개개의 사용자별 맞춤형 서비스가 제공될 수 없다는 기술적 한계가 있다.
따라서, 본 발명의 목적은, 음성 인식 서비스를 이용하는 화자를 식별할 수 있게 됨에 따라, 정당한 사용 권한이 없는 자가 음성 인식 서비스를 무단으로 이용하는 것을 방지할 수 있을 뿐만 아니라, 동일한 음성 인식 서비스를 이용하는 다수의 사용자가 있는 경우에 있어서, 개개의 사용자별 고유 정보를 고려한 맞춤형 음성 인식 서비스를 제공할 수 있도록 하는 인공 지능 자동 화자 식별 방법을 이용하는 개인 맞춤형 음성 인식 서비스 제공 방법 및 이에 사용되는 서비스 제공 서버를 제공함에 있다.
상기 목적을 달성하기 위한 본 발명에 따른 개인 맞춤형 음성 인식 서비스 제공 방법은, (a) 서비스 제공 서버가, 사용자 단말기로부터 화자의 음성이 포함된 서비스 제공 요청 메시지를 수신하는 단계; (b) 상기 서비스 제공 서버가, 상기 서비스 제공 요청 메시지에 포함된 상기 음성을 분석하여 상기 음성의 화자를 식별하는 단계; (c) 상기 서비스 제공 서버가, 화자 식별 정보에 기초하여 상기 화자를 위한 맞춤형 서비스 제공에 필요한 제어 명령을 생성하는 단계; 및 (d) 상기 서비스 제공 서버가, 생성된 상기 제어 명령을 외부 전자 기기로 송신하는 단계를 포함한다.
바람직하게는, 상기 (b) 단계는, (b1) 상기 서비스 제공 서버가, 상기 음성에 대한 문장 종속형 화자 식별을 실행하는 단계; 및 (b2) 상기 서비스 제공 서버가, 상기 음성에 대한 문장 독립형 화자 식별을 실행하는 단계를 포함하는 것을 특징으로 한다.
한편, 본 발명에 따른 서비스 제공 서버는, 사용자 단말기로부터 화자의 음성이 포함된 서비스 제공 요청 메시지를 수신하는 수신부; 상기 서비스 제공 요청 메시지에 포함된 상기 음성을 분석하여 상기 음성의 화자를 식별하는 화자 식별부; 상기 화자 식별부가 생성한 화자 식별 정보에 기초하여 상기 화자를 위한 맞춤형 서비스 제공에 필요한 제어 명령을 생성하는 판단부; 및 상기 제어 명령을 외부 전자 기기로 송신하는 송신부를 포함한다.
바람직하게는, 상기 화자 식별부는, 상기 음성에 대한 문장 종속형 화자 식별 및 상기 음성에 대한 문장 독립형 화자 식별을 실행하는 것을 특징으로 한다.
본 발명에 따르면, 음성 인식 서비스를 이용하는 화자를 식별할 수 있게 됨에 따라, 정당한 사용 권한이 없는 자가 음성 인식 서비스를 무단으로 이용하는 것을 방지할 수 있을 뿐만 아니라, 동일한 음성 인식 서비스를 이용하는 다수의 사용자가 있는 경우에 있어서, 개개의 사용자별 고유 정보를 고려한 맞춤형 음성 인식 서비스를 제공할 수 있게 된다.
도 1은 본 발명의 일 실시예에 따른 개인 맞춤형 음성 인식 서비스 제공 시스템의 구조도,
도 2는 본 발명의 일 실시예에 따른 개인 맞춤형 음성 인식 서비스를 제공하는 서비스 제공 서버의 구조를 나타낸 기능 블록도, 및
도 3은 본 발명의 일 실시예에 따른 개인 맞춤형 음성 인식 서비스 제공 방법의 실행 과정을 설명하는 신호 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 개인 맞춤형 음성 인식 서비스를 제공하는 서비스 제공 서버의 구조를 나타낸 기능 블록도, 및
도 3은 본 발명의 일 실시예에 따른 개인 맞춤형 음성 인식 서비스 제공 방법의 실행 과정을 설명하는 신호 흐름도이다.
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다. 도면들 중 동일한 구성요소들은 가능한 한 어느 곳에서든지 동일한 부호들로 나타내고 있음에 유의해야 한다. 또한 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다.
도 1은 본 발명의 일 실시예에 따른 화자 식별 정보에 기초한 개인 맞춤형 서비스 제공 시스템의 구조도이다. 도 1을 참조하면, 본 발명의 일 실시예에 따른 화자 식별 정보에 기초한 개인 맞춤형 서비스 제공 시스템은 사용자 단말기(100), 서비스 제공 서버(200), 및 외부 전자 기기(300)를 포함한다.
사용자 단말기(100)는 가정의 거실 등과 같이 사용자가 거주하고 있는 공간에 설치되어 있는 단말기로서, 마이크 모듈과 스피커 모듈을 일체로서 구비하고 있으며 서비스 제공 서버(200) 또는 사용자가 소지하고 있는 스마트 폰 등의 무선 통신 단말기와의 무선 통신을 수행하는 통신 모듈을 구비하고 있다.
구체적으로, 사용자 단말기(100)는 화자의 서비스 요청 음성을 마이크 모듈을 통해 입력받으며, 해당 음성을 포함하는 서비스 제공 요청 메시지를 서비스 제공 서버(200)에 송신하고, 이후 서비스 제공 서버(200)로부터 수신되는 맞춤형 서비스 제안 메시지를 스피커 모듈을 통해 출력하는 기능을 수행한다.
한편, 본 발명을 실시함에 있어서는, 사용자 단말기(100)는 스마트 폰 등의 무선 통신 단말기와 근거리 통신을 수행할 수도 있으며, 이러한 경우에 사용자가 무선 통신 단말기를 통해 입력한 서비스 요청 음성은 사용자 단말기(100)로 전달되고, 사용자 단말기(100)는 해당 음성을 포함하는 서비스 제공 요청 메시지를 서비스 제공 서버(200)로 송신하게 될 것이다.
또한, 이러한 경우에 사용자 단말기(100)는 서비스 제공 서버(200)로부터 수신되는 맞춤형 서비스 제안 메시지를 무선 통신 단말기로 전달하게 되며, 해당 메시지는 무선 통신 단말기를 통해 사용자에게 출력될 것이다.
한편, 본 발명을 실시함에 있어서 사용자가 소지하고 있는 스마트 폰 등의 무선 통신 단말기가 그 자체로서 상술한 사용자 단말기(100)의 기능을 수행할 수도 있을 것이다.
서비스 제공 서버(200)는 본 발명에 따른 개인 맞춤형 음성 인식 서비스를 제공하는 사업자가 설치 및 운영하는 서버로서, 서비스 제공 서버(200)는 사용자 단말기(100)로부터 화자의 음성이 포함된 서비스 제공 요청 메시지를 수신하고, 해당 서비스 제공 요청 메시지에 포함된 음성을 분석하여 해당 음성의 화자를 식별하며, 화자 식별 정보에 기초하여 맞춤형 서비스 제공에 필요한 제어 명령을 생성하고, 해당 제어 명령을 외부 전자 기기(300)로 송신하는 기능을 수행한다.
한편, 외부 전자 기기(300)는 서비스 제공 서버(200)로부터의 제어 명령에 따라 동작되는 장비로서, 가정 내에 설치되어 있는 스마트 TV, 서비스 제공 서버(200)와 연동되는 조명 기기, 난방 기기, 에어컨 등의 다양한 사물 인터넷(IoT)용 장비가 될 수 있을 것이다.
도 2는 본 발명의 일 실시예에 따른 개인 맞춤형 음성 인식 서비스를 제공하는 서비스 제공 서버(200)의 구조를 나타낸 기능 블록도이다. 도 2를 참조하면, 본 발명의 일 실시예에 따른 개인 맞춤형 음성 인식 서비스를 제공하는 서비스 제공 서버(200)는 수신부(210), 저장부(230), 화자 식별부(250), 판단부(270), 및 송신부(290)를 포함한다.
먼저, 서비스 제공 서버(200)의 수신부(210)는 사용자 단말기(100)로부터 화자의 음성이 포함된 서비스 제공 요청 메시지를 수신하며, 해당 메시지는 저장부(230)에 저장된다.
한편, 서비스 제공 서버(200)의 저장부(230)에는 사용자 단말기(100)로부터 수신된 서비스 제공 요청 메시지 이외에도, 스마트 TV 등의 외부 전자 기기(300)를 통해 출력되는 음원, 동영상 등의 다양한 미디어 콘텐츠 파일 및 파일 목록이 저장되어 있고, 사용자 단말기(100)를 사용하는 복수의 사용자의 음성 등록 정보, 각각의 사용자에게 제공한 개인 맞춤형 음성 인식 서비스 목록, 및 서비스 제공 서버(200)를 통해 제어 가능한 복수의 외부 전자 기기(300)의 IP 주소를 포함하는 기기 등록 정보가 개별 저장되어 있다.
또한, 서비스 제공 서버(200)의 화자 식별부(250)는 사용자 단말기(100)로부터 수신된 서비스 제공 요청 메시지에 포함된 음성 정보를 추출 및 분석함으로써, 해당 음성의 화자를 식별한다.
구체적으로, 화자 식별부(250)는 서비스 제공 요청 메시지에 포함된 음성에 대한 문장 종속형 분석에 따른 화자 식별과 함께, 해당 음성에 대한 문장 독립형 분석에 따른 화자 식별을 병행하며, 이와 같이 독립적으로 실행된 두가지 식별 결과에 기초하여 최종적으로 화자를 식별한다.
한편, 서비스 제공 서버(200)의 판단부(270)는 화자 식별부(250)가 생성한 화자 식별 정보에 기초하여 해당 화자를 위한 서비스를 제공할 외부 전자 기기(300) 및 해당 외부 전자 기기(300)를 통해 제공되는 맞춤형 서비스를 결정하고, 해당 서비스의 제공에 필요한 외부 전자 기기(300)의 제어 명령을 생성한다.
서비스 제공 서버(200)의 송신부(290)는 판단부(270)가 생성한 상기 제어 명령을 상기 판단부(270)가 선택한 외부 전자 기기(300)로 송신하고, 또한 판단부(270)가 생성한 맞춤형 서비스 제안 메시지를 사용자 단말기(100)로 송신하는 기능을 수행한다.
도 3은 본 발명의 일 실시예에 따른 개인 맞춤형 음성 인식 서비스 제공 방법의 실행 과정을 설명하는 신호 흐름도이다. 이하에서는 도 1 내지 도 3을 참조하여, 본 발명의 일 실시예에 따른 화자 식별 정보에 기초한 개인 맞춤형 서비스 제공 방법을 설명하기로 한다.
먼저, 서비스 제공 서버(200)는 스마트 TV, 서비스 제공 서버(200)와 연동되는 조명 기기, 난방 기기, 및 에어컨 등과 같은 사물 인터넷(IoT)용 장비인 외부 전자 기기(300)로부터 등록 정보를 수신하며, 수신된 외부 전자 기기(300)의 등록 정보는 서비스 제공 서버(200)의 저장부(230)에 저장된다(S400).
구체적으로, 외부 전자 기기(300)의 등록 정보에는 외부 전자 기기(300)의 기기 종류 정보(조명 기기, 영상 기기, 난방 기기, 냉방 기기 등)와 외부 전자 기기(300)의 IP 주소 정보가 포함됨이 바람직할 것이다.
또한, 서비스 제공 서버(200)는 사용자 단말기(100)로부터 사용자 단말기(100)를 사용하는 복수의 사용자의 음성 등록 요청을 수신하며, 음성 등록 요청에 포함된 복수의 사용자의 개별 음성 정보는 각각의 사용자에게 부여된 아이디 정보를 포함하는 사용자 정보에 맵핑되어 다음의 표 1에서와 같이 저장부(230)에 저장된다(S405).
구체적으로, 하기 표 1에서의 사용자 정보(사용자 ID, 성별, 연령, 선호 콘텐츠 정보)는 PC 또는 스마트 폰을 통한 개인 맞춤형 음성 인식 서비스에 가입 절차에서, 각각의 사용자의 PC 또는 스마트 폰을 통해 입력된 정보를 서비스 제공 서버(200)가 수신 및 저장하여 둠으로써 구비될 수 있을 것이다.
사용자 ID | 성별 | 연령 | 등록 음성 데이터 | 선호 콘텐츠 정보 |
USER1 | 여자 | 35세 | DATA1 | 미국드라마 / 가족영화 / 최신가요 |
USER2 | 남자 | 39세 | DATA2 | 액션 영화 / 영어학습 / 올드팝 |
USER3 | 남자 | 14세 | DATA3 | 가족영화 / 액션영화 / 힙합음악 |
이후 사용자 단말기(100)가 설치되어 있는 공간에 있는 특정 사용자(USER1)가 '올레야, 심심한데 뭐 재밌는거 없을까?'와 같이 말하는 경우에 사용자 단말기(100)는 상기와 같은 화자의 음성을 수신하고(S410), 수신된 화자 음성이 포함된 서비스 제공 요청 메시지를 생성한 다음, 이를 서비스 제공 서버(200)로 송신한다(S415).
이에 따라, 서비스 제공 서버(200)의 수신부(210)는 사용자 단말기(100)로부터 서비스 제공 요청 메시지를 수신하며, 서비스 제공 서버(200)의 화자 식별부(250)는 해당 서비스 제공 요청 메시지로부터 화자의 음성을 추출한다(S420).
이후 서비스 제공 서버(200)의 화자 식별부(250)는 화자의 음성을 분석하여, 표 1에서의 등록 음성 데이터와 동일한 포맷을 갖는 화자 음성 데이터를 추출하며, 추출된 화자 음성 데이터를 표 1에서와 같이 저장부(230)에 이미 등록되어 있는 음성 데이터와 비교함으로써 화자를 식별한다(S425).
구체적으로, 전술한 S425 단계를 실시함에 있어서, 서비스 제공 서버(200)의 화자 식별부(250)는 추출된 화자의 음성 '올레야, 심심한데 뭐 재밌는거 없을까?' 중에서 '올레야' 부분[이른바, 호출 부분]에 대해서는 문장 종속형 음성 분석 및 화자 식별을 실행하고, '심심한데 뭐 재밌는거 없을까?' 부분[이른바, 요청 부분]에 대해서는 문장 독립형 음성 분석 및 화자 식별을 독립적으로 실행한 다음, 이와 같이 독립적으로 실행된 두가지 식별 결과에 기초하여 최종적으로 화자를 식별함이 바람직할 것이다.
이에 따라, 서비스 제공 서버(200)의 화자 식별부(250)가 해당 음성에 대한 화자를 표 1에서의 'USER1'로 식별한 경우에 서비스 제공 서버(200)의 판단부(270)는 표 1에서의 사용자 정보와, '심심한데 뭐 재밌는거 없을까?'[요청 부분]에 대한 음성 분석 결과에 기초하여 'USER1'을 위한 맞춤형 콘텐츠로 '미국드라마'로 결정하게 된다(S430).
한편, 서비스 제공 서버(200)의 판단부(270)가 '심심한데 뭐 재밌는거 없을까?[요청 부분]에 대한 음성 분석 및 음성 인식을 실행함에 있어서는, 종래 기술에 따른 다양한 음성 인식 서비스에서의 음성 분석 및 인식 기술이 사용될 수 있을 것이다.
구체적으로, S430 단계를 실시함에 있어서, 서비스 제공 서버(200)의 판단부(270)는 'USER1'의 선호 콘텐츠 정보인 '미국드라마 / 가족영화 / 최신가요' 중에서 'USER1'의 연령대에 속하는 다른 여성 회원의 선호 콘텐츠 정보를 참고하여, 상대적 선호도가 높은 콘텐츠인 '미국드라마'를 'USER1'을 위한 맞춤형 콘텐츠로 '미국드라마'로 결정할 수도 있을 것이다.
이에 따라, 서비스 제공 서버(200)의 판단부(270)는 '네, 올레 TV에서 추천하는 미국드라마를 시청하시겠습니까?'와 같은 맞춤형 서비스 제안 메시지를 생성하고, 서비스 제공 서버(200)의 송신부(290)는 해당 메시지를 사용자 단말기(100)로 송신한다(S435).
이에 사용자 단말기(100)는 서비스 제공 서버(200)로부터의 맞춤형 서비스 제안 메시지가 스피커 모듈을 통해 사용자에게 출력하게 된다.
한편, 본 발명을 실시함에 있어서, 사용자 단말기(100)를 통해 출력된 맞춤형 서비스 제안 메시지를 'USER1' 뿐만 아니라, 동일 공간 내에 있는 다른 사용자도 청취할 수 있을 것이며, 이에 대해 다른 사용자는 '올레야, 난 싫어, 딴 거를 추천해줘'와 같이 말할 수도 있을 것이다.
이 경우에 사용자 단말기(100)는 상기와 같은 다른 사용자의 음성을 수신하고(S440), 수신된 음성이 포함된 서비스 제공 요청 메시지를 서비스 제공 서버(200)에 송신한다(S445).
이에 따라, 서비스 제공 서버(200)의 수신부(210)는 사용자 단말기(100)로부터 서비스 제공 요청 메시지를 수신하며, 서비스 제공 서버(200)의 화자 식별부(250)는 해당 서비스 제공 요청 메시지로부터 화자의 음성을 추출한다(S450).
이후 서비스 제공 서버(200)의 식별부는 화자의 음성을 분석하여 표 1에서의 등록 음성 데이터와 동일한 포맷을 갖는 화자 음성 데이터를 추출하며, 추출된 음성 데이터를 표 1에서와 같이 저장부(230)에 이미 등록되어 있는 음성 데이터들과 비교함으로써 화자를 식별한다(S425).
이에 따라, 서비스 제공 서버(200)의 식별부가 해당 화자를 표 1에서의 'USER2'로 식별한 경우에 서비스 제공 서버(200)의 판단부(270)는 표 1에서의 사용자 정보에 기초하여, 'USER1' 뿐만 아니라 'USER2'도 함께 고려하여 맞춤형 콘텐츠를 다시 결정하며, 그 결과 '가족영화'를 'USER1'과 'USER2'를 위한 맞춤형 콘텐츠로 결정할 수 있을 것이다(S460).
구체적으로, S460 단계를 실시함에 있어서, 서비스 제공 서버(200)의 판단부(270)는 'USER1'의 선호 콘텐츠 정보인 '미국드라마 / 가족영화 / 최신가요'과, 'USER2'의 선호 콘텐츠 정보인 '가족영화 / 액션영화 / 힙합음악'에 공통으로 포함되어 있는 콘텐츠 정보인 '가족영화'를 맞춤형 콘텐츠로 결정할 수 있게 된다.
이에 따라, 서비스 제공 서버(200)의 판단부(270)는 '네, 그렇다면 올레 TV에서 추천하는 가족영화를 시청하시겠습니까?'와 같은 맞춤형 서비스 제안 메시지를 생성하게 되며, 서비스 제공 서버(200)의 송신부(290)는 해당 메시지를 사용자 단말기(100)로 송신한다(S465).
이에 사용자 단말기(100)는 서비스 제공 서버(200)로부터의 맞춤형 서비스 제안 메시지를 스피커 모듈을 통해 출력하며, 이를 청취한 사용자(USER1 또는 USER2)가 '올레야, 좋아'와 같이 말하는 경우에 사용자 단말기(100)는 상기와 같은 사용자의 승인 음성을 수신하고(S470), 승인 음성이 포함된 맞춤형 서비스 승인 메시지를 서비스 제공 서버(200)로 송신한다.
이에 서비스 제공 서버(200)의 판단부(270)는 맞춤형 콘텐츠인 '가족영화'의 재생 또는 가족 영화 목록 추천에 필요한 제어 명령을 생성하고, 해당 제어 명령을 수신할 외부 전자 기기(300)를 선택한다.
구체적으로, 서비스 제공 서버(200)의 판단부(270)는 저장부(230)에 등록되어 있는 외부 전자 기기(300) 중에서 '가족영화'의 재생 또는 가족 영화 목록 추천을 실행할 전자 기기(300)로서 스마트 TV를 선택하며, 서비스 제공 서버(200)의 송신부(290)는 저장부(230)에 등록되어 있는 스마트 TV의 IP 주소로 해당 제어 명령을 송신한다.
그 결과, 스마트 TV는 서비스 제공 서버(200)로부터 수신된 제어 명령에 기초하여 '가족영화'의 재생 또는 재생목록 추천을 실행하게 된다.
본 발명에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이상에서는 본 발명의 바람직한 실시예 및 응용예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예 및 응용예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
100: 사용자 단말기,
200: 서비스 제공 서버,
300: 외부 전자 기기.
300: 외부 전자 기기.
Claims (2)
- (a) 서비스 제공 서버가, 사용자 단말기로부터 화자의 음성이 포함된 서비스 제공 요청 메시지를 수신하는 단계;
(b) 상기 서비스 제공 서버가, 상기 서비스 제공 요청 메시지에 포함된 상기 음성을 분석하여 상기 음성의 화자를 식별하는 단계;
(c) 상기 서비스 제공 서버가, 화자 식별 정보에 기초하여 상기 화자를 위한 맞춤형 서비스 제공에 필요한 제어 명령을 생성하는 단계; 및
(d) 상기 서비스 제공 서버가, 생성된 상기 제어 명령을 외부 전자 기기로 송신하는 단계
를 포함하는 개인 맞춤형 음성 인식 서비스 제공 방법.
- 사용자 단말기로부터 화자의 음성이 포함된 서비스 제공 요청 메시지를 수신하는 수신부;
상기 서비스 제공 요청 메시지에 포함된 상기 음성을 분석하여 상기 음성의 화자를 식별하는 화자 식별부;
상기 화자 식별부가 생성한 화자 식별 정보에 기초하여 상기 화자를 위한 맞춤형 서비스 제공에 필요한 제어 명령을 생성하는 판단부; 및
상기 제어 명령을 외부 전자 기기로 송신하는 송신부
를 포함하는 서비스 제공 서버.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170004094A KR101883301B1 (ko) | 2017-01-11 | 2017-01-11 | 인공 지능 자동 화자 식별 방법을 이용하는 개인 맞춤형 음성 인식 서비스 제공 방법 및 이에 사용되는 서비스 제공 서버 |
JP2019558316A JP6909311B2 (ja) | 2017-01-11 | 2017-04-07 | 人工知能自動話者識別方法を用いる個人カスタマイズ型音声認識サービスの提供方法及びこれに使用されるサービス提供サーバ |
PCT/KR2017/003807 WO2018131752A1 (ko) | 2017-01-11 | 2017-04-07 | 인공 지능 자동 화자 식별 방법을 이용하는 개인 맞춤형 음성 인식 서비스 제공 방법 및 이에 사용되는 서비스 제공 서버 |
US16/477,330 US11087768B2 (en) | 2017-01-11 | 2017-04-07 | Personalized voice recognition service providing method using artificial intelligence automatic speaker identification method, and service providing server used therein |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170004094A KR101883301B1 (ko) | 2017-01-11 | 2017-01-11 | 인공 지능 자동 화자 식별 방법을 이용하는 개인 맞춤형 음성 인식 서비스 제공 방법 및 이에 사용되는 서비스 제공 서버 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20180082783A true KR20180082783A (ko) | 2018-07-19 |
KR101883301B1 KR101883301B1 (ko) | 2018-07-30 |
Family
ID=62839511
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170004094A KR101883301B1 (ko) | 2017-01-11 | 2017-01-11 | 인공 지능 자동 화자 식별 방법을 이용하는 개인 맞춤형 음성 인식 서비스 제공 방법 및 이에 사용되는 서비스 제공 서버 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11087768B2 (ko) |
JP (1) | JP6909311B2 (ko) |
KR (1) | KR101883301B1 (ko) |
WO (1) | WO2018131752A1 (ko) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101883301B1 (ko) * | 2017-01-11 | 2018-07-30 | (주)파워보이스 | 인공 지능 자동 화자 식별 방법을 이용하는 개인 맞춤형 음성 인식 서비스 제공 방법 및 이에 사용되는 서비스 제공 서버 |
US10258295B2 (en) | 2017-05-09 | 2019-04-16 | LifePod Solutions, Inc. | Voice controlled assistance for monitoring adverse events of a user and/or coordinating emergency actions such as caregiver communication |
KR102574903B1 (ko) * | 2018-08-08 | 2023-09-05 | 삼성전자주식회사 | 개인화된 장치 연결을 지원하는 전자 장치 및 그 방법 |
CN109102803A (zh) * | 2018-08-09 | 2018-12-28 | 珠海格力电器股份有限公司 | 家电设备的控制方法、装置、存储介质及电子装置 |
CN109117235B (zh) * | 2018-08-24 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 一种业务数据处理方法、装置以及相关设备 |
KR102275873B1 (ko) | 2018-12-18 | 2021-07-12 | 한국전자기술연구원 | 화자인식 장치 및 방법 |
KR20200098025A (ko) | 2019-02-11 | 2020-08-20 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
WO2020184753A1 (ko) * | 2019-03-12 | 2020-09-17 | 엘지전자 주식회사 | 음성 추출 필터를 이용하여 음성 제어를 수행하는 인공 지능 장치 및 그 방법 |
CN111862974A (zh) | 2020-07-15 | 2020-10-30 | 广州三星通信技术研究有限公司 | 智能设备的控制方法及智能设备 |
US11404062B1 (en) | 2021-07-26 | 2022-08-02 | LifePod Solutions, Inc. | Systems and methods for managing voice environments and voice routines |
US11410655B1 (en) | 2021-07-26 | 2022-08-09 | LifePod Solutions, Inc. | Systems and methods for managing voice environments and voice routines |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050023941A (ko) * | 2003-09-03 | 2005-03-10 | 삼성전자주식회사 | 음성 인식 및 화자 인식을 통한 개별화된 서비스를제공하는 a/v 장치 및 그 방법 |
JP2017003611A (ja) * | 2015-06-04 | 2017-01-05 | シャープ株式会社 | 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5774858A (en) * | 1995-10-23 | 1998-06-30 | Taubkin; Vladimir L. | Speech analysis method of protecting a vehicle from unauthorized accessing and controlling |
US20030171930A1 (en) * | 2002-03-07 | 2003-09-11 | Junqua Jean-Claude | Computer telephony system to access secure resources |
JP2005086768A (ja) * | 2003-09-11 | 2005-03-31 | Toshiba Corp | 制御装置、制御方法およびプログラム |
KR20080023033A (ko) * | 2006-09-08 | 2008-03-12 | 한국전자통신연구원 | 지능형 로봇 서비스 시스템에서 무선 마이크로폰을 이용한화자 인식 방법 및 장치 |
US8442824B2 (en) * | 2008-11-26 | 2013-05-14 | Nuance Communications, Inc. | Device, system, and method of liveness detection utilizing voice biometrics |
KR101330328B1 (ko) | 2010-12-14 | 2013-11-15 | 한국전자통신연구원 | 음성 인식 방법 및 이를 위한 시스템 |
US9489950B2 (en) * | 2012-05-31 | 2016-11-08 | Agency For Science, Technology And Research | Method and system for dual scoring for text-dependent speaker verification |
KR20140119968A (ko) * | 2013-04-01 | 2014-10-13 | 삼성전자주식회사 | 콘텐츠 서비스 방법 및 시스템 |
TWI508057B (zh) * | 2013-07-15 | 2015-11-11 | Chunghwa Picture Tubes Ltd | 語音辨識系統以及方法 |
US20150025888A1 (en) * | 2013-07-22 | 2015-01-22 | Nuance Communications, Inc. | Speaker recognition and voice tagging for improved service |
JP6054283B2 (ja) * | 2013-11-27 | 2016-12-27 | シャープ株式会社 | 音声認識端末、サーバ、サーバの制御方法、音声認識システム、音声認識端末の制御プログラム、サーバの制御プログラムおよび音声認識端末の制御方法 |
WO2016018111A1 (en) * | 2014-07-31 | 2016-02-04 | Samsung Electronics Co., Ltd. | Message service providing device and method of providing content via the same |
KR102249392B1 (ko) * | 2014-09-02 | 2021-05-07 | 현대모비스 주식회사 | 사용자 맞춤형 서비스를 위한 차량 기기 제어 장치 및 방법 |
KR102383791B1 (ko) * | 2014-12-11 | 2022-04-08 | 삼성전자주식회사 | 전자 장치에서의 개인 비서 서비스 제공 |
KR101883301B1 (ko) * | 2017-01-11 | 2018-07-30 | (주)파워보이스 | 인공 지능 자동 화자 식별 방법을 이용하는 개인 맞춤형 음성 인식 서비스 제공 방법 및 이에 사용되는 서비스 제공 서버 |
-
2017
- 2017-01-11 KR KR1020170004094A patent/KR101883301B1/ko active IP Right Grant
- 2017-04-07 JP JP2019558316A patent/JP6909311B2/ja active Active
- 2017-04-07 WO PCT/KR2017/003807 patent/WO2018131752A1/ko active Application Filing
- 2017-04-07 US US16/477,330 patent/US11087768B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050023941A (ko) * | 2003-09-03 | 2005-03-10 | 삼성전자주식회사 | 음성 인식 및 화자 인식을 통한 개별화된 서비스를제공하는 a/v 장치 및 그 방법 |
JP2017003611A (ja) * | 2015-06-04 | 2017-01-05 | シャープ株式会社 | 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法 |
Also Published As
Publication number | Publication date |
---|---|
US20190378518A1 (en) | 2019-12-12 |
US11087768B2 (en) | 2021-08-10 |
JP2020504413A (ja) | 2020-02-06 |
JP6909311B2 (ja) | 2021-07-28 |
KR101883301B1 (ko) | 2018-07-30 |
WO2018131752A1 (ko) | 2018-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101883301B1 (ko) | 인공 지능 자동 화자 식별 방법을 이용하는 개인 맞춤형 음성 인식 서비스 제공 방법 및 이에 사용되는 서비스 제공 서버 | |
KR102213637B1 (ko) | 디바이스들 간의 상태 상호작용의 캡슐화 및 동기화 | |
US11670297B2 (en) | Device leadership negotiation among voice interface devices | |
US11869527B2 (en) | Noise mitigation for a voice interface device | |
CN110800044B (zh) | 用于语音助手系统的话语权限管理 | |
JP6906048B2 (ja) | 音声インターフェイスデバイスにおけるマルチユーザパーソナライゼーション | |
WO2019225201A1 (ja) | 情報処理装置及び情報処理方法、並びに情報処理システム | |
US20190098110A1 (en) | Conference system and apparatus and method for mapping participant information between heterogeneous conferences | |
KR102276591B1 (ko) | 음성 기반 추천서비스장치 및 그 장치의 동작 방법 | |
US20220217191A1 (en) | Method and device to manage audio and/or video sources during a streaming session |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |