KR20150035312A - 음성에 기반한 잠금 해제를 수행하는 사용자 장치, 음성에 기반한 사용자 장치의 잠금 해제 방법 및 컴퓨터 프로그램이 기록된 기록매체 - Google Patents
음성에 기반한 잠금 해제를 수행하는 사용자 장치, 음성에 기반한 사용자 장치의 잠금 해제 방법 및 컴퓨터 프로그램이 기록된 기록매체 Download PDFInfo
- Publication number
- KR20150035312A KR20150035312A KR20130115695A KR20130115695A KR20150035312A KR 20150035312 A KR20150035312 A KR 20150035312A KR 20130115695 A KR20130115695 A KR 20130115695A KR 20130115695 A KR20130115695 A KR 20130115695A KR 20150035312 A KR20150035312 A KR 20150035312A
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- user
- information
- text
- user device
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000004590 computer program Methods 0.000 title claims abstract description 14
- 241000282414 Homo sapiens Species 0.000 claims abstract description 21
- 239000013598 vector Substances 0.000 claims description 20
- 238000013507 mapping Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 abstract description 3
- 238000004458 analytical method Methods 0.000 description 29
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/66—Substation equipment, e.g. for use by subscribers with means for preventing unauthorised or fraudulent calling
- H04M1/667—Preventing unauthorised calls from a telephone set
- H04M1/67—Preventing unauthorised calls from a telephone set by electronic means
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Telephone Function (AREA)
Abstract
본 발명은 음성에 기반한 잠금 해제를 수행하는 사용자 장치, 음성에 기반한 사용자 장치의 잠금 해제 방법 및 컴퓨터 프로그램이 기록된 기록매체를 개시한다. 즉, 본 발명은 사용자 장치로 입력되는 소리 정보가 사람의 음성인지 여부를 판단하고 소리 정보가 사람의 음성인 경우, 소리 정보를 기반으로 변환 텍스트를 생성하고 변환 텍스트와 참조 텍스트를 비교하여 사용자 장치의 잠금을 해제할지 여부를 결정할 수 있다. 이러한 방법을 사용함으로써 기존 키 입력 등보다 편리한 사용자 친화적 환경을 제공할 뿐 아니라 보안성을 높일 수 있다.
Description
본 발명은 음성에 기반한 잠금 해제를 수행하는 사용자 장치, 음성에 기반한 사용자 장치의 잠금 해제 방법 및 컴퓨터 프로그램이 기록된 기록매체에 관한 것으로, 특히 사용자 장치에 입력되는 사용자의 음성을 기반으로 잠금을 해제하는 사용자 장치, 사용자 음성을 기반으로 사용자 장치의 잠금을 해제하는 방법 및 컴퓨터 프로그램이 기록된 기록매체에 관한 것이다.
최근 들어 자동 통역 시스템 및 음성인식 전화기, 음성인식 컴퓨터, 그리고 음성인식 자동차 등의 제품이 등장하여 음성인식에 대한 일반인들의 관심이 높아지고 있다. 공상 과학 영화에서는 음성인식이 미래 사회의 필수적인 기술로 항상 등장한다. 음성은 대부분의 사람들에게 있어서 가장 자연스럽고 효과적인 정보 교환 수단이기 때문에 음성인식 기술은 활성화된다면 일상 생활에서 보다 편리함을 줄 수 있는 기술이 될 수 있다. 음성인식 기술의 목표는 음성 정보를 받을 수 있고 받은 정보에 따른 적절한 동작 및 대화를 할 수 있는 기계의 구현이다. 음성인식 연구는 인간과 자연스럽게 대화하는 기계 구현을 목표로 오랜 시간 동안 진행되어 왔다. 아직도 임의의 화자의 음성을 주어진 환경하에서 자연스럽게 인식할 수 있는 음성 인식 기술은 완성되지 못했지만 음성인식 기술은 현재에도 다양한 응용 분야에 적용되고 있다.
예를 들어, 최근 스마트폰 기술의 발전으로 음성을 기반으로 한 서비스들이 선보이고 있다. 이러한 음성 기반의 서비스를 제공하기 위해서는 정확한 음성 인식 기술이 필요하고 서비스의 성격 및 사용자 설정에 따라 음성 인식 기술을 적응적으로 활용하기 위한 방법이 필요하다.
본 발명의 목적은 사용자 장치에 대한 제3자의 무단 사용을 방지하기 위해 사용자의 음성 신호를 기반으로 사용자 장치의 잠금 상태를 해제하는 사용자 장치, 사용자 장치의 잠금 해제 방법 및 컴퓨터 프로그램이 기록된 기록매체를 제공하는 데 있다.
본 발명의 다른 목적은 사용자 장치의 잠금 해제의 편의성을 향상시킬 수 있도록 잠금 해제를 위해 음성 기반의 인터페이스를 활용하는 사용자 장치, 사용자 장치의 잠금 해제 방법 및 컴퓨터 프로그램이 기록된 기록매체를 제공하는 데 있다.
본 발명의 또 다른 목적은 인식 수준을 결정하는 파라메터 값이 사용자에 의해 설정되도록 하여, 음성 신호에 기반한 사용자 장치의 잠금 해제 여부를 상황에 맞게 적응적으로 설정이 가능하도록 한 사용자 장치, 사용자 장치의 잠금 해제 방법 및 컴퓨터 프로그램이 기록된 기록매체를 제공하는 데 있다.
본 발명의 실시예에 따른 음성에 기반한 잠금 해제를 수행하는 사용자 장치는 사용자 장치로 입력되는 소리 정보가 사람의 음성인지 여부를 판단하도록 구현되는 사운드 유형 분석부; 소리 정보가 사람의 음성인 경우, 소리 정보를 기반으로 변환 텍스트를 생성하고 변환 텍스트와 사용자 장치의 잠금 장치를 해제할지 여부를 결정하기 위한 판단 기준이 되는 텍스트 정보인 참조 텍스트를 비교하여 산출된 매칭 결과와 미리 설정한 사용자 설정 파라메터를 기반으로 사용자 장치의 잠금을 해제할지 여부를 결정하도록 구현되는 개인별 음성 패턴 분석부; 및 매칭 결과가 사용자 설정 파라메터의 임계값을 만족하는 경우, 사용자 장치의 잠금을 해제하도록 구현되는 프로세서를 포함할 수 있다.
본 발명과 관련된 일 예로서 매칭 결과는 변환 텍스트와 참조 텍스트 사이에 일치하는 토큰의 수에 대한 정보 및 일치율에 대한 정보를 포함하고, 사용자 설정 파라메터는 사용자 장치의 잠금을 해제할지 여부를 결정하기 위해 설정된 토큰의 수에 대한 임계값 정보 및 일치율에 대한 임계값 정보일 수 있다.
본 발명과 관련된 일 예로서 일치하는 토큰의 수는 변환 텍스트와 참조 텍스트에 포함된 단어 별로 매핑을 수행하여 매핑되는 단어의 개수에 기반하여 산출되고, 일치율은 매핑되는 단어에서 일치하는 음절의 개수에 기반하여 산출될 수 있다.
본 발명과 관련된 일 예로서 음성에 기반한 잠금 해제를 수행하는 사용자 장치는 사용자 설정 파라메터를 설정하기 위해 구현되는 사용자 설정부를 더 포함하고, 사용자 설정 파라메터는 사용자 장치의 보안 요구 정도에 따라 다르게 설정될 수 있다.
본 발명과 관련된 일 예로서 개인별 음성 패턴 분석부는 소리 정보를 토큰 단위로 분할하고, 토큰 단위로 분할한 소리 정보를 사용자 음성의 특징 정보를 기반으로 전처리하고, 전처리된 상기 소리 정보를 텍스트로 변환하여 변환 텍스트를 생성하도록 구현될 수 있으며, 사용자 음성의 특징 정보는 주파수 정보일 수 있다.
본 발명과 관련된 일 예로서 변환 텍스트는 사용자 설정 파라메터의 임계값을 만족하는 경우, 참조 텍스트로 설정되어 저장될 수 있다.
본 발명과 관련된 일 예로서 사운드 유형 분석부는 소리 정보에 패턴이 존재하지 않고 사람의 음성 주파수 대역인 경우, 사람의 음성으로 판단하도록 구현될 수 있다.
본 발명의 실시예에 따른 사용자 음성 기반 사용자 장치의 잠금 해제 방법은 사용자 장치로 입력되는 소리 정보가 사람의 음성인지 여부를 판단하는 단계; 소리 정보가 상기 사람의 음성인 경우, 소리 정보를 기반으로 변환 텍스트를 생성하는 단계; 변환 텍스트와 사용자 장치의 잠금 장치를 해제할지 여부를 결정하기 위한 판단 기준이 되는 텍스트 정보인 참조 텍스트를 비교하여 산출된 매칭 결과와 사용자 설정 파라메터를 기반으로 사용자 장치의 잠금을 해제할지 여부를 결정하는 단계; 및 매칭 결과가 사용자 설정 파라메터의 임계값을 만족하는 경우, 사용자 장치의 잠금을 해제하는 단계를 포함할 수 있다.
본 발명과 관련된 일 예로서 매칭 결과는 변환 텍스트와 참조 텍스트 사이에 일치하는 토큰의 수에 대한 정보 및 일치율에 대한 정보를 포함하고 사용자 설정 파라메터는 사용자 장치의 잠금을 해제할지 여부를 결정하기 위해 설정된 토큰의 수에 대한 임계값 정보 및 일치율에 대한 임계값 정보일 수 있다.
본 발명과 관련된 일 예로서 소리 정보가 사람의 음성인 경우, 소리 정보를 기반으로 변환 텍스트를 생성하는 단계는, 소리 정보에서 피치 정보를 검출하는 단계; 피치 정보를 기반으로 소리 정보에서 특징 벡터를 산출하는 단계; 특징 벡터를 기반으로 소리 정보 중 변환 텍스트로 변환할 소리 정보를 추출하는 단계; 및 어절 및 음절의 언어적인 순서 관계를 기반으로 모델링한 언어 모델을 기반으로 추출된 소리 정보를 변환 텍스트로 생성하는 단계를 포함할 수 있다.
본 발명의 실시예에 따른 컴퓨터 프로그램이 기록된 기록매체에는 상술한 실시예에 따른 방법을 수행하는 컴퓨터 프로그램이 저장될 수 있다.
본 발명은 사람의 음성을 인식하는 방법을 사용자 장치의 잠금 상태를 해제하기 위해 사용하여 기존 키 입력에 기반한 잠금 해제 방법보다 사용자 친화적 환경을 제공할 뿐 아니라 보안성을 높일 수 있는 효과가 있다.
또한, 본 발명은 음성 기반의 인터페이스를 사용함으로써 아동과 장애인이 사용하는 사용자 장치의 잠금 해제에도 도움이 될 뿐만 아니라 사용자 설정 파라메터의 설정값에 따라 인식 수준을 사용자가 결정하여 사용자 장치의 잠금 해제 여부를 상황에 맞게 적응적으로 설정할 수 있는 효과가 있다.
도 1은 본 발명의 실시예에 따른 음성 인식에 기반한 본인 인증 방법을 나타낸 개념도이다.
도 2는 본 발명의 실시예에 따른 음성 인식에 기반한 사용자 장치의 잠금 해제 방법을 나타낸 개념도이다.
도 3은 본 발명의 실시예에 따른 사용자 설정 파라메터를 결정하고 잠금 장치를 해제할지 여부를 결정하는 방법을 나타낸 순서도이다.
도 4는 본 발명의 실시예에 따른 사용자 입력 음성 분석 방법을 나타낸 개념도이다.
도 5는 본 발명의 실시예에 따른 사용자 입력 음성 분석 방법을 나타낸 순서도이다.
도 6은 본 발명의 실시예에 따른 사용자 입력 음성을 텍스트로 변환하는 방법을 나타낸 개념도이다.
도 7은 본 발명의 실시예에 따른 사용자 장치를 나타낸 개념도이다.
도 2는 본 발명의 실시예에 따른 음성 인식에 기반한 사용자 장치의 잠금 해제 방법을 나타낸 개념도이다.
도 3은 본 발명의 실시예에 따른 사용자 설정 파라메터를 결정하고 잠금 장치를 해제할지 여부를 결정하는 방법을 나타낸 순서도이다.
도 4는 본 발명의 실시예에 따른 사용자 입력 음성 분석 방법을 나타낸 개념도이다.
도 5는 본 발명의 실시예에 따른 사용자 입력 음성 분석 방법을 나타낸 순서도이다.
도 6은 본 발명의 실시예에 따른 사용자 입력 음성을 텍스트로 변환하는 방법을 나타낸 개념도이다.
도 7은 본 발명의 실시예에 따른 사용자 장치를 나타낸 개념도이다.
본 발명에서 사용되는 기술적 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 발명에서 사용되는 기술적 용어는 본 발명에서 특별히 다른 의미로 정의되지 않는 한 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나 과도하게 축소된 의미로 해석되지 않아야 한다. 또한, 본 발명에서 사용되는 기술적인 용어가 본 발명의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는 당업자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이다. 또한, 본 발명에서 사용되는 일반적인 용어는 사전에 정의되어 있는 바에 따라 또는 전후 문맥상에 따라 해석되어야 하며, 과도하게 축소된 의미로 해석되지 않아야 한다.
또한, 본 발명에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함한다. 본 발명에서 "구성된다" 또는 "포함한다" 등의 용어는 발명에 기재된 여러 구성 요소들 또는 여러 단계를 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.
또한, 본 발명에서 사용되는 제 1, 제 2 등과 같이 서수를 포함하는 용어는 구성 요소들을 설명하는데 사용될 수 있지만 구성 요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제 1 구성 요소는 제 2 구성 요소로 명명될 수 있고, 유사하게 제 2 구성 요소도 제 1 구성 요소로 명명될 수 있다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
또한, 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 발명의 사상을 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 발명의 사상이 제한되는 것으로 해석되어서는 아니 됨을 유의해야 한다.
이하, 본 발명의 실시예에서는 음성 인식에 기반한 사용자 장치의 잠금 해제 방법에 대해 개시한다. 설명의 편의상 음성 인식을 기반으로 사용자 장치에 대한 잠금을 해제하는 방법에 대해서 개시하나, 본 발명의 실시예에 따른 음성 인식 방법은 사용자 장치에 대한 잠금 해제뿐만 아니라 사용자 장치에 필요한 다른 본인 인증 절차 또는 장치의 동작을 제어하기 위해 사용될 수도 있다.
도 1은 본 발명의 실시예에 따른 음성 인식에 기반한 사용자 장치의 잠금 해제 방법을 나타낸 개념도이다.
이하, 본 발명의 실시예에서 사용자 장치는 다양한 용어로 불릴 수 있다. 예를 들어, 사용자 장치(User Equipment, UE)는 고정되거나 이동성을 가질 수 있으며, MS(mobile station), MT(mobile terminal), UT(user terminal), SS(subscriber station), 무선기기(wireless device), PDA(personal digital assistant), 무선 모뎀(wireless modem), 휴대기기(handheld device), 무선 단말 등 다른 용어로 불릴 수 있다.
도 1에 도시된 바와 같이, 사용자 장치(100)는 본인 인증을 거쳐 잠금 상태를 해제한 후 사용되도록 구현될 수 있다. 사용자 장치(100)는 사용자의 음성 신호(110)를 입력 받아 본인 인증을 수행할 수 있다. 예를 들어, 사용자는 사용자 장치(100)의 잠금을 해제하기 위해 특정한 단어 또는 문장을 발음하여 음성 신호(110)를 생성할 수 있다. 사용자 장치(100)는 음성 신호(110)를 수신하고, 수신된 음성 신호(110)를 분석하여 잠금 상태(120)를 해제할지 여부에 대해 판단할 수 있다. 본 발명의 실시예에 따르면, 사용자 장치(100)는 수신한 음성 신호(110)와 사용자 장치(100)에 미리 결정된 텍스트를 비교하여 사용자 장치(100)의 잠금 상태(120)를 해제(130)할지 여부를 결정할 수 있다. 미리 결정된 텍스트는 사용자 장치(100)의 잠금 상태(120)를 해제(130)하기 위해 설정된 문장 또는 단어일 수 있다. 이하, 본 발명의 실시예에서는 사용자 장치(100)의 잠금 상태(120)를 해제하기 위해 미리 결정된 텍스트는 참조 텍스트라는 용어로 정의하여 사용할 수 있다. 또한, 사용자가 사용자 장치(100)의 잠금 해제(130)를 위해 사용자 장치(100)로 입력하는 음성 신호(110)는 사용자 입력 음성이라는 용어로 정의하여 사용할 수 있다.
본 발명의 실시예에 따르면, 입력되는 음성 신호(110)가 사람의 음성인지 여부를 판단하고, 음성 신호가 사람의 음성인 경우, 사용자 입력 음성을 텍스트로 변경하고, 변경된 텍스트와 참조 텍스트를 특정한 단위로 매칭하여 매칭 정보를 산출할 수 있다. 특정한 단위는 어절, 음절, 어휘, 문장과 같은 언어의 다양한 단위가 될 수 있다. 이하 본 발명의 실시예에서는 매칭을 수행하는 언어의 단위를 토큰이라고 표현한다.
사용자 장치(100)의 잠금 상태(120)를 해제할지 여부를 결정하기 위한 매칭 정보는 매칭되는 토큰의 수 및 매칭율일 수 있다. 사용자 장치(100)는 산출된 매칭 정보와 잠금 설정 해제 판단 기준을 비교하여 사용자 장치(100)의 잠금 상태(120)를 해제(130)할지 여부에 대해 결정할 수 있다.
잠금 상태(120)를 해제(130)할지 여부에 대한 판단 기준은 사용자가 미리 설정한 값으로 사용자 입력 음성과 참조 텍스트 사이에 일치되는 토큰의 수 및 매칭율에 대한 설정일 수 있다.
이하 본 발명의 실시예에서 사용자 장치(100)가 사용자 입력 음성을 수신하고, 수신된 사용자 입력 음성을 분석하여 사용자 장치(100)의 잠금 설정을 해제할지 여부에 대해 판단하는 방법에 대해 구체적으로 개시한다.
도 2는 본 발명의 실시예에 따른 음성 인식에 기반한 사용자 장치(100)의 잠금 해제 방법을 나타낸 개념도이다.
도 2에 도시된 바와 같이, 사용자는 사용자 장치(100)의 잠금 상태를 해제하기 위해 '길동이폰' 이라는 단어를 발음하여 사용자 장치(100)로 입력할 수 있다. 사용자 장치(100)에서는 사운드 유형 분석(200)을 기반으로 입력된 소리가 사람의 목소리인지 여부에 대해 판단할 수 있다.
예를 들어, 사용자 장치(100)는 사운드 유형 분석(200)을 통해 입력되는 소리가 생물의 소리인지, 무생물의 소리인지, 사람의 소리인지, 외부 잡음인지 기계음인지 여부를 판단하여 사람의 목소리인 경우에만 입력된 소리 정보를 분석할 수 있다. 이러한 방법을 사용함으로써 외부에서 입력되는 사람의 음성 외의 소리는 무시하고 사용자 입력 음성에 대해서만 사용자 장치(100)의 잠금을 해제할지 여부에 대해 판단할 수 있다.
예를 들어, 사용자 장치(100)는 입력된 소리의 사운드 유형 분석(200)을 위해 입력된 소리의 특징 정보를 획득할 수 있다. 사람의 음성은 주파수 및 진폭이 존재하는 불규칙한 신호이다. 따라서, 획득한 소리의 특징 정보가 일정한 패턴이거나 특정 주파수 파장을 넘어서는 경우, 사용자 장치(100)는 입력된 소리가 사람의 음성 신호가 아닌 것으로 판단할 수 있다. 사용자 장치(100)는 입력된 소리가 사람의 음성 신호가 아니라고 판단하는 경우, 추가적인 사용자 음성 분석(220)을 수행하지 않을 수 있다. 반대로 입력된 신호가 사람의 음성이라고 판단되는 경우, 추가적으로 사용자 음성 분석(220)을 수행하여 입력된 음성으로 사용자 장치(100)의 잠금 해제가 가능한지 여부에 대해 판단할 수 있다.
또 다른 예로, 사용자 장치(100)는 사용자의 전화 목소리 또는 사용자가 별도로 입력한 목소리를 기반으로 사용자 음성의 특징 정보를 획득하여 사용자의 목소리가 맞는지 여부에 대해서도 구체적으로 판단할 수도 있다.
예를 들어, 사용자가 전화 통화를 수행 시 사용자의 음성 정보를 획득하여 사용자의 음성 정보에 대한 학습을 수행하여 사용자 음성의 특징을 추출할 수 있다. 사용자 장치(100)는 잠금 해제를 위해 외부에서 입력되는 음성 중 사용자의 음성 특징과 동일한 특징을 가지는 음성에 대해서만 사용자 음성 분석을 수행하여 잠금 장치 해제 여부에 대해 결정할 수 있다.
사용자 장치(100)에 입력된 소리가 사운드 유형 분석(200)을 기반으로 사용자 입력 음성(210)으로 판단된 경우, 다음 단계로 사용자 음성 분석(220)을 수행할 수 있다.
사용자 음성 분석(220)은 사용자 입력 음성(210)을 텍스트로 변경하고, 변경된 텍스트를 토큰 단위로 참조 텍스트(230)와 매칭하여 유사성을 추출해낼 수 있다. 사용자 음성 분석(220)은 사용자 입력 음성(210)을 텍스트로 변경하기 위해서 예를 들어, ASR(automatic speech recognition) 또는 TTS(text to speech) 방법과 같은 음성과 텍스트 사이의 변환 방법을 사용할 수 있다.
예를 들어, 사용자 장치(100)는 '길동이 폰' 이라는 소리가 입력된 경우, ASR을 기반으로 음성 신호를 '길동이 폰' 이라는 텍스트 정보로 변환할 수 있다. 예를 들어, 사용자 장치(100)에서는 사용자 입력 음성을 문장 레벨 또는 단어 레벨과 같은 특정 단위로 분석하여 텍스트로 변환할 수 있다.
사용자 장치(100)는 사용자 음성 신호가 변환된 텍스트와 미리 저장된 참조 텍스트(230)를 비교하여 사용자 장치(100)의 잠금 상태 해제 여부를 결정할 수 있다. 미리 저장된 참조 텍스트(230)는 사용자에 의해 미리 사용자 장치(100)에 저장된 텍스트로서, 사용자 입력 음성(210)과 비교되어 사용자 장치의 잠금 해제 여부를 결정하기 위한 텍스트일 수 있다.
또한, 참조 텍스트(230)는 사용자 입력 음성(210) 중 잠금 해제가 가능한 음성을 텍스트화한 정보를 기반으로 업데이트될 수도 있다.
본 발명의 실시예에 따르면, 텍스트로 변환된 사용자 입력 음성(210)과 참조 텍스트(230)가 사용자 장치(100)의 잠금을 해제할 만큼 유사한지 여부를 사용자 설정에 따라 판단할 수 있다. 텍스트로 변환된 사용자 입력 음성(210)과 참조 텍스트(230)가 사용자 장치의 잠금을 해제할 만큼 유사한지 여부를 판단하기 위한 기준이 되는 파라메터를 사용자 설정 파라메터(240)라고 할 수 있다.
예를 들어, 사용자 설정 파라메터(240)는 텍스트로 변환된 사용자 입력 음성과 참조 텍스트(230) 사이에 일치하는 토큰의 개수, 매칭율 또는 인식율일 수 있다. 텍스트로 변환된 사용자 입력 음성과 참조 텍스트(230)가 일치하는 정도를 산출하여 사용자 설정에서 설정한 사용자 설정 파라메터(240)의 임계값 이상인 경우, 사용자 장치(100)의 잠금 상태를 해제할 수 있다. 반대로, 사용자 설정 파라메터(240)의 임계값 미만인 경우, 사용자 장치(100)의 잠금 상태를 해제하지 않을 수 있다.
예를 들어, 사용자 설정 파라메터(240)를 일치하는 토큰의 개수 1개, 매칭률 70%로 설정한 경우를 가정할 수 있다. 이러한 경우, 사용자 장치(100)에서 텍스트로 인식된 '길동이폰'과 참조 텍스트인 '나는 홍길동이다'를 비교하여 일치하는 토큰의 수가 1개 이상인지 및 매칭률이 70% 이상인지 여부에 대해 판단할 수 있다. 판단 결과가 설정된 사용자 설정 파라메터(240)의 임계값을 만족하는 경우, 사용자 장치(100)의 잠금 장치가 해제될 수 있다. 반대로 사용자 입력 음성(210)이 변환된 텍스트가 설정된 사용자 설정 파라메터(240)를 만족하지 않는 경우, 사용자 장치(100)의 잠금 장치가 해제되지 않을 수 있다.
본 발명의 실시예에 따르면, 사용자 설정 파라메터(240)에 따라 사용자 장치(100)의 보안 정도가 결정될 수 있다. 즉, 사용자 설정 파라메터(토큰, 매칭율, 인식율 등)(240)의 임계값을 조절하여 사용자 장치(100)의 보안 정도를 결정할 수 있다. 예를 들어, 보안 정도를 높게 설정하기 위해서는 사용자 설정 파라메터(240)의 임계값을 높은 값으로 설정하고, 보안 정도를 낮게 설정하기 위해서는 사용자 설정 파라메터(240)의 임계값을 낮은 값으로 설정할 수 있다.
또한, 사용자 설정은 잠금 장치 해제가 수행된 사용자 입력 음성(210)을 기반으로 참조 텍스트 그룹을 업데이트할 것인지를 '결과 저장' 여부를 선택함으로써 추가적으로 설정할 수 있다. 예를 들어, '길동이 폰'과 같이 사용자 장치(100)의 잠금 상태를 해제한 사용자 입력 음성(210)의 경우, 이를 사용자 장치(100)의 잠금 해제가 가능한 새로운 참조 텍스트(230)로서 추가함으로써 참조 텍스트 그룹이 업데이트될 수 있다.
도 3은 본 발명의 실시예에 따른 사용자 설정 파라메터(240)를 결정하고 잠금 상태를 해제할지 여부를 결정하는 방법을 나타낸 순서도이다.
도 3에 도시된 바와 같이, 먼저 사용자 설정 파라메터가 결정된다(단계 S300).
사용자 설정 파라메터(240)는 텍스트로 변환된 음성 정보와 참조 텍스트(230)를 비교하기 위해 설정된 파라메터로 토큰의 수, 매칭율 등일 수 있다. 사용자 장치(100)의 보안 정도에 따라 잠금 장치 해제를 위한 사용자 파라메터(240)가 적응적으로 설정될 수 있다.
예를 들어, 사용자 설정 파라메터(240)로 토큰의 수 3개, 일치율 50%로 설정하는 경우, 텍스트로 변환된 음성 정보와 참조 텍스트에서 일치하는 토큰의 수가 3개 이상이고, 매칭율이 50% 이상인 경우 사용자 장치(100)의 잠금 상태가 해제될 수 있다. 사용자 장치(100)의 잠금 상태를 해제하기 위한 사용자 설정 파라메터(240)의 최소값을 사용자 설정 파라메터(240)의 임계값이라고 할 수 있다.
다음으로, 텍스트로 변환된 음성 정보와 참조 텍스트 정보를 기반으로 매칭 정보가 산출된다(단계 S310).
매칭 정보는 텍스트로 변환된 음성 정보와 참조 텍스트 정보를 비교하여 산출된 값이다. 매칭 정보는 사용자 설정 파라메터(240)의 임계값과 비교하여 사용자 장치(100)의 잠금 상태를 해제할지 여부를 결정하기 위해 산출될 수 있다. 사용자 설정 파라메터(240)가 토큰의 수 및 매칭율인 경우, 매칭 정보도 토큰의 수 및 매칭율일 수 있다.
이후, 매칭 정보가 사용자 설정 파라메터의 임계값을 만족하는지 여부가 판단된다(단계 S320).
텍스트로 변환된 사용자 입력 음성과 참조 텍스트 정보를 기반으로 매칭 정보를 산출한 결과 사용자 설정 파라메터(240)의 임계값을 만족하는지 여부를 판단할 수 있다. 예를 들어, 매칭 결과 산출된 일치하는 토큰의 수가 사용자 설정 파라메터(240)인 토큰의 수보다 크고, 매칭 결과 산출된 매칭율이 사용자 설정 파라메터(240)의 매칭율보다 큰지 여부를 판단할 수 있다.
매칭 정보가 사용자 설정 파라메터(240)의 임계값을 만족하는 경우, 사용자 장치의 잠금 상태가 해제된다(단계 S330).
판단 결과 매칭 정보가 사용자 설정 파라메터(240)의 임계값을 만족하는 경우, 사용자 장치(100)의 잠금 상태가 해제될 수 있다.
전술한 바와 같이 텍스트로 변환된 사용자 입력 음성은 참조 텍스트로 사용되기 위해 업데이트될 수 있다. 또한, 입력된 사용자 음성은 사용자 음성의 특징 정보를 산출하기 위해 사용될 수도 있다.
매칭 정보가 사용자 설정 파라메터(240)의 임계값을 만족하지 않는 경우, 사용자 장치(100)의 잠금 상태가 해제되지 않고 판단 단계가 종료될 수 있다.
도 4는 본 발명의 실시예에 따른 사용자 입력 음성 분석 방법을 나타낸 개념도이다.
도 4를 참조하여, 사운드 유형 분석 결과 사람의 음성으로 판단되는 경우, 사용자 입력 음성의 분석을 통해 사용자 장치(100)의 잠금 장치를 해제할지 여부를 결정하는 방법에 대해 개시한다.
사용자 입력 음성을 텍스트화하기 위해 사용자 장치(100)는 사용자 입력 음성을 토큰 단위로 분할할 수 있다.
또한, 사용자 장치(100)는 개인별 음성 패턴 분석을 통해 어휘의 고유한 주파수 파장을 저장한 후 비교하여 토큰 별로 매칭하는 기능을 제공할 수 있다. 매칭된 마지막 결과는 캐쉬(cache)에 저장될 수 있다.
예를 들어, 사용자 입력 음성에서 '길'과 '동'과 같은 개별 음절에 대한 사용자 음성 특징 정보 또는 평균 사용자 음성 특징 정보를 산출할 수 있다. 이러한 사용자 음성 특징 정보는 저장되고, 추후 입력되는 음성이 사용자의 음성인지 다른 사람의 음성인지 여부를 판단하기 위해 사용될 수 있다. 또한, 추후 입력되는 음성을 텍스트화하기 위한 기계 학습을 위해 사용될 수도 있다.
예를 들어, 도 4에 도시된 바와 같이, 사용자 음성의 특징 정보(400)는 아래와 같이 추후 입력되는 사용자 입력 음성을 판단하기 위해 사용될 수 있다. 6 글자의 '스,마,트,폰,오,픈' 이라는 사용자 입력 음성이 입력되는 경우, 사용자 음성의 특징 정보(400)를 기반으로 사용자 음성의 주파수 범위 밖에 있는 글자는 배제할 수 있다. 만약, '오'라는 음절이 사용자 음성의 주파수 범위 밖으로 벗어난 경우, 사용자 입력 음성은 '오'라는 음절을 제외한 '스마트폰픈'으로 인식될 수 있다. 이러한 방법을 통해서 좀 더 정확하게 사용자 입력 음성에 대한 판단을 수행할 수 있다.
사용자의 음성 특징 정보(400)는 음성의 주파수 정보뿐만 아니라 사용자 음성의 피치 정보일 수 있다.
이하에서는 사용자의 음성 특징 정보(400)는 음성의 피치 정보를 기반으로 사용자 입력 음성에서 텍스트를 산출하는 방법에 대해 개시한다.
도 5는 본 발명의 실시예에 따른 사용자 입력 음성의 분석 방법을 나타낸 순서도이다.
도 5에서는 참조 텍스트와 비교하기 위해 사용자 음성을 기반으로 텍스트를 산출하는 방법에 대해 개시한다.
도 5를 참조하면, 사용자 입력 음성에서 피치가 검출된다(단계 S500).
사용자 입력 음성에서 피치는 다양한 방법으로 검출될 수 있다. 예를 들어, 사용자 입력 음성의 전체 음성 신호를 짧은 구간으로 나누어 분석할 수 있다. 음성 신호에 대한 짧은 구간 분석은 음성 신호가 짧은 시구간에서는 선형 시불변 시스템이라고 가정하고 한 주기 이상의 피치 주기를 포함할 수 있는 10~30msec 정도의 고정된 분석 길이로 분석 프레임을 구성할 수 있다.
또 다른 피치 검출 방법으로 음성 신호의 유사도를 기반으로 피치를 검출할 수 있다. 음성 신호는 유성음 구간에서 준 주기적인 패턴을 유지하기 때문에 인접한 두 피치 주기의 유사한 파형을 가질 수 있다. 준 주기적인 성질을 바탕으로 인접한 두 구간을 선택하여 상호 상관도 값을 계산하고, 두 구간의 음성 신호 사이의 유사도를 조사할 수 있다. 즉, 인접한 두 구간의 길이가 피치 주기인 경우, 상호 상관도는 최대가 될 수 있다. 이외에도 다양한 방법으로 사용자 음성에서 피치를 검출할 수 있다.
사용자 입력 음성에서 특징 벡터가 추출된다(단계 S520).
피치를 기반으로 사용자 입력 음성에서 특징 벡터가 추출될 수 있다. 피치에 따라 사용자 입력 음성에서 특징 벡터를 추출하기 위한 분석 프레임의 길이가 가변적으로 변할 수 있다. 따라서, 본 발명의 실시예에 따르면, 각 피치 주기마다 구성되는 분석 프레임의 길이를 산출하고, 고속 푸리에 변환 분석 크기를 결정하여 사용자 입력 음성에서 특징 벡터를 추출할 수 있다. 사용자 입력 음성에서 특징 벡터를 추출하는 방법으로 다양한 방법이 사용될 수 있다. 사용자 입력 음성에서 산출된 특징 벡터는 학습되어 입력된 소리 정보 중에서 사용자 입력 음성만을 추출하기 위해 사용될 수 있다.
사용자 음성의 특징 정보를 기반으로 사용자 입력 장치로 입력된 소리 중 사용자 입력 음성이 추출된다(단계 S540).
사용자 음성의 특징 정보는 음성 피치 정보, 특징 벡터, 주파수 정보 등과 같은 사용자 음성인지 여부를 판단하기 위한 정보일 수 있다. 단계 S500 및 단계 S520을 기반으로 산출된 음성 피치 정보 및 특징 벡터를 기반으로 사용자 장치(100)로 입력된 소리 정보 중 텍스트로 생성할 사용자 입력 음성을 추출할 수 있다.
추출된 사용자 입력 음성이 텍스트로 변환된다(단계 S560).
추출된 사용자 입력 음성을 텍스트로 변환하기 위해 다양한 방법을 사용할 수 있다. 본 발명의 실시예에서는 설명의 편의상 단어 레벨의 매칭 및 문장 레벨의 매칭을 기반으로 입력 음성을 텍스트로 변환하는 방법에 대해 개시한다.
도 6은 본 발명의 실시예에 따른 사용자 입력 음성을 텍스트로 변환하는 방법을 나타낸 개념도이다.
도 6에 도시된 바와 같이, 사용자 장치(100)로 입력되는 소리 정보는 전처리 단계(600)를 통해 전처리된 후 텍스트로 분석될 수 있다. 예를 들어, 전처리 단계(600)는 전술한 피치 정보 및 특징 벡터를 기반으로 텍스트화를 수행할 사용자 입력 음성을 추출하는 과정일 수 있다.
전처리 단계(600)를 거친 사용자 입력 음성은 단어 레벨 또는 문장 레벨의 매칭(630)을 통해 텍스트(640)로 변경될 수 있다. 단어 레벨 및 문장 레벨의 매칭(630)을 통해 텍스트(640)로 변경하기 위해서는 음성의 신호적인 특성을 모델링하여 비교하는 음향 모델(Acoustic Model)(610)과 인식 어휘에 해당하는 단어나 음절 등의 언어적인 순서 관계를 모델링하는 언어 모델(Language Model)(620)이 사용될 수 있다.
음향 모델(610)은 인식 대상을 특징 벡터 모델로 설정하고 이를 입력 신호의 특징 벡터와 비교하는 직접 비교 방법 또는 인식 대상의 특징 벡터를 통계적으로 처리하여 이용하는 통계 방법을 사용할 수 있다.
직접 비교 방법은 인식 대상이 되는 단어, 음소 등의 단위를 특징 벡터 모델로 설정하고 입력 음성이 이와 얼마나 유사한가 비교하는 방법이다. 직접 비교 방법 중 하나로 벡터 양자화(Vector Quantization) 방법이 사용될 수 있다. 벡터 양자화 방법은 앞서 구한 특징 벡터 또는 계수들을 기존 모델인 코드북(Codebook)과 매칭시켜 대표값으로 부호화하고, 부호화된 값들을 서로 비교하는 방법이다.
통계적 모델 방법은 인식 대상에 대한 단위를 상태 열(State Sequence)로 구성하고 상태 열 간의 관계를 이용하는 방법이다. 상태 열은 복잡한 모델을 표시할 수 있어 간단한 단어 인식을 제외하고는 대부분의 음성 인식이 이 기술을 이용한다. 상태 열 간의 관계를 이용하는 방법은 다시 DTW(Dynamic Time Warping)과 같이 시간적 배열 관계를 이용하는 방법, HMM(hidden markov model)과 같이 확률값, 평균, 그리고 분산을 비교 대상으로 하는 통계적 방법, 그리고 인공 신경망을 이용하는 방법이 있다.
DTW는 같은 사람이 같은 발음을 해도 신호의 길이가 시간에 따라 달라지는 음성의 동적 특성을 고려해 기존 모델과 비교할 때 시간축에서의 차이를 보상하는 방법이다.
HMM은 음성을 상태 천이 확률 및 각 상태에서의 출력 심볼의 관찰 확률을 갖는 마르코프 프로세스로 가정한 후에 학습 데이터를 통해 상태 천이 확률 및 출력 심볼의 관찰 확률을 추정하고, 추정된 모델에서 입력된 음성이 발생할 확률을 계산하는 인식 방법이다.
한편, 단어나 음절 등의 언어적인 순서 관계를 모델링하는 언어 모델(620)은 언어를 구성하는 단위들 간의 순서 관계를 음성 인식에서 얻어진 단위들에 적용함으로써 음향적인 모호성을 줄이고 인식의 오류를 줄일 수 있다. 일반적으로 대용량 어휘를 대상으로 하는 연속 음성 인식의 경우 입력 음성에 내재한 언어적인 지식에 크게 의존하기 때문에 언어 모델(620)의 형태로 언어적인 지식을 결합하는 것이 중요하다.
언어 모델(620)로는 통계적 언어 모델과 유한 상태 네트워크(Finite State Automata, FSA)에 기반한 모델이 있다. 통계적 언어모델에는 구체적으로는 Unigram, Bigram, Trigram 등 단어의 연쇄 확률이 이용될 수 있다. 유한 상태 네트워크에 기반한 경우는 인식 대상 영역이 크지 않고, 발성되는 문자의 형태가 패턴화 되어 있는 경우에 주로 사용된다. 로봇을 제어하거나 컴퓨터 상의 데스크톱에서 응용 프로그램의 수행이나 간단한 명령어 등을 수행하는 경우에 활용될 수 있다.
본 발명의 실시예에 따르면 추출된 사용자 입력 음성은 음향 모델 또는 언어 모델에 기반하여 단어 레벨 매칭 및 문장 레벨 매칭(630)을 거친 후 텍스트(640)로 산출될 수 있다. 산출된 텍스트(640)는 전술한 바와 같이 참조 텍스트와 비교되어 사용자 설정에 따라 토큰 단위의 매칭을 통해 사용자 장치의 잠금 해제 여부에 대해 결정할 수 있다.
도 7은 본 발명의 실시예에 따른 사용자 장치를 나타낸 개념도이다.
도 7을 참조하면, 사용자 장치는 SPU(sound process unit)를 포함할 수 있다.
사용자 장치(100)에 포함되는 SPU는 사운드 유형 분석부(710), 어휘 분석부(720), 개인별 음성 패턴 분석부(730), 사용자 설정부(740) 및 프로세서(750)를 포함할 수 있다.
사운드 유형 분석부(710)는 입력되는 소리가 사람의 음성인지 여부에 대해 판단할 수 있다. 예를 들어, 사운드 유형 분석부(710)는 입력되는 소리가 생물의 소리인지 무생물의 소리인지 여부를 판단하고, 생물인 경우, 사람인지 동물인지 여부를 판단할 수 있다. 사운드 유형 분석부(710)는 입력되는 소리의 특성(주파수, 진폭 등)을 기반으로 입력되는 소리가 사람의 음성인지 여부를 판단할 수 있다. 사운드 유형 분석부(710)는 좀 더 구체적으로 입력되는 음성이 사용자의 음성인지 여부에 대해 추가적으로 판단할 수도 있다.
예를 들어, 사용자가 이전에 입력한 음성 또는 사용자의 전화 통화 시 음성을 기반으로 사용자 음성 정보의 특성을 추출할 수 있다. 추출된 사용자 음성 정보의 특성은 사운드 유형 분석부(710)에서 사용자의 음성인지 여부를 판별하기 위해 사용될 수 있다.
어휘 분석부(720)는 입력된 사용자의 음성을 특정한 단위로 분류할 수 있다. 예를 들어, 어휘 분석부(720)는 토큰 단위로 입력된 사용자 음성을 분리할 수 있다.
개인별 음성 패턴 분석부(730)는 음성을 텍스트로 변경하고, 변경된 텍스트를 토큰 단위(예를 들어, 음절, 어절) 별로 매칭하여 유사성을 추출할 수 있다. 사용자 음성은 도 5 및 도 6에서 전술한 기술을 기반으로 텍스트로 변경될 수 있다. 개인별 음성 패턴 분석부(730)는 음성을 텍스트로 변경 시 사용자 음성의 특징을 고려하여 유효한 범위 내의 음성만을 텍스트로 변경할 수 있다. 예를 들어, 기존에 입력된 사용자의 음성 특성을 고려하여 입력되는 음성 중 사용자의 음성 특성을 벋어나는 경우, 해당 정보는 제외할 수 있다.
또한, 개인별 음성 패턴 분석부(730)는 텍스트로 분석된 사용자 음성 신호와 참조 텍스트를 사용자 설정부에서 설정된 사용자 설정 파라메터(240)를 기반으로 비교할 수 있다. 분석된 결과가 사용자 설정 파라메터(240)를 만족하는지 여부에 대해 판단할 수 있다. 예를 들어, 사용자 설정 파라메터는 참조 텍스트와 텍스트로 변화된 사용자 음성 사이의 동일한 토큰의 개수, 매칭율, 인식률 등 일 수 있다.
사용자 설정부(740)는 텍스트로 변환한 사용자 음성과 참조 텍스트를 비교하여 입력된 음성으로 사용자 장치의 잠금 해제가 가능하게 하기 위한 사용자 설정 파라메터를 결정할 수 있다. 예를 들어, 사용자 설정 파라메터는 참조 텍스트와 텍스트로 변화된 사용자 음성을 비교하기 위한 토큰의 개수, 매칭율, 인식률일 수 있다.
프로세서(750)는 사운드 유형 분석부(710), 어휘 분석부(730720), 개인별 음성 패턴 분석부(750730), 사용자 설정부(740)의 동작을 제어하기 위해 구현될 수 있다. 또한, 프로세서(750)는 개인별 음성 패턴 분석부의 분석 결과 입력된 소리 신호가 사용자 장치의 잠금 상태를 해제할 수 있는 경우, 사용자 장치의 잠금 상태를 해제하도록 구현될 수 있다. 반대로 프로세서(750)는 개인별 음성 패턴 분석부(750730)의 분석 결과 입력된 소리 신호가 사용자 장치(100)의 잠금 상태를 해제할 수 없는 경우, 사용자 장치(100)의 잠금 상태를 해제하지 않고 추가로 다시 한번 사용자 음성을 입력할 것을 명령하도록 구현될 수 있다.
이러한 생체 인식 기술인 사람의 음성을 인식하는 방법을 사용하여 기존 키 입력 등보다 편리한 사용자 친화적 환경을 제공할 뿐 아니라 보안성을 높일 수 있다. 또한, 음성 기반의 인터페이스를 사용함으로써 아동과 장애인에게도 도움이 된다. 또한, 사용자 설정 파라메터(240)의 설정값에 따라 인식 수준을 사용자가 결정하여 탄력적으로, 상황에 맞게 사용할 수 있다.
본 발명의 실시예에 따른 음성 인식 방법은 다양한 장치의 잠금 해제를 위해 사용될 수 있을 뿐만 아니라, 잠금 장치가 아닌 다른 서비스에서 음성 인식 기반의 본인 인증 및 정보 입력을 위해 사용될 수 있다.
본 발명의 실시예에 따른 음성에 기반한 사용자 장치의 잠금 해제 방법은 컴퓨터 프로그램으로 작성 가능하며, 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 해당 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 정보저장매체(computer readable media)에 저장되고, 컴퓨터나 본 발명의 실시예에 따른 사용자 장치 등에 의하여 읽혀지고 실행됨으로써 사용자 장치의 잠금 상태 해제 방법을 구현할 수 있다.
정보저장매체는 자기 기록매체, 광 기록매체 및 캐리어 웨이브 매체를 포함한다. 본 발명의 실시예에 따른 사용자 장치의 잠금 상태 해제 방법을 구현하는 컴퓨터 프로그램은 사용자 장치 등의 내장 메모리에 저장 및 설치될 수 있다. 또는, 본 발명의 실시예에 따른 사용자 장치의 잠금 상태 해제 방법을 구현하는 컴퓨터 프로그램을 저장 및 설치한 스마트 카드 등의 외장 메모리가 인터페이스를 통해 단말 등에 장착될 수도 있다.
전술된 내용은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
본 발명은 사용자 장치로 입력되는 소리 정보가 사람의 음성인지 여부를 판단하고 소리 정보가 사람의 음성인 경우, 소리 정보를 기반으로 변환 텍스트를 생성하고 변환 텍스트와 참조 텍스트를 비교하여 사용자 장치의 잠금을 해제할지 여부를 결정할 수 있다. 이러한 방법은 기존 키 입력 등보다 편리한 사용자 친화적 환경을 제공하고 사용자 장치의 보안성을 높이기 위해 사용자 장치에 활용되어질 수 있다. 또한, 본 발명은 사용자 장치의 잠금 해제에 음성 기반의 인터페이스를 사용하고 있으므로, 아동과 장애인이 사용하는 사용자 장치에 적용될 수 있다. 나아가, 사용자 설정 파라메터의 설정값에 따라 인식 수준을 사용자가 결정하여 사용자 장치의 잠금 해제 여부를 상황에 맞게 적응적으로 설정할 수 있도록 사용자 장치에 적용될 수 있다.
100: 사용자 장치 110: 음성 신호
120: 잠금 상태 130: 해제 상태
200: 사운드 유형 분석 210: 사용자 입력 음성
220: 사용자 음성 분석 230: 참조 텍스트
240: 사용자 설정 파라메터 400: 사용자 음성의 특징 정보
600: 전처리 단계 610: 음향 모델
620: 언어 모델 630: 단어 레벨 매칭 및 문장 레벨 매칭
640: 텍스트 700: SPU
710: 사운드 유형 분석부 720: 어휘 분석부
730: 개인별 음성 패턴 분석부 740: 사용자 설정부
750: 프로세서
120: 잠금 상태 130: 해제 상태
200: 사운드 유형 분석 210: 사용자 입력 음성
220: 사용자 음성 분석 230: 참조 텍스트
240: 사용자 설정 파라메터 400: 사용자 음성의 특징 정보
600: 전처리 단계 610: 음향 모델
620: 언어 모델 630: 단어 레벨 매칭 및 문장 레벨 매칭
640: 텍스트 700: SPU
710: 사운드 유형 분석부 720: 어휘 분석부
730: 개인별 음성 패턴 분석부 740: 사용자 설정부
750: 프로세서
Claims (11)
- 사용자 장치로 입력되는 소리 정보가 사람의 음성인지 여부를 판단하도록 구현되는 사운드 유형 분석부;
상기 소리 정보가 상기 사람의 음성인 경우, 상기 소리 정보를 기반으로 변환 텍스트를 생성하고, 상기 변환 텍스트와 상기 사용자 장치의 잠금 장치를 해제할지 여부를 결정하기 위한 판단 기준이 되는 텍스트 정보인 참조 텍스트를 비교하여 산출된 매칭 결과와 미리 설정한 사용자 설정 파라메터를 기반으로 상기 사용자 장치의 잠금을 해제할지 여부를 결정하도록 구현되는 개인별 음성 패턴 분석부; 및
상기 매칭 결과가 상기 사용자 설정 파라메터의 임계값을 만족하는 경우, 상기 사용자 장치의 잠금을 해제하도록 구현되는 프로세서를 포함하는 음성에 기반한 잠금 해제를 수행하는 사용자 장치. - 제 1항에 있어서,
상기 매칭 결과는 상기 변환 텍스트와 상기 참조 텍스트 사이에 일치하는 토큰의 수에 대한 정보 및 매칭율에 대한 정보를 포함하고,
상기 사용자 설정 파라메터는 상기 사용자 장치의 잠금을 해제할지 여부를 결정하기 위해 설정된 상기 토큰의 수에 대한 임계값 정보 및 상기 매칭율에 대한 임계값 정보인 것을 특징으로 하는 음성에 기반한 잠금 해제를 수행하는 사용자 장치. - 제 1항에 있어서,
상기 일치하는 토큰의 수는 상기 변환 텍스트와 상기 참조 텍스트에 포함된 단어 별로 매핑을 수행하여 매핑되는 단어의 개수에 기반하여 산출되고,
상기 일치율은 상기 매핑되는 단어에서 일치하는 음절의 개수에 기반하여 산출되는 것을 특징으로 하는 음성에 기반한 잠금 해제를 수행하는 사용자 장치. - 제 1항에 있어서,
상기 사용자 장치는상기 사용자 설정 파라메터를 설정하기 위해 구현되는 사용자 설정부를 더 포함하고,
상기 사용자 설정 파라메터는 상기 사용자 장치의 보안 요구 정도에 따라 다르게 설정되는 것을 특징으로 하는 음성에 기반한 잠금 해제를 수행하는 사용자 장치. - 제 1항에 있어서,
상기 개인별 음성 패턴 분석부는상기 소리 정보를 토큰 단위로 분할하고, 상기 토큰 단위로 분할한 소리 정보를 상기 사용자 음성의 특징 정보를 기반으로 전처리하고, 상기 전처리된 상기 소리 정보를 상기 텍스트로 변환하여 변환 텍스트를 생성하도록 구현되며,
상기 사용자 음성의 특징 정보는 주파수 정보인 것을 특징으로 하는 음성에 기반한 잠금 해제를 수행하는 사용자 장치. - 제 5항에 있어서,
상기 변환 텍스트는 사용자 설정 파라메터의 임계값을 만족하는 경우, 상기 참조 텍스트로 설정되어 저장되는 것을 특징으로 하는 음성에 기반한 잠금 해제를 수행하는 사용자 장치. - 제1항에 있어서,
상기 사운드 유형 분석부는 상기 소리 정보에 패턴이 존재하지 않고 사람의 음성 주파수 대역인 경우, 상기 사람의 음성으로 판단하도록 구현되는 것을 특징으로 하는 음성에 기반한 잠금 해제를 수행하는 사용자 장치. - 사용자 장치로 입력되는 소리 정보가 사람의 음성인지 여부를 판단하는 단계;
상기 소리 정보가 상기 사람의 음성인 경우, 상기 소리 정보를 기반으로 변환 텍스트를 생성하는 단계;
상기 변환 텍스트와 상기 사용자 장치의 잠금 장치를 해제할지 여부를 결정하기 위한 판단 기준이 되는 텍스트 정보인 참조 텍스트를 비교하여 산출된 매칭 결과와 사용자 설정 파라메터를 기반으로 상기 사용자 장치의 잠금을 해제할지 여부를 결정하는 단계; 및
상기 매칭 결과가 상기 사용자 설정 파라메터의 임계값을 만족하는 경우, 상기 사용자 장치의 잠금을 해제하는 단계를 포함하는 사용자 장치의 잠금 해제 방법. - 제 8항에 있어서,
상기 매칭 결과는 상기 변환 텍스트와 상기 참조 텍스트 사이에 일치하는 토큰의 수에 대한 정보 및 매칭율에 대한 정보를 포함하고,
상기 사용자 설정 파라메터는 상기 사용자 장치의 잠금을 해제할지 여부를 결정하기 위해 설정된 상기 토큰의 수에 대한 임계값 정보 및 상기 매칭율에 대한 임계값 정보인 것을 특징으로 하는 사용자 장치의 잠금 해제 방법. - 제 8항에 있어서,
상기 소리 정보가 상기 사람의 음성인 경우, 상기 소리 정보를 기반으로 변환 텍스트를 생성하는 단계는,
상기 소리 정보에서 피치 정보를 검출하는 단계;
상기 피치 정보를 기반으로 상기 소리 정보에서 특징 벡터를 산출하는 단계;
상기 특징 벡터를 기반으로 상기 소리 정보 중 상기 변환 텍스트로 변환할 소리 정보를 추출하는 단계; 및
어절 및 음절의 언어적인 순서 관계를 기반으로 모델링한 언어 모델을 기반으로 상기 추출된 소리 정보를 상기 변환 텍스트로 생성하는 단계를 포함하는 것을 특징으로 하는 사용자 장치의 잠금 해제 방법. - 제 8항 내지 제 10항 중 어느 한 항에 따른 방법을 수행하는 컴퓨터 프로그램이 기록된 기록매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130115695A KR102140770B1 (ko) | 2013-09-27 | 2013-09-27 | 음성에 기반한 잠금 해제를 수행하는 사용자 장치, 음성에 기반한 사용자 장치의 잠금 해제 방법 및 컴퓨터 프로그램이 기록된 기록매체 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130115695A KR102140770B1 (ko) | 2013-09-27 | 2013-09-27 | 음성에 기반한 잠금 해제를 수행하는 사용자 장치, 음성에 기반한 사용자 장치의 잠금 해제 방법 및 컴퓨터 프로그램이 기록된 기록매체 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20150035312A true KR20150035312A (ko) | 2015-04-06 |
KR102140770B1 KR102140770B1 (ko) | 2020-08-03 |
Family
ID=53030316
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020130115695A KR102140770B1 (ko) | 2013-09-27 | 2013-09-27 | 음성에 기반한 잠금 해제를 수행하는 사용자 장치, 음성에 기반한 사용자 장치의 잠금 해제 방법 및 컴퓨터 프로그램이 기록된 기록매체 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102140770B1 (ko) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105096121A (zh) * | 2015-06-25 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 声纹认证方法和装置 |
WO2020141696A1 (ko) * | 2019-01-04 | 2020-07-09 | 주식회사 딥엑스 | 전자기기를 위한 특정 기능 수행용 학습된 모델 작성 방법 및 동일 기능을 수행하기 위한 학습 모델, 전용 칩 및 전용 칩 동작 방법, 그리고 전자기기와 시스템 |
KR20200085223A (ko) * | 2019-01-04 | 2020-07-14 | 주식회사 딥엑스 | 전자기기를 위한 특정 기능 수행용 학습된 모델 작성 방법, 전자기기를 위한 특정 기능 수행용 학습된 모델, 전자기기를 위한 특정 기능 수행 전용 칩, 전자기기를 위한 특정 기능 수행 전용 칩 동작 방법, 특정 기능 수행을 위한 전자기기, 및 전자기기 특정 기능 수행 시스템 |
WO2022145835A1 (ko) * | 2020-12-30 | 2022-07-07 | 삼성전자 주식회사 | 보이스 어시스턴트 서비스에 대한 음성 공격을 탐지하는 장치 및 방법 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020057262A (ko) | 2000-12-30 | 2002-07-11 | 송문섭 | 음성인식을 이용한 이동통신 단말기의 잠금 장치 및 방법 |
KR20080019210A (ko) * | 2005-06-22 | 2008-03-03 | 마이크로소프트 코포레이션 | 보안 정보를 위한 음성 인식 시스템 |
KR20120136552A (ko) * | 2011-06-09 | 2012-12-20 | 삼성전자주식회사 | 정보 제공 방법 및 이를 구현하는 이동통신단말기 |
-
2013
- 2013-09-27 KR KR1020130115695A patent/KR102140770B1/ko active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020057262A (ko) | 2000-12-30 | 2002-07-11 | 송문섭 | 음성인식을 이용한 이동통신 단말기의 잠금 장치 및 방법 |
KR20080019210A (ko) * | 2005-06-22 | 2008-03-03 | 마이크로소프트 코포레이션 | 보안 정보를 위한 음성 인식 시스템 |
KR20120136552A (ko) * | 2011-06-09 | 2012-12-20 | 삼성전자주식회사 | 정보 제공 방법 및 이를 구현하는 이동통신단말기 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105096121A (zh) * | 2015-06-25 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 声纹认证方法和装置 |
US9792913B2 (en) | 2015-06-25 | 2017-10-17 | Baidu Online Network Technology (Beijing) Co., Ltd. | Voiceprint authentication method and apparatus |
WO2020141696A1 (ko) * | 2019-01-04 | 2020-07-09 | 주식회사 딥엑스 | 전자기기를 위한 특정 기능 수행용 학습된 모델 작성 방법 및 동일 기능을 수행하기 위한 학습 모델, 전용 칩 및 전용 칩 동작 방법, 그리고 전자기기와 시스템 |
KR20200085223A (ko) * | 2019-01-04 | 2020-07-14 | 주식회사 딥엑스 | 전자기기를 위한 특정 기능 수행용 학습된 모델 작성 방법, 전자기기를 위한 특정 기능 수행용 학습된 모델, 전자기기를 위한 특정 기능 수행 전용 칩, 전자기기를 위한 특정 기능 수행 전용 칩 동작 방법, 특정 기능 수행을 위한 전자기기, 및 전자기기 특정 기능 수행 시스템 |
CN113366508A (zh) * | 2019-01-04 | 2021-09-07 | 蒂普爱可斯有限公司 | 执行电子设备特定功能的训练模型创建方法、执行相同功能的学习模型、专用芯片及其操作方法及电子设备和系统 |
US11429180B2 (en) | 2019-01-04 | 2022-08-30 | Deepx Co., Ltd. | Trained model creation method for performing specific function for electronic device, trained model for performing same function, exclusive chip and operation method for the same, and electronic device and system using the same |
WO2022145835A1 (ko) * | 2020-12-30 | 2022-07-07 | 삼성전자 주식회사 | 보이스 어시스턴트 서비스에 대한 음성 공격을 탐지하는 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR102140770B1 (ko) | 2020-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3438973B1 (en) | Method and apparatus for constructing speech decoding network in digital speech recognition, and storage medium | |
CN108701453B (zh) | 模块化深度学习模型 | |
JP6284462B2 (ja) | 音声認識方法、及び音声認識装置 | |
US20210217403A1 (en) | Speech synthesizer for evaluating quality of synthesized speech using artificial intelligence and method of operating the same | |
US8996373B2 (en) | State detection device and state detecting method | |
CN103971685A (zh) | 语音命令识别方法和系统 | |
KR102607373B1 (ko) | 음성감성 인식 장치 및 방법 | |
CN110675866B (zh) | 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质 | |
CN104462912B (zh) | 改进的生物密码安全 | |
Nasereddin et al. | Classification techniques for automatic speech recognition (ASR) algorithms used with real time speech translation | |
KR102140770B1 (ko) | 음성에 기반한 잠금 해제를 수행하는 사용자 장치, 음성에 기반한 사용자 장치의 잠금 해제 방법 및 컴퓨터 프로그램이 기록된 기록매체 | |
CN110853669B (zh) | 音频识别方法、装置及设备 | |
Biagetti et al. | Speaker identification in noisy conditions using short sequences of speech frames | |
Këpuska | Wake-up-word speech recognition | |
CN112037772B (zh) | 基于多模态的响应义务检测方法、系统及装置 | |
Alex et al. | Variational autoencoder for prosody‐based speaker recognition | |
Lee et al. | A voice trigger system using keyword and speaker recognition for mobile devices | |
CN115691478A (zh) | 语音唤醒方法、装置、人机交互设备和存储介质 | |
Sharma et al. | Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art | |
Sawakare et al. | Speech recognition techniques: a review | |
Dennis et al. | Generalized Hough transform for speech pattern classification | |
KR100673834B1 (ko) | 문맥 요구형 화자 독립 인증 시스템 및 방법 | |
Gunasekara et al. | Real-time translation of discrete sinhala speech to unicode text | |
KR20210054001A (ko) | 음성인식 서비스를 제공하기 위한 방법 및 장치 | |
US20090112591A1 (en) | System and method of word lattice augmentation using a pre/post vocalic consonant distinction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |