KR102009593B1

KR102009593B1 - 화자 분석 기술을 이용한 개인화 음성 인식 장치 및 방법, 상기 방법을 수행하기 위한 기록 매체

Info

Publication number: KR102009593B1
Application number: KR1020180007674A
Authority: KR
Inventors: 이수원; 김명호; 윤나혜; 유채원; 김경리; 태희지
Original assignee: 숭실대학교산학협력단
Priority date: 2018-01-22
Filing date: 2018-01-22
Publication date: 2019-08-09
Also published as: KR20190089335A

Abstract

본 발명은 터치 방식 대신 음성 인식 기술을 통해 카메라의 작동을 제어하도록 구현한 화자 분석 기술을 이용한 개인화 음성 인식 장치 및 방법에 관한 것으로, 사용자의 음성을 인식한 후 텍스트 형태로 변환하는 음성 인식부; 카메라 제어에 필요로 하는 제어정보를 추출하는 정보 처리부; 사용자 단말기 또는 SNS 상에서 피사체를 검색하는 피사체 검색부; 피사체를 탐색하는 피사체 탐색부; 및 피사체에 초점을 맞춰 촬영을 하도록 사용자 단말기의 카메라를 제어하는 카메라 제어부를 포함한다.

Description

화자 분석 기술을 이용한 개인화 음성 인식 장치 및 방법, 상기 방법을 수행하기 위한 기록 매체{Personalized Voice Recognition Device Using Speaker Analysis and Voice Recognition Method thereof, Recording Medium for Performing the Method}

본 발명은 화자 분석 기술을 이용한 개인화 음성 인식 장치 및 방법, 상기 방법을 수행하기 위한 기록 매체에 관한 것으로, 더욱 상세하게는 기존의 터치 방식 대신 음성 인식 기술을 통해 카메라의 작동을 제어하도록 구현한 화자 분석 기술을 이용한 개인화 음성 인식 장치 및 방법, 상기 방법을 수행하기 위한 기록 매체에 관한 것이다.

휴대폰은, 과거의 음성 통화만을 위한 단순한 음성 전달 장치로부터 인터넷을 통한 웹서핑 또는 모바일 게임 등을 즐길 수 있는 종합 엔터테인먼트 디바이스로 발전하였다.

DSLR로 대표되는 사진기는 그 무게 또는 부피의 부담감으로 인해 평상시에 소지하기 힘들다는 명백한 단점을 가질 수밖에 없으나, 최근의 스마트폰은 자체적으로 사진 기능을 포함하고 있어 언제 어디서나 사진을 간편하게 촬영하도록 한다. 사용자들은 스마트폰을 이용하여 사진을 촬영할 경우 터치나 버튼을 통해 카메라 기능을 제어하는데, 스마트폰과 같은 휴대용 단말기는 이들을 이벤트로 생각하고 그에 맞는 기능을 수행한다. 그러나, 이러한 이벤트는 사용자에게 많은 제약 사항을 요구한다. 촬영 기능을 포함하여 밝기 변환이나 타이머 설정 등의 기능을 수행하기 위해 사용자는 손이 자유로워야 하기 때문이다. 이로 인해, 손을 사용하기 불편한 상황 또는 손이 불편한 사람들은 이러한 터치 기반의 카메라 사용에 불편함을 호소한다.

또한, 음성 인식과 관련된 기술은, 현재 가장 주목받고 있는 기술 중 하나로, 관련 시장이 급속도로 성장하고 있다. 관심이 높아짐에 따라, 여러 대기업들도 연이어 음성 인식에 대한 기술 및 제품을 출시하고 있다. 음성을 정확하게 텍스트로 변환해 그에 맞추어 기능을 수행하는 것이 보편적이라고 할 수 있는데, 국내 소셜 네트워크 서비스인 카카오톡에서 제공하고 있는 '보이스치즈(voice cheez)'와 같은 경우 변환한 텍스트를 이용하여 스티커를 만들어 주는 등의 응용 기능을 제공하기도 한다.

한국공개특허 제1999-0033994호 한국공개특허 제2017-0070864호

본 발명의 일측면은 음성 인식을 할 때 특정 음성만을 추출한 뒤, 그 음성에 한해서만 증폭할 수 있는 화자 분석 기술을 이용한 개인화 음성 인식 장치 및 방법, 상기 방법을 수행하기 위한 기록 매체를 제공한다.

본 발명의 일측면은 음성 화자 구별 기술을 통해 해당 서비스를 이용하는 각 화자들에게 음성 인식을 통해 카메라를 제어할 수 있도록 하는 화자 분석 기술을 이용한 개인화 음성 인식 장치 및 방법, 상기 방법을 수행하기 위한 기록 매체를 제공한다.

본 발명의 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

본 발명의 일 실시예에 따른 화자 분석 기술을 이용한 개인화 음성 인식 장치는, 카메라 제어가 허용된 사용자 음성의 특정 주파수대역을 증폭시켜 사용자의 음성을 인식한 후 텍스트 형태로 변환하는 음성 인식부; 상기 음성 인식부에서 변환된 텍스트로부터 카메라 제어에 필요로 하는 제어정보를 추출하는 정보 처리부; 추출된 제어정보에 특정 피사체에 초점을 맞춰 촬영을 요청하는 내용이 포함된 경우, 사용자 단말기 또는 SNS 상에서 피사체를 검색하는 피사체 검색부; 카메라의 프레임의 범위 내에서 상기 피사체 검색부에서 검색된 피사체를 탐색하는 피사체 탐색부; 및 상기 피사체 탐색부에 의해 탐색된 피사체에 초점을 맞춰 촬영을 하도록 사용자 단말기의 카메라를 제어하는 카메라 제어부를 포함한다.

일 실시예에서, 상기 음성 인식부는, 주변 소리로부터 사람의 음성을 추출하는 음성 추출부; 추출된 음성으로부터 카메라 제어가 허용된 사용자 음성의 특정 주파수대역만을 증폭하는 음성 증폭부; 및 증폭된 음성을 텍스트 형태로 변환하는 텍스트 변환부를 포함할 수 있다.

일 실시예에서, 상기 정보 처리부는, 사용자 단말기의 카메라 기능을 제어하는 제어명령을 저장해 두는 제어명령 저장부; 및 상기 음성 인식부에서 변환한 텍스트에서 상기 제어명령 저장부에 저장해 둔 제어명령을 추출한 후 이에 대응하는 제어정보를 생성하는 제어명령 추출부를 포함할 수 있다.

일 실시예에서, 상기 카메라 제어부는, 제어정보에 따라 사용자 단말기의 카메라의 촬영, 타이머 설정, 영상 필터 변경 및 화면 밝기 중 적어도 하나의 기능을 제어할 수 있다.

일 실시예에서, 촬영된 사진에 이미지 또는 텍스트 형태의 메모를 추가하여 사진 메모를 생성하는 사진메모 생성부를 더 포함할 수 있다.

일 실시예에서, 상기 사진메모 생성부는, 상기 카메라 제어부에 의해 촬영된 사진을 전달받아 로딩하는 이미지 로딩부; 사용자로부터 메모 및 메모를 삽입할 위치를 선택받는 위치 선택부; 및 사용자로부터 선택받은 위치로 사용자가 요청한 메모를 삽입하는 메모 삽입부를 포함할 수 있다.

일 실시예에서, 상기 정보 처리부는, 특정 피사체에 초점(focal point)을 맞춰 촬영을 요청하는 제어정보를 추출할 수 있다.

일 실시예에서, 상기 피사체 검색부는, SNS와 연동되며, SNS 상의 문장을 분석하여 검색된 사진을 특정된 피사체와의 유사도 판단을 통해 매칭률이 높은 사진 순서로 순위를 매겨 데이터베이스화시켜 저장해 둘 수 있다.

일 실시예에서, 상기 피사체 탐색부는, 카메라의 프레임의 범위 내에서 상기 피사체 검색부에 저장해 둔 매칭률이 가장 높은 사진과의 유사도가 가장 높은 피사체를 제1순위 피사체로 설정하고, 다음으로 유사도가 높은 피사체를 제2순위 피사체로 설정할 수 있다.

일 실시예에서, 상기 카메라 제어부는, 상기 피사체 탐색부에 의해 설정된 제1순위 피사체에 제1초점을 맞추고, 제2순위 피사체에 제1초점보다 뚜렷함의 정도가 낮은 제2초점을 맞춰 촬영을 하도록 사용자 단말기의 카메라를 제어할 수 있다.

본 발명의 다른 실시예에 따른 화자 분석 기술을 이용한 개인화 음성 인식 방법은, 카메라 제어가 허용된 사용자 음성의 특정 주파수대역을 증폭시켜 사용자의 음성을 인식한 후 텍스트 형태로 변환하는 단계; 변환된 텍스트로부터 카메라 제어에 필요로 하는 제어정보를 추출하는 단계; 추출된 제어정보에 특정 피사체에 초점을 맞춰 촬영을 요청하는 내용이 포함된 경우, 사용자 단말기 또는 SNS 상에서 피사체를 검색하는 단계; 카메라의 프레임의 범위 내에서 검색된 피사체를 탐색하는 단계; 카메라 프레임의 범위 내에서 탐색된 피사체에 초점을 맞춰 촬영을 하도록 사용자 단말기의 카메라를 제어하는 단계; 및 촬영된 사진에 이미지 또는 텍스트 형태의 메모를 추가하여 사진 메모를 생성하는 단계를 포함한다.

본 발명의 또 다른 실시예에 따른 컴퓨터로 판독 가능한 저장 매체에는, 화자 분석 기술을 이용한 개인화 음성 인식 방법을 수행하기 위한 컴퓨터 프로그램이 기록되어 있다.

상술한 본 발명의 일측면에 따르면, 발전된 플랫폼 환경에서의 음성 인식 카메라 기능을 구현함으로써, 음성 인식의 정확도 및 카메라 제어의 편리성을 높일 수 있다.

상술한 본 발명의 일측면에 따르면, 음성 증폭 기능을 이용함으로써, 접근 제어, 디지털 포렌식, 음성 데이터 관리, 개인화, 보안 인증 등의 광범위한 분야에 응용하여 적용시킴으로써, 단말기의 보안성에 기여를 할 뿐만 아니라, 주위의 소음 속에서도 개인의 음성 식별을 더욱 분명하게 할 수 있다.

도 1은 본 발명의 일 실시예에 따른 화자 분석 기술을 이용한 개인화 음성 인식 장치를 설명하는 도면이다.
도 2는 본 발명의 실시예에 따른 음성 촬영을 설명하는 도면이다.
도 3은 도 2의 음성 촬영에 의해 촬영된 사진을 설명하는 도면이다.
도 4는 도 1에 있는 음성 인식부를 설명하는 도면이다.
도 5는 도 1에 있는 정보 처리부를 설명하는 도면이다.
도 6은 본 발명의 다른 실시예에 따른 화자 분석 기술을 이용한 개인화 음성 인식 장치를 설명하는 도면이다.
도 7은 도 6에 있는 사진메모 생성부를 설명하는 도면이다.
도 8 내지 도 10은 도 7의 사진메모 생성부에 의해 사진 메모의 생성을 설명하는 도면이다.
도 11은 본 발명의 다른 실시예에 따른 화자 분석 기술을 이용한 개인화 음성 인식 방법을 설명하는 순서도이다.
도 12는 본 발명의 또 다른 실시예에 따른 화자 분석 기술을 이용한 개인화 음성 인식 방법을 설명하는 순서도이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예와 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 화자 분석 기술을 이용한 개인화 음성 인식 장치를 설명하는 도면이다.

도 1을 참조하면, 화자 분석 기술을 이용한 개인화 음성 인식 장치(10)는, 음성 인식부(100), 정보 처리부(200), 피사체 검색부(300), 피사체 탐색부(400) 및 카메라 제어부(500)를 포함한다.

음성 인식부(100)는, 카메라 제어가 허용된 사용자 음성의 특정 주파수대역을 증폭시켜 사용자의 음성을 인식한 후 텍스트 형태로 변환시켜 정보 처리부(200)로 전달한다.

목소리는 고유한 공명주파수를 가지고 있기 때문에 사람의 목소리가 가진 특유의 주파수대를 식별함으로써, 여러 잡음이 섞여 있는 소리로부터 특정인의 목소리만을 추출할 수 있다.

따라서, 본 발명에서는, 카메라 제어가 허용되는 사용자의 특정 주파수를 저장해 둔 후, 여러 잡음(예를 들어, 다른 사람들의 목소리, 기차 소리 또는 자동차 소리 등)이 섞여 있는 소리로부터 해당 사용자의 목소리의 주파수에 해당하는 소리만을 추출하여 증폭함으로써 음성 인식의 효율성을 높일 수 있다.

화자 검증 방법으로, 최근에는 요인분석 기법의 일종인 JFA 또는 i-vector 기법을 SVM과 결합시키는 방식이나 JFA나 i-vector를 cousine 커널을 통해 직접 거리 계산하는 방식 등이 제안되어 성능을 높이는 방향으로 진행되고 있다. 그러나, 본 발명에서는, 여기서 더 나아가 최종적 목표인 잡음으로부터 정확도를 높이기 위해서 PLDA를 I-vector에 적용하는 기법을 음성 인식과 접목시켜 특정 음성을 추출할 때 화자를 검증하는 방법으로 사용함으로써, 음성 인식의 정확도를 향상시킬 수 있다.

정보 처리부(200)는, 음성 인식부(100)에서 변환된 텍스트를 전달받아 카메라 제어에 필요로 하는 제어정보(즉, 사용자 단말기의 카메라를 제어할 수 있는 정보)를 추출하며, 추출된 제어정보를 카메라 제어부(500)로 전달한다.

일 실시예에서, 정보 처리부(200)는, 특정 피사체(object)에 초점(focal point)을 맞춰 촬영을 요청하는 제어정보를 추출하여 선택적 초점 선택 모드(즉, 사진의 프레임 안에 여러 명의 사람이 있는 경우 특정 인물에 초점을 맞추고 나머지 인물들을 흐리게 표현하는 촬영 모드)를 실행할 수 있다.

피사체 검색부(300)는, 추출된 제어정보에 특정 피사체에 초점을 맞춰 촬영을 요청하는 내용이 포함된 경우, 사용자 단말기(즉, 사용자 단말기의 사진 앨범) 또는 SNS 상에서 피사체를 검색한다.

피사체 탐색부(400)는, 카메라의 프레임의 범위 내에서 피사체 검색부(300)에서 검색된 피사체를 탐색한다.

근래의 스마트폰은, 고가의 DSLR에 의해서만 용이하게 구현될 수 있는 배경 흐림(일명 아웃 포커스(Out of Focus), 심도가 얕아 촬영 대상 이외의 대상이 초점이 맞지 않고, 흐려 보이는 상태)을 소프트웨어적으로 구현할 수 있을 정도로 고도화되고 있다.

이러한 스마트폰을 이용한 아웃 포커싱은, 일반적으로 사용자가 초점을 맞추어 선명하게 하고자 하는 피사체를 터치하여 초점을 설정한 후 카메라가 촬영함으로써 구동되고 있다.

이에 따라, 본 발명에서는, 기존의 터치 방식으로 초점 영역을 선택하는 불편함을 해결하고자, 사용자의 음성을 통한 제어방식으로 특정 피사체에 초점을 맞추고 나머지 부분을 흐리게 처리하도록 함으로써, 고가의 DLSR와 같은 심도(深度, depth of field) 얕은 이미지를 보다 쉽게 얻도록 할 수 있다.

일 실시예에서, 피사체 검색부(300)는, 정보 처리부(200)로부터 전달되는 제어정보가 특정 피사체에 초점을 맞춘 촬영의 요청인 경우, 카메라 앨범에서 촬영이 요청된 피사체를 검색할 수 있다. 이에 따라, 피사체 탐색부(400)는, 검색된 인물의 얼굴 정보를 통해 카메라의 프레임 내에 있는 피사체 중에서 촬영이 요청된 피사체를 탐색한 후 초점을 맞춰 촬영하도록 카메라를 제어할 수 있다.

일반적으로, 최신의 스마트폰은, 사진 앨범에 저장되어 있는 사진들의 얼굴을 두 눈 사이의 거리, 코의 길이와 너비, 턱 선의 길이와 같이 수로 나타낼 수 있는 특징을 통해 얼굴의 주요 특징을 추출해 비교 분석 방법을 이용한 얼굴 인식 기법을 통해 인물 별로 분류된 사진을 스마트폰의 사진 앨범에 저장하는 기능을 제공하고 있다. 뿐만 아니라, 인물 별로 저장된 사진들은, 스마트폰의 주소록에 저장된 해당 인물과 연동되도록 설정함으로써, 사용자는 저장된 사진 속의 인물이 누구인지 쉽게 인지할 수 있다.

예를 들어, 사용자가 특정 인물의 사진을 촬영할 경우, 스마트폰은 촬영된 사진에서 사람의 얼굴이 탐지될 경우, 해당 얼굴 부분으로 사용자의 터치를 유도한 후 사용자가 터치하면, 스마트폰의 주소록에서 해당 얼굴의 인물을 선택하도록 함으로써 촬영된 인물을 특정하거나, 촬영된 사진의 사람의 얼굴을 이미 저장되어 있는 인물들의 얼굴과 비교하여 매칭되는 인물이 존재하는 경우 해당 인물의 사진으로 등록해 둘 수 있다.

따라서, 본 발명에서는, 특정 인물에 초점을 맞추고 촬영을 하고자 하는 요청이 입력되면, 요청된 인물의 정보를 주소록에서 검색한 후 검색된 인물 정보를 이용하여 앨범에서 해당 인물의 사진을 탐색함으로써 사용자로부터 요청된 인물의 얼굴 형태를 특정할 수 있다. 요청된 인물의 얼굴 형태가 특정되며, 얼굴 인식 기법을 통해 특징을 추출하며, 카메라의 프레임 안에 담겨 있는 인물 중에서 추출된 특징과 일치하는 인물을 탐색한 후 해당 인물에 초점을 맞추고 나머지 부분을 흐릿하게 배경 처리한 후 촬영을 하게 된다.

도 2를 참조하면, 세 명의 사람이 카메라의 프레임 안에 담겨 있고, 중간 부분에 서 있는 어린아이가 "은희"라고 할 경우, 사용자로부터 "은희 사진 찍어줘"라는 특정 인물을 선택적으로 촬영하고자 하는 촬영요청이 입력되는 경우, 1) 먼저, "은희"라는 인물을 사용자 단말기의 주소록에서 검색하며, 2) 주소록에서 "은희"라는 인물의 정보가 검색되면, 검색된 인물 정보를 이용하여 사용자 단말기의 사진 앨범에서 "은희"로 분류된 사진들을 검색하며, 3) 검색된 사진들로부터 해당 얼굴의 특징들을 추출하며, 4) 추출된 특징을 통해 카메라의 프레임에 담겨 있는 세 명의 사람 중 "은희"라는 인물을 특정한 후 초점을 맞추고 나머지 두 명의 위치를 포함한 촬영 요청된 부분 이외의 부분을 배경 흐림 처리한 사진을 생성함으로써 DSLR과 같은 얕은 심도의 인물 사진을 촬영할 수 있다.

도 3을 참조하면, 가운데 서 있는 어린아이인 "은희"는 초점 영역에 해당하여 선명하게 촬영된 반면, "은희"를 기준으로 좌측 및 우측에 서 있는 어른들은 흐리게 블러(blur) 처리됨으로써, 특정 인물에 시전을 집중하도록 하여 촬영된 인물만을 부각시킬 수 있다.

카메라 제어부(500)는, 정보 처리부(200)에서 추출된 제어정보를 전달받으며 이에 따라 피사체를 특정하지 않고 촬영을 하거나, 피사체 탐색부(400)에 의해 탐색된 피사체에 초점을 맞춰 촬영을 하도록 사용자 단말기의 카메라를 제어하여 촬영하도록 한다.

예를 들어, 사용자로부터 단순히 "10초 후에 사진 찍어줘"라는 명령어가 입력되는 경우 별도의 초점을 잡는 제어 구동 없이 "10초" 후에 일반적인 사진을 찍어주는 반면, 사용자로부터 "5초 후에 곰돌이인형 사진 찍어줘"라는 명령어가 입력되는 경우 "5초" 후에 사진의 프레임 안에 있는 "곰돌이인형"에 초점을 맞춘 후 나머지 부분은 배경 처리하여 사진을 촬영할 수 있다.

일 실시예에서, 카메라 제어부(500)는, 제어정보에 따라 사용자 단말기의 카메라의 촬영, 타이머 설정, 영상 필터 변경 및 화면 밝기 중 적어도 하나의 기능을 제어할 수 있다.

일 실시예에서, 피사체 검색부(300)는, SNS(예를 들어, 카카오톡, 인스타그램 또는 페이스북 등)와 연동되며, SNS 상의 문장을 분석하여 검색된 사진을 특정된 피사체와의 유사도 판단을 통해 특정된 피사체와 매칭률이 높은 사진 순서로 순위를 매겨 저장해 둘 수 있다. 즉, 매칭률이 가장 높은 사진인 제1순위 사진으로부터 제N순위 사진을 데이터베이스화시켜 저장해 둘 수 있다.

예를 들어, 사용자로부터 "곰돌이 인형"에 대한 사진 요청이 있는 경우, 피사체 검색부(300)는, SNS 상에서 검색된 "곰돌이 인형"에 대한 결과물을 피사체의 일반적인 외형 등을 종합적으로 판독하여 "곰돌이 인형"에 가장 부합하는 사진을 도출할 수 있다.

일 실시예에서, 피사체 탐색부(400)는, 카메라의 프레임의 범위 내에서 피사체 검색부(300)에 저장해 둔 매칭률이 가장 높은 사진(즉, 제1순위로 매칭된 사진)과의 유사도가 가장 높은 피사체를 제1순위 피사체로 설정하고, 다음으로 유사도가 높은 피사체를 제2순위 피사체로 설정할 수 있다.

다만, 피사체 탐색부(400)에 의한 피사체의 순위 설정은 제1순위 및 제2순위에 한정되는 것은 아니며, 사용자의 설정 또는 필요에 따라 제2순위를 초과하는 피사체의 순위를 설정할 수 있다.

이때, 제1순위 피사체는, 특정된 피사체와 가장 유사한 제1순위 사진과 가장 유사한 피사체에 해당하는 바, 사진 촬영을 요청한 특정된 피사체에 가장 유사한 피사체에 해당할 것이다.

일 실시예에서, 카메라 제어부(500)는, 피사체 탐색부(400)에 의해 설정된 제1순위 피사체에 1순위로 초점을 맞추고, 제2순위 피사체에 1순위보다 뚜렷함 정도가 낮은 2순위로 초점을 맞춰 촬영을 하도록 사용자 단말기의 카메라를 제어할 수 있다.

예를 들어, 카메라 제어부(500)는, 복수 개의 피사체가 카메라의 프레임 안에 존재하는 경우, 제1순위 피사체를 가장 밝게 표현하고, 제2순위 피사체를 다음으로 밝게 표현하며, 다른 피사체는 어둡게 표현하는 방식으로 사진을 촬영할 수 있다.

현재 SNS의 대표주자인 카카오톡에서 제공하고 있는 '보이스치즈(voice cheez)'는, 현재 음성 인식 기술을 통해 사용자의 음성을 텍스트로 변환하여 스티커로 제작해주는 '보이스치즈(voice cheez)' 기능을 추가하였다. 하지만 소음이 있는 경우의 인식률 저하와 제한적인 활용 등의 문제점을 가지고 있는 실정이다.

또한, 현재는 얼굴 특징으로 화자를 인식하는 기술을 사용하는데, 화자 분석 기술을 이용한 개인화 음성 인식 장치(10)를 이용한 화자분석기술을 사용하여 화자의 음성만 증폭시킨다면 더 높은 정확성을 가지게 될 것이다.

상술한 바와 같은 구성을 가지는 화자 분석 기술을 이용한 개인화 음성 인식 장치(10)는, 스마트폰이 아닌 기존의 이동 통신 단말기에 음성 인식 카메라 기능을 접목시킨 것에 불과한 기존의 음성 인식을 이용한 이동통신 단말기의 카메라 제어방법과는 달리, 음성 인식을 할 때 특정 음성만을 추출한 뒤, 그 음성에 한해서만 증폭 기술을 사용해 발전된 플랫폼 환경에서의 음성 인식 카메라 기능을 구현하기 때문에 정확도 및 편리성을 높일 수 있다.

상술한 바와 같은 구성을 가지는 화자 분석 기술을 이용한 개인화 음성 인식 장치(10)는, 크게 음성 인식을 통한 카메라 작동과 음성 인식을 통한 앱의 개인화 및 보안에 특징이 있다.

먼저, 음성 인식을 통한 카메라 작동상 특징으로, 사용자의 음성을 파악하고 이를 텍스트로 변환하며, 변환된 텍스트로부터 카메라와 관련된 요구 사항을 추출해 기능을 수행하도록 한다. 이때, 기능에는 촬영, 타이머 설정, 필터 변경, 화면 밝기 조절 등이 있다.

다음으로, 음성 인식을 통한 앱의 개인화 및 보안상 특징으로, 사용자의 음성을 증폭하는 기술을 사용해 고유의 사용자로 인식 및 사용자의 목소리만을 파악해 기능을 수행하는데, 보안에도 기여하며 주위 소음 속에서 증폭을 통해 사용자의 음성을 더욱 정확하게 추출하는 역할을 할 수 있다.

도 4는 도 1에 있는 음성 인식부를 설명하는 도면이다.

도 4를 참조하면, 음성 인식부(100)는, 음성 추출부(110), 음성 증폭부(120) 및 텍스트 변환부(130)를 포함한다.

음성 추출부(110)는, 주변 소리로부터 사람의 음성만을 추출한 후 음성 증폭부(120)로 전달한다.

음성 증폭부(120)는, 음성 추출부(110)에서 추출된 음성을 전달받아 카메라 제어가 허용된 사용자 음성의 특정 주파수대역(즉, 카메라 제어가 허용된 사용자의 음성 주파수 대역)만을 증폭시킴으로서 카메라 제어가 허용된 사용자의 음성을 증폭한다.

텍스트 변환부(130)는, 음성 증폭부(120)에서 증폭된 카메라 제어가 허용된 사용자의 음성을 텍스트 형태로 변환한다.

일 실시예에서, 텍스트 변환부(130)는, 컴퓨터로 음성을 텍스트 형태로 변환 또는 번역이 가능하도록 하는 "자동 음성 인식(ASR)", "컴퓨터 음성 인식" 또는 "텍스트 음성(speech-to-text )" 등의 음성 인식 기술을 이용하여 음성을 텍스트 형태로 변환할 수 있다.

도 5는 도 1에 있는 정보 처리부를 설명하는 도면이다.

도 5를 참조하면, 정보 처리부(200)는, 제어명령 저장부(210) 및 제어명령 추출부(220)를 포함한다.

제어명령 저장부(210)는, 사용자 단말기의 카메라 기능을 제어하는 제어명령을 저장해 둔다.

이때, 제어명령 저장부(210)에서 저장해 둘 수 있는 제어명령으로는, 카메라의 촬영, 타이머 설정, 영상 필터 변경 또는 화면 밝기 등을 조절할 수 있는 제어명령 등이 될 수 있다.

제어명령 추출부(220)는, 음성 인식부(100)에서 변환한 텍스트에서 제어명령 저장부(210)에 저장해 둔 제어명령(예를 들어, 카메라의 촬영, 타이머 설정, 영상 필터 변경 또는 화면 밝기 조절 등)을 추출한 후 이에 대응하는 제어정보를 생성시켜 카메라 제어부(500)로 전달한다.

도 6은 본 발명의 다른 실시예에 따른 화자 분석 기술을 이용한 개인화 음성 인식 장치를 설명하는 도면이다.

도 6을 참조하면, 화자 분석 기술을 이용한 개인화 음성 인식 장치(20)는, 음성 인식부(100), 정보 처리부(200), 카메라 제어부(500) 및 사진메모 생성부(600)을 포함한다. 여기서, 음성 인식부(100), 정보 처리부(200) 및 카메라 제어부(500)는, 도 1의 구성요소와 동일하므로 그 설명을 생략한다.

사진메모 생성부(600)는, 촬영된 사진에 이미지 또는 텍스트 형태의 메모를 추가하여 사진 메모를 생성한다.

일 실시예에서, 사진메모 생성부(600)는, 메모에 추가되는 이미지로서 하트 모양, 눈사람 모양, 강아지 모양 등으로 구성될 수 있으며, 텍스트로서 "사랑해", "밥 먹었니?" 또는 "영화 보고 싶다." 등의 의미를 담고 있는 문장 또는 "끼약", "끼룩" 또는 "헉" 등과 같이 의미를 담고 있지 아니하는 감탄사 등의 메모를 추가하여 사진 메모를 생성할 수 있다.

도 7은 도 6에 있는 사진메모 생성부를 설명하는 도면이다.

도 7을 참조하면, 사진메모 생성부(600)는, 이미지 로딩부(610), 위치 선택부(620) 및 메모 삽입부(630)를 포함한다.

이미지 로딩부(610)는, 카메라 제어부(500)에 의해 촬영된 사진을 전달받아 로딩한다.

위치 선택부(620)는, 사용자로부터 메모 및 메모를 삽입할 위치를 선택받는다.

메모 삽입부(630)는, 사용자로부터 선택받은 위치로 사용자가 요청한 메모를 삽입한다.

도 8을 참조하면, 본 실시예에 의할 경우 사용자는, 상술한 도 3에서 예시한 사진의 중간 부분에 "구름" 형태의 이미지를 삽입하고자 할 경우, 사용자로부터 "사진의 중간 부분에 구름 이미지 넣어줘"라는 명령을 요청할 수 있다.

이에 따라, 상술한 바와 같은 구성을 가지는 사진메모 생성부(600)는, 이미지 로딩부(610)에 의해 도 3에서 예시한 사진과 같이 이미 촬영되었거나 카메라의 프레임에 나타나 있는 이미지가 로딩되며, 위치 선택부(620)에 의해 로딩된 이미지의 "중간 부분"에 "구름"이 삽입되도록 메모의 위치 및 내용이 특정된 후, 메모 삽입부(630)에 의해 특정된 내용을 삽입시켜 사진 메모를 생성시킬 수 있다.

뿐만 아니라, 도 9 및 도 10을 참조하면, 도 9에서와 같이 사용자로부터 사진의 중간 부분에 "번개" 형태의 이미지 삽입을 요청받은 경우, 사용자 단말기의 화면에 메모가 삽입된 이미지를 표시하여 사용자로 하여금 확인하도록 한 후, 메모가 삽입되는 위치의 변경을 요청받아 도 10에 도시된 바와 같이 "번개"의 위치를 변경시켜 변경된 내용으로 사진 메모를 생성할 수 있다.

도 11은 본 발명의 다른 실시예에 따른 화자 분석 기술을 이용한 개인화 음성 인식 방법을 설명하는 순서도이다.

도 11을 참조하면, 화자 분석 기술을 이용한 개인화 음성 인식 방법은, 카메라 제어가 허용된 사용자 음성의 특정 주파수대역을 증폭시켜 사용자의 음성을 인식한 후 텍스트 형태로 변환한다(S1110).

상술한 단계 S1110에서 변환된 텍스트로부터 카메라 제어에 필요로 하는 제어정보를 추출한다(S1120).

일 실시예에서, 상기 텍스트 형태로 변환하는 단계(S1110)는, 먼저, 주변 소리로부터 사람의 음성을 추출하고, 추출된 음성으로부터 카메라 제어가 허용된 사용자 음성의 특정 주파수대역만을 증폭한 후, 증폭된 음성을 텍스트 형태로 변환할 수 있다.

상술한 단계 S1120에서 추출된 제어정보에 특정 피사체에 초점을 맞춰 촬영을 요청하는 내용이 포함된 경우, 사용자 단말기 또는 SNS 상에서 피사체를 검색한다(S1130).

카메라의 프레임의 범위 내에서 상술한 단계 S1130에서 검색된 피사체를 탐색한다(S1140).

상술한 단계 S1140에서 피사체가 탐색되면, 카메라 프레임의 범위 내에서 탐색된 피사체에 초점을 맞춰 촬영을 하도록 사용자 단말기의 카메라를 제어한다(S1150).

상술한 단계 S1150에서 촬영된 사진에 이미지 또는 텍스트 형태의 메모를 추가하여 사진 메모를 생성한다(S1160).

도 12는 본 발명의 또 다른 실시예에 따른 화자 분석 기술을 이용한 개인화 음성 인식 방법을 설명하는 순서도이다.

도 12를 참조하면, 화자 분석 기술을 이용한 개인화 음성 인식 방법은, 카메라 제어가 허용된 사용자 음성의 특정 주파수대역을 증폭시켜 사용자의 음성을 인식한 후 텍스트 형태로 변환한다(S1210).

상술한 단계 S1210에서 변환된 텍스트로부터 카메라 제어에 필요로 하는 제어정보를 추출한다(S1220).

일 실시예에서, 상기 텍스트 형태로 변환하는 단계(S1210)는, 먼저, 주변 소리로부터 사람의 음성을 추출하고, 추출된 음성으로부터 카메라 제어가 허용된 사용자 음성의 특정 주파수대역만을 증폭한 후, 증폭된 음성을 텍스트 형태로 변환할 수 있다.

상술한 단계 S1220에서 추출된 제어정보에 특정 피사체에 초점을 맞춰 촬영을 요청하는 내용이 포함된 경우(S1230의 Yes의 경우), 사용자 단말기 또는 SNS 상에서 피사체를 검색한다(S1240).

카메라의 프레임의 범위 내에서 상술한 단계 S1240에서 검색된 피사체를 탐색한다(S1250).

상술한 단계 S1220에 추출된 제어정보에 특정 피사체에 초점을 맞춰 촬영을 요청하는 내용이 포함되지 않은 경우(S1230의 No의 경우) 추출된 제어정보에 따라 피사체를 특정하지 않고 촬영을 하거나, 추출된 제어정보에 특정 피사체에 초점을 맞춰 촬영을 요청하는 내용이 포함된 경우(S1230의 Yes의 경우) 카메라 프레임의 범위 내에서 탐색된 피사체에 초점을 맞춰 촬영을 하도록 사용자 단말기의 카메라를 제어한다(S1260).

상술한 단계 S1260에서 촬영된 사진에 이미지 또는 텍스트 형태의 메모를 추가하여 사진 메모를 생성한다(S1270).

상술한 바와 같은 화자 분석 기술을 이용한 개인화 음성 인식 방법은, 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.

상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CDROM, DVD 와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.

프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

가상 비서(假想??書, Virtual assistant) 기능이 본격적으로 도입되면서 음성 인식에 관한 관심도 높아지고 있다. 국내의 대표 포털사이트인 네이버나 다음 등의 국내시장 업체들은 다양한 음성 인식 관련 서비스들을 출시하고 있다. 대표적으로, 국내 기업 네이버는 미국 실리콘 밸리의 음성 인식 기술 기업인 '사운드 하운드'에 투자를 확대했다.

글로벌 시장조사업체인 트렌드 포스에 따르면 전세계 음성 인식 솔루션 시장은 2021년까지 159억 8000만 달러로 급성장할 것으로 전망됐다. 2016년 26억 1000만 달러 규모와 비교하면 불과 5년 새 6배가량 폭풍 성장하는 셈이다.

2016년 CES에서 가장 인기를 끌었던 제품은 아마존의 음성 인식 인공지능인 '알렉사'다. 이처럼 음성 인식은 현재 가장 주목받고 있는 기술 중 하나로, 관련 시장이 급속도로 성장하고 있다. 때문에 현재 음성 인식이 가진 문제점을 보완할 수 있는 이 기술의 가능성은 매우 크다고 보이며, 향후 Naver나 Kakao 등 다양한 기업에서 관심을 가질 것으로 보인다.

100: 음성 인식부
110: 음성 추출부
120: 음성 증폭부
130: 텍스트 변환부
200: 정보 처리부
210: 제어명령 저장부
220: 제어명령 추출부
300: 피사체 검색부
400: 피사체 탐색부
500: 카메라 제어부
600: 사진메모 생성부
610: 이미지 로딩부
620: 위치 선택부
630: 메모 삽입부

Claims

카메라 제어가 허용된 사용자 음성의 특정 주파수대역을 증폭시켜 사용자의 음성을 인식한 후 텍스트 형태로 변환하는 음성 인식부;
상기 음성 인식부에서 변환된 텍스트로부터 카메라 제어에 필요로 하는 제어정보를 추출하는 정보 처리부;
추출된 제어정보에 특정 피사체에 초점을 맞춰 촬영을 요청하는 내용이 포함된 경우, 사용자 단말기 또는 SNS 상에서 피사체를 검색하는 피사체 검색부;
카메라의 프레임의 범위 내에서 상기 피사체 검색부에서 검색된 피사체를 탐색하는 피사체 탐색부; 및
상기 피사체 탐색부에 의해 탐색된 피사체에 초점을 맞춰 촬영을 하도록 사용자 단말기의 카메라를 제어하는 카메라 제어부를 포함하고,
상기 피사체 검색부는,
SNS와 연동되며, SNS 상의 문장을 분석하여 검색된 사진을 특정된 피사체와의 유사도 판단을 통해 매칭률이 높은 사진 순서로 순위를 매겨 데이터베이스화시켜 저장해 두고,
상기 피사체 탐색부는,
카메라의 프레임의 범위 내에서 상기 피사체 검색부에 저장해 둔 매칭률이 가장 높은 사진과의 유사도가 가장 높은 피사체를 제1순위 피사체로 설정하고, 다음으로 유사도가 높은 피사체를 제2순위 피사체로 설정하고,
상기 카메라 제어부는,
상기 피사체 탐색부에 의해 설정된 제1순위 피사체에 제1초점을 맞추고, 제2순위 피사체에 제1초점보다 뚜렷함의 정도가 낮은 제2초점을 맞춰 촬영을 하도록 사용자 단말기의 카메라를 제어하는 것을 특징으로 하는 화자 분석 기술을 이용한 개인화 음성 인식 장치.
제1항에 있어서, 상기 음성 인식부는,
주변 소리로부터 사람의 음성을 추출하는 음성 추출부;
추출된 음성으로부터 카메라 제어가 허용된 사용자 음성의 특정 주파수대역만을 증폭하는 음성 증폭부; 및
증폭된 음성을 텍스트 형태로 변환하는 텍스트 변환부를 포함하는 것을 특징으로 하는 화자 분석 기술을 이용한 개인화 음성 인식 장치.
제1항에 있어서, 상기 정보 처리부는,
사용자 단말기의 카메라 기능을 제어하는 제어명령을 저장해 두는 제어명령 저장부; 및
상기 음성 인식부에서 변환한 텍스트에서 상기 제어명령 저장부에 저장해 둔 제어명령을 추출한 후 이에 대응하는 제어정보를 생성하는 제어명령 추출부를 포함하는 것을 특징으로 하는 화자 분석 기술을 이용한 개인화 음성 인식 장치.
제1항에 있어서, 상기 카메라 제어부는,
제어정보에 따라 사용자 단말기의 카메라의 촬영, 타이머 설정, 영상 필터 변경 및 화면 밝기 중 적어도 하나의 기능을 제어하는 것을 특징으로 하는 화자 분석 기술을 이용한 개인화 음성 인식 장치.
제1항에 있어서,
촬영된 사진에 이미지 또는 텍스트 형태의 메모를 추가하여 사진 메모를 생성하는 사진메모 생성부를 더 포함하는 것을 특징으로 하는 화자 분석 기술을 이용한 개인화 음성 인식 장치.
제5항에 있어서, 상기 사진메모 생성부는,
상기 카메라 제어부에 의해 촬영된 사진을 전달받아 로딩하는 이미지 로딩부;
사용자로부터 메모 및 메모를 삽입할 위치를 선택받는 위치 선택부; 및
사용자로부터 선택받은 위치로 사용자가 요청한 메모를 삽입하는 메모 삽입부를 포함하는 것을 특징으로 하는 화자 분석 기술을 이용한 개인화 음성 인식 장치.
제1항에 있어서, 상기 정보 처리부는,
특정 피사체에 초점(focal point)을 맞춰 촬영을 요청하는 제어정보를 추출하는 것을 특징으로 하는 화자 분석 기술을 이용한 개인화 음성 인식 장치.
삭제
삭제
삭제
카메라 제어가 허용된 사용자 음성의 특정 주파수대역을 증폭시켜 사용자의 음성을 인식한 후 텍스트 형태로 변환하는 단계;
변환된 텍스트로부터 카메라 제어에 필요로 하는 제어정보를 추출하는 단계;
추출된 제어정보에 특정 피사체에 초점을 맞춰 촬영을 요청하는 내용이 포함된 경우, 사용자 단말기 또는 SNS 상에서 피사체를 검색하는 단계;
카메라의 프레임의 범위 내에서 검색된 피사체를 탐색하는 단계;
카메라 프레임의 범위 내에서 탐색된 피사체에 초점을 맞춰 촬영을 하도록 사용자 단말기의 카메라를 제어하는 단계; 및
촬영된 사진에 이미지 또는 텍스트 형태의 메모를 추가하여 사진 메모를 생성하는 단계를 포함하고,
상기 피사체를 검색하는 단계는,
SNS와 연동되며, SNS 상의 문장을 분석하여 검색된 사진을 특정된 피사체와의 유사도 판단을 통해 매칭률이 높은 사진 순서로 순위를 매겨 데이터베이스화시켜 저장하는 단계를 포함하고,
상기 피사체를 탐색하는 단계는,
카메라의 프레임의 범위 내에서 상기 매칭률이 가장 높은 사진과의 유사도가 가장 높은 피사체를 제1순위 피사체로 설정하고, 다음으로 유사도가 높은 피사체를 제2순위 피사체로 설정하는 단계를 포함하고,
상기 사용자 단말기의 카메라를 제어하는 단계는,
상기 설정된 제1순위 피사체에 제1초점을 맞추고, 제2순위 피사체에 제1초점보다 뚜렷함의 정도가 낮은 제2초점을 맞춰 촬영을 하도록 사용자 단말기의 카메라를 제어하는 단계를 포함하는 화자 분석 기술을 이용한 개인화 음성 인식 방법.
제11항에 따른 화자 분석 기술을 이용한 개인화 음성 인식 방법을 수행하기 위한, 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 기록매체.