KR102260466B1

KR102260466B1 - 오디오 인식을 활용한 라이프로그 장치 및 그 방법

Info

Publication number: KR102260466B1
Application number: KR1020200075196A
Authority: KR
Inventors: 한윤창; 이수빈; 박정수; 정일영; 이돈문; 임현기
Original assignee: 주식회사 코클리어닷에이아이
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2021-06-03
Also published as: JP2023531417A; EP4170522A1; WO2021256889A1; CN115885277A; EP4170522A4; US20230222158A1

Abstract

본 발명은 오디오 인식을 활용한 라이프로그 장치 및 그 방법에 관한 것으로, 인공지능 알고리즘에 의한 오디오 라이프로그를 기록 및 분류할 수 있는 장치에 관한 것이다. 이를 위해, 본 발명의 라이프로그 장치는 오디오 신호를 포함하는 라이프로그 데이터를 입력받는 입력부; 입력된 상기 데이터를 분석하는 분석부; 분석된 분석값을 기초로, 상기 데이터의 클래스를 분류하는 판단부; 및 입력된 상기 데이터와 상기 데이터의 분류된 클래스를 기록하는 기록부;를 포함한다.

Description

오디오 인식을 활용한 라이프로그 장치 및 그 방법{LIFELOG DEVICE AND METHOD USING AUDIO RECOGNITION}

본 발명은 오디오 인식을 활용한 라이프로그 장치 및 그 방법에 관한 것으로, 인공지능 알고리즘에 의한 오디오 라이프로그를 기록 및 분류할 수 있는 장치에 관한 것이다.

시대의 변화에 따라 일상 생활 속에서 사용자들의 획득 가능한 정보를 기록하여 필요에 따라 검색할 수 있는 라이프로그(Life Log) 서비스가 제공되고 있다. 종래의 라이프로그 서비스는 카메라, GPS, 맥박측정, 거리측정 등을 이용해 사용자의 일상 생활 속에서 정보를 획득하여 기록한 후, 기록된 정보를 이후에 이용할 수 있도록 한다. 종래에는 주로, 밴드형 웨어러블 기기를 통해 사용자의 이동거리 및 고도, 맥박수 등을 측정하여 생체신호를 이용한 건강 관련 라이프로그가 많이 사용되고 있다. 이와 같이, 종래의 라이프로그 서비스는 사용자의 다양한 정보를 얻기 위해 각각 별도의 센서를 이용하여 사용자의 몸에 장착해야 한다. 그러나, 이와 같이 사용자의 몸에 많은 수의 센서들을 장착하는 것은 사용자의 일상생활에 불편함을 유발하는 것은 물론, 사용자가 거부감을 일으킬 수 있기 때문에 상업적으로 실용화되기 어려운 문제점이 있다. 또한, 종래의 라이프로그 서비스에 의하면, 수집된 각각의 정보의 데이터양이 많아 메모리의 용량을 많이 차지하며, 사용자의 장소 및 상황 등의 종합적인 생활패턴을 인식할 수 없는 문제점이 있다.

이러한 종래 기술의 문제점을 해결하기 위하여, 본 발명은 사용자가 종래에 이용하는 이어폰에 적용될 수 있는 오디오 인식을 활용한 라이프로그 장치 및 방법을 제안하고자 한다.

대한민국 등록특허 10-1777609호 (2017.09.06)

본 발명은 오디오 인식만을 활용한 라이프로그 장치를 제공하고자 한다.

또한, 오디오 인식 이외의 정보를 함께 수집하되 사용자가 착용하는 이어기기만을 통해 라이프로그를 기록할 수 있는 장치를 제공하고자 한다.

또한, 기록된 라이프로그를 태그별로 검색하여 수집할 수 있도록 하는 것을 목적으로 한다.

상기 과제를 달성하기 위해, 본 발명은 오디오 신호를 포함하는 라이프로그 데이터를 입력받는 입력부; 입력된 상기 데이터의 분석값을 추출하는 분석부; 추출된 분석값을 기초로, 상기 데이터의 클래스를 분류하는 판단부; 및 입력된 상기 데이터와 상기 데이터의 분류된 클래스를 기록하는 기록부;를 포함하는 것을 특징으로 하는 라이프로그 장치를 제공한다.

본 발명에 따르면, 사용자의 이어기기 하나로 오디오 신호를 이용한 라이프로그가 가능한 효과가 있다.

또한, 오디오 신호를 통해 사용자의 방문 장소, 상황 및 대화, 각종 오디오 정보 등을 수집 및 기록할 수 있는 효과가 있다.

또한, 기록된 정보가 인공지능 알고리즘에 의해 자동 분류되어 검색을 통해 원하는 정보를 추출할 수 있는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 라이프로그 장치의 전반적인 시스템을 나타낸 개략도이다.
도 2는 본 발명의 일 실시예에 따른 라이프로그 장치를 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따른 라이프로그 장치의 구성을 나타낸 블록도이다.
도 4 내지 7은 본 발명의 제1 실시예에 따른 라이프로그 장치의 검색부 화면을 나타낸 도면이다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 이하에서 개시되는 도면 및 실시예에 한정되는 것은 아니다. 또한, 도면에서 본 발명을 명확하게 설명하기 위하여 본 발명과 관계없는 부분은 생략하였으며, 도면에서 동일하거나 유사한 부호들은 동일하거나 유사한 구성요소들을 나타낸다.

본 발명의 목적 및 효과는 하기의 설명에 의해서 자연스럽게 이해되거나 보다 분명해질 수 있으며, 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하므로, 하기의 기재만으로 본 발명의 목적 및 효과가 제한되는 것은 아니다.

이하, 도면을 참조하여 본 발명을 보다 상세히 설명하도록 한다.

도 1은 본 발명의 일 실시예에 따른 라이프로그 장치의 전반적인 시스템을 나타낸 개략도이다.

도 1을 참조하여, 본 발명의 일 실시예를 간략히 설명하면, 본 발명은 사용자의 일상 속 라이프로그 데이터를 입력받아 기록 및 저장하는 라이프로그 장치에 관한 것으로, 상세하게는 오디오 신호를 기반으로 분석하여 각종 정보를 판단하여 기록할 수 있다. 보다 상세하게, 도 1과 같이 하나 이상의 오디오 신호(Audio Data)가 본 발명의 일 실시예에 따른 라이프로그 장치로 입력될 수 있으며, 입력된 하나 이상의 오디오 신호는 인공지능 알고리즘에 의해 각 데이터가 분석된 분석값을 기초로 클래스가 분류될 수 있다. 이때, 클래스는 사용자에 의해 미리 분류된 설정에 따라 분류될 수 있으며, 인공지능 알고리즘의 학습에 의해 업그레이드될 수 있다. 클래스별로 분류된 오디오 신호는 추후, 사용자의 검색 및 요청에 의해 추출되어 사용자가 원하는 데이터를 용이하게 제공할 수 있다.

이하, 도 2 및 도 3을 참조하여 각 구성에 따른 본 발명의 라이프로그 장치를 보다 구체적으로 설명하도록 한다. 도 2는 본 발명의 일 실시예에 따른 라이프로그 장치를 나타낸 도면이고, 도 3은 본 발명의 일 실시예에 따른 라이프로그 장치의 구성을 나타낸 블록도이다.

도 2 및 도 3을 참조하여 일 실시예에 따르면, 본 발명의 라이프로그 장치는 입력부(110), 분석부(120), 판단부(130), 기록부(140), 시간설정부(150) 및 검색부(210)를 포함하여 구성될 수 있다. 이하, 각 구성을 상세히 설명하기에 앞서, 라이프로그 장치는 종래의 이어폰, 헤드셋, 각종 웨어러블 기기 및 무선 단말기 등을 이용하여 구비될 수 있으며, 설명의 편의상 본 발명의 일 실시예에서는 가장 바람직한 실시예인 무선 이어폰을 통해 설명하도록 한다.

입력부(110)는 오디오 신호를 포함하는 라이프로그 데이터를 입력받는 구성이다. 상세하게, 마이크 등의 센서를 통해 외부에서 발생되는 오디오 신호를 입력받을 수 있으며, 오디오 신호 이외에도 각종 센서 등을 통해 데이터가 입력되는 당시의 시간, 사용자의 위치, 사용자의 맥박수 및 체온 중 어느 하나 이상을 더 포함하여 입력받을 수도 있다. 그러나, 가장 필수적으로 본 발명의 라이프로그 장치의 입력부(110)는 오디오 신호를 입력받는 것을 특징으로 한다. 상세하게, 이때 입력되는 오디오 신호는 외부 소음, 주변 사람들의 대화소리, 각종 환경음 등이 모두 포함될 수 있다.

입력부(110)에 의해 입력받은 데이터는 분석부(120)에서 분석값이 추출될 수 있다. 분석부(120)는 입력된 데이터를 분석하는 구성으로, 입력받은 데이터에 포함된 오디오 신로호부터 추출한 분석값을 판단부(130)에 전송할 수 있다. 상세하게, 분석값은 오디오 신호의 진동수, 진폭 중 적어도 하나 이상을 추출한 값일 수 있으나, 보다 바람직하게는 인공지능 알고리즘에 의해 판단될 수 있는 추상적이고 직관적이지 않은 특정값으로 제공할 수 있다. 구체적으로, 어느 정확한 수치의 값이 전달될 수도 있으나, 오디오 신호 자체의 값이 전달되어 인공지능 알고리즘이 학습한 결과를 바탕으로 클래스 분류 및 판단값을 추출할 수 있다. 보다 상세하게, 복수의 오디오 신호가 입력된 경우, 각각의 오디오 신호를 별개로 분석하여, 각 오디오 신호별로 분석값을 추출하여 판단부(130)로 전송할 수 있다. 이때, 분석값은 오디오 신호의 분석 정보를 포함함과 동시에, 측정된 데이터의 다른 정보도 함께 포함할 수 있다. 구체적으로, 입력부(110)에서 오디오 신호와 함께 사용자의 생체 정보를 입력받은 경우, 사용자의 맥박, 체온 등의 생체 정보의 분석값도 포함하여 판단부(130)로 전송할 수 있다.

판단부(130)는 분석부(120)에서 추출된 각 데이터의 분석값을 기초로, 데이터의 클래스를 분류하는 구성이다. 상세하게, 판단부(130)에서 분류되는 데이터의 클래스는 사용자의 설정에 따라 사람 목소리, 음악소리, 생활음, 기타 환경음, 소음 등 중 어느 하나 이상을 포함하도록 사용자의 편의에 의해 분류될 수 있다. 보다 상세하게, 판단부(130)는 미리 탑재된 인공지능 알고리즘에 의해 분석값에 따른 데이터의 클래스를 분류할 수 있으며, 인공지능 알고리즘은 클래스를 분류한 최종 판단값에 대해 사용자의 피드백을 통해 학습할 수 있다. 구체적으로, 판단부(130)에서 판단값이 사용자의 설정에 따른 분류가 아닌 경우, 사용자는 해당 데이터의 클래스를 임의로 수정할 수 있으며, 수정 결과를 인공지능 알고리즘이 학습함으로써 사용자 맞춤형 판단값을 제공할 수 있도록 업그레이드될 수 있다. 판단부(130)에서는 분석값을 기초로 데이터의 클래스를 분류할 수도 있지만, 이와 동시에 해당 데이터가 입력된 장소와 관련된 정보도 판단할 수 있다. 상세하게, 오디오 신호의 분석값을 기초로, 판단부(130)에서 해당 오디오 신호가 지하철 안내방송으로 인식하여 클래스를 분류하는 경우, 판단값은 해당 데이터를 지하철 안내방송으로 분류함과 동시에, 대중교통 또는 지하철이라는 장소 정보도 함께 포함할 수 있다. 이와 같이, 판단부(130)는 데이터의 판단값을 데이터가 입력된 장소와 관련된 정보를 매칭시켜 기록부(140)로 전송할 수 있다.

기록부(140)는 판단부(130)에서 판단된 데이터의 판단값을 기록하는 구성으로, 상기 판단부(130)에서 판단된 판단값이 포함하는 데이터의 클래스 및 장소 정보 등을 함께 매칭시켜 기록할 수 있다. 또한, 해당 데이터의 입력 시간 및 당시 사용자의 신체 정보 등도 함께 매칭시켜 기록할 수 있다. 구체적으로, 기록부(140)는 입력부(110)에서 입력되어 분석 및 판단된 데이터의 판단값과 각종 정보를 매칭시켜 기록하되, 메모리의 효율을 위해 소음 클래스로 판단된 데이터는 기록 없이 제거할 수 있다. 보다 구체적으로, 소음 클래스로 판단된 오디오 신호를 포함하는 데이터와 해당 데이터에 매칭된 정보는 모두 제거하고, 유의미한 데이터 및 정보만 기록부(140)에 저장할 수 있다.

시간설정부(150)는 입력부(110)의 데이터를 입력받는 시간을 설정하는 구성으로, 사용자의 조작에 의해 본 발명의 라이프로그 장치는 시간설정부(150)를 통해 미리 설정된 소정의 시간 동안만 데이터가 입력될 수 있다. 상세하게, 시간설정부(150)에 의해 본 발명의 일 실시예에 따른 라이프로그 장치의 배터리를 절약할 수 있으며, 무의미한 상황에서의 데이터 입력을 최소화할 수 있다. 시간설정부(150)에 의해 라이프로그 장치의 입력부(110) 온 오프를 제어할 수도 있으나, 특정 단어 또는 상황을 인지하는 인공지능 알고리즘에 의해 온 오프가 제어될 수도 있다. 상세하게, 입력부(110)의 작동시 보다 대기 모드일 때 배터리의 소모가 적기 때문에, 대기 모드를 유지하되, 특정 단어가 입력되거나 특정 위치나 상황으로 인식되면 대기 모드를 중단하고 입력부(110)의 작동을 온 할 수 있다. 구체적으로, 특정 주파수의 음역대가 인지되거나, "온""웨이크업"등의 단어가 인지되면 대기 모드를 중단하고 라이프로그를 시작할 수 있다.

검색부(210)는 기록부(140)에 기록된 데이터 정보를 검색하는 구성으로, 기록부(140)는 검색부(210)에 의해 입력된 키워드 정보와 매칭되는 기록 데이터를 추출하여 제공할 수 있다. 상세하게, 검색부(210)는 외부의 사용자 단말기에 구비될 수도 있으며, 본 발명의 라이프로그 장치 자체에 구비될 수도 있다. 보다 상세하게, 외부 사용자 단말기를 통해 키워드를 직접 입력함으로써 검색할 수도 있으며, 사용자 단말기 또는 라이프로그 장치의 마이크를 통해 사용자가 목소리로 키워드를 입력하여 검색할 수도 있다. 기록부(140)에 저장된 데이터는 각각 클래스 및 키워드 등의 정보가 매칭되어 저장될 수 있으며, 검색부(210)에서 입력된 키워드 정보를 기반으로 매칭되는 데이터가 추출되어 사용자에게 제공될 수 있다.

이하, 도 4 내지 도 7을 참조하여, 기록된 라이프로그 데이터를 추출하는 보다 상세한 제1 실시예를 설명하도록 한다. 도 4 내지 7은 본 발명의 제1 실시예에 따른 라이프로그 장치의 검색부 화면을 나타낸 도면이다.

먼저, 상술한 바와 같이 입력부(110)를 통해 입력된 라이프로그 데이터는 인공지능 알고리즘을 거쳐 각 데이터별 클래스가 분류되고, 기록부(140)에 상기 데이터와 데이터의 분류된 클래스가 매칭되어 기록될 수 있다. 추후, 사용자는 검색부(210)를 통해 클래스 또는 키워드 정보를 기반으로 원하는 정보의 데이터를 추출할 수 있다. 제1 실시예에 따르면, 검색부(210)는 별도의 사용자 단말기를 통해 구비될 수 있으며, 보다 상세하게 사용자 단말기의 화면을 통해 사용자에게 제공될 수 있다. 도 4와 같이 사용자에게 제공된 화면은 입력된 데이터가 분류된 클래스를 기준으로 제공될 수 있으며, 여기서 사용자는 검색을 희망하는 클래스를 선택할 수 있다. 따라서, 도 4와 같이 사용자가 CLASS 1로 분류된 데이터를 찾기 위해, CLASS 1을 클릭하거나 음성을 통해 검색 요청을 하면, 도 5와 같이 CLASS 1로 분류된 데이터의 리스트가 추출될 수 있다. 이후, 사용자가 추출된 데이터 리스트 중 어느 하나를 선택하면, 선택한 데이터의 오디오 신호를 재생하여 들을 수 있다. 상세하게, 도 5에서와 같이, 사용자가 CLASS 1로 분류된 데이터 리스트 중 Audio Data 1의 데이터를 선택하면, 도 6에서와 같이 선택한 Audio Data 1을 재생할 수 있다. 또한, 다른 실시예에 따르면 해당 Audio Data 1과 매칭된 기타 정보도 함께 출력될 수 있다. 상세하게, Audio Data 1이 입력된 시간, 장소 및 상황 당시 사용자의 생체리듬 등 함께 매칭되어 기록된 정보가 추출될 수 있다. 이후, 제1 실시예에 따르면, 도 6의 하단과 같이 사용자가 Audio Data 1에 태그 정보를 추가하고 싶은 경우, 태그(Tag) 추가 버튼을 선택하면, 도 7과 같이 태그 정보 입력창이 나타나며, 사용자는 입력창에 태그 정보를 직접 입력함으로써 태그 정보를 추가할 수 있다. 이와 같이 태그 정보를 추가하면, 입력된 태그 정보와 해당 데이터가 매칭되어 추후 태그 정보의 검색만으로 해당 데이터를 찾아낼 수 있다.

이하, 또 다른 실시예인 제2 실시예를 상세히 설명하도록 한다.

제2 실시예에 따르면, 입력부(110)를 통해 입력된 라이프로그 데이터는 인공지능 알고리즘을 거쳐 각 데이터별 클래스가 분류되고, 기록부(140)에 상기 데이터와 데이터의 분류된 클래스가 매칭되어 기록될 수 있다. 이때, 클래스는 인공지능 알고리즘의 학습에 의해 자동 분류될 수 있으며, 사용자의 요청에 따라 분류가 조정될 수 있다. 보다 구체적으로 분류 클래스는 1단계에 의해 분류될 수도 있으나, 상위 카테고리의 하위 카테고리까지 세부 클래스로 분류될 수도 있다. 예를 들면, 사람의 대화 소리라는 클래스가 상위 카테고리라면, 어떤 상황인지, 대화 대상이 몇 명인지, 보다 구체적이게는 대화 대상이 누구인지까지 세부적으로 목소리를 분석하여 하위 카테고리가 분류될 수 있다. 이후 검색부(210)는 사용자의 검색에 의해 분류된 클래스 별 데이터의 횟수 및 시간 중 어느 하나 이상을 제공할 수 있다. 보다 상세하게, CLASS 1로 분류된 정보를 사용자가 요청하는 경우, CLASS 1로 분류된 데이터가 몇 번 이루어 졌는지, 총 시간은 얼마나 되는지 등의 정보를 확인할 수 있다. 구체적인 실시예에 따르면, 물소리로 분류된 클래스의 횟수를 제공하여, 사용자가 하루에 손을 몇 번을 씻었는지, 양치 소리로 분류된 클래스의 횟수를 제공하여, 사용자가 하루에 양치를 몇 번을 했는지, 양치를 유지한 시간은 얼마나 되는지 등의 정보를 제공함으로써 사용자의 올바른 생활 습관 및 패턴을 관리하는데 도움을 줄 수 있다. 또한, 키보드 타이핑 소리를 트래킹하여, 타이핑 소리로 분류된 클래스를 분석함으로써, 타이핑 시간 및 타이핑 횟수 등을 요약하여 제공함으로써 업무의 집중도 및 실제 업무 시간, 업무량 등을 개략적으로 확인할 수도 있다. 더불어, 타인과의 대화 소리로 분류된 경우, 인공지능 알고리즘은 자주 대화하는 화자를 학습함으로써, 어떤 화자와 어떤 대화를 나누었는지 등을 제공해주고, 화자 간의 대화 중 악센트 및 높낮이 등을 파악함으로써 대화 내용의 중요한 부분을 요약하여 제공할 수도 있다.

이처럼, 본 발명의 오디오 인식을 활용한 라이프로그 장치를 이용하면, 사용자의 일상 속 오디오 신호를 클래스 별로 분류하여 저장하고, 키워드 검색을 통해 원하는 오디오 신호를 추출할 수 있는 효과가 있다. 또한, 오디오 신호를 바탕으로 분류된 클래스의 횟수 및 시간 등의 정보를 제공할 수 있는 효과가 있다.

상기한 본 발명은 일 실시예에 관한 것으로, 이는 실시예에 불과하며, 본 기술분야에서 통상의 지식을 가진 자는 이로부터 다양한 변형 및 균등한 다른 실시예도 가능할 수 있다. 따라서, 본 발명의 권리범위는 상기한 실시예 및 첨부된 도면에 의해 한정되는 것은 아니다.

Claims

오디오 신호를 포함하는 라이프로그 데이터를 입력받는 입력부(110);
입력된 상기 데이터의 분석값을 추출하는 분석부(120);
추출된 상기 분석값을 기초로, 상기 데이터의 클래스를 분류하는 판단부(130); 및
입력된 상기 데이터와 상기 데이터의 분류된 클래스를 기록하는 기록부(140);를 포함하고,
기록된 데이터 정보를 검색하는 검색부(210);를 더 포함하고,
상기 기록부(140)는,
상기 검색부(210)에 의해 입력된 키워드 정보와 매칭되는 기록 데이터를 추출하며,
상기 검색부(210)는,
상기 분류된 클래스 별 데이터의 횟수 및 시간 중 어느 하나 이상을 제공하는 것을 특징으로 하는 라이프로그 장치.
제1항에 있어서,
상기 분석부(120)는,
입력받은 상기 데이터에 포함된 상기 오디오 신호로부터 추출한 분석값을 상기 판단부(130)로 전송하고,
상기 판단부(130)는,
입력받은 상기 분석값을 기초로, 미리 탑재된 인공지능 알고리즘에 의해 상기 데이터의 클래스를 분류하는 것을 특징으로 하는 라이프로그 장치.
제2항에 있어서,
상기 인공지능 알고리즘은,
상기 판단부(130)에서 판단된 판단값에 대한 사용자의 피드백에 의해 학습하는 것을 특징으로 하는 라이프로그 장치.
제3항에 있어서,
상기 판단부(130)는,
상기 데이터의 판단값을 상기 데이터가 입력된 장소와 관련된 정보를 매칭시켜 상기 기록부(140)로 전송하는 것을 특징으로 하는 라이프로그 장치.
제4항에 있어서,
상기 기록부(140)는,
상기 판단부(130)에서 판단된 상기 데이터의 판단값을 기록하되,
소음 클래스로 판단된 데이터는 제거하는 것을 특징으로 하는 라이프로그 장치.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 입력부(110)의 상기 데이터를 입력받는 시간을 설정하는 시간설정부(150);를 더 포함하고,
상기 데이터는 상기 시간설정부(150)를 통해 미리 설정된 소정의 시간동안 입력되는 것을 특징으로 하는 라이프로그 장치.
제6항에 있어서,
상기 입력부(110)에서 입력받는 라이프로그 데이터는,
상기 데이터가 입력되는 당시의 시간, 사용자의 위치, 사용자의 맥박수 및 체온 중 어느 하나 이상을 포함하는 것을 특징으로 하는 라이프로그 장치.
삭제
제1항에 있어서,
상기 검색부(210)는,
사용자 단말기의 화면을 통해 제공되고,
사용자가 상기 데이터의 분류된 클래스를 선택하면,
해당 클래스로 분류된 데이터 리스트가 추출되고,
상기 추출된 데이터 리스트 중 어느 하나를 선택하면,
선택한 데이터의 오디오 신호가 재생되는 것을 특징으로 하는 라이프로그 장치.
제9항에 있어서,
상기 선택한 데이터 오디오 신호에 사용자가 임의의 태그 정보를 추가 입력함으로써 입력된 태그 정보와 해당 데이터가 매칭되는 것을 특징으로 하는 라이프로그 장치.
삭제