KR102036721B1

KR102036721B1 - 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치 및 그 동작 방법

Info

Publication number: KR102036721B1
Application number: KR1020180055973A
Authority: KR
Inventors: 김미숙
Original assignee: 주식회사 한글과컴퓨터
Priority date: 2018-05-16
Filing date: 2018-05-16
Publication date: 2019-10-25

Abstract

녹음 음성에 대한 빠른 검색을 지원하는 단말 장치 및 그 동작 방법이 개시된다. 본 발명은 음성 데이터의 재생을 지원하는 단말 장치에서, 사용자가 특정 단어를 검색어로 입력하면서, 해당 단어가 음성으로 포함된 부분의 검색을 요청할 때, 사용자에게 전체 음성 데이터로부터 상기 단어가 음성으로 포함된 부분을 검색 결과로 신속하게 찾아서 제공할 수 있다.

Description

녹음 음성에 대한 빠른 검색을 지원하는 단말 장치 및 그 동작 방법{TERMINAL DEVICE FOR SUPPORTING QUICK SEARCH FOR RECORDED VOICE AND OPERATING METHOD THEREOF}

본 발명은 녹음된 음성 데이터로부터 사용자가 입력한 소정의 검색어에 매칭되는 부분을 빠르게 검색할 수 있도록 지원하는 단말 장치 및 그 동작 방법에 대한 것이다.

최근, 마이크로폰이 탑재된 스마트폰이나 태블릿 PC 등과 같은 다양한 휴대 기기가 등장하면서, 다양한 상황에서 화자의 음성을 녹음하는 경우가 증가하고 있다.

이렇게, 화자의 음성을 녹음해 두면, 언제든지 사용자가 원할 때 음성을 재생할 수 있어서, 회의나 세미나 등에서 놓쳤던 부분을 다시 들을 수 있는 장점이 있다.

기존의 음성 데이터의 재생을 지원하는 단말 장치에서는 사용자가 자신이 듣고 싶은 부분을 듣고자 하는 경우, 듣고자 하는 부분의 녹음 시점을 하나씩 찾아서 들어야 했기 때문에 많은 시간과 노력이 소요되는 문제가 있었다.

특히, 기존의 음성 데이터의 재생을 지원하는 단말 장치에서는 사용자가 특정 검색어를 기반으로 자신이 듣기를 원하는 부분의 음성을 찾아서 재생할 수 있도록 지원하는 기능을 제공하고 있지 않았기 때문에, 사용자가 특정 단어가 포함된 부분의 음성만을 찾아서 듣기가 어려운 점이 존재하였다.

따라서, 음성 데이터의 재생을 지원하는 단말 장치에서, 사용자가 특정 단어를 검색어로 입력하면서, 해당 단어가 음성으로 포함된 부분의 검색을 요청할 때, 사용자에게 전체 음성 데이터로부터 상기 단어가 음성으로 포함된 부분을 검색 결과로 신속하게 찾아서 제공할 수 있는 기술에 대한 연구가 필요하다.

본 발명은 음성 데이터의 재생을 지원하는 단말 장치에서, 사용자가 특정 단어를 검색어로 입력하면서, 해당 단어가 음성으로 포함된 부분의 검색을 요청할 때, 사용자에게 전체 음성 데이터로부터 상기 단어가 음성으로 포함된 부분을 검색 결과로 신속하게 찾아서 제공할 수 있는 기법을 제시하고자 한다.

본 발명의 일실시예에 따른 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치는 녹음되어 있는 화자의 음성에 대한 음성 데이터를 선정된(predetermined) 시간 단위로 분할하여 복수의 음성 데이터 조각들을 생성하고, 상기 복수의 음성 데이터 조각들 각각의 분할 지점에 대한 시간 정보를 생성하는 음성 데이터 조각 생성부, 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분에 대한 음성 분석을 수행하여 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분의 화자의 음성을 텍스트로 변환함으로써, 상기 복수의 음성 데이터 조각들 각각에 대응하는 복수의 텍스트 그룹들 - 상기 복수의 텍스트 그룹들은 상기 복수의 음성 데이터 조각들 각각에 대해서 변환된 텍스트들로 구성된 그룹임 - 을 생성하는 텍스트 변환부, 데이터 저장소 상에 상기 복수의 텍스트 그룹들과 상기 복수의 텍스트 그룹들 각각에 대응하는 음성 데이터 조각의 분할 지점에 대한 시간 정보를 서로 대응시켜 저장하는 데이터 저장부, 사용자에 의해 제1 단어가 검색어로 입력되면서, 상기 제1 단어에 기초한 음성 검색 요청이 수신되면, 상기 데이터 저장소 상에 저장되어 있는 상기 복수의 텍스트 그룹들 중 상기 제1 단어가 그룹 내에 포함되어 있는 적어도 하나의 제1 텍스트 그룹을 선택한 후 상기 데이터 저장소로부터 상기 적어도 하나의 제1 텍스트 그룹에 대응되어 저장되어 있는 적어도 하나의 제1 시간 정보를 추출하는 정보 추출부 및 상기 적어도 하나의 제1 시간 정보를 상기 음성 데이터에서 상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 화면 상에 표시하는 검색 결과 표시부를 포함한다.

또한, 본 발명의 일실시예에 따른 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치의 동작 방법은 녹음되어 있는 화자의 음성에 대한 음성 데이터를 선정된 시간 단위로 분할하여 복수의 음성 데이터 조각들을 생성하고, 상기 복수의 음성 데이터 조각들 각각의 분할 지점에 대한 시간 정보를 생성하는 단계, 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분에 대한 음성 분석을 수행하여 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분의 화자의 음성을 텍스트로 변환함으로써, 상기 복수의 음성 데이터 조각들 각각에 대응하는 복수의 텍스트 그룹들 - 상기 복수의 텍스트 그룹들은 상기 복수의 음성 데이터 조각들 각각에 대해서 변환된 텍스트들로 구성된 그룹임 - 을 생성하는 단계, 데이터 저장소 상에 상기 복수의 텍스트 그룹들과 상기 복수의 텍스트 그룹들 각각에 대응하는 음성 데이터 조각의 분할 지점에 대한 시간 정보를 서로 대응시켜 저장하는 단계, 사용자에 의해 제1 단어가 검색어로 입력되면서, 상기 제1 단어에 기초한 음성 검색 요청이 수신되면, 상기 데이터 저장소 상에 저장되어 있는 상기 복수의 텍스트 그룹들 중 상기 제1 단어가 그룹 내에 포함되어 있는 적어도 하나의 제1 텍스트 그룹을 선택한 후 상기 데이터 저장소로부터 상기 적어도 하나의 제1 텍스트 그룹에 대응되어 저장되어 있는 적어도 하나의 제1 시간 정보를 추출하는 단계 및 상기 적어도 하나의 제1 시간 정보를 상기 음성 데이터에서 상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 화면 상에 표시하는 단계를 포함한다.

본 발명은 음성 데이터의 재생을 지원하는 단말 장치에서, 사용자가 특정 단어를 검색어로 입력하면서, 해당 단어가 음성으로 포함된 부분의 검색을 요청할 때, 사용자에게 전체 음성 데이터로부터 상기 단어가 음성으로 포함된 부분을 검색 결과로 신속하게 찾아서 제공할 수 있다.

도 1은 본 발명의 일실시예에 따른 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치의 구조를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치의 동작 방법을 도시한 순서도이다.

이하에서는 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명하기로 한다. 이러한 설명은 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였으며, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 본 명세서 상에서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 사람에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.

도 1은 본 발명의 일실시예에 따른 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치의 구조를 도시한 도면이다.

도 1을 참조하면, 본 발명에 따른 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치(110)는 음성 데이터 조각 생성부(111), 텍스트 변환부(112), 데이터 저장부(113), 정보 추출부(114) 및 검색 결과 표시부(115)를 포함한다.

음성 데이터 조각 생성부(111)는 녹음되어 있는 화자의 음성에 대한 음성 데이터를 선정된(predetermined) 시간 단위로 분할하여 복수의 음성 데이터 조각들을 생성하고, 상기 복수의 음성 데이터 조각들 각각의 분할 지점에 대한 시간 정보를 생성한다.

예컨대, 10분짜리 음성 데이터가 존재한다고 하고, 상기 선정된 시간 단위를 '2분 단위'라고 하는 경우, 음성 데이터 조각 생성부(111)는 2분 단위로 상기 10분짜리 음성 데이터를 분할하여, 5개의 음성 데이터 조각들을 생성하고, 상기 5개의 음성 데이터 조각들 각각의 분할 지점에 대한 시간 정보를 생성할 수 있다.

텍스트 변환부(112)는 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분에 대한 음성 분석을 수행하여 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분의 화자의 음성을 텍스트로 변환함으로써, 상기 복수의 음성 데이터 조각들 각각에 대응하는 복수의 텍스트 그룹들을 생성한다.

여기서, 상기 복수의 텍스트 그룹들은 상기 복수의 음성 데이터 조각들 각각에 대해서 변환된 텍스트들로 구성된 그룹을 의미한다.

예컨대, 앞서 설명한 예와 같이, 10분짜리의 음성 데이터가 2분 단위로 분할되어 5개의 음성 데이터 조각들이 생성되었다고 하는 경우, 텍스트 변환부(112)는 5개의 음성 데이터 조각들 각각에 대응하는 부분의 음성 분석을 수행하여 상기 5개의 음성 데이터 조각들 각각에 대응하는 부분의 화자의 음성을 텍스트로 변환함으로써, 5개의 텍스트 그룹들을 생성할 수 있다.

관련해서, 상기 5개의 텍스트 그룹들은 하기의 표 1과 같이 나타낼 수 있다.

5개의 텍스트 그룹들	각 텍스트 그룹을 구성하는 텍스트
텍스트 그룹 1	특허법은 국가의 산업발전을 도모하기 위해서 존재하는 제도이다.
텍스트 그룹 2	발명이란 자연법칙을 이용한 기술적 사상의 창작으로 고도한 것을 의미한다.
텍스트 그룹 3	특허는 발명을 한 사람과 그의 승계인만이 등록을 받을 수 있다.
텍스트 그룹 4	청구항은 독립항과 종속항으로 구성될 수 있다.
텍스트 그룹 5	특허권자는 업으로서 그 발명을 실시할 권리를 독점한다.

데이터 저장부(113)는 데이터 저장소(미도시) 상에 상기 복수의 텍스트 그룹들과 상기 복수의 텍스트 그룹들 각각에 대응하는 음성 데이터 조각의 분할 지점에 대한 시간 정보를 서로 대응시켜 저장한다.

예컨대, 상기 표 1과 같이 5개의 텍스트 그룹들이 생성되었다고 하고, 상기 5개의 텍스트 그룹들 각각에 대응하는 5개의 음성 데이터 조각들이 2분 단위로 분할되었다고 한다면, 데이터 저장부(113)는 상기 데이터 저장소 상에 하기의 표 2와 같이 정보를 저장할 수 있다.

5개의 텍스트 그룹들	시간 정보
텍스트 그룹 1	0분
텍스트 그룹 2	2분
텍스트 그룹 3	4분
텍스트 그룹 4	6분
텍스트 그룹 5	8분

이렇게, 상기 데이터 저장소 상에 정보가 저장된 이후에 정보 추출부(114)는 사용자에 의해 제1 단어가 검색어로 입력되면서, 상기 제1 단어에 기초한 음성 검색 요청이 수신되면, 상기 데이터 저장소 상에 저장되어 있는 상기 복수의 텍스트 그룹들 중 상기 제1 단어가 그룹 내에 포함되어 있는 적어도 하나의 제1 텍스트 그룹을 선택한 후 상기 데이터 저장소로부터 상기 적어도 하나의 제1 텍스트 그룹에 대응되어 저장되어 있는 적어도 하나의 제1 시간 정보를 추출한다.

그리고, 검색 결과 표시부(115)는 상기 적어도 하나의 제1 시간 정보를 상기 음성 데이터에서 상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 화면 상에 표시한다.

예컨대, 상기 데이터 저장소 상에 상기 표 2와 같이 정보가 저장되었다고 하는 경우, 사용자에 의해 '발명'이라는 단어가 검색어로 입력되면서, '발명'이라는 단어에 기초한 음성 검색 요청이 수신되면, 정보 추출부(114)는 상기 데이터 저장소 상에 저장되어 있는 5개의 텍스트 그룹들 중 '발명'이라는 단어가 그룹 내에 포함되어 있는 텍스트 그룹인 '텍스트 그룹 2', '텍스트 그룹 3', '텍스트 그룹 5'를 선택한 후 상기 데이터 저장소로부터 '텍스트 그룹 2'에 대응하는 시간 정보인 '2분', '텍스트 그룹 3'에 대응하는 시간 정보인 '4분', '텍스트 그룹 5'에 대응하는 시간 정보인 '8분'을 추출할 수 있다.

그러고 나서, 검색 결과 표시부(115)는 정보 추출부(114)에서 추출된 시간 정보인 '2분', '4분', '8분'을 상기 음성 데이터에서 '발명'이라는 단어에 대한 음성이 포함된 지점의 시간 정보로 화면 상에 표시할 수 있다.

이를 통해, 사용자는 상기 화면 상에 표시되는 시간 정보를 보고, 전체 음성 데이터에서 자신이 입력한 단어를 포함하는 음성의 재생 지점을 확인할 수 있고, 해당 시간 정보에 대한 선택 음성 재생 명령을 인가함으로써, 자신이 입력한 단어를 포함하는 음성 부분을 바로 재생시킬 수 있다.

이때, 본 발명의 일실시예에 따르면, 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치(110)는 검색 지점 재생부(116)를 더 포함할 수 있다.

검색 지점 재생부(116)는 상기 적어도 하나의 제1 시간 정보가 상기 음성 데이터에서 상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 화면 상에 표시된 이후, 상기 사용자로부터 상기 적어도 하나의 제1 시간 정보 중 어느 하나의 시간 정보인 제2 시간 정보에 대한 선택 음성 재생 명령이 인가되면, 상기 음성 데이터를 상기 제2 시간 정보에 따른 시점에서부터 재생을 시작하여 음성 출력을 제어한다.

관련해서, 앞서 설명한 예시와 같이, 사용자가 검색어로 입력한 '발명'에 대응하는 음성이 포함된 시간 정보로 '2분', '4분', '8분'이 화면 상에 표시된 이후, 상기 사용자에 의해 '4분'에 해당되는 시간 정보에 대해 선택 음성 재생 명령이 인가되면, 검색 지점 재생부(116)는 전체 음성 데이터에서 '4분'에 해당되는 시점에서부터 음성 재생을 시작하여 '특허는 발명을 한 사람과 그의 승계인만이 등록을 받을 수 있다.'라고 하는 음성이 출력되도록 제어할 수 있다.

이때, 본 발명의 일실시예에 따르면, 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치(110)는 단어 정보 저장부(117), 벡터 생성부(118), 연관 시간 정보 추출부(119) 및 연관 시간 정보 표시부(120)를 더 포함할 수 있다.

단어 정보 저장부(117)에는 복수의 단어들과 상기 복수의 단어들 각각에 대해 미리 지정된 복수의 서로 다른 자연수들이 대응되어 저장되어 있다.

예컨대, 단어 정보 저장부(117)에는 하기의 표 3과 같이 정보가 저장되어 있을 수 있다.

복수의 단어들	자연수
가지	1
특허	2
상표	3
발명	4
등록	5
...	...

벡터 생성부(118)는 텍스트 변환부(112)에서 상기 복수의 텍스트 그룹들의 생성이 완료되면, 상기 복수의 텍스트 그룹들 각각에 대해 형태소 분석을 수행하여 상기 복수의 텍스트 그룹들 각각에 포함되어 있는 단어들을 추출하고, 상기 복수의 텍스트 그룹들 별로 각 텍스트 그룹에서 추출된 단어들 중 선정된 제1 개수의 단어들을 랜덤하게 선택한 후 단어 정보 저장부(117)를 참조하여 상기 복수의 텍스트 그룹들 각각에서 선택된 상기 선정된 제1 개수의 단어들에 대응하는 자연수를 확인하여 상기 복수의 텍스트 그룹들 각각에 대해, 각 텍스트 그룹에서 선택된 상기 선정된 제1 개수의 단어들에 대응하는 자연수를 성분으로 포함하는 벡터를 생성한다.

예컨대, 상기 표 1과 같은 5개의 텍스트 그룹들 중 '텍스트 그룹 1'인 '특허법은 국가의 산업발전을 도모하기 위해서 존재하는 제도이다.'에 대해서 벡터를 생성하는 과정을 설명하면 다음과 같다.

우선, 벡터 생성부(118)는 '텍스트 그룹 1'인 '특허법은 국가의 산업발전을 도모하기 위해서 존재하는 제도이다.'에 대해 형태소 분석을 수행하여 상기 '텍스트 그룹 1'에 포함되어 있는 단어들인 '특허법', '국가', '산업발전', '도모', '존재', '제도'라고 하는 단어들을 추출할 수 있다.

이때, 상기 선정된 제1 개수를 '3개'라고 한다면, 벡터 생성부(118)는 '특허법', '국가', '산업발전', '도모', '존재', '제도'라고 하는 단어들 중 3개의 단어를 랜덤하게 선택할 수 있다. 관련해서, '특허법', '국가', '산업발전', '도모', '존재', '제도'라고 하는 단어들 중 '특허법', '국가', '제도'가 선택되었다고 하는 경우, 벡터 생성부(118)는 단어 정보 저장부(117) 상에 저장되어 있는 '특허법', '국가', '제도'에 대응하는 자연수를 확인할 수 있다.

만약, 단어 정보 저장부(117) 상에 '특허법', '국가', '제도'에 대해 각각 '11', '24', '30'이라는 자연수가 대응되어 저장되어 있다고 한다면, 벡터 생성부(118)는 '11', '24', '30'이라는 자연수 각각이 성분으로 포함된 벡터인 '(11, 24, 30)'이라고 하는 3차원 벡터를 상기 '텍스트 그룹 1'에 대응하는 벡터로 생성할 수 있다.

이러한 방식으로, 벡터 생성부(118)는 나머지 텍스트 그룹들인 '텍스트 그룹 2', '텍스트 그룹 3', '텍스트 그룹 4', '텍스트 그룹 5' 각각에 대해 3차원 벡터를 생성할 수 있다.

연관 시간 정보 추출부(119)는 이렇게 복수의 텍스트 그룹들 각각에 대한 벡터가 생성되고, 검색 지점 재생부(116)에 의해 상기 사용자로부터 상기 제2 시간 정보에 대한 선택 음성 재생 명령이 인가됨에 따라 상기 제2 시간 정보에 따른 시점에서부터 상기 음성 데이터의 재생이 시작되면, 상기 복수의 텍스트 그룹들 중 상기 제2 시간 정보에 대응하는 제2 텍스트 그룹에 대해 생성된 벡터를 기준으로 유클리드(Euclidean Distance) 거리가 선정된 기준 거리 이내로 연산되는 벡터를 갖는 적어도 하나의 다른 텍스트 그룹을 확인하여 상기 데이터 저장소로부터 상기 적어도 하나의 다른 텍스트 그룹에 대응되어 저장되어 있는 적어도 하나의 다른 시간 정보를 상기 제2 시간 정보에서의 화자의 음성에 대한 연관 내용의 음성이 녹음되어 있는 시점의 시간 정보로 추출한다.

그리고, 연관 시간 정보 표시부(120)는 상기 적어도 하나의 다른 시간 정보의 추출이 완료되면, 상기 적어도 하나의 다른 시간 정보를 상기 제2 시간 정보에서의 화자의 음성에 대한 연관 내용의 음성이 녹음되어 있는 시점의 시간 정보로 상기 화면 상에 표시한다.

관련해서, 앞서 설명한 예시에 따라 상기 표 2에서와 같은 시간 정보들 중 사용자에 의해 '4분'에 해당되는 시간 정보에 대해 선택 음성 재생 명령이 인가되어, 검색 지점 재생부(116)에 의해 '특허는 발명을 한 사람과 그의 승계인만이 등록을 받을 수 있다.'라고 하는 음성이 재생된다고 하는 경우, 연관 시간 정보 추출부(119)는 상기 표 2에서 나타낸 5개의 텍스트 그룹들 중 '4분'에 대응하는 '텍스트 그룹 3'에 대해 생성된 벡터를 기준으로 유클리드 거리가 상기 선정된 기준 거리 이내로 연산되는 벡터를 갖는 적어도 하나의 다른 텍스트 그룹을 확인할 수 있다.

여기서, 유클리드 거리란 두 벡터 간의 거리를 의미하는 것으로 하기의 수학식 1에 따라 연산될 수 있다.

여기서, D는 유클리드 거리, p_i와 q_i는 두 벡터에 포함되어 있는 i번째 성분들을 의미한다. 두 벡터 간의 유클리드 거리가 작을수록 두 벡터는 유사한 벡터라고 볼 수 있고, 두 벡터 간의 유클리드 거리가 클수록 두 벡터는 비유사한 벡터라고 볼 수 있다.

이러한 점에 비추어 보아, 상기 '텍스트 그룹 3'에 대해 생성된 벡터를 기준으로 유클리드 거리가 상기 선정된 기준 거리 이내로 연신된 벡터를 갖는 텍스트 그룹은 상기 '텍스트 그룹 3'에 유사한 텍스트 그룹으로 볼 수 있기 때문에, 연관 시간 정보 추출부(119)는 상기 적어도 하나의 다른 텍스트 그룹이 확인되면, 상기 데이터 저장소로부터 상기 적어도 하나의 다른 텍스트 그룹에 대응되어 저장되어 있는 적어도 하나의 다른 시간 정보를 '4분'이라는 시간 정보에서의 화자의 음성에 대한 연관 내용의 음성이 존재하는 시점의 시간 정보로 추출할 수 있다.

그러고 나서, 연관 시간 정보 표시부(120)는 상기 적어도 하나의 다른 시간 정보를 '4분'이라는 시간 정보에서의 화자의 음성에 대한 연관 내용의 음성이 녹음되어 있는 시점의 시간 정보로 상기 화면 상에 표시할 수 있다.

관련해서, 연관 시간 정보 추출부(119)에서 상기 적어도 하나의 다른 시간 정보로 '2분', '8분'이 추출되었다고 하는 경우, 연관 시간 정보 표시부(120)는 '2분', '8분'을 '4분'이라는 시간 정보에서의 화자의 음성인 '특허는 발명을 한 사람과 그의 승계인만이 등록을 받을 수 있다.'에 대한 연관 내용의 음성이 녹음되어 있는 시점의 시간 정보로 상기 화면 상에 표시할 수 있다.

이를 기반으로, 사용자는 검색 지점 재생부(116)를 통해 현재 출력되고 있는 '특허는 발명을 한 사람과 그의 승계인만이 등록을 받을 수 있다.'를 들으면서, 해당 음성에 대한 연관 내용이 녹음되어 있는 지점에 대한 시간 정보인 '2분', '8분'을 볼 수 있고, '2분', '8분'이라는 시점에 대한 선택 음성 재생 명령을 인가함으로써, '2분', '8분'이라는 시점에 대응하는 음성을 바로 들을 수 있다.

이때, 본 발명의 일실시예에 따르면, 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치(110)는 단어 사전 데이터베이스(121)를 더 포함할 수 있다.

단어 사전 데이터베이스(121)에는 상기 복수의 단어들과 상기 복수의 단어들 각각에 대한 사전적 의미가 대응되어 저장되어 있다.

이때, 검색 지점 재생부(116)는 상기 사용자로부터 상기 제2 시간 정보에 대한 선택 음성 재생 명령이 인가되면, 상기 음성 데이터를 상기 제2 시간 정보에 따른 시점에서부터 재생을 시작하여 음성 출력을 제어함과 동시에, 상기 제2 시간 정보에 대응하는 상기 제2 텍스트 그룹으로부터 선택된 상기 선정된 제1 개수의 단어들을 확인한 후 단어 사전 데이터베이스(121)로부터 상기 제2 텍스트 그룹에서 선택된 상기 선정된 제1 개수의 단어들 각각에 대응하는 사전적 의미를 추출하여 상기 제2 텍스트 그룹에서 선택된 상기 선정된 제1 개수의 단어들과 각 단어들에 대한 사전적 의미를 상기 화면 상에 서로 매칭시켜 표시할 수 있다.

관련해서, 전술한 예시와 같이, 벡터 생성부(118)에 의해 상기 표 2에서 나타낸 5개의 텍스트 그룹들 각각에 대해서 3개의 단어들이 랜덤하게 선택되었다고 하고, 사용자에 의해 '4분'에 해당되는 시간 정보에 따른 선택 음성 재생 명령이 인가되었다고 하는 경우, 검색 지점 재생부(116)는 상기 음성 데이터를 '4분'에 따른 시점에서부터 재생을 시작하여 음성 출력을 제어함과 동시에, '4분'에 대응하는 텍스트 그룹인 '텍스트 그룹 3'으로부터 선택된 3개의 단어들을 확인한 후 단어 사전 데이터베이스(121)로부터 상기 '텍스트 그룹 3'에서 선택된 3개의 단어들 각각에 대응하는 사전적 의미를 추출하여 상기 '텍스트 그룹 3'에서 선택된 3개의 단어들과 각 단어들에 대한 사전적 의미를 상기 화면 상에 서로 매칭시켜 표시할 수 있다.

이를 통해, 사용자는 '4분'에 대응하는 시점의 음성인 '특허는 발명을 한 사람과 그의 승계인만이 등록을 받을 수 있다.'를 들을 수 있음과 동시에, 해당 텍스트 그룹에서 선택된 3개의 단어들 각각에 대한 사전적 의미를 화면을 통해서 볼 수 있어서, 해당 부분의 음성을 이해하는데 도움을 받을 수 있다.

본 발명의 일실시예에 따르면, 텍스트 변환부(112)는 음고 확인부(122)를 포함할 수 있다.

음고 확인부(122)는 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분에 대한 음성 분석을 수행한 결과, 상기 복수의 음성 데이터 조각들 중 음의 높이가 선정된 피치(pitch)를 초과하는 음성이 포함된 음성 데이터 조각이 존재하는지 여부를 확인한다.

이때, 데이터 저장부(113)는 상기 복수의 음성 데이터 조각들 중 음의 높이가 상기 선정된 피치를 초과하는 음성이 포함된 음성 데이터 조각으로 적어도 하나의 제1 음성 데이터 조각이 존재하는 것으로 확인된 경우, 상기 데이터 저장소 상에 상기 복수의 텍스트 그룹들과 상기 복수의 텍스트 그룹들 각각에 대응하는 음성 데이터 조각의 분할 지점에 대한 시간 정보를 서로 대응시켜 저장하면서, 상기 복수의 텍스트 그룹들 중 상기 적어도 하나의 제1 음성 데이터 조각에 대응하는 텍스트 그룹에 대해 중요 음성 데이터임을 나타내는 식별 정보를 추가로 대응시켜 저장할 수 있다.

이때, 검색 결과 표시부(115)는 정보 추출부(114)를 통해 상기 적어도 하나의 제1 시간 정보가 추출되면, 상기 적어도 하나의 제1 시간 정보를 상기 음성 데이터에서 상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 상기 화면 상에 표시하되, 상기 적어도 하나의 제1 텍스트 그룹 중 상기 데이터 저장소 상에서 상기 식별 정보가 대응되어 저장되어 있는 텍스트 그룹으로 적어도 하나의 제3 텍스트 그룹이 존재하는 것으로 확인되는 경우, 상기 화면 상에 표시되는 상기 적어도 하나의 제1 시간 정보 중 상기 적어도 하나의 제3 텍스트 그룹에 대응하는 적어도 하나의 제3 시간 정보에 대해 중요 음성 데이터가 녹음되어 있음을 나타내는 알림 메시지를 매칭시켜 표시할 수 있다.

예컨대, 5개의 음성 데이터 조각들을 분석한 결과, 음고 확인부(122)에서 상기 5개의 음성 데이터 조각들 중 '음성 데이터 조각 1', '음성 데이터 조각 2'의 음의 높이가 상기 선정된 피치를 초과하는 것으로 확인된 경우, 데이터 저장부(113)는 상기 데이터 저장소 상에 5개의 음성 데이터 조각들에 대응하는 5개의 텍스트 그룹들과 각 텍스트 그룹에 대응하는 시간 정보를 서로 대응시켜 저장함과 동시에 상기 '음성 데이터 조각 1', 상기 '음성 데이터 조각 2'에 대응하는 텍스트 그룹에 대해 중요 음성 데이터임을 나타내는 식별 정보를 추가로 대응시켜 저장할 수 있다.

그 이후, 사용자에 의해 특정 검색어에 기초한 음성 검색 요청이 수신됨에 따라 정보 추출부(114)에서 '텍스트 그룹 1', '텍스트 그룹 3'에 대응하는 시간 정보가 추출되었다고 하는 경우, 검색 결과 표시부(115)는 추출된 시간 정보를 화면 상에 표시하되, 상기 '텍스트 그룹 1', 상기 '텍스트 그룹 3' 중 상기 데이터 저장소 상에서 상기 식별 정보가 대응되어 저장되어 있는 텍스트 그룹으로 상기 '텍스트 그룹 1'이 존재하는 것으로 확인된다면, 상기 화면 상에 표시되고 있는 상기 '텍스트 그룹 1'에 대응하는 시간 정보에 대해 중요 음성 데이터가 녹음되어 있음을 나타내는 알림 메시지를 매칭시켜 표시할 수 있다.

이를 통해, 사용자는 음성 데이터의 어떤 부분에 중요 음성이 녹음되어 있는지 여부를 손쉽게 확인할 수 있고, 이로부터 중요 음성이 녹음되어 있는 시간 정보를 선택함으로써, 해당 시간 정보에 대응하는 음성을 바로 청취할 수 있다.

도 2는 본 발명의 일실시예에 따른 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치의 동작 방법을 도시한 순서도이다.

단계(S210)에서는 녹음되어 있는 화자의 음성에 대한 음성 데이터를 선정된 시간 단위로 분할하여 복수의 음성 데이터 조각들을 생성하고, 상기 복수의 음성 데이터 조각들 각각의 분할 지점에 대한 시간 정보를 생성한다.

단계(S220)에서는 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분에 대한 음성 분석을 수행하여 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분의 화자의 음성을 텍스트로 변환함으로써, 상기 복수의 음성 데이터 조각들 각각에 대응하는 복수의 텍스트 그룹들(상기 복수의 텍스트 그룹들은 상기 복수의 음성 데이터 조각들 각각에 대해서 변환된 텍스트들로 구성된 그룹임)을 생성한다.

단계(S230)에서는 데이터 저장소 상에 상기 복수의 텍스트 그룹들과 상기 복수의 텍스트 그룹들 각각에 대응하는 음성 데이터 조각의 분할 지점에 대한 시간 정보를 서로 대응시켜 저장한다.

단계(S240)에서는 사용자에 의해 제1 단어가 검색어로 입력되면서, 상기 제1 단어에 기초한 음성 검색 요청이 수신되면, 상기 데이터 저장소 상에 저장되어 있는 상기 복수의 텍스트 그룹들 중 상기 제1 단어가 그룹 내에 포함되어 있는 적어도 하나의 제1 텍스트 그룹을 선택한 후 상기 데이터 저장소로부터 상기 적어도 하나의 제1 텍스트 그룹에 대응되어 저장되어 있는 적어도 하나의 제1 시간 정보를 추출한다.

단계(S250)에서는 상기 적어도 하나의 제1 시간 정보를 상기 음성 데이터에서 상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 화면 상에 표시한다.

이때, 본 발명의 일실시예에 따르면, 상기 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치의 동작 방법은 상기 적어도 하나의 제1 시간 정보가 상기 음성 데이터에서 상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 화면 상에 표시된 이후, 상기 사용자로부터 상기 적어도 하나의 제1 시간 정보 중 어느 하나의 시간 정보인 제2 시간 정보에 대한 선택 음성 재생 명령이 인가되면, 상기 음성 데이터를 상기 제2 시간 정보에 따른 시점에서부터 재생을 시작하여 음성 출력을 제어하는 단계를 더 포함할 수 있다.

이때, 본 발명의 일실시예에 따르면, 상기 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치의 동작 방법은 복수의 단어들과 상기 복수의 단어들 각각에 대해 미리 지정된 복수의 서로 다른 자연수들이 대응되어 저장되어 있는 단어 정보 저장부를 유지하는 단계, 상기 복수의 텍스트 그룹들을 생성하는 단계에서 상기 복수의 텍스트 그룹들의 생성이 완료되면, 상기 복수의 텍스트 그룹들 각각에 대해 형태소 분석을 수행하여 상기 복수의 텍스트 그룹들 각각에 포함되어 있는 단어들을 추출하고, 상기 복수의 텍스트 그룹들 별로 각 텍스트 그룹에서 추출된 단어들 중 선정된 제1 개수의 단어들을 랜덤하게 선택한 후 상기 단어 정보 저장부를 참조하여 상기 복수의 텍스트 그룹들 각각에서 선택된 상기 선정된 제1 개수의 단어들에 대응하는 자연수를 확인하여 상기 복수의 텍스트 그룹들 각각에 대해, 각 텍스트 그룹에서 선택된 상기 선정된 제1 개수의 단어들에 대응하는 자연수를 성분으로 포함하는 벡터를 생성하는 단계, 상기 음성 출력을 제어하는 단계에 의해 상기 사용자로부터 상기 제2 시간 정보에 대한 선택 음성 재생 명령이 인가됨에 따라 상기 제2 시간 정보에 따른 시점에서부터 상기 음성 데이터의 재생이 시작되면, 상기 복수의 텍스트 그룹들 중 상기 제2 시간 정보에 대응하는 제2 텍스트 그룹에 대해 생성된 벡터를 기준으로 유클리드 거리가 선정된 기준 거리 이내로 연산되는 벡터를 갖는 적어도 하나의 다른 텍스트 그룹을 확인하여 상기 데이터 저장소로부터 상기 적어도 하나의 다른 텍스트 그룹에 대응되어 저장되어 있는 적어도 하나의 다른 시간 정보를 상기 제2 시간 정보에서의 화자의 음성에 대한 연관 내용의 음성이 녹음되어 있는 시점의 시간 정보로 추출하는 단계 및 상기 적어도 하나의 다른 시간 정보의 추출이 완료되면, 상기 적어도 하나의 다른 시간 정보를 상기 제2 시간 정보에서의 화자의 음성에 대한 연관 내용의 음성이 녹음되어 있는 시점의 시간 정보로 상기 화면 상에 표시하는 단계를 더 포함할 수 있다.

이때, 본 발명의 일실시예 따르면, 상기 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치의 동작 방법은 상기 복수의 단어들과 상기 복수의 단어들 각각에 대한 사전적 의미가 대응되어 저장되어 있는 단어 사전 데이터베이스를 유지하는 단계를 더 포함할 수 있고, 상기 음성 출력을 제어하는 단계는 상기 사용자로부터 상기 제2 시간 정보에 대한 선택 음성 재생 명령이 인가되면, 상기 음성 데이터를 상기 제2 시간 정보에 따른 시점에서부터 재생을 시작하여 음성 출력을 제어함과 동시에, 상기 제2 시간 정보에 대응하는 상기 제2 텍스트 그룹으로부터 선택된 상기 선정된 제1 개수의 단어들을 확인한 후 상기 단어 사전 데이터베이스로부터 상기 제2 텍스트 그룹에서 선택된 상기 선정된 제1 개수의 단어들 각각에 대응하는 사전적 의미를 추출하여 상기 제2 텍스트 그룹에서 선택된 상기 선정된 제1 개수의 단어들과 각 단어들에 대한 사전적 의미를 상기 화면 상에 서로 매칭시켜 표시할 수 있다.

또한, 본 발명의 일실시예에 따르면, 단계(S220)에서는 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분에 대한 음성 분석을 수행한 결과, 상기 복수의 음성 데이터 조각들 중 음의 높이가 선정된 피치를 초과하는 음성이 포함된 음성 데이터 조각이 존재하는지 여부를 확인하는 단계를 포함할 수 있다.

이때, 단계(S230)에서는 상기 복수의 음성 데이터 조각들 중 음의 높이가 상기 선정된 피치를 초과하는 음성이 포함된 음성 데이터 조각으로 적어도 하나의 제1 음성 데이터 조각이 존재하는 것으로 확인된 경우, 상기 데이터 저장소 상에 상기 복수의 텍스트 그룹들과 상기 복수의 텍스트 그룹들 각각에 대응하는 음성 데이터 조각의 분할 지점에 대한 시간 정보를 서로 대응시켜 저장하면서, 상기 복수의 텍스트 그룹들 중 상기 적어도 하나의 제1 음성 데이터 조각에 대응하는 텍스트 그룹에 대해 중요 음성 데이터임을 나타내는 식별 정보를 추가로 대응시켜 저장할 수 있다.

그리고, 단계(S250)에서는 상기 적어도 하나의 제1 시간 정보를 상기 음성 데이터에서 상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 상기 화면 상에 표시하되, 상기 적어도 하나의 제1 텍스트 그룹 중 상기 데이터 저장소 상에서 상기 식별 정보가 대응되어 저장되어 있는 텍스트 그룹으로 적어도 하나의 제3 텍스트 그룹이 존재하는 것으로 확인되는 경우, 상기 화면 상에 표시되는 상기 적어도 하나의 제1 시간 정보 중 상기 적어도 하나의 제3 텍스트 그룹에 대응하는 적어도 하나의 제3 시간 정보에 대해 중요 음성 데이터가 녹음되어 있음을 나타내는 알림 메시지를 매칭시켜 표시할 수 있다.

이상, 도 2를 참조하여 본 발명의 일실시예에 따른 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치의 동작 방법에 대해 설명하였다. 여기서, 본 발명의 일실시예에 따른 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치의 동작 방법은 도 1을 이용하여 설명한 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치(110)의 동작에 대한 구성과 대응될 수 있으므로, 이에 대한 보다 상세한 설명은 생략하기로 한다.

본 발명의 일실시예에 따른 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치의 동작 방법은 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다.

또한, 본 발명의 일실시예에 따른 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치의 동작 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

110: 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치
111: 음성 데이터 조각 생성부 112: 텍스트 변환부
113: 데이터 저장부 114: 정보 추출부
115: 검색 결과 표시부 116: 검색 지점 재생부
117: 단어 정보 저장부 118: 벡터 생성부
119: 연관 시간 정보 추출부 120: 연관 시간 정보 표시부
121: 단어 사전 데이터베이스

Claims

복수의 단어들과 상기 복수의 단어들 각각에 대해 미리 지정된 복수의 서로 다른 자연수들이 대응되어 저장되어 있는 단어 정보 저장부;
녹음되어 있는 화자의 음성에 대한 음성 데이터를 선정된(predetermined) 시간 단위로 분할하여 복수의 음성 데이터 조각들을 생성하고, 상기 복수의 음성 데이터 조각들 각각의 분할 지점에 대한 시간 정보를 생성하는 음성 데이터 조각 생성부;
상기 복수의 음성 데이터 조각들 각각에 대응하는 부분에 대한 음성 분석을 수행하여 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분의 화자의 음성을 텍스트로 변환함으로써, 상기 복수의 음성 데이터 조각들 각각에 대응하는 복수의 텍스트 그룹들 - 상기 복수의 텍스트 그룹들은 상기 복수의 음성 데이터 조각들 각각에 대해서 변환된 텍스트들로 구성된 그룹임 - 을 생성하는 텍스트 변환부;
상기 텍스트 변환부에서 상기 복수의 텍스트 그룹들의 생성이 완료되면, 상기 복수의 텍스트 그룹들 각각에 대해 형태소 분석을 수행하여 상기 복수의 텍스트 그룹들 각각에 포함되어 있는 단어들을 추출하고, 상기 복수의 텍스트 그룹들 별로 각 텍스트 그룹에서 추출된 단어들 중 선정된 제1 개수의 단어들을 랜덤하게 선택한 후 상기 단어 정보 저장부를 참조하여 상기 복수의 텍스트 그룹들 각각에서 선택된 상기 선정된 제1 개수의 단어들에 대응하는 자연수를 확인하여 상기 복수의 텍스트 그룹들 각각에 대해, 각 텍스트 그룹에서 선택된 상기 선정된 제1 개수의 단어들에 대응하는 자연수를 성분으로 포함하는 벡터를 생성하는 벡터 생성부;
데이터 저장소 상에 상기 복수의 텍스트 그룹들과 상기 복수의 텍스트 그룹들 각각에 대응하는 음성 데이터 조각의 분할 지점에 대한 시간 정보를 서로 대응시켜 저장하는 데이터 저장부;
사용자에 의해 제1 단어가 검색어로 입력되면서, 상기 제1 단어에 기초한 음성 검색 요청이 수신되면, 상기 데이터 저장소 상에 저장되어 있는 상기 복수의 텍스트 그룹들 중 상기 제1 단어가 그룹 내에 포함되어 있는 적어도 하나의 제1 텍스트 그룹을 선택한 후 상기 데이터 저장소로부터 상기 적어도 하나의 제1 텍스트 그룹에 대응되어 저장되어 있는 적어도 하나의 제1 시간 정보를 추출하는 정보 추출부;
상기 적어도 하나의 제1 시간 정보를 상기 음성 데이터에서 상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 화면 상에 표시하는 검색 결과 표시부;
상기 적어도 하나의 제1 시간 정보가 상기 음성 데이터에서 상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 화면 상에 표시된 이후, 상기 사용자로부터 상기 적어도 하나의 제1 시간 정보 중 어느 하나의 시간 정보인 제2 시간 정보에 대한 선택 음성 재생 명령이 인가되면, 상기 음성 데이터를 상기 제2 시간 정보에 따른 시점에서부터 재생을 시작하여 음성 출력을 제어하는 검색 지점 재생부;
상기 검색 지점 재생부에 의해 상기 사용자로부터 상기 제2 시간 정보에 대한 선택 음성 재생 명령이 인가됨에 따라 상기 제2 시간 정보에 따른 시점에서부터 상기 음성 데이터의 재생이 시작되면, 상기 복수의 텍스트 그룹들 중 상기 제2 시간 정보에 대응하는 제2 텍스트 그룹에 대해 생성된 벡터를 기준으로 유클리드(Euclidean Distance) 거리가 선정된 기준 거리 이내로 연산되는 벡터를 갖는 적어도 하나의 다른 텍스트 그룹을 확인하여 상기 데이터 저장소로부터 상기 적어도 하나의 다른 텍스트 그룹에 대응되어 저장되어 있는 적어도 하나의 다른 시간 정보를 상기 제2 시간 정보에서의 화자의 음성에 대한 연관 내용의 음성이 녹음되어 있는 시점의 시간 정보로 추출하는 연관 시간 정보 추출부; 및
상기 적어도 하나의 다른 시간 정보의 추출이 완료되면, 상기 적어도 하나의 다른 시간 정보를 상기 제2 시간 정보에서의 화자의 음성에 대한 연관 내용의 음성이 녹음되어 있는 시점의 시간 정보로 상기 화면 상에 표시하는 연관 시간 정보 표시부
를 포함하는 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치.
삭제
삭제
제1항에 있어서,
상기 복수의 단어들과 상기 복수의 단어들 각각에 대한 사전적 의미가 대응되어 저장되어 있는 단어 사전 데이터베이스
를 더 포함하고,
상기 검색 지점 재생부는
상기 사용자로부터 상기 제2 시간 정보에 대한 선택 음성 재생 명령이 인가되면, 상기 음성 데이터를 상기 제2 시간 정보에 따른 시점에서부터 재생을 시작하여 음성 출력을 제어함과 동시에, 상기 제2 시간 정보에 대응하는 상기 제2 텍스트 그룹으로부터 선택된 상기 선정된 제1 개수의 단어들을 확인한 후 상기 단어 사전 데이터베이스로부터 상기 제2 텍스트 그룹에서 선택된 상기 선정된 제1 개수의 단어들 각각에 대응하는 사전적 의미를 추출하여 상기 제2 텍스트 그룹에서 선택된 상기 선정된 제1 개수의 단어들과 각 단어들에 대한 사전적 의미를 상기 화면 상에 서로 매칭시켜 표시하는 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치.
제1항에 있어서,
상기 텍스트 변환부는
상기 복수의 음성 데이터 조각들 각각에 대응하는 부분에 대한 음성 분석을 수행한 결과, 상기 복수의 음성 데이터 조각들 중 음의 높이가 선정된 피치(pitch)를 초과하는 음성이 포함된 음성 데이터 조각이 존재하는지 여부를 확인하는 음고 확인부
를 포함하고,
상기 데이터 저장부는
상기 복수의 음성 데이터 조각들 중 음의 높이가 상기 선정된 피치를 초과하는 음성이 포함된 음성 데이터 조각으로 적어도 하나의 제1 음성 데이터 조각이 존재하는 것으로 확인된 경우, 상기 데이터 저장소 상에 상기 복수의 텍스트 그룹들과 상기 복수의 텍스트 그룹들 각각에 대응하는 음성 데이터 조각의 분할 지점에 대한 시간 정보를 서로 대응시켜 저장하면서, 상기 복수의 텍스트 그룹들 중 상기 적어도 하나의 제1 음성 데이터 조각에 대응하는 텍스트 그룹에 대해 중요 음성 데이터임을 나타내는 식별 정보를 추가로 대응시켜 저장하며,
상기 검색 결과 표시부는
상기 적어도 하나의 제1 시간 정보를 상기 음성 데이터에서 상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 상기 화면 상에 표시하되, 상기 적어도 하나의 제1 텍스트 그룹 중 상기 데이터 저장소 상에서 상기 식별 정보가 대응되어 저장되어 있는 텍스트 그룹으로 적어도 하나의 제3 텍스트 그룹이 존재하는 것으로 확인되는 경우, 상기 화면 상에 표시되는 상기 적어도 하나의 제1 시간 정보 중 상기 적어도 하나의 제3 텍스트 그룹에 대응하는 적어도 하나의 제3 시간 정보에 대해 중요 음성 데이터가 녹음되어 있음을 나타내는 알림 메시지를 매칭시켜 표시하는 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치.
복수의 단어들과 상기 복수의 단어들 각각에 대해 미리 지정된 복수의 서로 다른 자연수들이 대응되어 저장되어 있는 단어 정보 저장부를 유지하는 단계;
녹음되어 있는 화자의 음성에 대한 음성 데이터를 선정된(predetermined) 시간 단위로 분할하여 복수의 음성 데이터 조각들을 생성하고, 상기 복수의 음성 데이터 조각들 각각의 분할 지점에 대한 시간 정보를 생성하는 단계;
상기 복수의 음성 데이터 조각들 각각에 대응하는 부분에 대한 음성 분석을 수행하여 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분의 화자의 음성을 텍스트로 변환함으로써, 상기 복수의 음성 데이터 조각들 각각에 대응하는 복수의 텍스트 그룹들 - 상기 복수의 텍스트 그룹들은 상기 복수의 음성 데이터 조각들 각각에 대해서 변환된 텍스트들로 구성된 그룹임 - 을 생성하는 단계;
상기 복수의 텍스트 그룹들을 생성하는 단계에서 상기 복수의 텍스트 그룹들의 생성이 완료되면, 상기 복수의 텍스트 그룹들 각각에 대해 형태소 분석을 수행하여 상기 복수의 텍스트 그룹들 각각에 포함되어 있는 단어들을 추출하고, 상기 복수의 텍스트 그룹들 별로 각 텍스트 그룹에서 추출된 단어들 중 선정된 제1 개수의 단어들을 랜덤하게 선택한 후 상기 단어 정보 저장부를 참조하여 상기 복수의 텍스트 그룹들 각각에서 선택된 상기 선정된 제1 개수의 단어들에 대응하는 자연수를 확인하여 상기 복수의 텍스트 그룹들 각각에 대해, 각 텍스트 그룹에서 선택된 상기 선정된 제1 개수의 단어들에 대응하는 자연수를 성분으로 포함하는 벡터를 생성하는 단계;
데이터 저장소 상에 상기 복수의 텍스트 그룹들과 상기 복수의 텍스트 그룹들 각각에 대응하는 음성 데이터 조각의 분할 지점에 대한 시간 정보를 서로 대응시켜 저장하는 단계;
사용자에 의해 제1 단어가 검색어로 입력되면서, 상기 제1 단어에 기초한 음성 검색 요청이 수신되면, 상기 데이터 저장소 상에 저장되어 있는 상기 복수의 텍스트 그룹들 중 상기 제1 단어가 그룹 내에 포함되어 있는 적어도 하나의 제1 텍스트 그룹을 선택한 후 상기 데이터 저장소로부터 상기 적어도 하나의 제1 텍스트 그룹에 대응되어 저장되어 있는 적어도 하나의 제1 시간 정보를 추출하는 단계;
상기 적어도 하나의 제1 시간 정보를 상기 음성 데이터에서 상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 화면 상에 표시하는 단계;
상기 적어도 하나의 제1 시간 정보가 상기 음성 데이터에서 상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 화면 상에 표시된 이후, 상기 사용자로부터 상기 적어도 하나의 제1 시간 정보 중 어느 하나의 시간 정보인 제2 시간 정보에 대한 선택 음성 재생 명령이 인가되면, 상기 음성 데이터를 상기 제2 시간 정보에 따른 시점에서부터 재생을 시작하여 음성 출력을 제어하는 단계;
상기 음성 출력을 제어하는 단계에 의해 상기 사용자로부터 상기 제2 시간 정보에 대한 선택 음성 재생 명령이 인가됨에 따라 상기 제2 시간 정보에 따른 시점에서부터 상기 음성 데이터의 재생이 시작되면, 상기 복수의 텍스트 그룹들 중 상기 제2 시간 정보에 대응하는 제2 텍스트 그룹에 대해 생성된 벡터를 기준으로 유클리드(Euclidean Distance) 거리가 선정된 기준 거리 이내로 연산되는 벡터를 갖는 적어도 하나의 다른 텍스트 그룹을 확인하여 상기 데이터 저장소로부터 상기 적어도 하나의 다른 텍스트 그룹에 대응되어 저장되어 있는 적어도 하나의 다른 시간 정보를 상기 제2 시간 정보에서의 화자의 음성에 대한 연관 내용의 음성이 녹음되어 있는 시점의 시간 정보로 추출하는 단계; 및
상기 적어도 하나의 다른 시간 정보의 추출이 완료되면, 상기 적어도 하나의 다른 시간 정보를 상기 제2 시간 정보에서의 화자의 음성에 대한 연관 내용의 음성이 녹음되어 있는 시점의 시간 정보로 상기 화면 상에 표시하는 단계
를 포함하는 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치의 동작 방법.
삭제
삭제
제6항에 있어서,
상기 복수의 단어들과 상기 복수의 단어들 각각에 대한 사전적 의미가 대응되어 저장되어 있는 단어 사전 데이터베이스를 유지하는 단계
를 더 포함하고,
상기 음성 출력을 제어하는 단계는
상기 사용자로부터 상기 제2 시간 정보에 대한 선택 음성 재생 명령이 인가되면, 상기 음성 데이터를 상기 제2 시간 정보에 따른 시점에서부터 재생을 시작하여 음성 출력을 제어함과 동시에, 상기 제2 시간 정보에 대응하는 상기 제2 텍스트 그룹으로부터 선택된 상기 선정된 제1 개수의 단어들을 확인한 후 상기 단어 사전 데이터베이스로부터 상기 제2 텍스트 그룹에서 선택된 상기 선정된 제1 개수의 단어들 각각에 대응하는 사전적 의미를 추출하여 상기 제2 텍스트 그룹에서 선택된 상기 선정된 제1 개수의 단어들과 각 단어들에 대한 사전적 의미를 상기 화면 상에 서로 매칭시켜 표시하는 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치의 동작 방법.
제6항에 있어서,
상기 복수의 텍스트 그룹들을 생성하는 단계는
상기 복수의 음성 데이터 조각들 각각에 대응하는 부분에 대한 음성 분석을 수행한 결과, 상기 복수의 음성 데이터 조각들 중 음의 높이가 선정된 피치(pitch)를 초과하는 음성이 포함된 음성 데이터 조각이 존재하는지 여부를 확인하는 단계
를 포함하고,
상기 서로 대응시켜 저장하는 단계는
상기 복수의 음성 데이터 조각들 중 음의 높이가 상기 선정된 피치를 초과하는 음성이 포함된 음성 데이터 조각으로 적어도 하나의 제1 음성 데이터 조각이 존재하는 것으로 확인된 경우, 상기 데이터 저장소 상에 상기 복수의 텍스트 그룹들과 상기 복수의 텍스트 그룹들 각각에 대응하는 음성 데이터 조각의 분할 지점에 대한 시간 정보를 서로 대응시켜 저장하면서, 상기 복수의 텍스트 그룹들 중 상기 적어도 하나의 제1 음성 데이터 조각에 대응하는 텍스트 그룹에 대해 중요 음성 데이터임을 나타내는 식별 정보를 추가로 대응시켜 저장하며,
상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 화면 상에 표시하는 단계는
상기 적어도 하나의 제1 시간 정보를 상기 음성 데이터에서 상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 상기 화면 상에 표시하되, 상기 적어도 하나의 제1 텍스트 그룹 중 상기 데이터 저장소 상에서 상기 식별 정보가 대응되어 저장되어 있는 텍스트 그룹으로 적어도 하나의 제3 텍스트 그룹이 존재하는 것으로 확인되는 경우, 상기 화면 상에 표시되는 상기 적어도 하나의 제1 시간 정보 중 상기 적어도 하나의 제3 텍스트 그룹에 대응하는 적어도 하나의 제3 시간 정보에 대해 중요 음성 데이터가 녹음되어 있음을 나타내는 알림 메시지를 매칭시켜 표시하는 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치의 동작 방법.
제6항, 제9항 또는 제10항 중 어느 한 항의 방법을 수행하는 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.
제6항, 제9항 또는 제10항 중 어느 한 항의 방법을 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램.