KR102036721B1 - 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치 및 그 동작 방법 - Google Patents

녹음 음성에 대한 빠른 검색을 지원하는 단말 장치 및 그 동작 방법 Download PDF

Info

Publication number
KR102036721B1
KR102036721B1 KR1020180055973A KR20180055973A KR102036721B1 KR 102036721 B1 KR102036721 B1 KR 102036721B1 KR 1020180055973 A KR1020180055973 A KR 1020180055973A KR 20180055973 A KR20180055973 A KR 20180055973A KR 102036721 B1 KR102036721 B1 KR 102036721B1
Authority
KR
South Korea
Prior art keywords
voice
time information
text
voice data
word
Prior art date
Application number
KR1020180055973A
Other languages
English (en)
Inventor
김미숙
Original Assignee
주식회사 한글과컴퓨터
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 한글과컴퓨터 filed Critical 주식회사 한글과컴퓨터
Priority to KR1020180055973A priority Critical patent/KR102036721B1/ko
Application granted granted Critical
Publication of KR102036721B1 publication Critical patent/KR102036721B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/433Query formulation using audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

녹음 음성에 대한 빠른 검색을 지원하는 단말 장치 및 그 동작 방법이 개시된다. 본 발명은 음성 데이터의 재생을 지원하는 단말 장치에서, 사용자가 특정 단어를 검색어로 입력하면서, 해당 단어가 음성으로 포함된 부분의 검색을 요청할 때, 사용자에게 전체 음성 데이터로부터 상기 단어가 음성으로 포함된 부분을 검색 결과로 신속하게 찾아서 제공할 수 있다.

Description

녹음 음성에 대한 빠른 검색을 지원하는 단말 장치 및 그 동작 방법{TERMINAL DEVICE FOR SUPPORTING QUICK SEARCH FOR RECORDED VOICE AND OPERATING METHOD THEREOF}
본 발명은 녹음된 음성 데이터로부터 사용자가 입력한 소정의 검색어에 매칭되는 부분을 빠르게 검색할 수 있도록 지원하는 단말 장치 및 그 동작 방법에 대한 것이다.
최근, 마이크로폰이 탑재된 스마트폰이나 태블릿 PC 등과 같은 다양한 휴대 기기가 등장하면서, 다양한 상황에서 화자의 음성을 녹음하는 경우가 증가하고 있다.
이렇게, 화자의 음성을 녹음해 두면, 언제든지 사용자가 원할 때 음성을 재생할 수 있어서, 회의나 세미나 등에서 놓쳤던 부분을 다시 들을 수 있는 장점이 있다.
기존의 음성 데이터의 재생을 지원하는 단말 장치에서는 사용자가 자신이 듣고 싶은 부분을 듣고자 하는 경우, 듣고자 하는 부분의 녹음 시점을 하나씩 찾아서 들어야 했기 때문에 많은 시간과 노력이 소요되는 문제가 있었다.
특히, 기존의 음성 데이터의 재생을 지원하는 단말 장치에서는 사용자가 특정 검색어를 기반으로 자신이 듣기를 원하는 부분의 음성을 찾아서 재생할 수 있도록 지원하는 기능을 제공하고 있지 않았기 때문에, 사용자가 특정 단어가 포함된 부분의 음성만을 찾아서 듣기가 어려운 점이 존재하였다.
따라서, 음성 데이터의 재생을 지원하는 단말 장치에서, 사용자가 특정 단어를 검색어로 입력하면서, 해당 단어가 음성으로 포함된 부분의 검색을 요청할 때, 사용자에게 전체 음성 데이터로부터 상기 단어가 음성으로 포함된 부분을 검색 결과로 신속하게 찾아서 제공할 수 있는 기술에 대한 연구가 필요하다.
본 발명은 음성 데이터의 재생을 지원하는 단말 장치에서, 사용자가 특정 단어를 검색어로 입력하면서, 해당 단어가 음성으로 포함된 부분의 검색을 요청할 때, 사용자에게 전체 음성 데이터로부터 상기 단어가 음성으로 포함된 부분을 검색 결과로 신속하게 찾아서 제공할 수 있는 기법을 제시하고자 한다.
본 발명의 일실시예에 따른 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치는 녹음되어 있는 화자의 음성에 대한 음성 데이터를 선정된(predetermined) 시간 단위로 분할하여 복수의 음성 데이터 조각들을 생성하고, 상기 복수의 음성 데이터 조각들 각각의 분할 지점에 대한 시간 정보를 생성하는 음성 데이터 조각 생성부, 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분에 대한 음성 분석을 수행하여 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분의 화자의 음성을 텍스트로 변환함으로써, 상기 복수의 음성 데이터 조각들 각각에 대응하는 복수의 텍스트 그룹들 - 상기 복수의 텍스트 그룹들은 상기 복수의 음성 데이터 조각들 각각에 대해서 변환된 텍스트들로 구성된 그룹임 - 을 생성하는 텍스트 변환부, 데이터 저장소 상에 상기 복수의 텍스트 그룹들과 상기 복수의 텍스트 그룹들 각각에 대응하는 음성 데이터 조각의 분할 지점에 대한 시간 정보를 서로 대응시켜 저장하는 데이터 저장부, 사용자에 의해 제1 단어가 검색어로 입력되면서, 상기 제1 단어에 기초한 음성 검색 요청이 수신되면, 상기 데이터 저장소 상에 저장되어 있는 상기 복수의 텍스트 그룹들 중 상기 제1 단어가 그룹 내에 포함되어 있는 적어도 하나의 제1 텍스트 그룹을 선택한 후 상기 데이터 저장소로부터 상기 적어도 하나의 제1 텍스트 그룹에 대응되어 저장되어 있는 적어도 하나의 제1 시간 정보를 추출하는 정보 추출부 및 상기 적어도 하나의 제1 시간 정보를 상기 음성 데이터에서 상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 화면 상에 표시하는 검색 결과 표시부를 포함한다.
또한, 본 발명의 일실시예에 따른 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치의 동작 방법은 녹음되어 있는 화자의 음성에 대한 음성 데이터를 선정된 시간 단위로 분할하여 복수의 음성 데이터 조각들을 생성하고, 상기 복수의 음성 데이터 조각들 각각의 분할 지점에 대한 시간 정보를 생성하는 단계, 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분에 대한 음성 분석을 수행하여 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분의 화자의 음성을 텍스트로 변환함으로써, 상기 복수의 음성 데이터 조각들 각각에 대응하는 복수의 텍스트 그룹들 - 상기 복수의 텍스트 그룹들은 상기 복수의 음성 데이터 조각들 각각에 대해서 변환된 텍스트들로 구성된 그룹임 - 을 생성하는 단계, 데이터 저장소 상에 상기 복수의 텍스트 그룹들과 상기 복수의 텍스트 그룹들 각각에 대응하는 음성 데이터 조각의 분할 지점에 대한 시간 정보를 서로 대응시켜 저장하는 단계, 사용자에 의해 제1 단어가 검색어로 입력되면서, 상기 제1 단어에 기초한 음성 검색 요청이 수신되면, 상기 데이터 저장소 상에 저장되어 있는 상기 복수의 텍스트 그룹들 중 상기 제1 단어가 그룹 내에 포함되어 있는 적어도 하나의 제1 텍스트 그룹을 선택한 후 상기 데이터 저장소로부터 상기 적어도 하나의 제1 텍스트 그룹에 대응되어 저장되어 있는 적어도 하나의 제1 시간 정보를 추출하는 단계 및 상기 적어도 하나의 제1 시간 정보를 상기 음성 데이터에서 상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 화면 상에 표시하는 단계를 포함한다.
본 발명은 음성 데이터의 재생을 지원하는 단말 장치에서, 사용자가 특정 단어를 검색어로 입력하면서, 해당 단어가 음성으로 포함된 부분의 검색을 요청할 때, 사용자에게 전체 음성 데이터로부터 상기 단어가 음성으로 포함된 부분을 검색 결과로 신속하게 찾아서 제공할 수 있다.
도 1은 본 발명의 일실시예에 따른 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치의 구조를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치의 동작 방법을 도시한 순서도이다.
이하에서는 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명하기로 한다. 이러한 설명은 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였으며, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 본 명세서 상에서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 사람에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.
도 1은 본 발명의 일실시예에 따른 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치의 구조를 도시한 도면이다.
도 1을 참조하면, 본 발명에 따른 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치(110)는 음성 데이터 조각 생성부(111), 텍스트 변환부(112), 데이터 저장부(113), 정보 추출부(114) 및 검색 결과 표시부(115)를 포함한다.
음성 데이터 조각 생성부(111)는 녹음되어 있는 화자의 음성에 대한 음성 데이터를 선정된(predetermined) 시간 단위로 분할하여 복수의 음성 데이터 조각들을 생성하고, 상기 복수의 음성 데이터 조각들 각각의 분할 지점에 대한 시간 정보를 생성한다.
예컨대, 10분짜리 음성 데이터가 존재한다고 하고, 상기 선정된 시간 단위를 '2분 단위'라고 하는 경우, 음성 데이터 조각 생성부(111)는 2분 단위로 상기 10분짜리 음성 데이터를 분할하여, 5개의 음성 데이터 조각들을 생성하고, 상기 5개의 음성 데이터 조각들 각각의 분할 지점에 대한 시간 정보를 생성할 수 있다.
텍스트 변환부(112)는 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분에 대한 음성 분석을 수행하여 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분의 화자의 음성을 텍스트로 변환함으로써, 상기 복수의 음성 데이터 조각들 각각에 대응하는 복수의 텍스트 그룹들을 생성한다.
여기서, 상기 복수의 텍스트 그룹들은 상기 복수의 음성 데이터 조각들 각각에 대해서 변환된 텍스트들로 구성된 그룹을 의미한다.
예컨대, 앞서 설명한 예와 같이, 10분짜리의 음성 데이터가 2분 단위로 분할되어 5개의 음성 데이터 조각들이 생성되었다고 하는 경우, 텍스트 변환부(112)는 5개의 음성 데이터 조각들 각각에 대응하는 부분의 음성 분석을 수행하여 상기 5개의 음성 데이터 조각들 각각에 대응하는 부분의 화자의 음성을 텍스트로 변환함으로써, 5개의 텍스트 그룹들을 생성할 수 있다.
관련해서, 상기 5개의 텍스트 그룹들은 하기의 표 1과 같이 나타낼 수 있다.
5개의 텍스트 그룹들 각 텍스트 그룹을 구성하는 텍스트
텍스트 그룹 1 특허법은 국가의 산업발전을 도모하기 위해서 존재하는 제도이다.
텍스트 그룹 2 발명이란 자연법칙을 이용한 기술적 사상의 창작으로 고도한 것을 의미한다.
텍스트 그룹 3 특허는 발명을 한 사람과 그의 승계인만이 등록을 받을 수 있다.
텍스트 그룹 4 청구항은 독립항과 종속항으로 구성될 수 있다.
텍스트 그룹 5 특허권자는 업으로서 그 발명을 실시할 권리를 독점한다.
데이터 저장부(113)는 데이터 저장소(미도시) 상에 상기 복수의 텍스트 그룹들과 상기 복수의 텍스트 그룹들 각각에 대응하는 음성 데이터 조각의 분할 지점에 대한 시간 정보를 서로 대응시켜 저장한다.
예컨대, 상기 표 1과 같이 5개의 텍스트 그룹들이 생성되었다고 하고, 상기 5개의 텍스트 그룹들 각각에 대응하는 5개의 음성 데이터 조각들이 2분 단위로 분할되었다고 한다면, 데이터 저장부(113)는 상기 데이터 저장소 상에 하기의 표 2와 같이 정보를 저장할 수 있다.
5개의 텍스트 그룹들 시간 정보
텍스트 그룹 1 0분
텍스트 그룹 2 2분
텍스트 그룹 3 4분
텍스트 그룹 4 6분
텍스트 그룹 5 8분
이렇게, 상기 데이터 저장소 상에 정보가 저장된 이후에 정보 추출부(114)는 사용자에 의해 제1 단어가 검색어로 입력되면서, 상기 제1 단어에 기초한 음성 검색 요청이 수신되면, 상기 데이터 저장소 상에 저장되어 있는 상기 복수의 텍스트 그룹들 중 상기 제1 단어가 그룹 내에 포함되어 있는 적어도 하나의 제1 텍스트 그룹을 선택한 후 상기 데이터 저장소로부터 상기 적어도 하나의 제1 텍스트 그룹에 대응되어 저장되어 있는 적어도 하나의 제1 시간 정보를 추출한다.
그리고, 검색 결과 표시부(115)는 상기 적어도 하나의 제1 시간 정보를 상기 음성 데이터에서 상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 화면 상에 표시한다.
예컨대, 상기 데이터 저장소 상에 상기 표 2와 같이 정보가 저장되었다고 하는 경우, 사용자에 의해 '발명'이라는 단어가 검색어로 입력되면서, '발명'이라는 단어에 기초한 음성 검색 요청이 수신되면, 정보 추출부(114)는 상기 데이터 저장소 상에 저장되어 있는 5개의 텍스트 그룹들 중 '발명'이라는 단어가 그룹 내에 포함되어 있는 텍스트 그룹인 '텍스트 그룹 2', '텍스트 그룹 3', '텍스트 그룹 5'를 선택한 후 상기 데이터 저장소로부터 '텍스트 그룹 2'에 대응하는 시간 정보인 '2분', '텍스트 그룹 3'에 대응하는 시간 정보인 '4분', '텍스트 그룹 5'에 대응하는 시간 정보인 '8분'을 추출할 수 있다.
그러고 나서, 검색 결과 표시부(115)는 정보 추출부(114)에서 추출된 시간 정보인 '2분', '4분', '8분'을 상기 음성 데이터에서 '발명'이라는 단어에 대한 음성이 포함된 지점의 시간 정보로 화면 상에 표시할 수 있다.
이를 통해, 사용자는 상기 화면 상에 표시되는 시간 정보를 보고, 전체 음성 데이터에서 자신이 입력한 단어를 포함하는 음성의 재생 지점을 확인할 수 있고, 해당 시간 정보에 대한 선택 음성 재생 명령을 인가함으로써, 자신이 입력한 단어를 포함하는 음성 부분을 바로 재생시킬 수 있다.
이때, 본 발명의 일실시예에 따르면, 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치(110)는 검색 지점 재생부(116)를 더 포함할 수 있다.
검색 지점 재생부(116)는 상기 적어도 하나의 제1 시간 정보가 상기 음성 데이터에서 상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 화면 상에 표시된 이후, 상기 사용자로부터 상기 적어도 하나의 제1 시간 정보 중 어느 하나의 시간 정보인 제2 시간 정보에 대한 선택 음성 재생 명령이 인가되면, 상기 음성 데이터를 상기 제2 시간 정보에 따른 시점에서부터 재생을 시작하여 음성 출력을 제어한다.
관련해서, 앞서 설명한 예시와 같이, 사용자가 검색어로 입력한 '발명'에 대응하는 음성이 포함된 시간 정보로 '2분', '4분', '8분'이 화면 상에 표시된 이후, 상기 사용자에 의해 '4분'에 해당되는 시간 정보에 대해 선택 음성 재생 명령이 인가되면, 검색 지점 재생부(116)는 전체 음성 데이터에서 '4분'에 해당되는 시점에서부터 음성 재생을 시작하여 '특허는 발명을 한 사람과 그의 승계인만이 등록을 받을 수 있다.'라고 하는 음성이 출력되도록 제어할 수 있다.
이때, 본 발명의 일실시예에 따르면, 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치(110)는 단어 정보 저장부(117), 벡터 생성부(118), 연관 시간 정보 추출부(119) 및 연관 시간 정보 표시부(120)를 더 포함할 수 있다.
단어 정보 저장부(117)에는 복수의 단어들과 상기 복수의 단어들 각각에 대해 미리 지정된 복수의 서로 다른 자연수들이 대응되어 저장되어 있다.
예컨대, 단어 정보 저장부(117)에는 하기의 표 3과 같이 정보가 저장되어 있을 수 있다.
복수의 단어들 자연수
가지 1
특허 2
상표 3
발명 4
등록 5
... ...
벡터 생성부(118)는 텍스트 변환부(112)에서 상기 복수의 텍스트 그룹들의 생성이 완료되면, 상기 복수의 텍스트 그룹들 각각에 대해 형태소 분석을 수행하여 상기 복수의 텍스트 그룹들 각각에 포함되어 있는 단어들을 추출하고, 상기 복수의 텍스트 그룹들 별로 각 텍스트 그룹에서 추출된 단어들 중 선정된 제1 개수의 단어들을 랜덤하게 선택한 후 단어 정보 저장부(117)를 참조하여 상기 복수의 텍스트 그룹들 각각에서 선택된 상기 선정된 제1 개수의 단어들에 대응하는 자연수를 확인하여 상기 복수의 텍스트 그룹들 각각에 대해, 각 텍스트 그룹에서 선택된 상기 선정된 제1 개수의 단어들에 대응하는 자연수를 성분으로 포함하는 벡터를 생성한다.
예컨대, 상기 표 1과 같은 5개의 텍스트 그룹들 중 '텍스트 그룹 1'인 '특허법은 국가의 산업발전을 도모하기 위해서 존재하는 제도이다.'에 대해서 벡터를 생성하는 과정을 설명하면 다음과 같다.
우선, 벡터 생성부(118)는 '텍스트 그룹 1'인 '특허법은 국가의 산업발전을 도모하기 위해서 존재하는 제도이다.'에 대해 형태소 분석을 수행하여 상기 '텍스트 그룹 1'에 포함되어 있는 단어들인 '특허법', '국가', '산업발전', '도모', '존재', '제도'라고 하는 단어들을 추출할 수 있다.
이때, 상기 선정된 제1 개수를 '3개'라고 한다면, 벡터 생성부(118)는 '특허법', '국가', '산업발전', '도모', '존재', '제도'라고 하는 단어들 중 3개의 단어를 랜덤하게 선택할 수 있다. 관련해서, '특허법', '국가', '산업발전', '도모', '존재', '제도'라고 하는 단어들 중 '특허법', '국가', '제도'가 선택되었다고 하는 경우, 벡터 생성부(118)는 단어 정보 저장부(117) 상에 저장되어 있는 '특허법', '국가', '제도'에 대응하는 자연수를 확인할 수 있다.
만약, 단어 정보 저장부(117) 상에 '특허법', '국가', '제도'에 대해 각각 '11', '24', '30'이라는 자연수가 대응되어 저장되어 있다고 한다면, 벡터 생성부(118)는 '11', '24', '30'이라는 자연수 각각이 성분으로 포함된 벡터인 '(11, 24, 30)'이라고 하는 3차원 벡터를 상기 '텍스트 그룹 1'에 대응하는 벡터로 생성할 수 있다.
이러한 방식으로, 벡터 생성부(118)는 나머지 텍스트 그룹들인 '텍스트 그룹 2', '텍스트 그룹 3', '텍스트 그룹 4', '텍스트 그룹 5' 각각에 대해 3차원 벡터를 생성할 수 있다.
연관 시간 정보 추출부(119)는 이렇게 복수의 텍스트 그룹들 각각에 대한 벡터가 생성되고, 검색 지점 재생부(116)에 의해 상기 사용자로부터 상기 제2 시간 정보에 대한 선택 음성 재생 명령이 인가됨에 따라 상기 제2 시간 정보에 따른 시점에서부터 상기 음성 데이터의 재생이 시작되면, 상기 복수의 텍스트 그룹들 중 상기 제2 시간 정보에 대응하는 제2 텍스트 그룹에 대해 생성된 벡터를 기준으로 유클리드(Euclidean Distance) 거리가 선정된 기준 거리 이내로 연산되는 벡터를 갖는 적어도 하나의 다른 텍스트 그룹을 확인하여 상기 데이터 저장소로부터 상기 적어도 하나의 다른 텍스트 그룹에 대응되어 저장되어 있는 적어도 하나의 다른 시간 정보를 상기 제2 시간 정보에서의 화자의 음성에 대한 연관 내용의 음성이 녹음되어 있는 시점의 시간 정보로 추출한다.
그리고, 연관 시간 정보 표시부(120)는 상기 적어도 하나의 다른 시간 정보의 추출이 완료되면, 상기 적어도 하나의 다른 시간 정보를 상기 제2 시간 정보에서의 화자의 음성에 대한 연관 내용의 음성이 녹음되어 있는 시점의 시간 정보로 상기 화면 상에 표시한다.
관련해서, 앞서 설명한 예시에 따라 상기 표 2에서와 같은 시간 정보들 중 사용자에 의해 '4분'에 해당되는 시간 정보에 대해 선택 음성 재생 명령이 인가되어, 검색 지점 재생부(116)에 의해 '특허는 발명을 한 사람과 그의 승계인만이 등록을 받을 수 있다.'라고 하는 음성이 재생된다고 하는 경우, 연관 시간 정보 추출부(119)는 상기 표 2에서 나타낸 5개의 텍스트 그룹들 중 '4분'에 대응하는 '텍스트 그룹 3'에 대해 생성된 벡터를 기준으로 유클리드 거리가 상기 선정된 기준 거리 이내로 연산되는 벡터를 갖는 적어도 하나의 다른 텍스트 그룹을 확인할 수 있다.
여기서, 유클리드 거리란 두 벡터 간의 거리를 의미하는 것으로 하기의 수학식 1에 따라 연산될 수 있다.
Figure 112018048199475-pat00001
여기서, D는 유클리드 거리, pi와 qi는 두 벡터에 포함되어 있는 i번째 성분들을 의미한다. 두 벡터 간의 유클리드 거리가 작을수록 두 벡터는 유사한 벡터라고 볼 수 있고, 두 벡터 간의 유클리드 거리가 클수록 두 벡터는 비유사한 벡터라고 볼 수 있다.
이러한 점에 비추어 보아, 상기 '텍스트 그룹 3'에 대해 생성된 벡터를 기준으로 유클리드 거리가 상기 선정된 기준 거리 이내로 연신된 벡터를 갖는 텍스트 그룹은 상기 '텍스트 그룹 3'에 유사한 텍스트 그룹으로 볼 수 있기 때문에, 연관 시간 정보 추출부(119)는 상기 적어도 하나의 다른 텍스트 그룹이 확인되면, 상기 데이터 저장소로부터 상기 적어도 하나의 다른 텍스트 그룹에 대응되어 저장되어 있는 적어도 하나의 다른 시간 정보를 '4분'이라는 시간 정보에서의 화자의 음성에 대한 연관 내용의 음성이 존재하는 시점의 시간 정보로 추출할 수 있다.
그러고 나서, 연관 시간 정보 표시부(120)는 상기 적어도 하나의 다른 시간 정보를 '4분'이라는 시간 정보에서의 화자의 음성에 대한 연관 내용의 음성이 녹음되어 있는 시점의 시간 정보로 상기 화면 상에 표시할 수 있다.
관련해서, 연관 시간 정보 추출부(119)에서 상기 적어도 하나의 다른 시간 정보로 '2분', '8분'이 추출되었다고 하는 경우, 연관 시간 정보 표시부(120)는 '2분', '8분'을 '4분'이라는 시간 정보에서의 화자의 음성인 '특허는 발명을 한 사람과 그의 승계인만이 등록을 받을 수 있다.'에 대한 연관 내용의 음성이 녹음되어 있는 시점의 시간 정보로 상기 화면 상에 표시할 수 있다.
이를 기반으로, 사용자는 검색 지점 재생부(116)를 통해 현재 출력되고 있는 '특허는 발명을 한 사람과 그의 승계인만이 등록을 받을 수 있다.'를 들으면서, 해당 음성에 대한 연관 내용이 녹음되어 있는 지점에 대한 시간 정보인 '2분', '8분'을 볼 수 있고, '2분', '8분'이라는 시점에 대한 선택 음성 재생 명령을 인가함으로써, '2분', '8분'이라는 시점에 대응하는 음성을 바로 들을 수 있다.
이때, 본 발명의 일실시예에 따르면, 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치(110)는 단어 사전 데이터베이스(121)를 더 포함할 수 있다.
단어 사전 데이터베이스(121)에는 상기 복수의 단어들과 상기 복수의 단어들 각각에 대한 사전적 의미가 대응되어 저장되어 있다.
이때, 검색 지점 재생부(116)는 상기 사용자로부터 상기 제2 시간 정보에 대한 선택 음성 재생 명령이 인가되면, 상기 음성 데이터를 상기 제2 시간 정보에 따른 시점에서부터 재생을 시작하여 음성 출력을 제어함과 동시에, 상기 제2 시간 정보에 대응하는 상기 제2 텍스트 그룹으로부터 선택된 상기 선정된 제1 개수의 단어들을 확인한 후 단어 사전 데이터베이스(121)로부터 상기 제2 텍스트 그룹에서 선택된 상기 선정된 제1 개수의 단어들 각각에 대응하는 사전적 의미를 추출하여 상기 제2 텍스트 그룹에서 선택된 상기 선정된 제1 개수의 단어들과 각 단어들에 대한 사전적 의미를 상기 화면 상에 서로 매칭시켜 표시할 수 있다.
관련해서, 전술한 예시와 같이, 벡터 생성부(118)에 의해 상기 표 2에서 나타낸 5개의 텍스트 그룹들 각각에 대해서 3개의 단어들이 랜덤하게 선택되었다고 하고, 사용자에 의해 '4분'에 해당되는 시간 정보에 따른 선택 음성 재생 명령이 인가되었다고 하는 경우, 검색 지점 재생부(116)는 상기 음성 데이터를 '4분'에 따른 시점에서부터 재생을 시작하여 음성 출력을 제어함과 동시에, '4분'에 대응하는 텍스트 그룹인 '텍스트 그룹 3'으로부터 선택된 3개의 단어들을 확인한 후 단어 사전 데이터베이스(121)로부터 상기 '텍스트 그룹 3'에서 선택된 3개의 단어들 각각에 대응하는 사전적 의미를 추출하여 상기 '텍스트 그룹 3'에서 선택된 3개의 단어들과 각 단어들에 대한 사전적 의미를 상기 화면 상에 서로 매칭시켜 표시할 수 있다.
이를 통해, 사용자는 '4분'에 대응하는 시점의 음성인 '특허는 발명을 한 사람과 그의 승계인만이 등록을 받을 수 있다.'를 들을 수 있음과 동시에, 해당 텍스트 그룹에서 선택된 3개의 단어들 각각에 대한 사전적 의미를 화면을 통해서 볼 수 있어서, 해당 부분의 음성을 이해하는데 도움을 받을 수 있다.
본 발명의 일실시예에 따르면, 텍스트 변환부(112)는 음고 확인부(122)를 포함할 수 있다.
음고 확인부(122)는 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분에 대한 음성 분석을 수행한 결과, 상기 복수의 음성 데이터 조각들 중 음의 높이가 선정된 피치(pitch)를 초과하는 음성이 포함된 음성 데이터 조각이 존재하는지 여부를 확인한다.
이때, 데이터 저장부(113)는 상기 복수의 음성 데이터 조각들 중 음의 높이가 상기 선정된 피치를 초과하는 음성이 포함된 음성 데이터 조각으로 적어도 하나의 제1 음성 데이터 조각이 존재하는 것으로 확인된 경우, 상기 데이터 저장소 상에 상기 복수의 텍스트 그룹들과 상기 복수의 텍스트 그룹들 각각에 대응하는 음성 데이터 조각의 분할 지점에 대한 시간 정보를 서로 대응시켜 저장하면서, 상기 복수의 텍스트 그룹들 중 상기 적어도 하나의 제1 음성 데이터 조각에 대응하는 텍스트 그룹에 대해 중요 음성 데이터임을 나타내는 식별 정보를 추가로 대응시켜 저장할 수 있다.
이때, 검색 결과 표시부(115)는 정보 추출부(114)를 통해 상기 적어도 하나의 제1 시간 정보가 추출되면, 상기 적어도 하나의 제1 시간 정보를 상기 음성 데이터에서 상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 상기 화면 상에 표시하되, 상기 적어도 하나의 제1 텍스트 그룹 중 상기 데이터 저장소 상에서 상기 식별 정보가 대응되어 저장되어 있는 텍스트 그룹으로 적어도 하나의 제3 텍스트 그룹이 존재하는 것으로 확인되는 경우, 상기 화면 상에 표시되는 상기 적어도 하나의 제1 시간 정보 중 상기 적어도 하나의 제3 텍스트 그룹에 대응하는 적어도 하나의 제3 시간 정보에 대해 중요 음성 데이터가 녹음되어 있음을 나타내는 알림 메시지를 매칭시켜 표시할 수 있다.
예컨대, 5개의 음성 데이터 조각들을 분석한 결과, 음고 확인부(122)에서 상기 5개의 음성 데이터 조각들 중 '음성 데이터 조각 1', '음성 데이터 조각 2'의 음의 높이가 상기 선정된 피치를 초과하는 것으로 확인된 경우, 데이터 저장부(113)는 상기 데이터 저장소 상에 5개의 음성 데이터 조각들에 대응하는 5개의 텍스트 그룹들과 각 텍스트 그룹에 대응하는 시간 정보를 서로 대응시켜 저장함과 동시에 상기 '음성 데이터 조각 1', 상기 '음성 데이터 조각 2'에 대응하는 텍스트 그룹에 대해 중요 음성 데이터임을 나타내는 식별 정보를 추가로 대응시켜 저장할 수 있다.
그 이후, 사용자에 의해 특정 검색어에 기초한 음성 검색 요청이 수신됨에 따라 정보 추출부(114)에서 '텍스트 그룹 1', '텍스트 그룹 3'에 대응하는 시간 정보가 추출되었다고 하는 경우, 검색 결과 표시부(115)는 추출된 시간 정보를 화면 상에 표시하되, 상기 '텍스트 그룹 1', 상기 '텍스트 그룹 3' 중 상기 데이터 저장소 상에서 상기 식별 정보가 대응되어 저장되어 있는 텍스트 그룹으로 상기 '텍스트 그룹 1'이 존재하는 것으로 확인된다면, 상기 화면 상에 표시되고 있는 상기 '텍스트 그룹 1'에 대응하는 시간 정보에 대해 중요 음성 데이터가 녹음되어 있음을 나타내는 알림 메시지를 매칭시켜 표시할 수 있다.
이를 통해, 사용자는 음성 데이터의 어떤 부분에 중요 음성이 녹음되어 있는지 여부를 손쉽게 확인할 수 있고, 이로부터 중요 음성이 녹음되어 있는 시간 정보를 선택함으로써, 해당 시간 정보에 대응하는 음성을 바로 청취할 수 있다.
도 2는 본 발명의 일실시예에 따른 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치의 동작 방법을 도시한 순서도이다.
단계(S210)에서는 녹음되어 있는 화자의 음성에 대한 음성 데이터를 선정된 시간 단위로 분할하여 복수의 음성 데이터 조각들을 생성하고, 상기 복수의 음성 데이터 조각들 각각의 분할 지점에 대한 시간 정보를 생성한다.
단계(S220)에서는 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분에 대한 음성 분석을 수행하여 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분의 화자의 음성을 텍스트로 변환함으로써, 상기 복수의 음성 데이터 조각들 각각에 대응하는 복수의 텍스트 그룹들(상기 복수의 텍스트 그룹들은 상기 복수의 음성 데이터 조각들 각각에 대해서 변환된 텍스트들로 구성된 그룹임)을 생성한다.
단계(S230)에서는 데이터 저장소 상에 상기 복수의 텍스트 그룹들과 상기 복수의 텍스트 그룹들 각각에 대응하는 음성 데이터 조각의 분할 지점에 대한 시간 정보를 서로 대응시켜 저장한다.
단계(S240)에서는 사용자에 의해 제1 단어가 검색어로 입력되면서, 상기 제1 단어에 기초한 음성 검색 요청이 수신되면, 상기 데이터 저장소 상에 저장되어 있는 상기 복수의 텍스트 그룹들 중 상기 제1 단어가 그룹 내에 포함되어 있는 적어도 하나의 제1 텍스트 그룹을 선택한 후 상기 데이터 저장소로부터 상기 적어도 하나의 제1 텍스트 그룹에 대응되어 저장되어 있는 적어도 하나의 제1 시간 정보를 추출한다.
단계(S250)에서는 상기 적어도 하나의 제1 시간 정보를 상기 음성 데이터에서 상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 화면 상에 표시한다.
이때, 본 발명의 일실시예에 따르면, 상기 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치의 동작 방법은 상기 적어도 하나의 제1 시간 정보가 상기 음성 데이터에서 상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 화면 상에 표시된 이후, 상기 사용자로부터 상기 적어도 하나의 제1 시간 정보 중 어느 하나의 시간 정보인 제2 시간 정보에 대한 선택 음성 재생 명령이 인가되면, 상기 음성 데이터를 상기 제2 시간 정보에 따른 시점에서부터 재생을 시작하여 음성 출력을 제어하는 단계를 더 포함할 수 있다.
이때, 본 발명의 일실시예에 따르면, 상기 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치의 동작 방법은 복수의 단어들과 상기 복수의 단어들 각각에 대해 미리 지정된 복수의 서로 다른 자연수들이 대응되어 저장되어 있는 단어 정보 저장부를 유지하는 단계, 상기 복수의 텍스트 그룹들을 생성하는 단계에서 상기 복수의 텍스트 그룹들의 생성이 완료되면, 상기 복수의 텍스트 그룹들 각각에 대해 형태소 분석을 수행하여 상기 복수의 텍스트 그룹들 각각에 포함되어 있는 단어들을 추출하고, 상기 복수의 텍스트 그룹들 별로 각 텍스트 그룹에서 추출된 단어들 중 선정된 제1 개수의 단어들을 랜덤하게 선택한 후 상기 단어 정보 저장부를 참조하여 상기 복수의 텍스트 그룹들 각각에서 선택된 상기 선정된 제1 개수의 단어들에 대응하는 자연수를 확인하여 상기 복수의 텍스트 그룹들 각각에 대해, 각 텍스트 그룹에서 선택된 상기 선정된 제1 개수의 단어들에 대응하는 자연수를 성분으로 포함하는 벡터를 생성하는 단계, 상기 음성 출력을 제어하는 단계에 의해 상기 사용자로부터 상기 제2 시간 정보에 대한 선택 음성 재생 명령이 인가됨에 따라 상기 제2 시간 정보에 따른 시점에서부터 상기 음성 데이터의 재생이 시작되면, 상기 복수의 텍스트 그룹들 중 상기 제2 시간 정보에 대응하는 제2 텍스트 그룹에 대해 생성된 벡터를 기준으로 유클리드 거리가 선정된 기준 거리 이내로 연산되는 벡터를 갖는 적어도 하나의 다른 텍스트 그룹을 확인하여 상기 데이터 저장소로부터 상기 적어도 하나의 다른 텍스트 그룹에 대응되어 저장되어 있는 적어도 하나의 다른 시간 정보를 상기 제2 시간 정보에서의 화자의 음성에 대한 연관 내용의 음성이 녹음되어 있는 시점의 시간 정보로 추출하는 단계 및 상기 적어도 하나의 다른 시간 정보의 추출이 완료되면, 상기 적어도 하나의 다른 시간 정보를 상기 제2 시간 정보에서의 화자의 음성에 대한 연관 내용의 음성이 녹음되어 있는 시점의 시간 정보로 상기 화면 상에 표시하는 단계를 더 포함할 수 있다.
이때, 본 발명의 일실시예 따르면, 상기 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치의 동작 방법은 상기 복수의 단어들과 상기 복수의 단어들 각각에 대한 사전적 의미가 대응되어 저장되어 있는 단어 사전 데이터베이스를 유지하는 단계를 더 포함할 수 있고, 상기 음성 출력을 제어하는 단계는 상기 사용자로부터 상기 제2 시간 정보에 대한 선택 음성 재생 명령이 인가되면, 상기 음성 데이터를 상기 제2 시간 정보에 따른 시점에서부터 재생을 시작하여 음성 출력을 제어함과 동시에, 상기 제2 시간 정보에 대응하는 상기 제2 텍스트 그룹으로부터 선택된 상기 선정된 제1 개수의 단어들을 확인한 후 상기 단어 사전 데이터베이스로부터 상기 제2 텍스트 그룹에서 선택된 상기 선정된 제1 개수의 단어들 각각에 대응하는 사전적 의미를 추출하여 상기 제2 텍스트 그룹에서 선택된 상기 선정된 제1 개수의 단어들과 각 단어들에 대한 사전적 의미를 상기 화면 상에 서로 매칭시켜 표시할 수 있다.
또한, 본 발명의 일실시예에 따르면, 단계(S220)에서는 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분에 대한 음성 분석을 수행한 결과, 상기 복수의 음성 데이터 조각들 중 음의 높이가 선정된 피치를 초과하는 음성이 포함된 음성 데이터 조각이 존재하는지 여부를 확인하는 단계를 포함할 수 있다.
이때, 단계(S230)에서는 상기 복수의 음성 데이터 조각들 중 음의 높이가 상기 선정된 피치를 초과하는 음성이 포함된 음성 데이터 조각으로 적어도 하나의 제1 음성 데이터 조각이 존재하는 것으로 확인된 경우, 상기 데이터 저장소 상에 상기 복수의 텍스트 그룹들과 상기 복수의 텍스트 그룹들 각각에 대응하는 음성 데이터 조각의 분할 지점에 대한 시간 정보를 서로 대응시켜 저장하면서, 상기 복수의 텍스트 그룹들 중 상기 적어도 하나의 제1 음성 데이터 조각에 대응하는 텍스트 그룹에 대해 중요 음성 데이터임을 나타내는 식별 정보를 추가로 대응시켜 저장할 수 있다.
그리고, 단계(S250)에서는 상기 적어도 하나의 제1 시간 정보를 상기 음성 데이터에서 상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 상기 화면 상에 표시하되, 상기 적어도 하나의 제1 텍스트 그룹 중 상기 데이터 저장소 상에서 상기 식별 정보가 대응되어 저장되어 있는 텍스트 그룹으로 적어도 하나의 제3 텍스트 그룹이 존재하는 것으로 확인되는 경우, 상기 화면 상에 표시되는 상기 적어도 하나의 제1 시간 정보 중 상기 적어도 하나의 제3 텍스트 그룹에 대응하는 적어도 하나의 제3 시간 정보에 대해 중요 음성 데이터가 녹음되어 있음을 나타내는 알림 메시지를 매칭시켜 표시할 수 있다.
이상, 도 2를 참조하여 본 발명의 일실시예에 따른 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치의 동작 방법에 대해 설명하였다. 여기서, 본 발명의 일실시예에 따른 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치의 동작 방법은 도 1을 이용하여 설명한 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치(110)의 동작에 대한 구성과 대응될 수 있으므로, 이에 대한 보다 상세한 설명은 생략하기로 한다.
본 발명의 일실시예에 따른 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치의 동작 방법은 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다.
또한, 본 발명의 일실시예에 따른 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치의 동작 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.
110: 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치
111: 음성 데이터 조각 생성부 112: 텍스트 변환부
113: 데이터 저장부 114: 정보 추출부
115: 검색 결과 표시부 116: 검색 지점 재생부
117: 단어 정보 저장부 118: 벡터 생성부
119: 연관 시간 정보 추출부 120: 연관 시간 정보 표시부
121: 단어 사전 데이터베이스

Claims (12)

  1. 복수의 단어들과 상기 복수의 단어들 각각에 대해 미리 지정된 복수의 서로 다른 자연수들이 대응되어 저장되어 있는 단어 정보 저장부;
    녹음되어 있는 화자의 음성에 대한 음성 데이터를 선정된(predetermined) 시간 단위로 분할하여 복수의 음성 데이터 조각들을 생성하고, 상기 복수의 음성 데이터 조각들 각각의 분할 지점에 대한 시간 정보를 생성하는 음성 데이터 조각 생성부;
    상기 복수의 음성 데이터 조각들 각각에 대응하는 부분에 대한 음성 분석을 수행하여 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분의 화자의 음성을 텍스트로 변환함으로써, 상기 복수의 음성 데이터 조각들 각각에 대응하는 복수의 텍스트 그룹들 - 상기 복수의 텍스트 그룹들은 상기 복수의 음성 데이터 조각들 각각에 대해서 변환된 텍스트들로 구성된 그룹임 - 을 생성하는 텍스트 변환부;
    상기 텍스트 변환부에서 상기 복수의 텍스트 그룹들의 생성이 완료되면, 상기 복수의 텍스트 그룹들 각각에 대해 형태소 분석을 수행하여 상기 복수의 텍스트 그룹들 각각에 포함되어 있는 단어들을 추출하고, 상기 복수의 텍스트 그룹들 별로 각 텍스트 그룹에서 추출된 단어들 중 선정된 제1 개수의 단어들을 랜덤하게 선택한 후 상기 단어 정보 저장부를 참조하여 상기 복수의 텍스트 그룹들 각각에서 선택된 상기 선정된 제1 개수의 단어들에 대응하는 자연수를 확인하여 상기 복수의 텍스트 그룹들 각각에 대해, 각 텍스트 그룹에서 선택된 상기 선정된 제1 개수의 단어들에 대응하는 자연수를 성분으로 포함하는 벡터를 생성하는 벡터 생성부;
    데이터 저장소 상에 상기 복수의 텍스트 그룹들과 상기 복수의 텍스트 그룹들 각각에 대응하는 음성 데이터 조각의 분할 지점에 대한 시간 정보를 서로 대응시켜 저장하는 데이터 저장부;
    사용자에 의해 제1 단어가 검색어로 입력되면서, 상기 제1 단어에 기초한 음성 검색 요청이 수신되면, 상기 데이터 저장소 상에 저장되어 있는 상기 복수의 텍스트 그룹들 중 상기 제1 단어가 그룹 내에 포함되어 있는 적어도 하나의 제1 텍스트 그룹을 선택한 후 상기 데이터 저장소로부터 상기 적어도 하나의 제1 텍스트 그룹에 대응되어 저장되어 있는 적어도 하나의 제1 시간 정보를 추출하는 정보 추출부;
    상기 적어도 하나의 제1 시간 정보를 상기 음성 데이터에서 상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 화면 상에 표시하는 검색 결과 표시부;
    상기 적어도 하나의 제1 시간 정보가 상기 음성 데이터에서 상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 화면 상에 표시된 이후, 상기 사용자로부터 상기 적어도 하나의 제1 시간 정보 중 어느 하나의 시간 정보인 제2 시간 정보에 대한 선택 음성 재생 명령이 인가되면, 상기 음성 데이터를 상기 제2 시간 정보에 따른 시점에서부터 재생을 시작하여 음성 출력을 제어하는 검색 지점 재생부;
    상기 검색 지점 재생부에 의해 상기 사용자로부터 상기 제2 시간 정보에 대한 선택 음성 재생 명령이 인가됨에 따라 상기 제2 시간 정보에 따른 시점에서부터 상기 음성 데이터의 재생이 시작되면, 상기 복수의 텍스트 그룹들 중 상기 제2 시간 정보에 대응하는 제2 텍스트 그룹에 대해 생성된 벡터를 기준으로 유클리드(Euclidean Distance) 거리가 선정된 기준 거리 이내로 연산되는 벡터를 갖는 적어도 하나의 다른 텍스트 그룹을 확인하여 상기 데이터 저장소로부터 상기 적어도 하나의 다른 텍스트 그룹에 대응되어 저장되어 있는 적어도 하나의 다른 시간 정보를 상기 제2 시간 정보에서의 화자의 음성에 대한 연관 내용의 음성이 녹음되어 있는 시점의 시간 정보로 추출하는 연관 시간 정보 추출부; 및
    상기 적어도 하나의 다른 시간 정보의 추출이 완료되면, 상기 적어도 하나의 다른 시간 정보를 상기 제2 시간 정보에서의 화자의 음성에 대한 연관 내용의 음성이 녹음되어 있는 시점의 시간 정보로 상기 화면 상에 표시하는 연관 시간 정보 표시부
    를 포함하는 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    상기 복수의 단어들과 상기 복수의 단어들 각각에 대한 사전적 의미가 대응되어 저장되어 있는 단어 사전 데이터베이스
    를 더 포함하고,
    상기 검색 지점 재생부는
    상기 사용자로부터 상기 제2 시간 정보에 대한 선택 음성 재생 명령이 인가되면, 상기 음성 데이터를 상기 제2 시간 정보에 따른 시점에서부터 재생을 시작하여 음성 출력을 제어함과 동시에, 상기 제2 시간 정보에 대응하는 상기 제2 텍스트 그룹으로부터 선택된 상기 선정된 제1 개수의 단어들을 확인한 후 상기 단어 사전 데이터베이스로부터 상기 제2 텍스트 그룹에서 선택된 상기 선정된 제1 개수의 단어들 각각에 대응하는 사전적 의미를 추출하여 상기 제2 텍스트 그룹에서 선택된 상기 선정된 제1 개수의 단어들과 각 단어들에 대한 사전적 의미를 상기 화면 상에 서로 매칭시켜 표시하는 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치.
  5. 제1항에 있어서,
    상기 텍스트 변환부는
    상기 복수의 음성 데이터 조각들 각각에 대응하는 부분에 대한 음성 분석을 수행한 결과, 상기 복수의 음성 데이터 조각들 중 음의 높이가 선정된 피치(pitch)를 초과하는 음성이 포함된 음성 데이터 조각이 존재하는지 여부를 확인하는 음고 확인부
    를 포함하고,
    상기 데이터 저장부는
    상기 복수의 음성 데이터 조각들 중 음의 높이가 상기 선정된 피치를 초과하는 음성이 포함된 음성 데이터 조각으로 적어도 하나의 제1 음성 데이터 조각이 존재하는 것으로 확인된 경우, 상기 데이터 저장소 상에 상기 복수의 텍스트 그룹들과 상기 복수의 텍스트 그룹들 각각에 대응하는 음성 데이터 조각의 분할 지점에 대한 시간 정보를 서로 대응시켜 저장하면서, 상기 복수의 텍스트 그룹들 중 상기 적어도 하나의 제1 음성 데이터 조각에 대응하는 텍스트 그룹에 대해 중요 음성 데이터임을 나타내는 식별 정보를 추가로 대응시켜 저장하며,
    상기 검색 결과 표시부는
    상기 적어도 하나의 제1 시간 정보를 상기 음성 데이터에서 상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 상기 화면 상에 표시하되, 상기 적어도 하나의 제1 텍스트 그룹 중 상기 데이터 저장소 상에서 상기 식별 정보가 대응되어 저장되어 있는 텍스트 그룹으로 적어도 하나의 제3 텍스트 그룹이 존재하는 것으로 확인되는 경우, 상기 화면 상에 표시되는 상기 적어도 하나의 제1 시간 정보 중 상기 적어도 하나의 제3 텍스트 그룹에 대응하는 적어도 하나의 제3 시간 정보에 대해 중요 음성 데이터가 녹음되어 있음을 나타내는 알림 메시지를 매칭시켜 표시하는 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치.
  6. 복수의 단어들과 상기 복수의 단어들 각각에 대해 미리 지정된 복수의 서로 다른 자연수들이 대응되어 저장되어 있는 단어 정보 저장부를 유지하는 단계;
    녹음되어 있는 화자의 음성에 대한 음성 데이터를 선정된(predetermined) 시간 단위로 분할하여 복수의 음성 데이터 조각들을 생성하고, 상기 복수의 음성 데이터 조각들 각각의 분할 지점에 대한 시간 정보를 생성하는 단계;
    상기 복수의 음성 데이터 조각들 각각에 대응하는 부분에 대한 음성 분석을 수행하여 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분의 화자의 음성을 텍스트로 변환함으로써, 상기 복수의 음성 데이터 조각들 각각에 대응하는 복수의 텍스트 그룹들 - 상기 복수의 텍스트 그룹들은 상기 복수의 음성 데이터 조각들 각각에 대해서 변환된 텍스트들로 구성된 그룹임 - 을 생성하는 단계;
    상기 복수의 텍스트 그룹들을 생성하는 단계에서 상기 복수의 텍스트 그룹들의 생성이 완료되면, 상기 복수의 텍스트 그룹들 각각에 대해 형태소 분석을 수행하여 상기 복수의 텍스트 그룹들 각각에 포함되어 있는 단어들을 추출하고, 상기 복수의 텍스트 그룹들 별로 각 텍스트 그룹에서 추출된 단어들 중 선정된 제1 개수의 단어들을 랜덤하게 선택한 후 상기 단어 정보 저장부를 참조하여 상기 복수의 텍스트 그룹들 각각에서 선택된 상기 선정된 제1 개수의 단어들에 대응하는 자연수를 확인하여 상기 복수의 텍스트 그룹들 각각에 대해, 각 텍스트 그룹에서 선택된 상기 선정된 제1 개수의 단어들에 대응하는 자연수를 성분으로 포함하는 벡터를 생성하는 단계;
    데이터 저장소 상에 상기 복수의 텍스트 그룹들과 상기 복수의 텍스트 그룹들 각각에 대응하는 음성 데이터 조각의 분할 지점에 대한 시간 정보를 서로 대응시켜 저장하는 단계;
    사용자에 의해 제1 단어가 검색어로 입력되면서, 상기 제1 단어에 기초한 음성 검색 요청이 수신되면, 상기 데이터 저장소 상에 저장되어 있는 상기 복수의 텍스트 그룹들 중 상기 제1 단어가 그룹 내에 포함되어 있는 적어도 하나의 제1 텍스트 그룹을 선택한 후 상기 데이터 저장소로부터 상기 적어도 하나의 제1 텍스트 그룹에 대응되어 저장되어 있는 적어도 하나의 제1 시간 정보를 추출하는 단계;
    상기 적어도 하나의 제1 시간 정보를 상기 음성 데이터에서 상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 화면 상에 표시하는 단계;
    상기 적어도 하나의 제1 시간 정보가 상기 음성 데이터에서 상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 화면 상에 표시된 이후, 상기 사용자로부터 상기 적어도 하나의 제1 시간 정보 중 어느 하나의 시간 정보인 제2 시간 정보에 대한 선택 음성 재생 명령이 인가되면, 상기 음성 데이터를 상기 제2 시간 정보에 따른 시점에서부터 재생을 시작하여 음성 출력을 제어하는 단계;
    상기 음성 출력을 제어하는 단계에 의해 상기 사용자로부터 상기 제2 시간 정보에 대한 선택 음성 재생 명령이 인가됨에 따라 상기 제2 시간 정보에 따른 시점에서부터 상기 음성 데이터의 재생이 시작되면, 상기 복수의 텍스트 그룹들 중 상기 제2 시간 정보에 대응하는 제2 텍스트 그룹에 대해 생성된 벡터를 기준으로 유클리드(Euclidean Distance) 거리가 선정된 기준 거리 이내로 연산되는 벡터를 갖는 적어도 하나의 다른 텍스트 그룹을 확인하여 상기 데이터 저장소로부터 상기 적어도 하나의 다른 텍스트 그룹에 대응되어 저장되어 있는 적어도 하나의 다른 시간 정보를 상기 제2 시간 정보에서의 화자의 음성에 대한 연관 내용의 음성이 녹음되어 있는 시점의 시간 정보로 추출하는 단계; 및
    상기 적어도 하나의 다른 시간 정보의 추출이 완료되면, 상기 적어도 하나의 다른 시간 정보를 상기 제2 시간 정보에서의 화자의 음성에 대한 연관 내용의 음성이 녹음되어 있는 시점의 시간 정보로 상기 화면 상에 표시하는 단계
    를 포함하는 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치의 동작 방법.
  7. 삭제
  8. 삭제
  9. 제6항에 있어서,
    상기 복수의 단어들과 상기 복수의 단어들 각각에 대한 사전적 의미가 대응되어 저장되어 있는 단어 사전 데이터베이스를 유지하는 단계
    를 더 포함하고,
    상기 음성 출력을 제어하는 단계는
    상기 사용자로부터 상기 제2 시간 정보에 대한 선택 음성 재생 명령이 인가되면, 상기 음성 데이터를 상기 제2 시간 정보에 따른 시점에서부터 재생을 시작하여 음성 출력을 제어함과 동시에, 상기 제2 시간 정보에 대응하는 상기 제2 텍스트 그룹으로부터 선택된 상기 선정된 제1 개수의 단어들을 확인한 후 상기 단어 사전 데이터베이스로부터 상기 제2 텍스트 그룹에서 선택된 상기 선정된 제1 개수의 단어들 각각에 대응하는 사전적 의미를 추출하여 상기 제2 텍스트 그룹에서 선택된 상기 선정된 제1 개수의 단어들과 각 단어들에 대한 사전적 의미를 상기 화면 상에 서로 매칭시켜 표시하는 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치의 동작 방법.
  10. 제6항에 있어서,
    상기 복수의 텍스트 그룹들을 생성하는 단계는
    상기 복수의 음성 데이터 조각들 각각에 대응하는 부분에 대한 음성 분석을 수행한 결과, 상기 복수의 음성 데이터 조각들 중 음의 높이가 선정된 피치(pitch)를 초과하는 음성이 포함된 음성 데이터 조각이 존재하는지 여부를 확인하는 단계
    를 포함하고,
    상기 서로 대응시켜 저장하는 단계는
    상기 복수의 음성 데이터 조각들 중 음의 높이가 상기 선정된 피치를 초과하는 음성이 포함된 음성 데이터 조각으로 적어도 하나의 제1 음성 데이터 조각이 존재하는 것으로 확인된 경우, 상기 데이터 저장소 상에 상기 복수의 텍스트 그룹들과 상기 복수의 텍스트 그룹들 각각에 대응하는 음성 데이터 조각의 분할 지점에 대한 시간 정보를 서로 대응시켜 저장하면서, 상기 복수의 텍스트 그룹들 중 상기 적어도 하나의 제1 음성 데이터 조각에 대응하는 텍스트 그룹에 대해 중요 음성 데이터임을 나타내는 식별 정보를 추가로 대응시켜 저장하며,
    상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 화면 상에 표시하는 단계는
    상기 적어도 하나의 제1 시간 정보를 상기 음성 데이터에서 상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 상기 화면 상에 표시하되, 상기 적어도 하나의 제1 텍스트 그룹 중 상기 데이터 저장소 상에서 상기 식별 정보가 대응되어 저장되어 있는 텍스트 그룹으로 적어도 하나의 제3 텍스트 그룹이 존재하는 것으로 확인되는 경우, 상기 화면 상에 표시되는 상기 적어도 하나의 제1 시간 정보 중 상기 적어도 하나의 제3 텍스트 그룹에 대응하는 적어도 하나의 제3 시간 정보에 대해 중요 음성 데이터가 녹음되어 있음을 나타내는 알림 메시지를 매칭시켜 표시하는 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치의 동작 방법.
  11. 제6항, 제9항 또는 제10항 중 어느 한 항의 방법을 수행하는 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.
  12. 제6항, 제9항 또는 제10항 중 어느 한 항의 방법을 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램.
KR1020180055973A 2018-05-16 2018-05-16 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치 및 그 동작 방법 KR102036721B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180055973A KR102036721B1 (ko) 2018-05-16 2018-05-16 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치 및 그 동작 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180055973A KR102036721B1 (ko) 2018-05-16 2018-05-16 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치 및 그 동작 방법

Publications (1)

Publication Number Publication Date
KR102036721B1 true KR102036721B1 (ko) 2019-10-25

Family

ID=68420581

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180055973A KR102036721B1 (ko) 2018-05-16 2018-05-16 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치 및 그 동작 방법

Country Status (1)

Country Link
KR (1) KR102036721B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102198424B1 (ko) 2020-03-10 2021-01-05 주식회사 엘에이치랩 통화 녹음 정보 관리방법, 이를 위한 컴퓨터 프로그램
KR102216524B1 (ko) * 2020-04-17 2021-02-16 이준규 데이터 구조화를 통한 녹음 파일 제공 방법, 장치 및 컴퓨터-판독가능 기록 매체
WO2021235615A1 (ko) * 2020-05-21 2021-11-25 주식회사 윌비소프트 동영상 강의의 중요구간 탐지 방법, 컴퓨터 프로그램 및 컴퓨터 판독가능 기록 매체

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100247495B1 (ko) * 1996-01-15 2000-03-15 구자홍 영상 표시기기의 음성인식 번역장치 제어방법
JP2000259168A (ja) * 1999-01-19 2000-09-22 Internatl Business Mach Corp <Ibm> 音声信号を分析する方法及びコンピュータ
JP2002366552A (ja) * 2001-04-10 2002-12-20 Internatl Business Mach Corp <Ibm> 記録音声を探索し、関連セグメントを検索する方法及びシステム
JP2010256391A (ja) * 2009-04-21 2010-11-11 Takeshi Hanamura 音声情報処理装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100247495B1 (ko) * 1996-01-15 2000-03-15 구자홍 영상 표시기기의 음성인식 번역장치 제어방법
JP2000259168A (ja) * 1999-01-19 2000-09-22 Internatl Business Mach Corp <Ibm> 音声信号を分析する方法及びコンピュータ
JP2002366552A (ja) * 2001-04-10 2002-12-20 Internatl Business Mach Corp <Ibm> 記録音声を探索し、関連セグメントを検索する方法及びシステム
JP2010256391A (ja) * 2009-04-21 2010-11-11 Takeshi Hanamura 音声情報処理装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102198424B1 (ko) 2020-03-10 2021-01-05 주식회사 엘에이치랩 통화 녹음 정보 관리방법, 이를 위한 컴퓨터 프로그램
KR20210114328A (ko) 2020-03-10 2021-09-23 주식회사 엘에이치랩 통화 녹음 정보 관리방법, 이를 위한 컴퓨터 프로그램
KR102216524B1 (ko) * 2020-04-17 2021-02-16 이준규 데이터 구조화를 통한 녹음 파일 제공 방법, 장치 및 컴퓨터-판독가능 기록 매체
WO2021235615A1 (ko) * 2020-05-21 2021-11-25 주식회사 윌비소프트 동영상 강의의 중요구간 탐지 방법, 컴퓨터 프로그램 및 컴퓨터 판독가능 기록 매체

Similar Documents

Publication Publication Date Title
CN108288468B (zh) 语音识别方法及装置
US11238854B2 (en) Facilitating creation and playback of user-recorded audio
US8150687B2 (en) Recognizing speech, and processing data
US8972265B1 (en) Multiple voices in audio content
CN109325091B (zh) 兴趣点属性信息的更新方法、装置、设备及介质
JP2014219614A (ja) オーディオ装置、ビデオ装置及びコンピュータプログラム
KR102036721B1 (ko) 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치 및 그 동작 방법
JP2006178087A (ja) 字幕生成装置、検索装置、文書処理と音声処理とを融合する方法、及びプログラム
KR20080043358A (ko) 재생 디바이스의 동작을 제어하는 방법 및 시스템
US20180247629A1 (en) Audio data processing method and device
US20220093103A1 (en) Method, system, and computer-readable recording medium for managing text transcript and memo for audio file
JP4958120B2 (ja) 支援装置、支援プログラム、および支援方法
KR20060100646A (ko) 영상물의 특정 위치를 검색하는 방법 및 영상 검색 시스템
Buist et al. Automatic Summarization of Meeting Data: A Feasibility Study.
JP3896760B2 (ja) 対話記録編集装置、方法及び記憶媒体
JPWO2010146869A1 (ja) 編集支援システム、編集支援方法および編集支援プログラム
JP2020052262A (ja) 修正候補提示方法、修正候補提示プログラムおよび情報処理装置
CN110890095A (zh) 语音检测方法、推荐方法、装置、存储介质和电子设备
US20210383813A1 (en) Storage medium, editing support method, and editing support device
JPH0482357A (ja) 記録および検索方法ならびに自動記録装置
KR102119724B1 (ko) 동영상에 대한 빠른 검색을 지원하는 단말 장치 및 그 동작 방법
JP5713782B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2010134681A (ja) 講演資料作成支援システム、講演資料作成支援方法及び講演資料作成支援プログラム
KR102076565B1 (ko) 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치 및 그 동작 방법
JPH1125112A (ja) 対話音声処理方法及び装置、記録媒体

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant