KR102266061B1 - 음성 텍스트 변환 기술과 시간 정보를 이용하여 음성 데이터의 요약을 가능하게 하는 전자 장치 및 그 동작 방법 - Google Patents

음성 텍스트 변환 기술과 시간 정보를 이용하여 음성 데이터의 요약을 가능하게 하는 전자 장치 및 그 동작 방법 Download PDF

Info

Publication number
KR102266061B1
KR102266061B1 KR1020190085520A KR20190085520A KR102266061B1 KR 102266061 B1 KR102266061 B1 KR 102266061B1 KR 1020190085520 A KR1020190085520 A KR 1020190085520A KR 20190085520 A KR20190085520 A KR 20190085520A KR 102266061 B1 KR102266061 B1 KR 102266061B1
Authority
KR
South Korea
Prior art keywords
text
time information
speech data
voice
group
Prior art date
Application number
KR1020190085520A
Other languages
English (en)
Other versions
KR20210009029A (ko
Inventor
안정우
Original Assignee
주식회사 한글과컴퓨터
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 한글과컴퓨터 filed Critical 주식회사 한글과컴퓨터
Priority to KR1020190085520A priority Critical patent/KR102266061B1/ko
Publication of KR20210009029A publication Critical patent/KR20210009029A/ko
Application granted granted Critical
Publication of KR102266061B1 publication Critical patent/KR102266061B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

음성 텍스트 변환 기술과 시간 정보를 이용하여 음성 데이터의 요약을 가능하게 하는 전자 장치 및 그 동작 방법이 개시된다. 본 발명은 미리 녹음된 화자의 음성 데이터를 텍스트로 변환한 후, 사용자에 의해 상기 변환된 텍스트를 구성하는 복수의 텍스트 그룹들 중 적어도 하나의 제1 텍스트 그룹의 삭제 명령이 수신되면, 상기 복수의 텍스트 그룹들에서 상기 적어도 하나의 제1 텍스트 그룹을 제외한 나머지 텍스트 그룹을 결합하여 요약 텍스트를 생성하고, 상기 요약 텍스트에 대응되어 저장되어 있는 적어도 하나의 시간 정보를 추출하여 상기 적어도 하나의 시간 정보에 대응되는 음성 데이터 조각을 결합함으로써 요약 음성 데이터를 생성할 수 있도록 한다.

Description

음성 텍스트 변환 기술과 시간 정보를 이용하여 음성 데이터의 요약을 가능하게 하는 전자 장치 및 그 동작 방법{ELECTRONIC DEVICE CAPABLE OF SUMMARIZING SPEECH DATA USING SPEECH TO TEXT CONVERSION TECHNOLOGY AND TIME INFORMATION AND OPERATING METHOD THEREOF}
본 발명은 음성 텍스트 변환 기술과 시간 정보를 이용하여 음성 데이터의 요약을 가능하게 하는 전자 장치 및 그 동작 방법에 대한 것이다.
최근, 인공지능의 발달과 더불어 회의, 연설, 고객상담 및 인터뷰 등 다양한 분야에서 음성 인터페이스 기술의 활용이 늘어나고 있다.
여기서, 음성 인터페이스 기술이란 컴퓨터와 사람이 음성을 통해 의사소통할 수 있게 하는 기술로서 그 중 핵심은 음성 텍스트 변환 기술이라고 할 수 있다. 음성 텍스트 변환 기술은 사람이 말하는 음성을 컴퓨터가 해석하여 그 내용을 문자 데이터로 전환하는 처리 기술을 의미한다.
한편, 미리 녹음된 원본 음성 데이터를 중요한 내용만으로 구성되도록 요약하기 위해서는, 원본 음성 데이터 전체를 재생시켜 전체적인 내용을 파악한 이후, 중요하지 않은 부분을 일일이 삭제하는 과정을 거쳐야 할 것이다. 이러한 과정은 작업자에게 매우 번거롭고, 많은 시간이 소요되어 비경제적이다.
이때, 음성 텍스트 변환 기술을 통해 녹음된 원본 음성 데이터를 텍스트로 변환하여 스크립트를 구성하고, 이러한 스크립트를 상대적으로 어렵지 않게 요약한 후, 요약된 텍스트에 대응되는 음성 데이터 부분만을 결합하여 요약된 음성 데이터를 생성할 수 있다면, 효과적인 음성 데이터의 요약이 가능할 것이다.
다만, 스크립트를 통해 내용을 파악하고 요약할 경우, 적은 시간 내에 요약 음성 데이터를 생성할 수는 있으나, 스크립트만으로 실제 음성의 높낮이, 크기 등에 따른 음성의 뉘앙스는 알 수 없다는 문제가 있다.
즉, 음성의 뉘앙스를 알 수 없으면, 음성에 담긴 내용의 중요도 등을 파악할 수 없다는 문제가 있는데, 이때, 녹음된 음성의 높낮이를 분석함에 따라 음성 데이터 요약에 있어 중요한 내용인지 여부를 고려할 수 있다면 더욱 효율적일 것이다.
따라서, 음성 텍스트 변환 기술과 시간 정보를 이용하고, 음의 높낮이를 고려하여 음성 데이터의 요약을 가능하게 하는 전자 장치에 대한 연구가 필요하다.
본 발명은 미리 녹음된 화자의 음성 데이터를 텍스트로 변환한 후, 사용자에 의해 상기 변환된 텍스트를 구성하는 복수의 텍스트 그룹들 중 적어도 하나의 제1 텍스트 그룹의 삭제 명령이 수신되면, 상기 복수의 텍스트 그룹들에서 상기 적어도 하나의 제1 텍스트 그룹을 제외한 나머지 텍스트 그룹을 결합하여 요약 텍스트를 생성하고, 상기 요약 텍스트에 대응되어 저장되어 있는 적어도 하나의 시간 정보를 추출하여 상기 적어도 하나의 시간 정보에 대응되는 음성 데이터 조각을 결합함으로써 요약 음성 데이터를 생성할 수 있도록 한다.
본 발명의 일실시예에 따른 음성 텍스트 변환 기술과 시간 정보를 이용하여 음성 데이터의 요약을 가능하게 하는 전자 장치는 미리 녹음된 화자의 음성 데이터를 기설정된(predetermined) 시간 단위로 분할하여 복수의 음성 데이터 조각들을 생성하고, 음성 데이터베이스에 상기 복수의 음성 데이터 조각들과 상기 복수의 음성 데이터 조각들 각각의 재생 구간에 대한 시간 정보를 서로 대응시켜 저장하는 음성 정보 저장부, 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분에 대한 음성 분석을 수행하여 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분의 화자의 음성을 텍스트로 변환함으로써, 상기 복수의 음성 데이터 조각들 각각에 대응하는 복수의 텍스트 그룹들 - 상기 복수의 텍스트 그룹들은 상기 복수의 음성 데이터 조각들 각각에 대해서 변환된 텍스트들로 구성된 그룹임 - 을 생성하는 텍스트 생성부, 텍스트 데이터베이스에 상기 복수의 텍스트 그룹들과 상기 복수의 텍스트 그룹들 각각에 대응하는 음성 데이터 조각들의 재생 구간에 대한 시간 정보를 서로 대응시켜 저장하는 텍스트 정보 저장부, 사용자에 의해 상기 복수의 텍스트 그룹들 중 적어도 하나의 제1 텍스트 그룹의 삭제 명령이 수신되면, 상기 복수의 텍스트 그룹들에서 상기 적어도 하나의 제1 텍스트 그룹을 제외한 후, 상기 복수의 텍스트 그룹들에서 상기 적어도 하나의 제1 텍스트 그룹을 제외한 나머지 텍스트 그룹인 적어도 하나의 제2 텍스트 그룹을 결합하여 요약 텍스트를 생성하는 요약 텍스트 생성부, 상기 텍스트 데이터베이스로부터 상기 요약 텍스트를 구성하는 상기 적어도 하나의 제2 텍스트 그룹에 대응되어 저장되어 있는 적어도 하나의 제1 시간 정보 - 상기 적어도 하나의 제1 시간 정보는 상기 적어도 하나의 제2 텍스트 그룹 각각에 대응하는 음성 데이터 조각들의 재생 구간에 대한 시간 정보들의 집합임 - 를 추출하는 시간 정보 추출부 및 상기 음성 데이터베이스로부터 상기 적어도 하나의 제1 시간 정보에 대응되는 적어도 하나의 제1 음성 데이터 조각을 추출한 후, 상기 적어도 하나의 제1 음성 데이터 조각을 결합하여 요약 음성 데이터를 생성하는 요약 음성 데이터 생성부를 포함한다.
또한, 본 발명의 일실시예에 따른 음성 텍스트 변환 기술과 시간 정보를 이용하여 음성 데이터의 요약을 가능하게 하는 전자 장치의 동작 방법은 미리 녹음된 화자의 음성 데이터를 기설정된 시간 단위로 분할하여 복수의 음성 데이터 조각들을 생성하고, 음성 데이터베이스에 상기 복수의 음성 데이터 조각들과 상기 복수의 음성 데이터 조각들 각각의 재생 구간에 대한 시간 정보를 서로 대응시켜 저장하는 단계, 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분에 대한 음성 분석을 수행하여 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분의 화자의 음성을 텍스트로 변환함으로써, 상기 복수의 음성 데이터 조각들 각각에 대응하는 복수의 텍스트 그룹들 - 상기 복수의 텍스트 그룹들은 상기 복수의 음성 데이터 조각들 각각에 대해서 변환된 텍스트들로 구성된 그룹임 - 을 생성하는 단계, 텍스트 데이터베이스에 상기 복수의 텍스트 그룹들과 상기 복수의 텍스트 그룹들 각각에 대응하는 음성 데이터 조각들의 재생 구간에 대한 시간 정보를 서로 대응시켜 저장하는 단계, 사용자에 의해 상기 복수의 텍스트 그룹들 중 적어도 하나의 제1 텍스트 그룹의 삭제 명령이 수신되면, 상기 복수의 텍스트 그룹들에서 상기 적어도 하나의 제1 텍스트 그룹을 제외한 후, 상기 복수의 텍스트 그룹들에서 상기 적어도 하나의 제1 텍스트 그룹을 제외한 나머지 텍스트 그룹인 적어도 하나의 제2 텍스트 그룹을 결합하여 요약 텍스트를 생성하는 단계, 상기 텍스트 데이터베이스로부터 상기 요약 텍스트를 구성하는 상기 적어도 하나의 제2 텍스트 그룹에 대응되어 저장되어 있는 적어도 하나의 제1 시간 정보 - 상기 적어도 하나의 제1 시간 정보는 상기 적어도 하나의 제2 텍스트 그룹 각각에 대응하는 음성 데이터 조각들의 재생 구간에 대한 시간 정보들의 집합임 - 를 추출하는 단계 및 상기 음성 데이터베이스로부터 상기 적어도 하나의 제1 시간 정보에 대응되는 적어도 하나의 제1 음성 데이터 조각을 추출한 후, 상기 적어도 하나의 제1 음성 데이터 조각을 결합하여 요약 음성 데이터를 생성하는 단계를 포함한다.
본 발명은 미리 녹음된 화자의 음성 데이터를 텍스트로 변환한 후, 사용자에 의해 상기 변환된 텍스트를 구성하는 복수의 텍스트 그룹들 중 적어도 하나의 제1 텍스트 그룹의 삭제 명령이 수신되면, 상기 복수의 텍스트 그룹들에서 상기 적어도 하나의 제1 텍스트 그룹을 제외한 나머지 텍스트 그룹을 결합하여 요약 텍스트를 생성하고, 상기 요약 텍스트에 대응되어 저장되어 있는 적어도 하나의 시간 정보를 추출하여 상기 적어도 하나의 시간 정보에 대응되는 음성 데이터 조각을 결합함으로써 요약 음성 데이터를 생성할 수 있다.
도 1은 본 발명의 일실시예에 따른 음성 텍스트 변환 기술과 시간 정보를 이용하여 음성 데이터의 요약을 가능하게 하는 전자 장치의 구조를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 음성 텍스트 변환 기술과 시간 정보를 이용하여 음성 데이터의 요약을 가능하게 하는 전자 장치의 동작 방법을 도시한 순서도이다.
이하에서는 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명하기로 한다. 이러한 설명은 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였으며, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 본 명세서 상에서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 사람에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.
본 문서에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다. 또한, 본 발명의 다양한 실시예들에 있어서, 각 구성요소들, 기능 블록들 또는 수단들은 하나 또는 그 이상의 하부 구성요소로 구성될 수 있고, 각 구성요소들이 수행하는 전기, 전자, 기계적 기능들은 전자회로, 집적회로, ASIC(Application Specific Integrated Circuit) 등 공지된 다양한 소자들 또는 기계적 요소들로 구현될 수 있으며, 각각 별개로 구현되거나 2 이상이 하나로 통합되어 구현될 수도 있다.
한편, 첨부된 블록도의 블록들이나 흐름도의 단계들은 범용 컴퓨터, 특수용 컴퓨터, 휴대용 노트북 컴퓨터, 네트워크 컴퓨터 등 데이터 프로세싱이 가능한 장비의 프로세서나 메모리에 탑재되어 지정된 기능들을 수행하는 컴퓨터 프로그램 명령들(instructions)을 의미하는 것으로 해석될 수 있다. 이들 컴퓨터 프로그램 명령들은 컴퓨터 장치에 구비된 메모리 또는 컴퓨터에서 판독 가능한 메모리에 저장될 수 있기 때문에, 블록도의 블록들 또는 흐름도의 단계들에서 설명된 기능들은 이를 수행하는 명령 수단을 내포하는 제조물로 생산될 수도 있다. 아울러, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 명령들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 가능한 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 정해진 순서와 달리 실행되는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 실질적으로 동시에 수행되거나, 역순으로 수행될 수 있으며, 경우에 따라 일부 블록들 또는 단계들이 생략된 채로 수행될 수도 있다.
도 1은 본 발명의 일실시예에 따른 음성 텍스트 변환 기술과 시간 정보를 이용하여 음성 데이터의 요약을 가능하게 하는 전자 장치의 구조를 도시한 도면이다.
도 1을 참조하면, 본 발명의 일실시예에 따른 음성 텍스트 변환 기술과 시간 정보를 이용하여 음성 데이터의 요약을 가능하게 하는 전자 장치(110)는 음성 정보 저장부(111), 텍스트 생성부(112), 텍스트 정보 저장부(113), 요약 텍스트 생성부(114), 시간 정보 추출부(115) 및 요약 음성 데이터 생성부(116)를 포함한다.
음성 정보 저장부(111)는 미리 녹음된 화자의 음성 데이터를 기설정된(predetermined) 시간 단위로 분할하여 복수의 음성 데이터 조각들을 생성하고, 음성 데이터베이스에 상기 복수의 음성 데이터 조각들과 상기 복수의 음성 데이터 조각들 각각의 재생 구간에 대한 시간 정보를 서로 대응시켜 저장한다.
예컨대, 5분짜리 음성 데이터가 존재한다고 하고, 상기 기설정된 시간 단위를 '1분'이라고 하는 경우, 음성 정보 저장부(111)는 1분(60초) 단위로 상기 5분짜리 음성 데이터를 분할하여 5개의 음성 데이터 조각들을 생성하고, 음성 데이터베이스에 하기의 표 1과 같이 상기 5개의 음성 데이터 조각들과 상기 5개의 음성 데이터 조각들 각각의 재생 구간에 대한 시간 정보를 서로 대응시켜 저장할 수 있다.
5개의 음성 데이터 조각들 재생 구간에 대한 시간 정보
음성 데이터 조각 1 00:00 ~ 00:59
음성 데이터 조각 2 01:00 ~ 01:59
음성 데이터 조각 3 02:00 ~ 02:59
음성 데이터 조각 4 03:00 ~ 03:59
음성 데이터 조각 5 04:00 ~ 04:59
텍스트 생성부(112)는 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분에 대한 음성 분석을 수행하여 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분의 화자의 음성을 텍스트로 변환함으로써, 상기 복수의 음성 데이터 조각들 각각에 대응하는 복수의 텍스트 그룹들을 생성한다.
여기서, 상기 복수의 텍스트 그룹들은 상기 복수의 음성 데이터 조각들 각각에 대해서 변환된 텍스트들로 구성된 그룹을 의미한다.
예컨대, 앞서 설명한 예와 같이, 5분짜리 음성 데이터가 1분 단위로 분할되어 5개의 음성 데이터 조각들이 생성되었다고 하는 경우, 텍스트 생성부(112)는 상기 5개의 음성 데이터 조각들 각각에 대응하는 부분에 대한 음성 분석을 수행하여 상기 5개의 음성 데이터 조각들 각각에 대응하는 부분의 화자의 음성을 텍스트로 변환함으로써, 5개의 텍스트 그룹들을 생성할 수 있다.
관련해서, 상기 5개의 텍스트 그룹들은 하기의 표 2과 같이 나타낼 수 있다.
5개의 텍스트 그룹들 각 텍스트 그룹을 구성하는 텍스트
텍스트 그룹 1 특허법은 국가의 산업발전을 도모하기 위해서 존재하는 제도이다.
텍스트 그룹 2 발명이란 자연법칙을 이용한 기술적 사상의 창작으로 고도한 것을 의미한다.
텍스트 그룹 3 특허는 발명을 한 사람과 그의 승계인만이 등록을 받을 수 있다.
텍스트 그룹 4 청구항은 독립항과 종속항으로 구성될 수 있다.
텍스트 그룹 5 특허권자는 업으로서 그 발명을 실시할 권리를 독점한다.
텍스트 정보 저장부(113)는 텍스트 데이터베이스에 상기 복수의 텍스트 그룹들과 상기 복수의 텍스트 그룹들 각각에 대응하는 음성 데이터 조각들의 재생 구간에 대한 시간 정보를 서로 대응시켜 저장한다.
예컨대, 상기 표 2와 같이 5개의 텍스트 그룹들이 생성되었다고 하고, 상기 5개의 텍스트 그룹들 각각에 대응하는 5개의 음성 데이터 조각들이 1분 단위로 분할되었다고 한다면, 텍스트 정보 저장부(113)는 상기 텍스트 데이터베이스에 하기의 표3과 같이 상기 5개의 텍스트 그룹들과 상기 5개의 텍스트 그룹들 각각에 대응하는 음성 데이터 조각들의 재생 구간에 대한 시간 정보를 서로 대응시켜 저장할 수 있다.
5개의 텍스트 그룹들 재생 구간에 대한 시간 정보
텍스트 그룹 1 00:00 ~ 00:59
텍스트 그룹 2 01:00 ~ 01:59
텍스트 그룹 3 02:00 ~ 02:59
텍스트 그룹 4 03:00 ~ 03:59
텍스트 그룹 5 04:00 ~ 04:59
요약 텍스트 생성부(114)는 사용자에 의해 상기 복수의 텍스트 그룹들 중 적어도 하나의 제1 텍스트 그룹의 삭제 명령이 수신되면, 상기 복수의 텍스트 그룹들에서 상기 적어도 하나의 제1 텍스트 그룹을 제외한 후, 상기 복수의 텍스트 그룹들에서 상기 적어도 하나의 제1 텍스트 그룹을 제외한 나머지 텍스트 그룹인 적어도 하나의 제2 텍스트 그룹을 결합하여 요약 텍스트를 생성한다.
이후, 시간 정보 추출부(115)는 상기 텍스트 데이터베이스로부터 상기 요약 텍스트를 구성하는 상기 적어도 하나의 제2 텍스트 그룹에 대응되어 저장되어 있는 적어도 하나의 제1 시간 정보를 추출한다. 여기서, 상기 적어도 하나의 제1 시간 정보는 상기 적어도 하나의 제2 텍스트 그룹 각각에 대응하는 음성 데이터 조각들의 재생 구간에 대한 시간 정보들의 집합을 의미한다.
시간 정보 추출부(115)에 의해 상기 적어도 하나의 제1 시간 정보가 추출되면, 요약 음성 데이터 생성부(116)는 상기 음성 데이터베이스로부터 상기 적어도 하나의 제1 시간 정보에 대응되는 적어도 하나의 제1 음성 데이터 조각을 추출한 후, 상기 적어도 하나의 제1 음성 데이터 조각을 결합하여 요약 음성 데이터를 생성한다.
예컨대, 상기 표 2와 같이 5개의 텍스트 그룹들이 생성되고, 상기 표 3과 같이 텍스트 데이터베이스에 상기 5개의 텍스트 그룹들과 상기 5개의 텍스트 그룹들 각각에 대응하는 재생 구간에 대한 시간 정보가 저장되어 있다고 가정하자.
만약, 사용자에 의해 상기 5개의 텍스트 그룹들 중 '텍스트 그룹 2'와 '텍스트 그룹 4'의 삭제 명령이 수신되면, 요약 텍스트 생성부(114)는 상기 5개의 텍스트 그룹들에서 상기 '텍스트 그룹 2'와 상기 '텍스트 그룹 4'를 제외한 후, 상기 5개의 텍스트 그룹들에서 상기 '텍스트 그룹 2'와 상기 '텍스트 그룹 4'를 제외한 나머지 텍스트 그룹인 '텍스트 그룹 1', '텍스트 그룹 3' 및 '텍스트 그룹 5'를 결합하여 요약 텍스트를 생성할 수 있다.
그리고, 시간 정보 추출부(115)는 상기 표 3과 같은 상기 텍스트 데이터베이스로부터 상기 요약 텍스트를 구성하는 상기 '텍스트 그룹 1', 상기 '텍스트 그룹 3' 및 상기 '텍스트 그룹 5'에 대응되어 저장되어 있는 재생 구간에 대한 시간 정보로서 '00:00 ~ 00:59', '02:00 ~ 02:59', 및 '04:00 ~ 04:59'를 추출할 수 있다.
이후, 요약 음성 데이터 생성부(116)는 상기 표 1과 같은 상기 음성 데이터베이스로부터 상기 '00:00 ~ 00:59'에 대응되는 '음성 데이터 조각 1', 상기 '02:00 ~ 02:59'에 대응되는 '음성 데이터 조각 3' 및 '04:00 ~ 04:59'에 대응되는 '음성 데이터 조각 5'를 추출할 수 있고, 이후 상기 '음성 데이터 조각 1', 상기 '음성 데이터 조각 3', 및 상기 '음성 데이터 조각 5'를 결합하여 요약 음성 데이터를 생성할 수 있다.
결론적으로, 상기 요약 음성 데이터를 재생시키면, '특허법은 국가의 산업발전을 도모하기 위해서 존재하는 제도이다. 특허는 발명을 한 사람과 그의 승계인만이 등록을 받을 수 있다. 특허권자는 업으로서 그 발명을 실시할 권리를 독점한다' 라고 하는 음성이 출력될 수 있을 것이다.
이때, 본 발명의 일실시예에 따르면, 텍스트 생성부(112)는 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분의 화자의 음성을 텍스트로 변환하되, 중요 음성 데이터를 식별하기 위해 피치 확인부(117)를 포함할 수 있다.
피치 확인부(117)는 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분에 대한 음성 분석을 수행한 결과, 상기 복수의 음성 데이터 조각들 중 음의 높이가 기설정된 피치(pitch)를 초과하는 음성이 포함된 음성 데이터 조각이 존재하는지 여부를 확인한다.
이때, 본 발명의 일실시예에 따르면, 텍스트 정보 저장부(113)는 상기 복수의 음성 데이터 조각들 중 음의 높이가 상기 기설정된 피치를 초과하는 음성이 포함된 음성 데이터 조각으로 적어도 하나의 제2 음성 데이터 조각이 존재하는 것으로 확인된 경우, 상기 텍스트 데이터베이스에 상기 복수의 텍스트 그룹들과 상기 복수의 텍스트 그룹들 각각에 대응하는 음성 데이터 조각들의 재생 구간에 대한 시간 정보를 서로 대응시켜 저장하면서, 상기 복수의 텍스트 그룹들 중 상기 적어도 하나의 제2 음성 데이터 조각에 대응하는 텍스트 그룹에 대해 중요 음성 데이터임을 나타내는 식별 정보를 추가로 대응시켜 저장할 수 있다.
이때, 본 발명의 일실시예에 따르면, 요약 텍스트 생성부(114)는 알림 메시지표시부(118)를 포함할 수 있다.
알림 메시지 표시부(118)는 상기 사용자에 의해 상기 복수의 텍스트 그룹들 중 상기 적어도 하나의 제1 텍스트 그룹의 삭제 명령이 수신되면, 상기 적어도 하나의 제1 텍스트 그룹 중 상기 텍스트 데이터베이스에 상기 식별 정보가 대응되어 저장되어 있는 텍스트 그룹이 존재하는지 확인하고, 상기 적어도 하나의 제1 텍스트 그룹 중 상기 텍스트 데이터베이스에 상기 식별 정보가 대응되어 저장되어 있는 텍스트 그룹으로 적어도 하나의 제3 텍스트 그룹이 존재하는 것으로 확인되는 경우, 화면 상에 상기 적어도 하나의 제3 텍스트 그룹이 중요 음성 데이터에 대한 텍스트 그룹임을 알리는 알림 메시지를 표시한다.
예컨대, 피치 확인부(117)가 5개의 음성 데이터 조각들 각각에 대응하는 부분에 대한 음성 분석을 수행한 결과, 상기 5개의 음성 데이터 조각들 중 '음성 데이터 조각 1', '음성 데이터 조각 2'의 음의 높이가 기설정된 피치를 초과하는 것으로 확인된 경우, 텍스트 정보 저장부(113)는 상기 표 3과 같은 상기 텍스트 데이터베이스에 상기 5개의 텍스트 그룹들과 상기 5개의 텍스트 그룹들 각각에 대응하는 음성 데이터 조각들의 재생 구간에 대한 시간 정보를 서로 대응시켜 저장하면서, 상기 '음성 데이터 조각 1', 상기 '음성 데이터 조각 2'에 대응하는 텍스트 그룹에 대해 중요 음성 데이터임을 나타내는 식별 정보를 추가로 대응시켜 저장할 수 있다.
그 이후, 알림 메시지 표시부(118)는 앞선 예와 같이, 사용자에 의해 상기 복수의 텍스트 그룹들 중 '텍스트 그룹 2'와 '텍스트 그룹 4'의 삭제 명령이 수신되면, 상기 '텍스트 그룹 2'와 상기 '텍스트 그룹 4' 중 상기 텍스트 데이터베이스에 상기 식별 정보가 대응되어 저장되어 있는 텍스트 그룹으로 상기 '텍스트 그룹 2'가 존재하는 것으로 확인되는 경우, 화면 상에 상기 '텍스트 그룹 2'가 중요 음성 데이터에 대한 텍스트 그룹임을 알리는 알림 메시지를 표시할 수 있다.
또한, 본 발명의 일실시예에 따르면, 음성 데이터의 요약을 가능하게 하는 전자 장치(110)는 검색 정보 추출부(119) 및 검색 결과 표시부(120)를 더 포함할 수 있다.
검색 정보 추출부(119)는 상기 사용자에 의해 제1 단어가 검색어로 입력되면서, 상기 제1 단어에 기초한 음성 검색 요청이 수신되면, 상기 텍스트 데이터베이스에 저장되어 있는 상기 복수의 텍스트 그룹들 중 상기 제1 단어가 그룹 내에 포함되어 있는 적어도 하나의 제4 텍스트 그룹을 선택한 후, 상기 텍스트 데이터베이스로부터 상기 적어도 하나의 제4 텍스트 그룹에 대응되어 저장되어 있는 적어도 하나의 제2 시간 정보를 추출한다.
그리고, 검색 결과 표시부(120)는 상기 적어도 하나의 제2 시간 정보를 상기 음성 데이터에서 상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 화면 상에 표시한다.
예컨대, 상기 표 2와 같은 5개의 텍스트 그룹들이 존재하고, 상기 텍스트 데이터베이스에 상기 표 3과 같이 정보가 저장되었다고 가정하자.
사용자에 의해 '발명'이라는 단어가 검색어로 입력되면서, '발명'이라는 단어에 기초한 음성 검색 요청이 수신되면, 검색 정보 추출부(119)는 상기 텍스트 데이터베이스에 저장되어 있는 5개의 텍스트 그룹들 중 '발명'이라는 단어가 그룹 내에 포함되어 있는 '텍스트 그룹 2', '텍스트 그룹 3' 및 '텍스트 그룹 5'를 선택한 후, 상기 텍스트 데이터베이스로부터 '텍스트 그룹 2'에 대응하는 시간 정보인 '01:00 ~ 01:59', '텍스트 그룹 3'에 대응하는 시간 정보인 '02:00 ~ 02:59' 및 '텍스트 그룹 5'에 대응하는 시간 정보인 '04:00 ~ 04:59'을 추출할 수 있다.
그러고 나서, 검색 결과 표시부(120)는 검색 정보 추출부(119)에서 추출된 시간 정보인 '01:00 ~ 01:59', '02:00 ~ 02:59', '04:00 ~ 04:59'을 상기 음성 데이터에서 '발명'이라는 단어에 대한 음성이 포함된 지점의 시간 정보로 화면 상에 표시할 수 있다.
이를 통해, 사용자는 상기 화면 상에 표시되는 시간 정보를 보고, 전체 음성 데이터에서 자신이 입력한 단어를 포함하는 음성의 재생 지점을 확인할 수 있고, 해당 시간 정보에 대한 선택 음성 재생 명령을 인가함으로써, 자신이 입력한 단어를 포함하는 음성 부분을 바로 재생시킬 수 있다.
이때, 본 발명의 일실시예에 따르면, 음성 데이터의 요약을 가능하게 하는 전자 장치(110)는 검색 지점 재생부(121)를 더 포함할 수 있다.
검색 지점 재생부(121)는 상기 적어도 하나의 제2 시간 정보가 상기 음성 데이터에서 상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 화면 상에 표시된 이후, 상기 사용자로부터 상기 적어도 하나의 제2 시간 정보 중 어느 하나의 시간 정보인 제3 시간 정보에 대한 선택 음성 재생 명령이 인가되면, 상기 음성 데이터를 상기 제3 시간 정보에 따른 시점에서부터 재생을 시작하여 음성 출력을 제어한다.
관련해서, 앞서 설명한 예시와 같이, 사용자가 검색어로 입력한 '발명'에 대응하는 음성이 포함된 시간 정보로 '01:00 ~ 01:59', '02:00 ~ 02:59' 및 '04:00 ~ 04:59'이 화면 상에 표시된 이후, 상기 사용자에 의해 '04:00 ~ 04:59'에 해당되는 시간 정보에 대해 선택 음성 재생 명령이 인가되면, 검색 지점 재생부(121)는 전체 음성 데이터에서 '04:00 ~ 04:59'에 해당되는 시점인 '04:00'에서부터 음성 재생을 시작하여 '특허권자는 업으로서 그 발명을 실시할 권리를 독점한다'라고 하는 음성이 출력되도록 제어할 수 있다.
도 2는 본 발명의 일실시예에 따른 음성 텍스트 변환 기술과 시간 정보를 이용하여 음성 데이터의 요약을 가능하게 하는 전자 장치의 동작 방법을 도시한 순서도이다.
단계(S210)에서는 미리 녹음된 화자의 음성 데이터를 기설정된 시간 단위로 분할하여 복수의 음성 데이터 조각들을 생성하고, 음성 데이터베이스에 상기 복수의 음성 데이터 조각들과 상기 복수의 음성 데이터 조각들 각각의 재생 구간에 대한 시간 정보를 서로 대응시켜 저장한다.
단계(S220)에서는 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분에 대한 음성 분석을 수행하여 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분의 화자의 음성을 텍스트로 변환함으로써, 상기 복수의 음성 데이터 조각들 각각에 대응하는 복수의 텍스트 그룹들(상기 복수의 텍스트 그룹들은 상기 복수의 음성 데이터 조각들 각각에 대해서 변환된 텍스트들로 구성된 그룹임)을 생성한다.
단계(S230)에서는 텍스트 데이터베이스에 상기 복수의 텍스트 그룹들과 상기 복수의 텍스트 그룹들 각각에 대응하는 음성 데이터 조각들의 재생 구간에 대한 시간 정보를 서로 대응시켜 저장한다.
단계(S240)에서는 사용자에 의해 상기 복수의 텍스트 그룹들 중 적어도 하나의 제1 텍스트 그룹의 삭제 명령이 수신되면, 상기 복수의 텍스트 그룹들에서 상기 적어도 하나의 제1 텍스트 그룹을 제외한 후, 상기 복수의 텍스트 그룹들에서 상기 적어도 하나의 제1 텍스트 그룹을 제외한 나머지 텍스트 그룹인 적어도 하나의 제2 텍스트 그룹을 결합하여 요약 텍스트를 생성한다.
단계(S250)에서는 상기 텍스트 데이터베이스로부터 상기 요약 텍스트를 구성하는 상기 적어도 하나의 제2 텍스트 그룹에 대응되어 저장되어 있는 적어도 하나의 제1 시간 정보(상기 적어도 하나의 제1 시간 정보는 상기 적어도 하나의 제2 텍스트 그룹 각각에 대응하는 음성 데이터 조각들의 재생 구간에 대한 시간 정보들의 집합임)를 추출한다.
단계(S260)에서는 상기 음성 데이터베이스로부터 상기 적어도 하나의 제1 시간 정보에 대응되는 적어도 하나의 제1 음성 데이터 조각을 추출한 후, 상기 적어도 하나의 제1 음성 데이터 조각을 결합하여 요약 음성 데이터를 생성한다.
이때, 본 발명의 일실시예에 따르면, 단계(S220)에서는 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분에 대한 음성 분석을 수행한 결과, 상기 복수의 음성 데이터 조각들 중 음의 높이가 기설정된 피치를 초과하는 음성이 포함된 음성 데이터 조각이 존재하는지 여부를 확인하는 단계를 포함할 수 있다.
이때, 본 발명의 일실시예에 따르면, 단계(S230)에서는 상기 복수의 음성 데이터 조각들 중 음의 높이가 상기 기설정된 피치를 초과하는 음성이 포함된 음성 데이터 조각으로 적어도 하나의 제2 음성 데이터 조각이 존재하는 것으로 확인된 경우, 상기 텍스트 데이터베이스에 상기 복수의 텍스트 그룹들과 상기 복수의 텍스트 그룹들 각각에 대응하는 음성 데이터 조각들의 재생 구간에 대한 시간 정보를 서로 대응시켜 저장하면서, 상기 복수의 텍스트 그룹들 중 상기 적어도 하나의 제2 음성 데이터 조각에 대응하는 텍스트 그룹에 대해 중요 음성 데이터임을 나타내는 식별 정보를 추가로 대응시켜 저장할 수 있다.
이때, 본 발명의 일실시예에 따르면, 단계(S240)에서는 상기 사용자에 의해 상기 복수의 텍스트 그룹들 중 상기 적어도 하나의 제1 텍스트 그룹의 삭제 명령이 수신되면, 상기 적어도 하나의 제1 텍스트 그룹 중 상기 텍스트 데이터베이스에 상기 식별 정보가 대응되어 저장되어 있는 텍스트 그룹이 존재하는지 확인하고, 상기 적어도 하나의 제1 텍스트 그룹 중 상기 텍스트 데이터베이스에 상기 식별 정보가 대응되어 저장되어 있는 텍스트 그룹으로 적어도 하나의 제3 텍스트 그룹이 존재하는 것으로 확인되는 경우, 화면 상에 상기 적어도 하나의 제3 텍스트 그룹이 중요 음성 데이터에 대한 텍스트 그룹임을 알리는 알림 메시지를 표시하는 단계를 포함할 수 있다.
또한, 본 발명의 일실시예에 따르면, 상기 전자 장치의 동작 방법은 상기 사용자에 의해 제1 단어가 검색어로 입력되면서, 상기 제1 단어에 기초한 음성 검색 요청이 수신되면, 상기 텍스트 데이터베이스에 저장되어 있는 상기 복수의 텍스트 그룹들 중 상기 제1 단어가 그룹 내에 포함되어 있는 적어도 하나의 제4 텍스트 그룹을 선택한 후, 상기 텍스트 데이터베이스로부터 상기 적어도 하나의 제4 텍스트 그룹에 대응되어 저장되어 있는 적어도 하나의 제2 시간 정보를 추출하는 단계 및 상기 적어도 하나의 제2 시간 정보를 상기 음성 데이터에서 상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 화면 상에 표시하는 단계를 더 포함할 수 있다.
이때, 본 발명의 일실시예에 따르면, 상기 전자 장치의 동작 방법은 상기 적어도 하나의 제2 시간 정보가 상기 음성 데이터에서 상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 화면 상에 표시된 이후, 상기 사용자로부터 상기 적어도 하나의 제2 시간 정보 중 어느 하나의 시간 정보인 제3 시간 정보에 대한 선택 음성 재생 명령이 인가되면, 상기 음성 데이터를 상기 제3 시간 정보에 따른 시점에서부터 재생을 시작하여 음성 출력을 제어하는 단계를 더 포함할 수 있다.
이상, 도 2를 참조하여 본 발명의 일실시예에 따른 음성 텍스트 변환 기술과 시간 정보를 이용하여 음성 데이터의 요약을 가능하게 하는 전자 장치의 동작 방법에 대해 설명하였다. 여기서, 본 발명의 일실시예에 따른 음성 텍스트 변환 기술과 시간 정보를 이용하여 음성 데이터의 요약을 가능하게 하는 전자 장치의 동작 방법은 도 1을 이용하여 설명한 음성 텍스트 변환 기술과 시간 정보를 이용하여 음성 데이터의 요약을 가능하게 하는 전자 장치(110)의 동작에 대한 구성과 대응될 수 있으므로, 이에 대한 보다 상세한 설명은 생략하기로 한다.
본 발명의 일실시예에 따른 음성 텍스트 변환 기술과 시간 정보를 이용하여 음성 데이터의 요약을 가능하게 하는 전자 장치의 동작 방법은 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다.
또한, 본 발명의 일실시예에 따른 음성 텍스트 변환 기술과 시간 정보를 이용하여 음성 데이터의 요약을 가능하게 하는 전자 장치의 동작 방법은 컴퓨터와의 결합을 통해 실행시키기 위한 컴퓨터 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.
110: 음성 텍스트 변환 기술과 시간 정보를 이용하여 음성 데이터의 요약을 가능하게 하는 전자 장치
111: 음성 정보 저장부 112: 텍스트 생성부
113: 텍스트 정보 저장부 114: 요약 텍스트 생성부
115: 시간 정보 추출부 116: 요약 음성 데이터 생성부
117: 피치 확인부 118: 알림 메시지 표시부
119: 검색 정보 추출부 120: 검색 결과 표시부
121: 검색 지점 재생부

Claims (10)

  1. 미리 녹음된 화자의 음성 데이터를 기설정된(predetermined) 시간 단위로 분할하여 복수의 음성 데이터 조각들을 생성하고, 음성 데이터베이스에 상기 복수의 음성 데이터 조각들과 상기 복수의 음성 데이터 조각들 각각의 재생 구간에 대한 시간 정보를 서로 대응시켜 저장하는 음성 정보 저장부;
    상기 복수의 음성 데이터 조각들 각각에 대응하는 부분에 대한 음성 분석을 수행하여 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분의 화자의 음성을 텍스트로 변환함으로써, 상기 복수의 음성 데이터 조각들 각각에 대응하는 복수의 텍스트 그룹들 - 상기 복수의 텍스트 그룹들은 상기 복수의 음성 데이터 조각들 각각에 대해서 변환된 텍스트들로 구성된 그룹임 - 을 생성하는 텍스트 생성부;
    텍스트 데이터베이스에 상기 복수의 텍스트 그룹들과 상기 복수의 텍스트 그룹들 각각에 대응하는 음성 데이터 조각들의 재생 구간에 대한 시간 정보를 서로 대응시켜 저장하는 텍스트 정보 저장부;
    사용자에 의해 상기 복수의 텍스트 그룹들 중 적어도 하나의 제1 텍스트 그룹의 삭제 명령이 수신되면, 상기 복수의 텍스트 그룹들에서 상기 적어도 하나의 제1 텍스트 그룹을 제외한 후, 상기 복수의 텍스트 그룹들에서 상기 적어도 하나의 제1 텍스트 그룹을 제외한 나머지 텍스트 그룹인 적어도 하나의 제2 텍스트 그룹을 결합하여 요약 텍스트를 생성하는 요약 텍스트 생성부;
    상기 텍스트 데이터베이스로부터 상기 요약 텍스트를 구성하는 상기 적어도 하나의 제2 텍스트 그룹에 대응되어 저장되어 있는 적어도 하나의 제1 시간 정보 - 상기 적어도 하나의 제1 시간 정보는 상기 적어도 하나의 제2 텍스트 그룹 각각에 대응하는 음성 데이터 조각들의 재생 구간에 대한 시간 정보들의 집합임 - 를 추출하는 시간 정보 추출부;
    상기 음성 데이터베이스로부터 상기 적어도 하나의 제1 시간 정보에 대응되는 적어도 하나의 제1 음성 데이터 조각을 추출한 후, 상기 적어도 하나의 제1 음성 데이터 조각을 결합하여 요약 음성 데이터를 생성하는 요약 음성 데이터 생성부;
    상기 사용자에 의해 제1 단어가 검색어로 입력되면서, 상기 제1 단어에 기초한 음성 검색 요청이 수신되면, 상기 텍스트 데이터베이스에 저장되어 있는 상기 복수의 텍스트 그룹들 중 상기 제1 단어가 그룹 내에 포함되어 있는 적어도 하나의 제4 텍스트 그룹을 선택한 후, 상기 텍스트 데이터베이스로부터 상기 적어도 하나의 제4 텍스트 그룹에 대응되어 저장되어 있는 적어도 하나의 제2 시간 정보를 추출하는 검색 정보 추출부; 및
    상기 적어도 하나의 제2 시간 정보를 상기 음성 데이터에서 상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 화면 상에 표시하는 검색 결과 표시부
    를 포함하고,
    상기 텍스트 생성부는
    상기 복수의 음성 데이터 조각들 각각에 대응하는 부분에 대한 음성 분석을 수행한 결과, 상기 복수의 음성 데이터 조각들 중 음의 높이가 기설정된 피치(pitch)를 초과하는 음성이 포함된 음성 데이터 조각이 존재하는지 여부를 확인하는 피치 확인부
    를 포함하고,
    상기 텍스트 정보 저장부는
    상기 복수의 음성 데이터 조각들 중 음의 높이가 상기 기설정된 피치를 초과하는 음성이 포함된 음성 데이터 조각으로 적어도 하나의 제2 음성 데이터 조각이 존재하는 것으로 확인된 경우, 상기 텍스트 데이터베이스에 상기 복수의 텍스트 그룹들과 상기 복수의 텍스트 그룹들 각각에 대응하는 음성 데이터 조각들의 재생 구간에 대한 시간 정보를 서로 대응시켜 저장하면서, 상기 복수의 텍스트 그룹들 중 상기 적어도 하나의 제2 음성 데이터 조각에 대응하는 텍스트 그룹에 대해 중요 음성 데이터임을 나타내는 식별 정보를 추가로 대응시켜 저장하며,
    상기 요약 텍스트 생성부는
    상기 사용자에 의해 상기 복수의 텍스트 그룹들 중 상기 적어도 하나의 제1 텍스트 그룹의 삭제 명령이 수신되면, 상기 적어도 하나의 제1 텍스트 그룹 중 상기 텍스트 데이터베이스에 상기 식별 정보가 대응되어 저장되어 있는 텍스트 그룹이 존재하는지 확인하고, 상기 적어도 하나의 제1 텍스트 그룹 중 상기 텍스트 데이터베이스에 상기 식별 정보가 대응되어 저장되어 있는 텍스트 그룹으로 적어도 하나의 제3 텍스트 그룹이 존재하는 것으로 확인되는 경우, 화면 상에 상기 적어도 하나의 제3 텍스트 그룹이 중요 음성 데이터에 대한 텍스트 그룹임을 알리는 알림 메시지를 표시하는 알림 메시지 표시부
    를 포함하는 음성 텍스트 변환 기술과 시간 정보를 이용하여 음성 데이터의 요약을 가능하게 하는 전자 장치.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    상기 적어도 하나의 제2 시간 정보가 상기 음성 데이터에서 상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 화면 상에 표시된 이후, 상기 사용자로부터 상기 적어도 하나의 제2 시간 정보 중 어느 하나의 시간 정보인 제3 시간 정보에 대한 선택 음성 재생 명령이 인가되면, 상기 음성 데이터를 상기 제3 시간 정보에 따른 시점에서부터 재생을 시작하여 음성 출력을 제어하는 검색 지점 재생부
    를 더 포함하는 음성 텍스트 변환 기술과 시간 정보를 이용하여 음성 데이터의 요약을 가능하게 하는 전자 장치.
  5. 미리 녹음된 화자의 음성 데이터를 기설정된(predetermined) 시간 단위로 분할하여 복수의 음성 데이터 조각들을 생성하고, 음성 데이터베이스에 상기 복수의 음성 데이터 조각들과 상기 복수의 음성 데이터 조각들 각각의 재생 구간에 대한 시간 정보를 서로 대응시켜 저장하는 단계;
    상기 복수의 음성 데이터 조각들 각각에 대응하는 부분에 대한 음성 분석을 수행하여 상기 복수의 음성 데이터 조각들 각각에 대응하는 부분의 화자의 음성을 텍스트로 변환함으로써, 상기 복수의 음성 데이터 조각들 각각에 대응하는 복수의 텍스트 그룹들 - 상기 복수의 텍스트 그룹들은 상기 복수의 음성 데이터 조각들 각각에 대해서 변환된 텍스트들로 구성된 그룹임 - 을 생성하는 단계;
    텍스트 데이터베이스에 상기 복수의 텍스트 그룹들과 상기 복수의 텍스트 그룹들 각각에 대응하는 음성 데이터 조각들의 재생 구간에 대한 시간 정보를 서로 대응시켜 저장하는 단계;
    사용자에 의해 상기 복수의 텍스트 그룹들 중 적어도 하나의 제1 텍스트 그룹의 삭제 명령이 수신되면, 상기 복수의 텍스트 그룹들에서 상기 적어도 하나의 제1 텍스트 그룹을 제외한 후, 상기 복수의 텍스트 그룹들에서 상기 적어도 하나의 제1 텍스트 그룹을 제외한 나머지 텍스트 그룹인 적어도 하나의 제2 텍스트 그룹을 결합하여 요약 텍스트를 생성하는 단계;
    상기 텍스트 데이터베이스로부터 상기 요약 텍스트를 구성하는 상기 적어도 하나의 제2 텍스트 그룹에 대응되어 저장되어 있는 적어도 하나의 제1 시간 정보 - 상기 적어도 하나의 제1 시간 정보는 상기 적어도 하나의 제2 텍스트 그룹 각각에 대응하는 음성 데이터 조각들의 재생 구간에 대한 시간 정보들의 집합임 - 를 추출하는 단계;
    상기 음성 데이터베이스로부터 상기 적어도 하나의 제1 시간 정보에 대응되는 적어도 하나의 제1 음성 데이터 조각을 추출한 후, 상기 적어도 하나의 제1 음성 데이터 조각을 결합하여 요약 음성 데이터를 생성하는 단계;
    상기 사용자에 의해 제1 단어가 검색어로 입력되면서, 상기 제1 단어에 기초한 음성 검색 요청이 수신되면, 상기 텍스트 데이터베이스에 저장되어 있는 상기 복수의 텍스트 그룹들 중 상기 제1 단어가 그룹 내에 포함되어 있는 적어도 하나의 제4 텍스트 그룹을 선택한 후, 상기 텍스트 데이터베이스로부터 상기 적어도 하나의 제4 텍스트 그룹에 대응되어 저장되어 있는 적어도 하나의 제2 시간 정보를 추출하는 단계; 및
    상기 적어도 하나의 제2 시간 정보를 상기 음성 데이터에서 상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 화면 상에 표시하는 단계
    를 포함하고,
    상기 복수의 텍스트 그룹들을 생성하는 단계는
    상기 복수의 음성 데이터 조각들 각각에 대응하는 부분에 대한 음성 분석을 수행한 결과, 상기 복수의 음성 데이터 조각들 중 음의 높이가 기설정된 피치(pitch)를 초과하는 음성이 포함된 음성 데이터 조각이 존재하는지 여부를 확인하는 단계
    를 포함하고,
    상기 복수의 텍스트 그룹들 각각에 대응하는 음성 데이터 조각들의 재생 구간에 대한 시간 정보를 서로 대응시켜 저장하는 단계는
    상기 복수의 음성 데이터 조각들 중 음의 높이가 상기 기설정된 피치를 초과하는 음성이 포함된 음성 데이터 조각으로 적어도 하나의 제2 음성 데이터 조각이 존재하는 것으로 확인된 경우, 상기 텍스트 데이터베이스에 상기 복수의 텍스트 그룹들과 상기 복수의 텍스트 그룹들 각각에 대응하는 음성 데이터 조각들의 재생 구간에 대한 시간 정보를 서로 대응시켜 저장하면서, 상기 복수의 텍스트 그룹들 중 상기 적어도 하나의 제2 음성 데이터 조각에 대응하는 텍스트 그룹에 대해 중요 음성 데이터임을 나타내는 식별 정보를 추가로 대응시켜 저장하며,
    상기 요약 텍스트를 생성하는 단계는
    상기 사용자에 의해 상기 복수의 텍스트 그룹들 중 상기 적어도 하나의 제1 텍스트 그룹의 삭제 명령이 수신되면, 상기 적어도 하나의 제1 텍스트 그룹 중 상기 텍스트 데이터베이스에 상기 식별 정보가 대응되어 저장되어 있는 텍스트 그룹이 존재하는지 확인하고, 상기 적어도 하나의 제1 텍스트 그룹 중 상기 텍스트 데이터베이스에 상기 식별 정보가 대응되어 저장되어 있는 텍스트 그룹으로 적어도 하나의 제3 텍스트 그룹이 존재하는 것으로 확인되는 경우, 화면 상에 상기 적어도 하나의 제3 텍스트 그룹이 중요 음성 데이터에 대한 텍스트 그룹임을 알리는 알림 메시지를 표시하는 단계
    를 포함하는 음성 텍스트 변환 기술과 시간 정보를 이용하여 음성 데이터의 요약을 가능하게 하는 전자 장치의 동작 방법.
  6. 삭제
  7. 삭제
  8. 제5항에 있어서,
    상기 적어도 하나의 제2 시간 정보가 상기 음성 데이터에서 상기 제1 단어에 대한 음성이 포함된 지점의 시간 정보로 화면 상에 표시된 이후, 상기 사용자로부터 상기 적어도 하나의 제2 시간 정보 중 어느 하나의 시간 정보인 제3 시간 정보에 대한 선택 음성 재생 명령이 인가되면, 상기 음성 데이터를 상기 제3 시간 정보에 따른 시점에서부터 재생을 시작하여 음성 출력을 제어하는 단계
    를 더 포함하는 음성 텍스트 변환 기술과 시간 정보를 이용하여 음성 데이터의 요약을 가능하게 하는 전자 장치의 동작 방법.
  9. 제5항 또는 제8항 중 어느 한 항의 방법을 컴퓨터와의 결합을 통해 실행시키기 위한 컴퓨터 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.
  10. 제5항 또는 제8항 중 어느 한 항의 방법을 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램.
KR1020190085520A 2019-07-16 2019-07-16 음성 텍스트 변환 기술과 시간 정보를 이용하여 음성 데이터의 요약을 가능하게 하는 전자 장치 및 그 동작 방법 KR102266061B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190085520A KR102266061B1 (ko) 2019-07-16 2019-07-16 음성 텍스트 변환 기술과 시간 정보를 이용하여 음성 데이터의 요약을 가능하게 하는 전자 장치 및 그 동작 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190085520A KR102266061B1 (ko) 2019-07-16 2019-07-16 음성 텍스트 변환 기술과 시간 정보를 이용하여 음성 데이터의 요약을 가능하게 하는 전자 장치 및 그 동작 방법

Publications (2)

Publication Number Publication Date
KR20210009029A KR20210009029A (ko) 2021-01-26
KR102266061B1 true KR102266061B1 (ko) 2021-06-17

Family

ID=74310148

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190085520A KR102266061B1 (ko) 2019-07-16 2019-07-16 음성 텍스트 변환 기술과 시간 정보를 이용하여 음성 데이터의 요약을 가능하게 하는 전자 장치 및 그 동작 방법

Country Status (1)

Country Link
KR (1) KR102266061B1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020147592A1 (en) * 2001-04-10 2002-10-10 Wilmot Gerald Johann Method and system for searching recorded speech and retrieving relevant segments
US20060184366A1 (en) * 2001-08-08 2006-08-17 Nippon Telegraph And Telephone Corporation Speech processing method and apparatus and program therefor
US20090204399A1 (en) * 2006-05-17 2009-08-13 Nec Corporation Speech data summarizing and reproducing apparatus, speech data summarizing and reproducing method, and speech data summarizing and reproducing program
KR101902784B1 (ko) * 2017-11-28 2018-10-01 주식회사 와이즈넛 태그데이터를 이용한 음성데이터 관리방법 및 그 장치

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101805607B1 (ko) * 2016-01-22 2017-12-06 주식회사 와이즈넛 고객의 소리 데이터로부터 요약문을 생성하는 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020147592A1 (en) * 2001-04-10 2002-10-10 Wilmot Gerald Johann Method and system for searching recorded speech and retrieving relevant segments
US20060184366A1 (en) * 2001-08-08 2006-08-17 Nippon Telegraph And Telephone Corporation Speech processing method and apparatus and program therefor
US20090204399A1 (en) * 2006-05-17 2009-08-13 Nec Corporation Speech data summarizing and reproducing apparatus, speech data summarizing and reproducing method, and speech data summarizing and reproducing program
KR101902784B1 (ko) * 2017-11-28 2018-10-01 주식회사 와이즈넛 태그데이터를 이용한 음성데이터 관리방법 및 그 장치

Also Published As

Publication number Publication date
KR20210009029A (ko) 2021-01-26

Similar Documents

Publication Publication Date Title
US8155969B2 (en) Subtitle generation and retrieval combining document processing with voice processing
US20180286459A1 (en) Audio processing
CN107832382A (zh) 基于文字生成视频的方法、装置、设备及存储介质
CN104485105A (zh) 一种电子病历生成方法和电子病历系统
CN110750996B (zh) 多媒体信息的生成方法、装置及可读存储介质
TW201510774A (zh) 以語音辨識來選擇控制客體的裝置及方法
CN104252464A (zh) 信息处理方法和装置
CN105637503A (zh) 具有同时文本编辑的语音识别方法和系统
JP4741406B2 (ja) ノンリニア編集装置およびそのプログラム
KR101156934B1 (ko) 키워드가 삽입된 녹음파일 생성 및 재생 방법과 그 휴대기기
KR102036721B1 (ko) 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치 및 그 동작 방법
JPH08227426A (ja) データ検索装置
CN113901186A (zh) 电话录音标注方法、装置、设备及存储介质
KR20110053397A (ko) 검색 키워드를 이용한 멀티미디어 파일 검색 방법 및 그 휴대기기
KR102266061B1 (ko) 음성 텍스트 변환 기술과 시간 정보를 이용하여 음성 데이터의 요약을 가능하게 하는 전자 장치 및 그 동작 방법
JP3896760B2 (ja) 対話記録編集装置、方法及び記憶媒体
KR102144351B1 (ko) 전자 문서에 대한 손쉬운 언두 처리를 지원하는 전자 단말 장치 및 그 동작 방법
JP2020052262A (ja) 修正候補提示方法、修正候補提示プログラムおよび情報処理装置
KR102375507B1 (ko) 문서에 삽입된 개체와 관련 키워드들의 매칭을 통해 문서로부터의 개체 검색을 지원하는 전자 장치 및 그 동작 방법
KR102300437B1 (ko) 입력된 문자를 기초로 전자 문서 상의 특정 위치에 특수문자의 삽입을 가능하게 하는 전자 문서 편집 장치 및 그 동작 방법
KR102119724B1 (ko) 동영상에 대한 빠른 검색을 지원하는 단말 장치 및 그 동작 방법
KR102636708B1 (ko) 프레젠테이션 문서에 대한 수어 발표 영상을 제작할 수 있는 전자 단말 장치 및 그 동작 방법
KR102375508B1 (ko) 문서 작성 프로그램에서 자주 사용되는 편집 명령에 대한 음성 인식을 가능하게 하는 전자 장치 및 그 동작 방법
CN111859006A (zh) 建立语音词条树的方法、系统、电子设备、存储介质
KR20160129203A (ko) 무결성 디지털 녹취 파일 생성 방법

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right