KR20200114824A - 음성파일이 연동된 텍스트 링크 생성 어플리케이션 및 방법 - Google Patents

음성파일이 연동된 텍스트 링크 생성 어플리케이션 및 방법 Download PDF

Info

Publication number
KR20200114824A
KR20200114824A KR1020190037184A KR20190037184A KR20200114824A KR 20200114824 A KR20200114824 A KR 20200114824A KR 1020190037184 A KR1020190037184 A KR 1020190037184A KR 20190037184 A KR20190037184 A KR 20190037184A KR 20200114824 A KR20200114824 A KR 20200114824A
Authority
KR
South Korea
Prior art keywords
text
file
word
voice
recorded
Prior art date
Application number
KR1020190037184A
Other languages
English (en)
Other versions
KR102274275B1 (ko
Inventor
박정호
Original Assignee
아이피랩 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아이피랩 주식회사 filed Critical 아이피랩 주식회사
Priority to KR1020190037184A priority Critical patent/KR102274275B1/ko
Publication of KR20200114824A publication Critical patent/KR20200114824A/ko
Application granted granted Critical
Publication of KR102274275B1 publication Critical patent/KR102274275B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

음성녹음파일과 연결된 텍스트 링크 생성 방법은 (A) 변환모듈에서 녹음파일을 생성하고, 녹음파일의 음성신호를 텍스트(text)로 변환하는 단계; (B) 분할모듈에서 녹음파일을 분석하여 적어도 하나의 문장 또는 문단을 포함하는 복수개의 음성구간파일로 분할하는 단계; (C) 가공모듈에서 분할된 음성구간파일의 시작시점과 종료 시점정보를 각 음성구간파일에 부가하고, 텍스트로 변환된 단어 각각의 발화 시작 시점을 변환된 텍스트 단어의 메타데이터로 삽입하는 단계; 및 (D) 연동모듈에서 텍스트 단어의 메타데이터를 기반으로 녹음파일 또는 음성구간파일 스트리밍 바의 위치정보를 변환된 텍스트 단어에 링크하여 음성파일과 연동된 단어 별 텍스트 링크를 생성하는 단계; 를 포함한다.

Description

음성파일이 연동된 텍스트 링크 생성 어플리케이션 및 방법{APPLICATION AND METHOD FOR GENERATING TEXT LINK}
텍스트 링크생성 어플리케이션 및 방법에 관한 것으로 구체적으로, 녹음된 음성에 해당하는 텍스트 파일을 생성하고, 변환된 텍스트의 단어나 문장을 발화하는 음성파일의 재생 구간으로 바로 이동하는 텍스트 링크를 생성하는 어플리케이션 및 방법에 관한 것이다.
본 명세서에서 달리 표시되지 않는 한, 이 섹션에 설명되는 내용들은 이 출원의 청구항들에 대한 종래 기술이 아니며, 이 섹션에 포함된다고 하여 종래 기술이라고 인정되는 것은 아니다.
음성 인식(Speech Recognition)이란 사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 문자 데이터로 전환하는 처리를 말하고, STT(Speech-to-Text)라고도 한다. 음성을 텍스트로 변환하는 기술(STT)은 컴퓨터 문서에서 텍스트를 음성으로 변환하는데 사용되는 음성 합성 어플리케이션과 음성 합성 기능이 부가된 컴퓨터에서 음성을 문자로 바꿔 스마트 단말로 출력시킨다. 음성인식 기능은 멀티미디어의 중요한 일부분으로서 각종 메시지 및 명령문을 소리로 알려줌으로써 손쉽게 시스템을 이용할 수 있게 한다. 또한, 음성 이메일, 음성 프롬프트, 음성 인식 등에서 사용되며, 펜형 문자 판독기, 아스키 문자 판독기, 사운드 카드 대용 장비에도 활용된다.
아울러 음성인식 기술은 로봇, 텔레매틱스 등 음성으로 기기제어, 정보검색이 필요한 경우에 응용된다. 대표적인 알고리즘은 HMM(Hidden Markov Model)으로서, 다양한 화자들이 발성한 음성들을 통계적으로 모델링하여 음향모델을 구성하며 말뭉치 수집을 통하여 언어모델을 구성한다.
최근 전자기기들이 복합적이고 다양한 기능들을 제공함에 따라, 어플리케이션의 실행 기능을 포함한 사용자 인터페이스(user interface; UI)의 편리성에 대한 고려가 요구되고 있다. 일반적으로, 사용자가 음성을 녹음하는 과정에서 특정 부분을 기억하거나 강조하고 싶은 경우가 있다. 그런데 녹음 후 음성 파일의 내용을 탐색하는 과정은 영상이나 텍스트 파일의 내용을 탐색하는 과정보다 직관적이지 않기 때문에, 사용자가 다시 듣고자 하는 부분을 나중에 탐색하는데 많은 어려움이 있다. 또한, 기억하거나 강조하고 싶은 부분의 녹음 시간을 미리 메모해 두었다가 이후에 탐색하는 과정도 번거로울 수 있다.
예컨대, 기록을 남기기 위해 회의나 강의 내용을 모두 녹음하는 경우, 장시간의 녹음파일에서 다시 들어야 하는 구간을 정확히 찾는 것은 매우 어렵고 번거로운 과정이다. 특히, 강의를 녹음한 경우, 녹음파일에서 화자가 강조한 부분은 수 차례 반복 재생하며 학습해야 하는 경우가 빈번하다. 하지만 이때마다 사용자가 직접 중요 구간을 찾고, 직접 스트리밍 바를 정확히 조정하기는 쉽지 않다.
1. 한국 특허공개 제10-2018-0128653호(2018.12.04) 2. 한국 특허공개 제10-2018-0133195호(2018.12.13)
녹음된 음성파일을 텍스트로 전환하고, 텍스트에 포함된 문단, 문장 또는 에 녹음파일에서 해당 텍스트의 재생 부분을 링크하여, 사용자가 듣고자 하는 텍스트를 터치하면 텍스트가 재생되는 녹음파일의 시점으로 스트리밍 바를 곧바로 이동시킬 수 있도록 하는 음성파일이 연동된 텍스트 링크 생성 어플리케이션 및 방법을 제공한다.
하나의 실시예에 따른 음성녹음파일과 연동된 텍스트 링크 생성 어플리케이션은 녹음파일을 생성하고, 상기 녹음파일의 음성신호를 텍스트(text)로 변환하는 변환모듈; 녹음파일을 분석하여 적어도 하나의 문장 또는 문단을 포함하는 복수개의 음성구간파일로 분할하는 분할모듈; 분할된 음성구간파일 각각의 시작시점과 종료시점정보를 해당 음성구간파일에 부가하고, 텍스트로 변환된 단어 각각의 발화 시작 시점을 텍스트 단어의 메타데이터로 삽입하는 가공모듈; 및 텍스트 단어의 메타데이터를 기반으로 상기 녹음파일 또는 음성구간파일 스트리밍 바의 재생시점인 위치정보를 링크하여 음성파일과 연동된 단어 별 텍스트 링크를 생성하는 연동모듈; 을 포함한다.
다른 실시예에 따른 음성녹음파일과 연결된 텍스트 링크 생성 방법은 (A) 변환모듈에서 녹음파일을 생성하고, 녹음파일의 음성신호를 텍스트(text)로 변환하는 단계; (B) 분할모듈에서 녹음파일을 분석하여 적어도 하나의 문장 또는 문단을 포함하는 복수개의 음성구간파일로 분할하는 단계; (C) 가공모듈에서 분할된 음성구간파일의 시작시점과 종료 시점정보를 각 음성구간파일에 부가하고, 텍스트로 변환된 단어 각각의 발화 시작 시점을 변환된 텍스트 단어의 메타데이터로 삽입하는 단계; 및 (D) 연동모듈에서 텍스트 단어의 메타데이터를 기반으로 상기 녹음파일 또는 음성구간파일 스트리밍 바의 위치정보를 변환된 텍스트 단어에 링크하여 음성파일과 연동된 단어 별 텍스트 링크를 생성하는 단계; 를 포함한다.
이상에서와 같은 음성파일이 연동된 텍스트 링크 생성 어플리케이션 및 방법은 장시간 녹음된 음성을 텍스트로 변환하고, 사용자가 터칭 하는 텍스트가 발화되는 스트리밍 위치를 정확히 추출할 수 있다. 이로써, 사용자는 녹음파일에서 다시 듣고자 하는 텍스트가 녹음된 부분을 편리하게 찾아 손쉽게 반복 재생할 수 있다.
실시예를 통해 회의록, 강의록 등의 녹음기록을 직접 타이핑할 필요가 없어지고, 녹음파일을 이용해 학습 시 다시 듣고자 하는 부분을 사용자 스스로 추적해 가며 찾을 필요가 없기 때문에 효율적인 학습 및 업무를 가능하게 한다.
본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 상세한 설명 또는 특허청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.
도 1은 실시예에 따른 텍스트 링크 생성 어플리케이션의 기능을 설명하기 위한 도면
도 2는 실시예에 따른 텍스트 링크 생성 어플리케이션의 데이터 처리 블록을 나타낸 도면
도 3은 텍스트 링크 생성 어플리케이션의 동작 실시 예를 설명하기 위한 도면
도 4는 실시예에 따른 텍스트 링크 생성 방법의 데이터 처리 흐름을 나타낸 도면
도 5는 실시예에 따른 음성녹음파일과 연결된 텍스트 링크 생성 어플리케이션 사용 예를 설명하기 위한 도면
도 6은 실시예에 따른 음성녹음파일과 연결된 텍스트 링크 생성 어플리케이션의 다른 사용 예를 설명하기 위한 도면
도 7은 실시예에 따른 텍스트 링크 생성 어플리케이션의 또 다른 사용 예를 설명하기 위한 도면
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 도면부호는 동일 구성 요소를 지칭한다.
본 발명의 실시 예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시 예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 실시예에 따른 텍스트 링크 생성 어플리케이션의 기능을 설명하기 위한 도면이다.
도 1을 참조하면, 실시예에 따른 텍스트 링크 생성 어플리케이션은 스마트 폰, 스마트 워치, 스마트 패드, 노트 북 등 휴대 가능한 디지털 기기에 설치되어, 음성녹음 기능과 함께 사용할 수 있다. 실시예에 따른 텍스트 링크 생성 어플리케이션은 강의, 회의, 연설 등 다양한 상황에서 음성을 녹음하고 이를 음성인식(voice recognition) 및 음성변환(STT, sound to text) 기술을 통해 텍스트로 변환한다. 텍스트 링크 생성 어플리케이션은 음성녹음 파일과, 음성이 텍스트로 변환된 텍스트 파일을 모두 생성하거나, 독립적으로 생성된 녹음파일을 분할 및 분석하여 텍스트로 변환할 수 있다.
이후, 텍스트 링크 생성 어플리케이션을 이용하는 사용자가 텍스트에 있는 특정 단어 또는 문장을 터치하면 텍스트의 단어 또는 문장에 링크된 녹음파일의 스트리밍 시점 정보를 통해 사용자가 터치한 단어나 문장이 재생되는 시점으로 스트리밍 바가 이동된다. 종래 녹음파일과 텍스트 파일을 학습에 이용하는 사용자들은 중요한 컨텐츠가 녹음된 부분을 반복청취 하기 위해서는 직접 스트리밍 바를 옮겨야만 했다. 음성파일의 스트리밍 바는 사용자의 손가락으로 분, 초까지 고려한 위치조정을 정확하게 하기 어렵다. 보통의 경우 사용자는 직접 스트리밍 바의 위치를 섬세하게 조정할 수 없기 때문에, 특정 단어나 문장이 재생되기 십여 초 전에 스트리밍 바를 옮겨 놓고 다시 듣고자 하는 컨텐츠와 다른 컨텐츠를 함께 청취하는 경우가 많았다. 하지만, 실시예에서는 사용자가 다시 듣고자 하는 단어나 문장(S1) 텍스트를 선택하면, 선택한 텍스트(S1)에 링크된 스트리밍 바의 위치 정보에 의해, 사용자가 선택한 텍스트가 재생되는 부분(S2)으로 스트리밍 바를 정확하게 이동 시킬 수 있도록 한다. 이를 통해, 장시간 녹음된 파일에서 다시 듣고자 하는 부분을 정확하고 빠르게 찾아낼 수 있어 시청각 컨텐츠를 이용한 학습 효율을 극대화 시킬 수 있다.
도 2는 실시예에 따른 텍스트 링크 생성 어플리케이션의 데이터 처리 블록을 나타낸 도면이다.
도 2를 참조하면, 실시예에 따른 텍스트 링크 생성 어플리케이션은 변환모듈(110), 분할모듈(130), 가공모듈(150) 및 연동모듈(170)을 포함하여 구성될 수 있다. 본 명세서에서 사용되는 '모듈' 이라는 용어는 용어가 사용된 문맥에 따라서, 소프트웨어, 하드웨어 또는 그 조합을 포함할 수 있는 것으로 해석되어야 한다. 예를 들어, 소프트웨어는 기계어, 펌웨어(firmware), 임베디드코드(embedded code), 및 애플리케이션 소프트웨어일 수 있다. 또 다른 예로, 하드웨어는 회로, 프로세서, 컴퓨터, 집적 회로, 집적 회로 코어, 센서, 멤스(MEMS; Micro-Electro-Mechanical System), 수동 디바이스, 또는 그 조합일 수 있다.
변환모듈(110)은 녹음파일을 생성하고, 녹취된 음성신호를 텍스트(text)로 변환한다. 실시예에서 변환모듈(110)은 음성인식 데이터서버와 통신하며 녹취된 음성을 텍스트로 변환할 수 있다. 실시예에서 변환모듈(110)은 녹음파일에서 음성을 제외한 노이즈는 제거한 후, 음성인식 및 텍스트 변환과정을 수행하도록 하여 음성인식 및 텍스트 변환 정확도를 높일 수 있다. 또한 실시예에 따른 변환모듈(110)은 번역 기능을 수행 하여 외국어가 녹음되는 경우, 외국어 녹음 파일을 사용자가 지정한 언어의 텍스트로 번역한 후 텍스트로 변환할 수 있다. 예컨대, 영어, 일어, 중국어 음성이 녹음된 경우, 변환모듈(110)은 이를 녹음된 언어인 원문 텍스트로 변환하거나 한국어 또는 사용자가 지정한 언어로 번역된 텍스트로 변환 할 수 있다. 변환모듈(110)은 번역 및 텍스트 변환 시 외부 번역기 서버와 통신가능하고, 외부 번역 서버 데이터를 이용해 일련의 번역과정을 수행할 수 있다.
분할모듈(130)은 녹음파일을 음성구간파일로 분할한다. 예컨대, 분할모듈(130)은 녹음파일에 녹음된 음성신호를 분석하여 적어도 하나의 문장 또는 문단을 포함하는 복수개의 음성구간파일로 분할한다. 구체적으로, 문장의 끝부분 또는 단락의 끝부분을 언어 함의 인식이나 음성인식 기술을 통해 파악하여 복수개의 음성구간파일을 생성할 수 있다.
또한 실시예에서 분할모듈(130)은 녹음파일 분석을 통해 미리 설정된 시간 또는 발화된 문장 개수에 따라 녹음파일을 분할하여 음성구간파일을 생성할 수 있다. 예컨대, 실시예에서는 녹음 전 사용자가 인터뷰모드, 강의모드, 회의모드, 대화모드 등의 녹음 모드를 선택할 수 있다. 실시예에서는 녹음 모드에 따라 다르게 녹음파일을 분할하여 음성구간파일을 생성한다. 예컨대, 인터뷰 모드에서는 하나의 질문과 답변을 포함하는 음성구간파일을 생성할 수 있다. 녹음파일을 분할하는 시간 및 문장 개수는 사용자가 직접 지정할 수 있고 녹음 모드에 따라 다르게 설정될 수 있다.
또한, 실시예에 따른 분할모듈(130)은 변환된 텍스트 단어의 발화 시작 시점 정보를 이용하여, 사용자의 지정 및 녹음 모드에 따라 녹음파일을 분할한 음성구간파일을 생성할 수 있다. 아울러, 변환된 텍스트 단어 각각의 메타데이터를 이용하여 사용자가 선택한 텍스트를 포함하는 음성구간파일을 생성할 수 있다.
가공모듈(150)은 분할된 음성구간파일 각각의 시작시점과 종료 시점정보를 각 음성구간파일에 부가하고, 텍스트로 변환된 단어 각각의 발화 시작 시점을 텍스트 단어의 메타데이터로 부가한다. 녹음파일에 녹음된 단어들은 발화의 시작 시점이 단어 각각의 고유 정보가 된다. 실시예에서는 녹음파일이 생성될 때 각 단어가 발화 시작 될 때의 시점 정보를 메타데이터로 지정하고, 단어 텍스트 각각에 시점정보를 부가할 수 있다.
연동모듈(170)은 텍스트 단어의 발화시점 정보인 메타데이터를 이용하여 각 텍스트 단어에 녹음파일 또는 음성구간파일 스트리밍 바의 위치정보를 링크한다. 이를 통해 연동모듈(170)은 변환된 텍스트의 특정 단어를 터칭 하면, 터칭한 단어가 재생되는 위치로 스트리밍 바를 바로 이동 시킬 수 있도록 한다. 구체적으로, 실시예에서 변환된 텍스트 단어 또는 문장에는 그 단어가 재생되는 시점의 스트리밍 바 위치 정보가 링크되어 있기 때문에, 사용자가 특정 단어나 문장을 선택하면, 사용자가 선택한 단어의 발화 시작 부분으로 스트리밍 바를 바로 이동시킬 수 있다.
실시예에서 텍스트 링크는 단어 텍스트 링크 및 문장 텍스트 링크를 포함할 수 있다. 단어 텍스트 링크는 사용자가 변환된 텍스트 단어 각각을 선택하면, 선택된 단어가 발화 시작 되는 시점으로 스트리밍 바를 이동시키도록, 변환된 텍스트 단어가 음성 출력되는 스트리밍 바의 위치 정보를 포함한다.
문장 텍스트 링크는 변환된 텍스트의 문장에 스트리밍 바의 위치 정보가 링크된 것이다. 구체적으로, 사용자가 특정 텍스트 문장을 선택하면, 문장 텍스트 링크에는 문장의 시작단어가 발화되는 시점의 스트리밍 바 위치 정보가 링크되어, 문장 시작단어의 발화시점으로 스트리밍 바를 이동시키게 된다.
도 3은 텍스트 링크 생성 어플리케이션의 동작 실시 예를 설명하기 위한 도면이다.
실시예에서는 사용자가 특정 상황에서 녹음 기능을 실행하면, 텍스트 링크 생성 어플리케이션은 녹음 이후 음성 분석 및 사용자 설정에 따라 복수개의 음성구간파일(음성녹음 05, 06, 07 …… )을 자동 생성한다. 생성된 음성구간파일은 녹음시점에 따라 순차적으로 넘버링 된다.
녹음파일 또는 음성구간파일은 사용자가 설정한 언어 텍스트로 변환된다. 실시예에서는 영문이 녹음된 경우, 이를 영문 텍스트로 그대로 변환하거나 번역과정을 거쳐 사용자가 지정한 언어 텍스트로 변환할 수도 있다. 도 3에 도시된 바와 같이, 실시예에서는 분할된 음성구간파일 번호가 변환된 텍스트 구간에 동일하게 표시된다. 변환된 텍스트에 기재된 녹음파일 번호(음성녹음 05)에는 변환된 텍스트가 녹음되어 있다.
이하에서는 텍스틀 링크 생성 방법에 대해서 차례로 설명한다. 실시예에 따른 텍스트 링크 생성 방법의 작용(기능)은 텍스트 링크 생성 어플리케이션의 기능과 본질적으로 같은 것이므로 도 1 내지 도 3과 중복되는 설명은 생략하도록 한다.
도 4는 실시예에 따른 텍스트 링크 생성 방법의 데이터 처리 흐름을 나타낸 도면이다.
S410 단계에서는 변환모듈에서 녹음파일을 생성하고, S430 단계에서는 녹음파일의 음성신호를 텍스트(text)로 변환한다. 실시예에서 S410 단계에서 외국어가 녹음된 경우에는 S430 단계에서 번역 과정을 거친 후 사용자가 설정한 텍스트로 변환할 수 있다. 또한, S410 단계에서는 녹음된 음성파일에서 목소리 이외의 노이즈를 삭제한 후 S430 단계에서 노이즈가 제거된 음성파일을 분석하여 텍스트로 변환할 수 있다.
S410 단계에서는 음성을 텍스트로 변환하는 과정에서, 텍스트로 변환되는 각 단어의 발화 시작 시점 정보를 추출하고, 추출된 각 단어의 발화 시점 시작 정보를 텍스트로 변환된 단어 각각에 메타데이터로 부가할 수 있다.
S450 단계에서는 분할모듈에서 녹음파일을 분석하여 적어도 하나의 문장 또는 문단을 포함하는 복수개의 음성구간파일로 분할하고, 가공모듈에서 분할된 음성구간파일 각각의 시작시점과 종료 시점정보를 각 음성구간파일에 부가하고, 텍스트로 변환된 단어 각각의 발화 시작 시점을 텍스트 단어의 메타데이터로 삽입한다. 실시예에서는 녹음파일의 음성 분석을 통해 복수개의 문장 또는 문단 별 음성구간파일을 순차적으로 생성하거나, 미리 설정된 시간 또는 발화된 문장 개수에 따라 상기 녹음파일을 분할하여 음성구간파일을 생성할 수 있다.
실시예에서는 사용자가, 변환된 텍스트의 일정 부분을 선택하는 경우 선택된 텍스트가 포함된 재생부분의 음성구간파일을 생성한다. 구체적으로, 실시예에서는 사용자가 변환된 텍스트의 일정 부분을 선택하는 경우, 선택된 텍스트 시작 단어가 발화되는 시점정보와 선택된 텍스트에 포함된 마지막 단어가 발화되는 시점정보인 텍스트 단어 별 메타데이터를 이용하여, 선택된 텍스트가 포함된 음성구간파일을 녹음파일에서 추출할 수 있다.
S470 단계에서는 연동모듈에서 텍스트 단어의 메타데이터를 기반으로 녹음파일 또는 음성구간파일 스트리밍 바의 위치정보를 링크하여 음성파일과 연동된 단어 별 텍스트 링크를 생성한다. 실시예에서는 텍스트에 포함된 단어 각각의 발화 시작 시점 정보를 기반으로 텍스트 단어 각각에 스트리밍 바의 위치 정보를 연동하여, 단어 별 텍스트 링크를 생성할 수 있다.
도 5는 실시예에 따른 음성녹음파일과 연결된 텍스트 링크 생성 어플리케이션 사용 예를 설명하기 위한 도면이다.
실시예에서는 녹음된 음성파일이 텍스트로 변환(10)되어 출력된다. 실시예에서는 녹음 모드 및 사용자 설정에 따라 음성구간파일이 자동 생성되거나, 문단, 문장의 종결 부분에 녹음파일에서의 재생시점이 표시될 수 있다. 사용자가 특정 문단이 녹음된 시점을 터치하면, 시점 표시에 링크된 문단의 첫 단어를 발화하는 재생위치로 스트리밍 바가 자동 조절될 수 있다. 또한, 사용자가 특정 문장(20)을 터치하면, 문장의 첫 단어가 발화되는 재생시점으로 스트리밍 바가 이동된다.
도 6은 실시예에 따른 음성녹음파일과 연결된 텍스트 링크 생성 어플리케이션의 다른 사용 예를 설명하기 위한 도면이다.
도 6에 도시된 바와 같이, 실시예에서는 변환된 텍스트 문장 하나하나에 모두 문장 발화 시작 시점(T1, T2)을 표시하고, 시점이 표시된 영역에 녹음파일 스트리밍 바의 위치 정보를 링크하여 사용자가 특정 문장의 발화 시작 시점을 터치하면 녹음파일의 스트리밍 바가 터치한 시점으로 자동 이동하여 사용자가 선택한 문장을 청취할 수 있도록 할 수 있다. 만일, 변환된 텍스트가 번역된 문장인 경우, 사용자가 특정 문장을 터치하면, 녹음된 원문에 대응하는 문장의 발화 시점으로 이동하게 된다.
도 7은 실시예에 따른 텍스트 링크 생성 어플리케이션의 또 다른 사용 예를 설명하기 위한 도면이다.
도 7을 참조하면, 실시예에서는 녹음파일을 텍스트로 변환한 후 사용자가 텍스트 중 특정 문단이나 복수개의 문장을 선택하면, 사용자가 선택한 텍스트가 재생되는 부분을 메타데이터를 이용해 스트리밍 바에서 추출할 수 있다. 이후, 사용자는 추출된 부분을 편리하게 자동반복 청취할 수 있다. 만일, 변환된 텍스트가 번역된 문장이라면, 실시예는 원문 녹음파일에서 선택된 텍스트에 해당하는 재생부분을 추출한다. 실시예에서 제공하는 자동 추출기능은 어학 학습 시 활용도가 높다.
이상에서와 같은 음성파일이 연동된 텍스트 링크 생성 어플리케이션 및 방법은 장시간 녹음된 음성을 텍스트로 자동 전환하고, 사용자가 터칭 하는 텍스트가 발화되는 스트리밍 위치를 추출할 수 있다. 이로써, 사용자는 녹음파일에서 다시 듣고자 하는 재생위치를 정확히 찾아 손쉽게 반복 재생할 수 있다.
또한 실시예를 통해 회의록, 강의록 등을 녹음기록을 직접 타이핑 할 필요가 없어지고, 녹음파일을 이용해 학습 시 다시 듣고자 하는 부분을 사용자 스스로 추적해 가며 찾을 필요가 없기 때문에, 업무와 학습 효율을 향상 시킬 수 있다.
개시된 내용은 예시에 불과하며, 특허청구범위에서 청구하는 청구의 요지를 벗어나지 않고 당해 기술분야에서 통상의 지식을 가진 자에 의하여 다양하게 변경 실시될 수 있으므로, 개시된 내용의 보호범위는 상술한 특정의 실시예에 한정되지 않는다.

Claims (11)

  1. 음성녹음파일과 연동된 텍스트 링크 생성 어플리케이션에 있어서,
    녹음파일을 생성하고, 상기 녹음파일의 음성신호를 텍스트(text)로 변환하는 변환모듈;
    녹음파일 분석을 통해 미리 설정된 시간 또는 발화된 문장 개수에 따라 상기 녹음파일을 분할하여 적어도 하나의 문장 또는 문단을 포함하는 복수개의 음성구간파일을 생성하는 분할모듈;
    분할된 음성구간파일 각각의 시작시점과 종료시점정보를 해당 음성구간파일에 부가하고, 상기 텍스트로 변환된 단어 각각의 발화 시작 시점을 텍스트 단어의 메타데이터로 삽입하는 가공모듈; 및
    상기 텍스트 단어의 메타데이터를 기반으로 상기 녹음파일 또는 음성구간파일 스트리밍 바의 재생시점인 위치정보를 링크하여 음성파일과 연동된 단어 별 텍스트 링크를 생성하는 연동모듈; 을 포함하는 텍스트 링크 생성 어플리케이션.
  2. 제 1항에 있어서, 상기 연동모듈은
    상기 텍스트로 변환된 단어가 사용자에 의해 터칭(touching) 되는 경우, 상기 변환된 단어에 포함된 발화 시작 시점 메타데이터를 이용하여, 상기 녹음파일 또는 음성구간파일의 스트리밍 바를 상기 단어의 발화 시작 시점으로 이동시키는 텍스트 링크를 생성하는 것을 특징으로 하는 텍스트 링크 생성 어플리케이션.
  3. 제 1항에 있어서, 상기 분할모듈은
    상기 변환된 텍스트 단어의 발화 시작 시점 정보를 이용하여, 사용자에 의해 선택된 문단 또는 복수개의 문장에 대응하는 음성구간파일을 생성하는 것을 특징으로 하는 텍스트 링크 생성 어플리케이션.
  4. 제 1항에 있어서, 상기 텍스트 링크는
    단어 텍스트 링크 및 문장 텍스트 링크를 포함하고,
    상기 단어 텍스트 링크는
    상기 단어가 녹음파일 또는 음성구간파일에서 발화 시작 되는 시점으로 스트리밍 바를 이동시키는 스트리밍 바의 위치 정보와 연동되고,
    상기 문장 텍스트 링크는
    상기 문장의 시작단어가 발화되는 시점으로 스트리밍 바를 이동시키는 스트리밍 바의 위치정보와 연동되는 것을 특징으로 하는 텍스트 링크 생성 어플리케이션.
  5. 음성녹음파일과 연결된 텍스트 링크 생성 방법에 있어서,
    (A) 변환모듈에서 녹음파일을 생성하고, 상기 녹음파일의 음성신호를 텍스트(text)로 변환하는 단계;
    (B) 분할모듈에서 녹음파일을 분석하여 적어도 하나의 문장 또는 문단을 포함하는 복수개의 음성구간파일로 분할하는 단계;
    (C) 가공모듈에서 분할된 음성구간파일의 시작시점과 종료 시점정보를 각 음성구간파일에 부가하고, 상기 텍스트로 변환된 단어 각각의 발화 시작 시점을 변환된 텍스트 단어의 메타데이터로 삽입하는 단계; 및
    (D) 연동모듈에서 상기 텍스트 단어의 메타데이터를 기반으로 상기 녹음파일 또는 음성구간파일 스트리밍 바의 위치정보를 변환된 텍스트 단어에 링크하여 음성파일과 연동된 단어 별 텍스트 링크를 생성하는 단계; 를 포함하는 텍스트 링크 생성방법.
  6. 제 5항에 있어서, 상기 (A) 변환모듈에서 녹음파일을 생성하고, 상기 녹음파일의 음성신호를 텍스트(text)로 변환하는 단계; 는
    텍스트로 변환되는 각 단어의 발화시점 정보를 추출하는 단계;
    상기 추출된 각 단어의 발화시점정보를 텍스트로 변환된 단어 각각에 메타데이터로 부가하는 단계; 를 포함하는 것을 특징으로 하는 텍스트 링크 생성방법.
  7. 제 5항에 있어서, 상기 (B) 분할모듈에서 녹음파일을 분석하여 적어도 하나의 문장 또는 문단을 포함하는 복수개의 음성구간파일로 분할하는 단계; 는
    녹음파일의 음성 분석을 통해 복수개의 문장 또는 문단 별 음성구간파일을 순차적으로 생성하거나, 미리 설정된 시간 또는 발화된 문장 개수에 따라 상기 녹음파일을 분할하여 음성구간파일을 생성하는 것을 특징으로 하는 텍스트 링크 생성방법.
  8. 제 5항에 있어서, 상기 (B) 분할모듈에서 녹음파일을 분석하여 적어도 하나의 문장 또는 문단을 포함하는 복수개의 음성구간파일로 분할하는 단계; 는
    상기 변환된 텍스트의 일정 부분을 선택하는 경우, 선택된 텍스트가 포함된 재생부분의 음성구간파일을 생성하는 것을 특징으로 하는 텍스트 링크 생성방법.
  9. 제 8항에 있어서, 상기 (B) 분할모듈에서 녹음파일을 분석하여 적어도 하나의 문장 또는 문단을 포함하는 복수개의 음성구간파일로 분할하는 단계; 는
    상기 변환된 텍스트의 일정 부분을 선택하는 경우, 선택된 텍스트 시작 단어가 발화되는 시점정보와 선택된 텍스트에 포함된 마지막 단어가 발화되는 시점정보인 텍스트 단어 별 메타데이터를 이용하여, 상기 선택된 텍스트가 포함된 음성구간파일을 녹음파일에서 추출하는 것을 특징으로 하는 텍스트 링크 생성방법.
  10. 제 5항에 있어서, 상기 (D) 연동모듈에서 상기 텍스트 단어의 메타데이터를 기반으로 상기 녹음파일 또는 음성구간파일 스트리밍 바의 위치정보를 변환된 텍스트 단어에 링크하여 음성파일과 연동된 단어 별 텍스트 링크를 생성하는 단계; 는
    텍스트에 포함된 단어 각각의 발화 시작 시점 정보를 기반으로 상기 텍스트 단어 각각에 스트리밍 바의 위치 정보를 링크하여, 상기 단어 별 텍스트 링크를 생성하는 것을 특징으로 하는 텍스트 링크 생성방법.
  11. 제 5항에 있어서, 상기 (A) 텍스트 생성모듈에서 녹음파일의 음성신호를 텍스트(text)로 변환하는 단계; 는
    녹음된 음성파일에서 목소리 이외의 노이즈를 제거하는 단계; 및
    노이즈가 제거된 음성파일을 분석하여 텍스트로 변환하는 단계; 를 포함하는 것을 특징으로 하는 텍스트 링크 생성방법.

KR1020190037184A 2019-03-29 2019-03-29 음성파일이 연동된 텍스트 링크 생성 어플리케이션 및 방법 KR102274275B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190037184A KR102274275B1 (ko) 2019-03-29 2019-03-29 음성파일이 연동된 텍스트 링크 생성 어플리케이션 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190037184A KR102274275B1 (ko) 2019-03-29 2019-03-29 음성파일이 연동된 텍스트 링크 생성 어플리케이션 및 방법

Publications (2)

Publication Number Publication Date
KR20200114824A true KR20200114824A (ko) 2020-10-07
KR102274275B1 KR102274275B1 (ko) 2021-07-08

Family

ID=72883333

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190037184A KR102274275B1 (ko) 2019-03-29 2019-03-29 음성파일이 연동된 텍스트 링크 생성 어플리케이션 및 방법

Country Status (1)

Country Link
KR (1) KR102274275B1 (ko)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100929688B1 (ko) * 2007-02-12 2009-12-03 주식회사 이지씨앤씨 음성 데이터를 이용하여 멀티미디어 데이터 파일의 인덱싱정보를 생성하는 시스템 및 방법과 멀티미디어 데이터파일의 인덱싱 정보를 검색하는 시스템 및 방법
JP2013182353A (ja) * 2012-02-29 2013-09-12 Nec System Technologies Ltd 音声文字変換作業支援装置、音声文字変換システム、音声文字変換作業支援方法及びプログラム
KR20150098820A (ko) * 2014-02-21 2015-08-31 ㈜빅스바이트 리터러시 향상을 위한 영어단어 디코딩 멀티미디어파일 생성시스템
KR20160031336A (ko) * 2014-09-12 2016-03-22 엘지전자 주식회사 이동단말기 및 그 제어방법
KR20180128653A (ko) 2017-05-24 2018-12-04 텍스토리 주식회사 대화 검색 방법, 대화 검색이 가능한 휴대형 단말 및 대화 관리 서버
KR20180133195A (ko) 2017-06-05 2018-12-13 이상호 음성 스트리밍 공유 장치 및 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100929688B1 (ko) * 2007-02-12 2009-12-03 주식회사 이지씨앤씨 음성 데이터를 이용하여 멀티미디어 데이터 파일의 인덱싱정보를 생성하는 시스템 및 방법과 멀티미디어 데이터파일의 인덱싱 정보를 검색하는 시스템 및 방법
JP2013182353A (ja) * 2012-02-29 2013-09-12 Nec System Technologies Ltd 音声文字変換作業支援装置、音声文字変換システム、音声文字変換作業支援方法及びプログラム
KR20150098820A (ko) * 2014-02-21 2015-08-31 ㈜빅스바이트 리터러시 향상을 위한 영어단어 디코딩 멀티미디어파일 생성시스템
KR20160031336A (ko) * 2014-09-12 2016-03-22 엘지전자 주식회사 이동단말기 및 그 제어방법
KR20180128653A (ko) 2017-05-24 2018-12-04 텍스토리 주식회사 대화 검색 방법, 대화 검색이 가능한 휴대형 단말 및 대화 관리 서버
KR20180133195A (ko) 2017-06-05 2018-12-13 이상호 음성 스트리밍 공유 장치 및 방법

Also Published As

Publication number Publication date
KR102274275B1 (ko) 2021-07-08

Similar Documents

Publication Publication Date Title
JP6463825B2 (ja) 多重話者音声認識修正システム
JP4600828B2 (ja) 文書対応付け装置、および文書対応付け方法
US20200294487A1 (en) Hands-free annotations of audio text
JP5104762B2 (ja) コンテンツ要約システムと方法とプログラム
US11942093B2 (en) System and method for simultaneous multilingual dubbing of video-audio programs
WO2007055233A1 (ja) 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
CN110740275B (zh) 一种非线性编辑系统
JP2007519987A (ja) 内部及び外部オーディオビジュアルデータの統合解析システム及び方法
CN110781649B (zh) 一种字幕编辑方法、装置及计算机存储介质、电子设备
JP2012181358A (ja) テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム
WO2013000868A1 (en) Speech-to-text conversion
JP2008032825A (ja) 発言者表示システム、発言者表示方法および発言者表示プログラム
JP3437617B2 (ja) 時系列データ記録再生装置
CN111739536A (zh) 一种音频处理的方法和装置
CN109460548B (zh) 一种面向智能机器人的故事数据处理方法及系统
KR20190143116A (ko) 대화 자동 저장 장치 및 방법
JP7326931B2 (ja) プログラム、情報処理装置、及び情報処理方法
JP3936351B2 (ja) 音声応答サービス装置
JP5713782B2 (ja) 情報処理装置、情報処理方法及びプログラム
KR102274275B1 (ko) 음성파일이 연동된 텍스트 링크 생성 어플리케이션 및 방법
JP2005038014A (ja) 情報提示装置及び情報提示方法
EP3910626A1 (en) Presentation control
KR101030777B1 (ko) 스크립트 데이터 생성 방법 및 장치
JP3760420B2 (ja) 音声応答サービス装置
JP2008250066A (ja) 音声データ処理システム、音声データ処理方法、及びプログラム

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right