KR101501705B1 - 음성 데이터를 이용한 문서 생성 장치, 방법 및 컴퓨터 판독 가능 기록 매체 - Google Patents

음성 데이터를 이용한 문서 생성 장치, 방법 및 컴퓨터 판독 가능 기록 매체 Download PDF

Info

Publication number
KR101501705B1
KR101501705B1 KR20140064621A KR20140064621A KR101501705B1 KR 101501705 B1 KR101501705 B1 KR 101501705B1 KR 20140064621 A KR20140064621 A KR 20140064621A KR 20140064621 A KR20140064621 A KR 20140064621A KR 101501705 B1 KR101501705 B1 KR 101501705B1
Authority
KR
South Korea
Prior art keywords
text
section
document
voice data
data
Prior art date
Application number
KR20140064621A
Other languages
English (en)
Inventor
윤태원
김주현
Original Assignee
주식회사 제윤
주식회사 제윤메디컬
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 제윤, 주식회사 제윤메디컬 filed Critical 주식회사 제윤
Priority to KR20140064621A priority Critical patent/KR101501705B1/ko
Application granted granted Critical
Publication of KR101501705B1 publication Critical patent/KR101501705B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

음성 데이터를 이용한 문서 생성 방법이 개시된다. 본 발명의 일 실시예에 따른 음성 데이터를 이용한 문서 생성 방법은 음성 데이터를 텍스트로 변환하는 단계, 변환된 텍스트를 표시하는 단계, 표시된 텍스트 중 일부 텍스트를 확인 대상 구간으로 설정하는 단계, 확인 대상 구간에 대하여 사용자로부터 확인 신호를 입력 받는 단계 및 확인 신호가 입력되면, 확인 대상 구간에 포함된 텍스트를 출력 문서에 삽입하는 단계를 포함한다

Description

음성 데이터를 이용한 문서 생성 장치, 방법 및 컴퓨터 판독 가능 기록 매체{APPARATUS AND METHOD FOR GENERATING DOCUMENT USING SPEECH DATA AND COMPUTER-READABLE RECORDING MEDIUM}
본 발명은 음성 데이터를 이용한 문서 생성 장치, 방법 및 컴퓨터 판독 가능 기록 매체에 관한 것으로, 보다 상세하게는 음성 데이터를 텍스트로 변환 한 후, 사용자로 하여금 변환된 텍스트에 에러가 포함되어 있는지 여부를 확인하게 하고, 확인된 텍스트로만 문서를 생성할 수 있는 음성 데이터를 이용한 문서 생성 장치, 방법 및 컴퓨터 판독 가능 기록 매체에 관한 것이다.
음성 인식 기술이 발전해 감에 따라 Speech-To-Text(STT) 또는 TTS(Text-To-Speech) 등의 기술이 빠르게 발전하고 있다. 음성 인식(Voice Recognition, Speech Recognition)은 컴퓨터 혹은 정보화 기기가 음향학적 신호를 텍스트로 매핑(mapping) 시키는 기술이다. 즉, 컴퓨터 혹은 정보화 기기는 음성 인식 기술을 활용하여 음성 데이터를 텍스트(Text)로 변환 출력할 수 있다.
그러나, 음성 데이터의 음질이 좋지 않거나 음성 데이터에 포함된 화자(話者)의 발음이 명확하지 않은 경우 변환된 텍스트에 오타가 포함되거나 특정 단어가 누락될 수도 있었다.
그럼에도 종래의 음성 인식 기술은 음성 데이터에 일률적으로 STT를 적용하여 음성 데이터에 포함된 정보로 문서를 생성함에 따라 정확도가 다소 떨어질 수 있다는 문제점이 있었다.
이에, 사용자로 하여금 변환된 텍스트에 에러가 포함되어 있는지 여부를 확인하게 하고 확인된 텍스트로만 문서를 생성함으로써, 음성 인식으로 생성된 문서의 정확성을 높일 수 있는 문서 생성 장치 및 방법의 필요성이 대두되었다.
공개특허공보 10-2013-0124863
본 발명은 상술한 문제점을 해결하기 위해 안출된 것으로, 본 발명의 목적은 음성 데이터를 변환시켜 생성한 문서의 정확도를 향상시킬 수 있는 음성 데이터를 이용한 문서 생성 장치, 방법 및 컴퓨터 판독 가능 기록 매체를 제공하는데 있다.
본 발명의 또 다른 목적은 음성 데이터 변환으로 생성된 문서에 에러가 발생된 경우, 에러가 발생된 부분에 대응되는 음성 데이터를 다시 재생함으로써 사용자로 하여금 에러가 발생된 부분을 용이하게 수정하게 할 수 있는 음성 데이터를 이용한 문서 생성 장치, 방법 및 컴퓨터 판독 가능 기록 매체를 제공하는데 있다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속한 기술분야의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상술한 기술적 과제를 해결하기 위한 본 발명의 일 실시예에 따른 음성 데이터를 이용한 문서 생성 방법은, 음성 데이터를 텍스트로 변환하는 단계; 상기 변환된 텍스트를 표시하는 단계; 상기 표시된 텍스트 중 일부 텍스트를 확인 대상 구간으로 설정하는 단계; 상기 확인 대상 구간에 대하여 사용자로부터 확인 신호를 입력 받는 단계; 및 상기 확인 신호가 입력되면, 상기 확인 대상 구간에 포함된 텍스트를 출력 문서에 삽입하는 단계를 포함한다.
본 발명의 일 실시예에 따르면, 상기 확인 대상 구간으로 설정하는 단계는, 상기 확인 대상 구간이 설정되는 동안 음성 데이터 재생을 정지시키는 단계; 및 상기 확인 대상 구간 설정이 완료되면 상기 음성 데이터 재생을 재개하는 단계;를 포함할 수 있다.
본 발명의 일 실시예에 따르면, 상기 음성 데이터를 텍스트로 변환하는 단계는, 상기 음성 데이터의 각 재생 구간에 대응되는 동기화 정보를 상기 텍스트에 부여하는 단계;를 포함하고, 상기 표시된 텍스트 중 특정 텍스트가 선택되면, 선택된 텍스트에 대응되는 음성 데이터 구간이 재생되는 단계;를 더 포함할 수 있다.
본 발명의 일 실시예에 따르면, 상기 확인 신호는, 상기 확인 대상 구간에 포함된 텍스트가 오류를 미포함하는 것을 확인하는 신호일 수 있다.
본 발명의 일 실시예에 따르면, 상기 음성 데이터는 녹취 파일이고, 상기 출력 문서는 상기 녹취 파일에 대한 녹취록일 수 있다.
한편, 본 발명의 또 다른 실시예에 따른 음성 데이터를 이용한 문서 생성 장치는, 음성 데이터를 텍스트로 변환하는 변환부; 상기 변환된 텍스트를 표시하는 표시부; 상기 표시된 텍스트 중 일부 텍스트에 대한 확인 대상 구간 설정 및 상기 확인 대상 구간에 대한 확인 신호를 입력 받는 사용자 인터페이스부; 상기 확인 신호가 입력되면, 상기 확인 대상 구간에 포함된 텍스트를 출력 문서에 삽입하는 제어부를 포함한다.
본 발명의 일 실시예에 따르면 상기 제어부는, 상기 사용자 인터페이스부로부터 확인 대상 구간 설정이 입력될 때 음성 데이터 재생을 정지시키고, 상기 확인 대상 구간 설정이 완료되면 상기 음성 데이터 재생을 재개할 수 있다.
본 발명의 일 실시예에 따르면 상기 음성 데이터의 각 재생 구간에 대응되는 동기화 정보를 상기 텍스트에 부여하는 동기화 정보 기록부;를 더 포함하고, 상기 제어부는, 상기 표시된 텍스트 중 특정 텍스트가 선택되면, 선택된 텍스트에 대응되는 음성 데이터 구간을 재생할 수 있다.
본 발명의 일 실시예에 따르면 상기 확인 신호는, 상기 확인 대상 구간에 포함된 텍스트가 오류를 미포함하는 것을 확인하는 신호일 수 있다.
본 발명의 일 실시예에 따르면, 상기 음성 데이터는 녹취 파일이고, 상기 출력 문서는 상기 녹취 파일에 대한 녹취록일 수 있다.
또한, 본 발명의 또 다른 실시예에 따른 컴퓨터 판독 가능 기록 매체는 상술한 방법을 수행하는 프로그램 포함할 수도 있다.
상기와 같은 본 발명에 따르면, 음성 데이터가 텍스트로 변환될 때 발생될 수 있는 에러를 수정하여 문서의 정확도를 높일 수 있다는 효과를 달성할 수 있다.
또한, 발생된 에러를 보다 용이하게 수정할 수 있게 함으로써 사용자의 만족도를 높일 수 있다는 효과를 달성할 수 있다.
도 1은 본 발명의 일 실시예에 따른 음성 데이터를 이용한 문서 생성 장치를 설명하기 위한 블록도이다.
도 2는 본 발명의 일 실시예에 따라 확인 대상 구간을 설정하는 실시예를 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따라 사용자가 특정 텍스트를 선택하면, 선택된 텍스트에 대응되는 재생 구간으로 이동되는 것을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따라 오류를 수정하는 방법을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 음성 데이터를 이용한 문서 생성 방법을 설명하기 위한 흐름도이다.
도 6은 본 발명의 또 다른 실이예에 따른 음성 데이터를 이용한 문서 생성 장치를 설명하기 위한 도면이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 게시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
또한, 본 명세서에서 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함될 수 있다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
도 1은 본 발명의 일 실시예에 따른 음성 데이터를 이용한 문서 생성 장치를 설명하기 위한 블록도이다.
도 1에 도시된 음성 데이터를 이용한 문서 생성 장치(100)에는 본 실시예와 관련된 구성요소들만이 도시되어 있다. 따라서, 본 실시예와 관련된 기술분야에서 통상의 지식을 가진 자라면 도 1에 도시된 구성요소들 외에 다른 범용적인 구성요들이 더 포함될 수 있음을 알 수 있다.
도 1에 도시된 음성 데이터를 이용한 문서 생성 장치(100)는 변환부(110), 표시부(120), 사용자 인터페이스부(130) 및 제어부(140)를 포함한다.
변환부(110)는 음성 데이터를 텍스트로 변환한다. 변환부(110)는 입력 소스(source)로부터 음성 부분만을 추출한 후 인간의 발성기관을 모델링한 정보로부터 특징 계수를 찾아낼 수 있다.
이후, 변환부(110)는 음성인식 알고리즘(Speech Recognition Algorithm)에 추출된 음성 특징 계수를 적용하여 음성을 인식할 수 있다. 이때, 변환부(110) DTW(Dynamic Time Warping), HMM(Hidden Markov Modeling), ANN 중 하나의 알고리즘을 사용할 수 있다.
상술한 음성인식 알고리즘은 다양한 변수들을 활용할 수 있으며, 활용될 수 있는 변수에는 발음방식, 화자, 단어 수, 언어모델, 단어복잡도, 신호대잡음비(SNR) 등이 포함될 수 있다. 예를 들어, 발음방식에는 핵심어 인식, 고립단어 인식, 연결단어 인식, 연속음성인식 등이 포함될 수 있으며, 여기에서 핵심어 인식(Keyword Spotting)이란 일상적인 문장 속에서 핵심단어 만을 인식하는 것을 의미하고, 고립단어(Isolated Word) 인식이란 발음된 단어의 시작과 끝을 알 수 있는 인식 방법을 의미하며, 연결단어(Connected Word)인식이란 연결된 단어를 인식하는 것을 의미한다.
또한, 화자 변수에는 화자 종속, 화자 독립, 화자 적응 등의 정보가 포함될 수 있다. 화자 종속은 특정화자의 음성만을 인식하는 것을 의미하고, 화자 독립은 불특정화자의 음성을 인식하는 것을 의미하며, 화자 적응은 특정 화자의 음향학적 성질에 적응하는 것을 의미한다.
상술한 바와 같이 변환부(110)에서 음성 데이터가 텍스트로 변환되면 표시부(120)는 변환된 텍스를 표시한다. 표시부(120)는 음성 데이터가 변환된 텍스트 이외에 음성 데이터를 이용한 문서 생성 장치(100)에서 지원하는 각종 기능을 표시할 수도 있다.
예를 들어, 음성 데이터가 변환된 복수의 텍스트 파일, 음성 데이터의 재생 상태를 확인할 수 있는 재생 상태 창 또는 각종 기능을 실행할 수 있는 메뉴 등을 표시할 수도 있다.
한편, 사용자 인터페이스부(130)는 표시부(120)에 표시된 텍스트 중 일 부 텍스트에 대한 확인 대상 구간 설정 입력 및 확인 대상 구간에 대한 확인 신호를 입력 받는다.
본 발명의 일 실시예에 따르면 사용자 인터페이스부(130)는 기능 버튼, 키보드, 마우스, 터치 스크린 형태로 구현되어 사용자로부터 각종 명령을 입력 받을 수 있다.
사용자는 음성 데이터를 청취함과 동시에 표시부(120)를 통해 음성 데이터가 변환된 텍스트를 확인할 수 있다. 이와 같은 과정을 거쳐 변환부(110)를 통한 음성 데이터의 변환이 정확히 이루어졌는지 여부를 확인할 수 있다.
확인 결과 특정 구간에 오류(오탈자 발생 등)가 발생되지 않았다고 판단되면 사용자는 사용자 인터페이스부(130)를 통해 해당 구간을 확인 대상 구간으로 설정하고 그 구간에 대해 확인 신호를 입력할 수 있다.
확인 대상 구간의 설정은 특정 텍스트 영역에 블록(block)을 씌우거나 특정 단락 번호를 입력하는 형태로 설정할 수 있다. 예를 들어, 마우스를 통해 오류가 없다고 확인된 영역을 드래그한 후 특정 기능키나 마우스의 우측 버튼을 클릭하면 설정된 영역에 포함된 텍스트를 출력 문서에 포함시킬지 여부를 문의하는 메뉴창이 표시될 수 있다. 이후, 사용자가 메뉴창을 통해 확인 신호를 입력했는지 여부에 따라 해당 영역을 출력문서에 포함시킬 수 있게 된다.
이때, 확인 신호는 설정된 확인 대상 구간에 포함된 텍스트에 오탈자와 같은 오류가 포함되지 않고 음성 데이터와 동일하게 텍스트가 변환되었음을 확인하는 신호일 수 있다.
제어부(140)는 확인 대상 구간에 대한 확인 신호가 입력되면, 확인 대상 구간에 포함된 텍스트를 출력 문서에 삽입한다.
사용자가 음성 데이터를 청취함과 동시에 음성 데이터가 변환된 텍스트를 확인하면, 변환부(110)에서 수행된 음성 데이터의 변환이 정확하게 이루어졌는지 여부를 확인할 수 있다.
구체적으로, 사용자가 청취 중인 음성 데이터의 재생 구간과 해당 음성 데이터에 대응되는 텍스트 영역을 비교하여 동일하다고 판단되면 해당 텍스트 영역을 확인 대상 구간으로 설정하고 확인 신호를 입력할 수 있다. 제어부(140)는 확인 신호가 입력된 확인 대상 구간에 포함된 텍스트를 출력 문서에 삽입함으로써, 오탈자 등 에러가 포함된 텍스트가 출력 문서에 포함되는 것을 방지할 수 있게 된다.
한편, 도 1에 도시된 “~부”는 소프트웨어 또는 Field Programmable Gate Array(FPGA)나 주문형 반도체(Application Specific Integrated Circuit, ASIC)와 같은 하드웨어 구성요소를 의미하며, 특정 기능을 수행하도록 구현할 수 있다. 또한, “~부”는 어드레싱할 수 있는 저장 매체에 저장되어 적어도 하나의 프로세서들을 실행시키도록 구성될 수도 있다. 따라서, “~부”는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함할 수 있으며, 각 구성은 하나의 구성요소로 결합되거나 복수의 구성요소로 분리되는 형태로 구현할 수 있다.
도 2는 본 발명의 일 실시예에 따라 확인 대상 구간을 설정하는 실시예를 설명하기 위한 도면이다.
표시부(120)에는 도 2에 도시된 바와 같이 복수의 텍스트 파일(210), 재생 상태 설정창(220) 및 음성 데이터가 변환된 텍스트 화면(230)이 표시될 수 있다.
사용자는 음성 데이터를 청취함과 동시에 그에 대응되는 텍스트를 확인하여, 음성 데이터가 텍스트로 정확하게 변환되었는지 여부를 확인할 수 있다. 확인 결과 특정 구간에 대한 변환이 정확하게 이루어졌다고 판단되면 해당 텍스트에 확인 대상 구간(240)을 설정한 후 확인 신호를 입력할 수 있다. 또한, 확인 신호가 입력된 확인 대상 구간에 포함된 텍스트는 출력 문서에 삽입될 수 있다.
본 실시예에서는 확인 대상 구간(240)을 텍스트에 블록(block)을 씌우는 형태로 설정하는 것을 예로 들었으나, 이에 한정되지 않으며 단락 번호를 입력하거나 줄 번호를 입력하는 형태로 설정하도록 구현할 수도 있다.
한편, 사용자가 특정 텍스트를 확인 대상 구간(240)으로 설정하고 해당 구간에 확인 신호를 입력하는 동안에도 계속 음성 데이터가 재생된다면, 음성 데이터의 재생 구간과 사용자가 확인하려는 텍스트 구간의 싱크(synch)가 맞지 않게 될 수 있다.
예를 들어, 도 2를 참조하면 사용자는 음성 데이터 중 “동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라 만세.”에 대응되는 재생 구간을 청취함과 동시에 해당 텍스트 구간이 정확하게 변환되었는지 여부를 확인할 수 있다. 확인 결과 해당 텍스트 구간에 오탈자와 같은 오류가 없어 이를 출력 문서에 반영하고자 하면 확인한 부분을 확인 대상 구간으로 설정하고 마우스 우클릭 등을 이용하여 확인 신호를 입력하게 된다.
이때, 음성 데이터가 계속 재생된다면 사용자는 확인 신호 입력 후 텍스트에서 “무궁화 삼천리” 부분을 확인하고자 함에도, 음성 데이터는 “대한사람 대한으로” 구간을 재생하게 되므로 사용자가 확인하고자 하는 텍스트 구간과 현재 재생중인 음성 데이터 재생 구간의 싱크가 맞지 않게 된다.
따라서, 본 발명의 일 실시예에 따르면 제어부(140)는 사용자가 특정 텍스트에 대해 확인 대상 구간을 설정할 때, 음성 데이터 재생을 정지 시키고 확인 대상 구간 설정이 완료되면 음성 데이터 재생을 재개할 수 있다.
즉, 제어부(140)는 음성 데이터가 “하느님이 보우하사 우리나라 만세” 구간까지 재생되고 사용자가 확인 대상 구간을 설정할 때, 음성 데이터 재생을 정지시키고, 확인 대상 구간 및 확인 신호 입력이 완료되면 그 다음 부분을 재생시키게 된다.
상술한 바와 같이, 사용자 조작에 따라 음성 데이터의 재생 상태를 제어하면, 사용자가 청취 중인 음성 데이터의 재생 구간과 사용자가 확인 중인 텍스트 구간을 동기화시킬 수 있다는 효과를 달성할 수 있게 된다.
도 3은 본 발명의 일 실시예에 따라 사용자가 특정 텍스트를 선택하면, 선택된 텍스트에 대응되는 재생 구간으로 이동되는 것을 설명하기 위한 도면이다.
사용자는 음성 데이터를 청취함과 동시에 재생 구간에 대응되는 텍스트 구간을 확인하며 음성 데이터가 텍스트로 정확하게 변환되었는지 여부를 확인할 수도 있지만, 음성 데이터는 청취하지 않고 변환된 텍스트만을 확인할 수도 있다.
확인 도중 변환이 정확하게 이루어졌는지가 불명확하여 변환된 텍스트에 대응되는 음성 데이터를 확인하고자 하는 경우, 사용자가 확인하고자 하는 텍스트에 대응되는 음성 데이터 구간을 찾기가 쉽지 않은 경우가 있을 수 있다.
따라서, 본 발명의 일 실시예에 따른 음성 데이터를 이용한 문서 생성 장치(100)는 음성 데이터가 텍스트로 변환될 때, 음성 데이터의 각 재생 구간에 대응되는 동기화 정보를 텍스트에 부여하는 동기화 정보 기록부(미도시)를 더 포함할 수도 있다.
동기화 정보 기록부는 음성 데이터가 텍스트로 변환될 때, 기 설정된 단위별로 동기화 정보를 부여할 수 있다. 예를 들어, 변환된 텍스트의 음절별, 단어별, 문장별, 문단별로 해당 부분에 대응되는 음성 데이터의 시간 정보를 부여함으로써, 사용자가 특정 음절, 단어, 문장 또는 문단을 선택하면 사용자가 선택한 객체에 대응되는 시간대의 음성 데이터가 재생되도록 구현할 수 있다.
예를 들어, 도 3을 참조하면 사용자가 첫 번째 단락(동해물과 백두산이 ~ 대한으로 길이 보전하세)을 확인한 결과 오류가 없어 출력 문서에 모두 반영하였으나, 두 번째 단락(남산위에 저 소나무~)이 정확하게 변환되었는지 불명확하여 해당 텍스트에 대응되는 구간의 음성 데이터를 청취하고자 하면 해당 텍스트를 선택할 수 있다. 해당 텍스트가 선택되면 제어부(140)는 선택된 텍스트에 대응되는 구간을 재생시켜, 사용자로 하여금 선택한 텍스트에 대응되는 음성 데이터를 청취하도록 할 수 있다.
상술한 바와 같이, 텍스트에 동기화 정보를 부여함으로써 사용자가 특정 텍스트를 선택했을 때 그에 대응되는 구간의 음성 데이터를 재생시키면 사용자가 재생 상태 설정창(220)을 조작하면서 원하는 재생 구간을 찾지 않아도 되므로 사용자 편의를 향상시킬 수 있다는 효과를 달성할 수 있게 된다.
도 4는 본 발명의 일 실시예에 따라 오류를 수정하는 방법을 설명하기 위한 도면이다.
음성 데이터가 변환된 텍스트에는 오류, 예를 들면 오탈자나 특정 단어가 누락된 에러가 포함될 수도 있다. 이때, 사용자는 오류가 발생된 텍스트를 선택하고 사용자가 변경하고자 하는 텍스트로 수정하거나, 누락된 텍스트를 포함시키는 수정을 수행할 수 있다.
도 4에 도시된 예를 참고하면, 사용자는 오기인 텍스트를 선택하고 원하는 텍스트로 수정한 후, 해당 부분에 확인 신호를 입력하여 확인 신호가 입력된 부분이 출력 문서에 포함되도록 할 수 있다.
본 실시예에서는 사용자가 특정 단어를 선택하여 이를 다른 단어로 수정하는 것을 예로 들었으나, 이에 한정되지 않으며 문장 혹은 문단 전체를 수정할 수 있으며 수정이 완료된 부분이 출력 문서에 반영되도록 구현할 수 있음은 물론이다.
도 5는 본 발명의 일 실시예에 따른 음성 데이터를 이용한 문서 생성 방법을 설명하기 위한 흐름도이다.
변환부(110)는 입력된 음성 데이터를 텍스트로 변환한다(S510). 본 발명의 일 실시예에 따르면 변환부(110)는 DTW(Dynamic Time Warping), HMM(Hidden Markov Modeling), ANN 중 하나의 알고리즘을 적용하여 입력된 음성 데이터를 텍스트로 변환할 수 있다.
음성 데이터가 텍스트로 변환되면, 표시부(120)는 변환된 텍스트를 화면에 표시한다(S520). 사용자가 표시부(120)에 표시된 텍스트 중 일부 텍스트를 확인 대상 구간으로 설정하고(S530), 확인 대상 구간에 포함된 텍스트에 오류가 미포함되어 있다는 확인 신호를 입력하면(S540) , 제어부가 확인 대상 구간에 포함된 텍스트를 출력 문서에 삽입(S550)한다.
상술한 바와 같이, 사용자에 의해 확인 신호가 입력된 텍스트를 출력 문서에 포함시키면 음성 데이터가 텍스트로 변환될 때 발생될 수 있는 오류를 사전에 수정함으로써 변환된 문서의 정확도를 높일 수 있다는 효과를 달성할 수 있게 된다.
도 6은 본 발명의 또 다른 실시예에 따른 음성 데이터를 이용한 문서 생성 장치(600)를 설명하기 위한 도면이다. 본 발명의 일 실시예에 따른 음성 데이터를 이용한 문서 생성 장치(600)는 도 6에 도시된 구성을 포함할 수 있다.
구체적으로, 음성 데이터를 이용한 문서 생성 장치(600)는 명령어를 수행하는 프로세서(620), 음성 데이터를 이용한 문서 생성 방법 프로그램이 저장되는 저장 장치(630), 메모리(640) 및 외부 장치와의 데이터 송수신을 위한 네트워크 인터페이스(NIC)(650)이 포함될 수 있다.
저장 장치(630)에는 음성 데이터를 텍스트로 변환하는 단계, 상기 변환된 텍스트를 표시하는 단계, 상기 표시된 텍스트 중 일부 텍스트를 확인 대상 구간으로 설정하는 단계, 상기 확인 대상 구간에 대하여 사용자로부터 확인 신호를 입력 받는 단계 및 상기 확인 신호가 입력되면, 상기 확인 대상 구간에 포함된 텍스트를 출력 문서에 삽입하는 단계를 수행할 수 있는 프로그램이 저장될 수 있으며, 상술한 프로그램이 메모리(640)에 로드된 후 프로세서(620)를 통해 수행될 수 있다.
한편, 상술한 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 방법에서 사용된 데이터의 구조는 컴퓨터로 읽을 수 있는 기록매체에 여러 수단을 통하여 기록될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)와 같은 저장매체를 포함한다.
본 실시예와 관련된 기술 분야에서 통상의 지식을 가진 자는 상기된 기재의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 방법들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
100 : 음성 데이터를 이용한 문서 생성 장치
110 : 변환부 120 : 표시부
130 : 사용자 인터페이스부 140 : 제어부

Claims (11)

  1. 문서 생성 장치가 음성 데이터를 이용하여 문서를 생성하는 방법에 있어서,
    상기 문서 생성 장치의 변환부가 음성 데이터를 텍스트로 변환하는 단계;
    상기 문서 생성 장치의 표시부가 상기 변환된 텍스트를 표시하는 단계;
    상기 문서 생성 장치의 사용자 인터페이스부가 상기 표시된 텍스트 중 일부 텍스트를 확인 대상 구간으로 설정하는 입력을 받는 단계;
    상기 문서 생성 장치의 사용자 인터페이스부가 상기 확인 대상 구간에 대하여 사용자로부터 확인 신호를 입력 받는 단계; 및
    상기 문서 생성 장치의 제어부가 상기 확인 신호가 입력되면, 상기 확인 대상 구간에 포함된 텍스트를 출력 문서에 삽입하는 단계를 포함하고,
    상기 문서 생성 장치의 사용자 인터페이스부가 상기 확인 대상 구간으로 설정하는 입력을 받는 단계는,
    상기 제어부가 상기 확인 대상 구간이 설정되는 동안 음성 데이터 재생을 정지시키는 단계; 및
    상기 제어부가 상기 확인 대상 구간 설정이 완료되면 상기 음성 데이터 재생을 재개하는 단계를 포함하는 음성 데이터를 이용한 문서 생성 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 변환부가 상기 음성 데이터를 텍스트로 변환하는 단계는,
    상기 문서 생성 장치의 동기화 정보 기록부가 상기 음성 데이터의 각 재생 구간에 대응되는 동기화 정보를 상기 텍스트에 부여하는 단계;를 포함하고,
    상기 제어부는,
    상기 표시된 텍스트 중 특정 텍스트가 선택되면, 선택된 텍스트에 대응되는 음성 데이터 구간이 재생되는 단계;를 더 포함하는 음성 데이터를 이용한 문서 생성 방법.
  4. 제1항에 있어서,
    상기 확인 신호는,
    상기 확인 대상 구간에 포함된 텍스트가 오류를 미포함하는 것을 확인하는 신호인 음성 데이터를 이용한 문서 생성 방법.
  5. 제1항에 있어서,
    상기 음성 데이터는 녹취 파일이고, 상기 출력 문서는 상기 녹취 파일에 대한 녹취록인 음성 데이터를 이용한 문서 생성 방법.
  6. 음성 데이터를 텍스트로 변환하는 변환부;
    상기 변환된 텍스트를 표시하는 표시부;
    상기 표시된 텍스트 중 일부 텍스트에 대한 확인 대상 구간 설정 및 상기 확인 대상 구간에 대한 확인 신호를 입력 받는 사용자 인터페이스부;
    상기 사용자 인터페이스부로부터 확인 대상 구간 설정이 입력될 때 음성 데이터 재생을 정지시키고, 상기 확인 대상 구간 설정이 완료되면 상기 음성 데이터 재생을 재개하며 상기 확인 대상 구간에 대한 상기 확인 신호가 입력되면, 상기 확인 대상 구간에 포함된 텍스트를 출력 문서에 삽입하는 제어부를 포함하는 음성 데이터를 이용한 문서 생성 장치.
  7. 삭제
  8. 제6항에 있어서,
    상기 음성 데이터의 각 재생 구간에 대응되는 동기화 정보를 상기 텍스트에 부여하는 동기화 정보 기록부;를 더 포함하고,
    상기 제어부는,
    상기 표시된 텍스트 중 특정 텍스트가 선택되면, 선택된 텍스트에 대응되는 음성 데이터 구간을 재생하는 음성 데이터를 이용한 문서 생성 장치.
  9. 제6항에 있어서,
    상기 확인 신호는,
    상기 확인 대상 구간에 포함된 텍스트가 오류를 미포함하는 것을 확인하는 신호인 음성 데이터를 이용한 문서 생성 장치.
  10. 제6항에 있어서,
    상기 음성 데이터는 녹취 파일이고, 상기 출력 문서는 상기 녹취 파일에 대한 녹취록인 음성 데이터를 이용한 문서 생성 장치.
  11. 제1항 내지 제5항 중 어느 한 항에 기재된 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능 기록 매체.
KR20140064621A 2014-05-28 2014-05-28 음성 데이터를 이용한 문서 생성 장치, 방법 및 컴퓨터 판독 가능 기록 매체 KR101501705B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR20140064621A KR101501705B1 (ko) 2014-05-28 2014-05-28 음성 데이터를 이용한 문서 생성 장치, 방법 및 컴퓨터 판독 가능 기록 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20140064621A KR101501705B1 (ko) 2014-05-28 2014-05-28 음성 데이터를 이용한 문서 생성 장치, 방법 및 컴퓨터 판독 가능 기록 매체

Publications (1)

Publication Number Publication Date
KR101501705B1 true KR101501705B1 (ko) 2015-03-18

Family

ID=53027291

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20140064621A KR101501705B1 (ko) 2014-05-28 2014-05-28 음성 데이터를 이용한 문서 생성 장치, 방법 및 컴퓨터 판독 가능 기록 매체

Country Status (1)

Country Link
KR (1) KR101501705B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190065194A (ko) * 2019-04-18 2019-06-11 주식회사 제윤의정 회의록 열람 문서 생성 방법 및 그 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130132079A1 (en) * 2011-11-17 2013-05-23 Microsoft Corporation Interactive speech recognition

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130132079A1 (en) * 2011-11-17 2013-05-23 Microsoft Corporation Interactive speech recognition

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190065194A (ko) * 2019-04-18 2019-06-11 주식회사 제윤의정 회의록 열람 문서 생성 방법 및 그 장치
KR102283134B1 (ko) 2019-04-18 2021-07-29 주식회사 제윤의정 회의록 열람 문서 생성 방법 및 그 장치
KR20210095609A (ko) * 2019-04-18 2021-08-02 주식회사 제윤의정 회의록 열람 문서 생성 방법 및 그 장치
KR102476099B1 (ko) 2019-04-18 2022-12-09 주식회사 제윤의정 회의록 열람 문서 생성 방법 및 그 장치

Similar Documents

Publication Publication Date Title
US10276164B2 (en) Multi-speaker speech recognition correction system
JP4987623B2 (ja) ユーザと音声により対話する装置および方法
US8311832B2 (en) Hybrid-captioning system
CN106463113B (zh) 在语音辨识中预测发音
US20120016671A1 (en) Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions
JP2003518266A (ja) 音声認識システムのテキスト編集用音声再生
JP2014240940A (ja) 書き起こし支援装置、方法、及びプログラム
US20230206897A1 (en) Electronic apparatus and method for controlling thereof
JP2016062357A (ja) 音声翻訳装置、方法およびプログラム
CN110740275B (zh) 一种非线性编辑系统
Yamagishi et al. Robustness of HMM-based speech synthesis
US9472186B1 (en) Automated training of a user audio profile using transcribed medical record recordings
JP2013152365A (ja) 書き起こし支援システムおよび書き起こし支援方法
KR20100120917A (ko) 아바타 영상 메시지를 생성하는 장치 및 방법
JP5271299B2 (ja) 音声認識装置、音声認識システム、及び音声認識プログラム
JP2013025299A (ja) 書き起こし支援システムおよび書き起こし支援方法
US20140019132A1 (en) Information processing apparatus, information processing method, display control apparatus, and display control method
JP2012163692A (ja) 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム
JP2011186143A (ja) ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム
KR101501705B1 (ko) 음성 데이터를 이용한 문서 생성 장치, 방법 및 컴퓨터 판독 가능 기록 매체
JP2011242637A (ja) 音声編集装置
JP2012008375A (ja) 音声記録装置、そのデータ処理方法、およびプログラム
JP7416078B2 (ja) 音声認識装置、音声認識方法、およびプログラム
KR101920653B1 (ko) 비교음 생성을 통한 어학학습방법 및 어학학습프로그램
EP2261900A1 (en) Method and apparatus for modifying the playback rate of audio-video signals

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190226

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20200310

Year of fee payment: 6