KR20140006503A

KR20140006503A - 휴대 단말기의 사용자 음성 녹음 및 재생 방법 및 장치

Info

Publication number: KR20140006503A
Application number: KR1020120073581A
Authority: KR
Inventors: 목지은; 곽병훈
Original assignee: 삼성전자주식회사
Priority date: 2012-07-06
Filing date: 2012-07-06
Publication date: 2014-01-16
Also published as: US9786267B2; EP2682931A1; KR102023157B1; CN103533155B; CN103533155A; EP2682931B1; US20140012583A1

Abstract

본 발명은 휴대 단말기의 사용자 음성 녹음 및 재생 방법 및 장치에 관한 것으로, 본 발명의 휴대 단말기의 사용자 음성 녹음 및 재생 방법은 전자책을 실행하여 임의의 페이지에 진입하는 단계, 상기 페이지와 관련된 사용자 음성 녹음 파일 존재 여부를 판단하는 단계, 미존재 시, 상기 페이지에 포함된 텍스트를 사용자 음성으로 녹음하여 상기 페이지와 관련된 사용자 음성 녹음 파일을 생성하는 단계, 및 존재 시, 상기 사용자 음성 녹음 파일에 저장된 사용자 음성과 상기 텍스트를 동기화시켜 재생하는 단계를 포함하는 것을 특징으로 한다. 본 발명에 따르면, 전자책의 특정 페이지 녹음 시 상기 페이지의 텍스트에 대응하는 사용자 음성을 녹음하고, 상기 사용자 음성 재생 시 사용자 음성과 상기 텍스트를 동기화시켜 재생 중인 사용자 음성에 대응하는 텍스트를 하이라이트 하여 표시할 수 있다.

Description

휴대 단말기의 사용자 음성 녹음 및 재생 방법 및 장치{METHOD AND APPARATUS FOR RECORDING AND PLAYING OF USER VOICE OF MOBILE TERMINAL}

본 발명은 휴대 단말기의 사용자 음성 녹음 및 재생 방법 및 장치에 관한 것이다. 보다 구체적으로, 본 발명은 전자책의 특정 페이지 녹음 시 상기 페이지의 텍스트에 대응하는 사용자 음성을 녹음하고, 상기 사용자 음성 재생 시 사용자 음성과 상기 텍스트를 동기화시켜 재생 중인 사용자 음성에 대응하는 텍스트를 하이라이트 하여 표시하는 방법 및 장치에 관한 것이다.

최근 휴대 단말기는 전자수첩 기능, 게임 기능, 스케줄 관리 기능 등과 같은 다양한 부가 서비스를 제공할 수 있도록 하는 멀티미디어 기기로 발전하는 추세에 있다. 상기와 같이 휴대 단말기가 다양한 부가 서비스를 제공함에 따라 다양한 종류의 부가 서비스를 보다 편리하게 관리하고 이용할 수 있는 사용자 인터페이스는 필수적이다.

도 1은 전자책의 특정 페이지를 구성하는 텍스트를 사용자 음성으로 녹음하고, 녹음된 사용자 음성을 재생하는 예시를 도시하는 도면이다.

도 1에 도시되는 바와 같이, 종래 전자책(e-book)은 상기 전자책의 특정 페이지를 구성하는 컨텐츠 특히, 텍스트를 사용자 음성으로 녹음하고 이를 재생하는 기능을 구비한다. 이를 위해, 종래 사용자는 전자책의 특정 페이지에서 녹음 명령을 입력한 후 사용자 음성을 녹음하여 저장하며, 이후 재생 명령을 입력하여 해당 페이지에 녹음된 사용자 음성을 재생하였다.

그런데, 상기 종래 기술에 따르는 경우, 사용자 음성 녹음을 위해 전자책 전체에 대해 녹음을 수행하여야 하며, 이에 따라 전자책의 분량이 많은 경우 많은 시간과 노력을 필요로 한다는 문제점이 있다.

또한, 녹음된 사용자 음성의 경우, 전자책의 텍스트와 동기화가 이루어지지 않기 때문에, 사용자 음성이 현재 어느 단어를 재생하고 있는지를 직관적으로 확인하기 어렵다는 문제점이 있다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 전자책의 특정 페이지 녹음 시 상기 페이지의 텍스트에 대응하는 사용자 음성을 녹음하고, 상기 사용자 음성 재생 시 사용자 음성과 상기 텍스트를 동기화시켜 재생 중인 사용자 음성에 대응하는 텍스트를 하이라이트 하여 표시하는 방법 및 장치를 제공하는 것을 그 목적으로 한다.

상기와 같은 문제점을 해결하기 위한 본 발명의 휴대 단말기의 사용자 음성 녹음 및 재생 방법은 전자책을 실행하여 임의의 페이지에 진입하는 단계, 상기 페이지와 관련된 사용자 음성 녹음 파일 존재 여부를 판단하는 단계, 미존재 시, 상기 페이지에 포함된 텍스트를 사용자 음성으로 녹음하여 상기 페이지와 관련된 사용자 음성 녹음 파일을 생성하는 단계, 및 존재 시, 상기 사용자 음성 녹음 파일에 저장된 사용자 음성과 상기 텍스트를 동기화시켜 재생하는 단계를 포함하는 것을 특징으로 한다.

또한, 본 발명의 사용자 음성 녹음 및 재생 장치는 사용자 입력을 수신하는 입력부, 전자책에 포함된 텍스트를 표시하는 표시부, 및 상기 전자책의 임의의 페이지 진입 시 상기 페이지와 관련된 사용자 음성 녹음 파일 존재 여부를 판단하고, 상기 사용자 음성 녹음 파일 미존재 시 상기 페이지에 포함된 텍스트를 사용자 음성으로 녹음하여 상기 페이지와 관련된 사용자 음성 녹음 파일을 생성하며, 상기 사용자 음성 녹음 파일 존재 시 상기 사용자 음성 녹음 파일에 저장된 사용자 음성과 상기 텍스트를 동기화시켜 재생하도록 제어하는 제어부를 포함하는 것을 특징으로 한다.

본 발명에 따르면, 전자책의 특정 페이지 녹음 시 상기 페이지의 텍스트에 대응하는 사용자 음성을 녹음하고, 상기 사용자 음성 재생 시 사용자 음성과 상기 텍스트를 동기화시켜 재생 중인 사용자 음성에 대응하는 텍스트를 하이라이트 하여 표시할 수 있다. 이를 통해, 사용자에게 직관적인 인터페이스를 통해 실제로 책을 이용하는 것과 같은 경험을 줄 수 있다.

도 1은 전자책의 특정 페이지를 구성하는 텍스트를 사용자 음성으로 녹음하고, 녹음된 사용자 음성을 재생하는 예시를 도시하는 도면.
도 2는 본 발명의 실시예에 따른 휴대 단말기(200)의 내부 구조를 도시하는 블록도.
도 3은 본 발명의 실시예에 따라, 전자책의 특정 페이지에 포함된 컨텐츠를 녹음하거나 또는 재생하는 과정을 도시하는 순서도.
도 4는 본 발명의 실시예에 따라 전자책의 특정 페이지에 포함된 텍스트를 사용자 음성으로 저장하는 사용자 음성 TTS 녹음 절차를 도시하는 도면.
도 5는 본 발명의 실시예에 따라 전자책의 각 페이지에서 사용자 음성 TTS 녹음 시, 각 페이지에 대해 저장되는 저장 파일의 구조를 도시하는 순서도.
도 6은 본 발명의 실시예에 따라 사용자 음성 TTS 녹음 시, 음소 별 사용자 음성을 음소 음성 파일로 구분하여 저장하는 TTS 데이터베이스의 구조를 도시하는 도면.
도 7은 본 발명의 실시예에 따른 TTS 녹음 자동 완성 기능 수행 과정을 도시하는 순서도.
도 8은 본 발명의 실시예에 따라, 전자책 특정 페이지에 대해 TTS 재생을 수행하는 과정을 도시하는 순서도.
도 9는 본 발명의 실시예에 따라 전자책에서 TTS 재생 시, 사용자 음성과 텍스트를 동기화시켜 표시하는 예시를 도시하는 도면.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예들을 상세히 설명한다. 이 때, 첨부된 도면에서 동일한 구성 요소는 가능한 동일한 부호로 나타내고 있음에 유의해야 한다. 또한 본 발명의 요지를 흐리게 할 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략할 것이다.

도 2는 본 발명의 실시예에 따른 휴대 단말기(200)의 내부 구조를 도시하는 블록도이다. 도 2에 도시되는 바와 같이, 본 발명의 휴대 단말기는 무선 통신부(210), 오디오 처리부(220), 입력부(230), 터치스크린부(240), 저장부(250), 제어부(260)를 포함할 수 있다.

무선통신부(210)는 휴대 단말기(200)의 무선 통신을 위한 해당 데이터의 송수신 기능을 수행한다. 무선통신부(210)는 송신되는 신호의 주파수를 상승 변환 및 증폭하는 RF송신기와, 수신되는 신호를 저 잡음 증폭하고 주파수를 하강 변환하는 RF수신기 등으로 구성될 수 있다. 또한, 무선통신부(210)는 무선 채널을 통해 데이터를 수신하여 제어부(260)로 출력하고, 제어부(260)로부터 출력된 데이터를 무선 채널을 통해 전송할 수 있다.

오디오처리부(220)는 코덱(CODEC)으로 구성될 수 있으며, 코덱은 패킷 데이터 등을 처리하는 데이터 코덱과 음성 등의 오디오 신호를 처리하는 오디오 코덱으로 구성될 수 있다. 오디오 처리부(220)는 디지털 오디오 신호를 오디오 코덱을 통해 아날로그 오디오 신호로 변환하여 스피커(SPK)를 통해 재생하고, 마이크(MIC)로부터 입력되는 아날로그 오디오 신호를 오디오 코덱을 통해 디지털 오디오 신호로 변환한다.

입력부(230)는 휴대 단말기(200)를 제어하기 위한 사용자의 키 조작을 입력받고 입력 신호를 생성하여 제어부(260)에 전달한다. 입력부(230)는 숫자 키, 방향키를 포함하는 키패드로 구성될 수 있으며, 휴대 단말기(200)의 일면에 소정의 기능키로 형성될 수 있다. 본 발명의 실시예에 따라 터치스크린부(240)만으로 모든 조작이 가능한 휴대 단말기의 경우에는 입력부(230)가 생략될 수도 있다.

터치스크린부(240)는 터치센서부(241) 및 표시부(242)를 포함한다. 터치센서부(241)는 사용자의 터치 입력을 감지한다. 터치센서부(241)는 정전용량 방식(capacitive overlay), 압력식, 저항막 방식(resistive overlay), 적외선 감지 방식(infrared beam) 등의 터치 감지 센서로 구성되거나, 압력 감지 센서(pressure sensor)로 구성될 수도 있다. 상기 센서들 이외에도 물체의 접촉 또는 압력을 감지할 수 있는 모든 종류의 센서 기기가 본 발명의 터치센서부(241)로 구성될 수 있다. 터치센서부(241)는 사용자의 터치 입력을 감지하고, 감지 신호를 발생시켜 제어부(260)로 전송한다. 상기 감지 신호에는 사용자가 터치를 입력한 좌표 데이터가 포함된다. 사용자가 터치 위치 이동 동작을 입력한 경우에 터치센서부(241)는 터치 위치 이동 경로의 좌표 데이터를 포함한 감지 신호를 발생시켜 제어부(260)로 전송한다.

특히, 터치 센서부(241)는 본 발명의 실시예에 따라 전자북의 컨텐츠를 녹음하거나 재생하기 위한 사용자 입력을 감지할 수 있다. 이러한 사용자 입력에는 터치(멀티 터치 포함), 드래그 등이 예시될 수 있다.

표시부(242)는 액정표시장치(LCD, Liquid Crystal Display), 유기 발광 다이오드(OLED, Organic Light Emitting Diodes), 능동형 유기 발광 다이오드(AMOLED, Active Matrix Organic Light Emitting Diodes) 등으로 형성될 수 있으며, 휴대 단말기(200)의 메뉴, 입력된 데이터, 기능 설정 정보 및 기타 다양한 정보를 사용자에게 시각적으로 제공한다. 표시부(242)는 휴대 단말기(200)의 부팅 화면, 대기 화면, 메뉴 화면, 통화 화면, 기타 어플리케이션 화면을 출력하는 기능을 수행한다.

본 발명의 휴대 단말기(200)는 상기와 같이 터치스크린을 포함하여 구성될 수 있지만, 이하에서 기술되는 본 발명의 실시예가 반드시 터치스크린을 구비하는 휴대 단말기(200)에만 적용되는 것은 아님에 유의하여야 한다. 본 발명이 터치스크린을 구비하지 않는 휴대 단말기에 적용될 경우, 도 2에서 도시되는 터치스크린부(240)는 표시부(242)의 기능만을 수행하도록 변형 적용될 수 있다.

저장부(250)는 휴대 단말기(200)의 동작에 필요한 프로그램 및 데이터를 저장하는 역할을 수행하며, 프로그램 영역과 데이터 영역으로 구분될 수 있다. 프로그램 영역은 휴대 단말기(200)의 전반적인 동작을 제어하는 프로그램 및 휴대 단말기(200)를 부팅시키는 운영체제(OS, Operating System), 멀티미디어 컨텐츠 재생 등에 필요한 응용 프로그램, 휴대 단말기(100)의 기타 옵션 기능, 예컨대, 카메라 기능, 소리 재생 기능, 이미지 또는 동영상 재생 기능에 필요한 응용 프로그램 등을 저장할 수 있다. 데이터 영역은 휴대 단말기(200)의 사용에 따라 발생하는 데이터가 저장되는 영역으로서, 이미지, 동영상, 폰 북, 오디오 데이터 등을 저장할 수 있다.

본 발명의 실시예에 따르면, 저장부(250)는 전자책의 각 페이지에서 녹음된 사용자 음성 파일 및 상기 음성 파일에 동기화된 동기화 파일을 각 페이지별로 저장할 수 있다. 또한, 저장부(250)는 전자책 컨텐츠에 대한 TTS 녹음 자동 완성 기능을 수행하기 위해, 녹음된 사용자 음성을 음소별로 분류한 음성 파일들을 데이터베이스화하여 저장할 수 있다.

제어부(260)는 휴대 단말기(200)의 각 구성 요소에 대한 전반적인 동작을 제어한다. 특히, 제어부(260)는 휴대 단말기(200)가 전자책의 특정 페이지 녹음 시 상기 페이지의 텍스트에 대응하는 사용자 음성을 녹음하고, 상기 사용자 음성 재생 시 사용자 음성과 상기 텍스트를 동기화시켜 사용자 음성에 대응하는 텍스트를 하이라이트 하여 표시하는 일련의 과정을 제어할 수 있다. 이를 위해, 상기 제어부(260)는 특히 녹음 제어부(261) 및 재생 제어부(262)를 구비할 수 있다.

녹음 제어부(261)는 전자책의 특정 페이지에 포함된 텍스트를 사용자 음성으로 저장하는 사용자 음성 TTS 녹음의 전반적인 절차를 제어한다. 이를 위해, 녹음 제어부(261)는 전자책의 임의의 페이지 진입 시 상기 페이지와 관련된 사용자 음성 녹음 파일 존재 여부를 판단한다. 만약, 사용자 음성 녹음 파일이 존재하지 않는 경우, 녹음 제어부(261)는 상기 임의의 페이지에 포함된 텍스트를 사용자 음성으로 TTS 녹음하여, 상기 페이지와 관련된 사용자 음성 녹음 파일을 생성한다.

이 경우, 녹음 제어부(261)는 상기 페이지에 포함된 텍스트를 사용자 음성으로 녹음한 사용자 음성 녹음 파일, 및 상기 사용자 음성 녹음 파일의 각 시간 구간에 대응하는 텍스트 위치 정보를 포함하는 동기화 파일을 생성한다. 상기 동기화 파일은 사용자 음성 녹음 파일과 동기화되어 사용자 음성이 재생 중인 텍스트를 하이라이트 하여 표시하기 위한 정보를 포함하며, 구체적인 설명은 후술하도록 한다.

본 발명의 일 실시예에 따르면, 녹음 제어부(261)는 텍스트에 대한 TTS 녹음 명령 수신 시 상기 텍스트의 임의의 위치에 대해 터치 입력이 감지되는지 판단할 수 있다. 그리고 녹음 제어부(261)는 설정된 시간 경과 시까지 상기 터치 입력이 감지되지 않는 경우 사용자 음성 녹음을 개시하도록 제어할 수 있다. 반면, 텍스트의 임의의 위치에 대해 터치 입력이 감지되는 경우, 녹음 제어부(261)는 터치 입력이 감지된 텍스트 위치를 사용자 음성 녹음이 개시되는 초기 위치로 설정하도록 제어할 수 있다.

또한, 본 발명의 다른 일 실시예에 따르면, 녹음 제어부(261)는 입력되는 사용자 음성을 음소별로 분류하고, 상기 분류된 음소별로 음소 음성 파일을 생성하여 저장하도록 제어할 수 있다. 상기 음소 음성 파일은 본원발명의 TTS 녹음 자동 완성 기능을 수행하기 위하여 사용된다.

이를 위해, 녹음 제어부(261)는 임의의 페이지에 대한 사용자 음성 녹음 완료 시, 상기 음소 음성 파일과 상기 전자책에 포함된 모든 텍스트를 비교한다. 그리고 녹음 제어부(261)는 상기 음소 음성 파일을 이용하여 상기 사용자 음성 녹음 파일이 저장되지 않은 나머지 페이지에 포함된 텍스트들에 대해 자동 녹음 완료가 가능한지 판단한다. 녹음 완료 가능 시, 녹음 제어부(261)는 상기 자동 녹음 완료가 가능함을 사용자에게 통지하도록 제어할 수 있다. 그리고 녹음 제어부(261)는 자동 녹음 명령 수행 시, 상기 음소 음성 파일을 이용하여 상기 사용자 음성 녹음 파일이 저장되지 않은 나머지 페이지에 포함된 텍스트들을 사용자 음성으로 변환하도록 제어할 수 있다.

재생 제어부(262)는 전자책에서 진입한 임의의 페이지에서, 상기 페이지와 관련된 사용자 음성 녹음 파일이 존재하는 경우, 상기 사용자 음성 녹음 파일에 저장된 사용자 음성과 상기 텍스트를 동기화시켜 재생하도록 제어한다. 본 발명의 실시예에 따르면, 상기 재생 제어부(262)는 사용자 음성 녹음 파일에 저장된 사용자 음성에 대응하는 텍스트를 하이라이트 하여 표시하도록 제어할 수 있다.

보다 구체적으로, 재생 제어부(262)는 재생 명령 수신 시, 상기 사용자 음성 녹음 파일에 대한 동기화 파일의 존재 여부를 판단한다. 그리고 재생 제어부(262)는 상기 동기화 파일 존재 시 상기 동기화 파일에 포함된 사용자 음성 녹음 파일의 각 시간 구간에 대응하는 텍스트 위치 정보를 식별한다. 그리고 재생 제어부(262)는 상기 식별 결과를 이용하여 상기 사용자 음성 녹음 파일에 저장된 사용자 음성과 상기 텍스트를 동기화시켜 재생하도록 제어한다.

반면, 동기화 파일 미존재 시, 상기 페이지에 관련된 사용자 음성 녹음 파일에 녹음된 사용자 음성을 텍스트로 변환하고, 상기 변환된 텍스트와 상기 페이지에 포함된 텍스트를 동기화시켜 재생하도록 제어할 수 있다.

한편, 상기에서는 제어부(260), 녹음 제어부(261), 재생 제어부(262)가 별도의 블록으로 구성되고, 각 블록이 상이한 기능을 수행하는 것으로 기술하였지만 이는 기술상의 편의를 위한 것일 뿐, 반드시 이와 같이 각 기능이 구분되어지는 것은 아니다. 예를 들어, 녹음 제어부(261)가 수행하는 특정 기능을 제어부(260) 자체가 수행할 수도 있음에 유의해야 한다.

도 3은 본 발명의 실시예에 따라, 전자책의 특정 페이지에 포함된 컨텐츠를 녹음하거나 또는 재생하는 과정을 도시하는 순서도이다.

우선, 제어부(260)는 S310 단계에서, 전자책 어플리케이션이 실행됨을 감지한다. 전자책은 e-book 이라고도 하며, 문자나 화상과 같은 정보를 전자 매체에 기록하여 서적처럼 이용할 수 있는 디지털 도서를 총칭한다. 스마트폰이나 PMP(Portable Multimedia Player)는 상기 전자책을 실행하고 이용하기 위한 전자책 어플리케이션을 서버에서 다운로드받거나 또는 스마트폰/PMP 제품 생산 당시 내장될 수도 있다.

그리고 제어부(260)는 S320 단계에서 전자책 어플리케이션을 통해 실행된 특정 컨텐츠 예를 들어 텍스트를 포함하는 도서 컨텐츠의 특정 페이지에 진입함을 감지한다. 그러면 제어부(260)는 S330 단계로 진행하여, 상기 특정 페이지에 대응하는 사용자 음성 녹음 파일이 존재하는지 여부를 판단한다. 이하에서는 상기 사용자 음성 녹음 파일이라는 용어는 사용자 음성 녹음 TTS(Text To Speech) 파일이라는 용어와 혼용하여 사용할 수도 있다.

해당 페이지에 대한 사용자 음성 녹음 파일이 존재하지 않는 경우, 제어부(260)는 사용자 선택에 따라 S340 단계로 진행하여 상기 페이지에 포함된 텍스트를 사용자 음성으로 녹음하는 사용자 음성 TTS(Text to Speech) 녹음 절차를 진행할 수 있다. 상기 사용자 음성 TTS 녹음 시, 제어부(260)는 텍스트에 대응하는 사용자 음성 녹음 파일 및 상기 사용자 음성 파일의 사용자 음성에 대응하는 동기화 파일(예를 들어, 자막)을 구성하여 저장할 수 있다.

사용자 음성 TTS 녹음 절차에 대한 구체적은 과정은 도 4를 통해 구체적으로 기술하기로 한다.

한편, 해당 페이지에 대한 사용자 음성 녹음 파일이 존재하는 경우, 제어부(260)는 S350 단계로 진행하여 상기 페이지에 대응하는 사용자 음성 녹음 파일을 TTS 재생한다. 상기 TTS 재생 시, 제어부(260)는 재생 중인 사용자 음성과 상기 페이지의 텍스트를 동기화시켜 재생 중인 사용자 음성에 대응하는 텍스트를 하이라이트 하여 표시할 수 있다.

TTS 재생에 대한 구체적인 과정은 도 7을 통해 구체적으로 기술하도록 한다.

도 4는 본 발명의 실시예에 따라 전자책의 특정 페이지에 포함된 텍스트를 사용자 음성으로 저장하는 사용자 음성 TTS 녹음 절차를 도시하는 도면이다. 도 4는 도 3의 S340 단계에 대응된다.

전자책의 특정 페이지에 포함된 텍스트를 음성으로 녹음하는 방법으로는 종래의 TTS 엔진을 이용하여 녹음하는 방법도 가능하나, 이는 본원발명의 기술에서는 논외로 하기로 한다.

우선, 제어부(260)는 전자책의 특정 페이지에 대응하는 사용자 음성 녹음 파일이 존재하지 않는 경우, 상기 페이지에 포함된 텍스트를 녹음하기 위한 녹음 수단을 표시부에 표시할 수 있다. 상기 녹음 수단은 도 1에 도시된 레코딩(REC) 버튼일 수 있다.

그리고 제어부(260)는 S405 단계에서 사용자 음성을 녹음하기 위한 녹음 명령이 입력되었는지 판단한다. 입력되지 않은 경우, 제어부(260)는 S410 단계로 진행하여 녹음 명령 입력 수신을 대기한다.

녹음 명령이 입력된 경우, 제어부(260)는 실제로 녹음을 실행하는 시점 및 녹음에 대응하는 텍스트 위치를 결정하여야 한다. 본 발명의 실시예에서는 녹음 명령 입력 후 일정 시간동안 터치 입력이 발생하지 않은 상태에서 사용자 음성이 감지되는 경우, 상기 사용자 음성을 사용자 음성 녹음 파일로만 저장한다.

반면, 녹음 명령 입력 후 텍스트 본문에 터치가 입력되면, 해당 위치를 녹음이 개시되는 초기 값으로 결정하여, 감지되는 사용자 음성 및 해당 텍스트 위치를 동기화시켜 사용자 음성 녹음 파일 및 동기화 파일을 구성하여 저장한다.

상기 내용을 도 4의 순서도를 참고하여 상세히 설명하도록 한다.

녹음 명령 입력 후, 제어부(260)는 S415 단계로 진행하여 텍스트 본문에 터치가 입력되는지 판단한다. 터치 입력이 없는 경우, 제어부(260)는 S420 단계로 진행하여 설정된 시간이 경과하였는지 여부를 판단한다. 상기 설정된 시간이 경과한 경우, 제어부(260)는 S425 단계로 진행하여 사용자 음성이 입력되는지 여부를 판단한다. 다시 말해, 제어부(260)는 녹음 명령 입력 후, 일정 시간동안 터치 입력이 발생하지 않은 상태에서 사용자 음성이 감지되는지 여부를 판단한다. 사용자 음성이 입력되는 경우, 제어부(260)는 S427 단계에서 녹음을 수행하여 해당 페이지에 대한 사용자 음성 녹음 파일을 생성하고, 이를 저장한다.

한편, S415 단계에서 텍스트 본문에 터치가 입력되는 경우, 제어부(260)는 S430 단계로 진행하여 터치가 발생한 텍스트 위치를 녹음이 개시되는 초기값으로 설정한다. 그리고 제어부(260)는 S435 단계에서, 사용자 음성이 감지되는지 여부를 판단하고, 감지되지 않는 경우 S440 단계로 진행하여 사용자 음성 감지를 대기한다.

한편, 사용자 음성이 감지되는 경우, S445 단계로 진행하여 사용자 음성이 녹음된 사용자 음성 녹음 파일, 및 상기 사용자 음성 녹음 파일에 대응하는 동기화 파일을 생성하고, 이를 저장할 수 있다.

여기서 상기 동기화 파일은 사용자 음성 녹음 파일과 동기화되어 사용자 음성이 재생 중인 텍스트를 하이라이트 하여 표시하기 위한 정보를 포함한다. 본 발명의 일 실시예에 따르면, 상기 동기화 파일은 SMIL(Synchronized Multimedia Integration Language) 파일일 수 있다. 상기 SMIL은 멀티미디어 데이터를 XML을 이용하여 시간적, 공간적으로 배치, 제어하기 위한 W3C 표준 프리젠테이션 언어이다.

본 발명의 실시예에 따른 동기화 파일은 임의의 시간 구간에 대응하는 텍스트 세트로 구성될 수 있다. 예를 들어, 전자책 특정 페이지에서 사용자 음성 TTS 녹음을 수행하는 경우, 상기 동기화 파일은 0~a 시간동안에는 상기 페이지 중 a 단락에 대응하는 텍스트가 녹음되며, a~b 시간 동안에는 상기 페이지 중 b 단락에 대응하는 텍스트가 녹음되었다는 정보를 포함할 수 있다. 동기화 파일의 구조를 표로 도시하면 하기와 같다.

전자책 1페이지에 생성된 동기화 파일 SMIL _P1의 구조
시간 구간	텍스트 위치
a 구간(0~a)	text set_a(1페이지 첫 번째 단락)
b 구간(a~b)	text set_b(1페이지 두 번째 단락)
c 구간(b~c)	text set_c(1페이지 세 번째 단락)
- - -	- - -

한편, 사용자 음성 TTS 녹음 수행 시, 본 발명의 일 실시예에 따르면 터치가 입력된 위치의 텍스트 단락을 시작점으로 하여 녹음이 개시될 수 있다. 또는 본 발명의 일 실시예에 따르면, 사용자 터치 입력 후 연속적으로 입력되는 드래그(drag) 영역에 대응하는 텍스트 단락에 대한 녹음이 개시될 수 있다. 이 경우, 사용자가 입력하는 드래그 입력이 텍스트 라인을 오차 범위 내에서 벗어나더라도, 제어부(260)는 표시부 상에서 표시되는 드래그 영역은 상기 텍스트 라인과 평행하게 표시되도록 위치 보정 기능을 제공할 수 있다. 마찬가지로, 본 발명의 다른 실시예에 따르면, 사용자의 터치 입력 해제 후 공백 또는 연속된 음성 녹음도 가능하며, 또는 공백 또는 연속된 음성 녹음 후 다시 터치되는 위치로부터 연속하여 음성을 녹음할 수도 있다.

도 5는 본 발명의 실시예에 따라 전자책의 각 페이지에서 사용자 음성 TTS 녹음 시, 각 페이지에 대해 저장되는 저장 파일의 구조를 도시하는 순서도이다.

도 5를 참고하여 설명하면, 전자책의 1 페이지에 대해 사용자 음성 TTS 녹음을 수행한 경우, 1 페이지의 텍스트를 사용자 음성으로 녹음한 사용자 음성 녹음 파일(mp3_P1), 및 이에 대응하는 동기화 파일(SMIL_P1)이 상기 전자책의 1페이지에 매핑되어 저장된다.

이 경우, 전자책 1페이지에 대한 동기화 파일은 사용자 음성 녹음 파일의 각 시간 구간에 대응하는 텍스트 단락의 위치 정보가 서로 매핑되어 저장된다. 예를 들어, 도 5에서 도시되는 바와 같이, 전자책 1페이지에 대한 동기화 파일에는 사용자 음성 녹음 파일의 a 시간 구간은 전자책 1페이지의 a 단락에 대응하는 텍스트 내용이 음성으로 녹음되었다는 정보가 매핑되어 저장된다. 마찬가지로 전자책 1페이지에 대한 동기화 파일에는 사용자 음성 녹음 파일의 b 시간 구간은 전자책 1페이지의 b 단락에 대응하는 텍스트 내용이 음성으로 녹음되었다는 정보가 매핑되어 저장된다.

또한, 전자책의 2 페이지에 대해 사용자 음성 TTS 녹음을 수행한 경우, 2 페이지의 텍스트를 사용자 음성으로 녹음한 사용자 음성 녹음 파일(mp3_P2), 및 이에 대응하는 동기화 파일(SMIL_P2)이 상기 전자책의 2페이지에 매핑되어 저장된다.

이 경우, 전자책 2페이지에 대한 동기화 파일은 사용자 음성 녹음 파일의 각 시간 구간에 대응하는 텍스트 단락의 위치 정보가 서로 매핑되어 저장된다. 예를 들어, 도 5에서 도시되는 바와 같이, 전자책 2페이지에 대한 동기화 파일에는 사용자 음성 녹음 파일의 a 시간 구간은 전자책 2페이지의 a 단락에 대응하는 텍스트 내용이 음성으로 녹음되었다는 정보가 매핑되어 저장된다. 마찬가지로 전자책 2페이지에 대한 동기화 파일에는 사용자 음성 녹음 파일의 b 시간 구간은 전자책 2페이지의 b 단락에 대응하는 텍스트 내용이 음성으로 녹음되었다는 정보가 매핑되어 저장된다.

상기한 바와 같이 전자책 각 페이지에 대해 저장된 사용자 음성 녹음 파일 및 동기화 파일은, 이후 사용자 음성 재생 시 사용자 음성과 텍스트를 동기화시켜 재생 중인 사용자 음성에 대응하는 텍스트를 하이라이트 하여 표시하는데 사용된다. 이에 대한 구체적인 내용은 해당 부분에서 구체적으로 기술하도록 한다.

도 6은 본 발명의 실시예에 따라 사용자 음성 TTS 녹음 시, 음소 별 사용자 음성을 음소 음성 파일로 구분하여 저장하는 TTS 데이터베이스의 구조를 도시하는 도면이다.

본 발명의 바람직한 실시예에 따르면, 사용자 음성 TTS 녹음 시, 각 음소별 사용자 음성을 음소 음성 파일로 구분하여 저장할 수 있다. 예를 들어, 사용자가 "가나다"라는 사용자 음성을 TTS 녹음한 경우, 제어부(260)는 "가", "나", "다"를 각각 구분하여 별도의 음소 음성 파일인 mp3_가, mp3_나, mp3_다 로 저장할 수 있다.

본 발명의 다른 실시예에 따르면, 사용자 음성을 반드시 음소로 구분하여 저장하지 않고, 단어 별로 구분하여 저장할 수도 있다. 예를 들어, 사용자가 "학교", "회사"라는 사용자 음성을 TTS 녹음한 경우, 제어부(260)는 "학교", "회사"를 별도의 단어 음성 파일인 mp3_학교, mp3_회사 로 저장할 수 있다.

상기에서는 사용자 음성 TTS 녹음 시, 음소 또는 단어별 사용자 음성을 별도의 음성 파일로 저장하는 실시예에 대하여 기술하였지만, 반드시 음소 또는 단어에 한정되는 것은 아니다. 즉, 본 발명의 실시예는 TTS 녹음 자동 완성 기능(후술함)을 수행하여 사용자가 전자책의 텍스트 내용을 모두 녹음시키지 않더라도, 텍스트 전체에 대해 사용자 음성 TTS 녹음을 완성시키기 위한 문자의 최소 단위에 대해서 음성 파일로 저장하는 실시예도 포함할 수 있다.

상기한 원칙에 따라 생성된 TTS 데이터베이스는 음소(또는, 단어 등) 별 사용자 음성을 저장하고 있으며, 이후 TTS 녹음 자동 완성 기능을 사용하는데 활용된다. 이에 대해서는 해당 부분에서 보다 구체적으로 기술하도록 한다.

도 7은 본 발명의 실시예에 따른 TTS 녹음 자동 완성 기능 수행 과정을 도시하는 순서도이다.

본 발명의 실시예에 따르면, 제어부(260)는 사용자 음성 TTS 녹음 시 각 음소(또는, 단어 등)별 사용자 음성을 음소 음성 파일로 구분하여 TTS 데이터베이스에 저장한다. 이와 같이 저장된 TTS 데이터베이스를 이용하면, 사용자가 전자책의 텍스트 내용을 모두 녹음하지 않더라도 전자책 텍스트 전체에 대해 사용자 음성 TTS 녹음을 수행할 수 있다.

우선, 제어부(260)가 전자책의 전체 페이지에 포함된 모든 텍스트에 대한 정보를 사전에 획득하였음을 가정한다.

그리고 제어부(260)는 S710 단계에서, 특정 페이지에 대해 사용자 음성 TTS 녹음이 완료되었음을 감지한다. 그러면 제어부(260)는 S720 단계로 진행하여 TTS 데이터베이스를 확인하고, S730 단계에서 자동 완성 기능이 사용 가능한지 여부를 판단한다. 이를 위해, 제어부(260)는 TTS 데이터베이스에 저장된 각 음소와, 전자책의 전체 페이지에 포함된 모든 텍스트를 상호 비교하여 상기 자동 완성 기능 사용 여부를 판단할 수 있다.

본 발명의 일 실시예에 따르면, 제어부(260)는 하기의 경우에는 자동 완성 기능을 사용할 수 있다고 판단할 수 있다.

1) 전자책의 전체 페이지에 포함된 모든 텍스트에 대해 TTS 데이터베이스 구성률이 100%인 경우

2) 상기 구성률이 100% 미만이지만 일정 수준 이상인 경우

상기 두 번째 경우, 제어부(260)는 TTS 데이터베이스 구성률이 100%가 되기 위해 필요한 음소만을 제시하여 녹음을 하거나, 또는 100%가 되기 위해 필요한 음소를 최대한 비슷한 음소로 대체하여 녹음을 할 수 있다.

상기 과정을 통해 자동 완성 기능을 사용할 수 있다고 판단하는 경우, 제어부(260)는 S740 단계로 진행하여 사용자에게 자동 완성 기능이 사용 가능함을 통지한다. 그리고 제어부(260)는 S750 단계에서, 자동 완성 기능 사용 명령이 수신되는지 여부를 판단한다.

자동 완성 기능 사용 명령 수신 시, 제어부(260)는 S760 단계로 진행하여 TTS 데이터베이스에 저장된 음소 음성 파일을 이용하여, 사용자 음성 TTS 녹음이 수행되지 않은 페이지에 대한 TTS 녹음을 수행한다.

도 8은 본 발명의 실시예에 따라, 전자책 특정 페이지에 대해 TTS 재생을 수행하는 과정을 도시하는 순서도이다. 도 8은 도 3의 S350 단계에 대응된다.

우선, 제어부(260)는 전자책의 특정 페이지에 대응하는 사용자 음성 녹음 파일이 존재하는 경우, 상기 사용자 음성 녹음 파일을 재생하기 위한 재생 수단을 표시부에 표시할 수 있다. 상기 재생 수단은 도 1에 도시된 플레이(PLAY) 버튼일 수 있다.

그리고 제어부(260)는 S810 단계에서, 상기 사용자 음성 녹음 파일을 재생하기 위한 재생 명령이 수신되는지 여부를 판단한다. 재생 명령 수신 시, 제어부(260)는 상기 사용자 음성 녹음 파일에 대응하는 동기화 파일이 존재하는지 판단한다.

동기화 파일 존재 시, 제어부(260)는 S860 단계로 진행하여 사용자 음성 녹음 파일과 동기화 파일을 동기화시켜 재생한다. 사용자 음성 녹음 파일과 동기화 파일을 동기화시켜 재생한다는 것은, 재생 중인 사용자 음성에 대응하는 텍스트를 하이라이트 하여 표시하는 것을 의미한다.

도 5에 도시된 바와 같이, 전자책의 각 페이지에는 사용자 음성 녹음 파일, 및 상기 사용자 음성 녹음 파일에 대응하는 동기화 파일이 매핑되어 저장되어 있으며, 상기 동기화 파일에는 사용자 음성 녹음 파일의 시간 구간 별 대응하는 텍스트 세트 위치가 매핑되어 있다. 따라서, 제어부(260)는 상기 관계를 이용하여 재생 중인 사용자 음성에 대응하는 텍스트의 위치를 식별할 수 있으며, 해당 위치를 하이라이트 하여 표시할 수 있다.

한편, S820 단계에서, 동기화 파일 미존재 시, 제어부(260)는 S830 단계로 진행하여 STT(Speech To Text) 기능을 이용하여 사용자 음성 녹음 파일에 녹음된 음성을 텍스트로 변환한다. 그리고 제어부(260)는 상기 변환된 텍스트의 특정 위치, 바람직하게는 변환된 텍스트의 최초 위치에 대응하는 전자책 상의 텍스트 위치를 식별한다. 그리고 제어부(260)는 변환된 텍스트의 최초 위치와 전자책 상의 텍스트 위치를 동기화시킨다.

그리고 제어부(260)는 S850 단계에서 사용자 음성이 재생됨에 따라, 사용자 음성에 대응하는 텍스트를 하이라이트 하여 표시한다.

도 9는 본 발명의 실시예에 따라 전자책에서 TTS 재생 시, 사용자 음성과 텍스트를 동기화시켜 표시하는 예시를 도시하는 도면이다.

도 9에서 도시되는 바와 같이, 본 발명의 실시예에 따른 전자책의 각 페이지에는 해당 페이지의 텍스트에 대응하는 사용자 음성 녹음 파일 또는 상기 사용자 음성 녹음 파일에 대응하는 동기화 파일 중 적어도 하나가 저장될 수 있다.

특정 페이지 진입 시, 해당 페이지에 사용자 음성 녹음 파일이 존재하는 경우, 전자책은 재생 수단을 표시한다. 그리고 사용자로부터 재생 명령이 입력되면, 전자책은 재생 중인 사용자 음성에 대응하는 텍스트를 하이라이트 하여 표시할 수 있다.

본 명세서와 도면에 개시된 본 발명의 실시예들은 본 발명의 기술 내용을 쉽게 설명하고 본 발명의 이해를 돕기 위해 특정 예를 제시한 것일 뿐이며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다.

210 : 무선 통신부 220 : 오디오 처리부
230 : 키입력부 240 : 터치스크린부
241 : 터치 센서부 242 : 표시부
250 : 저장부 260 : 제어부
261 : 녹음 제어부 262 재생 제어부

Claims

휴대 단말기의 사용자 음성 녹음 및 재생 방법에 있어서,
전자책을 실행하여 임의의 페이지에 진입하는 단계;
상기 페이지와 관련된 사용자 음성 녹음 파일 존재 여부를 판단하는 단계;
미존재 시, 상기 페이지에 포함된 텍스트를 사용자 음성으로 녹음하여 상기 페이지와 관련된 사용자 음성 녹음 파일을 생성하는 단계; 및
존재 시, 상기 사용자 음성 녹음 파일에 저장된 사용자 음성과 상기 텍스트를 동기화시켜 재생하는 단계를 포함하는 것을 특징으로 하는 사용자 음성 녹음 및 재생 방법.
제1항에 있어서, 상기 생성 단계는,
상기 페이지에 포함된 텍스트를 사용자 음성으로 녹음한 사용자 음성 녹음 파일, 및 상기 사용자 음성 녹음 파일의 각 시간 구간에 대응하는 텍스트 위치 정보를 포함하는 동기화 파일을 생성하는 것을 특징으로 하는 사용자 음성 녹음 및 재생 방법.
제1항에 있어서, 상기 생성 단계는,
상기 텍스트에 대한 녹음 명령 수신 시, 상기 텍스트의 임의의 위치에 대해 터치 입력이 감지되는지 판단하는 단계; 및
설정된 시간 경과 시까지 상기 터치 입력이 감지되지 않는 경우, 사용자 음성 녹음을 개시하는 단계를 더 포함하는 것을 특징으로 하는 사용자 음성 녹음 및 재생 방법.
제3항에 있어서, 상기 생성 단계는,
상기 텍스트의 임의의 위치에 대해 터치 입력이 감지되는 경우, 상기 터치 입력이 감지된 텍스트 위치를 사용자 음성 녹음이 개시되는 초기 위치로 설정하는 단계를 더 포함하는 것을 특징으로 하는 사용자 음성 녹음 및 재생 방법.
제1항에 있어서, 상기 생성 단계는,
입력되는 사용자 음성을 음소별로 분류하는 단계; 및
상기 분류된 음소별로 음소 음성 파일을 생성하여 저장하는 단계를 더 포함하는 것을 특징으로 하는 사용자 음성 녹음 및 재생 방법.
제5항에 있어서, 상기 생성 단계는,
임의의 페이지에 대한 사용자 음성 녹음 완료 시, 상기 음소 음성 파일과 상기 전자책에 포함된 모든 텍스트를 비교하는 단계;
상기 음소 음성 파일을 이용하여, 상기 사용자 음성 녹음 파일이 저장되지 않은 나머지 페이지에 포함된 텍스트들에 대해 자동 녹음 완료가 가능한지 판단하는 단계; 및
녹음 완료 가능 시, 상기 자동 녹음 완료가 가능함을 사용자에게 통지하는 단계를 더 포함하는 것을 특징으로 하는 사용자 음성 녹음 및 재생 방법.
제6항에 있어서, 상기 생성 단계는,
자동 녹음 명령 수행 시, 상기 음소 음성 파일을 이용하여 상기 사용자 음성 녹음 파일이 저장되지 않은 나머지 페이지에 포함된 텍스트들을 사용자 음성으로 변환하는 단계를 더 포함하는 것을 특징으로 하는 사용자 음성 녹음 및 재생 방법.
제1항에 있어서, 상기 재생 단계는,
상기 사용자 음성 녹음 파일에 저장된 사용자 음성에 대응하는 텍스트를 하이라이트하여 표시하는 것을 특징으로 하는 사용자 음성 녹음 및 재생 방법.
제1항에 있어서, 상기 재생 단계는,
재생 명령 수신 시, 상기 사용자 음성 녹음 파일에 대한 동기화 파일의 존재 여부를 판단하는 단계;
상기 동기화 파일 존재 시, 상기 동기화 파일에 포함된 사용자 음성 녹음 파일의 각 시간 구간에 대응하는 텍스트 위치 정보를 식별하는 단계; 및
상기 식별 결과를 이용하여 상기 사용자 음성 녹음 파일에 저장된 사용자 음성과 상기 텍스트를 동기화시켜 재생하는 단계를 더 포함하는 것을 특징으로 하는 사용자 음성 녹음 및 재생 방법.
제9항에 있어서, 상기 재생 단계는,
상기 동기화 파일 미존재 시, 상기 페이지에 관련된 사용자 음성 녹음 파일에 녹음된 사용자 음성을 텍스트로 변환하는 단계; 및
상기 변환된 텍스트와 상기 페이지에 포함된 텍스트를 동기화시켜 재생하는 단계를 더 포함하는 것을 특징으로 하는 사용자 음성 녹음 및 재생 방법.
사용자 음성 녹음 및 재생 장치에 있어서,
사용자 입력을 수신하는 입력부;
전자책에 포함된 텍스트를 표시하는 표시부; 및
상기 전자책의 임의의 페이지 진입 시 상기 페이지와 관련된 사용자 음성 녹음 파일 존재 여부를 판단하고, 상기 사용자 음성 녹음 파일 미존재 시 상기 페이지에 포함된 텍스트를 사용자 음성으로 녹음하여 상기 페이지와 관련된 사용자 음성 녹음 파일을 생성하며, 상기 사용자 음성 녹음 파일 존재 시 상기 사용자 음성 녹음 파일에 저장된 사용자 음성과 상기 텍스트를 동기화시켜 재생하도록 제어하는 제어부를 포함하는 것을 특징으로 하는 장치.
제11항에 있어서, 상기 제어부는,
상기 페이지에 포함된 텍스트를 사용자 음성으로 녹음한 사용자 음성 녹음 파일, 및 상기 사용자 음성 녹음 파일의 각 시간 구간에 대응하는 텍스트 위치 정보를 포함하는 동기화 파일을 생성하도록 제어하는 것을 특징으로 하는 장치.
제11항에 있어서, 상기 제어부는,
상기 텍스트에 대한 녹음 명령 수신 시 상기 텍스트의 임의의 위치에 대해 터치 입력이 감지되는지 판단하고, 설정된 시간 경과 시까지 상기 터치 입력이 감지되지 않는 경우 사용자 음성 녹음을 개시하도록 제어하는 것을 특징으로 하는 장치.
제13항에 있어서, 상기 제어부는,
상기 텍스트의 임의의 위치에 대해 터치 입력이 감지되는 경우, 상기 터치 입력이 감지된 텍스트 위치를 사용자 음성 녹음이 개시되는 초기 위치로 설정하도록 제어하는 것을 특징으로 하는 장치.
제11항에 있어서, 상기 제어부는,
입력되는 사용자 음성을 음소별로 분류하고, 상기 분류된 음소별로 음소 음성 파일을 생성하여 저장하도록 제어하는 것을 특징으로 하는 장치.
제15항에 있어서, 상기 제어부는,
임의의 페이지에 대한 사용자 음성 녹음 완료 시, 상기 음소 음성 파일과 상기 전자책에 포함된 모든 텍스트를 비교하고, 상기 음소 음성 파일을 이용하여 상기 사용자 음성 녹음 파일이 저장되지 않은 나머지 페이지에 포함된 텍스트들에 대해 자동 녹음 완료가 가능한지 판단하며, 녹음 완료 가능 시 상기 자동 녹음 완료가 가능함을 사용자에게 통지하도록 제어하는 것을 특징으로 하는 장치.
제16항에 있어서, 상기 제어부는,
자동 녹음 명령 수행 시, 상기 음소 음성 파일을 이용하여 상기 사용자 음성 녹음 파일이 저장되지 않은 나머지 페이지에 포함된 텍스트들을 사용자 음성으로 변환하도록 제어하는 것을 특징으로 하는 장치.
제11항에 있어서, 상기 제어부는,
상기 사용자 음성 녹음 파일에 저장된 사용자 음성에 대응하는 텍스트를 하이라이트하여 표시하도록 제어하는 것을 특징으로 하는 장치.
제11항에 있어서, 상기 제어부는,
재생 명령 수신 시, 상기 사용자 음성 녹음 파일에 대한 동기화 파일의 존재 여부를 판단하고, 상기 동기화 파일 존재 시 상기 동기화 파일에 포함된 사용자 음성 녹음 파일의 각 시간 구간에 대응하는 텍스트 위치 정보를 식별하며, 상기 식별 결과를 이용하여 상기 사용자 음성 녹음 파일에 저장된 사용자 음성과 상기 텍스트를 동기화시켜 재생하도록 제어하는 것을 특징으로 하는 장치.
제19항에 있어서, 상기 제어부는,
상기 동기화 파일 미존재 시 상기 페이지에 관련된 사용자 음성 녹음 파일에 녹음된 사용자 음성을 텍스트로 변환하고, 상기 변환된 텍스트와 상기 페이지에 포함된 텍스트를 동기화시켜 재생하도록 제어하는 것을 특징으로 하는 장치.