KR20180063814A - 청각적인 수단을 이용하여 메타데이터를 제공하는 장치 및 방법 - Google Patents

청각적인 수단을 이용하여 메타데이터를 제공하는 장치 및 방법 Download PDF

Info

Publication number
KR20180063814A
KR20180063814A KR1020170126156A KR20170126156A KR20180063814A KR 20180063814 A KR20180063814 A KR 20180063814A KR 1020170126156 A KR1020170126156 A KR 1020170126156A KR 20170126156 A KR20170126156 A KR 20170126156A KR 20180063814 A KR20180063814 A KR 20180063814A
Authority
KR
South Korea
Prior art keywords
content
metadata
audio signal
processor
reproduced
Prior art date
Application number
KR1020170126156A
Other languages
English (en)
Inventor
성종모
백승권
이미숙
이태진
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20180063814A publication Critical patent/KR20180063814A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • H04N21/4355Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream involving reformatting operations of additional data, e.g. HTML pages on a television screen
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • H04N21/4355Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream involving reformatting operations of additional data, e.g. HTML pages on a television screen
    • H04N21/4358Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream involving reformatting operations of additional data, e.g. HTML pages on a television screen for generating different versions, e.g. for different peripheral devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4398Processing of audio elementary streams involving reformatting operations of audio signals

Abstract

청각적인 수단을 이용하여 메타데이터를 제공하는 장치 및 방법이 개시된다. 청각적인 수단을 이용한 메타데이터 제공 방법은 영상 신호 및 제1 오디오 신호를 포함하는 콘텐츠를 수신하는 단계; 상기 수신된 콘텐츠에 포함된 텍스트 형태의 메타데이터를 오디오 형태의 메타데이터로 변환하는 단계; 상기 오디오 형태로 변환된 메타데이터와 상기 제1 오디오 신호를 믹싱하여 제2 오디오 신호를 생성하는 단계; 및 사용자의 입력 정보에 기초하여 상기 콘텐츠에 포함된 영상 신호 및 제1 오디오 신호 또는 제2 오디오 신호 각각을 대응하는 디스플레이 및 스피커를 통해 재생하는 단계를 포함할 수 있다.

Description

청각적인 수단을 이용하여 메타데이터를 제공하는 장치 및 방법{APPARATUS AND METHOD FOR PROVIDING METADATA USING AUDITORY MEANS}
본 발명은 청각적인 수단을 이용하여 메타데이터를 제공하는 장치 및 방법 에 관한 것으로, 보다 구체적으로는 재생하고자 하는 콘텐츠에 대응하는 메타데이터를 사용자의 필요에 따라 청각적인 정보 형태로 변형하여 제공하는 장치 및 방법에 관한 것이다.
최근 초고속 유무선 인터넷 및 이동망의 보급으로 인해 다양한 스마트 기기를 이용하여 음악 및 인터넷 방송을 즐기는 인구가 급격하게 늘어나고 있다. 이로 인해 음악 및 인터넷 방송을 비롯한 무수히 많은 콘텐츠가 사용자들에 의해 소비되고 있다. 이때, 기존의 일반적인 휴대형 스마트 기기에서 동작하는 콘텐츠 재생기는 재생되는 콘텐츠에 대한 다양한 식별 정보 및 부가 정보를 포함하는 메타데이터를 시각적인 정보로만 제공하고 있다. 예를 들어, 음악 재생기의 경우 곡명, 아티스트 정보, 앨범 정보, 가사 등 텍스트 형태의 정보를 스마트 기기의 디스플레이를 통해 제공하고 있다.
그러나 기존의 콘텐츠 재생기기의 경우 사용자가 해당 콘텐츠의 식별 정보 및 부가 정보를 포함하는 메타데이터를 스마트 기기의 디스플레이에서 확인하는 하기 위하여 필요한 행위를 취하는 과정에서 불편을 초래할 수 있다. 예를 들어, 사용자가 보행 중이거나 운전 중인 경우 스마트 기기의 디스플레이를 통해 콘텐츠의 메타데이터를 시각적으로 확인하는 것은 위험할 수 있다. 또한, 스마트 기기와 콘텐츠의 재생 장치가 서로 분리된 공간에 존재하는 경우(콘텐츠의 재생 장치가 스마트 기기에 내장된 스피커가 아닌 외부에 유선 또는 무선으로 연결된 이어폰 등인 경우) 더욱 심각한 불편이 초래될 있다.
본 발명에서는 스마트 기기의 디스플레이만을 통해 제공되는 콘텐츠의 식별 정보 및 부가 정보를 포함하는 메타데이터를 보다 편리하게 확인하기 위해 해당 콘텐츠의 메타데이터를 청각적인 수단을 이용하여 제공하는 방법을 개시한다.
본 발명은 청각적인 수단을 이용하여 메타데이터를 제공하는 장치 및 방법 에 관한 것으로, 보다 구체적으로는 재생하고자 하는 콘텐츠에 대응하는 메타데이터를 사용자의 필요에 따라 청각적인 정보 형태로 변형하는 장치 및 방법을 제공한다.
본 발명의 일실시예에 따른 청각적인 수단을 이용한 메타데이터 제공 방법은 영상 신호 및 제1 오디오 신호를 포함하는 콘텐츠를 수신하는 단계; 상기 수신된 콘텐츠에 포함된 텍스트 형태의 메타데이터를 오디오 형태의 메타데이터로 변환하는 단계; 상기 오디오 형태로 변환된 메타데이터와 상기 제1 오디오 신호를 믹싱하여 제2 오디오 신호를 생성하는 단계; 및 사용자의 입력 정보에 기초하여 상기 콘텐츠에 포함된 영상 신호 및 제1 오디오 신호 또는 제2 오디오 신호 각각을 대응하는 디스플레이 및 스피커를 통해 재생하는 단계를 포함할 수 있다.
상기 재생하는 단계는 상기 사용자의 입력 정보에 따라 상기 제1 오디오 신호 또는 제2 오디오 신호를 선택적으로 출력할 수 있다.
상기 재생하는 단계는 상기 사용자의 입력 정보가 오디오 형태로 변환된 메타데이터에 대한 요청을 포함하는 경우, 상기 제2 오디오 신호를 상기 스피커를 통해 재생할 수 있다.
상기 재생하는 단계는 상기 사용자가 입력 정보가 오디오 형태로 변환된 메타데이터에 대한 요청을 포함하지 않는 경우, 상기 제1 오디오 신호를 상기 스피커를 통해 재생할 수 있다.
본 발명의 일실시예에 따른 청각적인 수단을 이용한 메타데이터 제공 방법은 영상 신호 및 제1 오디오 신호를 포함하는 콘텐츠를 수신하는 단계; 상기 수신된 콘텐츠에 포함된 영상 신호 또는 제1 오디오 신호를 이용하여 상기 수신된 콘텐츠에 대한 핑거프린트를 추출하는 단계; 상기 추출된 핑거프린트를 이용하여 상기 수신된 콘텐츠에 대응하는 텍스트 형태의 메타데이터를 식별하는 단계; 상기 식별된 텍스트 형태의 메타데이터를 오디오 형태의 메타데이터로 변환하는 단계; 상기 오디오 형태로 변환된 메타데이터와 상기 제1 오디오 신호를 믹싱하여 제2 오디오 신호를 생성하는 단계; 및 사용자의 입력 정보에 기초하여 상기 콘텐츠에 포함된 영상 신호 및 제1 오디오 신호 또는 제2 오디오 신호 각각을 대응하는 디스플레이 및 스피커를 통해 재생하는 단계를 포함할 수 있다.
상기 재생하는 단계는 상기 사용자의 입력 정보에 따라 상기 제1 오디오 신호 또는 제2 오디오 신호를 선택적으로 출력할 수 있다.
상기 재생하는 단계는 상기 사용자의 입력 정보가 오디오 형태로 변환된 메타데이터에 대한 요청을 포함하는 경우, 상기 제2 오디오 신호를 상기 스피커를 통해 재생할 수 있다.
상기 재생하는 단계는 상기 사용자가 입력 정보가 오디오 형태로 변환된 메타데이터에 대한 요청을 포함하지 않는 경우, 상기 제1 오디오 신호를 상기 스피커를 통해 재생할 수 있다.
본 발명의 일실시예에 의하면, 재생하고자 하는 콘텐츠에 대응하는 메타데이터를 사용자의 필요에 따라 청각적인 정보 형태로 변형하여 제공함으로써 콘텐츠의 메타데이터를 확인하기 위한 사용자의 편리성을 획기적으로 개선할 수 있다.
도 1은 본 발명의 일실시예에 따른 재생하고자 하는 콘텐츠에 메타데이터가 포함된 경우 청각적인 수단을 이용하여 메타데이터를 제공하는 단말을 도시한 도면이다.
도 2는 본 발명의 일실시예에 따라 재생하고자 하는 콘텐츠에 메타데이터가 포함된 경우 단말이 수행하는 메타데이터 제공 방법을 도시한 도면이다.
도 3은 본 발명의 일실시예에 따른 재생하고자 하는 콘텐츠에 메타데이터가 포함되지 않는 경우 메타데이터를 청각적인 수단을 이용하여 제공하는 단말을 도시한 도면이다.
도 4는 본 발명의 일실시예에 따라 재생하고자 하는 콘텐츠에 메타데이터가 포함되지 않는 경우 단말이 수행하는 메타데이터 제공 방법을 도시한 도면이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일실시예에 따른 재생하고자 하는 콘텐츠에 메타데이터가 포함된 경우 청각적인 수단을 이용하여 메타데이터를 제공하는 단말을 도시한 도면이다.
도 1을 참고하면, 단말(110)은 제1 통신 모뎀(111), 제1 데이터베이스(112), 프로세서(113), 믹서(114), 스위치(115), D/A 변환기(116), 내부 스피커(117) 및 디스플레이(118)로 구성될 수 있다.
제1 통신 모뎀(111)은 단말(110)에 포함된 제1 데이터베이스(112)에 재생하고자 하는 콘텐츠가 없는 경우, 외부에 존재하는 콘텐츠 서버(120)에 저장된 콘텐츠를 수신하기 위하여 이용될 수 있다. 구체적으로 프로세서(113)는 일차적으로 사용자가 재생하고자 하는 콘텐츠를 제1 데이터베이스(112)에서 검색할 수 있다. 만약 제1 데이터베이스(112)에 재생하고자 하는 콘텐츠가 존재하는 경우, 프로세서(113)는 제1 데이터베이스(112)로부터 해당 콘텐츠를 수신하여 재생할 수 있다.
그러나 제1 데이터베이스(112)를 검색한 결과 재생하고자 하는 콘텐츠가 존재하지 않는 경우, 프로세서(113)는 제1 통신 모뎀(111)을 통해 외부에 존재하는 컨텐츠 서버(120)에 해당 콘텐츠를 요청할 수 있다. 구체적으로 프로세서(113)는 입력된 URL(Uniform Resource Locator)에 대응하는 콘텐츠를 제1 통신 모뎀(111)을 통해 콘텐츠 서버(120)로 요청할 수 있다. 그러면 콘텐츠 서버(120)는 해당 URL(Uniform Resource Locator)에 대응하는 콘텐츠를 제2 데이터베이스(122)에서 검색할 수 있다. 만약 제2 데이터베이스(122)에 콘텐츠가 존재하는 경우 콘텐츠 서버(120)는 제2 통신 모뎀(121)을 통해 단말(110)로 해당 콘텐츠를 전송할 수 있다. 그러나 제2 데이터베이스(122)에 콘텐츠가 존재하지 않는 경우, 콘텐츠 서버(120)는 단말(110)로 해당 콘텐츠가 존재하지 않는다는 정보를 전송할 수 있다.
프로세서(113)는 내부에 존재하는 제1 데이터베이스(112) 또는 외부의 콘텐츠 서버(120)로부터 재생하고자 하는 콘텐츠를 수신하는 경우, 해당 콘텐츠를 재생할 수 있다. 이때, 재생되는 콘텐츠는 영상 신호 및 오디오 신호를 포함할 수 있으며, 이들 각각은 단말(110)에 포함된 디스플레이(118) 및 내부 스피커(117) 또는 외부에 존재하는 외부 재생 장치(130)를 통해 재생될 수 있다.
여기서 프로세서(113)는 텍스트-음성 변환(Text-To-Speech, TTS)의 기능을 더 포함할 수 있다. 따라서, 프로세서(113)는 콘텐츠에 대응하는 텍스트 형태의 메타데이터를 오디오 형태의 메타데이터로 변환할 수 있다.
믹서(114)는 프로세서(113)를 통해 재생되는 콘텐츠의 오디오 신호와 오디오 형태로 변환된 메타데이터를 믹싱하여 믹싱 오디오 신호를 생성할 수 있다.
D/A 변환기(116)는 프로세서(113)를 통해 재생되는 가공되지 않은 원본 오디오 신호와 믹서(114)를 통해 출력된 믹싱 오디오 신호 중 사용자 입력 또는 설정에 따라 어느 하나의 오디오 신호를 수신할 수 있다. 이때, D/A 변환기(116)는 상기 사용자 입력 또는 설정에 따라 조작되는 스위치(115)를 통해 선택된 오디오 신호를 수신할 수 있으며, 수신된 오디오 신호는 디지털 형태의 오디오 신호이므로 이를 재생하기 위하여 아날로그 형태의 오디오 신호로 변환할 수 있다.
이후 D/A 변환기(116)를 통해 변환된 아날로그 형태의 오디오 신호는 내부 스피커(117) 또는 외부 재생 장치(130)를 통해 재생되어 사용자에게 제공될 수 있다. 이때, D/A 변환기(116)와 외부 재생 장치(130)는 유선 또는 무선으로 연결될 수 있으며 일례로 외부 재생 장치(130)는 유무선 이어폰 또는 유무선 스피커일 수 있다.
도 2는 본 발명의 일실시예에 따라 재생하고자 하는 콘텐츠에 메타데이터가 포함된 경우 단말이 수행하는 메타데이터 제공 방법을 도시한 도면이다.
단계(210)에서, 단말(110)의 프로세서(113)는 외부에 존재하는 콘텐츠 서버(120) 또는 내부에 포함된 제1 데이터베이스(112)로부터 재생하고자 하는 콘텐츠를 수신할 수 있다. 구체적으로 프로세서(113)는 일차적으로 내부에 포함된 제1 데이터베이스(112)에서 재생하고자 하는 콘텐츠를 검색하고, 검색 결과 제1 데이터베이스(112)에 해당 콘텐츠가 존재하지 않는 경우, 이차적으로 제1 통신부(111)를 통해 외부에 존재하는 콘텐츠 서버(120)로 해당 콘텐츠를 요청할 수 있다.
단계(220)에서, 프로세서(113)는 내부에 존재하는 제1 데이터베이스(112) 또는 외부의 콘텐츠 서버(120)로부터 수신된 콘텐츠를 재생할 수 있다. 이때, 재생되는 콘텐츠는 영상 신호 및 오디오 신호를 포함할 수 있으며, 이들 각각은 단말(110)에 포함된 디스플레이(118) 및 내부 스피커(117) 또는 단말(110)의 외부에 존재하는 외부 재생 장치(130)를 통해 재생될 수 있다.
단계(230)에서, 프로세서(113)는 재생되는 콘텐츠에 포함된 텍스트 형태의 메타데이터를 오디오 형태의 메타데이터로 변환할 수 있다. 이때, 프로세서(113)는 텍스트 형태의 메타데이터를 오디오 형태의 메타데이터로 변환하기 위하여 텍스트-음성 변환(Text-To-Speech, TTS) 기술을 이용할 수 있다.
단계(240)에서, 단말(110)의 믹서(114)는 프로세서(113)를 통해 재생되는 콘텐츠의 원본 오디오 신호와 오디오 형태로 변환된 메타데이터를 믹싱하여 믹싱 오디오 신호를 생성할 수 있다.
단계(250)에서, 단말(110)은 사용자 입력 또는 설정에 따라 가공되지 않은 원본 오디오 신호 또는 믹싱 오디오 신호 중 어느 하나를 선택하여 재생할 수 있다. 구체적으로 단말(110)은 사용자 입력이 오디오 형태로 변환된 메타데이터에 대한 요청을 포함하는 경우, 스위치(115)의 조작을 통해 수신된 믹싱 오디오 신호를 내부 스피커(117) 또는 외부 재생 장치(130)를 통해 재생할 수 있다. 이와는 달리 단말(110)은 사용자 입력이 오디오 형태로 변환된 메타데이터에 대한 요청을 포함하지 않는 경우, 스위치(115)의 조작을 통해 수신된 원본 오디오 신호를 내부 스피커(117) 또는 외부 재생 장치(130)를 통해 재생할 수 있다.
다만, 이와 같은 원본 오디오 신호 또는 믹싱 오디오 신호는 디지털 형식의 오디오 신호이므로 단말(110)은 D/A 변환기(116)를 통해 해당하는 원본 오디오 신호 또는 믹싱 오디오 신호를 아날로그 신호로 변환하여 재생할 수 있다.
도 3은 본 발명의 일실시예에 따른 재생하고자 하는 콘텐츠에 메타데이터가 포함되지 않는 경우 청각적인 수단을 이용하여 메타데이터를 제공하는 단말을 도시한 도면이다.
도 3을 참고하면, 단말(310)은 제1 통신 모뎀(311), 제1 데이터베이스(312), 프로세서(313), 믹서(314), 스위치(315), D/A 변환기(316), 내부 스피커(317) 및 디스플레이(318)로 구성될 수 있다.
제1 통신 모뎀(311)은 단말(310)에 포함된 제1 데이터베이스(312)에 재생하고자 하는 콘텐츠가 없는 경우, 외부에 존재하는 콘텐츠 서버(320)에 저장된 콘텐츠를 수신하기 위하여 이용될 수 있다. 구체적으로 프로세서(313) 일차적으로 사용자가 재생하고자 하는 콘텐츠를 제1 데이터베이스(312)에서 검색할 수 있다. 만약 제1 데이터베이스(312)에 재생하고자 하는 콘텐츠가 존재하는 경우, 프로세서(313)는 제1 데이터베이스(312)로부터 해당 콘텐츠를 수신하여 재생할 수 있다.
그러나 제1 데이터베이스(312)를 검색한 결과 재생하고자 하는 콘텐츠가 존재하지 않는 경우, 프로세서(313)는 제1 통신 모뎀(311)을 통해 외부에 존재하는 컨텐츠 서버(320)에 해당 콘텐츠를 요청할 수 있다. 구체적으로 프로세서(313)는 입력된 URL(Uniform Resource Locator)에 대응하는 콘텐츠를 제1 통신 모뎀(311)을 통해 콘텐츠 서버(320)로 요청할 수 있다. 그러면 콘텐츠 서버(320)는 해당 URL(Uniform Resource Locator)에 대응하는 콘텐츠를 제2 콘텐츠 데이터베이스(322)에서 검색할 수 있다. 만약 제2 데이터베이스(322)에 콘텐츠가 존재하는 경우, 콘텐츠 서버(320)는 제2 통신 모뎀(321)를 통해 단말(310)로 해당 콘텐츠를 전송할 수 있다.
프로세서(313)는 내부에 존재하는 제1 데이터베이스(312) 또는 외부의 콘텐츠 서버(320)로부터 재생하고자 하는 콘텐츠를 수신하는 경우, 해당 콘텐츠를 재생할 수 있다. 이때, 재생되는 콘텐츠는 영상 신호 및 오디오 신호를 포함할 수 있으며, 이들 각각은 단말(310)에 포함된 디스플레이(318) 및 내부 스피커(317) 또는 외부에 존재하는 외부 재생 장치(340)를 통해 재생될 수 있다.
이때, 프로세서(313)를 통해 재생되는 콘텐츠는 메타데이터를 포함하고 있지 않다. 따라서, 프로세서(313)는 재생되는 콘텐츠에 대응하는 메타데이터를 외부에 존재하는 메타데이터 서버(330)에 요청하여 수신할 수 있다. 이를 위해 프로세서(313)는 재생되는 콘텐츠에 포함된 영상 신호 또는 원본 오디오 신호로부터 메타데이터 검색을 위한 핑거프린트를 추출할 수 있다.
프로세서(313)는 추출된 핑거프린트를 이용하여 외부에 존재하는 메타데이터 서버(330)로 재생되는 콘텐츠에 대응하는 메타데이터를 요청할 수 있다. 그러면 메타데이터 서버(330)는 수신된 핑거프린트에 대응하는 메타데이터를 제3 데이터베이스(332)에서 검색할 수 있다. 만약 제3 데이터베이스(332)에 핑거프린트에 대응하는 메타데이터가 존재하는 경우, 메타데이터 서버(330)는 제3 통신 모뎀(331)을 통해 단말(310)로 해당 메타데이터를 전송할 수 있다.
여기서 프로세서(313)는 텍스트-음성 변환(Text-To-Speech, TTS)의 기능을 더 포함할 수 있다. 따라서, 프로세서(313)는 콘텐츠에 대응하는 텍스트 형태의 메타데이터를 오디오 형태의 메타데이터로 변환할 수 있다.
믹서(314)는 프로세서(313)를 통해 재생되는 콘텐츠의 오디오 신호와 오디오 형태로 변환된 메타데이터를 믹싱하여 믹싱 오디오 신호를 생성할 수 있다.
D/A 변환기(316)는 프로세서(313)를 통해 재생되는 가공되지 않은 원본 오디오 신호와 믹서(314)를 통해 출력된 믹싱 오디오 신호 중 사용자 입력 또는 설정에 따라 어느 하나의 오디오 신호를 수신할 수 있다. 이때, D/A 변환기(316)는 상기 사용자 입력 또는 설정에 따라 조작되는 스위치(315)를 통해 선택된 오디오 신호를 수신할 수 있으며, 수신된 오디오 신호는 디지털 형태의 오디오 신호이므로 이를 재생하기 위하여 아날로그 형태의 오디오 신호로 변환할 수 있다.
이후 D/A 변환기(316)를 통해 변환된 아날로그 형태의 오디오 신호는 내부 스피커(317) 또는 외부 재생 장치(340)를 통해 재생되어 사용자에게 제공될 수 있다. 이때, D/A 변환기(316)와 외부 재생 장치(340)는 유선 또는 무선으로 연결될 수 있으며 일례로 외부 재생 장치(340)는 유무선 이어폰 또는 유무선 스피커일 수 있다.
도 4는 본 발명의 일실시예에 따라 재생하고자 하는 콘텐츠에 메타데이터가 포함되지 않는 경우 단말이 수행하는 메타데이터 제공 방법을 도시한 도면이다.
단계(410)에서, 단말(310)의 프로세서(313)는 외부에 존재하는 콘텐츠 서버(320) 또는 내부에 포함된 제1 데이터베이스(312)로부터 재생하고자 하는 콘텐츠를 수신할 수 있다. 구체적으로 프로세서(313)는 일차적으로 내부에 포함된 제1 데이터베이스(312)에서 재생하고자 하는 콘텐츠를 검색하고, 검색 결과 제1 데이터베이스(312)에 해당 콘텐츠가 존재하지 않는 경우, 이차적으로 제1 통신부(311)를 통해 외부에 존재하는 콘텐츠 서버(320)로 해당 콘텐츠를 요청할 수 있다.
단계(420)에서, 프로세서(313)는 내부에 존재하는 제1 데이터베이스(312) 또는 외부의 콘텐츠 서버(320)로부터 수신된 콘텐츠를 재생할 수 있다. 이때, 재생되는 콘텐츠는 영상 신호 및 오디오 신호를 포함할 수 있으며, 이들 각각은 단말(310)에 포함된 디스플레이(318) 및 내부 스피커(317) 또는 단말(310)의 외부에 존재하는 외부 재생 장치(340)를 통해 재생될 수 있다.
단계(430)에서, 프로세서(313)는 재생되는 콘텐츠에 포함된 영상 신호 또는 원본 오디오 신호로부터 메타데이터 검색을 위한 핑거프린트를 추출하고, 추출된 핑거프린트에 대응하는 메타데이터를 외부에 존재하는 메타데이터 서버(330)에 요청할 수 있다.
단계(440)에서, 프로세서(313)는 메타데이터 서버(330)로부터 수신된 텍스트 형태의 메타데이터를 오디오 형태의 메타데이터로 변환할 수 있다. 이때, 프로세서(313)는 텍스트 형태의 메타데이터를 오디오 형태의 메타데이터로 변환하기 위하여 텍스트-음성 변환(Text-To-Speech, TTS) 기술을 이용할 수 있다.
단계(450)에서, 단말(110)의 믹서(114)는 프로세서(113)를 통해 재생되는 콘텐츠의 원본 오디오 신호와 오디오 형태로 변환된 메타데이터를 믹싱하여 믹싱 오디오 신호를 생성할 수 있다.
단계(460)에서, 단말(310)은 사용자 입력 또는 설정에 따라 가공되지 않은 원본 오디오 신호 또는 믹싱 오디오 신호 중 어느 하나를 선택하여 재생할 수 있다. 구체적으로 단말(310)은 사용자 입력이 오디오 형태로 변환된 메타데이터에 대한 요청을 포함하는 경우, 스위치(315)의 조작을 통해 수신된 믹싱 오디오 신호를 내부 스피커(317) 또는 외부 재생 장치(340)를 통해 재생할 수 있다. 이와는 달리 단말(310)은 사용자 입력이 오디오 형태로 변환된 메타데이터에 대한 요청을 포함하지 않는 경우, 스위치(315)의 조작을 통해 수신된 원본 오디오 신호를 내부 스피커(317) 또는 외부 재생 장치(340)를 통해 재생할 수 있다.
다만, 이와 같은 원본 오디오 신호 또는 믹싱 오디오 신호는 디지털 형식의 오디오 신호이므로 단말(310)은 D/A 변환기(316)를 통해 해당하는 원본 오디오 신호 또는 믹싱 오디오 신호를 아날로그 신호로 변환하여 재생할 수 있다.
한편, 본 발명에 따른 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성되어 마그네틱 저장매체, 광학적 판독매체, 디지털 저장매체 등 다양한 기록 매체로도 구현될 수 있다.
본 명세서에 설명된 각종 기술들의 구현들은 디지털 전자 회로조직으로, 또는 컴퓨터 하드웨어, 펌웨어, 소프트웨어로, 또는 그들의 조합들로 구현될 수 있다. 구현들은 데이터 처리 장치, 예를 들어 프로그램가능 프로세서, 컴퓨터, 또는 다수의 컴퓨터들의 동작에 의한 처리를 위해, 또는 이 동작을 제어하기 위해, 컴퓨터 프로그램 제품, 즉 정보 캐리어, 예를 들어 기계 판독가능 저장 장치(컴퓨터 판독가능 매체) 또는 전파 신호에서 유형적으로 구체화된 컴퓨터 프로그램으로서 구현될 수 있다. 상술한 컴퓨터 프로그램(들)과 같은 컴퓨터 프로그램은 컴파일된 또는 인터프리트된 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 기록될 수 있고, 독립형 프로그램으로서 또는 모듈, 구성요소, 서브루틴, 또는 컴퓨팅 환경에서의 사용에 적절한 다른 유닛으로서 포함하는 임의의 형태로 전개될 수 있다. 컴퓨터 프로그램은 하나의 사이트에서 하나의 컴퓨터 또는 다수의 컴퓨터들 상에서 처리되도록 또는 다수의 사이트들에 걸쳐 분배되고 통신 네트워크에 의해 상호 연결되도록 전개될 수 있다.
컴퓨터 프로그램의 처리에 적절한 프로세서들은 예로서, 범용 및 특수 목적 마이크로프로세서들 둘 다, 및 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서들을 포함한다. 일반적으로, 프로세서는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 다로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 요소들은 명령어들을 실행하는 적어도 하나의 프로세서 및 명령어들 및 데이터를 저장하는 하나 이상의 메모리 장치들을 포함할 수 있다. 일반적으로, 컴퓨터는 데이터를 저장하는 하나 이상의 대량 저장 장치들, 예를 들어 자기, 자기-광 디스크들, 또는 광 디스크들을 포함할 수 있거나, 이것들로부터 데이터를 수신하거나 이것들에 데이터를 송신하거나 또는 양쪽으로 되도록 결합될 수도 있다. 컴퓨터 프로그램 명령어들 및 데이터를 구체화하는데 적절한 정보 캐리어들은 예로서 반도체 메모리 장치들, 예를 들어, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리, EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM) 등을 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로조직에 의해 보충되거나, 이에 포함될 수 있다.
또한, 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용매체일 수 있고, 컴퓨터 저장매체 및 전송매체를 모두 포함할 수 있다.
본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.
마찬가지로, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 장치 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 장치들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징 될 수 있다는 점을 이해하여야 한다.
한편, 본 명세서와 도면에 개시된 본 발명의 실시 예들은 이해를 돕기 위해 특정 예를 제시한 것에 지나지 않으며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 자명한 것이다.
110, 310 : 단말
111, 311 : 통신 모뎀
112, 312 : 데이터베이스
113, 313 : 프로세서
114, 314 : 믹서
115, 315 : 스위치
116, 316 : D/A 변환기
117, 317 : 내부 스피커
118, 318 : 디스플레이

Claims (1)

  1. 영상 신호 및 제1 오디오 신호를 포함하는 콘텐츠를 수신하는 단계;
    상기 수신된 콘텐츠에 포함된 텍스트 형태의 메타데이터를 오디오 형태의 메타데이터로 변환하는 단계;
    상기 오디오 형태로 변환된 메타데이터와 상기 제1 오디오 신호를 믹싱하여 제2 오디오 신호를 생성하는 단계; 및
    사용자의 입력 정보에 기초하여 상기 콘텐츠에 포함된 영상 신호 및 제1 오디오 신호 또는 제2 오디오 신호 각각을 대응하는 디스플레이 및 스피커를 통해 재생하는 단계
    를 포함하는 청각적인 수단을 이용한 메타데이터 제공 방법.
KR1020170126156A 2016-12-02 2017-09-28 청각적인 수단을 이용하여 메타데이터를 제공하는 장치 및 방법 KR20180063814A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20160163745 2016-12-02
KR1020160163745 2016-12-02

Publications (1)

Publication Number Publication Date
KR20180063814A true KR20180063814A (ko) 2018-06-12

Family

ID=62622397

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170126156A KR20180063814A (ko) 2016-12-02 2017-09-28 청각적인 수단을 이용하여 메타데이터를 제공하는 장치 및 방법

Country Status (1)

Country Link
KR (1) KR20180063814A (ko)

Similar Documents

Publication Publication Date Title
US10229669B2 (en) Apparatus, process, and program for combining speech and audio data
CN107766482B (zh) 信息推送及发送方法、装置、电子设备、存储介质
CN104205209B9 (zh) 回放控制设备、回放控制方法
US8352272B2 (en) Systems and methods for text to speech synthesis
US8712776B2 (en) Systems and methods for selective text to speech synthesis
US8396714B2 (en) Systems and methods for concatenation of words in text to speech synthesis
US8583418B2 (en) Systems and methods of detecting language and natural language strings for text to speech synthesis
US8352268B2 (en) Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US20100082327A1 (en) Systems and methods for mapping phonemes for text to speech synthesis
US20100082348A1 (en) Systems and methods for text normalization for text to speech synthesis
CN104205038A (zh) 信息处理设备,信息处理方法,信息处理程序和终端设备
JP2020008854A (ja) 音声要求を処理するための方法および装置
JP2007164659A (ja) 音楽情報を利用した情報配信システム及び情報配信方法
JP2019091014A (ja) マルチメディアを再生するための方法及び装置
JP6490898B2 (ja) サービスを提供する方法及びそのデバイス
US8682938B2 (en) System and method for generating personalized songs
US20020087224A1 (en) Concatenated audio title
KR20180063814A (ko) 청각적인 수단을 이용하여 메타데이터를 제공하는 장치 및 방법
US8050927B2 (en) Apparatus and method for outputting voice relating to the preferences of a user
KR20170027332A (ko) 메타데이터를 추출하여 전송하는 콘텐츠 제공 방법 및 장치
KR101554662B1 (ko) 디지털 오디오 데이터에 대한 코드 제공 방법 및 이에 의한 사용자 단말
KR20090062548A (ko) 콘텐츠 검색 방법 및 이를 이용하는 이동통신 단말기
WO2023010949A1 (zh) 一种音频数据的处理方法及装置
KR100740490B1 (ko) 멀티미디어 파일 재생 방법 및 그 방법을 채용한멀티미디어 파일 재생기
JP2005215304A (ja) カラオケ演奏装置