KR102403149B1 - 전자 장치 및 그의 제어 방법 - Google Patents

전자 장치 및 그의 제어 방법 Download PDF

Info

Publication number
KR102403149B1
KR102403149B1 KR1020170036304A KR20170036304A KR102403149B1 KR 102403149 B1 KR102403149 B1 KR 102403149B1 KR 1020170036304 A KR1020170036304 A KR 1020170036304A KR 20170036304 A KR20170036304 A KR 20170036304A KR 102403149 B1 KR102403149 B1 KR 102403149B1
Authority
KR
South Korea
Prior art keywords
information
short clip
server
short
keyword
Prior art date
Application number
KR1020170036304A
Other languages
English (en)
Other versions
KR20180010955A (ko
Inventor
송영석
김한기
임동현
박해광
손준호
이우정
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020170036304A priority Critical patent/KR102403149B1/ko
Priority to EP17831233.6A priority patent/EP3438852B1/en
Priority to US16/319,545 priority patent/US10957321B2/en
Priority to PCT/KR2017/006790 priority patent/WO2018016760A1/ko
Publication of KR20180010955A publication Critical patent/KR20180010955A/ko
Application granted granted Critical
Publication of KR102403149B1 publication Critical patent/KR102403149B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4828End-user interface for program selection for searching program descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • H04N21/6581Reference data, e.g. a movie identifier for ordering a movie or a product identifier in a home shopping application
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8126Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
    • H04N21/8133Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program
    • GPHYSICS
    • G08SIGNALLING
    • G08CTRANSMISSION SYSTEMS FOR MEASURED VALUES, CONTROL OR SIMILAR SIGNALS
    • G08C2201/00Transmission systems of control signals via wireless link
    • G08C2201/30User interface
    • G08C2201/31Voice input
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

전자 장치가 개시된다. 전자 장치는, 복수의 쇼트 클립에 대한 정보 및 복수의 쇼트 클립 별 키워드를 저장하는 서버와 통신하는 통신부, 출력부, 입력부 및 입력부를 통해 사용자 발화 음성이 수신되면, 수신된 발화 음성에 포함된 키워드 및 출력부에서 출력되는 콘텐츠에 대한 정보에 기초하여 쇼트 클립 요청 신호를 서버로 전송하고, 요청 신호에 따라 서버로부터 수신된 쇼트 클립에 대한 정보에 기초하여 쇼트 클립을 출력부를 통해 출력하는 프로세서를 포함한다.

Description

전자 장치 및 그의 제어 방법{ELECTRIC DEVICE AND METHOD FOR CONTROLLING THEREOF}
본 발명은 전자 장치 및 그의 제어 방법에 관한 것으로, 더욱 상세하게는 쇼트 클립을 제공하는 전자 장치 및 그의 제어 방법에 관한 것이다.
최근 전자 기술의 발달에 힘입어 다양한 유형의 멀티미디어 장치가 개발되고 있다. 특히, TV, PC, 랩탑 컴퓨터, 태블릿 PC, 스마트폰 등과 같은 멀티미디어 장치들은 대부분의 가정에서 사용될 정도로 보급율이 높다.
이와 함께, 다양한 기능을 원하는 사용자의 니즈(needs)에 부합하기 위하여, 멀티미디어 장치에 음성 인식을 결합한 개인 비서 서비스(Smart Assistant)를 좀 더 새로운 형태로 개발하기 위한 노력이 이루어지고 있다.
하지만, 종래 기술에 따르면, 사용자의 질문에 대한 텍스트 기반의 검색 결과를 TTS를 이용하여 부자연스러운 음성으로 제공하는데 그치고 있다.
또한, 검색 결과에 영상 또는 음성 콘텐츠가 포함된 경우, 콘텐츠를 원본 그대로 제공하고 있다. 이 경우, 원본 콘텐츠는 사용자의 질문과 관계없는 부분이 다수 포함되어 있어 사용자에게 무의미한 검색 결과를 받아들여지는 문제가 있었다.
따라서, 원본 콘텐츠에서 사용자의 질문과 관계되는 구간만이 검색 결과로 제공될 필요성이 대두되었다.
본 발명은 상술한 문제점을 해결하기 위해 안출된 것으로, 본 발명의 목적은 키워드에 기초하여 원본 콘텐츠에 대한 쇼트 클립을 제공하는 전자 장치 및 그의 제어 방법을 제공함에 있다.
상술한 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 전자 장치는, 복수의 쇼트 클립에 대한 정보 및 상기 복수의 쇼트 클립 별 키워드를 저장하는 서버와 통신하는 통신부, 출력부, 입력부 및 상기 입력부를 통해 사용자 발화 음성이 수신되면, 상기 수신된 발화 음성에 포함된 키워드 및 상기 출력부에서 출력되는 콘텐츠에 대한 정보에 기초하여 쇼트 클립 요청 신호를 상기 서버로 전송하고, 상기 요청 신호에 따라 상기 서버로부터 수신된 쇼트 클립에 대한 정보에 기초하여 쇼트 클립을 상기 출력부를 통해 출력하는 프로세서를 포함한다.
여기서, 상기 복수의 쇼트 클립에 대한 정보는, 상기 복수의 쇼트 클립이 저장된 위치 및 상기 키워드를 포함하는 시간 구간에 대한 정보 중 적어도 하나를 포함하며, 상기 프로세서는, 상기 요청 신호에 따라 상기 서버로부터 쇼트 클립에 대한 정보가 수신되면, 수신된 정보에 기초하여 상기 쇼트 클립을 출력할 수 있다.
또한, 상기 복수의 쇼트 클립 각각은, 특정 콘텐츠에서 특정 키워드를 포함하는 부분을 편집하여 생성된 동영상 콘텐츠 또는 음향 콘텐츠일 수 있다.
또한, 상기 프로세서는, 상기 쇼트 클립에 대한 추가 정보가 수신되면, 상기 쇼트 클립에 대한 추가 정보를 제공하며, 상기 쇼트 클립에 대한 추가 정보는, 원본 콘텐츠의 타이틀, 장르, 상기 원본 콘텐츠의 방송 시간, 상기 쇼트 클립의 생성 시간, 상기 원본 콘텐츠의 방송국 정보, 상기 키워드 중 적어도 하나를 포함할 수 있다.
한편, 상기 출력부는, 디스플레이 및 스피커 중 적어도 하나를 포함할 수 있다.
본 발명의 다른 실시 예에 따른 전자 장치에 있어서, 상기 출력부는, 스피커만을 포함하도록 구현되며, 상기 프로세서는, 상기 쇼트 클립에 대한 추가 정보를 상기 스피커를 통해 오디오로 제공할 수 있다.
또한, 상기 출력부는, 디스플레이 및 스피커 중 적어도 하나를 포함하며, 상기 프로세서는, 상기 스피커를 통해 출력되는 오디오에서 기설정된 시간 동안 기설정된 횟수 이상 반복되는 키워드에 기초하여 상기 서버로 상기 키워드와 관련된 쇼트 클립 요청 신호를 상기 서버로 추가적으로 전송할 수 있다.
또한, 상기 프로세서는, 상기 수신된 발화 음성에 포함된 키워드에 기초하여 상기 쇼트 클립과 함께 상기 발화 음성에 대한 추가 응답 정보를 함께 제공할 수 있다.
한편, 상기 프로세서는, 상기 키워드 및 사용자 정보를 포함하는 상기 요청 신호를 상기 서버로 전송하고, 상기 서버로부터 상기 키워드 및 상기 사용자 정보와 관련된 쇼트 클립을 수신할 수 있다.
또한, 상기 프로세서는, 상기 발화 음성이 수신되면, 상기 수신된 발화 음성을 음성 인식 서버 또는 상기 서버로 전송하고 상기 음성 인식 서버 또는 상기 서버로부터 수신된 상기 키워드 및 상기 콘텐츠에 대한 정보에 기초하여 쇼트 클립 요청 신호를 상기 서버로 전송할 수 있다.
한편, 본 발명의 일 실시 예에 따른 복수의 쇼트 클립에 대한 정보 및 상기 복수의 쇼트 클립 별 키워드를 저장하는 서버와 통신하는 전자 장치의 제어 방법은, 콘텐츠를 출력하는 단계, 사용자의 발화 음성을 수신하는 단계, 상기 발화 음성이 수신되면, 상기 수신된 발화 음성에 포함된 키워드 및 상기 콘텐츠에 대한 정보에 기초하여 쇼트 클립 요청 신호를 상기 서버로 전송하는 단계 및 상기 요청 신호에 따라 상기 서버로부터 수신된 쇼트 클립에 대한 정보에 기초하여 쇼트 클립을 출력하는 단계를 포함한다.
여기서, 상기 복수의 쇼트 클립에 대한 정보는, 상기 복수의 쇼트 클립이 저장된 위치 및 상기 키워드를 포함하는 시간 구간에 대한 정보 중 적어도 하나를 포함하며, 상기 전송하는 단계는, 상기 요청 신호에 따라 상기 서버로부터 쇼트 클립에 대한 정보가 수신되면, 수신된 정보에 기초하여 상기 쇼트 클립을 출력할 수 있다.
또한, 상기 복수의 쇼트 클립 각각은, 특정 콘텐츠에서 특정 키워드를 포함하는 부분을 편집하여 생성된 동영상 콘텐츠 또는 음향 콘텐츠일 수 있다.
또한, 상기 쇼트 클립을 출력하는 단계는, 상기 쇼트 클립에 대한 추가 정보가 수신되면, 상기 쇼트 클립에 대한 추가 정보를 제공하며, 상기 쇼트 클립에 대한 추가 정보는, 원본 콘텐츠의 타이틀, 장르, 상기 원본 콘텐츠의 방송 시간, 상기 쇼트 클립의 생성 시간, 상기 원본 콘텐츠의 방송국 정보, 상기 키워드 중 적어도 하나를 포함할 수 있다.
여기서, 상기 쇼트 클립을 출력하는 단계는, 상기 쇼트 클립에 대한 추가 정보를 스피커를 통해 오디오로 제공할 수 있다.
한편, 상기 전자 장치는, 디스플레이 및 스피커 중 적어도 하나를 포함하며, 상기 전송하는 단계는, 상기 스피커를 통해 출력되는 오디오에서 기설정된 시간 동안 기설정된 횟수 이상 반복되는 키워드에 기초하여 상기 서버로 상기 키워드와 관련된 쇼트 클립 요청 신호를 상기 서버로 추가적으로 전송할 수 있다.
또한, 상기 쇼트 클립을 출력하는 단계는, 상기 수신된 발화 음성에 포함된 키워드에 기초하여 상기 쇼트 클립과 함께 상기 발화 음성에 대한 추가 응답 정보를 함께 제공할 수 있다.
또한, 상기 전송하는 단계는, 상기 키워드 및 사용자 정보를 포함하는 상기 요청 신호를 상기 서버로 전송하고, 상기 쇼트 클립을 출력하는 단계는, 상기 서버로부터 상기 키워드 및 상기 사용자 정보와 관련된 쇼트 클립을 수신하여 출력할 수 있다.
한편, 상기 전송하는 단계는, 상기 수신된 발화 음성을 음성 인식 서버 또는 상기 서버로 전송하고, 상기 음성 인식 서버 또는 상기 서버로부터 수신된 상기 키워드 및 상기 콘텐츠에 대한 정보에 기초하여 쇼트 클립 요청 신호를 상기 서버로 전송할 수 있다.
한편, 본 발명의 일 실시 예에 따른 전자 장치 및 서버를 포함하는 시스템은, 복수의 원본 콘텐츠 각각의 키워드에 기초하여 복수의 쇼트 클립에 대한 정보를 생성하고, 상기 생성된 복수의 쇼트 클립에 대한 정보 및 상기 복수의 쇼트 클립 별 키워드를 저장하는 서버 및 사용자의 발화 음성이 수신되면, 상기 수신된 발화 음성에 포함된 키워드 및 상기 전자 장치가 출력하는 콘텐츠에 대한 정보에 기초하여 쇼트 클립 요청 신호를 상기 서버로 전송하고, 상기 요청 신호에 따라 상기 서버로부터 수신된 쇼트 클립에 대한 정보에 기초하여 쇼트 클립을 출력하는 전자 장치를 포함한다.
이상과 같은 본 발명의 다양한 실시 예에 따르면, 사용자의 발화 음성에 포함된 키워드에 기초하여 원본 콘텐츠에 대한 쇼트 클립을 제공하므로, 사용자의 편의성이 증대될 수 있다.
도 1은 본 발명의 일 실시 예에 따른 쇼트 클립을 제공하는 시스템을 설명하기 위한 도면이다.
도 2a 및 도 2b는 본 발명의 일 실시 예에 따른 전자 장치의 구성을 나타내는 블럭도이다.
도 3은 본 발명의 일 실시 예에 따른 서버의 구성을 나타내는 블럭도이다.
도 4는 본 발명의 일 실시 예에 따른 키워드와 관련된 쇼트 클립을 출력하는 방법을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시 예에 따른 출력 콘텐츠와 관련된 쇼트 클립을 출력하는 방법을 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시 예에 따른 오디오 신호를 분석하여 키워드를 획득하는 방법을 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시 예에 따른 쇼트 클립에 대한 추가 정보를 설명하기 위한 도면이다.
도 8은 본 발명의 일 실시 예에 따른 쇼트 클립과 함께 제공되는 추가 응답 정보를 설명하기 위한 도면이다.
도 9는 본 발명의 일 실시 예에 따른 쇼트 클립 제공 방법을 설명하기 위한 흐름도이다.
도 10은 본 발명의 일 실시 예에 따른 쇼트 클립을 제공하는 시스템을 설명하기 위한 흐름도이다.
도 11은 본 발명의 다른 실시 예에 따른 전자 장치가 스피커를 통해 쇼트 클립을 제공하는 방법을 설명하기 위한 도면이다.
이하에서는 도면을 참조하여 본 발명을 더욱 상세하게 설명한다. 그리고, 본 발명을 설명함에 있어서, 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단된 경우 그 상세한 설명은 생략한다. 덧붙여, 하기 실시 예는 여러 가지 다른 형태로 변형될 수 있으며, 본 개시의 기술적 사상의 범위가 하기 실시 예에 한정되는 것은 아니다. 오히려, 이들 실시 예는 본 개시를 더욱 충실하고 완전하게 하고, 당업자에게 본 개시의 기술적 사상을 완전하게 전달하기 위하여 제공되는 것이다.
또한, 어떤 구성요소를 '포함'한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다. 나아가, 도면에서의 다양한 요소와 영역은 개략적으로 그려진 것이다. 따라서, 본 개시의 기술적 사상은 첨부한 도면에 그려진 상대적인 크기나 간격에 의해 제한되지 않는다.
도 1은 본 발명의 일 실시 예에 따른 쇼트 클립을 제공하는 시스템을 설명하기 위한 도면이다.
전자 장치(100)는 디스플레이 및 스피커 중 적어도 하나를 이용하여 콘텐츠를 출력하는 다양한 유형의 장치로 구현될 수 있다. 따라서, 전자 장치(100)는 디지털 TV로 구현될 수 있으나, 이에 한정되는 것은 아니며 PC, 휴대폰, 태블릿 PC, PMP, PDA, 네비게이션 등과 같이 디스플레이 기능을 갖춘 다양한 유형의 장치로 구현될 수 있다. 또한, 전자 장치(100)는 디스플레이 기능을 구비하지 않은 음향 출력 장치로 구현될 수 있음은 물론이다. 이 경우, 콘텐츠는 스피커를 통해 오디오 신호로 출력될 수 있다. 다만, 이하에서는 설명의 편의를 위하여 전자 장치(100)가 디지털 TV로 구현되는 경우를 상정하여 설명하도록 한다. 전자 장치(100)가 디스플레이 기능을 구비하지 않고 스피커만을 포함하는 실시 예에 대해서는 도 10에서 구체적으로 설명하도록 한다.
본 발명의 일 실시 예에 따른 전자 장치(100)는 사용자의 발화 음성을 수신하고, 수신된 발화 음성에 포함된 키워드를 획득할 수 있다. 구체적으로, 전자 장치(100)는 수신된 발화 음성을 음성 인식 서버(미도시)로 전송하고, 음성 인식 서버로부터 발화 음성에 포함된 키워드를 수신할 수 있다. 다만, 이에 한정되는 것은 아니며, 전자 장치(100)가 사용자의 발화 음성을 분석하여 키워드를 획득할 수도 있다.
또한, 본 발명의 일 실시 예에 따른 서버(200)가 쇼트 클립 제공과 함께, 발화 음성을 분석하여 발화 음성에 포함된 키워드를 전자 장치(100)로 전송하는 음성 인식 서버로 활용될 수 있음은 물론이다.
전자 장치(100)는 수신된 발화 음성에 포함된 키워드 및 전자 장치(100)가 출력하는 콘텐츠에 대한 정보에 기초하여 쇼트 클립 요청 신호를 서버(200)로 전송할 수 있다. 이 경우, 전자 장치(100)는 서버(200)로부터 요청 신호에 대응하여 쇼트 클립에 대한 정보를 수신하고, 수신된 정보에 기초하여 쇼트 클립을 출력할 수 있다. 여기서, 쇼트 클립에 대한 정보는 쇼트 클립, 쇼트 클립이 저장된 위치 및 키워드를 포함하는 시간 구간에 대한 정보 중 적어도 하나 일 수 있다. 일 예로, 키워드를 포함하는 시간 구간이 수신되면, 전자 장치(100)는 이에 기초하여 콘텐츠에서 특정 키워드를 포함하는 시간 구간만을 재생하여 출력할 수도 있다.
서버(200)는 복수의 쇼트 클립에 대한 정보 및 복수의 쇼트 클립 별 키워드를 저장할 수 있다. 구체적으로, 서버(200)는 콘텐츠 제공자(300)로부터 콘텐츠를 수신하고, 수신된 콘텐츠로부터 쇼트 클립을 생성할 수 있다. 예를 들어, 서버(200)는 방송사로부터 방송 콘텐츠를 수신하고, 수신된 방송 콘텐츠로부터 복수의 쇼트 클립을 생성할 수 있다. 이하에서는 설명의 편의를 위하여, 콘텐츠 제공자(300)로부터 수신된 콘텐츠를 원본 콘텐츠로 명명한다.
쇼트 클립은 수신된 원본 콘텐츠의 특정 부분 또는 일부를 편집한 영상을 의미하며, 경우에 따라 복수 개의 콘텐츠가 결합된 형태로 될 수 도 있다. 예를 들어, 복수 개의 컨텐츠 각각에서 특정 부분 또는 일부를 획득하고, 획득된 부분들을 결합하여 쇼트 클립을 생성할 수 있다.
본 발명의 일 실시 예에 따라 서버(200)는 원본 콘텐츠의 오디오 신호를 분석하고, EPD(Endpoint Detection) 단위로 원본 콘텐츠를 편집할 수 있다. 여기서, EPD는 원본 콘텐츠의 오디오 신호를 분석하여 실시간으로 음성의 시작점과 종료점을 검출하는 알고리즘을 의미한다.
또한, 서버(200)는 EPD 단위로 편집된 영상 각각에 포함된 음성을 분석하여 키워드를 획득할 수 있다. 따라서, 서버(200)는 하나의 원본 콘텐츠로부터 EPD 단위로 편집된, 복수의 편집 영상 및 복수의 편집 영상 각각에 매칭되는 키워드를 획득하여 저장할 수 있다. 여기서, 편집 영상에 매칭되는 키워드는 적어도 하나 이상일 수 있다.
본 발명의 일 실시 예에 따라 서버(200)가 편집 영상에 포함된 오디오 신호를 분석하여 복수의 키워드를 획득한 경우, 하나의 편집 영상에 복수의 키워드가 매칭되어 서버에 저장될 수 있다. 한편, 원본 콘텐츠는 반드시 EPD 단위로 편집되는 것은 아니며, 서버(200)는 다양한 음성 검출 알고리즘에 기초하여 원본 콘텐츠를 편집하여 복수의 쇼트 클립을 생성할 수도 있다. 서버(200)의 쇼트 클립 및 쇼트 클립 별 키워드 생성 방법은 도 3에서 상세히 설명하도록 한다. 이하에서는, 설명의 편의를 위하여 원본 콘텐츠로부터 획득한 편집 영상을 쇼트 클립으로 명명한다.
쇼트 클립은 원본 콘텐츠의 특정 부분, 예를 들어 특정 키워드를 포함하는 부분을 기설정된 시간 이내(예를 들어, 3분 이내)로 편집한 영상일 수 있다. 다만, 쇼트 클립은 영상 콘텐츠에 한정되지 않으며, 음향 콘텐츠를 편집하여 생성될 수 있음은 물론이다. 또한, 쇼트 클립의 재생 시간은 설정 및 음성 검출 알고리즘에 따라 변경될 수 있으므로, 3분 이내로 제한되지 않음은 물론이다.
한편, 서버(200)는 쇼트 클립 생성시에, 쇼트 클립에 대한 정보를 함께 생성하여 저장할 수 있다. 여기서, 쇼트 클립에 대한 정보는 쇼트 클립이 저장된 위치 및 특정 키워드를 포함하는 시간 구간에 대한 정보 중 적어도 하나를 포함할 수 있다. 구체적으로, 서버(200)는 쇼트 클립에 포함된 오디오 신호 분석하여 키워드를 획득하고, 쇼트 클립 및 쇼트 클립과 매칭되는 키워드를 저장할 수 있다. 따라서, 서버(200)는 복수의 쇼트 클립 및 복수의 쇼트 클립 별 키워드를 저장할 수 있다. 또한, 본 발명의 일 실시 예에 따른 서버(200)는 원본 콘텐츠에 대한 메타데이터에 기초하여 원본 콘텐츠의 타이틀, 장르, 원본 콘텐츠의 방송 시간, 쇼트 클립의 생성시간, 원본 콘텐츠의 방송국 정보 등을 쇼트 클립과 함께 저장할 수 있다.
본 발명의 일 실시 예에 따른 전자 장치(100)는 사용자의 발화 음성을 분석하여, 발화 음성에 포함된 키워드와 관련된 쇼트 클립 요청 신호를 서버로 전송하고, 서버(200)는 수신된 요청 신호에 포함된 키워드에 대한 쇼트 클립을 전자 장치(100)로 전송할 수 있다. 또한, 전자 장치(100)는 수신된 쇼트 클립을 디스플레이하여 사용자에게 제공할 수 있다.
한편, 상술한 바와 같이 본 발명의 일 실시 예에 따른 전자 장치(100)는 사용자의 발화 음성을 음성 인식 서버로 전송하고, 음성 인식 서버로부터 발화 음성에 포함된 키워드를 수신할 수도 있다. 또한, 쇼트 클립을 제공하는 서버(200)가 사용자의 발화 음성을 수신하고, 발화 음성에 포함된 키워드를 전자 장치(100)로 전송하도록 구현할 수도 있다. 즉, 음성 인식 서버 또는 서버(200)는 사용자의 발화 음성이 수신되면, 수신된 음성을 텍스트로 변환하고, 변환된 텍스트에서 키워드를 획득하는 과정의 음성 인식을 수행하도록 구현될 수 있다.
이하에서는, 전자 장치(100)의 구체적 구성을 나타내는 블럭도를 참고하여 본 발명의 다양할 실시 예에 대해 설명하도록 한다.
도 2a 및 도 2b는 본 발명의 일 실시 예에 따른 디스플레이 장치의 구성을 나타내는 블록도이다.
도 2a에 따르면, 전자 장치(100)는 통신부(110), 입력부(120), 출력부(130) 및 프로세서(140)를 포함한다.
통신부(110)는 다양한 유형의 통신방식에 따라 외부기기와 통신을 수행한다.
특히, 통신부(110)는 유/무선 방식 적어도 하나를 이용하여 복수의 쇼트 클립 및 복수의 쇼트 클립 별 키워드를 저장하는 서버(200)와 통신을 수행할 수 있다. 또한, 통신부(110)는 음성 인식 서버와 통신을 수행할 수 있다. 여기서, 통신부(110)는 와이파이칩, 블루투스 칩, 무선 통신 칩, NFC 칩 등 다양한 통신 칩을 포함할 수 있다.
통신부(110)는 후술하는 바와 같이 입력부(120)를 통해 사용자의 발화 음성이 수신되면, 음성 인식 서버로 수신된 발화 음성을 전송하고, 발화 음성에 포함된 키워드를 수신할 수 있다. 한편, 서버(200)가 음성 인식 서버로 활용되는 경우, 통신부(110)는 수신된 발화 음성을 서버(200)로 전송하고, 서버(200)로부터 키워드를 수신할 수도 있다. 다만, 이에 한정되는 것은 아니며, 음성 인식 서버 또는 서버(200)와 통신을 수행하지 않고, 전자 장치(100)가 사용자의 발화 음성에 대한 음성 인식을 수행하여 키워드를 획득할 수도 있음은 물론이다.
한편, 본 발명의 일 실시 예에 따른 통신부(110)는 쇼트 클립을 요청하는 신호를 서버(200)로 전송하고, 요청 신호에 따른 쇼트 클립을 서버(200)로부터 수신할 수 있다. 여기서, 요청 신호는 사용자의 발화 음성에 포함된 키워드 및 콘텐츠에 대한 정보에 기초한 신호이다. 일 예로, 요청 신호는 키워드 및 전자 장치(100)가 출력 중인 컨텐츠에 대한 정보를 포함하는 신호가 될 수 있다. 다른 예로, 요청 신호는 키워드 및 전자 장치(100)가 출력 중인 컨텐츠에 대한 정보를 포함하는 별도의 신호와 연속하여 또는 동시에 서버(200)로 전송될 수 있다.
본 발명의 일 실시 예에 따른 요청 신호는 전자 장치(100)에 디스플레이되고 있는 콘텐츠에 대한 정보, 콘텐츠에서 반복하여 출력되는 키워드, 전자 장치(100)의 사용자에 대한 정보 등을 포함하는 신호일 수 있다. 여기서, 콘텐츠에서 반복하여 출력되는 키워드는, 전자 장치(100)가 출력하는 콘텐츠에서 기설정된 시간 동안에 기설정된 횟수 이상 반복되는 키워드를 의미할 수 있다. 이하에서는, 설명의 편의를 위하여 전자 장치(100)에 디스플레이하고 있는 콘텐츠 또는 출력하고 있는 콘텐츠를 출력 콘텐츠로 명명한다.
또한, 통신부(110)는 상술한 요청 신호에 대한 응답으로, 서버(200)로부터 쇼트 클립을 수신할 수 있다.
구체적으로, 서버(200)는 전자 장치(100)로부터 쇼트 클립 요청 신호가 수신되면, 요청 신호에 대응하는 쇼트 클립을 전자 장치(100)로 전송할 수 있다. 다만, 이에 한정되는 것은 아니며, 서버(200)는 요청 신호에 대응하는 원본 콘텐츠가 저장된 위치에 대한 정보 및 해당 원본 컨텐츠 중 쇼트 클립에 해당하는 시간 정보를 저장할 수 있다. 예를 들어, 서버(200)는 원본 컨텐츠를 재생하는 웹 주소 및 해당 원본 컨텐츠 중 쇼트 클립에 해당하는 시간 정보를 전자 장치(100)로 전송할 수도 있다. 이 경우, 전자 장치(100)는 수신된 웹 주소에 기초하여 원본 콘텐츠가 저장된 서버에 접속하고, 해당 시간 정보에 대응하는 구간을 재생할 수 있다.
일 예로, 전자 장치(100)는 서버(200)로부터 특정 콘텐츠를 수신할 수 있는 웹 주소 및 특정 콘텐츠에서 해당 키워드가 포함된 구간에 대한 시간 정보 수신할 수 있다. 이 경우, 전자 장치(100)는 수신된 웹 주소에 접속하여 특정 콘텐츠를 수신하고, 시간 정보에 기초하여 특정 콘텐츠의 특정 구간만을 재생하여 출력할 수 있다.
입력부(120)는 사용자의 발화 음성을 수신하여 오디오 데이터로 변환하기 위한 구성이다. 구체적으로, 입력부(120)는 마이크로 구현되어 사용자의 발화 음성을 수신할 수 있다. 다만, 이에 한정되는 것은 아니며, 입력부(120)는 전자 장치(100)가 아닌 전자 장치(100)를 제어하기 위한 원격 제어 장치(미도시)에 구비되어 사용자의 발화 음성을 수신할 수도 있다.
또한, 전자 장치(100)가 터치 기반의 전자 장치로 구현되는 경우 입력부(120)는 터치패드와 상호 레이어 구조를 이루는 터치 스크린 형태로 구현될 수도 있다. 이 경우, 입력부(120)는 발화 음성 외에도 터치 스크린을 통한 키워드 입력을 수신할 수도 있다.
출력부(130)는 다양한 콘텐츠 및 쇼트 클립 중 적어도 하나를 출력할 수 있다. 구체적으로 출력부(130)는 디스플레이 및 스피커 중 적어도 하나를 포함할 수 있다. 출력부(130)가 디스플레이를 포함하는 경우, 출력부(130)는 이미지, 동영상, 텍스트, 음악 등과 같은 다양한 콘텐츠 재생 화면, 다양한 콘텐츠를 포함하는 어플리케이션 실행 화면, 웹 브라우저 화면, GUI(Graphic User Interface) 화면 등을 디스플레이할 수 있다.
이 경우, 디스플레이는 LCD(Liquid Crystal Display Panel), OLED(Organic Light Emitting Diodes) 등으로 구현될 수 있으나, 이에 한정되는 것은 아니다. 또한, 디스플레이는 경우에 따라 플렉서블 디스플레이, 투명 디스플레이 등으로 구현되는 것도 가능하다.
특히, 디스플레이는 서버(200)로부터 수신된 쇼트 클립을 디스플레이할 수 있다.
한편, 본 발명의 다른 실시 예에 따른 출력부(130)가 스피커만을 포함하도록 구현되면, 출력부(130)는 수신된 쇼트 클립을 스피커를 통해 오디오로 제공할 수도 있다. 일 예로, 전자 장치(100)가 디스플레이 기능을 구비하지 않은 음향 출력 장치로 구현되는 경우, 출력부(130)는 수신된 쇼트 클립에 대한 추가 정보를 오디오로 제공할 수 있고, 쇼트 클립의 오디오 신호만을 제공할 수도 있다.
프로세서(140)는 전자 장치(100)의 전반적인 동작을 제어한다.
특히, 프로세서(140)는 입력부(120)를 통해 사용자의 발화 음성이 수신되면, 수신된 발화 음성에 포함된 키워드 및 콘텐츠에 대한 정보에 기초하여 쇼트 클립을 요청하는 신호를 통신부(110)를 통해 서버(200)로 전송할 수 있다. 또한, 요청 신호에 따라 서버(200)로부터 수신된 쇼트 클립을 출력부(130)를 통해 출력할 수 있다.
구체적으로, 프로세서(140)는 출력 콘텐츠에 대한 정보를 서버(200)로 전송할 수 있다. 여기서, 출력 콘텐츠에 대한 정보는 출력 콘텐츠의 타이틀, 장르, 방송 시간, 방송국 정보 등을 포함할 수 있다. 따라서, 프로세서(140)가 키워드 및 출력 콘텐츠에 대한 정보 중 적어도 하나에 기초하여 쇼트 클립 요청 신호를 서버(200)로 전송하면, 프로세서(140)는 키워드 및 출력 콘텐츠와 관련된 쇼트 클립을 수신하여 제공할 수 있다.
이 경우, 프로세서(140)가 쇼트 클립 요청 신호를 서버(200)로 전송한 시점에 서버(200)에서 기 생성된 쇼트 클립을 제공받을 수 있게 된다. 여기서, 기 생성된 쇼트 클립은 출력 콘텐츠와 상이한 콘텐츠로부터 생성된 쇼트 클립이 될 수 있다. 예를 들어, 출력 콘텐츠 방송 시간 이전에 방송되어 기 생성된 콘텐츠가 될 수 있다.
다만, 이에 한정되는 것은 아니며 해당 출력 콘텐츠에서 생성된 쇼트 클립도 수신할 수 있다. 일 실시 예에 따라, 출력 콘텐츠가 실시간으로 수신되는 방송 콘텐츠인 경우 서버(200) 또한 해당 방송 콘텐츠를 수신할 수 있는데 프로세서(140)가 요청 신호를 전송한 시점에 해당 출력 콘텐츠에 대한 쇼트 클립이 생성되어 있다면, 해당 쇼트 클립도 그 대상이 될 수 있다. 예를 들어, 해당 출력 콘텐츠가 방송 시작 시점이 사용자가 쇼트 클립을 요청한 시점보다 기설정된 시간 이전인 경우, 해당 출력 콘텐츠에 대한 쇼트 클립이 기 생성되어 있을 수 있기 때문이다.
한편, 프로세서(140)는 쇼트 클립에 대한 추가 정보를 수신할 수 있다. 구체적으로, 프로세서(140)는 서버(200)로부터 쇼트 클립 및 쇼트 클립에 대한 추가 정보를 수신하여 제공할 수 있다. 여기서, 쇼트 클립에 대한 추가 정보는 쇼트 클립의 원본 콘텐츠의 타이틀, 장르, 원본 콘텐츠의 방송 시간, 쇼트 클립의 생성 시간, 원본 콘텐츠의 방송국, 키워드 중 적어도 하나를 포함하는 정보일 수 있다.
또한, 프로세서(140)는 출력 콘텐츠의 오디오 신호를 분석하여 기설정된 시간동안 기설정된 횟수 이상 반복되는 키워드에 기초하여 서버(200)로 해당 키워드와 관련된 쇼트 클립을 요청하는 신호를 전송할 수 있다. 따라서, 프로세서(140)는 출력 콘텐츠에서 반복되는 단어를 키워드로 획득하고, 해당 키워드를 서버(200)로 전송하여 이와 관련된 쇼트 클립을 수신할 수 있다.
또한, 전자 장치(100)는 사용자 정보를 저장하는 저장부(미도시)를 포함할 수 있고, 프로세서(140)는 저장부에 저장된 사용자 정보를 포함하는 요청 신호를 서버(200)로 전송할 수 있다. 이 경우, 프로세서(140)는 사용자 정보와 관련된 쇼트 클립을 수신하여 디스플레이할 수 있다. 여기서, 사용자 정보는 전자 장치(100)의 사용자에 대한 정보로서, 연령대, 선호 장르, 선호 콘텐츠, 선호 방송국 등을 포함하는 정보일 수 있다. 따라서, 전자 장치(100)가 서버(200)로부터 복수의 쇼트 클립을 수신하는 경우, 키워드 및 사용자 정보에 기초하여 사용자에게 보다 적합한 쇼트 클립을 수신하여 디스플레이할 수 있다.
도 2b는 본 발명의 다른 실시 예에 따른 전자 장치(100)의 세부 구성을 나타내는 블럭도이다. 도 2b에 따르면, 전자 장치(100)는 통신부(110), 입력부(120), 출력부(130), 프로세서(140), 저장부(150), 오디오 처리부(160), 비디오 처리부(170) 를 포함한다. 도 2b에 도시된 구성요소들 중 도 2a에 도시된 구성요소와 중복되는 부분에 대해서는 자세한 설명을 생략하도록 한다.
프로세서(140)는 저장부(150)에 저장된 각종 프로그램을 이용하여 전자 장치(100)의 동작을 전반적으로 제어한다. 프로세서(140)는 중앙처리장치(central processing unit(CPU)), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서(140)는 디지털 시그널 프로세서(digital signal processor(DSP))로 구현될 수 있고, 콘텐츠 프로세싱 알고리즘이 내장된 SoC로 구현될 수도 있고, FPGA(Field Programmable gate array) 형태로 구현될 수도 있다.
구체적으로, 프로세서(140)는 RAM(141), ROM(142), 메인 CPU(143), 그래픽 처리부(144), 제1 내지 n 인터페이스(145-1 ~ 145-n), 버스(146)를 포함한다.
RAM(141), ROM(142), 메인 CPU(143), 그래픽 처리부(144), 제1 내지 n 인터페이스(145-1 ~ 145-n) 등은 버스(136)를 통해 서로 연결될 수 있다.
제1 내지 n 인터페이스(145-1 내지 145-n)는 상술한 각종 구성요소들과 연결된다. 인터페이스들 중 하나는 네트워크를 통해 외부 장치와 연결되는 네트워크 인터페이스가 될 수도 있다.
메인 CPU(143)는 저장부(150)에 액세스하여, 저장부(150)에 저장된 O/S를 이용하여 부팅을 수행한다. 그리고, 저장부(150)에 저장된 각종 프로그램, 콘텐츠, 데이터 등을 이용하여 다양한 동작을 수행한다.
ROM(142)에는 시스템 부팅을 위한 명령어 세트 등이 저장된다. 턴온 명령이 입력되어 전원이 공급되면, 메인 CPU(143)는 ROM(142)에 저장된 명령어에 따라 저장부(150)에 저장된 O/S를 RAM(141)에 복사하고, O/S를 실행시켜 시스템을 부팅시킨다. 부팅이 완료되면, 메인 CPU(143)는 저장부(150)에 저장된 각종 어플리케이션 프로그램을 RAM(141)에 복사하고, RAM(141)에 복사된 어플리케이션 프로그램을 실행시켜 각종 동작을 수행한다.
그래픽 처리부(144)는 연산부(미도시) 및 렌더링부(미도시)를 이용하여 아이콘, 이미지, 텍스트 등과 같은 다양한 객체를 포함하는 화면을 생성한다. 연산부(미도시)는 수신된 제어 명령에 기초하여 화면의 레이아웃에 따라 각 객체들이 표시될 좌표값, 형태, 크기, 컬러 등과 같은 속성값을 연산한다. 렌더링부(미도시)는 연산부(미도시)에서 연산한 속성값에 기초하여 객체를 포함하는 다양한 레이아웃의 화면을 생성한다. 렌더링부(미도시)에서 생성된 화면은 출력부(130)의 디스플레이 영역 내에 표시된다.
저장부(150)는 전자 장치(100)를 구동시키기 위한 O/S(Operating System) 소프트웨어 모듈, 각종 멀티미디어 콘텐츠, 각종 어플리케이션, 어플리케이션 실행 중에 입력되거나 설정되는 각종 콘텐츠 등과 같이 다양한 데이터를 저장한다. 특히, 저장부(150)는 사용자 정보, 예를 들어, 사용자 선호도 정보, 연령대, 사용자 프로파일 정보 등을 저장할 수 있다.
오디오 처리부(160)는 오디오 데이터에 대한 처리를 수행하는 구성요소이다. 오디오 처리부(160)에서는 오디오 데이터에 대한 디코딩이나 증폭, 노이즈 필터링 등과 같은 다양한 처리가 수행될 수 있다. 예를 들어, 오디오 처리부(160)는 채널 재핑시 표시되는 사용자 선호도 정보가 기설정된 기준을 만족하는 경우 등에 대응되는 피드백 사운드를 생성하여 제공할 수 있다.
비디오 처리부(170)는 비디오 데이터에 대한 처리를 수행하는 구성요소이다. 비디오 처리부(170)에서는 비디오 데이터에 대한 디코딩, 스케일링, 노이즈 필터링, 프레임 레이트 변환, 해상도 변환 등과 같은 다양한 이미지 처리를 수행할 수 있다.
도 3은 본 발명의 일 실시 예에 따른 서버(200)의 구성을 나타내는 블럭도이다.
도 3에 따르면, 서버(200)는 통신부(210), 저장부(220) 및 프로세서(230)를 포함한다.
통신부(210)는 다양한 유형의 통신방식에 따라 외부기기와 통신을 수행한다.
특히, 통신부(210)는 유/무선 방식 중 적어도 하나를 이용하여 콘텐츠 제공자(300)와 통신을 수행할 수 있다. 구체적으로, 통신부(210)는 콘텐츠 제공자(300)로부터 콘텐츠를 수신할 수 있다. 여기서, 통신부(210)는 와이파이칩, 블루투스 칩, 무선 통신 칩, NFC 칩, 튜너 등 다양한 통신 칩을 포함할 수 있다.
또한, 본 발명의 일 실시 예에 따른 통신부(210)는 전자 장치(100)와 통신을 수행할 수 있다. 구체적으로, 통신부(210)는 전자 장치(100)가 전송한 쇼트 클립 요청 신호를 수신하고, 이에 대응하여 쇼트 클립을 전자 장치(100)로 전송할 수 있다.
저장부(220)는 서버(200)를 구동시키기 위한 O/S(Operating System) 소프트웨어 모듈, 각종 멀티미디어 콘텐츠, 각종 어플리케이션, 어플리케이션 실행 중에 입력되거나 설정되는 각종 콘텐츠 등과 같이 다양한 데이터를 저장한다.
특히, 저장부(220)는 원본 콘텐츠, 원본 콘텐츠로부터 생성된 복수의 쇼트 클립 및 복수의 쇼트 클립 별 키워드를 저장할 수 있다.
본 발명의 일 실시 예에 따라 서버(200)가 원본 콘텐츠를 편집하여 복수의 쇼트 클립을 생성하면, 복수의 쇼트 클립에 포함된 오디오 신호에 따라 적어도 하나의 키워드를 획득할 수 있다. 이 경우, 서버(200)는 쇼트 클립 및 해당 쇼트 클립에서 획득된 키워드를 저장부(220)에 저장할 수 있다. 예를 들어, 제1 쇼트 클립에 포함된 오디오 신호를 분석하여 제1 및 제2 키워드를 획득한 경우, 서버(200)는 제1 쇼트 클립과 함께 제1 및 제2 키워드를 저장할 수 있다.
본 발명의 일 실시 예에 따라 서버(200)는 키워드 별 쇼트 클립을 그룹화하여 저장할 수도 있다. 이 경우, 제1 키워드에 대응하는 오디오 신호를 포함하는 쇼트 클립이 그룹화되어 저장부(220)에 저장될 수 있다. 따라서, 전자 장치(100)로부터 수신된 쇼트 클립 요청 신호에 제1 키워드가 포함되어 있으면, 서버(200)는 제1 키워드에 대응하여 그룹핑된 복수의 쇼트 클립을 전자 장치(100)로 전송할 수 있다.
프로세서(230)는 서버(200)의 전반적인 동작을 제어한다.
우선, 본 발명의 일 실시 예에 따른 서버(200)가 음성 인식 기능을 수행하는 경우, 프로세서(230)는 전자 장치(100)로부터 수신된 발화 음성을 분석하고, 발화 음성에 포함된 키워드를 획득할 수 있다. 서버(200)는 키워드를 전자 장치(100)로 전송할 수 있다.
또한, 프로세서(230)는 통신부(210)를 통해 원본 콘텐츠가 수신되면, 수신된 원본 콘텐츠를 편집하여 복수의 쇼트 클립을 생성할 수 있다. 구체적으로, 프로세서(230)는 음성 검출 알고리즘에 기초하여 원본 콘텐츠의 특정 구간만을 편집할 수 있다. 여기서, 음성 검출 알고리즘은 적어도 하나의 키워드를 포함하는 오디오 신호를 검출하는 알고리즘을 의미한다.
예를 들어, 프로세서(230)는 원본 콘텐츠의 오디오 신호를 분석하여 음성의 시작점과 종료점을 검출하고, 시작점과 종료점의 사이 구간(EPD 단위)을 편집하여 쇼트 클립을 생성할 수 있다.
다만, 이에 한정되는 것은 아니며, 서버(200)는 기설정된 시간 구간, 콘텐츠 제공자에 의해 설정된 특정 구간, 서버(200) 관리자에 의해 설정된 시간 구간, 쇼트 클립 요청 신호에 포함된 사용자 요청 시간 구간 등에 기초하여 원본 콘텐츠를 편집하여 쇼트 클립을 생성할 수도 있다.
일 실시 예에 따라 프로세서(230)는 실시간으로 수신되는 방송 콘텐츠에서 음성의 최초로 검출된 후 음성이 종료되었다고 판단되면, 해당 구간을 실시간으로 편집하여 쇼트 클립을 생성할 수 있다. 이 경우, 프로세서(230)는 음성이 기설정된 시간 이상 검출되지 않거나, 기계음이나, 잡음 등이 기설정된 시간 이상 검출되면 음성이 종료되었다고 판단할 수 있다. 이 후 프로세서(230)는 생성된 쇼트 클립 및 획득된 키워드를 저장부(220)에 함께 저장할 수 있다. 따라서, 프로세서(230)는 전자 장치(100)로부터 수신된 쇼트 클립 요청 신호에 대응하여, 전자 장치(100)로 쇼트 클립을 전송할 수 있다.
한편, 본 발명의 일 실시 예에 따른 서버(200)는 원본 콘텐츠로부터 쇼트 클립을 생성하지 않고, 원본 콘텐츠를 수신할 수 있는 웹 주소 및 특정 키워드를 포함하는 구간에 대한 시간 정보를 데이터베이스로 저장할 수도 있다. 이 경우, 전자 장치(100)로부터 쇼트 클립 요청 신호가 수신되면, 서버(200)는 쇼트 클립 요청 신호에 대응하는 원본 콘텐츠를 수신할 수 있는 웹 주소 및 해당 원본 콘텐츠에서 특정 키워드를 포함하는 구간 정보를 전자 장치(100)로 전송할 수 있다. 따라서, 전자 장치(100)는 서버(200)로부터 쇼트 클립을 수신받는 것이 아니라, 웹 주소 및 시간 정보에 기초하여 원본 콘텐츠에서 특정 키워드를 포함하는 구간만을 출력하는 방법으로 쇼트 클립을 제공할 수도 있다.
이하에서는, 본 발명의 다양한 실시 예에 따른 쇼트 클립 제공에 대하여 설명하도록 한다. 한편, 도 4 내지 도 8에서는 설명의 편의를 위하여 전자 장치(100)가 디스플레이를 포함하도록 구현되고, 출력 콘텐츠 및 쇼트 클립이 디스플레이를 통해 출력되는 실시 예를 설명하도록 한다.
도 4는 본 발명의 일 실시 예에 따른 키워드와 관련된 쇼트 클립을 디스플레이하는 방법을 설명하기 위한 도면이다.
도 4에 따르면, 전자 장치(100)는 사용자의 발화 음성을 수신할 수 있다. 이 경우, 전자 장치(100)는 사용자의 발화 음성을 분석하고, 발화 음성에 포함된 키워드를 획득할 수 있다. 예를 들어, 수신된 사용자의 발화 음성이 '현재 교통 정보를 말해줘'이면, 전자 장치(100)는, '교통 정보'을 키워드로 획득할 수 있다. 한편, 본 발명의 다른 실시 예에 따른 전자 장치(100)는 발화 음성에 포함된 키워드를 음성 인식 서버 또는 서버(200)와 통신을 수행하여 획득할 수도 있음은 물론이다.
또한, 전자 장치(100)는 획득된 키워드에 대한 쇼트 클립을 요청하는 신호를 서버(200)로 전송할 수 있다. 이 경우, 서버(200)는 키워드에 대한 쇼트 클립을 전자 장치(100)로 전송할 수 있다. 구체적으로, 서버(200)는 전자 장치(100)로부터 요청 신호를 수신하기 전까지 원본 콘텐츠로부터 생성된 쇼트 클립 및 쇼트 클립 별 키워드에 기초하여, 특정 쇼트 클립을 전자 장치(100)로 전송할 수 있다. 예를 들어, 쇼트 클립 요청 신호에 포함된 키워드가 '교통 정보'이면, 서버(200)는 '교통 정보'를 키워드로 하는 쇼트 클립만을 전자 장치(100)로 전송한다. 이 경우, 전자 장치(100)는 콘텐츠 제공자 즉, 방송사로부터 송출된 뉴스 프로그램의 특정 구간을 편집하여 생성되고, '교통 정보'를 키워드로하는 쇼트 클립을 수신할 수 있다. 따라서, 수신된 쇼트 클립은 '교통 정보'에 대응하는 오디오 신호를 포함하는 영상 콘텐츠 일 수 있다.
한편, 본 발명의 일 실시 예에 따르면, 전자 장치(100)는 사용자 정보를 포함하는 쇼트 클립 요청 신호를 서버(200)로 전송할 수 있다. 이 경우, 서버(200)는 키워드 및 사용자 정보에 관련된 쇼트 클립을 전자 장치(100)로 전송할 수 있다. 예를 들어, 사용자 정보에 따라, 전자 장치(100)의 위치가 '서울'에 해당하는 경우, 서버(200)는 '교통 정보'를 키워드로 하는 복수의 쇼트 클립 중에서 '교통 정보' 및 '서울'을 모두 만족하는 쇼트 클립을 전자 장치(100)로 전송할 수 있다. 따라서, 전자 장치(100)는 실시간으로 생성된 쇼트 클립 중에서 사용자에게 최적화된 쇼트 클립을 디스플레이할 수 있다.
한편, 본 발명의 일 실시 예에 따르면, 전자 장치(100)는 출력 모드와 쇼트 클립 모드를 제공할 수 있다. 출력 모드는 서버(200)로부터 쇼트 클립 수신에 여부에 관계 없이 출력 콘텐츠만을 지속적으로 출력하는 모드일 수 있다. 또한, 쇼트 클립 모드는 서버(200)로부터 수신된 쇼트 클립을 디스플레이하는 모드일 수 있다. 전자 장치(100)는 출력 콘텐츠의 종료 시(예를 들어, CF 방송 중)에 출력 모드에서 쇼트 클립 모드로 전환하여 쇼트 클립을 디스플레이할 수 있다. 다만, 이에 한정되는 것은 아니며 사용자 입력에 대응하여 출력 모드 및 쇼트 클립 모드의 전환이 수행될 수 있다. 예를 들어, 출력 모드에서 사용자의 발화 음성이 수신되면 자동으로 쇼트 클립 모드로 전환하여, 서버(200)로부터 수신된 쇼트 클립을 디스플레이할 수 있다. 또한, 출력 모드 및 쇼트 클립 모드가 동시에 실행될 수도 있다. 예를 들어, 서버(200)로부터 쇼트 클립이 수신되면, 수신된 쇼트 클립은 출력 콘텐츠에 오버랩되어 출력부(130)의 일부 영역에 디스플레이될 수도 있다.
이하에서는, 출력 콘텐츠에 기초하여 쇼트 클립을 수신하는 방법에 대하여 설명하도록 한다.
도 5는 본 발명의 일 실시 예에 따른 출력 콘텐츠와 관련된 쇼트 클립을 디스플레이하는 방법을 설명하기 위한 도면이다.
도 5에 따르면, 전자 장치(100)는 사용자의 발화 음성에서 획득한 키워드에 더하여, 출력 콘텐츠에 대한 정보를 쇼트 클립 요청 신호에 포함하여 서버(200)로 전송할 수 있다. 이 경우, 서버(200)는 키워드 및 쇼트 클립 요청 신호에 기초하여 특정 쇼트 클립을 전자 장치(100)로 전송할 수 있다.
구체적으로, 출력 콘텐츠에 대한 정보는 전자 장치(100)에 출력되고 있는 콘텐츠에 대한 정보를 의미하며, 출력 콘텐츠에 대한 메타데이터로부터 획득할 수 있다. 일 예로, 출력 콘텐츠에 대한 정보는 출력 콘텐츠의 타이틀, 장르, 방송 시간, 방송국 정보 등을 포함할 수 있다. 다만, 이에 한정되는 것은 아니며, 콘텐츠에 대한 정보는 다양한 방법을 통해 획득할 수 있다. 예를 들어, 외부 서버로부터 콘텐츠에 대한 정보를 수신하거나, 화면에 OCR을 수행하여 추가적인 정보를 획득할 수 있다.
도 5에 도시된 바와 같이, 사용자의 발화 음성이 'Team A의 타자에 대해 알려줘'이면, 전자 장치(100)는 'Team A' 및 '타자' 중 적어도 하나를 키워드로 획득할 수 있다. 또한, 출력 콘텐츠가 야구 경기이면, 전자 장치(100)는 출력 콘텐츠에 대한 정보(예를 들어, '스포츠', '야구') 와 키워드(예를 들어, 'Team A' 및 '타자')를 쇼트 클립 요청 신호로 서버(200)에 전송할 수 있다. 이 경우, 서버(200)는 복수의 쇼트 클립 중에서 '스포츠', '야구', 'Team A' 및 '타자' 등을 키워드하는 쇼트 클립을 전자 장치(100)로 전송할 수 있다. 따라서, 전자 장치(100)는 Team A의 타자의 인터뷰 영상, Team A에 대한 스포츠 뉴스 등을 서버(200)로부터 수신하여 디스플레이할 수 있다. 한편, 상술한 바와 같이 전자 장치(100)가 수신한 복수의 쇼트 클립은 방송사에서 송출하여 서버(200)가 수신한 원본 콘텐츠의 특정 구간을 편집하여 생성된 영상 콘텐츠일 수 있다.
이하에서는, 전자 장치(100)가 출력하는 오디오 신호로부터 키워드를 획득하고, 획득된 키워드에 대한 쇼트 클립을 수신하는 방법을 설명하도록 한다.
도 6은 본 발명의 일 실시 예에 따른 오디오 신호를 분석하여 키워드를 획득하는 방법을 설명하기 위한 도면이다.
도 6에 따르면, 전자 장치(100)가 출력 중인 콘텐츠가 특정 단어를 반복하여 출력하는 경우를 상정할 수 있다. 이 경우, 전자 장치(100)는 사용자의 발화 음성에서 획득한 키워드에 더하여, 출력 콘텐츠에서 반복하여 출력되는 단어를 쇼트 클립 요청 신호에 포함하여 서버(200)로 전송할 수 있다.
구체적으로, 전자 장치(100)는 전자 장치(100)에 구비된 스피커를 통해 출력되는 오디오에서 기설정된 시간 동안 기설정된 횟수 이상 반복되는 키워드를 서버(200)로 전송할 수 있다.
예를 들어, 출력 콘텐츠가 'Spain'에 대한 여행 정보 프로그램이면, 전자 장치(100)는 출력 콘텐츠의 오디오 신호를 분석하여 반복하여 출력되는 'Spain', 'Barcelona' 등을 키워드로 획득할 수 있다. 이 경우, 서버(200)는 복수의 쇼트 클립 중에서 'Spain', 'Barcelona'에 매칭되는 쇼트 클립을 전자 장치(100)로 전송할 수 있다. 따라서, 전자 장치(100)는 'Spain', 'Barcelona'에 대한 쇼트 클립을 서버(200)로부터 수신하여 디스플레이할 수 있다. 한편, 상술한 바와 같이 전자 장치(100)는 쇼트 클립 요청 정보에 출력 콘텐츠에 대한 정보를 포함하여 서버(200)로 전송할 수 있다. 이 경우, 전자 장치(100)는 'Spain', 'Barcelona'에 대한 여행 정보 프로그램의 특정 구간을 편집하여 생성된 쇼트 클립을 수신할 수 있다.
한편, 본 발명의 일 실시 예에 따른 전자 장치(100)는 서버(200)로부터 수신된 쇼트 클립을 썸네일 이미지로 디스플레이할 수 있다. 이 경우, 사용자의 입력에 따라 선택된 썸네일 이미지에 대응하는 쇼트 클립이 재생될 수 있다.
이하에서는, 전자 장치(100)에 쇼트 클립을 디스플레이하는 구체적인 방법을 설명하도록 한다.
도 7은 본 발명의 일 실시 예에 따른 쇼트 클립에 대한 추가 정보를 설명하기 위한 도면이다.
도 7에 따르면, 전자 장치(100)는 서버(200)로부터 쇼트 클립에 대한 정보를 추가적으로 수신하고, 수신된 정보를 쇼트 클립과 함께 제공할 수 있다.
구체적으로, 쇼트 클립에 대한 추가 정보는 원본 콘텐츠의 타이틀(710), 장르, 원본 콘텐츠의 방송 시간(720), 원본 콘텐츠의 방송국 정보(730), 쇼트 클립의 생성 시간, 키워드 중 적어도 하나를 포함할 수 있다. 여기서, 원본 콘텐츠의 방송 시간은 서버(200)가 콘텐츠 제공자(300)로부터 콘텐츠를 수신한 시간, 원본 콘텐츠의 생성 시간, 방송국에서 원본 콘텐츠를 송출한 시간 등을 의미할 수 있다. 또한, 쇼트 클립의 키워드는 해당 쇼트 클립에 매칭된 적어도 하나의 키워드 중에서 쇼트 클립 요청 신호에 포함된 키워드와 일치하는 키워드를 의미할 수 있다.
한편, 도 7에 도시된 바와 같이, 쇼트 클립에 대한 추가 정보는 사용자의 입력에 따라 선택된 쇼트 클립이 재생되는 경우에 디스플레이될 수 있다. 다만, 이에 한정되는 것은 아니며, 전자 장치(100)가 서버(200)로부터 수신된 복수의 쇼트 클립을 썸네일 이미지로 디스플레이함과 동시에 쇼트 클립에 대한 추가 정보를 함께 디스플레이 할 수도 있음은 물론이다.
이하에서는, 사용자의 발화 음성에 포함된 키워드에 대한 추가 응답 정보를 디스플레이하는 방법을 설명하도록 한다.
도 8은 본 발명의 일 실시 예에 따른 쇼트 클립과 함께 제공되는 추가 응답 정보를 설명하기 위한 도면이다.
도 8에 따르면, 전자 장치(100)는 사용자의 발화 음성에서 획득된 키워드에 대한 추가 응답 정보를 외부 서버로부터 수신하여 쇼트 클립과 함께 디스플레이 할 수 있다. 여기서, 추가 응답 정보는 키워드에 대한 검색 결과(810), 키워드에 대한 정보 등을 포함할 수 있다. 다만, 이에 한정되는 것은 아니며, 출력 콘텐츠에 대한 정보, 사용자 정보, 출력 콘텐츠에서 반복되는 키워드 중 적어도 하나에 대한 추가 응답 정보를 외부 서버로부터 수신하여 디스플레이할 수 있음은 물론이다.
예를 들어, 출력 콘텐츠의 장르를 검색어로 한 검색 결과를 외부 서버로부터 수신하여 쇼트 클립과 함께 디스플레이할 수 있으며, 사용자의 발화 음성에서 획득된 키워드 및 출력 콘텐츠의 장르를 조합하여 검색어로 한 검색 결과를 외부 서버로 수신하여 디스플레이할 수도 있다.
도 9는 본 발명의 일 실시 예에 따른 쇼트 클립 제공 방법을 설명하기 위한 흐름도이다.
도 9에 도시된 전자 장치의 제어 방법에 따르면, 우선 콘텐츠를 출력한다(S910).
이어서, 사용자의 발화 음성을 수신한다 (S920).
이어서, 발화 음성이 수신되면, 수신된 발화 음성에 포함된 키워드 및 콘텐츠에 대한 정보에 기초하여 쇼트 클립 요청 신호를 서버로 전송한다 (S930).
이어서, 요청 신호에 따라 서버로부터 수신된 쇼트 클립에 대한 정보에 기초하여 쇼트 클립을 출력한다(S940).
여기서 쇼트 클립에 대한 정보는 쇼트 클립이 저장된 위치 및 키워드를 포함하는 시간 구간에 대한 정보 중 적어도 하나를 포함하며, S940 단계에서는, 요청 신호에 따라 서버로부터 쇼트 클립에 대한 정보가 수신되면, 수신된 정보에 기초하여 쇼트 클립을 출력할 수 있다.
또한, 복수의 쇼트 클립 각각은, 특정 콘텐츠에서 특정 키워드를 포함하는 부분을 편집하여 생성된 동영상 콘텐츠 또는 음향 콘텐츠일 수 있다
또한, S940단계에서는, 쇼트 클립에 대한 추가 정보가 수신되면, 쇼트 클립에 대한 추가 정보를 제공하며, 여기서, 쇼트 클립에 대한 정보는, 원본 콘텐츠의 타이틀, 장르, 원본 콘텐츠의 방송 시간, 쇼트 클립의 생성 시간, 원본 콘텐츠의 방송국 정보, 키워드 중 적어도 하나를 포함할 수 있다.
또한, S940 단계에서는, 쇼트 클립에 대한 추가 정보를 스피커를 통해 오디오로 제공할 수 있다.
또한, 전자 장치는 디스플레이 및 스피커 중 적어도 하나를 포함할 수 있으며, S930단계에서는, 스피커를 통해 출력되는 오디오에서 기설정된 시간 동안 기설정된 횟수 이상 반복되는 키워드에 기초하여 서버로 키워드와 관련된 쇼트 클립을 요청하는 신호를 서버로 추가적으로 전송할 수 있다.
또한, S940 단계에서는, 수신된 발화 음성에 포함된 키워드에 기초하여 쇼트 클립과 함께 발화 음성에 대한 추가 응답 정보를 함께 제공할 수 있다.
또한, S930 단계에서는, 키워드 및 사용자 정보를 포함하는 요청 신호를 서버로 전송하고, S940 단계에서는, 서버로부터 키워드 및 상시 사용자 정보와 관련된 쇼트 클립을 수신하여 출력하는 것도 가능하다.
한편, S930단계에서는, 수신된 발화 음성을 음성 인식 서버 또는 상술한 서버로 전송하고, 음성 인식 서버 또는 서버로부터 수신된 키워드 및 콘텐츠에 대한 정보에 기초하여 쇼트 클립 요청 신호를 서버로 전송할 수 있다.
도 10는 본 발명의 일 실시 예에 따른 쇼트 클립을 제공하는 시스템을 설명하기 위한 흐름도이다.
도 10에 따르면, 우선 서버(200)는 콘텐츠 제공자(300)로부터 콘텐츠를 수신한다(S1010). 이하에서는 콘텐츠 제공자(300)로부터 수신된 콘텐츠를 원본 콘텐츠로 명명한다. 한편, 서버(200)는 콘텐츠 제공자(300)로부터 콘텐츠를 실시간으로 수신할 수 있다. 콘텐츠 제공자(300)가 방송국이면, 서버(200)는 방송국에서 실시간으로 송출되는 방송 프로그램을 원본 콘텐츠로 수신할 수 있다.
이어서, 서버(200)는 수신된 원본 콘텐츠 각각의 키워드에 기초하여 복수의 쇼트 클립을 생성한다(S1020).
이어서, 서버(200)는 생성된 복수의 쇼트 클립 및 복수의 쇼트 클립 별 키워드를 저장한다(S1030).
한편, 전자 장치(100)는 사용자 발화 음성을 수신한다(S1040).
이어서, 수신된 발화 음성에 포함된 키워드와 관련된 쇼트 클립 요청 신호를 서버(200)로 전송한다(S1050).
이어서, 전자 장치(100)는 서버로부터 쇼트 클립을 수신한다(S1060).
이어서, 전자 장치(100)는 수신된 쇼트 클립을 출력한다(S1070).
이하에서는, 전자 장치(100)가 디스플레이 기능을 구비하지 않은 경우, 스피커를 통해 쇼트 클립을 제공하는 방법에 대해 설명하도록 한다.
도 11는 본 발명의 다른 실시 예에 따른 전자 장치가 스피커를 통해 쇼트 클립을 제공하는 방법을 설명하기 위한 도면이다.
도 11에 따르면, 전자 장치(100)는 출력부로서, 스피커만을 구비하고 디스플레이는 구비하지 않을 수 있다. 이 경우, 전자 장치(100)는 서버(200)로부터 쇼트 클립의 오디오 신호를 출력하여 제공할 수 있다. 일 예로, 쇼트 클립이 동영상 콘텐츠로서 비디오 신호 및 오디오 신호를 모두 포함하고 있는 경우, 전자 장치(100)는 수신된 쇼트 클립에서 오디오 신호만을 제공할 수도 있다.
도 11에 도시된 바와 같이, ‘현재 날씨를 알려줘’가 발화 음성으로 수신되면, ‘현재 날씨’를 키워드로 하는 쇼트 클립이 제공될 수 있다. 이 경우, 상술한 바와 같이 전자 장치(100)의 위치 정보를 추가적으로 수신하여 구체적인 지역의 현재 날씨(예를 들어, 뉴욕의 현재 날씨)에 대한 쇼트 클립이 제공될 수 있다. 또한, 전자 장치(100)는 디스플레이를 구비하지 않을 수 있으므로, 수신된 쇼트 클립의 오디오 신호만이 출력될 수 있다.
또한, 상술한 바와 같이 쇼트 클립에 대한 추가 정보가 수신되면, 쇼트 클립에 대한 추가 정보를 오디오 신호로 변환하여 제공할 수 있다. 일 예로, 서버(200)로부터 쇼트 클립 및 쇼트 클립에 대한 추가 정보가 수신되면 쇼트 클립에 대한 추가 정보를 먼저 출력하고, 쇼트 클립에 포함된 오디오 신호를 순차적으로 출력할 수 있다.
본 발명의 일 실시 예에 따른 전자 장치(100)는 수신된 쇼트 클립에 대한 추가 정보 중 일부 정보만을 오디오로 출력할 수도 있다. 일 예로, 쇼트 클립에 대한 추가 정보로서 원본 콘텐츠의 타이틀, 장르, 방송 시간 등이 수신되면, 전자 장치(100)는 원본 콘텐츠의 타이틀만을 오디오 신호로 제공한 뒤에, 수신된 쇼트 클립의 오디오 신호를 출력할 수도 있다.
또한, 본 발명의 일 실시 예에 따른 전자 장치(100)는 서버(200)로부터 복수의 쇼트 클립이 수신되면, 기설정된 우선 순위에 기초하여 복수의 쇼트 클립을 순차적으로 제공할 수 있다. 일 예로, 전자 장치(100)는 복수의 쇼트 클립에 포함된 오디오 신호를 쇼트 클립의 생성 순서에 따라 스피커를 통해 출력할 수 있다.
따라서, 사용자는 전자 장치(100)가 디스플레이 기능을 구비하지 않은 경우에도, 쇼트 클립 및 쇼트 클립에 대한 추가 정보를 오디오 신호로 제공받을 수 있다.
한편, 상술한 본 발명의 다양한 실시 예들에 따른 방법들은, 기존 전자 장치, 서버 등에 설치 가능한 소프트웨어, 프로그램 또는 어플리케이션 형태로 구현될 수 있다.
또한, 상술한 본 발명의 다양한 실시 예들에 따른 방법들은, 기존 전자 장치 또는 서버 등에 대한 소프트웨어 업그레이드, 또는 하드웨어 업그레이드 만으로도 구현될 수 있다.
한편, 상술한 본 발명의 다양한 실시 예들에 따른 전자 장치의 제어 방법은 컴퓨터로 실행가능한 프로그램 코드로 구현되어 다양한 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장된 상태로 프로세서에 의해 실행되도록 각 서버 또는 기기들에 제공될 수 있다.
또한, 상술한 본 발명의 다양한 실시 예에 따른 전자 장치의 제어 방법은 컴퓨터 장치에 의해 실행되는 컴퓨터 판독 가능 프로그램을 포함하는 검퓨터 기록매체(computer readable medium)를 포함하는 컴퓨터 프로그램 장치(computer program product)에 의해 수행될 수 있다. 또한, 컴퓨터 판독 가능 프로그램은, 서버에서 컴퓨터 판독 가능 저장 매체에 저장될 수 있으며, 해당 프로그램은 네트워크를 통하여 컴퓨터 장치로 다운로드 가능한 형태로 구현될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
또한, 이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
100: 전자 장치 110: 통신부
120: 입력부 130: 출력부
140: 프로세서 200: 서버
300: 콘텐츠 제공자

Claims (20)

  1. 전자 장치에 있어서,
    각각이 오디오 콘텐츠를 포함하는 복수의 쇼트 클립에 대한 정보 및 상기 복수의 쇼트 클립 각각의 오디오 콘텐츠에 포함된 키워드를 저장하는 서버와 통신하는 통신부;
    출력부;
    입력부; 및
    상기 입력부를 통해 사용자 발화 음성이 수신되면, 상기 발화 음성에 포함된 키워드를 획득하고,
    상기 획득된 키워드 및 상기 출력부에서 출력되는 콘텐츠에 대한 정보에 기초하여 쇼트 클립 요청 신호를 상기 서버로 전송하도록 상기 통신부를 제어하며,
    상기 통신부를 통해 상기 요청 신호에 기초하여 상기 서버로부터 수신된 쇼트 클립에 대한 정보에 기초하여 쇼트 클립을 상기 출력부를 통해 출력하는 프로세서;를 포함하며,
    상기 서버로부터 수신된 쇼트 클립에 대한 정보는, 상기 쇼트 클립의 오디오 콘텐츠에서 상기 획득된 키워드를 포함하는 시간 구간에 대한 정보를 포함하는, 전자 장치.
  2. 제1항에 있어서,
    상기 수신된 쇼트 클립에 대한 정보는,
    상기 쇼트 클립이 저장된 위치에 대한 위치 정보를 포함하는, 전자 장치.
  3. 제1항에 있어서,
    상기 복수의 쇼트 클립 각각은,
    원본 콘텐츠에서 특정 키워드를 포함하는 부분을 편집하여 생성된 동영상 콘텐츠 또는 오디오 콘텐츠 중 적어도 하나를 포함하는, 전자 장치.
  4. 제1항에 있어서,
    상기 프로세서는,
    상기 쇼트 클립에 대한 추가 정보가 수신되면, 상기 쇼트 클립에 대한 추가 정보를 출력하도록 상기 출력부를 제어하며,
    상기 쇼트 클립에 대한 추가 정보는,
    상기 쇼트 클립에 대한 원본 콘텐츠의 타이틀, 상기 원본 콘텐츠의 장르, 상기 원본 콘텐츠의 방송 시간, 상기 쇼트 클립의 생성 시간, 상기 원본 콘텐츠의 방송국 정보 또는 상기 키워드 중 적어도 하나를 포함하는, 전자 장치.
  5. 제1항에 있어서,
    상기 출력부는,
    디스플레이 또는 스피커 중 적어도 하나를 포함하는, 전자 장치.
  6. 제4항에 있어서,
    상기 출력부는, 스피커만을 포함하도록 구현되며,
    상기 프로세서는,
    상기 쇼트 클립에 대한 추가 정보를 출력하도록 상기 스피커를 제어하는, 전자 장치.
  7. 제1항에 있어서,
    상기 출력부는,
    디스플레이 또는 스피커 중 적어도 하나를 포함하며,
    상기 쇼트 클립 요청 신호는,
    상기 스피커를 통해 출력되는 오디오에서 기설정된 시간 동안 기설정된 횟수 이상 반복되는 키워드에 추가적으로 기초하는, 전자 장치.
  8. 제1항에 있어서,
    상기 통신부는,
    상기 쇼트 클립 요청 신호에 기초하여 상기 서버로부터 추가 응답 정보를 수신하며,
    상기 프로세서는,
    상기 추가 응답 정보를 출력하도록 상기 출력부를 제어하는, 전자 장치.
  9. ◈청구항 9은(는) 설정등록료 납부시 포기되었습니다.◈
    제1항에 있어서,
    상기 쇼트 클립 요청 신호는,
    상기 키워드 및 사용자 정보를 포함하며,
    상기 통신부는,
    상기 서버로부터 상기 쇼트 클립에 대한 정보 및 상기 사용자 정보를 수신하는, 전자 장치.
  10. ◈청구항 10은(는) 설정등록료 납부시 포기되었습니다.◈
    제1항에 있어서,
    상기 프로세서는,
    상기 발화 음성이 수신되면, 상기 수신된 발화 음성을 음성 인식 서버 또는 상기 서버로 전송하고 상기 음성 인식 서버 또는 상기 서버로부터 상기 키워드를 수신하는, 전자 장치.
  11. 각각이 오디오 콘텐츠를 포함하는 복수의 쇼트 클립에 대한 정보 및 상기 복수의 쇼트 클립 각각의 오디오 콘텐츠에 포함된 키워드를 저장하는 서버와 통신하는 전자 장치의 제어 방법에 있어서,
    콘텐츠를 출력하는 단계;
    사용자의 발화 음성을 수신하는 단계;
    상기 발화 음성이 수신되면, 상기 발화 음성에 포함된 키워드를 획득하는 단계;
    상기 획득된 키워드 및 상기 콘텐츠에 대한 정보에 기초하여 쇼트 클립 요청 신호를 상기 서버로 전송하는 단계; 및
    상기 요청 신호에 기초하여 상기 서버로부터 수신된 쇼트 클립에 대한 정보에 기초하여 쇼트 클립을 출력하는 단계;를 포함하며,
    상기 서버로부터 수신된 쇼트 클립에 대한 정보는, 상기 쇼트 클립의 오디오 콘텐츠에서 상기 획득된 키워드를 포함하는 시간 구간에 대한 정보를 포함하는, 제어 방법.
  12. ◈청구항 12은(는) 설정등록료 납부시 포기되었습니다.◈
    제11항에 있어서,
    상기 수신된 쇼트 클립에 대한 정보는,
    상기 쇼트 클립이 저장된 위치에 대한 위치 정보를 포함하는, 제어 방법.
  13. ◈청구항 13은(는) 설정등록료 납부시 포기되었습니다.◈
    제11항에 있어서,
    상기 복수의 쇼트 클립 각각은,
    원본 콘텐츠에서 특정 키워드를 포함하는 부분을 편집하여 생성된 동영상 콘텐츠 또는 오디오 콘텐츠 중 적어도 하나를 포함하는, 제어 방법.
  14. ◈청구항 14은(는) 설정등록료 납부시 포기되었습니다.◈
    제11항에 있어서,
    상기 쇼트 클립을 출력하는 단계는,
    상기 쇼트 클립에 대한 추가 정보가 수신되면, 상기 쇼트 클립에 대한 추가 정보를 출력하며, 상기 쇼트 클립에 대한 추가 정보는,
    상기 쇼트 클립에 대한 원본 콘텐츠의 타이틀, 상기 원본 콘텐츠의 장르, 상기 원본 콘텐츠의 방송 시간, 상기 쇼트 클립의 생성 시간, 상기 원본 콘텐츠의 방송국 정보 또는 상기 키워드 중 적어도 하나를 포함하는, 제어 방법.
  15. ◈청구항 15은(는) 설정등록료 납부시 포기되었습니다.◈
    제14항에 있어서,
    상기 쇼트 클립을 출력하는 단계는,
    상기 쇼트 클립에 대한 추가 정보를 스피커를 통해 오디오로 제공하는, 제어 방법.
  16. ◈청구항 16은(는) 설정등록료 납부시 포기되었습니다.◈
    제11항에 있어서,
    상기 전자 장치는,
    디스플레이 또는 스피커 중 적어도 하나를 포함하며,
    상기 쇼트 클립 요청 신호는,
    상기 스피커를 통해 출력되는 오디오에서 기설정된 시간 동안 기설정된 횟수 이상 반복되는 키워드에 추가적으로 기초하는, 제어 방법.
  17. ◈청구항 17은(는) 설정등록료 납부시 포기되었습니다.◈
    제11항에 있어서,
    상기 쇼트 클립 요청 신호에 기초하여 상기 서버로부터 추가 응답 정보를 수신하는 단계;를 포함하며,
    상기 쇼트 클립을 출력하는 단계는,
    상기 추가 응답 정보를 출력하는 단계;를 포함하는, 제어 방법.
  18. ◈청구항 18은(는) 설정등록료 납부시 포기되었습니다.◈
    제11항에 있어서,
    상기 쇼트 클립 요청 신호는,
    상기 키워드 및 사용자 정보를 포함하며,
    상기 쇼트 클립을 출력하는 단계는,
    상기 서버로부터 상기 쇼트 클립에 대한 정보 및 상기 사용자 정보를 수신하는 단계;를 포함하는, 제어 방법.
  19. ◈청구항 19은(는) 설정등록료 납부시 포기되었습니다.◈
    제11항에 있어서,
    상기 전송하는 단계는,
    상기 수신된 발화 음성을 음성 인식 서버 또는 상기 서버로 전송하고, 상기 음성 인식 서버 또는 상기 서버로부터 상기 키워드를 수신하는 단계;를 포함하는, 전자 장치의 제어 방법.
  20. 전자 장치 및 서버를 포함하는 시스템에 있어서,
    복수의 원본 콘텐츠 각각의 키워드에 기초하여 복수의 쇼트 클립에 대한 정보를 생성하고, 각각이 오디오 콘텐츠를 포함하는 상기 복수의 쇼트 클립에 대한 정보 및 상기 복수의 쇼트 클립 별 각각의 오디오 콘텐츠에 포함된 키워드를 저장하는 서버; 및
    사용자의 발화 음성이 수신되면, 상기 발화 음성에 포함된 키워드를 획득하고, 상기 획득된 키워드 및 상기 전자 장치가 출력하는 콘텐츠에 대한 정보에 기초하여 쇼트 클립 요청 신호를 상기 서버로 전송하고, 상기 요청 신호에 기초하여 상기 서버로부터 수신된 쇼트 클립에 대한 정보에 기초하여 쇼트 클립을 출력하는 전자 장치;를 포함하며,
    상기 서버로부터 수신된 쇼트 클립에 대한 정보는, 상기 쇼트 클립의 오디오 콘텐츠에서 상기 획득된 키워드를 포함하는 시간 구간에 대한 정보를 포함하는, 시스템.


    .
KR1020170036304A 2016-07-21 2017-03-22 전자 장치 및 그의 제어 방법 KR102403149B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020170036304A KR102403149B1 (ko) 2016-07-21 2017-03-22 전자 장치 및 그의 제어 방법
EP17831233.6A EP3438852B1 (en) 2016-07-21 2017-06-27 Electronic device and control method thereof
US16/319,545 US10957321B2 (en) 2016-07-21 2017-06-27 Electronic device and control method thereof
PCT/KR2017/006790 WO2018016760A1 (ko) 2016-07-21 2017-06-27 전자 장치 및 그의 제어 방법

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662365076P 2016-07-21 2016-07-21
US62/365,076 2016-07-21
KR1020170036304A KR102403149B1 (ko) 2016-07-21 2017-03-22 전자 장치 및 그의 제어 방법

Publications (2)

Publication Number Publication Date
KR20180010955A KR20180010955A (ko) 2018-01-31
KR102403149B1 true KR102403149B1 (ko) 2022-05-30

Family

ID=60993116

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170036304A KR102403149B1 (ko) 2016-07-21 2017-03-22 전자 장치 및 그의 제어 방법

Country Status (2)

Country Link
KR (1) KR102403149B1 (ko)
WO (1) WO2018016760A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110874879A (zh) * 2019-10-18 2020-03-10 平安科技(深圳)有限公司 基于语音识别的老人挂号方法、装置、设备及存储介质
CN114466223B (zh) * 2022-04-12 2022-07-12 深圳市天兴诚科技有限公司 一种编码技术的视频数据处理方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120066226A1 (en) * 2010-09-10 2012-03-15 Verizon Patent And Licensing, Inc. Social media organizer for instructional media
US20160092447A1 (en) * 2014-09-30 2016-03-31 Rovi Guides, Inc. Systems and methods for searching for a media asset

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050071328A1 (en) * 2003-09-30 2005-03-31 Lawrence Stephen R. Personalization of web search
KR101763594B1 (ko) * 2010-10-14 2017-08-01 엘지전자 주식회사 방송 음성 인식 서비스를 제공하는 네트워크 tv와 서버 그리고 그 제어방법
KR102081925B1 (ko) * 2012-08-29 2020-02-26 엘지전자 주식회사 디스플레이 디바이스 및 스피치 검색 방법
KR20150077580A (ko) * 2013-12-27 2015-07-08 주식회사 케이티 음성 인식 기반 서비스 제공 방법 및 그 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120066226A1 (en) * 2010-09-10 2012-03-15 Verizon Patent And Licensing, Inc. Social media organizer for instructional media
US20160092447A1 (en) * 2014-09-30 2016-03-31 Rovi Guides, Inc. Systems and methods for searching for a media asset

Also Published As

Publication number Publication date
WO2018016760A1 (ko) 2018-01-25
KR20180010955A (ko) 2018-01-31

Similar Documents

Publication Publication Date Title
US12010373B2 (en) Display apparatus, server apparatus, display system including them, and method for providing content thereof
US11062423B2 (en) Image display apparatus and method of operating the same
EP3438852B1 (en) Electronic device and control method thereof
JP2019525272A (ja) 自然言語クエリのための近似的テンプレート照合
KR102545837B1 (ko) 디스플레이 장치, 디스플레이 장치의 배경음악 제공방법 및 배경음악 제공 시스템
WO2019047878A1 (zh) 语音操控终端的方法、终端、服务器和存储介质
US20170171629A1 (en) Display device and method for controlling the same
US20150289024A1 (en) Display apparatus and control method thereof
US11012754B2 (en) Display apparatus for searching and control method thereof
CN105635609A (zh) 显示设备和显示方法
KR20160059162A (ko) 방송 수신 장치 및 그 제어 방법
US20160119685A1 (en) Display method and display device
KR20120076485A (ko) 휴대단말에서 전자책 서비스 제공 방법 및 장치
KR102403149B1 (ko) 전자 장치 및 그의 제어 방법
WO2024037480A1 (zh) 交互方法、装置、电子设备和存储介质
US20140358901A1 (en) Display apparatus and search result displaying method thereof
US20190220870A1 (en) Method for providing personalized information and public information
US11930236B2 (en) Content playback device using voice assistant service and operation method thereof
KR102506608B1 (ko) 전자 장치 및 전자 장치의 동작 방법
US20180359516A1 (en) Flexible Video Platform with Optional Advertising
KR102463066B1 (ko) 디스플레이 장치, 서버 장치 및 이들을 포함하는 디스플레이 시스템과 그 컨텐츠 제공 방법들
KR102326067B1 (ko) 디스플레이 장치, 서버 장치 및 이들을 포함하는 디스플레이 시스템과 그 컨텐츠 제공 방법들
US20200296450A1 (en) Method and device for recognizing content
WO2024125214A1 (zh) 信息处理方法及设备
KR20150030952A (ko) 개발자와 사용자의 상호작용을 위한 가상 화면 제공 방법

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant