KR20130090570A - 구간설정이 가능한 음성기반 멀티미디어 컨텐츠 태깅 방법 및 장치 - Google Patents

구간설정이 가능한 음성기반 멀티미디어 컨텐츠 태깅 방법 및 장치 Download PDF

Info

Publication number
KR20130090570A
KR20130090570A KR1020120011807A KR20120011807A KR20130090570A KR 20130090570 A KR20130090570 A KR 20130090570A KR 1020120011807 A KR1020120011807 A KR 1020120011807A KR 20120011807 A KR20120011807 A KR 20120011807A KR 20130090570 A KR20130090570 A KR 20130090570A
Authority
KR
South Korea
Prior art keywords
voice information
content
tagging
section
input mode
Prior art date
Application number
KR1020120011807A
Other languages
English (en)
Other versions
KR101356006B1 (ko
Inventor
석영태
이동원
이호원
이수빈
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020120011807A priority Critical patent/KR101356006B1/ko
Publication of KR20130090570A publication Critical patent/KR20130090570A/ko
Application granted granted Critical
Publication of KR101356006B1 publication Critical patent/KR101356006B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/0486Drag-and-drop
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/041Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
    • G06F3/0412Digitisers structurally integrated in a display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/041Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
    • G06F3/0416Control or interface arrangements specially adapted for digitisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04812Interaction techniques based on cursor appearance or behaviour, e.g. being affected by the presence of displayed objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/162Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/38Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
    • H04B1/40Circuits
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/048Indexing scheme relating to G06F3/048
    • G06F2203/04808Several contacts: gestures triggering a specific function, e.g. scrolling, zooming, right-click, when the user establishes several contacts with the surface simultaneously; e.g. using several fingers or a combination of fingers and pen

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

구간설정이 가능한 음성기반 멀티미디어 컨텐츠 태깅 방법 및 장치가 제공된다.
본 발명에 따른 구간설정이 가능한 음성기반 멀티미디어 컨텐츠 태깅 방법은 전자 기기에서의 컨텐츠 재생 중 음성정보 입력모드가 활성화되는 단계; 상기 음성정보 입력모드 중 음성정보가 상기 전자기기에 입력되는 단계; 상기 음성정보 입력모드 중 활성화된 상기 터치스크린에서의 드래깅 제스쳐에 따라 상기 음성정보가 태깅되는 컨텐츠 구간이 결정되는 단계; 상기 음성정보 입력모드가 종료되는 단계; 및 상기 입력된 음성정보가 상기 결정된 구간의 컨텐츠에 대한 태깅 정보로 상기 전자 기기에 저장되는 단계를 포함하며, 본 발명에 따르면, 음성에 기반하여 멀티미디어 컨텐츠를 태깅할 수 있다. 이 경우, 음성이 입력되는 시간동안 터치스크린 상에 수행되는 드래깅 제스쳐를 통하여 음성정보가 태깅되는 컨텐츠 범위가 결정되므로, 음성정보가 태깅되는 컨텐츠 범위가 간단히 결정될 수 있다. 또한, 음성 정보가 태깅된 멀티미디어 컨텐츠는 사용자의 입력 음성에 따라 효과적으로 검색될 수 있으며, 다수의 사용자가 사용하는 멀티미디어인 경우, 집단 지성 방식에 따라 다수 사용자가 멀티미디어를 통합 태깅할 수 있다. 더 나아가, 음성으로 기록된 태그는 즉시 또는 주기적으로 텍스트화되어, 타 사용자에게 검색에 유용한 정보로 활용될 수 있다.

Description

구간설정이 가능한 음성기반 멀티미디어 컨텐츠 태깅 방법 및 장치{Method and apparatus for tagging multimedia contents based upon voice enable of range setting}
본 발명은 구간설정이 가능한 음성기반 멀티미디어 컨텐츠 태깅 방법 및 장치에 관한 것으로, 보다 상세하게는 사용자가 음성정보가 태깅되는 컨텐츠의 범위를 사용자 제스쳐로 설정할 수 있는 음성기반 멀티미디어 컨텐츠 태깅 방법 및 장치에 관한 것이다.
데이터 트래픽의 상당부분은 영상과 음향이 결합된 형태인 멀티미디어 방식의 컨텐츠로 이루어진다. 특히 스마트 폰과 같은 통신 기기에서도 이러한 멀티미디어 재생과 검색이 활발히 이루어지므로, 다양한 멀티미디어 중 사용자가 관심있어하는 데이터를 검색, 파악하는 것이 매우 중요해지고 있다.
이러한 멀티미디어 태깅 방법으로 전체 컨텐츠에 대한 사용자 입력에 기반하는 방식이 있다. 이 경우, 멀티미디어 자체를 구별할 수 있으나, 대용량, 장시간의 멀티미디어인 경우, 세부적인 데이터 검색이 어렵다는 문제가 있다.
이와 달리 멀티미디어 컨텐츠에 POI(Point Of Interest)를 태깅하는 기법이 제공되고 있다. 이 방식인 경우, 상기 컨텐츠에 POI를 태깅하는 기법은 컨텐츠에 특정 지역명, 혹은 지물명 등을 태깅하여 사용자가 상기 컨텐츠에 관련된 지역 혹은 지물을 쉽게 알 수 있도록 하는 기법이다. 하지만, 검색을 위하여 별도의 지역 혹은 사물의 이름을 사용자가 입력하여야 하는 번거로움이 있다. 또한 최근 MPEG 7에서는 컨텐츠의 특정 시전부터의 기간에 대한 태깅이 가능해지나, 관리자가 이를 태깅하는 방법이 복잡하고, 별도의 입력수단(예를 들어, 키보드 등)이 필요하다는 문제가 있다.
더 나아가, 이러한 종래 기술에 따른 태깅 방법은 태깅되는 컨텐츠 범위, 즉, 태깅 구간을 효과적으로 설정할 수 없다는 문제가 있다.
이에 따라, 본 발명이 해결하려는 과제는 보다 간단하고, 효과적인 방식을 멀티미디어 컨텐츠를 구간설정하여 태깅할 수 있는 방법 및 장치를 제공하는 것이다.
상기 과제를 해결하기 위하여, 본 발명은 터치스크린을 구비한 전자기기에 의한 멀티미디어 컨텐츠 태깅 방법으로, 상기 방법은 상기 전자 기기에서의 컨텐츠 재생 중 음성정보 입력모드가 활성화되는 단계; 상기 음성정보 입력모드 중 음성정보가 상기 전자기기에 입력되는 단계; 상기 음성정보 입력모드 중 활성화된 상기 터치스크린에서의 드래깅 제스쳐에 따라 상기 음성정보가 태깅되는 컨텐츠 구간이 결정되는 단계; 상기 음성정보 입력모드가 종료되는 단계; 및 상기 입력된 음성정보가 상기 결정된 구간의 컨텐츠에 대한 태깅 정보로 상기 전자 기기에 저장되는 단계를 포함한다.
본 발명의 일 실시예에서, 상기 드래깅 제스쳐는 두 개의 터치에 의한 드래깅 제스쳐이며, 상기 두 개의 터치 지점 중 어느 하나는 상기 음성정보가 태깅되는 컨텐츠 구간의 시작점, 나머지 하나는 종료점에 대응된다.
본 발명의 일 실시예에서 상기 컨텐츠 구간은 상기 두 개의 터치 지점 사이의 거리에 대응된다.
본 발명의 일 실시예에서 상기 방법은 상기 드래깅 제스쳐가 수행됨에 따라 상기 터치스크린에는 상기 구간의 종료점에 대응하는 프레임이 표시되는 단계를 더 포함한다.
본 발명의 일 실시예에서 상기 방법은 상기 입력된 음성정보가 텍스트화되는 단계를 더 포함한다.
본 발명의 일 실시예에서 상기 방법은 상기 음성정보 입력모드 중 상기 컨텐츠 재생 중 발생하는 소리를 무음화시키는 단계를 더 포함한다.
본 발명의 일 실시예에서, 상기 음성정보 입력모드는 사용자 입력에 따른 입력신호에 의하여 활성화된다.
상기 과제를 해결하기 위하여, 본 발명은 터치스크린을 구비한 전자기기의 멀티미디어 컨텐츠 태깅장치로서, 상기 장치는 멀티미디어 컨텐츠를 상기 전자기기에서 재생하는 재생부; 상기 재생부에 의한 멀티미디어 컨텐츠 재생 중, 음성정보가 상기 전자기기에 입력될 수 있는 모드인 음성정보 입력모드를 활성화시키는 음성정보 입력모드 활성부; 상기 음성정보 입력모드 활성부에 의한 음성정보 입력모드에서, 상기 외부로부터의 음성정보를 상기 전자기기에 입력시키는 음성정보입력부; 및 상기 음성정보 입력모드 활성부에 의한 음성정보 입력모드에서, 상기 터치스크린에서의 수행되는 두 개의 터치에 의한 드래깅 제스쳐를 검출하는 드래깅 제스쳐 검출부: 상기 두 개의 터치 사이 거리에 따라 상기 컨텐츠 구간을 결정하는 컨텐츠 구간 결정부; 및 상기 컨텐츠 구간 결정부에 의하여 결정된 컨텐츠 구간에 상기 음성정보입력부에 의하여 음성정보를 태깅정보로 저장하는 저장부를 포함하는 것을 특징으로 하는 멀티미디어 컨텐츠 태깅장치를 제공한다.
본 발명의 일 실시예에서, 상기 컨텐츠 구간 결정부는 상기 두 개의 터치 사이 거리에 비례하여 상기 컨텐츠 구간을 결정한다.
본 발명의 일 실시예에서 상기 드래깅 제스쳐는 핀치 제스쳐이며, 상기 컨텐츠 태깅장치는 상기 재생부는 상기 음성정보 입력모드에서 소리를 무음화시킨다.
본 발명의 일 실시예에서, 상기 장치는 상기 컨텐츠 구간 결정부에 의하여 결정된 컨텐츠 구간의 종료점에 대응하는 프레임을 상기 터치스크린에 표시하는 표시부를 더 포함한다.
본 발명의 일 실시예에서, 상기 태깅장치는 음성정보가 태깅된 구간의 컨텐츠 정보를 외부 서버로 송신할 수 있는 통신부를 더 포함한다.
본 발명은 또한 음성정보 태그 공유시스템으로, 상기 시스템은 다수 사용자 각각에 의하여 컨텐츠 구간 및 상기 컨텐츠 구간에 대응하는 음성정보가 태깅되는 상술한 멀티미디어 컨텐츠 태깅장치; 상기 다수 사용자 각각의 멀티미디어 컨텐츠 태깅장치로부터 컨텐츠 구간 및 상기 컨텐츠 구간에 태깅된 음성정보를 각각 수신받는 서버; 상기 서버로 수신된 컨텐츠 구간 및 상기 컨텐츠 구간에 태깅된 음성정보를 분석하여, 가장 다수의 사용자가 입력한 태그 정보를 결정하는 분석부; 및 상기 분석부에 의하여 결정된 최다 수신 태그 정보를 유효 태그 정보로 저장하는 저장부를 포함한다.
본 발명의 일 실시예에서, 상기 유효 태그 정보는 타 사용자 클라이언트에 표시될 수 있다.
본 발명에 따르면, 음성에 기반하여 멀티미디어 컨텐츠를 태깅할 수 있다. 이 경우, 음성이 입력되는 시간동안 터치스크린 상에 수행되는 드래깅 제스쳐를 통하여 음성정보가 태깅되는 컨텐츠 범위가 결정되므로, 음성정보가 태깅되는 컨텐츠 범위가 간단히 결정될 수 있다. 또한, 음성 정보가 태깅된 멀티미디어 컨텐츠는 사용자의 입력 음성에 따라 효과적으로 검색될 수 있으며, 다수의 사용자가 사용하는 멀티미디어인 경우, 집단 지성 방식에 따라 다수 사용자가 멀티미디어를 통합 태깅할 수 있다. 더 나아가, 음성으로 기록된 태그는 즉시 또는 주기적으로 텍스트화되어, 타 사용자에게 검색에 유용한 정보로 활용될 수 있다.
도 1은 본 발명의 일 실시예에 따른 멀티미디어 컨텐츠 태깅 방법의 단계도이다.
도 2 내지 6은 본 발명의 일 실시예에 따른 멀티미디어 컨텐츠 태깅방법을 설명하는 도면이다.
도 7은 본 발명의 또 다른 일 실시예에 따른 멀티미디어 컨텐츠 태깅장치의 블록도이다.
도 8은 본 발명의 또 다른 일 실시예에 따른 멀티미디어 컨텐츠 태깅장치의 블록도이다.
도 9는 본 발명에 따른 태깅 장치에 구비된 통신부를 이용한, 다수 사용자의 태깅 정보 공유 및 집단 지성 방식으로의 컨텐츠 통합 태깅 방식 및 시스템을 설명하는 도면이다.
본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로써, 본 발명을 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 설명하는 실시예에 한정되는 것이 아니다. 그리고, 본 발명을 명확하게 설명하기 위하여 설명과 관계없는 부분은 생략되며, 도면의 동일한 참조부호는 동일한 부재임을 나타낸다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 “포함”한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 “...부”, “...기”, “모듈”, “블록” 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
본 발명은 상술한 종래 기술의 문제를 해결하기 위하여, 구간설정을 드래깅 제스쳐로 설정하는 음성 기반의 멀티미디어 컨텐츠 태깅 방법을 제공한다. 본 발명의 일 실시예에서 구간설정은 시작점과 종료점으로 이루어지며, 상기 시작점과 종료점은 터치스크린 상의 두 지점 터치에 대응되며, 핀치(꼬집기) 제스쳐 또는 언핀치(펼치기) 제스쳐를 통하여 음성정보가 태깅되는 컨텐츠 범위가 결정될 수 있다.
즉, 본 발명은 특정 컨텐츠를 식별시키기 위한 가상 표식인 태그를 음성으로 제공하며, 이로써 사용자 입력 수단(마우스. 터치패널 입력 등) 없이, 간단히 특정 음성이나 텍스트를 특정 컨텐츠에 기록, 매칭시킴으로써 멀티미디어 태깅이 가능하다. 더 나아가, 음성정보 태그정보 입력 중 진행되는 멀티터치 드래깅 제스쳐를 통하여 태깅되는 컨텐츠 구간이 결정된다.
본 발명에 따른 컨텐츠 태깅 방법과 장치는 멀티미디어가 재생될 수 있는 컴퓨터 등과 같은 전자기기뿐만 아니라, 스마트 폰과 같은 모바일 기기와 같은 전자기기에서도 활용가능하다. 본 발명에 따른 컨텐츠는 그 종류나 형식에 제한이 없으며, 음성 또는 문자 형태로 태깅될 수 있는, 구부가능한 임의의 모든 형태가 본 발명에 따른 컨텐츠에 속한다.
이하, 본 발명의 일 실시예에 따른 멀티미디어 컨텐츠 태깅 방법을 도면으로 통하여 설명한다.
도 1은 본 발명의 일 실시예에 따른 멀티미디어 컨텐츠 태깅 방법의 단계도이다.
도 1을 참조하면, 먼저 전자 기기에서의 컨텐츠 재생 중 음성정보 입력모드가 활성화된다(S110). 본 명세서에서 음성정보 입력모드는 전자기기 외부로부터의 음성을 인식하고, 이를 저장할 수 있는 전자기기의 작동모드를 말하며, 이러한 음성정보 입력모드는 사용자 입력에 따라 전자기기에 구비된 입력수단으로부터 발생하는 입력신호에 따라 활성화된다. 예를 들어, 전자기기가 휴대전화와 같은 모바일 기기인 경우, 모바일 기기에 구비된 입력버튼의 누름에 따라 음성정보 입력모드가 활성화된다.
이후, 상기 음성정보 입력모드 중 음성정보가 상기 전자기기에 입력된다(S120). 상기 입력되는 음성정보는 외부로부터의 특정 음성에 해당하며, 상기 음성정보는 전자기기에 구비된 마이크 등과 같은 음향기기를 통하여 전자기기에 입력되며, 상기 입력된 음성정보는 음성정보 입력모드 중 드래깅 제스쳐에 의하여 결정된 특정 구간의 컨텐츠 정보에 대한 태그(tag)가 된다.
이후, 상기 음성정보 입력모드 중 활성화된 상기 터치스크린에서의 드래깅 제스쳐에 따라 상기 음성정보가 태깅되는 컨텐츠 구간이 결정된다(S130). 본 발명의 일 실시예에서 상기 드래깅 제스쳐는 두 개의 터치가 동시에 검출되는 형태의 멀티터치 드래깅 제스쳐이며, 상기 검출된 상기 두 개의 터치 지점 중 어느 하나는 상기 음성정보가 태깅되는 컨텐츠 구간의 시작점에 대응되거, 나머지는 컨텐츠 구간의 종료점에 해당한다. 즉, 본 발명은 컨텐츠의 시간 범위 중 특정 시간범위(구간)를 하나의 음성정보로 태깅하며, 이로써 재생중 일 프레임에만 태깅되는 종래 기술과 달리 일정 시간동안의 다수 프레임으로 이루어진 컨텐츠를 묶음 형태로 한 번의 제스쳐로 태깅할 수 있다.
이후, 상기 음성정보 입력모드가 종료된다(S140). 본 발명의 일 실시예에서 상기 음성정보 입력모드의 종료 또한 사용자에 의한 입력선택 신호에 따라 결정되며, 상기 음성정보 입력모드의 활성화와 종료는 상기 전자기기에 구비된 특정 입력버튼에 의한 사용자 입력 지속 시간에 따라 결정될 수 있다. 이후, 상기 입력된 음성정보가 상기 결정된 구간의 컨텐츠에 대한 태깅 정보로 상기 전자 기기에 저장된다(S150).
이하 본 발명의 일 실시예에 따른 멀티미디어 컨텐츠 태깅방법을 실시예로서 상세히 설명한다.
도 2 내지 6은 본 발명의 일 실시예에 따른 멀티미디어 컨텐츠 태깅방법을 설명하는 도면이다.
도 2를 참조하면, 터치스크린(110)을 구비한 전자기기(100)이 개시된다. 상기 전자기기(100)는 동영상, 슬라이드 등의 멀티미디어 컨텐츠를 재생할 수 있는 임의의 전자기기일 수 있다.
도 3을 참조하면, 상기 전자기기(100)에서 음성정보 입력모드가 활성화되며, 이로써 특정음성의 음성정보가 입력된다. 이때 상기 재생중인 멀티미디어 컨텐츠에서의 소리는 무음처리될 수 있으며, 이로써 외부 음성의 인식률이 향상된다.
도 4를 참조하면, 상기 음성정보 입력모드 중 터치스크린(110)에서의 핀치 제스쳐가 수행된다. 핀치 제스쳐는 두 개의 터치 입력수단의 거리를 동시에 좁히거나 넓히는, 소위 꼬집는 제스쳐에 해당한다. 즉, 본 발명은 터치스크린에서 검출된 두 개의 터치입력수단에 의한 터치지점 사이의 거리에 따라, 상기 컨텐츠 구간을 비례하여 결정하는데, 도 5에서는 두 개의 터치지점사이의 거리(d1)에 따라 t1-t2 구간의 컨텐츠가 상기 입력된 음성정보에 의하여 태깅된다. 즉, 본 발명은 원하는 구간 종료 시점까지 컨텐츠 재생을 기다릴 필요없이, 한 번에 수행될 수 있는 드래깅 제스쳐에 따라 태깅되는 컨텐츠 구간을 간단하게 결정할 수 있다. 또한 터치 거리와 컨텐츠 구간은 그 기준이 미리 결정되어 있을 수 있으며, 이 경우, 상기 기준과 비율에 따라 터치 거리-컨텐츠 구간이 결정될 수 있다.
도 6에서는, 거리(d2)에서는 t1-t3구간의 컨텐츠가 음성정보가 태깅되는 컨텐츠 구간이 된다. 즉, 본 발명은 핀치 제스쳐에 따라 변화되는 터치지점 사이의 거리와, 컨텐츠 구간을 매칭시켜, 컨텐츠 음성태깅을 보다 간단히 수행할 수 있게 한다.
더 나아가, 핀치 제스쳐로 예시될 수 있는 드래깅 제스쳐가 수행됨에 따라 컨텐츠 구간의 종료점 프레임이 터치스크린에 표시될 수 있다. 즉, 도 5와 6의 프레임은 t2와 t3에 해당하는 동영상 프레임이 된다.
본 발명의 또 다른 일 실시예는 상기 입력된 음성정보가 텍스트화되는 단계를 더 포함하며, 이로써 사용자는 문자 형태로도 특정 구간의 컨텐츠를 효과적으로 검색할 수 있다.
도 7은 본 발명의 또 다른 일 실시예에 따른 멀티미디어 컨텐츠 태깅장치의 블록도로서, 상기 장치는 멀티미디어 컨텐츠를 상기 전자기기에서 재생하는 재생부(210); 상기 재생부에 의한 멀티미디어 컨텐츠 재생 중, 음성정보가 상기 전자기기에 입력될 수 있는 모드인 음성정보 입력모드를 활성화시키는 음성정보 입력모드 활성부(220); 상기 음성정보 입력모드 활성부에 의한 음성정보 입력모드에서, 상기 외부로부터의 음성정보를 상기 전자기기에 입력시키는 음성정보입력부(230); 및 상기 음성정보 입력모드 활성부에 의한 음성정보 입력모드에서, 상기 터치스크린에서의 수행되는 두 터치에 의한 드래깅 제스쳐를 검출하는 드래깅 제스쳐 검출부(240): 상기 드래깅 제스쳐 검출부에 의하여 검출된 드래깅 제스쳐의 두 터치 지점 사이의 거리에 따라 상기 컨텐츠 구간을 결정하는 컨텐츠 구간 결정부(250); 및 상기 컨텐츠 구간 결정부에 의하여 결정된 컨텐츠 구간에 상기 음성정보입력부에 의하여 음성정보를 태깅정보로 저장하는 저장부(260)를 포함한다.
즉, 본 발명에 따른 멀티미디어 컨텐츠 태깅장치는 재생부(210)에 의한 컨텐츠 재생 중 태깅하고자 하는 프레임에서 특정 음성을 태깅 정보로 입력하고, 드래깅 제스쳐에 따라 상기 태깅 정보에 결합되는 컨텐츠 구간을 결정한다. 특히, 본 발명에 따른 상기 컨텐츠 구간 결정부(250)는 터치스크린에서 동시에 검출되는 두 터치 지점 사이의 거리에 비례하여 상기 컨텐츠 구간을 결정하며, 상기 컨텐츠 구간 결정은 음성정보입력부(230)에 의하여 활성화되는 음성정보 입력모드 중에서만 수행될 수 있다.
본 발명에서는 상술한 바와 같이 두 개의 터치가 동시에 검출되며, 그 사이의 거리에 따라 컨텐츠 구간이 결정된다. 따라서, 본 발명에서 상기 드래깅 제스쳐는 핀치 제스쳐일 수 있다. 더 나아가, 본 발명에 따른 상기 컨텐츠 태깅장치에서 상기 재생부는 상기 음성정보 입력모드에서 소리를 무음화시키며, 이로써 음성인식 정확도를 향상시킬 수 있다.
도 8은 본 발명의 또 다른 일 실시예에 따른 멀티미디어 컨텐츠 태깅장치의 블록도이다.
도 8을 참조하면, 상기 장치는 도 7의 장치에 추가로 상기 컨텐츠 구간 결정부에 의하여 결정된 컨텐츠 구간의 종료점에 대응하는 프레임을 상기 터치스크린에 표시하는 표시부(270)를 더 포함한다. 이로써 사용자는 자신의 손가락을 오무리거나(핀치), 벌림으로써(언핀치) 자신이 원하는 컨텐츠 구간의 종료점을 효과적으로 미리 볼 수 있다. 본 발명의 일 실시예에 따른 멀티미디어 컨텐츠 태깅장치는 음성정보가 태깅된 구간의 컨텐츠 정보를 외부 서버로 송신할 수 있는 통신부를 더 포함하며, 도 9는 본 발명에 따른 태깅 장치에 구비된 통신부를 이용한, 다수 사용자의 태깅 정보 공유 및 집단 지성 방식으로의 컨텐츠 통합 태깅 방식 및 시스템을 설명하는 도면이다.
도 9를 참조하면, 온라인 서버((410)을 통하여 다수의 사용자(420, 430, 440)에게 동일한 멀티미디어 컨텐츠가 제공된다. 재생 중 다수의 사용자가 비슷한 재생구간의 컨텐츠에 음성 또는 텍스트 방식으로 태깅을 진행하면, 상기 태깅된 정보는 상기 서버(410)로 전송된다. 이후, 상기 서버는 입력된 컨텐츠 시간과 태그 정보를 분석하여, 가장 다수의 사용자가 입력한 태그 정보를 상기 시간 범위의 컨텐츠 태그로 저장하고, 이를 타 사용자의 사용자 단말에 표시한다. 따라서 본 발명의 일 실시예에 따른 음성정보 태그 공유 시스템은 가장 다수의 사용자가 입력한 태그 정보를 분석하는 분석부(420)를 포함한다. 상기 분석부(420)는 서버(410)를 통하여 수신된 컨텐츠 구간 정보와 이에 태깅된 음성정보를 분석하고, 동일 구간의 컨텐츠에 최다 수신된 음성정보를 분석한다.
본 발명에 따른 시스템은 더 나아가, 최다 수신 태그 정보를 유효 태그 정보로 저장하는 저장부(430)를 더 포함하며, 상기 저장된 유효 태그 정보는 상기 컨텐츠 구간의 태깅 정보로 타 사용자라 이를 검색할 수 있다.
본 발명은 이러한 집단지성 방식으로 처음으로 동일 컨텐츠를 접하는 사용자도 미리 다수의 사용자가 입력한 신뢰성 높은 태그 정보를 이용할 수 있다. 본 발명은 또한 상기 멀티미디어 컨텐츠 태깅장치를 포함하는 전자기기로서, 휴대전화와 같은 모바일 기기를 제공한다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명이 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이와 균등하거나 또는 등가적인 변형 모두는 본 발명 사상의 범주에 속한다 할 것이다.
또한, 본 발명에 따른 멀티미디어 컨텐츠 태깅 방법 및 장치는 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 기록매체의 예로는 ROM, RAM, CD ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장장치, 하드 디스크, 플래시 드라이브 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

Claims (15)

  1. 터치스크린을 구비한 전자기기에 의한 멀티미디어 컨텐츠 태깅 방법으로, 상기 방법은
    상기 전자 기기에서의 컨텐츠 재생 중 음성정보 입력모드가 활성화되는 단계;
    상기 음성정보 입력모드 중 음성정보가 상기 전자기기에 입력되는 단계;
    상기 음성정보 입력모드 중 활성화된 상기 터치스크린에서의 드래깅 제스쳐에 따라 상기 음성정보가 태깅되는 컨텐츠 구간이 결정되는 단계;
    상기 음성정보 입력모드가 종료되는 단계; 및
    상기 입력된 음성정보가 상기 결정된 구간의 컨텐츠에 대한 태깅 정보로 상기 전자 기기에 저장되는 단계를 포함하는 것을 특징으로 하는 멀티미디어 컨텐츠 태깅방법.
  2. 제 1항에 있어서,
    상기 드래깅 제스쳐는 두 개의 터치에 의한 드래깅 제스쳐이며, 상기 두 개의 터치 지점 중 어느 하나는 상기 음성정보가 태깅되는 컨텐츠 구간의 시작점, 나머지 하나는 종료점에 대응되는 것을 특징으로 하는 멀티미디어 컨텐츠 태깅방법.
  3. 제 2항에 있어서,
    상기 컨텐츠 구간은 상기 두 개의 터치 지점 사이의 거리에 대응되는 것을 특징으로 하는 멀티미디어 컨텐츠 태깅방법.
  4. 제3항에 있어서, 상기 방법은
    상기 드래깅 제스쳐가 수행됨에 따라 상기 터치스크린에는 상기 구간의 종료점에 대응하는 프레임이 표시되는 단계를 더 포함하는 것을 특징으로 하는 멀티미디어 컨텐츠 태깅방법.
  5. 제 4항에 있어서, 상기 방법은
    상기 입력된 음성정보가 텍스트화되는 단계를 더 포함하는 것을 특징으로 하는 멀티미디어 컨텐츠 태깅방법.
  6. 제 1항에 있어서, 상기 방법은
    상기 음성정보 입력모드 중 상기 컨텐츠 재생 중 발생하는 소리를 무음화시키는 단계를 더 포함하는 것을 특징으로 하는 멀티미디어 컨텐츠 태깅방법.
  7. 제 1항에 있어서,
    상기 음성정보 입력모드는 사용자 입력에 따른 입력신호에 의하여 활성화되는 것을 특징으로 하는 멀티미디어 컨텐츠 태깅방법.
  8. 터치스크린을 구비한 전자기기의 멀티미디어 컨텐츠 태깅장치로서, 상기 장치는
    멀티미디어 컨텐츠를 상기 전자기기에서 재생하는 재생부;
    상기 재생부에 의한 멀티미디어 컨텐츠 재생 중, 음성정보가 상기 전자기기에 입력될 수 있는 모드인 음성정보 입력모드를 활성화시키는 음성정보 입력모드 활성부;
    상기 음성정보 입력모드 활성부에 의한 음성정보 입력모드에서, 상기 외부로부터의 음성정보를 상기 전자기기에 입력시키는 음성정보입력부; 및
    상기 음성정보 입력모드 활성부에 의한 음성정보 입력모드에서, 상기 터치스크린에서의 수행되는 두 개의 터치에 의한 드래깅 제스쳐를 검출하는 드래깅 제스쳐 검출부:
    상기 두 개의 터치 사이 거리에 따라 상기 컨텐츠 구간을 결정하는 컨텐츠 구간 결정부; 및
    상기 컨텐츠 구간 결정부에 의하여 결정된 컨텐츠 구간에 상기 음성정보입력부에 의하여 음성정보를 태깅정보로 저장하는 저장부를 포함하는 것을 특징으로 하는 멀티미디어 컨텐츠 태깅장치.
  9. 제 8항에 있어서,
    상기 컨텐츠 구간 결정부는 상기 두 개의 터치 사이 거리에 비례하여 상기 컨텐츠 구간을 결정하는 것을 특징으로 하는 멀티미디어 컨텐츠 태깅장치.
  10. 제 9항에 있어서,
    상기 드래깅 제스쳐는 핀치 제스쳐인 것을 특징으로 하는 멀티미디어 컨텐츠 태깅장치.
  11. 제 8항에 있어서, 상기 컨텐츠 태깅장치는
    상기 재생부는 상기 음성정보 입력모드에서 소리를 무음화시키는 것을 특징으로 하는 멀티미디어 컨텐츠 태깅장치.
  12. 제 8항에 있어서, 상기 장치는
    상기 컨텐츠 구간 결정부에 의하여 결정된 컨텐츠 구간의 종료점에 대응하는 프레임을 상기 터치스크린에 표시하는 표시부를 더 포함하는 것을 특징으로 하는 멀티미디어 컨텐츠 태깅장치.
  13. 제 8항 내지 제 12항에 있어서, 상기 태깅장치는
    음성정보가 태깅된 구간의 컨텐츠 정보를 외부 서버로 송신할 수 있는 통신부를 더 포함하는 것을 특징으로 하는 멀티미디어 컨텐츠 태깅장치.
  14. 음성정보 태그 공유시스템으로, 상기 시스템은
    다수 사용자 각각에 의하여 컨텐츠 구간 및 상기 컨텐츠 구간에 대응하는 음성정보가 태깅되는 제 13항에 따른 멀티미디어 컨텐츠 태깅장치;
    상기 다수 사용자 각각의 멀티미디어 컨텐츠 태깅장치로부터 컨텐츠 구간 및 상기 컨텐츠 구간에 태깅된 음성정보를 각각 수신받는 서버;
    상기 서버로 수신된 컨텐츠 구간 및 상기 컨텐츠 구간에 태깅된 음성정보를 분석하여, 가장 다수의 사용자가 입력한 태그 정보를 결정하는 분석부; 및
    상기 분석부에 의하여 결정된 최다 수신 태그 정보를 유효 태그 정보로 저장하는 저장부(430)를 포함하는 것을 특징으로 하는 음성정보 태그 공유시스템.
  15. 제 14항에 있어서,
    상기 유효 태그 정보는 타 사용자 클라이언트에 표시되는 것을 특징으로 하는 음성정보 태그 공유시스템.
KR1020120011807A 2012-02-06 2012-02-06 구간설정이 가능한 음성기반 멀티미디어 컨텐츠 태깅 방법 및 장치 KR101356006B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120011807A KR101356006B1 (ko) 2012-02-06 2012-02-06 구간설정이 가능한 음성기반 멀티미디어 컨텐츠 태깅 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120011807A KR101356006B1 (ko) 2012-02-06 2012-02-06 구간설정이 가능한 음성기반 멀티미디어 컨텐츠 태깅 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20130090570A true KR20130090570A (ko) 2013-08-14
KR101356006B1 KR101356006B1 (ko) 2014-02-12

Family

ID=49216132

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120011807A KR101356006B1 (ko) 2012-02-06 2012-02-06 구간설정이 가능한 음성기반 멀티미디어 컨텐츠 태깅 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101356006B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015133782A1 (ko) * 2014-03-03 2015-09-11 삼성전자 주식회사 컨텐츠 분석 방법 및 디바이스
KR20160093763A (ko) * 2015-01-29 2016-08-09 주식회사 마이티웍스 음성 데이터를 위한 태깅 시스템 및 그 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101832050B1 (ko) * 2016-03-25 2018-02-23 김준모 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법 및 이를 이용한 시스템

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4271195B2 (ja) * 2003-10-16 2009-06-03 パナソニック株式会社 映像音声記録再生装置、映像音声記録方法及び映像音声再生方法
US20050192808A1 (en) * 2004-02-26 2005-09-01 Sharp Laboratories Of America, Inc. Use of speech recognition for identification and classification of images in a camera-equipped mobile handset
KR101419701B1 (ko) * 2007-12-03 2014-07-21 삼성전자주식회사 멀티미디어 재생장치에서 멀티 터치를 이용한 재생 제어 방법
KR20110001550A (ko) * 2009-06-30 2011-01-06 엘지전자 주식회사 이동 단말기 및 그 제어 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015133782A1 (ko) * 2014-03-03 2015-09-11 삼성전자 주식회사 컨텐츠 분석 방법 및 디바이스
US10014008B2 (en) 2014-03-03 2018-07-03 Samsung Electronics Co., Ltd. Contents analysis method and device
KR20160093763A (ko) * 2015-01-29 2016-08-09 주식회사 마이티웍스 음성 데이터를 위한 태깅 시스템 및 그 방법

Also Published As

Publication number Publication date
KR101356006B1 (ko) 2014-02-12

Similar Documents

Publication Publication Date Title
WO2020029966A1 (zh) 视频处理方法及装置、电子设备和存储介质
US8799300B2 (en) Bookmarking segments of content
AU2012281308B2 (en) Method and apparatus for controlling content using graphical object
CN109189987A (zh) 视频搜索方法和装置
US20190130185A1 (en) Visualization of Tagging Relevance to Video
US20150046434A1 (en) Mobile device and method for offering query recommendations
US9900427B2 (en) Electronic device and method for displaying call information thereof
US20100162165A1 (en) User Interface Tools
KR20160048708A (ko) 통신 메시지 인식 방법, 장치, 프로그램 및 저장매체
US10339833B2 (en) Assistive reading interface
EP2629545A1 (en) Apparatus and method for changing attribute of subtitle in image display device
US20200012701A1 (en) Method and apparatus for recommending associated user based on interactions with multimedia processes
KR101709427B1 (ko) 정보를 선택하는 방법 및 디바이스
KR20150079371A (ko) 단말기에서 근전도 검사 장치로 데이터를 전송하기 위한 장치, 시스템 및 방법
CN112423138A (zh) 一种搜索结果展示方法及终端设备
TWI755890B (zh) 資料處理方法、電子設備和電腦可讀儲存介質
CN102664008B (zh) 一种用以传输数据的方法、终端及系统
US12072929B2 (en) Song recommendation method and apparatus, electronic device, and storage medium
KR20150077580A (ko) 음성 인식 기반 서비스 제공 방법 및 그 장치
KR20150027885A (ko) 전자 필기 운용 방법 및 이를 지원하는 전자 장치
TWI528186B (zh) 經由音訊發布訊息的系統及方法
CN104216969B (zh) 阅读标记方法及装置
KR101356006B1 (ko) 구간설정이 가능한 음성기반 멀티미디어 컨텐츠 태깅 방법 및 장치
CN110309324A (zh) 一种搜索方法及相关装置
KR20130117021A (ko) 메시지 내용을 검색하기 위한 방법 및 그 전자 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20161227

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee