KR20190115839A

KR20190115839A - 영상 콘텐츠 연동형 서비스 제공 방법 및 장치

Info

Publication number: KR20190115839A
Application number: KR1020180039034A
Authority: KR
Inventors: 이혜정; 박진효; 이종민
Original assignee: 에스케이텔레콤 주식회사
Priority date: 2018-04-04
Filing date: 2018-04-04
Publication date: 2019-10-14
Also published as: KR102544612B1

Abstract

본 발명의 일 실시예에 따른 영상 콘텐츠 연동형 서비스 제공 방법은, 영상 콘텐츠의 재생 중 영상 장면에 대한 메타데이터에서 영상 장면에 포함된 객체의 식별자를 추출하여 음성 인식 키워드로서 설정하는 단계와, 영상 콘텐츠의 재생 중 입력되는 음성을 변환한 텍스트를 획득하는 단계와, 음성 인식 키워드 및 기 설정된 특정 서비스에 대응하는 실행어가 획득된 텍스트에 포함되어 있는지를 판단하는 단계와, 획득된 텍스트에 음성 인식 키워드 및 실행어가 포함된 경우, 객체에 대해 특정 서비스를 실행하는 단계를 포함한다.

Description

영상 콘텐츠 연동형 서비스 제공 방법 및 장치{METHOD AND APPARATUS FOR PROVIDING SERVICES LINKED TO VIDEO CONTENTS}

본 발명은 영상 콘텐츠 연동형 서비스 제공 방법 및 장치에 관한 것으로서, 더욱 상세하게는 영상 콘텐츠의 재생 중에 영상 콘텐츠에 연동하는 서비스를 제공하는 방법 및 장치에 관한 것이다.

영상 콘텐츠 연동형 서비스는 영상 컨텐츠의 시청자에게 시청 중인 영상 장면과 관련된 다양한 서비스를 제공하는 것을 일컬으며, 이를 통해 영상 장면의 등장 인물, 촬영 장소, 배경음악, 상품 등과 같은 각종 객체에 관련된 특정의 연동 서비스를 제공할 수 있다. 예를 들어, 영상 장면에 등장하는 상품에 대한 광고를 제공하거나 혹은 직접 구매 가능한 인터넷 쇼핑몰로 연결하는 서비스 등을 제공할 수 있다.

이러한 영상 콘텐츠 연동형 서비스에서 사용자 인터페이스로는 소위 "리모콘"으로 불리는 "리모트컨트롤러"를 사용할 수 있다.

그런데, 이러한 "리모트컨트롤러"는 TV 화면 제어 등을 위한 맞춤형 인터페이스로 사용될 경우에는 사용상의 편의성을 제공할 수 있으나, 다양한 영상 장면을 포함할 뿐만 아니라 영상 장면에 다양한 객체를 포함할 수 있는 영상 콘텐츠에 대한 연동형 서비스 분야에 단독으로 사용하기에는 부족한 점이 많아서 사용자들이 불편함을 감수하여야만 하였다.

이에 따라, 영상 콘텐츠 연동형 서비스에서는 UX(User eXperience)의 개선이 요구되는 실정이다.

대한민국 공개특허공보 제10-2007-0021741호, 공개일자 2007년 02월 23일.

본 발명의 일 실시예에 의하면, 영상 콘텐츠의 재생 중에 음성 인식을 기초로 최소의 자원을 활용하여 신속하게 영상 콘텐츠에 대한 연동형 서비스를 제공할 수 있는 영상 콘텐츠 연동형 서비스 제공 방법 및 장치를 제공한다.

본 발명의 해결하고자 하는 과제는 이상에서 언급한 것으로 제한되지 않으며, 아래의 기재로부터 본 발명이 속하는 통상의 지식을 가진 자에게 명확하게 이해될 수 있는 범위의 언급되지 않은 또 다른 해결하고자 하는 과제까지 포함되는 것이다.

본 발명의 일 관점에 따른 영상 콘텐츠 연동형 서비스 제공 방법은, 영상 콘텐츠의 재생 중 영상 장면에 대한 메타데이터에서 상기 영상 장면에 포함된 객체의 식별자를 추출하여 음성 인식 키워드로서 설정하는 단계와, 상기 영상 콘텐츠의 재생 중 입력되는 음성을 변환한 텍스트를 획득하는 단계와, 상기 음성 인식 키워드 및 기 설정된 특정 서비스에 대응하는 실행어가 상기 획득된 텍스트에 포함되어 있는지를 판단하는 단계와, 상기 획득된 텍스트에 상기 음성 인식 키워드 및 상기 실행어가 포함된 경우, 상기 객체에 대해 상기 특정 서비스를 실행하는 단계를 포함한다.

본 발명의 다른 관점에 따른 영상 콘텐츠 연동형 서비스 제공 장치는, 영상 콘텐츠의 재생 중 입력되는 음성을 변환한 텍스트를 획득하는 텍스트 획득부와, 특정 서비스를 수행하는 서비스 처리부를 포함하고, 상기 서비스 처리부는, 상기 영상 콘텐츠의 재생 중 영상 장면에 대한 메타데이터에서 상기 영상 장면에 포함된 객체의 식별자를 추출하여 음성 인식 키워드로서 설정하며, 상기 음성 인식 키워드 및 기 설정된 특정 서비스에 대응하는 실행어가 상기 획득된 텍스트에 포함되어 있는지를 판단하고, 상기 획득된 텍스트에 상기 음성 인식 키워드 및 상기 실행어가 포함된 경우, 상기 객체에 대해 상기 특정 서비스를 실행한다.

본 발명의 실시예에 의하면, 영상 콘텐츠의 재생 중 입력되는 음성을 변환한 텍스트에 기 설정된 음성 인식 키워드 및 실행어가 포함되어 있는 경우에 영상 콘텐츠의 영상 장면에 포함된 객체에 대한 특정 서비스를 수행한다. 이처럼, 음성 인식 키워드를 사전에 설정하여 이용함으로써 음성 인식을 위한 많은 자원을 활용하지 않더라도 신속하게 영상 콘텐츠에 대한 연동형 서비스를 제공할 수 있다. 이로써, 사용자 측면에서는 음성 인터페이스를 사용함에 따라 UX가 개선되는 효과가 있다.

더욱이, 웨이크-업 워드(wake-up word)를 함께 이용하여 웨이크-업 워드와 음성 인식 키워드 및 실행어를 포함하는 규칙 문구를 사용자에게 발화하도록 유도하는 경우에는 음성 인식 서버와 연동하지 않더라도 음성 인식 키워드에 대한 음성 인식을 신속히 처리하여 연동형 서비스를 제공할 수 있다.

그리고, 영상 콘텐츠의 재생 중 영상 장면에 대한 메타데이터에서 객체의 식별자를 추출하여 음성 인식 키워드로서 설정하는 방식을 사용하는 경우에는 사전에 수행할 수 있는 영상 인식을 통한 메타데이터 생성 과정에서 영상 장면으로부터 인식된 객체에 대한 음성 인식 키워드를 설정할 수 있다.

아울러, 영상 재생 중 영상 장면에 대한 메타데이터가 존재하는 경우에 해당 영상 장면에 최소 크기의 표식을 함께 출력하여 사용자에게 알려주고, 사용자에 의해 음성 인식 키워드가 발화된 경우에 해당 영상 장면에 대한 부가 정보를 제공하는 것 등과 같은 특정 서비스를 수행할 수 있다. 이 경우에는 부가 정보 화면에 의해 본연의 기능을 위한 영상 재생 화면이 가려지는 상황을 최대한 회피할 수 있다.

도 1은 본 발명의 일 실시예에 따른 영상 콘텐츠 연동형 서비스 제공 장치의 구성을 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 영상 콘텐츠 연동형 서비스 제공 방법의 흐름을 설명하기 위한 도면이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

도 1은 본 발명의 일 실시예에 따른 영상 콘텐츠 연동형 서비스 제공 장치의 구성을 설명하기 위한 도면이다. 도 1에서는 영상 콘텐츠 연동형 서비스 제공 장치(100)가 영상 콘텐츠를 재생하여 사용자가 시청할 수 있도록 하는 영상 콘텐츠 재생 장치(10)를 구성하는 실시예에 대해 설명하겠지만, 반드시 이에 한정되는 것은 아니다. 예를 들어, 영상 콘텐츠 연동형 서비스 제공 장치(100)는 별개로 단독 구성될 수 있으며, 역시 별개로 구성된 영상 콘텐츠 재생 장치(10)와 신호를 교신하면서 연동할 수 있다.

도 1에 나타낸 바와 같이 일 실시예에 따른 영상 콘텐츠 연동형 서비스 제공 장치(10)는 텍스트 획득부(110) 및 서비스 처리부(120)를 포함한다. 그리고, 일 실시예에 따른 영상 콘텐츠 연동형 서비스 제공 장치(100)는 음성-텍스트 변환부(130)와 통신부(140) 중 하나 이상을 더 포함할 수 있다. 또, 일 실시예에 따른 영상 콘텐츠 연동형 서비스 제공 장치(10)는 웨이크-업 처리부(150)를 더 포함할 수 있다. 여기서, 텍스트 획득부(110), 서비스 처리부(120), 음성-텍스트 변환부(130) 및 통신부(140)는 영상 콘텐츠 연동형 서비스 제공 장치(100)가 수행하는 영상 콘텐츠 연동형 서비스 제공 방법을 위한 각 단계를 수행하는 명령어 및 그 명령어를 포함하는 컴퓨터 프로그램을 실행할 수 있는 CPU(Central Processing Unit) 등과 같은 프로세서를 포함할 수 있다. 아울러, 텍스트 획득부(110) 및 웨이크-업 처리부(150)는 음성 신호를 입력 받을 수 있는 마이크로폰(microphone)을 각각 포함하거나 하나의 마이크로폰을 공유할 수 있고, 통신부(140)는 통신망(20)을 통해 음성 인식 서버(30) 및 클라우드 서버(40)와 데이터를 송수신할 수 있는 이동통신 모듈, 근거리통신 모듈 등과 같은 통신수단을 포함할 수 있다.

텍스트 획득부(110)는 영상 재생기(11)가 영상 콘텐츠를 재생하여 디스플레이(13)를 통해 출력하는 중에 사용자에 의해 발화되어 입력되는 음성을 변환한 텍스트를 획득한다. 이러한 텍스트 획득부(110)는 입력되는 음성 신호를 음성-텍스트 변환부(130)에게 전달할 수 있고, 음성-텍스트 변환부(130)는 STT(Speech-To-Text) 변환을 통해 생성된 텍스트 데이터를 텍스트 획득부(110)에게 전달할 수 있다. 또, 텍스트 획득부(110)는 입력되는 음성 신호를 통신부(140) 및 통신망(20)을 통해 음성 인식 서버(30)에게 송신할 수 있고, 음성 인식 서버(30)가 수신된 음성 신호를 인식하여 생성한 텍스트 데이터를 회신하면 이를 통신망(20) 및 통신부(140)를 통해 수신해 획득할 수 있다.

서비스 처리부(120)는 영상 콘텐츠의 영상 장면에 포함된 객체에 대응하는 음성 인식 키워드 및 기 설정된 특정 서비스에 대응하는 실행어가 텍스트 획득부(110)에 의해 획득된 텍스트에 포함되어 있는지를 판단한다. 여기서, 객체라 함은 영상 장면의 등장 인물, 촬영 장소, 배경음악, 상품 등과 같이 현실세계에 존재하거나 생각할 수 있는 것으로서 영상 장면에 포함되는 모든 것을 의미한다.

그리고, 서비스 처리부(120)는 텍스트 획득부(110)에 의해 획득된 텍스트에 음성 인식 키워드 및 실행어가 포함된 경우, 해당 객체에 대한 기 설정된 특정 서비스를 실행한다. 예를 들어, 서비스 처리부(120)는 해당 객체에 대한 부가 정보를 디스플레이(13)가 출력할 수 있도록 처리할 수 있으며, 이 경우는 "정보 알려줘" 등이 실행어로서 사전 설정될 수 있다. 또, 서비스 처리부(120)는 해당 객체에 대응하여 기 지정된 정보를 통신부(140) 및 통신망(20)을 통해 클라우드 서버(40)로 전송하는 처리를 할 수 있으며, 이 경우는 "정보 전송해" 등이 실행어로서 사전 설정될 수 있다. 이러한 서비스 처리부(120)에 의해 수행되는 서비스는 앞의 예시에 국한되지 않으며, 이후 다시 설명하기로 한다.

아울러, 서비스 처리부(120)는 음성 인식 키워드를 설정할 수 있다. 서비스 처리부(120)는 영상 재생기(11)가 영상 콘텐츠를 재생하여 디스플레이(13)를 통해 출력하는 중에 영상 콘텐츠의 영상 장면에 대한 메타데이터에서 객체의 식별자를 추출하여 음성 인식 키워드로서 설정할 수 있다. 예를 들어, 서비스 처리부(120)는 영상 장면에 포함된 등장 인물, 촬영 장소, 배경음악, 상품 등과 같은 객체들의 식별자를 메타데이터로부터 추출하여 음성 인식 키워드로서 설정할 수 있다. 예컨대, 영상 장면에 상품으로서 "가방"이 포함된 경우에 메타데이터에도 "가방”이 객체의 식별자로서 포함될 수 있고, 서비스 처리부(120)에 의해 "가방”이 음성 인식 키워드로서 설정될 수 있다. 물론, 음성 인식 키워드는 앞의 예시에 국한되지 않는다.

그리고, 서비스 처리부(120)는 영상 재생기(11)에 의해 영상 콘텐츠의 특정 영상 장면이 재생되기 전에 해당 영상 장면에 대한 메타데이터가 존재하는지를 검사하고, 해당 영상 장면에 대한 메타데이터가 존재하면 해당 영상 장면이 재생될 때에 기 설정된 표식이 포함되어 재생될 수 있도록 영상 재생기(11)에게 기 설정된 표식 데이터를 전달하며, 영상 재생기(11)는 해당 영상 장면에 기 설정된 표식을 함께 출력함으로써, 시청자가 해당 영상 장면에 대한 메타데이터가 존재한다는 것을 알 수 있게 할 수 있다.

영상 콘텐츠의 영상 장면에 대한 메타데이터는 영상 분석기(12)가 사전에 영상 콘텐츠를 분석한 결과를 기초로 생성해 저장해 둘 수 있고, 영상 재생기(11)에 의해 영상 콘텐츠가 재생되어 디스플레이(13)를 통해 출력될 때에 영상 장면마다 동기화된 메타데이터를 영상 콘텐츠 연동형 서비스 제공 장치(100)에게 전송할 수 있다. 이를 위해, 영상 분석기(12)는 영상 재생기(11)에 의해 영상 콘텐츠가 사전 재생될 때에 영상 장면에 대한 인식을 통해 영상 장면에 포함된 다양한 객체에 대응하는 식별자를 획득하고, 획득된 식별자를 영상 장면의 메타데이터에 객체의 메타 정보로서 저장할 수 있다. 영상 인식을 통해 메타 정보를 생성하는 과정은 공지의 기술사상이기에 그 설명을 생략하기로 한다. 또한, 영상 콘텐츠의 소유주나 서비스 제공자는 영상 장면별 등장 정보에 대한 분석을 통해 객체의 식별자에 대한 메타 정보가 포함된 메타데이터를 생성한 후에 영상 콘텐츠를 제공할 때에 대응하는 메타데이터를 함께 제공할 수도 있다.

웨이크-업 처리부(150)는 기 설정된 웨이크-업 워드에 대응하는 음성이 입력되면 휴지상태의 텍스트 획득부(110)를 깨워 동작상태로 바뀌도록 한다. 여기서, 서비스 처리부(120), 음성-텍스트 변환부(130) 및 통신부(140)가 텍스트 획득부(110)와 함께 휴지상태에 놓일 수 있고 웨이크-업 처리부(150)에 의해 함께 동작상태로 바뀔 수 있다. 이러한 웨이크-업 처리부(150)는 영상 콘텐츠 연동형 서비스 제공 장치(100)의 절전을 위해 구성될 수 있지만, 영상 콘텐츠 연동형 서비스 제공 장치(100)의 구성에서 제외될 수도 있다.

도 2는 본 발명의 일 실시예에 따른 영상 콘텐츠 연동형 서비스 제공 방법의 흐름을 설명하기 위한 도면이다. 도 2에서는 영상 콘텐츠 재생 장치(10)의 영상 분석기(12)가 영상 콘텐츠에 대한 메타데이터를 생성하여 영상 콘텐츠 연동형 서비스 제공 장치(100)에게 제공하는 것, 영상 콘텐츠 연동형 서비스 제공 장치(100)의 서비스 처리부(120)가 음성 인식 키워드를 사전에 설정하는 것, 영상 콘텐츠 연동형 서비스 제공 장치(100)에 웨이크-업 워드 처리부(150)가 포함된 것 등을 가정한 실시예에 대해 설명하겠지만, 반드시 이에 한정되는 것은 아니다.

먼저, 영상 콘텐츠 재생 장치(10)의 영상 분석기(12)는 사전에 영상 콘텐츠를 분석한 결과를 기초로 영상 콘텐츠의 영상 장면에 대한 메타데이터를 생성하여 저장해 둔다. 예를 들어, 영상 분석기(12)는 영상 재생기(11)에 의해 영상 콘텐츠가 사전 재생될 때에 영상 장면에 대한 인식을 통해 영상 장면에 포함된 다양한 객체에 대응하는 식별자를 획득하고, 획득된 식별자를 영상 장면의 메타데이터에 객체의 메타 정보로서 저장할 수 있다. 예컨대, 영상 장면에 포함된 객체 중 상품으로서 "가방"이 포함된 경우에 영상 분석기(12)는 "가방”을 객체의 식별자로서 메타데이터에 포함시킬 수 있다.

이후, 사용자에 의한 재생 명령 등에 의해 영상 콘텐츠 재생 장치(10)의 영상 재생기(11)가 영상 콘텐츠를 재생하여 디스플레이(13)를 통해 출력하고, 사용자는 디스플레이(13)를 통해 재생되는 영상 콘텐츠를 시청할 수 있다. 이렇게 영상 재생기(11)에 의해 영상 콘텐츠가 재생되어 디스플레이(13)를 통해 출력될 때에 영상 분석기(12)는 영상 장면마다 동기화된 메타데이터를 영상 콘텐츠 연동형 서비스 제공 장치(100)에게 전송한다.

그러면, 영상 콘텐츠 연동형 서비스 제공 장치(100)의 서비스 처리부(120)는 영상 재생기(11)에 의해 영상 콘텐츠가 재생되어 디스플레이(13)를 통해 출력될 때에 특정 영상 장면에 대한 메타데이터가 존재하는지를 검사한다(S201).

그리고, 서비스 처리부(120)는 현재 재생 중인 특정 영상 장면에 대한 메타데이터가 존재하면 해당 영상 장면에 기 설정된 표식이 포함되어 재생될 수 있게 영상 재생기(11)에게 기 설정된 표식 데이터를 전달하며(S202), 영상 재생기(11)는 해당 영상 장면에 기 설정된 표식을 함께 출력한다(S204). 이는, 영상 재생 중 특정 영상 장면에 대한 메타데이터가 존재한다는 것을 해당 영상 장면에 최소 크기의 표식을 함께 출력하여 사용자에게 알려주기 위한 것이다. 만약 영상 장면에 대한 메타데이터가 존재하는 경우에 곧바로 부가 정보 화면을 통해 메타데이터에 포함된 부가 정보를 화면에 표시할 경우에 이러한 부가 정보 화면에 의해 본연의 기능을 위한 영상 재생 화면이 가려지는 상황이 발생하기 때문이다. 이처럼, 영상 재생 중 영상 장면에 대한 메타데이터가 존재한다는 것을 기 설정된 표식을 통해 알려주면 부가 정보 화면에 의해 영상 재생 화면이 불필요하게 가려지는 상황을 최대한 회피할 수 있다. 단계 S202에서, 현재 재생 중인 영상 장면에 대한 메타데이터가 존재하지 않는 경우에는 디스플레이(13)에는 기 설정된 표식을 포함하지 않는 영상 콘텐츠가 재생된다(S203).

아울러, 서비스 처리부(120)는 영상 재생기(11)가 영상 콘텐츠를 재생하여 디스플레이(13)를 통해 출력하는 중에 영상 콘텐츠의 영상 장면에 대한 메타데이터에서 객체의 식별자를 추출하여 음성 인식 키워드로서 설정한다. 예를 들어, 서비스 처리부(120)는 영상 장면에 포함된 등장 인물, 촬영 장소, 배경음악, 상품 등과 같은 객체들의 식별자를 메타데이터로부터 추출하여 음성 인식 키워드로서 설정할 수 있다. 예컨대, 영상 장면에 포함된 객체 중 상품으로서 "가방"이 포함된 경우에 메타데이터에도 "가방”이 객체의 식별자로서 포함될 수 있고, 서비스 처리부(120)에 의해 "가방”이 음성 인식 키워드로서 설정될 수 있다(S205).

이후, 영상 콘텐츠 연동형 서비스 제공 장치(100)의 웨이크-업 처리부(150)를 제외한 나머지 구성 중 하나 이상은 휴지상태에 놓일 수 있다. 예를 들어, 텍스트 획득부(110)가 휴지상태에 놓일 수 있으며, 휴지상태에서는 절전을 위해 음성이 변환된 텍스트를 획득하기 위한 기능을 수행하지 않는다.

이처럼, 영상 재생기(11)가 영상 콘텐츠를 재생하여 디스플레이(13)를 통해 출력하는 중에 사용자는 영상 장면에 함께 출력되는 표식을 식별하여 해당 영상 장면에 대응하는 메타데이터가 존재한다는 것을 인지할 수 있다. 그리고, 사용자는 영상 콘텐츠 연동형 서비스 제공 장치(100)로부터 서비스를 제공받기 위해 사전에 약속된 규격의 명령문을 발화할 수 있다. 예를 들어, 사전에 약속된 규격의 명령문은 웨이크-업 워드와 음성 인식 키워드 및 실행어를 포함할 수 있다. 예컨대, 웨이크-업 워드로서 "팅커벨"이 사전 설정되어 있고, 영상 장면에 포함된 객체 중 상품으로서 "가방"이 포함되어 있으며, 영상 콘텐츠 연동형 서비스 제공 장치(100)는 클라우드 서버(40)에 각종 정보를 저장하는 서비스를 수행하기 위해 "정보를 저장해"라는 실행어가 사전 설정되어 있을 수 있다. 이 경우에, 사용자는 영상 콘텐츠 연동형 서비스 제공 장치(100)로부터 서비스를 제공받기 위해 "팅커벨, 가방 정보를 저장해"라고 발화할 수 있다.

그러면, 웨이크-업 처리부(150)는 기 설정된 웨이크-업 워드에 대응하는 음성이 입력되는지를 판단하고, 사용자에 의해 발화된 웨이크-업 워드가 입력되면 휴지상태의 텍스트 획득부(110)를 깨워 동작상태로 바뀌도록 한다. 예컨대, 웨이크-업 워드로서 "팅커벨"이 사전 설정되어 있고, 사용자가 영상 콘텐츠 연동형 서비스 제공 장치(100)로부터 서비스를 제공받기 위해 "팅커벨, 가방 정보를 저장해"라고 발화한 경우에, 웨이크-업 처리부(150)는 웨이크-업 워드가 입력된 것을 판단한 후에 휴지상태에서 동작상태로 바뀌도록 텍스트 획득부(110)에게 동작 명령을 전달할 수 있다(S206).

휴지상태에서 동작상태로 바뀐 텍스트 획득부(110)는 영상 재생기(11)가 영상 콘텐츠를 재생하여 디스플레이(13)를 통해 출력하는 중에 사용자에 의해 발화되어 입력되는 음성을 변환한 텍스트를 획득하며, 획득된 텍스트 데이터를 서비스 처리부(120)에게 전달한다. 이러한 텍스트 획득부(110)는 입력되는 음성 신호를 음성-텍스트 변환부(130)에게 전달할 수 있고, 음성-텍스트 변환부(130)는 STT 변환을 통해 생성된 텍스트 데이터를 텍스트 획득부(110)에게 전달할 수 있다. 예를 들어, 영상 장면에 포함된 객체 중 상품으로서 "가방"이 포함되어 있으며, "정보를 저장해"라는 실행어가 사전 설정되고, 사용자가 "팅커벨, 가방 정보를 저장해"라고 발화한 경우에, 음성-텍스트 변환부(130)는 "가방 정보를 저장해"라는 텍스트를 획득하여 텍스트 획득부(110)에게 회신하며, 텍스트 획득부(110)는 "가방 정보를 저장해"라는 텍스트 데이터를 서비스 처리부(120)에게 전달한다. 또는, 텍스트 획득부(110)는 입력되는 음성 신호를 통신부(140) 및 통신망(20)을 통해 음성 인식 서버(30)에게 송신할 수 있고, 음성 인식 서버(30)가 수신한 음성 신호를 인식하여 생성한 텍스트 데이터를 회신하면 이를 통신망(20) 및 통신부(140)를 통해 수신해 획득할 수 있다. 텍스트 획득부(110)가 음성-텍스트 변환부(130)를 이용하는 경우와 음성 인식 서버(30)를 이용하는 경우를 비교하면 서로 동일한 텍스트를 획득할 수 있다(S207).

서비스 처리부(120)는 텍스트 획득부(110)로부터 전달받은 텍스트 데이터에 단계 S205에서 설정한 음성 인식 키워드가 포함되어 있는지를 우선 파악하고(S208), 텍스트 데이터에 음성 인식 키워드가 포함되어 있으면 특정 서비스에 대응하는 실행어가 포함되어 있는지를 파악한다. 예를 들어, 단계 S205에서 "가방"이 음성 인식 키워드로서 설정되고, 특정 서비스에 대응하는 실행어로서 "정보를 저장해"라는 실행어가 사전 설정되었으며, 사용자가 "팅커벨, 가방 정보를 저장해"라고 발화한 경우에, 서비스 처리부(120)는 단계 S207에서 획득된 텍스트 데이터로부터 "가방"을 음성 인식 키워드로서 파악함과 아울러 "정보를 저장해"를 실행어로서 파악한다(S209).

그리고, 서비스 처리부(120)는 영상 콘텐츠의 영상 장면에 포함된 객체들 중 단계 S208에서 파악된 음성 인식 키워드에 대응하는 객체에 대해 단계 S209에서 파악된 실행어에 대응하는 특정 서비스를 실행한다. 예를 들어, 단계 S208에서 "가방"이 음성 인식 키워드로서 파악되고, 단계 S209에서 특정 서비스에 대응하는 실행어로서 "정보를 저장해"라는 실행어가 파악된 경우, 서비스 처리부(120)는 영상 장면의 메타데이터 중 "가방"과 관련된 메타 정보를 추출하고, 통신부(140) 및 통신망(20)을 통해 클라우드 서버(40)에 접속한 후 "가방"과 관련된 메타 정보를 저장하는 서비스를 수행한다(S210). 그러면, 사용자는 영상 콘텐츠에 대한 시청을 종료한 후에 클라우드 서버(40)에 접속하여 단계 S210에서 저장된 "가방"과 관련된 메타 정보를 확인할 수 있고, 확인된 정보를 참고하여 자신이 원하는 구매 행위 등을 진행할 수 있을 것이다.

지금까지 설명한 바와 같이, 본 발명의 실시예에 따르면 영상 콘텐츠의 재생 중 입력되는 음성을 변환한 텍스트에 기 설정된 음성 인식 키워드 및 실행어가 포함되어 있는 경우에 영상 콘텐츠의 영상 장면에 포함된 객체에 대한 특정 서비스를 수행한다. 이처럼, 음성 인식 키워드를 사전에 설정하여 이용함으로써 음성 인식을 위한 많은 자원을 활용하지 않더라도 신속하게 영상 콘텐츠에 대한 연동형 서비스를 제공할 수 있다. 이로써, 사용자 측면에서는 음성 인터페이스를 사용함에 따라 UX가 개선되는 효과가 있다.

더욱이, 웨이크-업 워드를 함께 이용하여 웨이크-업 워드와 음성 인식 키워드 및 실행어를 포함하는 규칙 문구를 사용자에게 발화하도록 유도하는 경우에는 음성 인식 서버와 연동하지 않더라도 음성 인식 키워드에 대한 음성 인식을 신속히 처리하여 연동형 서비스를 제공할 수 있다.

본 발명에 첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 기록매체에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 기록매체에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.

또한, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 예를 들어, 도 1에 예시한 영상 콘텐츠 연동형 서비스 제공 장치(100)는 음성 명령을 발화하는 화자를 구분할 수 있는 화자 인식 모듈을 더 포함할 수 있고, 화자 인식 결과를 기초로 특정 서비스를 화자별로 차별화하여 수행할 수도 있다. 또, 도 1에 예시한 영상 콘텐츠 연동형 서비스 제공 장치(100)는 푸시 메시지를 전송할 수 있는 메시지 전송 모듈을 더 포함할 수 있고, 이 경우에 메시지 전송 모듈은 단계 S210에서 영상 콘텐츠의 영상 장면에 대한 메타데이터 중 일부 또는 전체를 기 설정된 사용자의 통신단말장치에게 푸시 메시지 형태로 전송할 수 있다.

따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

본 발명의 실시예에 따르면, 영상 콘텐츠의 재생 중 입력되는 음성을 변환한 텍스트에 기 설정된 음성 인식 키워드 및 실행어가 포함되어 있는 경우에 영상 콘텐츠의 영상 장면에 포함된 객체에 대한 특정 서비스를 수행한다. 이처럼, 음성 인식 키워드를 사전에 설정하여 이용함으로써 음성 인식을 위한 많은 자원을 활용하지 않더라도 신속하게 영상 콘텐츠에 대한 연동형 서비스를 제공할 수 있으며, 사용자 측면에서는 음성 인터페이스를 사용함에 따라 UX가 개선된다.

이러한 본 발명은 음성 인식 기능이 탑재된 AI(Artificial Intelligence) 스피커 등과 같이 음성 인식 기능을 가지는 각종 전자장치에 관련된 기술 분야에 널리 이용할 수 있다.

10: 영상 콘텐츠 재생 장치 11: 영상 재생기
12: 영상 분석기 13: 디스플레이
20: 통신망 30: 음성 인식 서버
40: 클라우드 서버 100: 영상 콘텐츠 연동형 서비스 제공 장치
110: 텍스트 획득부 120: 서비스 처리부
130: 음성-텍스트 변환부 140: 통신부

Claims

영상 콘텐츠의 재생 중 영상 장면에 대한 메타데이터에서 상기 영상 장면에 포함된 객체의 식별자를 추출하여 음성 인식 키워드로서 설정하는 단계와,
상기 영상 콘텐츠의 재생 중 입력되는 음성을 변환한 텍스트를 획득하는 단계와,
상기 음성 인식 키워드 및 기 설정된 특정 서비스에 대응하는 실행어가 상기 획득된 텍스트에 포함되어 있는지를 판단하는 단계와,
상기 획득된 텍스트에 상기 음성 인식 키워드 및 상기 실행어가 포함된 경우, 상기 객체에 대해 상기 특정 서비스를 실행하는 단계를 포함하는
영상 콘텐츠 연동형 서비스 제공 방법.
제 1 항에 있어서,
상기 영상 장면의 재생 전에 상기 영상 장면에 대한 메타데이터가 존재하는지를 검사하는 단계와,
상기 영상 장면에 대한 메타데이터가 존재하면 상기 영상 장면이 재생될 때에 기 설정된 표식을 상기 영상 장면에 포함시키는 단계를 더 포함하는
영상 콘텐츠 연동형 서비스 제공 방법.
영상 콘텐츠의 재생 중 입력되는 음성을 변환한 텍스트를 획득하는 텍스트 획득부와,
특정 서비스를 수행하는 서비스 처리부를 포함하고,
상기 서비스 처리부는, 상기 영상 콘텐츠의 재생 중 영상 장면에 대한 메타데이터에서 상기 영상 장면에 포함된 객체의 식별자를 추출하여 음성 인식 키워드로서 설정하며, 상기 음성 인식 키워드 및 기 설정된 특정 서비스에 대응하는 실행어가 상기 획득된 텍스트에 포함되어 있는지를 판단하고, 상기 획득된 텍스트에 상기 음성 인식 키워드 및 상기 실행어가 포함된 경우, 상기 객체에 대해 상기 특정 서비스를 실행하는
영상 콘텐츠 연동형 서비스 제공 장치.
제 3 항에 있어서,
상기 서비스 처리부는, 상기 영상 장면의 재생 전에 상기 영상 장면에 대한 메타데이터가 존재하는지를 검사하고, 상기 영상 장면에 대한 메타데이터가 존재하면 상기 영상 장면이 재생될 때에 기 설정된 표식을 상기 영상 장면에 포함시키는
영상 콘텐츠 연동형 서비스 제공 장치.