KR20240011779A - 조정 가능한 사용자 인터페이스(ui) 요소를 통한 수화 비디오의 디스플레이 - Google Patents

조정 가능한 사용자 인터페이스(ui) 요소를 통한 수화 비디오의 디스플레이 Download PDF

Info

Publication number
KR20240011779A
KR20240011779A KR1020237044249A KR20237044249A KR20240011779A KR 20240011779 A KR20240011779 A KR 20240011779A KR 1020237044249 A KR1020237044249 A KR 1020237044249A KR 20237044249 A KR20237044249 A KR 20237044249A KR 20240011779 A KR20240011779 A KR 20240011779A
Authority
KR
South Korea
Prior art keywords
video
electronic device
display device
location
display
Prior art date
Application number
KR1020237044249A
Other languages
English (en)
Inventor
브랜트 칸델로어
아담 골드버그
로버트 블랜차드
Original Assignee
소니그룹주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니그룹주식회사 filed Critical 소니그룹주식회사
Publication of KR20240011779A publication Critical patent/KR20240011779A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • H04N21/4316Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for displaying supplemental content in a region of the screen, e.g. an advertisement in a separate window
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234336Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by media transcoding, e.g. video is transformed into a slideshow of still pictures or audio is converted into text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/787Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/95Hardware or software architectures specially adapted for image or video understanding structured as a network, e.g. client-server architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4318Generation of visual interfaces for content selection or interaction; Content or additional data rendering by altering the content in the rendering process, e.g. blanking, blurring or masking an image region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47217End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Marketing (AREA)
  • Business, Economics & Management (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

조정 가능한 사용자 인터페이스(UI) 요소를 통해 수화 비디오를 디스플레이하기 위한 전자 디바이스 및 방법이 제공된다. 전자 디바이스는 비디오를 포함하는 제1 미디어 스트림을 수신한다. 전자 디바이스는 비디오 내의 수화자의 위치를 결정한다. 전자 디바이스는 비디오의 결정된 위치에 대응하는 비디오 부분을 추출한다. 전자 디바이스는 디스플레이 디바이스에서 비디오의 재생을 제어한다. 전자 디바이스는 디스플레이 디바이스에 UI 요소를 렌더링하고 추출된 비디오 부분을 UI 요소 내부에 디스플레이하기 위해 재생에 기초하여 디스플레이 디바이스를 제어한다.

Description

조정 가능한 사용자 인터페이스(UI) 요소를 통한 수화 비디오의 디스플레이
관련 출원에 대한 상호 참조
본 출원은 2021년 11월 4일자로 미국 특허청에 출원된 미국 특허 출원 제17/453553호의 우선권을 주장한다. 상기 참조된 출원들 각각은 이로써 그 전체가 본 명세서에 참조로서 포함된다.
기술 분야
본 개시내용의 다양한 실시예들은 수화 비디오(signing video)의 디스플레이에 관한 것이다. 보다 구체적으로는, 본 개시내용의 다양한 실시예들은 조정 가능한 UI 요소를 통해 수화 비디오를 디스플레이하기 위한 전자 디바이스 및 방법에 관한 것이다.
전통적으로, (텔레비전 또는 이동 전화와 같은) 디스플레이 디바이스는 비디오 파일 및 비디오 파일과 동기화된 오디오 파일을 포함하는 방송 미디어 콘텐츠 또는 스트리밍 미디어 콘텐츠를 수신한다. 비디오 파일 및 오디오 파일은 모두 시청을 위해 디스플레이 디바이스에 동시에 렌더링된다. 일부 경우들에서, 미디어 콘텐츠(예를 들어, 비디오)는 또한 청각 장애가 있는 시청자들에게 제공하기 위해 수어(예를 들어, 미국 수어(American sign language, ASL))를 사용하는 수화자 또는 통역사를 포함한다. 그러나, 수화자의 비디오 부분(수화 비디오)은 일반적으로 비디오의 하단 코너에 나타난다. 수화 비디오는 편안한 시청을 위해서는 너무 작거나, (메인 비디오에서의 중요한 통지와 같은) 메인 비디오의 영역들을 방해할 수 있다. 기존의 시스템들은 는 청각 장애가 있는 시청자들이 미디어 콘텐츠 및 수화 비디오를 편리하게 시청하도록 돕는 간단한 사용자 인터페이스 기술들을 제공하지 않는다.
종래의 그리고 전통적인 접근법들의 추가적인 제한들 및 단점들은, 본 출원의 나머지 부분 그리고 도면들을 참조하여 제시되는 바와 같이, 설명된 시스템들과 본 개시내용의 일부 양태들의 비교를 통해, 본 기술분야의 통상의 기술자에게 명백해질 것이다.
조정 가능한 UI 요소를 통해 수화 비디오를 디스플레이하기 위한 전자 디바이스 및 방법은 청구항들에서 더 완전히 기재된 바와 같이, 도면들 중 적어도 하나에 도시되고 및/또는 도면들과 관련하여 설명된 바와 같이 실질적으로 제공된다.
본 개시내용의 이들 및 다른 특징들 및 장점들은 유사한 참조 번호들이 전체에 걸쳐 유사한 부분들을 참조하는 첨부 도면들과 함께, 본 개시내용의 다음의 상세한 설명의 검토로부터 이해될 수 있다.
도 1은 본 개시내용의 실시예에 따라, 조정 가능한 사용자 인터페이스(UI) 요소를 통해 수화 비디오를 디스플레이하기 위한 예시적인 네트워크 환경을 도시하는 도면이다.
도 2는 본 개시내용의 실시예에 따라, 조정 가능한 사용자 인터페이스(UI) 요소를 통해 수화 비디오를 디스플레이하기 위한 예시적인 전자 디바이스의 블록도이다.
도 3은 본 개시내용의 실시예에 따라, 메타데이터에 기초하여 조정 가능한 사용자 인터페이스(UI) 요소를 통해 수화 비디오를 디스플레이하기 위한 예시적인 시나리오를 도시하는 도면이다.
도 4는 본 개시내용의 실시예에 따라, 라이브 비디오 방송을 위한 조정 가능한 사용자 인터페이스(UI) 요소를 통해 수화 비디오를 디스플레이하기 위한 예시적인 시나리오를 예시하는 다이어그램이다.
도 5는 본 개시내용의 실시예에 따라, 수화 비디오를 디스플레이하는 사용자 인터페이스(UI) 요소의 위치의 조정을 위한 예시적인 시나리오를 도시하는 도면이다.
도 6은 본 개시내용의 실시예에 따라, 수화 비디오를 디스플레이하는 사용자 인터페이스(UI) 요소의 크기의 조정을 위한 예시적인 시나리오를 도시하는 도면이다.
도 7은 본 개시내용의 실시예에 따라, 조정 가능한 사용자 인터페이스(UI) 요소를 통해 수화 비디오를 디스플레이하기 위한 예시적인 동작들을 예시하는 흐름도이다.
후술하는 구현예들은 조정 가능한 사용자 인터페이스(user interface, UI) 요소를 통한 수어 비디오(수화 비디오)의 디스플레이를 위한 개시된 전자 디바이스 및 방법에서 발견될 수 있다. 본 개시내용의 예시적인 양태들은 디스플레이 디바이스에 결합될 수 있는 전자 디바이스(예를 들어, 스마트 텔레비전 또는 모바일 디바이스)를 제공한다. 전자 디바이스는 비디오를 포함할 수 있는 미디어 스트림을 수신할 수 있다. 전자 디바이스는 비디오 내의 수화자의 위치를 결정할 수 있다. 수화자는 비디오에서 수화를 사용해 연기할 수 있는 애니메이션 캐릭터 또는 사람일 수 있다. 전자 디바이스는 비디오로부터, 비디오 내의 수화자의 결정된 위치에 대응하는 비디오 부분을 추가로 추출할 수 있다. 전자 디바이스는 디스플레이 디바이스에서 비디오의 재생을 제어할 수 있다. 재생에 기초하여, 전자 디바이스는 디스플레이 디바이스에서 사용자 인터페이스(UI) 요소를 렌더링하고 추출된 비디오 부분을 UI 요소 내부에 디스플레이하도록 디스플레이 디바이스를 제어할 수 있다. UI 요소는 조정 가능한 크기의 픽처-인-픽처(picture-in-picture, PiP) 윈도우로서 렌더링될 수 있다. 따라서, 전자 디바이스는 메인 비디오와 함께 수화자의 비디오를 편리하게 볼 수 있도록 조정 가능한 UI 요소를 제공할 수 있다.
일 실시예에서, 전자 디바이스는 비디오와 연관된 메타데이터를 수신할 수 있다. 메타데이터는 복수의 타임 스탬프에서 비디오 내의 수화자의 위치를 기술하는 정보를 포함할 수 있다. 전자 디바이스는 수신된 메타데이터에 기초하여 비디오 내의 수화자의 위치를 결정할 수 있다. 다른 실시예에서, 전자 디바이스는 영역의 배경과 비디오의 나머지 부분의 배경 사이의 차이에 기초하여 비디오에서 영역을 검출할 수 있다. 전자 디바이스는 영역의 검출에 기초하여 비디오에서 수화자의 위치를 검출할 수 있다. 다른 실시예에서, 전자 디바이스는 비디오에서 수화자 주위의 경계를 검출할 수 있다. 전자 디바이스는 경계의 검출에 기초하여 비디오 내의 수화자의 위치를 검출할 수 있다. 일부 실시예들에서, 전자 디바이스는 비디오의 하나 이상의 프레임(예를 들어, 라이브 비디오 방송)에 대한 신경망 모델의 적용에 기초하여 비디오 내의 수어와 연관된 수신호들을 검출하도록 구성될 수 있다. 전자 디바이스는 수신호의 검출에 기초하여 비디오 내의 수화자의 위치를 검출하도록 구성될 수 있다. 전자 디바이스는 또한 수화자의 비디오 부분을 추출하고, 수화자의 검출된 위치에 기초하여 디스플레이 디바이스에 UI 요소(예를 들어, PiP 윈도우)를 렌더링하도록 디스플레이 디바이스를 제어할 수 있다. 따라서, 전자 디바이스는 라이브 비디오 방송을 위한 수화자의 위치를 자동으로 검출하여 수화자의 PiP 윈도우를 생성할 수 있다.
실시예에서, 전자 디바이스는 사용자 선호에 따라 UI 요소(예를 들어, PiP 윈도우)를 맞춤화하는 능력을 제공할 수 있다. 전자 디바이스는, 사용자 선호에 기초하여 UI 요소의 크기, UI 요소의 위치, UI 요소에 대한 테마 또는 색상 배합, UI 요소 숨김 선호, 및 UI 요소를 렌더링하는 스케줄을 조정하도록 구성될 수 있다. 예를 들어, 전자 디바이스는 PiP 윈도우의 현재 위치를 현재 위치와 상이한 제1 위치로 변경하기 위한 제1 입력을 수신할 수 있다. 전자 디바이스는 제1 사용자 입력에 기초하여 제1 위치에서 PiP 윈도우를 렌더링하도록 디스플레이 디바이스를 제어할 수 있다. 또 다른 예에서, 전자 디바이스는 PiP 윈도우의 현재 크기를 현재 크기와 상이한 제1 크기로 변경하는 제2 입력을 수신할 수 있다. 전자 디바이스는 제2 입력에 기초하여 PiP 윈도우의 현재 크기를 제1 크기와 일치하게 변경하도록 디스플레이 디바이스를 제어할 수 있다. 따라서, 전자 디바이스는 PiP 윈도우에 기초하여 수화자의 비디오 부분의 크기 및 위치를 조정하는 간단하고 사용하기 쉬운 UI 기술을 제공할 수 있다. PiP 윈도우의 위치 및 크기의 조정에 기초하여, 전자 디바이스는 수화자의 비디오의 선명하고 확대된 화면을 제공할 수 있고, (메인 비디오의 중요한 공지와 같은) 메인 비디오를 방해받지 않고 볼 수 있도록 할 수 있다.
도 1은 본 개시내용의 실시예에 따라, 조정 가능한 사용자 인터페이스(UI) 요소를 통해 수화 비디오를 디스플레이하기 위한 예시적인 네트워크 환경을 도시하는 도면이다. 도 1을 참조하면, 네트워크 환경(100)의 도면이 도시되어 있다. 네트워크 환경(100)에서, 전자 디바이스(102), 디스플레이 디바이스(104), 및 서버(106)가 도시된다. 전자 디바이스(102)는 통신 네트워크(108)를 통해 서버(106)에 통신가능하게 결합될 수 있다. 전자 디바이스(102)는 디스플레이 디바이스(104)에 직접 또는 통신 네트워크(108)를 통해 통신 가능하게 결합될 수 있다. 도 1을 참조하면, 메인 비디오(104A) 및 수화자(110)의 비디오를 디스플레이하는 UI 요소(112)가 추가로 도시되어 있다.
도 1에서, 전자 디바이스(102) 및 디스플레이 디바이스(104)는 2개의 개별 디바이스로서 도시되지만, 일부 실시예들에서 디스플레이 디바이스(104)는 본 개시내용의 범위로부터 벗어나지 않은 채 전자 디바이스(102)와 통합될 수 있다.
전자 디바이스(102)는 디스플레이 디바이스(104)에 사용자 인터페이스(UI) 요소(112)를 렌더링하도록 구성될 수 있는 적절한 로직, 회로 및 인터페이스들을 포함할 수 있다. 전자 디바이스(102)는 비디오를 포함하는 제1 미디어 스트림을 수신할 수 있다. 전자 디바이스(102)는 비디오와 연관된 메타데이터를 추가로 수신할 수 있다. 전자 디바이스(102)는 비디오 내의 수화자(110)의 위치와 연관된 비디오 부분을 추가로 추출할 수 있다. 전자 디바이스(102)는 추출된 비디오 부분을 UI 요소(112) 내부에 디스플레이하도록 디스플레이 디바이스(104)를 제어할 수 있다. 전자 디바이스(102)는 (비디오와 같은) 미디어 콘텐츠의 수신 및/또는 재생을 가능하게 할 수 있는 적절한 미들웨어 및 코덱들을 포함할 수 있다. 일 실시예에서, 전자 디바이스(102)는 복수의 사용자 프로파일들과 연관될 수 있다. 복수의 사용자 프로파일들의 각각의 사용자 프로파일은 콘텐츠 항목들, 설정들 또는 메뉴 옵션들, 사용자 선호 등의 컬렉션을 포함할 수 있다. 전자 디바이스(102)는 리모컨 또는 터치 스크린 인터페이스로부터의 사용자 입력에 기초하여 그래픽 사용자 인터페이스 상에서 복수의 사용자 프로파일들 중에서 사용자 프로파일의 선택 및/또는 전환을 허용할 수 있다. 전자 디바이스(102)는 리모컨에서 눌려지는 버튼에 대응하는 리모컨으로부터 송신되는 제어 신호들을 수신하기 위한 적외선 수신기 또는 블루투스® 인터페이스를 포함할 수 있다. 전자 디바이스(102)의 예들은 스마트 텔레비전(TV), 인터넷-프로토콜 TV(IPTV), 디지털 미디어 플레이어, 마이크로-콘솔, 셋톱 박스, 오버-더-톱(Over-the-Top, OTT) 플레이어, 스트리밍 플레이어, 미디어 확장기/레귤레이터, 디지털 미디어 허브, 스마트폰, 개인용 컴퓨터, 랩톱, 태블릿, 웨어러블 전자 디바이스, 헤드-장착형 디바이스, 또는 케이블 또는 위성 네트워크를 통한 방송 신호, 스트리밍 콘텐츠 공중파 방송, 인터넷 기반 통신 신호로부터의 콘텐츠 등을 수신, 디코딩 및 재생하는 기능을 갖는 임의의 다른 디스플레이 디바이스를 포함할 수 있으나, 이에 제한되지 않는다. 콘텐츠의 예들은 이미지들, 애니메이션들(예를 들어, 2D/3D 애니메이션들 또는 모션 그래픽들), 오디오/비디오 데이터, (전통적인 방송, 케이블, 위성, 인터넷, 또는 다른 수단을 통해 제공되는) 종래의 텔레비전 프로그램, 유료 프로그램들, (주문형 비디오(video-on-demand, VOD) 시스템들에서와 같은) 주문형 프로그램들, 또는 인터넷 콘텐츠(예를 들어, 스트리밍 미디어, 다운로드 가능한 미디어, 웹캐스트들 등)를 포함할 수 있지만, 이에 제한되지 않는다.
일 실시예에서, 전자 디바이스(102)는 수신된 제1 미디어 스트림에 기초하여 UI 요소(112)(예를 들어, 픽처-인-픽처(picture-in-picture, PiP) 윈도우)를 생성하도록 구성될 수 있다. PiP 윈도우는 사용자 입력에 기초하여 크기 및 위치를 조정가능할 수 있다. PiP 윈도우는 메인 비디오에서 수어를 수행하는 수화자(110)를 포함하는 메인 비디오(104A)의 부분을 디스플레이할 수 있다. UI 요소(112)(예를 들어, PiP 윈도우)의 생성 기능은 전자 디바이스(102)의 제조자에 의해 전자 디바이스(102)와 통합될 수 있거나, 서버(106) 또는 애플리케이션 스토어/마켓플레이스로부터 애드-온 애플리케이션으로서 다운로드 가능할 수 있다.
디스플레이 디바이스(104)는 수화자의 추출된 비디오 부분을 디스플레이하는 UI 요소(112)를 렌더링하도록 구성될 수 있는 적절한 로직, 회로 및 인터페이스들을 포함할 수 있다. 디스플레이 디바이스(104)는 전자 디바이스(102)에 의해 재생되고 있는 메인 비디오(104A)를 디스플레이하도록 추가로 구성될 수 있다. 일 실시예에서, 디스플레이 디바이스(104)는 전자 디바이스(102)에 접속된 외부 디스플레이 디바이스일 수 있다. 예를 들어, 디스플레이 디바이스(104)는 유선 접속(예컨대, 고화질 멀티미디어 인터페이스(high-definition multimedia interface, HDMI) 접속) 또는 무선 접속(예컨대, Wi-Fi)에 의해 전자 디바이스(102)(예컨대, 디지털 미디어 플레이어 또는 개인용 비디오 레코더)에 접속될 수 있다. 다른 실시예에서, 디스플레이 디바이스(104)는 (스마트 텔레비전과 같은) 전자 디바이스(102)와 통합될 수 있다. (오디오 스피커가 통합된 디스플레이 스크린과 같은) 디스플레이 디바이스(104)는 밝기, 대비, 종횡비, 채도, 오디오 볼륨 등과 같은 하나 이상의 제어 가능한 파라미터를 포함할 수 있다. 전자 디바이스(102)는 (HDMI 접속과 같은) 유선 접속을 통해 하나 이상의 신호를 송신함으로써 디스플레이 디바이스(104)의 파라미터들을 제어하도록 구성될 수 있다. 일 실시예에서, 디스플레이 디바이스(104)는 터치 입력을 통해 사용자 입력을 수신할 수 있는 터치 스크린일 수 있다. 디스플레이 디바이스(104)는 LCD(Liquid Crystal Display) 디스플레이, LED(Light Emitting Diode) 디스플레이, 플라즈마 디스플레이, 또는 OLED(Organic LED) 디스플레이 기술, 또는 다른 디스플레이 디바이스들 중 적어도 하나와 같은 몇가지 공지된 기술들을 통해 실현될 수 있지만, 이에 제한되지 않는다. 적어도 하나의 실시예에서, 디스플레이 디바이스(104)는 스마트 TV의 디스플레이 유닛, 헤드 장착 디바이스(head mounted device, HMD), 스마트 글래스 디바이스, 시스루 디스플레이, 헤드 업 디스플레이(heads-up-display, HUD), 차량내 인포테인먼트 시스템, 프로젝션 기반 디스플레이, 전기 변색(electro-chromic) 디스플레이, 또는 투명 디스플레이일 수 있다.
서버(106)는 하나 이상의 미디어 스트림들을 저장하도록 구성될 수 있는 적합한 로직, 회로, 및 인터페이스들, 및/또는 코드를 포함할 수 있다. 서버(106)는 하나 이상의 비디오에서 수화자의 위치를 결정하기 위한 메타데이터를 저장하도록 추가로 구성될 수 있다. 일부 실시예들에서, 서버(106)는 비디오에서의 수어와 연관된 수신호들의 검출을 위한 신경망 모델을 훈련하도록 구성될 수 있다. 일부 실시예들에서, 서버는 신경망 모델 및 신경망 모델을 훈련시키기 위한 훈련 데이터세트를 저장하도록 구성될 수 있다. 서버(106)는 전자 디바이스(102)와 연관된 사용자 프로파일들, 각각의 사용자 프로파일에 대한 UI 요소(112)와 연관된 선호, 각각의 사용자 프로파일에 대한 UI 요소(112)의 사용 이력 등을 저장하도록 추가로 구성될 수 있다. 서버(106)는 클라우드 서버로서 구현될 수 있고, 웹 애플리케이션들, 클라우드 애플리케이션들, HTTP 요청들, 리포지토리 동작들, 파일 전송 및 그와 유사한 것을 통해 동작들을 실행할 수 있다. 서버(106)의 다른 예시적인 구현들은 데이터베이스 서버, 파일 서버, 웹 서버, 미디어 서버, 애플리케이션 서버, 메인프레임 서버, 또는 클라우드 컴퓨팅 서버를 포함할 수 있지만, 이에 제한되지 않는다. 적어도 하나의 실시예에서, 서버(106)는 본 기술 분야의 통상의 기술자들에게 널리 공지된 여러 기술들을 사용하여 복수의 분산된 클라우드 기반 자원으로서 구현될 수 있다. 이 분야의 통상의 기술자는 본 개시내용의 범위가 서버(106) 및 전자 디바이스(102)를 2개의 개별 엔티티로 구현하는 것으로 제한되지 않을 수 있음을 이해할 것이다. 특정 실시예들에서, 서버(106)의 기능들은 본 개시내용의 범위로부터 벗어나지 않고, 전자 디바이스(102) 내에 전체적으로 또는 적어도 부분적으로 통합될 수 있다.
통신 네트워크(108)는 통신 매체를 포함할 수 있고, 그를 통해 전자 디바이스(102), 디스플레이 디바이스(104), 및 서버(106)가 서로 통신할 수 있다. 통신 네트워크(108)는 유선 접속 또는 무선 접속 중 하나일 수 있고, 통신 네트워크(108)의 예는 인터넷, 클라우드 네트워크, 셀룰러 또는 무선 모바일 네트워크(예컨대, 롱-텀 에볼루션 및 5G 뉴 라디오), Wi-Fi(Wireless Fidelity) 네트워크, 개인 영역 네트워크(Personal Area Network, PAN), 로컬 영역 네트워크(Local Area Network, LAN), 또는 도시 지역 통신 네트워크(Metropolitan Area Network, MAN)을 포함할 수 있지만, 이에 제한되지 않는다. 네트워크 환경(100) 내의 다양한 디바이스들은 다양한 유선 및 무선 통신 프로토콜들에 따라 통신 네트워크(108)에 접속하도록 구성될 수 있다. 이러한 유선 및 무선 통신 프로토콜들의 예들은 전송 제어 프로토콜 및 인터넷 프로토콜(Transmission Control Protocol and Internet Protocol, TCP/IP), 사용자 데이터그램 프로토콜(User Datagram Protocol, UDP), 하이퍼텍스트 전송 프로토콜(Hypertext Transfer Protocol, HTTP), 파일 전송 프로토콜(File Transfer Protocol, FTP), 지그비, EDGE, IEEE 802.11, 광 충실도(light fidelity, Li-Fi), 802.16, IEEE 802.11s, IEEE 802.11g, 멀티-홉 통신, 무선 액세스 포인트(access point, AP), 디바이스 대 디바이스 통신, 셀룰러 통신 프로토콜들, 및 블루투스(BT) 통신 프로토콜들 중 적어도 하나를 포함할 수 있지만, 이에 제한되지 않는다.
동작 시, 전자 디바이스(102)는 비디오를 포함할 수 있는 제1 미디어 스트림을 수신할 수 있다. 제1 미디어 스트림은 비디오의 송신을 위해 표준 디지털 컨테이너 포맷으로 인코딩될 수 있다. 일 실시예에서, 전자 디바이스(102)는 서버(106)로부터 제1 미디어 스트림을 수신할 수 있다. 일 실시예에서, 전자 디바이스(102)는 비디오와 연관된 메타데이터를 수신하도록 추가로 구성될 수 있다. 메타데이터는 복수의 타임 스탬프에서 비디오 내의 수화자(110)의 위치를 설명하는 정보를 포함할 수 있다. 수화자(110)는 비디오에서 수화를 사용하여 연기할 수 있는 애니메이션 캐릭터 또는 사람일 수 있다. 예를 들어, 수화자(110)는 비디오 내의 구어를 해석하고 구어를 수화로 변환할 수 있는 사람일 수 있다.
일 실시예에서, 전자 디바이스(102)는 메타데이터의 수신에 기초하여, 비디오 내의 수화자(110)의 위치를 결정하도록 추가로 구성될 수 있다. 결정된 위치는 수화자(110)를 포함하는 비디오의 직사각형 영역의 코너들의 이미지 좌표들을 포함할 수 있다. 다른 실시예에서, 전자 디바이스(102)는 비디오 내의 수화자(110)의 위치를 결정하기 위해 비디오에 대해 신경망 모델(도 2에 도시됨)을 적용하도록 구성될 수 있다. 다른 실시예에서, 전자 디바이스(102)는 메인 비디오(104A)와 수화자(110) 주위의 영역의 배경의 차이에 기초한, 또는 비디오에서 수화자(110) 주위의 경계의 검출에 기초한 이미지 분석에 의해 비디오에서 수화자(110)의 위치를 결정할 수 있다. 신경망 모델의 적용 및 이미지 분석의 자세한 내용은, 예를 들어, 도 2 및 도 3b에 제공된다. 일 실시예에서, 전자 디바이스(102)는 디스플레이된 비디오에서 수화자(110) 주위에 강조된 경계를 렌더링하도록 디스플레이 디바이스(104)를 제어하도록 추가로 구성될 수 있다. 경계는 결정된 위치에 기초하여 렌더링될 수 있다. 일 예로서, 전자 디바이스(102)가 비디오로부터 수화자(110)의 비디오 부분에 대한 다수의 후보를 식별하는 경우, 전자 디바이스(102)는 비디오 내의 수화자의 비디오 부분의 사용자 확인을 얻기 위해 경계를 디스플레이할 수 있다.
전자 디바이스(102)는 비디오 내의 수화자(110)의 결정된 위치에 대응하는 비디오 부분을 추출하도록 추가로 구성될 수 있다. 비디오 부분은 비디오의 직사각형 영역으로부터 추출될 수 있다. 일 실시예에서, 전자 디바이스(102)는 추출된 비디오 부분을 포함하는 제2 미디어 스트림을 수신할 수 있다. 제2 미디어 스트림은 제1 미디어 스트림과 다를 수 있다. 전자 디바이스(102)는 디스플레이 디바이스(104)에서 비디오(예를 들어, 메인 비디오(104A))의 재생을 제어하도록 추가로 구성될 수 있다. 전자 디바이스(102)는 디스플레이 디바이스(104)에 UI 요소(112)를 렌더링하고 추출된 비디오 부분을 UI 요소(112) 내부에 디스플레이하도록 디스플레이 디바이스(104)를 제어하도록 추가로 구성될 수 있다. UI 요소(112)는 조정 가능한 크기 및 위치의 픽처-인-픽처(PiP) 윈도우로서 렌더링될 수 있다.
일 실시예에서, 전자 디바이스(102)는 사용자 선호에 따라 UI 요소(112)(PiP 윈도우)를 맞춤화하도록 구성될 수 있다. 예를 들어, 전자 디바이스(102)는, 사용자 선호에 기초하여, UI 요소(112)의 크기, UI 요소(112)의 위치, UI 요소(112)에 대한 테마 또는 색상 배합, UI 요소(112)의 숨김 선호, 및 UI 요소(112)를 렌더링하는 스케줄을 조정하도록 구성될 수 있다. 예를 들어, 전자 디바이스(102)는 PiP 윈도우의 현재 위치를 현재 위치와 다른 제1 위치로 변경하기 위한 제1 입력을 수신할 수 있다. 전자 디바이스(102)는 제1 사용자 입력에 기초하여, 제1 위치에서 PiP 윈도우를 렌더링하도록 디스플레이 디바이스(104)를 제어할 수 있다. 또 다른 예에서, 전자 디바이스(102)는 PiP 윈도우의 현재 크기를 현재 크기와 상이한 제1 크기로 변경하는 제2 입력을 수신할 수 있다. 전자 디바이스(102)는 제2 입력에 기초하여, 제1 크기와 일치하도록 PiP 윈도우의 현재 크기를 변경하도록 디스플레이 디바이스를 제어할 수 있다. 전자 디바이스(102)는 그에 의해 (PiP 윈도우와 같은) UI 요소(112)에 기초하여 수화자의 비디오 부분의 크기 및 위치를 조정하기 위해 간단하고 사용하기 쉬운 UI 기술을 제공할 수 있다. UI 요소(112)의 위치 및 크기의 조정에 기초하여, 전자 디바이스(102)는 수화자의 비디오의 선명하고 확대된 화면을 제공할 수 있고, (메인 비디오(104A)에서의 중요한 공지와 같은) 메인 비디오(104A)를 방해받지 않고 볼 수 있게 할 수 있다.
수정들, 추가들, 또는 생략들이 본 개시내용의 범위로부터 벗어나지 않고 도 1에 대해 이루어질 수 있다. 예를 들어, 네트워크 환경(100)은 본 개시내용에 예시되고 설명된 것들보다 더 많거나 더 적은 요소들을 포함할 수 있다.
도 2는 본 개시내용의 실시예에 따른, 조정 가능한 사용자 인터페이스(UI) 요소를 통해 수화 비디오를 디스플레이하기 위한 예시적인 전자 디바이스의 블록도이다. 도 2는 도 1의 요소들과 함께 설명된다. 도 2를 참조하면, 전자 디바이스(102)의 블록도(200)가 도시되어 있다. 전자 디바이스(102)는 회로(202), 메모리(204), 입력/출력(I/O) 디바이스(206), 네트워크 인터페이스(208), 및 신경망 모델(210)을 포함할 수 있다. 적어도 하나의 실시예에서, 전자 디바이스(102)는 또한 디스플레이 디바이스(104)를 포함할 수 있다. 회로(202)는 메모리(204), I/O 디바이스(206), 네트워크 인터페이스(208), 신경망 모델(210) 및 디스플레이 디바이스(104)에 통신 가능하게 결합될 수 있다.
회로(202)는 전자 디바이스(102)에 의해 실행될 상이한 동작들과 연관된 프로그램 명령어들을 실행하도록 구성될 수 있는 적합한 로직, 회로, 및 인터페이스들을 포함할 수 있다. 상이한 동작들은 비디오 내의 수화자의 위치의 결정, 비디오 내의 수화자의 결정된 위치에 대응하는 비디오 부분의 추출, 및 디스플레이 디바이스(104)에 UI 요소(112)를 렌더링하고 추출된 비디오 부분을 UI 요소(112) 내부에 디스플레이하도록 하는 디스플레이 디바이스(104)의 제어를 포함한다. 회로(202)는 하나 이상의 처리 유닛을 포함할 수 있고, 하나 이상의 처리 유닛은 하나 이상의 처리 유닛의 기능들을 집합적으로 수행하는 통합 프로세서 또는 프로세서들의 클러스터로서 구현될 수 있다. 회로(202)는 이 분야에 공지된 다수의 프로세서 기술에 기초하여 구현될 수 있다. 회로(202)의 구현들의 예들은 x86 기반 프로세서, 그래픽 처리 디바이스(Graphics Processing Unit, GPU), 축소 명령어 세트 컴퓨팅(Reduced Instruction Set Computing, RISC) 프로세서, 주문형 집적 회로(Application-Specific Integrated Circuit, ASIC) 프로세서, 복잡 명령어 세트 컴퓨팅(Complex Instruction Set Computing, CISC) 프로세서, 마이크로컨트롤러, 중앙 처리 디바이스(central processing unit, CPU), 및/또는 다른 컴퓨팅 회로들일 수 있다.
메모리(204)는 회로(202)에 의해 실행될 프로그램 명령어들을 저장하도록 구성될 수 있는 적절한 로직, 회로 및 인터페이스들을 포함할 수 있다. 실시예에서, 메모리(204)는 수신된 제1 미디어 스트림, 제2 미디어 스트림, 수신된 메타데이터, 수화자(110)의 결정된 위치, 및 추출된 비디오 부분을 저장할 수 있다. 메모리(204)는 전자 디바이스(102)와 연관된 하나 이상의 사용자 프로파일들, 각각의 사용자 프로파일에 대한 UI 요소(112)와 연관된 선호, 각각의 사용자 프로파일에 대한 UI 요소(112)의 사용 이력, 각각의 사용자 프로파일의 수어 선호(예를 들어, 미국 수어 또는 영국 수어) 등을 저장하도록 추가로 구성될 수 있다. 일부 실시예들에서, 메모리(204)는 UI 요소(112)의 하나 이상의 미리 설정된 위치 및 하나 이상의 미리 설정된 크기를 추가로 저장할 수 있다. 메모리(204)는 모든 사용자에 대한 디폴트들로서 UI 요소(112)의 하나 이상의 미리 설정된 위치 및 하나 이상의 미리 설정된 크기를 저장할 수 있거나, 각각의 사용자 프로파일에 대한 UI 요소(112)의 하나 이상의 미리 설정된 위치 및 하나 이상의 미리 설정된 크기를 저장할 수 있다. 메모리(204)는 또한, 이미지 분석을 위한 미리 정의된 템플릿들, 신경망 모델(210), 및 서버(106)로부터 수신된 훈련 데이터세트를 저장하도록 구성될 수 있다. 메모리(204)의 구현의 예들은 랜덤 액세스 메모리(Random Access Memory, RAM), 판독 전용 메모리(Read Only Memory, ROM), 전기적으로 소거가능한 프로그램가능 판독 전용 메모리(Electrically Erasable Programmable Read-Only Memory, EEPROM), 하드 디스크 드라이브(Hard Disk Drive, HDD), 솔리드-스테이트 드라이브(Solid-State Drive, SSD), CPU 캐시, 및/또는 보안 디지털(Secure Digital, SD) 카드를 포함할 수 있지만, 이에 제한되지 않는다.
I/O 디바이스(206)는 하나 이상의 입력(들)을 수신하고, 수신된 하나 이상의 입력(들)에 기초하여 하나 이상의 출력(들)을 제공하도록 구성될 수 있는 적절한 로직, 회로 및 인터페이스들을 포함할 수 있다. 다양한 입력 및 출력 디바이스들을 포함하는 I/O 디바이스(206)는 회로(202)와 통신하도록 구성될 수 있다. 일 예에서, 전자 디바이스(102)는, I/O 디바이스(206)를 통해, 디스플레이 디바이스(104)에 렌더링된 UI 요소(112)의 현재 위치의 변화를 나타내는 사용자 입력을 수신할 수 있다. 다른 예에서, 전자 디바이스(102)는, I/O 디바이스(206)를 통해, 디스플레이 디바이스(104)에 렌더링된 UI 요소(112)의 현재 크기의 변화를 나타내는 사용자 입력을 수신할 수 있다. I/O 디바이스(206)의 예는 원격 콘솔, 터치 스크린, 키보드, 마우스, 조이스틱, 마이크, 디스플레이 디바이스(예를 들어, 디스플레이 디바이스(104)), 및 스피커를 포함할 수 있지만, 이에 제한되지 않는다.
네트워크 인터페이스(208)는 통신 네트워크(108)를 통해 회로(202)와 서버(106) 또는 디스플레이 디바이스(104) 사이의 통신을 용이하게 하도록 구성될 수 있는 적절한 로직, 회로 및 인터페이스들을 포함할 수 있다. 네트워크 인터페이스(208)는 전자 디바이스(102)와 통신 네트워크(108)의 유선 또는 무선 통신을 지원하기 위해 다양한 공지된 기술들을 이용하여 구현될 수 있다. 네트워크 인터페이스(208)는, 안테나, 무선 주파수(radio frequency, RF) 트랜시버, Bluetooth® 수신기, 적외선 수신기, 하나 이상의 증폭기, 튜너, 하나 이상의 발진기, 디지털 신호 프로세서, 코더-디코더(coder-decoder, CODEC) 칩셋, 가입자 식별 모듈(subscriber identity module, SIM) 카드, 또는 로컬 버퍼 회로를 포함할 수 있지만, 이에 제한되지 않는다. 네트워크 인터페이스(208)는 인터넷, 인트라넷, 또는 무선 네트워크, 예컨대 셀룰러 전화 네트워크, 무선 근거리 네트워크(local area network, LAN) 및 도시 영역 네트워크(metropolitan area network, MAN)와 같은 네트워크들과 무선 통신을 통해 통신하도록 구성될 수 있다. 무선 통신은 글로벌 이동 통신 시스템(Global System for Mobile Communications, GSM), 향상된 데이터 GSM 환경(Enhanced Data GSM Environment, EDGE), 광대역 코드 분할 다중 액세스(wideband code division multiple access, W-CDMA), 롱텀에볼루션(Long Term Evolution, LTE), 코드 분할 다중 액세스(code division multiple access, CDMA), 시분할 다중 액세스(time division multiple access, TDMA), 블루투스, 무선 충실도(Wireless Fidelity, Wi-Fi)(예를 들어, IEEE 802. 11a, IEEE 802.11b, IEEE 802.11g 또는 IEEE 802.11n), 인터넷 프로토콜을 통한 음성(voice over Internet Protocol, VoIP), 광 충실도(light fidelity, Li-Fi), 마이크로파 액세스를 위한 전세계 상호 운용성(Worldwide Interoperability for Microwave Access, Wi-MAX), 이메일 프로토콜, 인스턴트 메시징 및 단문 메시지 서비스(Short Message Service, SMS)와 같은 복수의 통신 표준, 프로토콜 및 기술 중 하나 이상을 사용할 수 있다.
신경망 모델(210)은 노드들로서, 복수의 계층으로 배열된 인공 뉴런들의 시스템 또는 계산 네트워크일 수 있다. 신경망 모델의 복수의 계층은 입력 계층, 하나 이상의 은닉 계층, 및 출력 계층을 포함할 수 있다. 복수의 계층들의 각각의 계층은 하나 이상의 노드(또는, 예를 들어, 원들로 표현되는 인공 뉴런들)을 포함할 수 있다. 입력 계층 내의 모든 노드들의 출력들은 은닉 계층(들)의 적어도 하나의 노드에 결합될 수 있다. 유사하게, 각각의 은닉 계층의 입력들은 신경망 모델의 다른 계층들 내의 적어도 하나의 노드의 출력들에 결합될 수 있다. 각각의 은닉 계층의 출력들은 신경망 모델의 다른 계층들 내의 적어도 하나의 노드의 입력들에 결합될 수 있다. 최종 계층의 노드(들)는 적어도 하나의 은닉 계층으로부터 입력들을 수신하여 결과를 출력할 수 있다. 계층들의 수 및 각각의 계층 내의 노드들의 수는 신경망 모델의 하이퍼-파라미터들로부터 결정될 수 있다. 그러한 하이퍼-파라미터들은 훈련 데이터세트에 대해 신경망 모델(210)을 훈련하기 전에, 훈련하는 동안, 또는 훈련한 후에 설정될 수 있다.
신경망 모델(210)의 각각의 노드는, 네트워크의 훈련 동안 튜닝가능한 파라미터들의 세트를 갖는 수학 함수(예를 들어, 시그모이드 함수 또는 정류된 선형 유닛)에 대응할 수 있다. 파라미터들의 세트는, 예를 들어, 가중치 파라미터, 정규화 파라미터 및 그와 유사한 것을 포함할 수 있다. 각각의 노드는 신경망 모델(210)의 다른 계층(들)(예를 들어, 이전 계층(들))의 노드들로부터의 하나 이상의 입력에 기초하여 출력을 계산하기 위해 수학 함수를 이용할 수 있다. 신경망 모델(210)의 노드들 전부 또는 일부는 동일하거나 상이한 수학 함수에 대응할 수 있다.
일 실시예에 따르면, 회로(202)는 비디오와 관련된 하나 이상의 특징, 비디오 내의 수화자(110)의 배경과 관련된 하나 이상의 특징, 비디오 내의 수화자(110)의 손 움직임과 관련된 하나 이상의 특징 등에 대해 신경망 모델(210)을 훈련시켜, 훈련된 신경망 모델(210)을 획득할 수 있다. 신경망 모델(210)은 비디오 내의 수어와 연관된 수신호들을 검출하고, 수신호들의 검출에 기초하여 비디오 내의 수화자(110)의 위치를 검출하도록 훈련될 수 있다. 다른 실시예에서, 신경망 모델(210)은 비디오 내의 수화자(110)의 배경을 비디오의 다른 부분들과 구별하고, 배경에 기초하여 비디오 내의 수화자(110)의 위치를 검출하도록 훈련될 수 있다. 예를 들어, 회로(202)는, 비디오, 수어(예를 들어, 미국 수어 또는 영국 수어)의 미리 결정된 수신호 등을 입력하여 신경망 모델(210)을 훈련시킬 수 있다.
신경망 모델(210)의 훈련에서, 신경망 모델의 각각의 노드의 하나 이상의 파라미터는, (훈련 데이터세트로부터의) 주어진 입력에 대한 최종 계층의 출력이 신경망 모델에 대한 손실 함수에 기초한 올바른 결과와 일치하는지에 기초하여 업데이트될 수 있다. 상기 프로세스는 손실 함수의 최소값이 달성될 수 있고, 훈련 에러가 최소화될 수 있을 때까지 동일하거나 상이한 입력에 대해 반복될 수 있다. 훈련을 위한 몇몇 방법들, 예를 들어, 기울기 하강(gradient descent), 확률적 기울기 하강(stochastic gradient descent), 배치 기울기 하강(batch gradient descent), 기울기 부스트(gradient boost), 메타-휴리스틱스(meta-heuristics) 및 그와 유사한 것이 본 기술분야에 알려져 있다.
신경망 모델(210)은, 예를 들어, 전자 디바이스(102) 상에서 실행가능한 애플리케이션의 소프트웨어 컴포넌트로서 구현될 수 있는 전자 데이터를 포함할 수 있다. 신경망 모델(210)은, 라이브러리, 외부 스크립트, 또는 회로(202) 와 같은 처리 디바이스에 의한 실행을 위한 기타의 로직/명령어에 의존할 수 있다. 신경망 모델(210)은 회로(202)와 같은 컴퓨팅 디바이스가 비디오 내의 수어와 연관된 수신호들의 검출을 위한 하나 이상의 동작을 수행할 수 있게 하도록 구성된 코드 및 루틴들을 포함할 수 있다. 추가적으로 또는 대안적으로, 신경망 모델(210)은, 프로세서, (예를 들어, 하나 이상의 동작을 수행하거나 그 수행을 제어하는) 마이크로프로세서, 필드-프로그래머블 게이트 어레이(field-programmable gate array, FPGA), 또는 주문형 집적 회로(an application-specific integrated circuit, ASIC)를 포함한 하드웨어를 이용하여 구현될 수 있다. 대안적으로, 일부 실시예에서, 신경망 모델(210)은 하드웨어 및 소프트웨어의 조합을 이용하여 구현될 수 있다.
신경망 모델(210)의 예들은 심층 신경망(deep neural network, DNN), 컨볼루션 신경망(convolutional neural network, CNN), R-CNN, 고속 R-CNN(Fast R-CNN), 초고속 R-CNN(Faster R-CNN), 인공 신경망(artificial neural network, ANN), (You Only Look Once) YOLO 네트워크, CNN+ANN, 완전 연결 신경망, 심층 베이지안 신경망(deep Bayesian neural network), 및/또는 이러한 네트워크들의 조합을 포함할 수 있지만, 이에 제한되지 않는다. 소정 실시예들에서, 신경망 모델(210)은 복수의 심층 신경망(Deep Neural Network, DNN)의 하이브리드 아키텍쳐에 기초할 수 있다.
이미지 분석 프로세서(212)는 객체 검출, 객체 인식, 이미지 분할, 모션 검출, 포즈 추정, 에지 검출, 템플릿 매칭 등과 같은 하나 이상의 이미지 분석 기술들을 수행하도록 구성될 수 있는 적절한 하드웨어 및 소프트웨어 알고리즘들을 포함할 수 있다. 예를 들어, 이미지 분석 프로세서(212)는 비디오 내의 수화자(110)의 부분의 형상 및 크기와 연관된 미리 정의된 특징들 또는 템플릿들에 기초하여 템플릿 매칭을 수행할 수 있다. 다른 예에서, 이미지 분석 프로세서(212)는 수화자(110) 주위의 가시적 경계를 검출하기 위해 에지 검출을 수행할 수 있다. 또 다른 예에서, 이미지 분석 프로세서(212)는 수화자(110) 뒤의 움직이지 않는(정적인) 영역을 메인 비디오(104A)의 움직이는(동적인) 배경과 구별하기 위해 모션 검출을 수행할 수 있다.
도 1에 설명된 바와 같이, 전자 디바이스(102)에 의해 실행되는 기능들 또는 동작들은 회로(202)에 의해 수행될 수 있다. 회로(202)에 의해 실행되는 동작들은 예를 들어 도 3, 도 4, 도 5, 도 6 및 도 7에서 상세히 설명된다.
도 3은 본 개시내용의 실시예에 따라, 메타데이터에 기초하여 조정 가능한 사용자 인터페이스(UI) 요소를 통해 수화 비디오를 디스플레이하기 위한 예시적인 시나리오를 도시하는 도면이다. 도 3은 도 1 및 도 2의 요소들과 함께 설명된다. 도 3을 참조하면, 예시적인 시나리오(300)가 도시되어 있다. 예시적인 시나리오(300)에서, 수신된 데이터(302)의 블록이 도시된다. 수신된 데이터(302)는 비디오의 하나 이상의 프레임들을 포함할 수 있는 제1 미디어 스트림(304), 및 비디오와 연관된 메타데이터(306)를 포함할 수 있다. 비디오는 수화자(308)를 포함할 수 있다. 하나 이상의 프레임은 제1 프레임(304A), 제2 프레임(304B), 최대 N번째 프레임(304N)까지를 포함할 수 있다. 도 3을 참조하면, 전자 디바이스(102)와 연관된 디스플레이 디바이스(104)가 또한 도시되어 있다. 디스플레이 디바이스(104)는 비디오(예를 들어, 메인 비디오(310))의 하나 이상의 프레임을 디스플레이하도록 구성될 수 있다.
제1 미디어 스트림(304)은 디스플레이 디바이스(104)에 렌더링될 수 있는 비디오의 하나 이상의 프레임들을 포함할 수 있다. 예를 들어, 메인 비디오(310)는 제1 미디어 스트림(304) 내에 캡슐화될 수 있다. 일 실시예에서, 회로(202)는 서버(106)로부터 제1 미디어 스트림(304)을 수신할 수 있다. 다른 실시예에서, 회로(202)는 방송 네트워크와 연관된 서버로부터의 제1 미디어 스트림(304)일 수 있다. 그러한 시나리오에서, 제1 미디어 스트림(304)은 방송 채널과 연관된 전자 프로그램 가이드(electronic program guide, EPG)와 같은 텍스트 정보를 포함할 수 있다.
메타데이터(306)는 비디오와 연관된 정보를 포함할 수 있고, 비디오의 아날로그 신호 또는 디지털 신호에 내장될 수 있다. 일 예로서, 메타데이터(306)는 비디오의 지속시간, 비디오의 제목, 비디오의 해상도, 비디오와 연관된 코덱 및/또는 컨테이너의 유형, 비디오(예를 들어, 메인 비디오(310)) 내의 하나 이상의 캐릭터(312) 또는 사람의 정보 및 그와 유사한 것과 연관된 정보를 포함할 수 있다. 일 실시예에서, 메타데이터(306)는 비디오에 존재하는 수화자(308)와 연관된 정보를 포함할 수 있다. 수화자(308)는 애니메이션 캐릭터 또는 비디오에서 수화를 사용하여 연기할 수 있는 사람일 수 있다. 실시예에서, 수화자(308)는 비디오 내의 하나 이상의 캐릭터(312)에 의해 말해진 언어(예를 들어, 영어)를 수어(예를 들어, 미국 수어(American Sign Language, ASL))로 번역할 수 있다. 메타데이터(306)는 복수의 타임 스탬프에서 비디오 내의 수화자(308)의 위치를 설명할 수 있는 정보를 포함할 수 있다. 수화자(308)의 위치는 수화자(308)를 포함하는 비디오의 직사각형 영역의 코너들에 대응할 수 있는 이미지 좌표들(314)을 포함할 수 있다. 실시예에서, 이미지 좌표들(314)은 비디오의 하나 이상의 프레임의 픽셀 또는 이미지 좌표들에 관하여 라벨링될 수 있다. 상이한 타임 스탬프들에서의 수신된 메타데이터(306)의 예들은 표 1에서 다음과 같이 제시된다:
Figure pct00001
일 실시예에서, 회로(202)는 수신된 메타데이터(306)에 기초하여 복수의 타임 스탬프에서 수화자(308)의 위치를 결정하도록 구성될 수 있다. 예를 들어, 회로(202)는 수신된 메타데이터(306)를 파싱하여 수화자(308)의 위치를 결정하도록 구성될 수 있다. 표 1을 참조하면, 표 1의 제1 열에서 언급된 복수의 타임 스탬프에서의 비디오 내의 수화자(308)의 위치는 표 1의 제3 열로부터 결정될 수 있다. 표 1(제3 열)은 비디오 내의 수화자(308)의 직사각형 경계를 나타내는 4개의 이미지 좌표의 세트를 포함하지만, 본 개시내용은 그렇게 제한되지 않을 수 있다. 메타데이터(306)는 수화자(308)의 경계의 형상(예를 들어, 다각형 형상)에 따라 임의의 개수의 좌표를 포함할 수 있다.
회로(202)는 비디오로부터 비디오 부분(316)을 추출하도록 추가로 구성될 수 있다. 추출된 비디오 부분(316)은 비디오에서 결정된 위치에 대응할 수 있다. 예를 들어, 비디오 부분(316)은 이미지 좌표들(314) 사이의 영역에 대응하고 수화자(308)를 포함하는 비디오의 직사각형 영역으로부터 추출될 수 있다. 회로(202)는 디스플레이 디바이스(104)에서 비디오의 재생을 제어하도록 추가로 구성될 수 있다. 일 실시예에서, 회로(202)는 사용자 입력에 기초하여 디스플레이 디바이스(104)에서 비디오의 재생을 제어하도록 구성될 수 있다. 일 실시예에서, 회로(202)는 추출된 비디오 부분(316)에 기초하여 비디오 내의 수화자(308) 주위의 경계를 렌더링하도록 디스플레이 디바이스(104)를 제어하도록 구성될 수 있다. 디스플레이 디바이스(104)는 비디오 내의 수화자(308)의 결정된 위치에 기초하여 경계를 렌더링할 수 있다. 수화자(308) 주위의 경계는 비디오 내의 하나 이상의 캐릭터(312)로부터 수화자(308)를 구별하도록 렌더링될 수 있다. 일부 실시예들에서, 회로(202)는 사용자가 비디오에서 수화자(308)를 찾는 것을 돕기 위해 수화자(308) 주위의 경계를 밝은 색상(예를 들어, 밝은 녹색)으로 강조할 수 있다.
회로(202)는 재생에 기초하여 디스플레이 디바이스(104)에 사용자 인터페이스(UI) 요소(318)를 렌더링하도록 디스플레이 디바이스(104)를 제어하도록 구성될 수 있다. UI 요소(318)는 픽처-인-픽처(PiP) 윈도우로서 렌더링될 수 있다. PiP 윈도우는 조정 가능한 크기일 수 있다. 예를 들어, 회로(202)는 하나 이상의 사용자 입력에 기초하여 PiP 윈도우의 크기를 조정하도록 구성될 수 있다. 회로(202)는 추출된 비디오 부분(316)을 UI 요소(318)(예를 들어, PiP 윈도우) 내부에 디스플레이하도록 추가로 구성될 수 있다. 추출된 비디오 부분(316)은 수화자(308)를 포함할 수 있다. 실시예에서, 회로는 이미지 좌표들(314)을 선으로 연결할 수 있고, 그러한 선 안쪽의 비디오 부분(316)을 실시간으로 PiP 윈도우에 복사할 수 있다.
일 실시예에서, 회로(202)는 제1 미디어 스트림(304)과 상이할 수 있는 제2 미디어 스트림(예를 들어, 제2 신호)을 서버(106)로부터 수신하도록 구성될 수 있다. 예를 들어, 제2 미디어 스트림은 비디오 부분(316)을 포함할 수 있다. 이러한 시나리오에서, 회로(202)는 디스플레이 디바이스(104)에서 제1 미디어 스트림(304)으로부터의 비디오의 재생을 제어하도록 구성될 수 있다. 회로(202)는 디스플레이 디바이스(104)에 UI 요소(318)를 렌더링하기 위해 디스플레이 디바이스(104)를 제어하도록 추가로 구성될 수 있다. 회로(202)는 수신된 제2 스트림으로부터 추출된 비디오 부분(316)을 제1 미디어 스트림(304)으로부터의 비디오의 재생과 시간 동기화하여 UI 요소(318) 내부에 디스플레이하도록 디스플레이 디바이스(104)를 제어할 수 있다. 회로(202)는 두 가지 경우 모두에서, 즉 비디오 부분(316)이 수신된 메타데이터(306)를 기반으로 추출되는 경우 및 비디오 부분이 서버(106)로부터 제2 미디어 스트림으로서 수신되는 경우에서, PiP 윈도우의 크기를 조정하도록 구성될 수 있다.
일 실시예에서, 회로(202)는 렌더링된 UI 요소(318)(예를 들어, PiP 윈도우)의 현재 위치를 현재 위치와 상이할 수 있는 제1 위치(320)로 변경하기 위한 제1 입력을 수신하도록 추가로 구성될 수 있다. 회로(202)는 또한 렌더링된 UI 요소(318)(예를 들어, PiP 윈도우)의 현재 크기를 현재 크기와 상이한 제1 크기로 변경하기 위한 제2 입력을 수신할 수 있다. 회로(202)는, 제1 입력 및 제2 입력에 기초하여, UI 요소(318)를 제1 위치(320)에서 제1 크기로 렌더링하게 디스플레이 디바이스(104)를 제어하도록 추가로 구성될 수 있다. UI 요소(318)의 위치 및 크기 조정에 대한 상세한 설명들이, 예를 들어, 도 5 및 도 6에 제공된다. 일 실시예에서, 회로(202)는 수화자(308)를 포함하는 (PiP 윈도우와 같은) UI 요소(318)가 디스플레이되는 경우에, 메인 비디오(310)에서 수화자(308)를 흐리게 하도록 디스플레이 디바이스(104)를 제어하도록 구성될 수 있다. 다른 실시예에서, 회로(202)는, 수화자(308)를 포함하는 UI 요소(318)가 디스플레이되는 경우, 메인 비디오(310)에서의 수화자(308)의 비디오 부분을 메인 비디오의 배경 픽셀들로 대체하도록 디스플레이 디바이스(104)를 제어하도록 구성될 수 있다.
도 4는 개시내용의 실시예에 따른, 라이브 비디오 방송을 위한 조정 가능한 사용자 인터페이스(UI) 요소를 통해 수화 비디오를 디스플레이하기 위한 예시적인 시나리오를 예시하는 다이어그램이다. 도 4는 도 1 내지 도 3의 요소들과 함께 설명된다. 도 4를 참조하면, 예시적인 시나리오(400)가 도시되어 있다. 예시적인 시나리오(400)에서, 수신된 데이터(402)의 블록이 도시되어 있다. 수신된 데이터(302)는 라이브 비디오 방송의 하나 이상의 프레임을 포함하는 제3 미디어 스트림(404)을 포함할 수 있다. 예시적인 시나리오(400)에서, 라이브 비디오 방송에 존재할 수 있는 수화자(406)가 추가로 도시되어 있다. 하나 이상의 프레임은 제1 프레임(404A), 제2 프레임(404B), 최대 N번째 프레임(404N)까지를 포함할 수 있다. 예시적인 시나리오(400)에서, 전자 디바이스(102)와 연관된 신경망 모델(210) 및 디스플레이 디바이스(104)가 추가로 도시되어 있다.
제3 미디어 스트림(404)은 지상파 또는 공중파 방송, 스트리밍 방송, 위성 텔레비전 방송 등과 같은 다양한 매체들에 의해 방송될 수 있는 라이브 비디오 방송을 포함할 수 있다. 예를 들어, 라이브 비디오 방송은 제3 미디어 스트림(404) 내에 캡슐화될 수 있다. 라이브 비디오 방송은 하나 이상의 캐릭터(410)를 묘사하는 메인 비디오(408)를 포함할 수 있다. 일 실시예에서, 제3 미디어 스트림(404)은 서버(106) 또는 방송 네트워크와 연관된 서버로부터 수신될 수 있다. 제3 미디어 스트림(404)이 라이브 비디오 방송인 경우, 제3 미디어 스트림(404)이 삽입된 메타데이터는 라이브 비디오 방송 내의 수화자(406)의 위치를 포함하지 않을 수 있다. 이러한 경우에, 회로(202)는 라이브 비디오 방송에서의 수화자(406)의 위치를 결정하기 위해 라이브 비디오 방송의 프레임들을 분석하도록 구성될 수 있다. 예를 들어, 회로(202)는 라이브 비디오 방송의 하나 이상의 프레임에 대해 이미지 분석을 실행하여 비디오 내의 수화자(406)의 영역(예를 들어, 불변 배경 영역)을 검출하도록 구성될 수 있다. 다른 예에서, 회로(202)는 라이브 비디오 방송의 하나 이상의 프레임에 대해 신경망 모델(210)을 적용하여 비디오 내의 수어와 연관된 수신호들을 검출하도록 구성될 수 있다. 예를 들어, 회로는 제1 프레임(404A)에서 수신호들을 검출하기 위해 제1 프레임(404A)에 신경망 모델(210)을 적용하도록 구성될 수 있다. 회로(202)는 비디오의 각각의 프레임에서 수신호를 검출하도록 제2 프레임(404B)에, 계속해서 N번째 프레임(404N)까지 신경망 모델(210)을 적용하도록 구성될 수 있다. 다른 실시예에서, 회로(202)는 수화자(406)가 존재할 수 있는 비디오의 부분의 배경을 비디오의 다른 부분들과 구별하기 위해 라이브 비디오 방송의 하나 이상의 프레임에 대해 신경망 모델(210)을 적용하도록 구성될 수 있다. 신경망 모델(210)은 비디오 내의 수화자(406)의 위치에 대응하는 배경의 검출 또는 수신호들의 검출에 기초하여 복수의 타임 스탬프에서 비디오 내의 수화자(406)의 위치에 대한 바운딩 박스를 예측하도록 구성될 수 있다.
신경망 모델(210)은 (미국 수어(American sign language, ASL) 또는 영국 수어(British sign language, BSL)와 같은) 수어와 연관된 수신호들을 검출하고, 수화자(406)를 포함하는 비디오 부분의 직사각형 영역의 코너들에 대응하는 이미지 좌표들(412)을 출력하도록 훈련될 수 있는 미리 훈련된 모델일 수 있다. 회로(202)는 추가로 이미지 좌표들(412)에 기초하여 비디오 내의 수화자(406)의 위치를 검출하도록 추가로 구성될 수 있다. 전자 디바이스(102)는 그에 의해 제3 미디어 스트림(404)에 내장된 메타데이터가 수화자(406)의 위치를 포함하지 않는 경우에도, 또는 메타데이터가 제3 미디어 스트림(404)에 없는 경우에도 비디오 내의 수화자(406)의 위치를 식별할 수 있다.
다른 실시예에서, 회로(202)는 비디오에서 수화자(406)를 검출하고 이미지 좌표들(412)을 출력하기 위해 이미지 분석 프로세서(212)를 이용하여 (객체 검출과 같은) 이미지 분석을 수행하도록 구성될 수 있다. 회로(202)는 메인 비디오(408)와 비교되는 영역의 배경 색상의 차이, 메인 비디오(408)와 비교되는 영역의 배경 음영의 차이, 또는 수화자 주위의 미리 정의된 경계에 기초하여 비디오에서 수화자(406) 주위의 영역을 검출할 수 있다. 예를 들어, 회로(202)는 수화자를 포함하는 비디오 부분이 비디오의 다른 부분들의 배경 색상(또는 음영)과 상이한 배경 색상(또는 음영)을 갖는 경우에 (메인 비디오(408)와 같은) 비디오 내의 수화자(406)의 위치를 검출하도록 구성될 수 있다. 다른 예에서, 회로(202)는 수화자(406)의 위치를 검출하기 위해 메인 비디오(408)의 배경과 다른 움직이지 않는(정적인) 배경 영역을 검출하도록 구성될 수 있다. 다른 예에서, 회로(202)는 비디오가 수화자(406) 주위의 미리 정의된 형상 및 색상의 가시적 경계를 포함하는 경우에 수화자(406) 주위의 경계를 검출하기 위해 에지 검출 또는 템플릿 매칭 기술들을 이용할 수 있고 검출된 경계에 기초하여 비디오 내의 수화자(406)의 위치를 검출할 수 있다. 이들 시나리오에서, 회로(202)는 신경망 모델(210)의 실행에 비해 더 적은 계산 능력을 요구하는 이미지 분석 기술에 의존할 수 있다.
일 실시예에서, 회로(202)는 디스플레이된 비디오에서 수화자(406) 주위에 강조된 경계(406A)를 렌더링하도록 디스플레이 디바이스(104)를 제어하도록 더 구성될 수 있다. 경계(406A)는 예측된 바운딩 박스의 이미지 좌표(412)에 기초하여 렌더링될 수 있다. 일 예로서, 회로(202)는 신경망 모델(210)이 비디오 내의 수화자(406)의 비디오 부분으로서 다수의 후보를 식별하는 경우, 비디오 내의 수화자(406)의 비디오 부분의 사용자 확인을 얻기 위해 경계(406A)를 디스플레이할 수 있다. 예를 들어, 회로(202)는 디스플레이 디바이스(104)에 디스플레이된 프롬프트(Ok를 눌러서 확인하세요; 다음 후보를 보려면 오른쪽 화살표 ▶를 누르세요)에 의해, 강조 디스플레이된 후보에 대한 사용자 확인을 수신할 수 있다. 회로(202)는 수화자(406)의 검출 및/또는 바운딩 박스 예측의 신뢰도 점수가 임계 점수보다 낮을 수 있는 경우에 비디오에 내의 수화자(406)의 사용자 확인을 구할 수 있다. 다른 실시예에서, 회로(202)는 이미지 분석 프로세서(212)가 비디오에서 수화자(406)의 비디오 부분으로 다수의 후보를 출력하는 경우에 비디오 내의 수화자(406)의 사용자 확인을 구할 수 있다.
회로(202)는 라이브 비디오 방송으로부터 비디오 부분(414)을 추출하도록 추가로 구성될 수 있다. 일 실시예에서, 회로(202)는 강조된 후보의 사용자 확인에 기초하여, 라이브 비디오 방송으로부터 비디오 부분(414)을 추출하도록 추가로 구성될 수 있다. 추출된 비디오 부분(414)은 라이브 비디오 방송에서의 결정된 위치에 대응할 수 있다. 예를 들어, 비디오 부분(414)은 비디오의 직사각형 영역으로부터 추출될 수 있다. 직사각형 영역은 이미지 좌표들(412) 사이의 영역에 대응할 수 있으며, 수화자(406)를 포함할 수 있다.
회로(202)는 디스플레이 디바이스(104)에서 비디오의 재생을 제어하도록 추가로 구성될 수 있다. 일 실시예에서, 회로(202)는 사용자 입력에 기초하여 디스플레이 디바이스(104)에서의 비디오의 재생을 제어하도록 구성될 수 있다. 회로(202)는 재생에 기초하여 디스플레이 디바이스(104)를 제어하도록 구성될 수 있다. 회로(202)는 디스플레이 디바이스(104)에 사용자 인터페이스(UI) 요소(416)를 렌더링하도록 디스플레이 디바이스(104)를 제어할 수 있다. 예를 들어, UI 요소(416)는 조정 가능한 크기의 픽처-인-픽처(PiP) 윈도우로서 렌더링될 수 있다. 회로(202)는 UI 요소(416) 내부에 수화자(406)를 포함하는 추출된 비디오 부분(414)을 디스플레이하도록 구성될 수 있다.
도 5는 본 개시내용의 실시예에 따른, 수화 비디오를 디스플레이하는 사용자 인터페이스(UI) 요소의 위치의 조정을 위한 예시적인 시나리오를 도시하는 도면이다. 도 5는 도 1 내지 도 4의 요소들과 함께 설명된다. 도 5를 참조하면, 예시적인 시나리오(500)가 도시되어 있다. 예시적인 시나리오(500)에서, 전자 디바이스(102) 및 전자 디바이스(102)와 연관된 디스플레이 디바이스(104)가 도시되어 있다. 전자 디바이스(102)는 디스플레이 영역(506) 내에 메인 비디오(502)를 디스플레이하기 위해 디스플레이 디바이스(104)를 제어할 수 있다. 도 5를 참조하면, 전자 디바이스(102)와 연관된 사용자(508)가 더 도시되어 있다.
일 실시예에서, 회로(202)는 사용자(508)와 연관된 사용자 프로파일의 선택을 포함하는 사용자 입력을 수신하도록 구성될 수 있다. 선택된 사용자 프로파일에 기초하여, 회로(202)는 수화자(516)의 추출된 비디오 부분(512)이 디스플레이될 수 있는 사용자 인터페이스(UI) 요소(510)와 연관된 하나 이상의 사용자 선호를 검색할 수 있다. 일부 실시예들에서, 회로(202)는 메모리(204)로부터 하나 이상의 사용자 선호를 검색할 수 있다. UI 요소(510)는 검색된 하나 이상의 사용자 선호에 기초하여 렌더링될 수 있다. 예를 들어, 하나 이상의 사용자 선호는 디스플레이 디바이스(104)의 디스플레이 영역(506) 내의 UI 요소(510)에 대한 위치 선호, UI 요소(510)에 대한 테마 또는 색상 배합, UI 요소(510)에 대한 크기 선호, UI 요소(510)의 보여줌/숨김 선호, UI 요소(510)를 렌더링하는 스케줄, 및 수어 선호(예를 들어, 미국 수어 또는 영국 수어) 중 하나 이상을 포함할 수 있다.
위치 선호는 UI 요소(510)가 디스플레이될 수 있는 선호되는 위치를 포함할 수 있다. 회로(202)는 위치 세트로부터 제1 위치(514)의 사용자 선호를 검색할 수 있다. 제1 위치(514)는 사용자(508)의 사용자 프로파일에 따른 UI 요소(510)의 디스플레이에 대한 선호되는 위치일 수 있다. 일 예로서, 제1 위치(514)는 디스플레이 디바이스(104)의 디스플레이 영역(506) 내의 우측 하단 코너에 대응할 수 있다. UI 요소(510)에 대한 테마 또는 색상 배합은 UI 요소(510)에 대한 선택된 사용자 프로파일의 설계 또는 색상 선호에 대응할 수 있다. 일 예로서, UI 요소(510)에 대한 테마 또는 색상 배합은 수화자(516) 배후의 녹색 배경 또는 UI 요소(510)에 대한 녹색 색상 경계를 포함할 수 있다. UI 요소(510)에 대한 크기 선호는 전자 디바이스(102)의 제조자에 의해 미리 정의된 기본 크기를 포함할 수 있다. UI 요소(510)의 숨김 선호는 UI 요소(510)를 숨길지 아니면 보여줄지에 관한 사용자(508)의 선호에 대응할 수 있다. UI 요소(510)를 렌더링하기 위한 스케줄은 UI 요소(510)가 렌더링될 수 있는 제1 기간 및 UI 요소(510)가 렌더링되지 않을 수 있는 제2 기간에 대응할 수 있다. 예를 들어, 스케줄에 대한 사용자 선호는 UI 요소(510)가 오전 10시부터 오후 04시 사이에는 렌더링될 수 있고, UI 요소(510)가 04시 01분부터 오후 10시 사이에는 숨겨질 수 있음을 나타낼 수 있다. 다른 실시예에서, 사용자 선호는 메인 비디오(502)에서의 캐릭터들(504) 중 하나가 말하고 있는 경우에 UI 요소(510)를 보여주고, 메인 비디오(502)에서 어떠한 음성도 없는 경우에 UI 요소(510)를 숨기기 위한 명령어를 포함할 수 있다.
시간 T1에서, 회로(202)는 비디오를 포함할 수 있는 제1 미디어 스트림을 수신할 수 있다. 비디오는 캐릭터(504)를 묘사하는 메인 비디오(502)를 포함할 수 있다. 회로(202)는 비디오와 연관된 메타데이터를 추가로 수신할 수 있다. 회로(202)는 수신된 메타데이터에 기초하여 비디오 내의 수화자(516)의 위치를 더 결정할 수 있다. 메타데이터는 복수의 타임 스탬프에서 비디오 내의 수화자(516)의 위치를 설명하는 정보를 포함할 수 있다. 다른 실시예에서, 회로(202)는 이미지 분석 프로세서(212)에 의한 이미지 분석에 기초하여 또는 신경망 모델(210)의 적용에 기초하여 수화자(516)의 위치를 결정할 수 있다. 회로(202)는 비디오 내의 수화자(516)의 결정된 위치와 연관된 비디오 부분(512)을 더 추출할 수 있다. 추출된 위치에 기초하여, 회로(202)는 디스플레이 디바이스(104)에서 비디오의 재생을 제어할 수 있다. 회로(202)는 검색된 사용자 선호에 기초하여 제1 위치(514)에서 디스플레이 디바이스(104)에 UI 요소(510)(예를 들어, PiP 윈도우)를 렌더링하도록 디스플레이 디바이스(104)를 추가로 제어할 수 있다. 회로(202)는 UI 요소(510) 내부에 추출된 비디오 부분(512)을 디스플레이하도록 디스플레이 디바이스(104)를 제어할 수 있다. 일부 실시예들에서, UI 요소(510)의 위치에 대한 사용자 선호가 메모리(204)에서 이용가능하지 않은 경우, UI 요소(510)는 전자 디바이스(102)의 제조자에 의해 미리 정의된 디폴트 위치에 따라, 메인 비디오(502)에서의 수화자(516)의 결정된 위치와 중첩될 수 있다. 도 5에 도시된 바와 같이, 회로(202)는 디스플레이 디바이스(104)의 디스플레이 영역(506)의 우측 하단 코너에 UI 요소(510)를 렌더링하도록 디스플레이 디바이스(104)를 제어할 수 있다.
회로(202)는 렌더링된 UI 요소(510)의 현재 위치(또는 제1 위치(514))를 제2 위치(520)로 변경하기 위한 제1 입력(518)을 수신할 수 있다. 제2 위치(520)는 제1 위치(514)와 상이할 수 있다. 전자 디바이스(102)가 리모콘에 의해 제어되는 텔레비전인 경우에, 디스플레이 디바이스(104)는 UI 요소(510)가 선택되면 팝업 메뉴(510A)(예를 들어, 컨텍스트 메뉴)를 디스플레이할 수 있다. 팝업 메뉴(510A)는 "크기 조정" 및 "이동" 옵션을 포함할 수 있다. "이동" 옵션(회색으로 강조된 선택)이 선택되면, 디스플레이 디바이스(104)는 "미리 설정된 위치로 이동" 및 "드래그"의 하위 옵션을 디스플레이할 수 있다. "미리 설정된 위치로 이동"(회색으로 강조된 선택) 옵션이 선택되면, 디스플레이 디바이스(104)는 선택된 사용자 프로파일의 저장된 선호 및/또는 전자 디바이스(102)의 제조자에 의해 설정된 디폴트 위치에 기초하여 "미리 설정된 위치 1", "미리 설정된 위치 2" 등의 하위 옵션을 디스플레이할 수 있다. 예를 들어, "미리 설정된 위치 1"은 디스플레이 영역(506)의 하부 좌측 코너에 대응할 수 있고, "미리 설정된 위치 2"는 디스플레이 영역(506)의 상부 좌측 코너에 대응할 수 있다. 이러한 미리 설정된 위치는 선택된 사용자 프로파일의 설정된 선호 및/또는 전자 디바이스(102)의 제조자에 의해 설정된 디폴트 위치에 기초하여 메모리(204)에 저장될 수 있다. 하위 옵션들 중 하나를 선택하면, 회로(202)는 시간 T2에서 제2 위치(520)에 UI 요소(510)를 디스플레이하도록 디스플레이 디바이스(104)를 제어할 수 있다. 일 예로서, 제2 위치(520)는 디스플레이 디바이스(104)의 디스플레이 영역(506) 내의 하부 좌측 코너에 대응할 수 있다. "드래그" 옵션을 선택하면, 디스플레이 디바이스(104)는 UI 요소(510)가 선택되었다는 것을 나타내기 위해 UI 요소를 강조할 수 있고, 리모콘 상의 화살표 버튼들(▶◀▼▲)을 사용하여 UI 요소(510)를 디스플레이 영역(506) 내의 어느 임의적 위치로 드래그하라는 프롬프트를 디스플레이할 수 있다. 전자 디바이스(102)가 터치스크린 입력을 갖는 스마트폰인 경우에, UI 요소(510)를 선택하면 디스플레이 디바이스(104)는 UI 요소(510)를 터치 입력에 의해 디스플레이 영역(506) 내의 어느 임의적 위치로 드래그 및 이동하라는 프롬프트를 디스플레이할 수 있다. 회로(202)는 제1 입력(518)에 기초하여 시간 T2에서 제2 위치(520)(예를 들어, 좌측 하단 코너)에서 UI 요소(510)를 디스플레이하도록 디스플레이 디바이스(104)를 제어할 수 있다. 디스플레이 디바이스(104)는 UI 요소(510)의 이동 전에, UI 요소(510)의 이동 동안, 그리고 UI 요소(510)의 이동에 후속하여, 메인 비디오(502)와 시간 동기화하여 수화자(516)의 추출된 비디오 부분(512)의 재생을 매끄럽게 계속할 수 있다.
도 6은 본 개시내용의 실시예에 따라, 수화 비디오를 디스플레이하는 사용자 인터페이스(UI) 요소의 크기의 조정을 위한 예시적인 시나리오를 도시하는 도면이다. 도 6은 예시적인 시나리오(600)를 도시한다. 예시적인 시나리오(600)에서, 전자 디바이스(102) 및 전자 디바이스(102)와 연관된 디스플레이 디바이스(104)가 도시되어 있다. 전자 디바이스(102)는 디스플레이 영역(606) 내에 메인 비디오(602)를 디스플레이하도록 디스플레이 디바이스(104)를 제어할 수 있다.
실시예에서, 회로(202)는 사용자 프로파일의 선택을 포함하는 사용자 입력을 수신하도록 구성될 수 있다. 선택된 사용자 프로파일에 기초하여, 회로(202)는 수화자(608)의 추출된 비디오 부분이 디스플레이될 수 있는 UI 요소(610)와 연관된 하나 이상의 사용자 선호를 검색할 수 있다. 일부 실시예들에서, 회로(202)는 메모리(204)로부터 하나 이상의 사용자 선호를 검색할 수 있다. UI 요소(610)는 검색된 하나 이상의 사용자 선호에 기초하여 렌더링될 수 있다. 예를 들어, 하나 이상의 사용자 선호는 UI 요소(610)에 대한 크기 선호를 포함할 수 있다.
시간 T1에서, 회로(202)는 비디오를 포함할 수 있는 제1 미디어 스트림을 수신할 수 있다. 비디오는 캐릭터(604)를 묘사하는 메인 비디오(602)를 포함할 수 있다. 회로(202)는 비디오와 연관된 메타데이터를 더 수신할 수 있다. 회로(202)는 수신된 메타데이터에 기초하여 비디오 내의 수화자(608)의 위치를 추가로 결정할 수 있다. 다른 실시예에서, 회로(202)는 이미지 분석 프로세서(212)에 의한 이미지 분석에 기초하여 또는 신경망 모델(210)의 적용에 기초하여 수화자(608)의 위치를 결정할 수 있다. 회로(202)는 비디오 내의 결정된 위치에 대응할 수 있는 비디오 부분을 추가로 추출할 수 있다. 추출된 위치에 기초하여, 회로(202)는 디스플레이 디바이스(104)에서 비디오의 재생을 제어하도록 구성될 수 있다. 회로(202)는 선택된 사용자 프로파일과 연관된 검색된 사용자 선호에 기초하여 디스플레이 디바이스(104)에 (PiP 윈도우와 같은) 사용자 인터페이스(UI) 요소(610)를 제1 크기(예를 들어, 높이 H1, 폭 W1)로 렌더링하도록 디스플레이 디바이스(104)를 제어하도록 추가로 구성될 수 있다. 일부 실시예들에서, UI 요소(610)의 크기에 대한 사용자 선호가 메모리(204)에서 이용가능하지 않은 경우, UI 요소(610)는 전자 디바이스(102)의 제조자에 의해 미리 정의된 디폴트 크기에 기초하여 디스플레이될 수 있다. 도 6에 도시된 바와 같이, 회로(202)는 디스플레이 디바이스(104)의 디스플레이 영역(606)에 UI 요소(610)를 제1 크기(H1, W1)로 렌더링하도록 디스플레이 디바이스(104)를 제어할 수 있다.
회로(202)는 렌더링된 UI 요소(610)의 현재 크기(또는 제1 크기)를 제2 크기로 변경하기 위해 제2 입력(612)을 수신할 수 있다. 제2 크기는 제1 크기와 상이할 수 있다. 전자 디바이스(102)가 리모컨에 의해 제어되는 텔레비전인 경우, 디스플레이 디바이스(104)는 UI 요소(610)를 선택할 때 팝업 메뉴(610A)를 디스플레이할 수 있다. 팝업 메뉴(610A)는 "크기 재조정" 및 "이동" 옵션을 포함할 수 있다. "크기 재조정" 옵션(회색으로 강조된 선택)을 선택하면, 디스플레이 디바이스(104)는 "미리 설정된 크기들로 크기 재조정" 및 "확대/축소" 하위 옵션을 디스플레이할 수 있다. "미리 설정된 크기들로 크기 재조정"(회색으로 강조된 선택) 옵션이 선택되면, 디스플레이 디바이스(104)는 선택된 사용자 프로파일의 검색된 선호 및/또는 전자 디바이스(102)의 제조자에 의해 설정된 디폴트 위치에 기초하여 "미리 설정된 크기 1", "미리 설정된 크기 2" 등의 하위 옵션을 디스플레이할 수 있다. 예를 들어, "미리 설정된 크기 1" 및 "미리 설정된 크기 2"는 수화자(608)의 추출된 비디오 부분이 최적의 해상도를 갖도록 고정 종횡비를 갖는 상이한 크기에 대응할 수 있다. 하위 옵션들 중 하나가 선택되면, 회로(202)는 시간 T2에서 UI 요소를 제2 크기(높이 H2, 폭 W2)로 디스플레이하도록 디스플레이 디바이스(104)를 제어할 수 있다. "확대/축소" 옵션이 선택되면, 디스플레이 디바이스(104)는 UI 요소(610)가 선택되었다는 것을 나타내기 위해 UI 요소를 강조할 수 있고, 리모콘 상의 화살표 버튼들(▶◀▼▲)을 사용하여 디스플레이 영역(606) 내의 어느 임의적 크기로 UI 요소(610)의 크기를 재조정하라는 프롬프트를 디스플레이할 수 있다. 전자 디바이스(102)가 터치스크린 입력을 갖는 스마트폰인 경우에, UI 요소(610)가 선택되면, 디스플레이 디바이스(104)는 터치 기반 액션들(예컨대, 손가락들의 핀치 오픈 또는 핀치 클로즈드 액션)을 사용하여 디스플레이 영역(606) 내의 어느 임의적 크기로 UI 요소(610)의 크기를 재조정하라는 프롬프트를 디스플레이할 수 있다. 회로(202)는 제2 입력(612)에 기초하여 시간 T2에서 UI 요소를 제2 크기(H2, W2)로 디스플레이하도록 디스플레이 디바이스(104)를 제어할 수 있다. 예를 들어, 회로(202)는 UI 요소(610)의 현재 크기를 제2 크기(H2, W2)와 일치하도록 변경하기 위해 디스플레이 디바이스(104)를 제어할 수 있다. 실시예에서, 회로(202)는 비디오 부분이 UI 요소(610) 내부에 디스플레이되기 전에 UI 요소(610)의 제2 크기(H2, W2)와 일치하도록 비디오 부분을 업스케일링 또는 다운스케일링하도록 구성될 수 있다. 회로(202)는 UI 요소(610)의 수정된 크기에 따라 수화자(608)의 추출된 비디오 부분의 해상도를 변경하도록 업스케일링 또는 다운스케일링할 수 있다. 도 6에 도시된 바와 같이, UI 요소(610)의 제2 크기(H2, W2)는 UI 요소(610)의 제1 크기(H1, W1)보다 클 수 있다. 그러한 경우에, 회로(202)는 수화자(608)의 추출된 비디오 부분을 더 낮은 해상도(예를 들어, 720p)로부터 더 높은 해상도(예를 들어, 1080p)로 업스케일링할 수 있다.
도 7은 본 개시내용의 실시예에 따른, 조정 가능한 사용자 인터페이스(UI) 요소를 통해 수화 비디오를 디스플레이하기 위한 예시적인 동작들을 예시하는 흐름도이다. 도 7은 도 1 내지 도 6의 요소들과 함께 설명된다. 도 7을 참조하면, 흐름도(700)가 도시된다. 702 내지 712의 동작들은 도 1의 전자 디바이스(102) 또는 도 2의 회로(202)와 같은 임의의 컴퓨팅 시스템에 의해 구현될 수 있다. 동작들은 702에서 시작할 수 있고 704로 진행할 수 있다.
704에서, 비디오를 포함하는 제1 미디어 스트림이 수신될 수 있다. 적어도 하나의 실시예에서, 회로(202)는 예를 들어, 도 1, 도 3 및 도 4에서 설명된 바와 같이, 비디오를 포함하는 제1 미디어 스트림을 수신하도록 구성될 수 있다.
706에서, 비디오 내의 수화자(110)의 위치가 결정될 수 있고, 여기서 수화자(110)는 비디오에서 수어를 사용하여 연기하는 애니메이션 캐릭터 또는 사람일 수 있다. 적어도 하나의 실시예에서, 회로(202)는 비디오 내의 수화자(110)의 위치를 결정하도록 구성될 수 있다. 수화자(110)의 위치의 결정에 관한 상세한 설명은 도 1, 도 3 및 도 4에 제공된다.
708에서, 비디오 내의 결정된 위치에 대응하는 비디오 부분이 비디오로부터 추출될 수 있다. 적어도 하나의 실시예에서, 회로(202)는 비디오로부터 비디오 내의 결정된 위치에 대응하는 비디오 부분을 추출하도록 구성될 수 있다. 비디오 부분의 추출에 관한 상세한 설명은 예를 들어 도 1, 3 및 4에 제공된다.
710에서, 디스플레이 디바이스(104)에서의 비디오의 재생이 제어될 수 있다. 적어도 하나의 실시예에서, 회로(202)는 디스플레이 디바이스(104)에서의 비디오의 재생을 제어하도록 구성될 수 있다.
712에서, 디스플레이 디바이스(104)는 사용자 인터페이스(UI) 요소(112)를 디스플레이 디바이스(104)에 렌더링하고 추출된 비디오 부분을 UI 요소(112) 내부에 디스플레이하기 위해, 재생에 기초하여 제어될 수 있다. 적어도 하나의 실시예에서, 회로(202)는 UI 요소(112)를 디스플레이 디바이스(104)에 렌더링하고 추출된 비디오 부분을 UI 요소(112) 내부에 디스플레이하기 위해, 재생에 기초하여 디스플레이 디바이스(104)를 제어하도록 구성될 수 있다. UI 요소(112)를 렌더링하는 것에 관한 상세한 설명은 예를 들어, 도 1, 도 3, 도 4, 및 도 5에서 제공된다. 제어는 종료될 수 있다.
본 개시내용의 다양한 실시예들은 전자 디바이스(102)와 같은 전자 디바이스를 동작시키기 위해 머신 및/또는 컴퓨터에 의해 실행가능한 명령어들을 저장한 비일시적 컴퓨터 판독가능 매체 및/또는 저장 매체를 제공할 수 있다. 명령어들은 기계 및/또는 컴퓨터로 하여금 비디오를 포함하는 제1 미디어 스트림의 수신을 포함하는 동작들을 수행하게 할 수 있다. 동작들은 비디오 내의 (수화자(110)와 같은) 수화자의 위치의 결정을 추가로 포함할 수 있다. 수화자는 비디오에서 수어를 사용하여 연기할 수 있는 애니메이션 캐릭터 또는 사람일 수 있다. 동작들은 비디오로부터 비디오의 결정된 위치에 대응할 수 있는 비디오 부분을 추출하는 것을 추가로 포함할 수 있다. 동작들은 (디스플레이 디바이스(104)와 같은) 디스플레이 디바이스 상에서의 비디오의 재생의 제어를 더 포함할 수 있다. 동작들은 디스플레이 디바이스(104)에 (UI 요소(112)와 같은) 사용자 인터페이스(UI) 요소를 렌더링하기 위해 재생에 기초한 디스플레이 디바이스(104)의 제어를 추가로 포함할 수 있다.
본 개시내용의 예시적인 양태는, (디스플레이 디바이스(104)와 같은) 디스플레이 디바이스에 통신가능하게 결합될 수 있는 (회로(202)와 같은) 회로를 포함하는 (도 1의 전자 디바이스(102)와 같은) 전자 디바이스를 포함할 수 있다. 일 실시예에서, 전자 디바이스(102)는 비디오를 포함하는 제1 미디어 스트림을 수신하도록 구성될 수 있다. 수화자(110)는 비디오에서 수화를 사용하여 연기하는 애니메이션 캐릭터 또는 사람일 수 있다. 전자 디바이스(102)는 비디오에서 수화자(110)의 위치를 결정하도록 구성될 수 있다. 결정된 위치는 수화자(110)를 포함하는 비디오의 직사각형 영역의 코너들에 대응하는 이미지 좌표들을 포함할 수 있다.
일 실시예에 따르면, 전자 디바이스(102)는 비디오와 연관된 메타데이터를 수신할 수 있다. 메타데이터는 복수의 타임 스탬프에서 비디오 내의 수화자(110)의 위치를 기술하는 정보를 포함한다. 전자 디바이스(102)는 수신된 메타데이터에 기초하여 비디오 내의 수화자(110)의 위치를 결정할 수 있다.
일 실시예에 따르면, 전자 디바이스(102)는, 비디오의 프레임들 상의 (신경망 모델(210)과 같은) 신경망 모델의 적용에 기초하여 비디오 내의 수어와 연관된 수신호를 검출하도록 구성될 수 있다. 전자 디바이스(102)는 수신호들의 검출에 기초하여 비디오에서 수화자(110)의 위치를 검출하도록 더 구성될 수 있다. 이러한 실시예에서, 비디오는 라이브 비디오 방송에 대응할 수 있다.
일 실시예에 따르면, 전자 디바이스(102)는 영역의 배경과 비디오의 나머지 부분의 배경 사이의 차이에 기초하여 비디오 내의 영역을 검출할 수 있다. 전자 디바이스(102)는 영역의 검출에 기초하여 비디오에서 수화자(110)의 위치를 검출할 수 있다. 다른 실시예에서, 전자 디바이스(102)는 비디오에서 수화자(110) 주위의 경계를 검출할 수 있다. 전자 디바이스(102)는 경계의 검출에 기초하여 비디오 내의 수화자의 위치를 검출할 수 있다.
일 실시예에 따르면, 전자 디바이스(102)는 비디오로부터, 비디오 내의 결정된 위치에 대응하는 비디오 부분을 추출하도록 구성될 수 있다. 비디오 부분은 비디오의 직사각형 영역으로부터 추출된다. 전자 디바이스는 디스플레이 디바이스(104) 상의 비디오의 재생을 제어하도록 추가로 구성될 수 있다. 전자 디바이스(102)는 디스플레이 디바이스(104)에 (UI 요소(112)와 같은) 사용자 인터페이스(UI) 요소를 렌더링하고 추출된 비디오 부분을 UI 요소(112) 내부에 디스플레이하기 위해, 재생에 기초하여 디스플레이 디바이스를 제어하도록 추가로 구성될 수 있다. UI 요소(112)는 조정 가능한 크기의 픽처-인-픽처(PiP) 윈도우로서 렌더링될 수 있다. 실시예에서, 전자 디바이스(102)는 결정된 위치에 기초하여 디스플레이된 비디오에서 수화자(110) 주위에 경계를 렌더링하기 위해 디스플레이 디바이스(104)를 제어하도록 더 구성될 수 있다.
일 실시예에 따르면, 전자 디바이스(102)는 UI 요소와 연관된 하나 이상의 사용자 선호를 포함하는 제1 사용자 입력을 수신할 수 있다. UI 요소는 수신된 제1 사용자 입력에 기초하여 렌더링될 수 있다. 하나 이상의 사용자 선호는 디스플레이 디바이스(104)의 (디스플레이 영역(506)과 같은)디스플레이 영역 내에서의 UI 요소(112)에 대한 위치 선호, UI 요소(112)에 대한 테마 또는 색상 배합, UI 요소(112)에 대한 크기 선호, UI 요소(112)의 숨김 선호, 및 UI 요소(112)를 렌더링하기 위한 스케줄을 포함할 수 있다.
일 실시예에 따르면, 전자 디바이스(102)는 렌더링된 UI 요소(112)의 현재 위치를 현재 위치와 상이한 제1 위치로 변경하기 위한 (제1 입력(518)과 같은) 제1 입력을 수신하도록 구성될 수 있다. 전자 디바이스(102)는 제1 위치에서 UI 요소(112)를 렌더링하기 위해 제1 입력에 기초하여 디스플레이 디바이스(104)를 제어하도록 추가로 구성될 수 있다. 제1 위치는 디스플레이 디바이스(104)의 디스플레이 영역(506) 내에 있을 수 있다.
실시예에 따르면, 전자 디바이스(102)는 렌더링된 UI 요소(112)의 현재 크기를 현재 크기와 상이한 제1 크기로 변경하기 위한 (제2 입력(612)과 같은) 제2 입력을 수신하도록 구성될 수 있다. 전자 디바이스(102)는 수신된 제2 입력에 기초하여 렌더링된 UI 요소(112)의 현재 크기를 제1 크기와 일치하도록 변경하기 위해 디스플레이 디바이스(104)를 제어하도록 구성될 수 있다. 전자 디바이스(102)는 비디오 부분이 UI 요소(112) 내부에 디스플레이되기 전에 UI 요소(112)의 제1 크기와 일치하도록 비디오 부분을 업스케일링 또는 다운스케일링하도록 추가로 구성될 수 있다.
실시예에 따르면, 전자 디바이스(102)는 추출된 비디오 부분을 포함하는 제2 미디어 스트림을 수신하도록 구성될 수 있다. 제2 미디어 스트림은 제1 미디어 스트림과 상이할 수 있다.
본 개시내용은 하드웨어, 또는 하드웨어와 소프트웨어의 조합으로 실현될 수 있다. 본 개시내용은 적어도 하나의 컴퓨터 시스템에서 중앙 집중 방식으로, 또는 상이한 요소들이 여러 상호접속된 컴퓨터 시스템들에 걸쳐 분산될 수 있는 분산 방식으로 실현될 수 있다. 여기에 설명된 방법들을 수행하도록 적응된 컴퓨터 시스템 또는 다른 장치가 적합할 수 있다. 하드웨어와 소프트웨어의 조합은 컴퓨터 프로그램이 로딩되고 실행될 때, 본 명세서에 설명된 방법들을 수행하도록 컴퓨터 시스템을 제어할 수 있는 컴퓨터 프로그램을 갖는 범용 컴퓨터 시스템일 수 있다. 본 개시내용은 다른 기능들을 또한 수행하는 집적 회로의 일부분을 포함하는 하드웨어로 실현될 수 있다.
본 개시내용은 또한 본 명세서에 설명된 방법들의 구현을 가능하게 하는 모든 특징들을 포함하고, 컴퓨터 시스템에 로딩될 때 이들 방법들을 수행할 수 있는 컴퓨터 프로그램 제품에 내장될 수 있다. 본 문맥에서 컴퓨터 프로그램은 정보 처리 능력을 가진 시스템이 특정 기능을 곧바로, 또는 a) 다른 언어, 코드 또는 표기법으로 변환; b) 다른 물질적 형태로의 재생산 중 하나 또는 둘 모두의 후에 수행하도록 하기 위한 일련의 명령어 집합을 임의의 언어, 코드 또는 표기법으로 표현한 것을 의미한다.
본 개시내용이 특정 실시예들을 참조하여 설명되었지만, 본 기술분야의 통상의 기술자에게는 본 개시내용의 범위로부터 벗어나지 않고 다양한 변경들이 이루어질 수 있고, 등가물들로 대체될 수 있다는 점이 이해될 것이다. 또한, 본 개시내용의 범위를 벗어나지 않고 본 개시내용의 교시에 특정한 상황 또는 재료를 적응시키기 위해 많은 수정이 이루어질 수 있다. 그러므로, 본 개시내용은 개시된 특정한 실시예로 제한되지 않고, 본 개시내용은 첨부된 청구항들의 범위 내에 속하는 모든 실시예들을 포함하는 것으로 의도된다.

Claims (20)

  1. 전자 디바이스로서,
    디스플레이 디바이스에 통신가능하게 결합된 회로를 포함하고, 상기 회로는:
    비디오를 포함하는 제1 미디어 스트림을 수신하고;
    상기 비디오 내의 수화자(signer)의 위치를 결정하고 ―상기 수화자는 상기 비디오에서 수어를 사용해 연기하는 애니메이션 캐릭터 또는 사람임―;
    상기 비디오로부터 상기 비디오 내의 상기 수화자의 결정된 위치에 대응하는 비디오 부분을 추출하고;
    상기 디스플레이 디바이스에서 상기 비디오의 재생을 제어하고;
    상기 디스플레이 디바이스 상에 사용자 인터페이스(UI) 요소를 렌더링하고;
    추출된 비디오 부분을 상기 UI 요소 내부에 디스플레이하기 위해,
    상기 재생에 기초하여 상기 디스플레이 디바이스를 제어하도록
    구성되는, 전자 디바이스.
  2. 제1항에 있어서,
    상기 UI 요소는 조정 가능한 크기의 픽처-인-픽처(PiP) 윈도우로서 렌더링되는, 전자 디바이스.
  3. 제1항에 있어서, 상기 회로는:
    상기 비디오와 연관된 메타데이터를 수신하고 ―상기 메타데이터는 복수의 타임 스탬프에서 상기 비디오 내의 수화자의 위치를 기술하는 정보를 포함함―;
    수신된 메타데이터에 기초하여 상기 비디오 내의 상기 수화자의 위치를 결정하도록
    추가로 구성되는, 전자 디바이스.
  4. 제1항에 있어서,
    상기 결정된 위치는 상기 수화자를 포함하는 상기 비디오의 직사각형 영역의 코너들에 대응하는 이미지 좌표들을 포함하고, 및
    상기 비디오 부분은 상기 비디오의 상기 직사각형 영역으로부터 추출되는, 전자 디바이스.
  5. 제1항에 있어서, 상기 회로는:
    상기 비디오의 프레임들에 대한 신경망 모델의 적용에 기초하여, 상기 비디오에서 수어와 연관된 수신호들을 검출하고;
    상기 수신호들의 검출에 기초하여 상기 비디오에서 상기 수화자의 위치를 검출하도록
    추가로 구성되는, 전자 디바이스.
  6. 제5항에 있어서,
    상기 비디오는 라이브 비디오 방송에 대응하는, 전자 디바이스.
  7. 제1항에 있어서, 상기 회로는:
    영역의 배경과 상기 비디오의 나머지 부분의 배경 사이의 차이에 기초하여 상기 비디오 내의 상기 영역을 검출하고;
    상기 영역의 검출에 기초하여 상기 비디오에서 상기 수화자의 위치를 검출하도록
    추가로 구성되는, 전자 디바이스.
  8. 제1항에 있어서, 상기 회로는:
    상기 비디오 내의 상기 수화자 주위의 경계를 검출하고;
    상기 경계의 검출에 기초하여 상기 비디오에서 상기 수화자의 위치를 검출하도록
    추가로 구성되는, 전자 디바이스.
  9. 제1항에 있어서, 상기 회로는:
    상기 결정된 위치에 기초하여, 디스플레이된 비디오에서 상기 수화자 주위에 경계를 렌더링하도록 상기 디스플레이 디바이스를 제어하도록 추가로 구성되는, 전자 디바이스.
  10. 제1항에 있어서, 상기 회로는:
    렌더링된 UI 요소의 현재 위치를 상기 현재 위치와 상이한 제1 위치로 변경하기 위한 제1 입력을 수신하고;
    상기 제1 입력에 기초하여 상기 디스플레이 디바이스를 제어하여, 상기 디스플레이 디바이스의 디스플레이 영역 내에 있는 상기 제1 위치에 상기 UI 요소를 렌더링하도록
    추가로 구성되는, 전자 디바이스.
  11. 제1항에 있어서, 상기 회로는:
    렌더링된 UI 요소의 현재 크기를 현재 크기와 상이한 제1 크기로 변경하기 위한 제2 입력을 수신하고;
    수신된 제2 입력에 기초하여, 상기 제1 크기와 일치시키기 위해 상기 렌더링된 UI 요소의 상기 현재 크기를 변경하도록 상기 디스플레이 디바이스를 제어하고; 및
    상기 비디오 부분이 상기 UI 요소 내부에 디스플레이되기 전에 상기 UI 요소의 상기 제1 크기와 일치하도록 상기 비디오 부분을 업스케일링 또는 다운스케일링하도록 상기 디스플레이 디바이스를 제어하도록
    추가로 구성되는, 전자 디바이스.
  12. 제1항에 있어서,
    상기 회로는 상기 추출된 비디오 부분을 포함하는 제2 미디어 스트림을 수신하도록 추가로 구성되고, 상기 제2 미디어 스트림은 제1 미디어 스트림과 다른, 전자 디바이스.
  13. 제1항에 있어서,
    상기 회로는 상기 UI 요소와 연관된 하나 이상의 사용자 선호를 포함하는 제1 사용자 입력을 수신하도록 추가로 구성되고, 및
    상기 UI 요소는 수신된 제1 입력에 기초하여 렌더링되는, 전자 디바이스.
  14. 제13항에 있어서,
    상기 하나 이상의 사용자 선호는 상기 디스플레이 디바이스의 디스플레이 영역 내의 상기 UI 요소에 대한 위치 선호, 상기 UI 요소에 대한 테마 또는 색상 배합, 상기 UI 요소에 대한 크기 선호, 상기 UI 요소의 숨김 선호, 및 상기 UI 요소를 렌더링하기 위한 스케줄 중 하나 이상을 포함하는, 전자 디바이스.
  15. 방법으로서,
    비디오를 포함하는 제1 미디어 스트림을 수신하는 단계;
    상기 비디오 내의 수화자의 위치를 결정하는 단계 ―상기 수화자는 상기 비디오에서 수어를 사용해 연기하는 애니메이션 캐릭터 또는 사람임―;
    상기 비디오로부터, 상기 비디오 내의 상기 수화자의 결정된 위치에 대응하는 비디오 부분을 추출하는 단계;
    디스플레이 디바이스 상에서의 상기 비디오의 재생을 제어하는 단계; 및
    상기 디스플레이 디바이스 상에 사용자 인터페이스(UI) 요소를 렌더링하고;
    추출된 비디오 부분을 상기 UI 요소 내부에 디스플레이하기 위해,
    상기 재생에 기초하여 디스플레이 디바이스를 제어하는 단계
    를 포함하는, 방법.
  16. 제15항에 있어서,
    상기 UI 요소는 조정 가능한 크기의 픽처-인-픽처(PiP) 윈도우로서 렌더링되는, 방법.
  17. 제15항에 있어서,
    상기 비디오와 연관된 메타데이터를 수신하는 단계 ―상기 메타데이터는 복수의 타임 스탬프에서 상기 비디오 내의 상기 수화자의 위치를 기술하는 정보를 포함함―; 및
    수신된 메타데이터에 기초하여 상기 비디오 내의 상기 수화자의 위치를 결정하는 단계
    를 추가로 포함하는, 방법.
  18. 제15항에 있어서,
    상기 결정된 위치는 상기 수화자를 포함하는 상기 비디오의 직사각형 영역의 코너들에 대응하는 이미지 좌표들을 포함하고,
    상기 비디오 부분은 상기 비디오의 상기 직사각형 영역으로부터 추출되는, 방법.
  19. 제15항에 있어서,
    상기 비디오의 프레임들에 대한 신경망 모델의 적용에 기초하여, 상기 비디오 내의 수어와 연관된 수신호들을 검출하는 단계; 및
    상기 수신호들의 검출에 기초하여 상기 비디오 내의 상기 수화자의 위치를 검출하는 단계
    를 추가로 포함하는, 방법.
  20. 전자 디바이스에 의해 실행될 때, 전자 디바이스로 하여금 동작들을 실행하게 하는 컴퓨터 실행 가능 명령어들을 저장한 비일시적 컴퓨터 판독 가능 매체로서, 상기 동작들은,
    비디오를 포함하는 제1 미디어 스트림을 수신하는 단계;
    상기 비디오 내의 수화자의 위치를 결정하는 단계 ―상기 수화자는 상기 비디오에서 수어를 사용해 연기하는 애니메이션 캐릭터 또는 사람임―;
    상기 비디오로부터, 상기 비디오 내의 상기 수화자의 결정된 위치에 대응하는 비디오 부분을 추출하는 단계;
    디스플레이 디바이스 상에서의 상기 비디오의 재생을 제어하는 단계; 및
    상기 디스플레이 디바이스 상에 사용자 인터페이스(UI) 요소를 렌더링하고;
    추출된 비디오 부분을 상기 UI 요소 내부에 디스플레이하기 위해,
    상기 재생에 기초하여 디스플레이 디바이스를 제어하는 단계
    를 포함하는, 비일시적 컴퓨터 판독 가능 매체.
KR1020237044249A 2021-11-04 2022-10-21 조정 가능한 사용자 인터페이스(ui) 요소를 통한 수화 비디오의 디스플레이 KR20240011779A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/453,553 2021-11-04
US17/453,553 US11889147B2 (en) 2021-11-04 2021-11-04 Display of signing video through an adjustable user interface (UI) element
PCT/IB2022/060148 WO2023079402A1 (en) 2021-11-04 2022-10-21 Display of signing video through an adjustable user interface (ui) element

Publications (1)

Publication Number Publication Date
KR20240011779A true KR20240011779A (ko) 2024-01-26

Family

ID=84329473

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237044249A KR20240011779A (ko) 2021-11-04 2022-10-21 조정 가능한 사용자 인터페이스(ui) 요소를 통한 수화 비디오의 디스플레이

Country Status (5)

Country Link
US (1) US11889147B2 (ko)
EP (1) EP4409916A1 (ko)
KR (1) KR20240011779A (ko)
CN (1) CN117321998A (ko)
WO (1) WO2023079402A1 (ko)

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7206029B2 (en) * 2000-12-15 2007-04-17 Koninklijke Philips Electronics N.V. Picture-in-picture repositioning and/or resizing based on video content analysis
KR100819404B1 (ko) * 2006-10-27 2008-04-04 삼성전자주식회사 휴대용 단말기에서 부화면 디코딩 방법 및 장치
US9282377B2 (en) 2007-05-31 2016-03-08 iCommunicator LLC Apparatuses, methods and systems to provide translations of information into sign language or other formats
JP5346797B2 (ja) 2009-12-25 2013-11-20 株式会社アステム 手話映像合成装置、手話映像合成方法、手話表示位置設定装置、手話表示位置設定方法、及びプログラム
US9697630B2 (en) * 2014-10-01 2017-07-04 Sony Corporation Sign language window using picture-in-picture
US10097785B2 (en) 2014-10-01 2018-10-09 Sony Corporation Selective sign language location
WO2016140479A1 (ko) * 2015-03-01 2016-09-09 엘지전자 주식회사 방송 신호 송신 장치, 방송 신호 수신 장치, 방송 신호 송신 방법, 및 방송 신호 수신 방법
US10289903B1 (en) * 2018-02-12 2019-05-14 Avodah Labs, Inc. Visual sign language translation training device and method
KR102081854B1 (ko) * 2019-08-01 2020-02-26 전자부품연구원 3d edm을 이용한 수어 또는 제스처 인식 방법 및 장치
US11381874B2 (en) 2020-01-27 2022-07-05 Sony Corporation Personalization of curated offerings of media applications

Also Published As

Publication number Publication date
WO2023079402A1 (en) 2023-05-11
EP4409916A1 (en) 2024-08-07
US11889147B2 (en) 2024-01-30
CN117321998A (zh) 2023-12-29
US20230133869A1 (en) 2023-05-04

Similar Documents

Publication Publication Date Title
US11726645B2 (en) Display apparatus for classifying and searching content, and method thereof
KR102691543B1 (ko) 오디오 장면을 인식하는 전자 장치 및 그 방법
US10867575B2 (en) Image display apparatus and operating method thereof
KR102266901B1 (ko) 디스플레이 장치 및 디스플레이 방법
KR102622950B1 (ko) 디스플레이장치, 그 제어방법 및 기록매체
CN111343512B (zh) 信息获取方法、显示设备及服务器
US20120301030A1 (en) Image processing apparatus, image processing method and recording medium
US11064150B2 (en) High resolution user interface
US20160191841A1 (en) Display device and display method
CN111556350B (zh) 一种智能终端及人机交互方法
KR20200114898A (ko) 영상표시장치
CN112055245B (zh) 一种彩色字幕实现方法及显示设备
KR20220031367A (ko) 디스플레이 기기 및 그의 동작 방법
KR102464907B1 (ko) 전자 장치 및 그 동작 방법
US11889147B2 (en) Display of signing video through an adjustable user interface (UI) element
CN113207003B (zh) 一种视频图像的运动估计方法及电子设备
CN115396717B (zh) 显示设备及显示画质调节方法
US20170201710A1 (en) Display apparatus and operating method thereof
CN114554266B (zh) 显示设备及显示方法
CN112135173B (zh) 一种改善流媒体起播码率的方法及显示设备
US20240205509A1 (en) Display device and operating method therefor
CN113473198A (zh) 一种智能设备的控制方法及智能设备
CN118104241A (zh) 显示设备
CN116684674A (zh) 一种字幕显示方法及显示设备
CN115550706A (zh) 显示设备、图像处理方法及装置