KR102078132B1 - 영상 통화 시 관심 대상을 표시하기 위한 장치 및 그 방법 - Google Patents

영상 통화 시 관심 대상을 표시하기 위한 장치 및 그 방법 Download PDF

Info

Publication number
KR102078132B1
KR102078132B1 KR1020130061955A KR20130061955A KR102078132B1 KR 102078132 B1 KR102078132 B1 KR 102078132B1 KR 1020130061955 A KR1020130061955 A KR 1020130061955A KR 20130061955 A KR20130061955 A KR 20130061955A KR 102078132 B1 KR102078132 B1 KR 102078132B1
Authority
KR
South Korea
Prior art keywords
voice data
received
response
face
interest
Prior art date
Application number
KR1020130061955A
Other languages
English (en)
Other versions
KR20140140916A (ko
Inventor
이성오
정문식
최성도
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020130061955A priority Critical patent/KR102078132B1/ko
Publication of KR20140140916A publication Critical patent/KR20140140916A/ko
Application granted granted Critical
Publication of KR102078132B1 publication Critical patent/KR102078132B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2628Alteration of picture size, shape, position or orientation, e.g. zooming, rotation, rolling, perspective, translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 영상 통화 시 관심 대상을 표시하기 위한 장치 및 그 방법에 관한 것이다.
이를 위해 본 발명은 영상 데이터로부터 인식된 얼굴 이미지를 저장하고, 발신장치로부터 수신된 음성 데이터에 대한 음성 인식 및 영상 데이터에 대한 제스쳐 인식 중 적어도 하나를 수행하여 인식 결과에 따라 관심 대상을 판단하고, 판단된 관심 대상을 확대하여 화면에 표시함으로써 사용자가 관심을 가지는 대상을 자동으로 확대하여 보여줄 수 있게 된다.

Description

영상 통화 시 관심 대상을 표시하기 위한 장치 및 그 방법{DEVICE AND METHOD FOR DISPLAYING SUBJECT OF INTERST DURING VIDEO CALL}
본 발명은 표시 장치 및 방법에 관한 것으로, 특히 일대다 영상 통화 시 관심 대상을 표시하기 위한 장치 및 방법에 관한 것이다.
일반적으로 영상 통화는 일 대 일 또는 일 대 다수가 음성 및 영 통신을 연결하여 대화를 수행하는 것을 의미한다. 이에 대해서 구체적으로 살펴보면, 영상 통화에 참여하는 각 사용자는 디스플레이 장치, 이미지 센서, 마이크, 스피커 등을 이용하여 다른 사람과의 영상 통화를 수행할 수 있다. 영상 통화를 시작하면 각 사용자는 이미지 센서를 통해서 입력된 영상을 각 사용자의 디스플레이 장치로 전송하여 각 사용자의 모습을 표시한다. 만약 특정 사용자가 마이크를 통해서 음성을 입력하면 입력된 음성 데이터가 각 사용자의 스피커를 통해서 출력된다.
상기와 같이 종래의 영상 통화는 호 연결 시 이미지 센서를 통해서 복수의 사용자에 대한 영상을 수신하여 각 사용자의 디스플레이 장치로 전달되어 표시되고, 특정 사용자의 음성 데이터가 수신되면 수신된 음성 데이터를 각 사용자의 스피커를 통해서 출력하도록 한다.
하지만 종래에는 영상 통화를 요청한 발신자가 다수의 수신자들 중 자신이 관심 있는 대상의 얼굴을 좀 더 자세하게 보기 위해서 리모컨 등과 같은 제어장치를 이용하여 디스플레이 장치에 표시되는 화면 크기를 조절해야 하는 번거로움이 있었다.
따라서, 본 발명에서는 영상 통화 시 대화 내용과 특정 제스쳐를 인식하여 발신자가 관심을 가지는 대상을 표시하기 위한 장치 및 방법을 제공한다.
상술한 바를 달성하기 위한 영상 통화 시 관심 대상을 표시하기 위한 장치에 있어서, 영상 데이터를 획득하는 카메라부, 음성 데이터를 수신하는 통신부, 상기 영상 데이터로부터 인식된 얼굴 이미지를 저장하고, 발신장치로부터 수신된 음성 데이터에 대한 음성 인식 및 상기 영상 데이터에 대한 제스쳐 인식 중 적어도 하나를 수행하고, 인식 결과에 따라 관심 대상을 판단한 후 상기 판단된 관심 대상을 확대하여 상기 관심 대상을 확대한 영상 데이터를 상기 발신장치로 전송하는 제어부를 특징으로 한다.
또한, 본 발명은 영상 통화 시 관심 대상을 표시하기 위한 방법에 있어서, 영상 데이터로부터 인식된 얼굴 이미지를 저장하는 과정과, 발신장치로부터 수신된 음성 데이터에 대한 음성 인식 및 상기 영상 데이터에 대한 제스쳐 인식 중 적어도 하나를 수행하여 인식 결과에 따라 관심 대상을 판단하고, 상기 판단된 관심 대상을 확대하여 상기 관심 대상을 확대한 영상 데이터를 상기 발신장치로 전송하는 과정을 포함하는 것을 특징으로 한다.
본 발명은 본 발명은 일대다 영상 통화 시 발신자와 수신자간의 대화 내용과 특정 제스쳐 인식에 의해 관심대상을 판단하고, 해당 관심대상을 확대하여 표시함으로써 사용자가 관심을 가지는 대상을 자동으로 확대하여 보여줄 수 있다는 이점이 있다.
도 1은 본 발명의 실시 예에 따른 장치에 대한 블록도,
도 2는 본 발명의 실시 예에 따라 관심 얼굴을 확대하여 표시하는 과정을 나타내는 흐름도,
도 3은 본 발명의 실시 예에 따라 키워드 인식에 의해서 관심 얼굴을 확대하여 표시하는 과정을 나타내는 흐름도,
도 4는 본 발명의 실시 예에 따라 응답 음성 데이터 인식에 의한 관심 얼굴을 확대하여 표시하는 과정을 나타내는 흐름도,
도 5는 본 발명의 실시 예에 따라 제스쳐 인식에 의한 관심 얼굴을 확대하여 표시하는 과정을 나타내는 흐름도,
도 6 내지 도 9는 본 발명의 실시 예에 따라 음성 및 제스쳐 인식에 의한 관심 얼굴을 확대하여 표시하는 과정을 설명하기 위한 예시도들.
이하, 첨부된 도면들에 기재된 내용들을 참조하여 본 발명에 따른 예시적 실시예를 상세하게 설명한다. 다만, 본 발명이 예시적 실시 예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조부호는 실질적으로 동일한 기능을 수행하는 부재를 나타낸다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
도 1은 본 발명의 실시 예에 따른 장치에 대한 블록도이다.
본 발명의 실시 예에 따른 장치(10)는 제어부(100), 카메라부(110), 얼굴 인식부(120), 음성 인식부(130), 제스쳐 인식부(140), 통신부(150), 표시부(160), 저장부(170)를 포함한다.
제어부(100)는 장치의 동작을 제어하는데, 특히 카메라부(110), 얼굴 인식부(120), 음성 인식부(130), 제스쳐 인식부(140), 통신부(150), 표시부(160), 저장부(170)의 동작을 제어한다.
제어부(100)는 발신자의 발신장치로부터 일대다 영상 호 연결에 대한 요청이 수신되면 영상 호 연결 요청이 수신됨을 알리고, 영상 호 연결 요청이 수락되면 발신 장치와의 영상 호 연결을 수행한다. 예를 들어, 제어부(100)는 TV 등과 같은 수신 장치의 디스플레이 화면에 영상 호 연결 요청이 수신됨을 알리기 위한 호 연결 요청 메시지를 표시할 수 있다.
영상 호 연결이 허락되면 제어부(100)는 카메라부(110)를 통해서 입력된 영상으로부터 얼굴을 인식하도록 얼굴 인식부(120)를 제어한다. 구체적으로, 제어부(100)는 일반적인 얼굴 인식 기술을 이용하여 영상으로부터 얼굴 이미지를 인식하고, 인식된 얼굴 이미지와 그 얼굴 이미지에 대응하는 사용자 정보를 대응시켜 저장부(170)에 저장한다. 이때, 제어부(100)는 수신자로부터 인식된 얼굴 이미지에 대한 사용자 정보를 입력받을 수 있다. 또한 전화번호부와 같이 사용자 정보와 얼굴 이미지가 미리 대응되어 저장된 경우 제어부(100)는 미리 저장된 얼굴 이미지와 인식된 얼굴 이미지를 비교하여 일치 여부에 따라 인식된 얼굴 이미지와 사용자 정보를 대응시켜 저장할 수도 있다.
발신장치로부터 음성 및 영상 데이터가 수신되면 제어부(100)는 음성 인식 및 제스쳐 인식 중 적어도 하나를 수행하고, 인식 결과에 따라서 관심 대상을 판단하고, 판단된 관심 대상을 확대하고, 확대된 영상을 발신장치로 전달한다. 또한 제어부(100)는 발신장치로부터 수신된 영상을 표시부(160)를 통해서 표시하면서 미리 설정된 위치에 카메라부(110)를 통해서 수신되는 영상을 프리뷰 화면으로 표시할 수 있다.
제1 실시 예로 제어부(100)는 수신된 음성 데이터에 대한 음성 인식을 수행하여 복수의 수신자에 해당하는 키워드를 추출할 수 있다. 예를 들어, 제어부(100)는 수신된 음성 데이터로부터 복수의 단어들을 인식하도록 음성 인식부(130)를 제어하고, 인식된 단어들 중에서 사용자 정보와 일치하는 단어를 추출한다. 만약 수신된 음성 데이터가 “엄마, 잘 지냈어?”와 같은 문장이면 음성 인식부(130)는 “엄마”, “잘”, “지냈어”를 인식하고, 인식된 “엄마”, “잘”, “지냈어”에 해당하는 사용자 정보를 검색한다. “엄마”에 해당하는 사용자 정보가 검색되는 경우 제어부(100)는 검색된 사용자 정보에 대응하여 저장된 얼굴 이미지와 입력된 영상 내 인식된 얼굴 중 일치하는 얼굴을 검출하고, 검출된 얼굴이 확대되도록 줌인한 영상을 발신장치로 전달한다.
만약 “엄마”에 해당하는 사용자 정보가 검색되지 않은 경우 제어부(100)는 카메라부(110)를 통해서 입력된 영상을 발신장치로 전달한다.
제2 실시 예로 제어부(100)는 발신 장치로부터 수신된 음성 데이터에 대한 응답으로 응답 음성 데이터가 수신되는지 여부를 판단하여 응답 음성 데이터가 수신되면 응답 음성 데이터를 전송한 대상을 확인한다. 예를 들어, 제어부(100)는 수신된 응답 음성 데이터의 음성 방향을 검출하고, 검출된 음성 방향에 위치하는 대상을 확인한다. 이후 제어부(100)는 확인된 대상의 얼굴을 검출하고, 검출된 얼굴이 확대되도록 줌인한 영상을 발신장치로 전달한다.
제3 실시 예로 제어부(100)는 제1 실시 예와 제2 실시 예를 결합하여 발신장치로부터 수신된 음성 데이터로부터 복수의 단어들을 인식하도록 음성 인식부(130)를 제어하고, 인식된 단어들 중에서 사용자 정보와 일치하는 단어를 추출할 수 있다. 제어부(100)는 발신 장치로부터 수신된 음성 데이터에 대한 응답으로 응답 음성 데이터가 수신되는지 여부를 판단하여 응답 음성 데이터가 수신되면 응답 음성 데이터를 전송한 대상을 확인한다. 제어부(100)는 확인된 대상에 대한 얼굴 인식을 수행하여 인식된 얼굴과 일치하는 얼굴 이미지를 검색하고, 검색된 얼굴 이미지에 대응하는 사용자 정보와 상기에서 추출된 단어가 일치하는지 여부를 판단한다. 검색된 얼굴 이미지에 대응하는 사용자 정보와 상기에서 추출된 단어가 일치하면 제어부(100)는 확인된 대상의 얼굴이 확대되도록 줌인한 영상을 발신장치로 전달한다.
제4 실시 예로 제어부(100)는 발신 장치로부터 수신된 음성 데이터에 대한 응답으로 응답 음성 데이터가 수신되는지 여부를 판단하여 응답 음성 데이터가 수신되면 응답 음성 데이터를 전송한 대상을 확인한다. 제어부(100)는 확인된 대상에 대한 제스쳐 인식을 수행하도록 제스쳐 인식부(140)를 제어하여 확인된 대상에 대한 제스쳐가 인식되는지 여부를 판단한다. 제스쳐 인식부(140)를 통해서 확인된 대상에 대한 제스쳐가 인식되면 제어부(100)는 확인된 대상의 얼굴을 검출하고, 검출된 얼굴이 확대되도록 줌인한 영상을 발신장치로 전달한다.
제5 실시 예로 제어부(100)는 제3 실시예와 제4 실시 예를 결합하여 발신 장치로부터 수신된 음성 데이터로부터 복수의 단어들을 인식하도록 음성 인식부(130)를 제어하고, 인식된 단어들 중에서 사용자 정보와 일치하는 단어를 추출한다. 제어부(100)는 응답 음성 데이터가 수신되면 응답 음성 데이터를 전송한 대상을 확인하여 응답 음성 데이터를 전송한 대상에 대한 제스쳐가 인식되는지 여부를 판단한다. 제스쳐가 인식되면 제어부(100)는 응답 음성 데이터를 전송한 대상의 얼굴을 검출하고, 검출된 얼굴이 확대한 후 검출된 얼굴을 확대한 영상을 발신장치로 전달한다.
본 발명의 실시 예에서는 각 실시 예들의 조합에 의해서 관심 대상을 판단하도록 할 수 있으며, 상기에서 설명한 실시 예 이외에도 다양한 조합에 의해서 관심 대상을 판단하도록 할 수 있다.
이와 같이 확대된 영상을 수신한 발신장치에서는 수신된 영상을 화면에 표시함으로써 발신자가 관심을 가지는 관심 대상의 얼굴을 더 자세하게 볼 수 있게 된다.
카메라부(110)는 광 신호를 입력받아서 영상을 출력한다.
얼굴 인식부(120)는 입력된 영상 내의 얼굴 영역을 인식하는데, 일반적인 얼굴 인식 기술을 이용한다. 예를 들어, 얼굴 인식부(120)는 입력 영상 내에서 미리 설정된 얼굴 피부색에 해당하는 영역을 얼굴 영역으로 인식할 수 있다. 본 발명의 실시 예에서는 상기의 기술을 예로 설명하였으나, 얼굴 인식을 위한 다양한 기술을 이용하여 얼굴 영역을 인식할 수 있다.
음성 인식부(130)는 제어부(100)와 연결되어 통신부(150)로부터 입력된 음성 데이터를 분석하여 음성을 인식하고, 마이크로폰(microphone)으로부터 수신되는 음성 데이터를 분석하여 음성을 인식한다. 이러한 음성 인식은 일반적인 음성 인식 기술을 이용할 수 있으며, 다양한 기술을 이용하여 음성 인식을 수행할 수 있다.
제스쳐 인식부(140)는 카메라부(110)로부터 입력된 영상으로부터 제스쳐를 인식한다. 이러한 제스쳐 인식은 일반적인 제스쳐 인식 기술을 이용할 수 있으며, 다양한 기술을 이용하여 제스쳐 인식을 수행할 수 있다.
통신부(150)는 제어부(100)와 연결되며, 음성 데이터 및 제어 데이터를 무선 신호로 변환하여 송신하고, 무선 신호를 수신하여 음성 데이터 및 제어 데이터로 변환하여 출력한다.
표시부(160)는 액정표시장치(LCD, Liquid Crystal Display)로 형성될 수 있으며, 장치의 메뉴, 입력된 데이터, 기능 설정 정보 및 기타 다양한 정보를 사용자에게 시각적으로 제공한다. 이러한 표시부(160)는 LCD 이외에 다양한 장치들로 구성될 수 있다. 표시부(160)는 장치의 다양한 화면들을 출력하는 기능을 수행한다.
저장부(170)는 제어부(100)의 제어에 따라 카메라부(110), 얼굴 인식부(120), 음성 인식부(130), 제스쳐 인식부(140), 통신부(150), 표시부(160)의 동작에 대응되게 입/출력되는 신호 또는 데이터를 저장할 수 있다. 또한 저장부(170)는 장치 또는 제어부(100)의 제어를 위한 제어 프로그램 및 어플리케이션들을 저장할 수 있다.
도 2는 본 발명의 실시 예에 따라 관심 얼굴을 확대하여 표시하는 과정을 나타내는 흐름도이다.
200단계에서 제어부(100)는 일대다 영상 호 연결 요청에 따라 영상 호 연결을 수행한다.
210단계에서 제어부(100)는 카메라부(110)를 통해서 입력되는 영상으로부터 둘 이상의 수신자에 대한 얼굴 인식을 수행한다. 예를 들어, 제어부(100)는 얼굴 인식부(120)를 통해서 영상 내에 얼굴 인식을 수행하여 얼굴 영역을 검출하고, 검출된 얼굴 영역과 사용자 정보를 대응시켜 저장부(170)에 저장한다. 이때, 검출된 얼굴 영역과 사용자 정보를 대응시켜 저장하는 방법은 상기의 제어부(100)에서 설명한 바와 같은 방법을 이용할 수 있다.
220단계에서 제어부(100)는 발신장치로부터 발신자에 관련된 음성 및 영상 데이터를 수신한다.
230단계에서 제어부(100)는 발신장치로부터 수신된 발신자의 음성 데이터 또는 마이크를 통해서 입력된 수신자의 음성 데이터에 대한 음성 인식 및 수신자에 대한 제스쳐 인식 중 적어도 하나를 수행한다.
240단계에서 제어부(100)는 음성 인식 및 제스쳐 인식 중 적어도 하나의 인식이 완료되었는지 판단하여 인식이 완료되었으면 250단계를 진행하고, 인식이 완료되지 않았으면 270단계를 진행하여 전체 화면을 표시부(160)에 표시한다. 이때, 제어부(100)는 음성 인식 및 제스쳐 인식 중 어느 하나도 인식되지 않으면 카메라부(110)를 통해서 입력된 영상을 표시부(160)에 표시한다.
250단계에서 제어부(100)는 인식결과에 따라 인식된 얼굴들 중에서 관심 대상의 얼굴을 판단한다.
260단계에서 제어부(100)는 판단된 관심 대상의 얼굴을 확대하여 표시부(160)를 통해서 표시하고, 관심 대상의 얼굴을 확대한 영상을 통신부(150)를 통해서 발신장치로 전달한다.
도 3은 본 발명의 실시 예에 따라 키워드 인식에 의해서 관심 얼굴을 확대하여 표시하는 과정을 나타내는 흐름도이다.
300단계에서 제어부(100)는 일대다 영상 호 연결 요청에 따라 영상 호 연결을 수행한다.
310단계에서 제어부(100)는 카메라부(110)를 통해서 입력되는 영상으로부터 둘 이상의 수신자에 대한 얼굴 인식을 수행한다. 예를 들어, 제어부(100)는 얼굴 인식부(120)를 통해서 영상 내에 얼굴 인식을 수행하여 얼굴 영역을 검출하고, 검출된 얼굴 영역과 사용자 정보를 대응시켜 저장부(170)에 저장한다.
320단계에서 제어부(100)는 발신장치로부터 발신자에 관련된 음성 및 영상 데이터를 수신한다.
330단계에서 제어부(100)는 수신된 음성 데이터로부터 키워드를 추출한다. 구체적으로, 제어부(100)는 수신된 음성 데이터에 대한 음성 인식을 수행하여 복수의 수신자에 해당하는 키워드를 추출할 수 있다. 예를 들어, 제어부(100)는 수신된 음성 데이터로부터 복수의 단어들을 인식하고, 인식된 단어들 중에서 사용자 정보와 일치하는 단어를 키워드로써 추출할 수 있다.
340단계에서 제어부(100)는 인식된 얼굴들 중 추출된 키워드에 해당하는 얼굴을 판단한다. 구체적으로 제어부(100)는 미리 저장된 사용자 정보 중 추출된 단어에 해당하는 사용자 정보를 검색하고, 검색된 사용자 정보에 대응하여 저장된 얼굴 이미지와 입력된 영상 내 인식된 얼굴 중 일치하는 얼굴을 검출한다.
350단계에서 제어부(100)는 판단된 얼굴을 확대하고, 확대한 영상을 표시부(160)에 표시한 후 해당 영상을 발신장치로 전달한다.
도 4는 본 발명의 실시 예에 따라 응답 음성 데이터 인식에 의한 관심 얼굴을 확대하여 표시하는 과정을 나타내는 흐름도이다.
400단계에서 제어부(100)는 일대다 영상 호 연결 요청에 따라 영상 호 연결을 수행한다.
410단계에서 제어부(100)는 카메라부(110)를 통해서 입력되는 영상으로부터 둘 이상의 수신자에 대한 얼굴 인식을 수행한다. 예를 들어, 제어부(100)는 얼굴 인식부(120)를 통해서 영상 내에 얼굴 인식을 수행하여 얼굴 영역을 검출하고, 검출된 얼굴 영역과 사용자 정보를 대응시켜 저장부(170)에 저장한다.
420단계에서 제어부(100)는 발신장치로부터 발신자에 관련된 음성 및 영상 데이터를 수신한다.
430단계에서 제어부(100)는 수신된 음성 데이터에 대한 응답으로 응답 음성 데이터를 수신한다.
440단계에서 제어부(100)는 수신된 응답 음성 데이터에 관련된 얼굴을 판단한다. 이에 대해서 구체적으로 제어부(100)는 발신장치로부터 수신된 음성 데이터에 대한 응답으로 응답 음성 데이터가 수신되는지 여부를 판단하여 응답 음성 데이터가 수신되면 응답 음성 데이터를 전송한 대상을 확인한다.
450단계에서 제어부(100)는 판단된 얼굴을 확대하고, 확대한 영상을 표시부(160)에 표시한 후 해당 영상을 발신장치로 전달한다.
도 5는 본 발명의 실시 예에 따라 제스쳐 인식에 의한 관심 얼굴을 확대하여 표시하는 과정을 나타내는 흐름도이다.
500단계에서 제어부(100)는 일대다 영상 호 연결 요청에 따라 영상 호 연결을 수행한다.
510단계에서 제어부(100)는 카메라부(110)를 통해서 입력되는 영상으로부터 둘 이상의 수신자에 대한 얼굴 인식을 수행한다. 예를 들어, 제어부(100)는 얼굴 인식부(120)를 통해서 영상 내에 얼굴 인식을 수행하여 얼굴 영역을 검출하고, 검출된 얼굴 영역과 사용자 정보를 대응시켜 저장부(170)에 저장한다.
520단계에서 제어부(100)는 발신장치로부터 발신자에 관련된 음성 및 영상 데이터를 수신한다.
530단계에서 제어부(100)는 수신된 음성 데이터에 대한 응답으로 응답 음성 데이터를 수신되면 540단계에서 응답 음성 데이터 전송 대상에 대한 제스쳐 인식이 되는지 여부를 판단하여 제스쳐가 인식되면 550단계를 진행하고, 제스쳐가 인식되지 않으면 570단계를 진행한다.
550단계에서 제어부(100)는 제스쳐 인식 결과에 따라 관심 대상의 얼굴을 판단한다.
이에 대해서 구체적으로 제어부(100)는 발신 장치로부터 수신된 음성 데이터에 대한 응답으로 응답 음성 데이터가 수신되는지 여부를 판단하여 응답 음성 데이터가 수신되면 응답 음성 데이터를 전송한 대상을 확인한다. 제어부(100)는 확인된 대상에 대한 제스쳐 인식을 수행하여 확인된 대상에 대한 제스쳐가 인식되는지 여부를 판단한다. 제스쳐 인식부(140)를 통해서 확인된 대상에 대한 제스쳐가 인식되면 제어부(100)는 확인된 대상의 얼굴을 검출할 수 있다.
560단계에서 제어부(100)는 판단된 얼굴을 확대하고, 확대한 영상을 표시부(160)에 표시한 후 해당 영상을 발신장치로 전달한다.
제스쳐가 인식되지 않으면 570단계에서 제어부(100)는 전체 화면을 표시부(160)에 표시한다.
도 6 내지 도 9는 본 발명의 실시 예에 따라 음성 및 제스쳐 인식에 의한 관심 대상의 얼굴을 확대하여 표시하는 과정을 설명하기 위한 예시도들이다.
도 6은 본 발명의 실시 예에 따라 일대다 영상 호 연결을 설명하기 위한 예시도이다.
도 6에 따르면 본 발명의 실시 예에서는 발신자인 딸이 발신장치를 통해서 복수의 수신자인 엄마(600), 아빠(610), 아들(620)과 일대다 영상 호 연결을 요청하는 것을 가정한다. 수신장치(10)의 제어부(100)는 카메라부(110)에 의해서 촬영된 영상으로부터 얼굴 이미지를 인식하고, 인식된 얼굴 이미지와 그 얼굴에 대응하는 사용자 정보를 대응시켜 저장부(170)에 저장한다. 이때, 제어부(100)는 수신자로부터 인식된 얼굴에 대한 사용자 정보를 입력받을 수 있다. 또한 전화번호부와 같이 사용자 정보와 얼굴 이미지가 미리 대응되어 저장된 경우 제어부(100)는 미리 저장된 얼굴 이미지와 인식된 얼굴을 비교하여 일치 여부에 따라 인식된 얼굴과 사용자 정보를 대응시켜 저장할 수도 있다.
도 7은 본 발명의 실시 예에 따라 발신자의 음성 데이터로부터 추출된 키워드에 관련된 관심 대상을 자동으로 확대하여 표시하는 과정을 설명하기 위한 예시도이다.
도 7(a)에 따르면 제어부(100)는 발신장치(20)로부터 발신자의 음성 데이터가 수신되면 수신된 음성 데이터에 대한 음성 인식을 수행하여 복수의 수신자에 해당하는 키워드를 추출할 수 있다.
예를 들어, 제어부(100)는 발신장치(20)로부터 “엄마, 저에요~ 오랜만이죠?”라는 음성 데이터가 수신되면 “엄마”, “저에요”, “오랜만이죠”와 같이 각 단어를 인식하고, 인식된 단어들을 미리 저장된 사용자 정보와 비교하여 수신자와 관련된 단어를 추출한다. 만약 “엄마”에 대응하여 저장된 사용자 정보가 존재하면 제어부(100)는 “엄마”를 키워드로써 추출할 수 있다.
제어부(100)는 “엄마”에 관련된 사용자 정보에 대응하여 저장된 얼굴 이미지와 입력된 영상 내 인식된 얼굴 중 일치하는 얼굴을 검출하고, 검출된 얼굴을 확대하여 얼굴이 확대된 영상을 표시부(160)를 통해서 표시할 수 있다. 이때, 제어부(100)는 엄마의 얼굴이 확대된 영상을 미리 설정된 크기의 프리뷰 화면(700)에 표시할 수 있다. 이후 제어부(100)는 엄마의 얼굴이 확대된 영상을 통신부(150)를 통해서 발신장치(20)로 전달한다.
이에 따라, 발신장치는 도 7(b)와 같이 엄마의 얼굴이 확대된 영상을 화면(21)에 표시함으로써 발신자인 딸(630)이 관심을 가지는 관심 대상의 얼굴을 자동으로 확대하여 보여줄 수 있게 된다.
도 8은 본 발명의 실시 예에 따라 발신자의 음성 데이터에 대한 응답 음성 데이터에 관련된 관심 대상을 자동으로 확대하여 표시하는 과정을 설명하기 위한 예시도이다.
도 8에 따르면 제어부(100)는 발신장치로부터 수신된 음성 데이터에 대한 응답으로 응답 음성 데이터가 수신되는지 여부를 판단하여 응답 음성 데이터가 수신되면 응답 음성 데이터를 전송한 대상을 확인한다.
예를 들어, 도 8(a)와 같이 발신 장치(20)로부터 “엄마, 저에요~ 오랜만이죠?”라는 음성 데이터(710)가 수신되면 제어부(100)는 음성 데이터의 응답으로 응답 음성 데이터가 수신되는지 여부를 판단한다. 만약 “어~ 우리딸~”과 같은 응답 음성 데이터(720)가 수신되면 제어부(100)는 응답 음성 데이터를 전송한 대상을 확인한다. 예를 들어, 제어부(100)는 수신된 응답 음성 데이터의 음성 방향을 검출하고, 검출된 음성 방향에 위치하는 대상을 확인한다.
응답 음성 데이터를 전송한 대상이 엄마인 경우 제어부(100)는 카메라부(110)를 통해서 입력되는 영상으로부터 엄마의 얼굴을 검출하고, 검출된 얼굴을 확대하여 얼굴이 확대된 영상을 표시부(160)를 통해서 표시한 후 엄마의 얼굴이 확대된 영상을 통신부(150)를 통해서 발신장(20)치로 전달한다.
또한 제어부(100)는 발신장치(20)로부터 수신된 음성 데이터로부터 복수의 단어들을 인식하도록 음성 인식부(130)를 제어하고, 인식된 단어들 중에서 사용자 정보와 일치하는 단어를 추출할 수 있다. 제어부(100)는 발신장치(20)로부터 수신된 음성 데이터에 대한 응답으로 응답 음성 데이터가 수신되는지 여부를 판단하여 응답 음성 데이터가 수신되면 응답 음성 데이터를 전송한 대상을 확인한다. 제어부(100)는 확인된 대상에 대한 얼굴 인식을 수행하여 인식된 얼굴과 일치하는 얼굴 이미지를 검색하고, 검색된 얼굴 이미지에 대응하는 사용자 정보와 상기에서 추출된 단어가 일치하는지 여부를 판단한다. 검색된 얼굴 이미지에 대응하는 사용자 정보와 상기에서 추출된 단어가 일치하면 제어부(100)는 카메라부(110)로부터 입력되는 영상으로부터 엄마의 얼굴을 검출하고, 검출된 얼굴을 확대하여 얼굴이 확대된 영상을 표시부(160)를 통해서 표시한 후 얼굴이 확대된 영상을 통신부(150)를 통해서 발신장치로 전달한다.
예를 들어, 발신장치(20)로부터 수신된 “엄마, 저에요~ 오랜만이죠?”와 같은 음성 데이터로부터 엄마와 같은 단어를 검출하고, 응답 음성 데이터를 전송한 대상자가 엄마인 것으로 판단된 경우 제어부(100)는 입력 영상으로부터 엄마 얼굴을 검출하고, 검출된 엄마 얼굴을 확대하여 엄마의 얼굴이 확대된 영상을 발신장치(20)에 전달함으로써 도 8의 (b)와 같이 발신자가 관심을 가지는 관심 대상의 얼굴을 자동으로 확대하여 화면(21)에 보여줄 수 있게 된다.
도 9는 본 발명의 실시 예에 따라 제스쳐 인식을 통해서 관심 대상을 자동으로 확대하여 표시하는 과정을 설명하기 위한 예시도이다.
도 9에 따르면 제어부(100)는 발신 장치로부터 수신된 음성 데이터에 대한 응답으로 응답 음성 데이터가 수신되는지 여부를 판단하여 응답 음성 데이터가 수신되면 응답 음성 데이터를 전송한 대상을 확인한다. 제어부(100)는 확인된 대상에 대한 제스쳐 인식을 수행하도록 제스쳐 인식부(140)를 제어하여 확인된 대상에 대한 제스쳐가 인식되는지 여부를 판단한다.
도 9(a)와 같이 제스쳐 인식부(140)를 통해서 엄마가 검지와 중지를 브이(v)모양으로 하는 제스쳐가 인식되면 제어부(100)는 입력 영상으로부터 엄마 얼굴을 검출하고, 검출된 엄마 얼굴을 확대하여 엄마의 얼굴이 확대된 영상을 발신장치(20)에 전달함으로써 도 9(b)와 같이 발신자(630)가 관심을 가지는 관심 대상의 얼굴을 자동으로 확대하여 화면(21)에 보여줄 수 있게 된다.
본 발명의 실시 예에서는 일대다 영상 호 연결 시 하나의 수신자를 관심 대상으로 판단하는 것을 예로 설명하였으나, 하나 이상의 수신자를 관심 대상으로 판단할 수도 있다. 예를 들어, 발신장치로부터 “엄마, 아빠 안녕하세요”라는 음성 데이터가 수신되면 제어부(100)는 음성 데이터로부터 “엄마”, “아빠”를 키워드로 추출하고, 엄마, 아빠에 해당하는 사용자 정보를 검출한 후 검출된 사용자 정보에 대응하여 저장된 얼굴 이미지와 일치하는 대상들을 검출하여 검출된 대상들을 확대하고 확대된 영상을 화면에 표시한 후 발신장치로 전달한다. 이에 따라, 발신장치는 엄마, 아빠의 얼굴이 확대된 영상을 화면에 출력할 수 있다.
본 발명의 실시 예에서는 제어부(100)와 얼굴 인식부(120), 음성 인식부(130), 제스쳐 인식부(140)가 별개로 구성되는 것을 예로 설명하였으나, 얼굴 인식부(120), 음성 인식부(130), 제스쳐 인식부(140)를 별도로 구비하지 않고 제어부(100)가 얼굴 인식부(120), 음성 인식부(130), 제스쳐 인식부(140)의 동작을 수행할 수도 있다.
이와 같이 본 발명은 일대다 영상 통화 시 발신자와 수신자간의 대화 내용과 특정 제스쳐 인식에 의해 관심대상을 판단하고, 해당 관심대상을 확대하여 표시함으로써 사용자가 관심을 가지는 대상을 자동으로 확대하여 보여줄 수 있게 된다.
본 발명의 실시 예들은 하드웨어, 소프트웨어 또는 하드웨어 및 소프트웨어의 조합의 형태로 실현 가능하다는 것을 알 수 있을 것이다. 이러한 임의의 소프트웨어는 예를 들어, 삭제 가능 또는 재기록 가능 여부와 상관없이, ROM 등의 저장 장치와 같은 휘발성 또는 비휘발성 저장 장치, 또는 예를 들어, RAM, 메모리 칩, 장치 또는 집적 회로와 같은 메모리, 또는 예를 들어 CD, DVD, 자기 디스크 또는 자기 테이프 등과 같은 광학 또는 자기적으로 기록 가능함과 동시에 기계(예를 들어, 컴퓨터)로 읽을 수 있는 저장 매체에 저장될 수 있다. 본 발명의 관심 대상 표시 방법은 제어부 및 메모리를 포함하는 컴퓨터 또는 휴대 단말에 의해 구현될 수 있고, 상기 메모리는 본 발명의 실시 예들을 구현하는 지시들을 포함하는 프로그램 또는 프로그램들을 저장하기에 적합한 기계로 읽을 수 있는 저장 매체의 한 예임을 알 수 있을 것이다. 따라서, 본 발명은 본 명세서의 임의의 청구항에 기재된 장치 또는 방법을 구현하기 위한 코드를 포함하는 프로그램 및 이러한 프로그램을 저장하는 기계(컴퓨터 등)로 읽을 수 있는 저장 매체를 포함한다. 또한, 이러한 프로그램은 유선 또는 무선 연결을 통해 전달되는 통신 신호와 같은 임의의 매체를 통해 전자적으로 이송될 수 있고, 본 발명은 이와 균등한 것을 적절하게 포함한다.
또한, 상기 장치는 유선 또는 무선으로 연결되는 장치로부터 상기 프로그램을 수신하여 저장할 수 있다. 상기 장치는 상기 장치가 기설정된 컨텐츠 보호 방법을 수행하도록 하는 지시들을 포함하는 프로그램, 컨텐츠 보호 방법에 필요한 정보 등을 저장하기 위한 메모리와, 상기 장치와의 유선 또는 무선 통신을 수행하기 위한 통신부와, 상기 장치의 요청 또는 자동으로 해당 프로그램을 상기 장치로 전송하는 제어부를 포함할 수 있다.
100: 제어부
110: 무선통신부
120: 얼굴 인식부
130: 음성 인식부
140: 제스쳐 인식부
150: 통신부
160: 표시부
170: 저장부

Claims (16)

  1. 영상 통화 시 관심 대상을 표시하기 위한 장치에 있어서,
    영상 데이터를 획득하는 카메라부,
    음성 데이터를 수신하는 통신부, 및
    제어부를 포함하고, 상기 제어부는:
    상기 영상 데이터로부터 인식된 얼굴 이미지를 상기 인식된 얼굴 이미지에 해당하는 수신자의 사용자 정보에 대응시켜 저장하고,
    발신 장치로부터 수신된 음성 데이터에 대한 응답으로 응답 음성 데이터가 수신되는지 여부를 판단하고,
    상기 응답 음성 데이터가 수신되면 상기 응답 음성 데이터를 전송한 대상을 확인하고,
    상기 응답 음성 데이터를 전송한 대상에 대하여 제스쳐 인식을 수행하고,
    상기 응답 음성 데이터를 전송한 대상에 대하여 상기 제스쳐가 인식되면, 상기 응답 음성 데이터를 전송한 대상을 관심 대상으로서 확인하고,
    상기 관심 대상을 확대한 영상 데이터를 상기 통신부를 통하여 상기 발신장치로 전송하도록 설정되는, 관심 대상 표시 장치.
  2. 제1항에 있어서,
    상기 관심 대상을 확대한 영상 데이터를 표시하는 표시부를 더 구비하는 것을 특징으로 하는 관심 대상 표시 장치.
  3. 삭제
  4. 삭제
  5. 삭제
  6. 제1항에 있어서, 상기 제어부는,
    상기 발신장치로부터 수신된 음성 데이터에 대한 음성 인식을 수행하여 하나 이상의 수신자에 관련된 키워드가 추출되는지 여부를 판단하고, 상기 하나 이상의 수신자에 관련된 키워드가 추출되면 상기 추출된 키워드에 관련된 사용자 정보를 검출한 후 상기 추출된 키워드에 관련된 상기 하나 이상의 수신자로부터 상기 발신 장치로부터 수신된 상기 음성 데이터에 대한 응답으로 상기 응답 음성 데이터가 수신되는지 여부를 판단하는 것을 특징으로 하는 관심 대상 표시 장치.
  7. 삭제
  8. 삭제
  9. 영상 통화 시 관심 대상을 표시하기 위한 방법에 있어서,
    영상 데이터로부터 인식된 얼굴 이미지를 상기 인식된 얼굴 이미지에 해당하는 수신자의 사용자 정보에 대응시켜 저장하는 동작,
    발신장치로부터 수신된 음성 데이터에 대한 응답으로 응답 음성 데이터가 수신되는지 여부를 판단하는 동작,
    상기 응답 음성 데이터가 수신되면 상기 응답 음성 데이터를 전송한 대상을 확인하는 동작,
    상기 응답 음성 데이터를 전송한 대상에 대하여 제스쳐 인식을 수행하는 동작,
    상기 응답 음성 데이터를 전송한 대상에 대하여 상기 제스쳐가 인식되면, 상기 응답 음성 데이터를 전송한 대상을 관심 대상으로서 확인하는 동작, 및
    상기 관심 대상을 확대한 영상 데이터를 상기 발신장치로 전송하는 동작을 포함하는 것을 특징으로 하는 관심 대상 표시 방법.
  10. 제9항에 있어서,
    상기 관심 대상을 확대한 영상 데이터를 표시하는 동작을 더 포함하는 것을 특징으로 하는 관심 대상 표시 방법.
  11. 삭제
  12. 삭제
  13. 삭제
  14. 제9항에 있어서, 상기 방법은,
    상기 발신장치로부터 수신된 음성 데이터에 대한 음성 인식을 수행하여 하나 이상의 수신자에 관련된 키워드가 추출되는지 여부를 판단하는 동작과,
    상기 하나 이상의 수신자에 관련된 키워드가 추출되면 상기 추출된 키워드에 관련된 사용자 정보를 검출하는 동작
    을 더 포함하고,
    상기 발신장치로부터 수신된 상기 음성 데이터에 대한 응답으로 상기 응답 음성 데이터가 수신되는지 여부를 판단하는 동작은 상기 추출된 키워드에 관련된 상기 하나 이상의 수신자로부터 상기 발신 장치로부터 수신된 상기 음성 데이터에 대한 응답으로 상기 응답 음성 데이터가 수신되는지 여부를 판단하는 동작을 포함하는 것을 특징으로 하는 관심 대상 표시 방법.
  15. 삭제
  16. 삭제
KR1020130061955A 2013-05-30 2013-05-30 영상 통화 시 관심 대상을 표시하기 위한 장치 및 그 방법 KR102078132B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130061955A KR102078132B1 (ko) 2013-05-30 2013-05-30 영상 통화 시 관심 대상을 표시하기 위한 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130061955A KR102078132B1 (ko) 2013-05-30 2013-05-30 영상 통화 시 관심 대상을 표시하기 위한 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20140140916A KR20140140916A (ko) 2014-12-10
KR102078132B1 true KR102078132B1 (ko) 2020-02-17

Family

ID=52458566

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130061955A KR102078132B1 (ko) 2013-05-30 2013-05-30 영상 통화 시 관심 대상을 표시하기 위한 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR102078132B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019045128A1 (ko) * 2017-08-29 2019-03-07 라인 가부시키가이샤 영상통화의 영상 품질 향상
CN113038149A (zh) 2019-12-09 2021-06-25 上海幻电信息科技有限公司 直播视频互动方法、装置以及计算机设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010233045A (ja) * 2009-03-27 2010-10-14 Brother Ind Ltd 会議支援装置、会議支援方法、会議システム、会議支援プログラム
JP2011217374A (ja) * 2010-03-31 2011-10-27 Polycom Inc 会議出席者間の相互作用に従ってcp配置を適合させるための方法およびシステム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130054131A (ko) * 2011-11-16 2013-05-24 삼성전자주식회사 디스플레이장치 및 그 제어방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010233045A (ja) * 2009-03-27 2010-10-14 Brother Ind Ltd 会議支援装置、会議支援方法、会議システム、会議支援プログラム
JP2011217374A (ja) * 2010-03-31 2011-10-27 Polycom Inc 会議出席者間の相互作用に従ってcp配置を適合させるための方法およびシステム

Also Published As

Publication number Publication date
KR20140140916A (ko) 2014-12-10

Similar Documents

Publication Publication Date Title
US10971188B2 (en) Apparatus and method for editing content
US10652316B2 (en) Method and device for transmitting data, and method and device for receiving data
EP3143477B1 (en) System and method for providing haptic feedback to assist in capturing images
US11720179B1 (en) System and method for redirecting content based on gestures
RU2669063C2 (ru) Способ и устройство получения изображений
US10684754B2 (en) Method of providing visual sound image and electronic device implementing the same
JP6167245B2 (ja) 通信メッセージ識別方法、通信メッセージ識別装置、プログラム及び記録媒体
EP2960882A1 (en) Display device and operating method thereof
KR102193029B1 (ko) 디스플레이 장치 및 그의 화상 통화 수행 방법
US20160063894A1 (en) Electronic apparatus having a voice guidance function, a system having the same, and a corresponding voice guidance method
US10078490B2 (en) Mobile device and controlling method therefor
KR20190053725A (ko) 디스플레이장치 및 그 제어방법
CN105518712A (zh) 基于字符识别的关键词通知方法及设备、计算机程序产品
US9491401B2 (en) Video call method and electronic device supporting the method
KR20130094023A (ko) 디스플레이장치 및 그 시선추적방법
KR102374584B1 (ko) 영상을 디스플레이 하는 방법 및 디바이스
US20180366089A1 (en) Head mounted display cooperative display system, system including dispay apparatus and head mounted display, and display apparatus thereof
JP2009206924A (ja) 情報処理装置、情報処理システム及び情報処理プログラム
KR102078132B1 (ko) 영상 통화 시 관심 대상을 표시하기 위한 장치 및 그 방법
US20190042830A1 (en) Method, device and storage medium for processing picture
KR102467041B1 (ko) 전자 장치 및 전자 장치에서 방송 콘텐트와 관련된 서비스 정보 제공 방법
US20140136991A1 (en) Display apparatus and method for delivering message thereof
KR20170037862A (ko) 문자열 저장방법 및 장치
CN111090738A (zh) 一种基于双屏的拍照搜题方法及电子设备
CN112154412B (zh) 用数字助理提供音频信息

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant