KR102090948B1 - 대화 기록 장치 및 그 방법 - Google Patents

대화 기록 장치 및 그 방법 Download PDF

Info

Publication number
KR102090948B1
KR102090948B1 KR1020130056772A KR20130056772A KR102090948B1 KR 102090948 B1 KR102090948 B1 KR 102090948B1 KR 1020130056772 A KR1020130056772 A KR 1020130056772A KR 20130056772 A KR20130056772 A KR 20130056772A KR 102090948 B1 KR102090948 B1 KR 102090948B1
Authority
KR
South Korea
Prior art keywords
voice signal
person
text
content
control unit
Prior art date
Application number
KR1020130056772A
Other languages
English (en)
Other versions
KR20140136349A (ko
Inventor
김소라
김진용
김현경
김희운
안유미
안지현
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020130056772A priority Critical patent/KR102090948B1/ko
Priority to US14/221,863 priority patent/US9883018B2/en
Priority to EP14168495.1A priority patent/EP2806618B1/en
Publication of KR20140136349A publication Critical patent/KR20140136349A/ko
Application granted granted Critical
Publication of KR102090948B1 publication Critical patent/KR102090948B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/64Automatic arrangements for answering calls; Automatic arrangements for recording messages for absent subscribers; Arrangements for recording conversations
    • H04M1/65Recording arrangements for recording a message from the calling party
    • H04M1/656Recording arrangements for recording a message from the calling party for recording conversations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)

Abstract

본 발명의 일 실시예에 따른 대화 기록 방법은 컨텐츠를 촬영하는 단계;와 적어도 하나의 음성 신호를 입력받는 단계;와 상기 적어도 하나의 음성 신호를 분석하여 상기 적어도 하나의 음성 신호에 대응하는 적어도 하나의 인물을 구분하는 단계;와 상기 적어도 하나의 음성 신호를 상기 적어도 하나의 음성 신호에 대응하는 텍스트로 변환하는 단계;와 상기 구분된 적어도 하나의 인물에 대응하여 상기 텍스트를 상기 촬영된 컨텐츠에 표시하는 단계를 포함한다.

Description

대화 기록 장치 및 그 방법{APPARATUS SAVING CONVERSATION AND METHOD THEREOF}
본 발명은 대화 기록 장치 및 그 방법에 관한 기술에 속하고, 특히 대화를 효과적으로 기록하여 표시하는 장치 및 그 방법에 관한 기술에 속한다.
최근 모바일 장치는 급속도로 발전하고 있다. 특히 상기 모바일 장치에서는 카메라를 이용하여 사진이나 동영상과 같은 컨텐츠가 촬영될 수 있다. 그리고 상기 모바일 장치에는 마이크가 포함될 수 있다. 이때 상기 마이크를 이용하여 상기 모바일 장치는 음성 신호를 입력받을 수 있다.
하지만 일반적으로 상기 모바일 장치는 촬영된 사진이나 동영상과 같은 컨텐츠를 촬영된 상태 그대로 표시부에 표시하거나, 녹음된 음성 신호를 그대로 재생하는 서비스 밖에 제공하지를 못한다.
그러므로, 상기 모바일 장치 상에서 촬영된 사진이나 동영상과 같은 컨텐츠와 함께 상기 마이크로부터 녹음된 음성 신호를 가공하여 사용자에게 유익한 서비스를 제공하는 기술이 필요한 실정이다.
본 발명의 일 실시예는, 적어도 하나의 음성 신호에 대응하는 적어도 하나의 인물을 구분하여, 적어도 하나의 음성 신호로부터 변환된 상기 적어도 하나의 음성 신호에 대응하는 텍스트를 적어도 하나의 인물에 대응시켜 촬영된 컨텐츠에 표시할 수 있는 대화 기록 장치 및 그 방법을 제공한다.
본 발명의 일 실시예에 따른 대화 기록 방법은 컨텐츠를 촬영하는 단계;와 적어도 하나의 음성 신호를 입력받는 단계;와 상기 적어도 하나의 음성 신호를 분석하여 상기 적어도 하나의 음성 신호에 대응하는 적어도 하나의 인물을 구분하는 단계;와 상기 적어도 하나의 음성 신호를 상기 적어도 하나의 음성 신호에 대응하는 텍스트로 변환하는 단계;와 상기 구분된 적어도 하나의 인물에 대응하여 상기 텍스트를 상기 촬영된 컨텐츠에 표시하는 단계를 포함한다.
본 발명의 일 실시예에 따른 대화 기록 장치는 컨텐츠를 촬영하고, 적어도 하나의 음성 신호를 입력받고, 상기 적어도 하나의 음성 신호를 분석하여 상기 적어도 하나의 음성 신호에 대응하는 적어도 하나의 인물을 구분하고, 상기 적어도 하나의 음성 신호를 상기 적어도 하나의 음성 신호에 대응하는 텍스트로 변환하고, 상기 구분된 적어도 하나의 인물에 대응하여 상기 텍스트를 상기 촬영된 컨텐츠에 표시하는 제어부와; 상기 컨텐츠를 촬영하는 카메라와; 상기 컨텐츠를 표시하는 표시부를 포함한다.
본 발명의 일 실시예에 따르면, 적어도 하나의 음성 신호에 대응하는 적어도 하나의 인물을 구분하여, 적어도 하나의 음성 신호로부터 변환된 상기 적어도 하나의 음성 신호에 대응하는 텍스트를 적어도 하나의 인물에 대응시켜 촬영된 컨텐츠에 표시할 수 있는 이점이 있다. 즉, 본 발명의 일 실시예에 따르면, 적어도 하나의 음성 신호로부터 변환된 상기 적어도 하나의 음성 신호에 대응하는 텍스트뿐만 아니라, 상기 적어도 하나의 음성 신호에 대응하는 텍스트를 적어도 하나의 인물에 대응시켜 촬영된 컨텐츠에 표시할 수 있는 이점이 있다. 그러므로, 사용자는 상기 적어도 하나의 음성 신호로부터 변환된 상기 적어도 하나의 음성 신호에 대응하는 텍스트가 적어도 하나의 인물에 각각 대응됨을 즉각적으로 인지할 수 있는 이점이 있다.
본 발명의 다른 실시예에 따르면, 적어도 하나의 음성 신호에 대응하는 적어도 하나의 인물을 구분하여, 적어도 하나의 음성 신호로부터 변환된 상기 적어도 하나의 음성 신호에 대응하는 텍스트를 적어도 하나의 인물에 대응시켜 이름과 함께 촬영된 컨텐츠에 표시할 수 있는 이점이 있다.
본 발명의 또 다른 실시예에 따르면, 적어도 하나의 음성 신호에 대응하는 적어도 하나의 인물을 구분하여, 적어도 하나의 음성 신호로부터 변환된 상기 적어도 하나의 음성 신호에 대응하는 텍스트를 적어도 하나의 인물에 대응시켜 촬영된 컨텐츠의 입술 움직임이 발생한 위치에 표시할 수 있는 이점이 있다.
본 발명의 또 다른 실시예에 따르면, 적어도 하나의 음성 신호로부터 변환된 상기 적어도 하나의 음성 신호에 대응하는 텍스트를, 지향성 마이크를 이용하여 검출된 음성 신호의 방향을 고려하여, 촬영된 컨텐츠의 입술 움직임이 발생한 위치에 표시할 수 있는 이점이 있다.
본 발명의 또 다른 실시예에 따르면, 적어도 하나의 음성 신호로부터 변환된 상기 적어도 하나의 음성 신호에 대응하는 텍스트를 지향성 마이크를 이용하여 검출된 촬영된 컨텐츠 외부에서 발생한 음성 신호의 방향을 고려하여 표시할 수 있는 이점이 있다.
도 1은 본 발명의 일 실시예에 따른 모바일 장치를 나타내는 개략적인 블록도이다.
도 2는 본 발명의 일 실시예에 따른 모바일 장치의 전면 사시도이다.
도 3은 본 발명의 일 실시예에 따른 모바일 장치의 후면 사시도이다.
도 4는 본 발명의 일 실시예에 따른 대화 기록 방법에 관한 순서도이다.
도 5는 본 발명의 일 실시예에 따른 대화 기록 장치의 화면을 나타내는 도면이다.
도 6은 본 발명의 다른 실시예에 따른 대화 기록 방법에 관한 순서도이다.
도 7은 본 발명의 다른 실시예에 따른 대화 기록 장치의 화면을 나타내는 도면이다.
도 8은 본 발명의 또 다른 실시예에 따른 대화 기록 방법에 관한 순서도이다.
도 9는 본 발명의 또 다른 실시예에 따른 대화 기록 장치의 화면을 나타내는 도면이다.
도 10은 본 발명의 또 다른 실시예에 따른 대화 기록 방법에 관한 순서도이다.
도 11은 본 발명의 또 다른 실시예에 따른 대화 기록 장치의 화면을 나타내는 도면이다.
도 12는 본 발명의 또 다른 실시예에 따른 대화 기록 방법에 관한 순서도이다.
도 13은 본 발명의 또 다른 실시예에 따른 대화 기록 장치의 화면을 나타내는 도면이다.
도 14는 지향성 마이크를 이용하여 상기 적어도 하나의 음성 신호의 방향을 검출하는 장면을 나타내는 도면이다.
도 15는 본 발명의 또 다른 실시예에 따른 대화 기록 방법에 관한 순서도이다.
도 16은 본 발명의 또 다른 실시예에 따른 대화 기록 장치의 화면을 나타내는 도면이다.
도 17은 지향성 마이크를 이용하여 상기 적어도 하나의 음성 신호의 방향을 검출하는 장면을 나타내는 도면이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는바, 특정 실시 예들을 도면에 예시하여 상세하게 설명한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
본 발명의 일 실시예에 따른 장치는 퍼스널 컴퓨터, 모바일 장치, 또는 스마트 TV와 같은 장치에 해당한다. 다만 하기에서는 모바일 장치의 예로 설명하나, 본 발명은 모바일 장치에 한정되지 아니한다.
도 1은 본 발명의 일 실시예에 따른 모바일 장치를 나타내는 개략적인 블록도이다.
도 1을 참조하면, 장치(100)는 서브통신 모듈(130), 커넥터(165), 및 이어폰 연결잭(167)과 같은 외부 장치 연결부를 이용하여 외부 장치(도시되지 아니함)와 연결될 수 있다. “외부 장치”는 상기 장치(100)에 탈착되어 유선으로 연결 가능한 이어폰(Earphone), 외부 스피커(External speaker), USB(Universal Serial Bus) 메모리, 충전기, 크래들(Cradle), 도킹 스테이션(Docking station), DMB 안테나, 모바일 결제 관련 장치, 건강 관리 장치(혈당계 등), 게임기, 자동차 내비게이션 장치 등 다양한 장치들을 포함할 수 있다. 또한 상기 "외부 장치"는 근거리 통신에 의하여 무선으로 상기 장치(100)에 연결될 수 있는 블루투스 통신 장치, NFC(Near Field Communication) 장치와 같은 근거리 통신 장치, 및 WiFi Direct 통신 장치, 무선 액세스 포인트(AP, Access Point)를 포함할 수 있다. 또한, 상기 외부 장치는 다른 장치, 휴대폰, 스마트폰, 태블릿PC, 데스크탑 PC, 및 서버를 포함할 수 있다.
도 1을 참조하면, 장치(100)는 표시부(190) 및 디스플레이 컨트롤러(195)를 포함한다. 또한, 장치(100)는 제어부(110), 이동통신 모듈(120), 서브통신 모듈(130), 멀티미디어 모듈(140), 카메라 모듈(150), GPS모듈(155), 입/출력 모듈(160), 센서 모듈(170), 저장부(175) 및 전원공급부(180)를 포함한다. 서브통신 모듈(130)은 무선랜 모듈(131) 및 근거리통신 모듈(132) 중 적어도 하나를 포함하고, 멀티미디어 모듈(140)은 방송통신 모듈(141), 오디오재생 모듈(142) 및 동영상재생 모듈(143) 중 적어도 하나를 포함한다. 카메라 모듈(150)은 제1 카메라(151) 및 제2 카메라(152) 중 적어도 하나를 포함하고, 입/출력 모듈(160)은 버튼(161), 마이크(162), 스피커(163), 진동모터(164), 커넥터(165), 키패드(166), 및 이어폰 연결잭(167) 중 적어도 하나를 포함한다. 이하에서는 상기 표시부(190) 및 디스플레이 컨트롤러(195)가 각각 터치스크린 및 터치스크린 컨트롤러인 경우를 예로 들어 설명한다.
제어부(110)는 CPU(111), 장치(100)의 제어를 위한 제어프로그램이 저장된 롬(ROM, 112) 및 장치(100)의 외부로부터 입력되는 신호 또는 데이터를 기억하거나, 장치(100)에서 수행되는 작업을 위한 기억영역으로 사용되는 램(RAM, 113)을 포함할 수 있다. CPU(111)는 싱글 코어, 듀얼 코어, 트리플 코어, 또는 쿼드 코어를 포함할 수 있다. CPU(111), 롬(112) 및 램(113)은 내부버스(bus)를 통해 상호 연결될 수 있다.
제어부(110)는 이동통신 모듈(120), 서브통신 모듈(130), 멀티미디어 모듈(140), 카메라 모듈(150), GPS 모듈(155), 입/출력 모듈(160), 센서 모듈(170), 저장부(175), 전원공급부(180), 터치스크린(190), 및 터치스크린 컨트롤러(195)를 제어할 수 있다.
이동통신 모듈(120)은 제어부(110)의 제어에 따라 적어도 하나-하나 또는 복수-의 안테나(도시되지 아니함)를 이용하여 이동 통신을 통해 장치(100)가 외부 장치와 연결되도록 한다. 이동통신 모듈(120)은 장치(100)에 입력되는 전화번호를 가지는 휴대폰(도시되지 아니함), 스마트폰(도시되지 아니함), 태블릿PC 또는 다른 장치(도시되지 아니함)와 음성 통화, 화상 통화, 문자메시지(SMS) 또는 멀티미디어 메시지(MMS)를 위한 무선 신호를 송/수신한다.
서브통신 모듈(130)은 무선랜 모듈(131)과 근거리통신 모듈(132) 중 적어도 하나를 포함할 수 있다. 예를 들어, 무선랜 모듈(131)만 포함하거나, 근거리통신 모듈(132)만 포함하거나 또는 무선랜 모듈(131)과 근거리통신 모듈(132)을 모두 포함할 수 있다.
무선랜 모듈(131)은 제어부(110)의 제어에 따라 무선 액세스 포인트(AP, access point)(도시되지 아니함)가 설치된 장소에서 인터넷에 연결될 수 있다. 무선랜 모듈(131)은 미국전기전자학회(IEEE)의 무선랜 규격(IEEE802.11x)을 지원한다. 근거리통신 모듈(132)은 제어부(110)의 제어에 따라 장치(100)와 화상형성장치(도시되지 아니함) 사이에 무선으로 근거리 통신을 할 수 있다. 근거리 통신방식은 블루투스(bluetooth), 적외선 통신(IrDA, infrared data association), 와이파이 다이렉트(WiFi-Direct) 통신, NFC(Near Field Communication) 등이 포함될 수 있다.
장치(100)는 성능에 따라 이동통신 모듈(120), 무선랜 모듈(131), 및 근거리통신 모듈(132) 중 적어도 하나를 포함할 수 있다. 예를 들어, 장치(100)는 성능에 따라 이동통신 모듈(120), 무선랜 모듈(131), 및 근거리통신 모듈(132)들의 조합을 포함할 수 있다.
멀티미디어 모듈(140)은 방송통신 모듈(141), 오디오재생 모듈(142) 또는 동영상재생 모듈(143)을 포함할 수 있다. 방송통신 모듈(141)은 제어부(110)의 제어에 따라 방송통신 안테나(도시되지 아니함)를 통해 방송국에서부터 송출되는 방송 신호(예, TV방송 신호, 라디오방송 신호 또는 데이터방송 신호) 및 방송부가 정보(예, EPG(Electric Program Guide) 또는 ESG(Electric Service Guide))를 수신할 수 있다. 오디오재생 모듈(142)은 제어부(110)의 제어에 따라 저장되거나 또는 수신되는 디지털 오디오 파일(예, 파일 확장자가 mp3, wma, ogg 또는 wav인 파일)을 재생할 수 있다. 동영상재생 모듈(143)은 제어부(110)의 제어에 따라 저장되거나 또는 수신되는 디지털 동영상 파일(예, 파일 확장자가 mpeg, mpg, mp4, avi, mov, 또는 mkv인 파일)을 재생할 수 있다. 동영상재생 모듈(143)은 디지털 오디오 파일을 재생할 수 있다.
멀티미디어 모듈(140)은 방송통신 모듈(141)을 제외하고 오디오재생 모듈(142)과 동영상재생 모듈(143)을 포함할 수 있다. 또한, 멀티미디어 모듈(140)의 오디오재생 모듈(142) 또는 동영상재생 모듈(143)은 제어부(110)에 포함될 수 있다.
카메라 모듈(150)은 제어부(110)의 제어에 따라 정지이미지 또는 동영상을 촬영하는 제1 카메라(151) 및 제2 카메라(152) 중 적어도 하나를 포함할 수 있다. 또한, 제1 카메라(151) 또는 제2 카메라(152)는 촬영에 필요한 광량을 제공하는 보조 광원(예, 플래시(도시되지 아니함))을 포함할 수 있다. 제1 카메라(151)는 상기 장치(100) 전면에 배치되고, 제2 카메라(152)는 상기 장치(100)의 후면에 배치될 수 있다. 달리 취한 방식으로, 제1 카메라(151)와 제2 카메라(152)는 인접(예, 제1 카메라(151)와 제2 카메라(152)의 간격이 1 cm 보다 크고, 8 cm 보다는 작은)하게 배치되어 3차원 정지이미지 또는 3차원 동영상을 촬영할 수 있다.
GPS 모듈(155)은 지구 궤도상에 있는 복수의 GPS위성(도시되지 아니함)에서부터 전파를 수신하고, GPS위성(도시되지 아니함)에서부터 장치(100)까지 전파도달시간(Time of Arrival)을 이용하여 장치(100)의 위치를 산출할 수 있다.
입/출력 모듈(160)은 복수의 버튼(161), 마이크(162), 스피커(163), 진동모터(164), 커넥터(165), 및 키패드(166) 중 적어도 하나를 포함할 수 있다.
버튼(161)은 상기 장치(100)의 하우징의 전면, 측면 또는 후면에 형성될 수 있으며, 전원/잠금 버튼, 볼륨버튼, 메뉴 버튼, 홈 버튼, 돌아가기 버튼(back button) 및 검색 버튼 중 적어도 하나를 포함할 수 있다.
마이크(162)는 제어부(110)의 제어에 따라 음성(voice) 또는 사운드(sound)를 입력 받아 전기적인 신호를 생성한다.
스피커(163)는 제어부(110)의 제어에 따라 이동통신 모듈(120), 서브통신 모듈(130), 멀티미디어 모듈(140) 또는 카메라 모듈(150)의 다양한 신호(예, 무선신호, 방송신호, 디지털 오디오 파일, 디지털 동영상 파일 또는 사진 촬영 등)에 대응되는 사운드를 장치(100) 외부로 출력할 수 있다. 스피커(163)는 장치(100)가 수행하는 기능에 대응되는 사운드(예, 전화 통화에 대응되는 버튼 조작음, 또는 통화 연결음)를 출력할 수 있다. 스피커(163)는 상기 장치(100)의 하우징의 적절한 위치 또는 위치들에 하나 또는 복수로 형성될 수 있다.
진동모터(164)는 제어부(110)의 제어에 따라 전기적 신호를 기계적 진동으로 변환할 수 있다. 예를 들어, 진동 모드에 있는 장치(100)는 다른 장치(도시되지 아니함)로부터 음성통화가 수신되는 경우, 진동모터(164)가 동작한다. 상기 장치(100)의 하우징 내에 하나 또는 복수로 형성될 수 있다. 진동모터(164)는 터치스크린(190) 상을 터치하는 사용자의 터치 동작 및 터치스크린(190) 상에서의 터치의 연속적인 움직임에 응답하여 동작할 수 있다.
커넥터(165)는 상기 장치(100)와 외부 장치(도시되지 아니함) 또는 전원소스(도시되지 아니함)를 연결하기 위한 인터페이스로 이용될 수 있다. 상기 장치(100)는 제어부(110)의 제어에 따라 커넥터(165)에 연결된 유선 케이블을 통해 장치(100)의 저장부(175)에 저장된 데이터를 외부 장치(도시되지 아니함)로 전송하거나 또는 외부 장치(도시되지 아니함)로부터 데이터를 수신할 수 있다. 이때 상기 외부 장치는 도킹 스테이션일 수 있고, 상기 데이터는 외부 입력 장치 예를 들면, 마우스, 키보드 등으로부터 전달된 입력 신호일 수 있다. 또한 상기 장치(100)는 커넥터(165)에 연결된 유선 케이블을 통해 전원소스(도시되지 아니함)로부터 전원을 입력받거나, 상기 전원소스를 이용하여 배터리(도시되지 아니함)를 충전할 수 있다.
키패드(166)는 장치(100)의 제어를 위해 사용자로부터 키 입력을 수신할 수 있다. 키패드(166)는 장치(100)에 형성되는 물리적인 키패드(도시되지 아니함) 또는 터치스크린(190)에 표시되는 가상의 키패드(도시되지 아니함)를 포함한다. 장치(100)에 형성되는 물리적인 키패드(도시되지 아니함)는 장치(100)의 성능 또는 구조에 따라 제외될 수 있다.
이어폰 연결잭(Earphone Connecting Jack, 167)에는 이어폰(도시되지 아니함)이 삽입되어 상기 장치(100)에 연결될 수 있다.
센서 모듈(170)은 장치(100)의 상태를 검출하는 적어도 하나의 센서를 포함한다. 예를 들어, 센서 모듈(170)은 사용자의 장치(100)에 대한 접근여부를 검출하는 근접센서와 장치(100) 주변의 빛의 양을 검출하는 조도센서를 포함할 수 있다. 또한 상기 센서 모듈(170)은 자이로 센서(Gyro Sensor)를 포함할 수 있다. 상기 자이로 센서는 장치(100)의 동작(예, 장치(100)의 회전, 장치(100)에 가해지는 가속도 또는 진동)을 검출할 수 있고, 지구 자기장을 이용해 방위(point of the compass)를 검출할 수도 있으며, 중력의 작용 방향을 검출할 수도 있다. 또한 상기 센서모듈(170)은 대기의 압력을 측정하여 고도를 검출하는 고도계(Altimeter)를 포함할 수 있다. 상기 적어도 하나의 센서는 상태를 검출하고, 검출에 대응되는 신호를 생성하여 제어부(110)로 전송할 수 있다. 센서 모듈(170)의 상기 적어도 하나의 센서는 장치(100)의 성능에 따라 추가되거나 삭제될 수 있다.
저장부(175)는 제어부(110)의 제어에 따라 이동통신 모듈(120), 서브통신 모듈(130), 멀티미디어 모듈(140), 카메라 모듈(150), GPS모듈(155), 입/출력 모듈(160), 센서 모듈(170), 터치스크린(190)의 동작에 대응되게 입/출력되는 신호 또는 데이터를 저장할 수 있다. 저장부(175)는 장치(100) 또는 제어부(110)의 제어를 위한 제어 프로그램 및 애플리케이션들을 저장할 수 있다.
“저장부”라는 용어는 저장부(175), 제어부(110)내 롬(112), 램(113) 또는 장치(100)에 장착되는 메모리 카드(도시되지 아니함)(예, SD 카드, 메모리 스틱)를 포함한다. 저장부는 비휘발성메모리, 휘발성메모리, 하드 디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD)를 포함할 수 있다.
전원공급부(180)는 제어부(110)의 제어에 따라 장치(100)의 하우징에 배치되는 하나 또는 복수의 배터리(도시되지 아니함)에 전원을 공급할 수 있다. 하나 또는 복수의 배터리(도시되지 아니함)는 장치(100)에 전원을 공급한다. 또한, 전원공급부(180)는 커넥터(165)와 연결된 유선 케이블을 통해 외부의 전원소스(도시되지 아니함)에서부터 입력되는 전원을 장치(100)로 공급할 수 있다. 또한, 전원공급부(180)는 무선 충전 기술을 통해 외부의 전원소스로부터 무선으로 입력되는 전원을 장치(100)로 공급할 수도 있다.
터치스크린(190)은 사용자에게 다양한 서비스(예, 통화, 데이터 전송, 방송, 사진촬영)에 대응되는 유저 인터페이스를 제공할 수 있다. 터치스크린(190)은 유저 인터페이스에 입력되는 적어도 하나의 터치에 대응되는 아날로그 신호를 터치스크린 컨트롤러(195)로 전송할 수 있다. 터치스크린(190)은 사용자의 신체(예, 엄지를 포함하는 손가락) 또는 터치가능한 입력 수단(예, 스타일러스 펜)을 통해 적어도 하나의 터치를 입력받을 수 있다. 또한, 터치스크린(190)은 적어도 하나의 터치 중에서, 하나의 터치의 연속적인 움직임을 입력받을 수 있다. 터치스크린(190)은 입력되는 터치의 연속적인 움직임에 대응되는 아날로그 신호를 터치스크린 컨트롤러(195)로 전송할 수 있다.
본 발명에서 터치는 터치스크린(190)과 사용자의 신체 또는 터치 가능한 입력 수단과의 접촉에 한정되지 않고, 비접촉을 포함할 수 있다. 터치스크린(190)에서 검출가능한 간격은 장치(100)의 성능 또는 구조에 따라 변경될 수 있다.
터치스크린(190)은 예를 들어, 저항막(resistive) 방식, 정전용량(capacitive) 방식, 적외선(infrared) 방식 또는 초음파(acoustic wave) 방식으로 구현될 수 있다.
터치스크린 컨트롤러(195)는 터치스크린(190)에서부터 수신된 아날로그 신호를 디지털 신호(예, X와 Y좌표)로 변환하여 제어부(110)로 전송한다. 제어부(110)는 터치스크린 컨트롤러(195)로부터 수신된 디지털 신호를 이용하여 터치스크린(190)을 제어할 수 있다. 예를 들어, 제어부(110)는 터치에 응답하여 터치스크린(190)에 표시된 단축 아이콘(도시되지 아니함)이 선택되게 하거나 또는 단축 아이콘(도시되지 아니함)을 실행할 수 있다. 또한, 터치스크린 컨트롤러(195)는 제어부(110)에 포함될 수도 있다.
도 2는 본 발명의 일 실시예에 따른 모바일 장치의 전면 사시도이다. 도 3은 본 발명의 일 실시예에 따른 모바일 장치의 후면 사시도이다.
도 2를 참조하면, 장치(100)의 전면(100a) 중앙에는 터치스크린(190)이 배치된다. 상기 터치스크린(190)은 장치(100)의 전면(100a)의 대부분을 차지하도록 크게 형성된다. 도 2에서는, 상기 터치스크린(190)에 메인 홈 화면이 표시된 예를 나타낸다. 메인 홈 화면은 장치(100)의 전원을 켰을 때 상기 터치스크린(190) 상에 표시되는 첫 화면이다. 또한 상기 장치(100)가 여러 페이지의 서로 다른 홈 화면들을 갖고있을 경우, 메인 홈 화면은 상기 여러 페이지의 홈 화면들 중 첫 번째 홈 화면일 수 있다. 홈 화면에는 자주 사용되는 애플리케이션들을 실행하기 위한 단축 아이콘들(191-1, 191-2, 191-3), 애플리케이션 전환키(191-4), 시간, 날씨 등이 표시될 수 있다. 상기 애플리케이션 전환키(191-4)는 상기 터치스크린(190) 상에 애플리케이션들을 나타내는 애플리케이션 아이콘들을 화면상에 표시한다. 또한, 상기 터치스크린(190)의 상단에는 배터리 충전상태, 수신신호의 세기, 현재 시각과 같은 장치(100)의 상태를 표시하는 상태 바(Status Bar, 192)가 형성될 수도 있다.
상기 터치스크린(190)의 하부에는 홈 버튼(161a), 메뉴 버튼(161b), 및 뒤로 가기 버튼(161c)이 형성될 수 있다.
홈 버튼(161a)은 터치스크린(190)에 메인 홈 화면(main Home screen)을 표시한다. 예를 들어, 터치스크린(190)에 상기 메인 홈 화면과 다른 홈 화면(any Home screen) 또는 메뉴화면이 표시된 상태에서, 상기 홈 버튼(161a)가 눌려지면(또는 터치되면), 터치스크린(190)에 메인 홈 화면이 디스플레이될 수 있다. 또한, 터치스크린(190) 상에서 애플리케이션들이 실행되는 도중 홈 버튼(161a)이 눌려지면(또는 터치되면), 상기 터치스크린(190)상에는 도 2에 도시된 메인 홈 화면이 디스플레이될 수 있다. 또한 홈 버튼(161a)은 상기 터치스크린(190) 상에 최근에(recently) 사용된 애플리케이션들을 디스플레이하도록 하거나, 태스크 매니저(Task Manager)를 디스플레이하기 위하여 사용될 수도 있다.
메뉴 버튼(161b)은 터치스크린(190) 상에서 사용될 수 있는 연결 메뉴를 제공한다. 상기 연결 메뉴에는 위젯 추가 메뉴, 배경화면 변경 메뉴, 검색 메뉴, 편집 메뉴, 환경 설정 메뉴 등이 포함될 수 있다. 그리고 애플리케이션 실행시 상기 애플리케이션에 연결된 연결 메뉴를 제공할 수도 있다.
뒤로 가기 버튼(161c)은 현재 실행되고 있는 화면의 바로 이전에 실행되었던 화면을 디스플레이하거나, 가장 최근에 사용된 애플리케이션을 종료시킬 수 있다.
장치(100)의 전면(100a) 가장자리에는 제1 카메라(151)와 조도 센서(170a) 및 근접 센서(170b)가 배치될 수 있다. 장치(100)의 후면(100c)에는 제2 카메라(152), 플래시(flash, 153), 스피커(163)가 배치될 수 있다.
장치(100)의 측면(100b)에는 예를 들어 전원/리셋 버튼(161d), 음량 조절 버튼(161e), 방송 수신을 위한 지상파 DMB 안테나(141a), 하나 또는 복수의 마이크들(162) 등이 배치될 수 있다. 상기 DMB 안테나(141a)는 장치(100)에 고정되거나, 착탈 가능하게 형성될 수도 있다.
또한, 장치(100)의 하단 측면에는 커넥터(165)가 형성된다. 커넥터(165)에는 다수의 전극들이 형성되어 있으며 외부 장치와 유선으로 연결될 수 있다. 장치(100)의 상단 측면에는 이어폰 연결잭(167)이 형성될 수 있다. 이어폰 연결잭(167)에는 이어폰이 삽입될 수 있다.
도 4는 본 발명의 일 실시예에 따른 대화 기록 방법에 관한 순서도이다. 도 5는 본 발명의 일 실시예에 따른 대화 기록 장치의 화면을 나타내는 도면이다.
도 4를 참조하면, 본 발명의 일 실시예에 따른 대화 기록 방법은, 먼저, 컨텐츠를 촬영한다(1010). 모바일 장치(100)의 제어부(110)는 컨텐츠를 촬영할 수 있다. 상기 제어부(110)는 카메라 모듈(150)을 이용하여 컨텐츠를 촬영할 수 있다. 예를 들어, 상기 컨텐츠는 사진 또는 동영상일 수 있다. 그리고 상기 촬영된 컨텐츠는 저장부(175)에 저장될 수 있다. 도 5a를 참조하면, 상기 모바일 장치(100)의 제어부(110)는 카메라 애플리케이션을 실행하여 사진을 촬영할 수 있다. 그리고 상기 제어부(110)는 상기 촬영된 사진(200)을 표시부(190)에 도 5b와 같이 표시할 수 있다.
다음으로, 적어도 하나의 음성 신호를 입력받는다(1020). 상기 제어부(110)는 적어도 하나의 음성 신호를 입력받을 수 있다. 상기 제어부(110)는 마이크(162)를 이용하여 상기 적어도 하나의 음성 신호를 입력받을 수 있다. 그리고 상기 적어도 하나의 음성 신호는 상기 저장부(175)에 저장될 수 있다.
다음으로, 상기 적어도 하나의 음성 신호를 분석하여 상기 적어도 하나의 음성 신호에 대응하는 적어도 하나의 인물을 구분한다(1030). 상기 제어부(110)는 상기 적어도 하나의 음성 신호를 분석하여 상기 적어도 하나의 음성 신호에 대응하는 적어도 하나의 인물을 구분할 수 있다. 즉, 상기 적어도 하나의 음성 신호는 복수의 음성 신호일 수 있고, 상기 적어도 하나의 인물은 복수의 인물일 수 있다. 그리고 상기 제어부(110)는 상기 복수의 음성 신호 중에서 제1 음성 신호가 상기 복수의 인물 중에서 제1 인물에 대응함을 구분할 수 있다. 또한, 상기 제어부(110)는 상기 복수의 음성 신호 중에서 제2 음성 신호가 상기 복수의 인물 중에서 제2 인물에 대응함을 구분할 수 있다. 상기 제어부(110)는 상기 복수의 음성 신호 중에서 제3 음성 신호가 상기 복수의 인물 중에서 제3 인물에 대응함을 구분할 수 있다. 이때 상기 제어부(110)는 상기 적어도 하나의 음성 신호의 주파수와 세기를 구분하여, 상기 적어도 하나의 음성 신호에 대응하는 적어도 하나의 인물을 구분할 수 있다. 즉, 다른 주파수와 세기를 가지는 상기 적어도 하나의 음성 신호를 각각 구분할 수 있다. 예를 들어, 상기 제어부(110)는 상기 적어도 하나의 음성 신호를 분석하여 상기 제1 음성 신호에 대응하는 상기 제1 인물(A)과, 상기 제2 음성 신호에 대응하는 상기 제2 인물(B)과, 상기 제3 음성 신호에 대응하는 상기 제3 인물(C)을 구분할 수 있다.
다음으로, 상기 적어도 하나의 음성 신호를 상기 적어도 하나의 음성 신호에 대응하는 텍스트로 변환한다(1040). 상기 제어부(110)는 상기 적어도 하나의 음성 신호를 상기 적어도 하나의 음성 신호에 대응하는 텍스트로 변환할 수 있다. 즉, 상기 제어부(110)는 상기 적어도 하나의 음성 신호의 주파수와 세기를 분석하여 상기 적어도 하나의 음성 신호를 상기 적어도 하나의 음성 신호에 대응하는 텍스트로 변환할 수 있다. 그리고 상기 복수의 음성 신호는 제1 음성 신호와 제2 음성 신호와 제3 음성 신호를 포함할 수 있다. 따라서 상기 제어부(110)는 상기 제1 음성 신호를 제1 텍스트로, 상기 제2 음성 신호를 제2 텍스트로, 상기 제3 음성 신호를 제3 텍스트로 변환할 수 있다. 예를 들어, 상기 제1 음성 신호를 'Hi'와 같은 제1 텍스트로, 상기 제2 음성 신호를 'What's up?'과 같은 제2 텍스트로, 상기 제3 음성 신호를 'Hey~'와 같은 제3 텍스트로 변환할 수 있다.
다음으로, 상기 구분된 적어도 하나의 인물에 대응하여 상기 텍스트를 상기 촬영된 컨텐츠에 표시한다(1050). 상기 제어부(110)는 상기 구분된 적어도 하나의 인물에 대응하여 상기 텍스트를 상기 촬영된 컨텐츠에 표시할 수 있다. 이때, 상기 제어부(110)는 상기 구분된 적어도 하나의 인물에 대응하여 상기 텍스트를 상기 적어도 하나의 음성 신호의 시간 순서에 따라 순차적으로 상기 촬영된 컨텐츠에 표시할 수 있다.
예를 들어, 도 5c와 같이, 상기 제어부(110)는 상기 제1 인물(A, 320)에 대응하여 상기 'Hi'(330)와 같은 제1 텍스트를 상기 촬영된 사진(200)에 표시할 수 있다. 그리고, 도 5d와 같이, 상기 제어부(110)는 상기 제2 인물(B, 420)에 대응하여 상기 'What's up?'(430)와 같은 제2 텍스트를 상기 촬영된 사진(200)에 표시할 수 있다. 그리고, 도 5e와 같이, 상기 제어부(110)는 상기 제3 인물(C, 520)에 대응하여 상기 'Hey~'(530)와 같은 제3 텍스트를 상기 촬영된 사진(200)에 표시할 수 있다. 이때 상기 제어부(110)는 상기 제1 내지 제3 인물에 대응하여 상기 제1 내지 제3 텍스트를 상기 제1 내지 제3 음성 신호의 시간 순서에 따라 순차적으로 상기 촬영된 사진에 표시할 수 있다.
따라서 본 발명의 일 실시예에 따르면, 적어도 하나의 음성 신호에 대응하는 적어도 하나의 인물을 구분하여, 적어도 하나의 음성 신호로부터 변환된 상기 적어도 하나의 음성 신호에 대응하는 텍스트를 적어도 하나의 인물에 대응시켜 촬영된 컨텐츠에 표시할 수 있는 이점이 있다. 즉, 본 발명의 일 실시예에 따르면, 적어도 하나의 음성 신호로부터 변환된 상기 적어도 하나의 음성 신호에 대응하는 텍스트뿐만 아니라, 상기 적어도 하나의 음성 신호에 대응하는 텍스트를 적어도 하나의 인물에 대응시켜 촬영된 컨텐츠에 표시할 수 있는 이점이 있다. 그러므로, 사용자는 상기 적어도 하나의 음성 신호로부터 변환된 상기 적어도 하나의 음성 신호에 대응하는 텍스트가 적어도 하나의 인물에 각각 대응됨을 즉각적으로 인지할 수 있는 이점이 있다.
도 6은 본 발명의 다른 실시예에 따른 대화 기록 방법에 관한 순서도이다. 도 7은 본 발명의 다른 실시예에 따른 대화 기록 장치의 화면을 나타내는 도면이다.
도 6을 참조하면, 본 발명의 다른 실시예에 따른 대화 기록 방법은, 먼저, 컨텐츠를 촬영한다(1110). 모바일 장치(100)의 제어부(110)는 컨텐츠를 촬영할 수 있다. 상기 제어부(110)는 카메라 모듈(150)을 이용하여 컨텐츠를 촬영할 수 있다. 예를 들어, 상기 컨텐츠는 사진 또는 동영상일 수 있다. 그리고 상기 촬영된 컨텐츠는 저장부(175)에 저장될 수 있다. 도 7a를 참조하면, 상기 모바일 장치(100)의 제어부(110)는 카메라 애플리케이션을 실행하여 사진을 촬영할 수 있다. 그리고 상기 제어부(110)는 상기 촬영된 사진(200)을 표시부(190)에 도 7b와 같이 표시할 수 있다.
다음으로, 적어도 하나의 음성 신호를 입력받는다(1120). 상기 제어부(110)는 적어도 하나의 음성 신호를 입력받을 수 있다. 상기 제어부(110)는 마이크(162)를 이용하여 상기 적어도 하나의 음성 신호를 입력받을 수 있다. 그리고 상기 적어도 하나의 음성 신호는 상기 저장부(175)에 저장될 수 있다.
다음으로, 상기 적어도 하나의 음성 신호와 미리 저장된 음성 데이터 베이스를 비교하여 상기 적어도 하나의 음성 신호에 대응하는 적어도 하나의 인물의 이름을 추출한다(1130). 상기 제어부(110)는 상기 적어도 하나의 음성 신호와 미리 저장된 음성 데이터 베이스를 비교하여 상기 적어도 하나의 음성 신호에 대응하는 적어도 하나의 인물의 이름을 추출할 수 있다.
이때 상기 제어부(110)는 상기 적어도 하나의 음성 신호의 주파수와 세기를 구분하여, 상기 적어도 하나의 음성 신호에 대응하는 적어도 하나의 인물을 구분할 수 있다. 즉, 다른 주파수와 세기를 가지는 상기 적어도 하나의 음성 신호를 각각 구분할 수 있다.
그리고 상기 제어부(110)는 상기 적어도 하나의 음성 신호와 미리 저장된 음성 데이터 베이스를 비교하여 상기 적어도 하나의 음성 신호에 대응하는 적어도 하나의 인물의 이름을 추출할 수 있다. 이때, 상기 미리 저장된 음성 데이터 베이스는 전화 통화시에 미리 저장된 음성 신호와 연락처에 저장된 이름으로 형성될 수 있다.
상기 적어도 하나의 음성 신호는 복수의 음성 신호일 수 있고, 상기 적어도 하나의 인물은 복수의 인물일 수 있다. 따라서, 상기 제어부(110)는 상기 복수의 음성 신호 중에서 제1 음성 신호를 상기 미리 저장된 음성 데이터 베이스를 비교하여, 상기 제1 음성 신호가 상기 복수의 인물 중에서 제1 인물에 대응함을 구분할 수 있다. 그리고, 상기 제어부(110)는 상기 제1 음성 신호에 대응하는 제1 인물의 이름(예를 들어, Jason)을 상기 미리 저장된 음성 데이터 베이스로부터 추출할 수 있다. 아울러, 상기 제어부(110)는 상기 복수의 음성 신호 중에서 제2 음성 신호를 상기 미리 저장된 음성 데이터 베이스를 비교하여, 상기 제2 음성 신호가 상기 복수의 인물 중에서 제2 인물에 대응함을 구분할 수 있다. 그리고, 상기 제어부(110)는 상기 제2 음성 신호에 대응하는 제2 인물의 이름(예를 들어, Tim)을 상기 미리 저장된 음성 데이터 베이스로부터 추출할 수 있다. 아울러, 상기 제어부(110)는 상기 복수의 음성 신호 중에서 제3 음성 신호를 상기 미리 저장된 음성 데이터 베이스를 비교하여, 상기 제3 음성 신호가 상기 복수의 인물 중에서 제3 인물에 대응함을 구분할 수 있다. 그리고, 상기 제어부(110)는 상기 제3 음성 신호에 대응하는 제3 인물의 이름(예를 들어, Sally)을 상기 미리 저장된 음성 데이터 베이스로부터 추출할 수 있다.
다음으로, 상기 적어도 하나의 음성 신호를 상기 적어도 하나의 음성 신호에 대응하는 텍스트로 변환한다(1140). 상기 제어부(110)는 상기 적어도 하나의 음성 신호를 상기 적어도 하나의 음성 신호에 대응하는 텍스트로 변환할 수 있다. 즉, 상기 제어부(110)는 상기 적어도 하나의 음성 신호의 주파수와 세기를 분석하여 상기 적어도 하나의 음성 신호를 상기 적어도 하나의 음성 신호에 대응하는 텍스트로 변환할 수 있다. 그리고 상기 복수의 음성 신호는 제1 음성 신호와 제2 음성 신호와 제3 음성 신호를 포함할 수 있다. 따라서 상기 제어부(110)는 상기 제1 음성 신호를 제1 텍스트로, 상기 제2 음성 신호를 제2 텍스트로, 상기 제3 음성 신호를 제3 텍스트로 변환할 수 있다. 예를 들어, 상기 제1 음성 신호를 'Hi'와 같은 제1 텍스트로, 상기 제2 음성 신호를 'What's up?'과 같은 제2 텍스트로, 상기 제3 음성 신호를 'Hey~'와 같은 제3 텍스트로 변환할 수 있다.
다음으로, 상기 구분된 적어도 하나의 인물에 대응하여 상기 텍스트를 상기 적어도 하나의 인물의 이름과 함께 상기 촬영된 컨텐츠에 표시한다(1150). 상기 제어부(110)는 상기 구분된 적어도 하나의 인물에 대응하여 상기 텍스트를 상기 적어도 하나의 인물의 이름과 함께 상기 촬영된 컨텐츠에 표시할 수 있다. 이때, 상기 제어부(110)는 상기 구분된 적어도 하나의 인물에 대응하여 상기 텍스트를 상기 적어도 하나의 인물의 이름과 함께 상기 적어도 하나의 음성 신호의 시간 순서에 따라 순차적으로 상기 촬영된 컨텐츠에 표시할 수 있다.
예를 들어, 도 7c와 같이, 상기 제어부(110)는 상기 제1 인물(300)에 대응하여 상기 'Hi'(330)와 같은 제1 텍스트를 'Jason'과 같은 상기 제1 인물의 이름과 함께 상기 촬영된 사진(200)에 표시할 수 있다. 그리고, 도 7d와 같이, 상기 제어부(110)는 상기 제2 인물(400)에 대응하여 상기 'What's up?'(430)와 같은 제2 텍스트를 'Tim'과 같은 상기 제2 인물의 이름과 함께 상기 촬영된 사진(200)에 표시할 수 있다. 그리고, 도 7e와 같이, 상기 제어부(110)는 상기 제3 인물(500)에 대응하여 상기 'Hey~'(530)와 같은 제3 텍스트를 'Sally'와 같은 상기 제3 인물의 이름과 함께 상기 촬영된 사진(200)에 표시할 수 있다. 이때 상기 제어부(110)는 상기 제1 내지 제3 인물에 대응하여 상기 제1 내지 제3 텍스트를 상기 제1 내지 제3 인물의 이름과 함께 상기 제1 내지 제3 음성 신호의 시간 순서에 따라 순차적으로 상기 촬영된 사진에 표시할 수 있다.
따라서 본 발명의 다른 실시예에 따르면, 적어도 하나의 음성 신호에 대응하는 적어도 하나의 인물을 구분하여, 적어도 하나의 음성 신호로부터 변환된 상기 적어도 하나의 음성 신호에 대응하는 텍스트를 적어도 하나의 인물에 대응시켜 이름과 함께 촬영된 컨텐츠에 표시할 수 있는 이점이 있다. 즉, 본 발명의 다른 실시예에 따르면, 적어도 하나의 음성 신호로부터 변환된 상기 적어도 하나의 음성 신호에 대응하는 텍스트뿐만 아니라, 상기 적어도 하나의 음성 신호에 대응하는 텍스트를 적어도 하나의 인물에 대응시켜 이름과 함께 촬영된 컨텐츠에 표시할 수 있는 이점이 있다. 그러므로, 사용자는 상기 적어도 하나의 음성 신호로부터 변환된 상기 적어도 하나의 음성 신호에 대응하는 텍스트가 적어도 하나의 인물에 각각 대응됨을 이름을 통해 즉각적으로 인지할 수 있는 이점이 있다. 따라서, 본 발명의 다른 실시예에 따르면, 적어도 하나의 음성 신호로부터 변환된 텍스트를 각각의 인물의 이름과 같이 표시할 수 있는 이점이 있다. 이때, 본 발명의 다른 실시예에 따르면, 청각 장애인과 같은 사용자는 각각의 인물의 이름과 같이 표시된 텍스트만 보고서도 대화의 참여자들이 어떠한 대화를 나누고 있는 지를 실시간으로 쉽게 확인할 수 있는 장점이 있다.
도 8은 본 발명의 또 다른 실시예에 따른 대화 기록 방법에 관한 순서도이다. 도 9는 본 발명의 또 다른 실시예에 따른 대화 기록 장치의 화면을 나타내는 도면이다.
도 8을 참조하면, 본 발명의 또 다른 실시예에 따른 대화 기록 방법은, 먼저, 컨텐츠를 촬영한다(1210). 모바일 장치(100)의 제어부(110)는 컨텐츠를 촬영할 수 있다. 상기 제어부(110)는 카메라 모듈(150)을 이용하여 컨텐츠를 촬영할 수 있다. 예를 들어, 상기 컨텐츠는 사진 또는 동영상일 수 있다. 그리고 상기 촬영된 컨텐츠는 저장부(175)에 저장될 수 있다. 도 9a를 참조하면, 상기 모바일 장치(100)의 제어부(110)는 카메라 애플리케이션을 실행하여 동영상을 촬영할 수 있다. 그리고 상기 제어부(110)는 상기 촬영된 동영상(202)을 표시부(190)에 도 9b와 같이 표시할 수 있다.
다음으로, 적어도 하나의 음성 신호를 입력받는다(1220). 상기 제어부(110)는 적어도 하나의 음성 신호를 입력받을 수 있다. 상기 제어부(110)는 마이크(162)를 이용하여 상기 적어도 하나의 음성 신호를 입력받을 수 있다. 그리고 상기 적어도 하나의 음성 신호는 상기 저장부(175)에 저장될 수 있다.
다음으로, 상기 적어도 하나의 음성 신호를 분석하여 상기 적어도 하나의 음성 신호에 대응하는 적어도 하나의 인물을 구분한다(1230). 상기 제어부(110)는 상기 적어도 하나의 음성 신호를 분석하여 상기 적어도 하나의 음성 신호에 대응하는 적어도 하나의 인물을 구분할 수 있다. 즉, 상기 적어도 하나의 음성 신호는 복수의 음성 신호일 수 있고, 상기 적어도 하나의 인물은 복수의 인물일 수 있다. 그리고 상기 제어부(110)는 상기 복수의 음성 신호 중에서 제1 음성 신호가 상기 복수의 인물 중에서 제1 인물에 대응함을 구분할 수 있다. 또한, 상기 제어부(110)는 상기 복수의 음성 신호 중에서 제2 음성 신호가 상기 복수의 인물 중에서 제2 인물에 대응함을 구분할 수 있다. 이때 상기 제어부(110)는 상기 적어도 하나의 음성 신호의 주파수와 세기를 구분하여, 상기 적어도 하나의 음성 신호에 대응하는 적어도 하나의 인물을 구분할 수 있다. 즉, 다른 주파수와 세기를 가지는 상기 적어도 하나의 음성 신호를 각각 구분할 수 있다. 예를 들어, 상기 제어부(110)는 상기 적어도 하나의 음성 신호를 분석하여 상기 제1 음성 신호에 대응하는 상기 제1 인물(A)과, 상기 제2 음성 신호에 대응하는 상기 제2 인물(B)을 구분할 수 있다.
다음으로, 상기 적어도 하나의 음성 신호를 상기 적어도 하나의 음성 신호에 대응하는 텍스트로 변환한다(1240). 상기 제어부(110)는 상기 적어도 하나의 음성 신호를 상기 적어도 하나의 음성 신호에 대응하는 텍스트로 변환할 수 있다. 즉, 상기 제어부(110)는 상기 적어도 하나의 음성 신호의 주파수와 세기를 분석하여 상기 적어도 하나의 음성 신호를 상기 적어도 하나의 음성 신호에 대응하는 텍스트로 변환할 수 있다. 그리고 상기 복수의 음성 신호는 제1 음성 신호와 제2 음성 신호를 포함할 수 있다. 따라서 상기 제어부(110)는 상기 제1 음성 신호를 제1 텍스트로, 상기 제2 음성 신호를 제2 텍스트로 변환할 수 있다. 예를 들어, 상기 제1 음성 신호를 'What's up?'과 같은 제1 텍스트로, 상기 제2 음성 신호를 'Hey~'과 같은 제2 텍스트로 변환할 수 있다.
다음으로, 상기 촬영된 컨텐츠에 나타난 적어도 하나의 인물의 입술 움직임이 발생한 위치를 검출한다(1245). 상기 제어부(110)는 상기 촬영된 컨텐츠에 나타난 적어도 하나의 인물의 입술 움직임이 발생한 위치를 검출할 수 있다. 예를 들어, 상기 촬영된 컨텐츠는 동영상이고, 상기 위치는 상기 촬영된 동영상의 가로 축과 세로 축 상의 좌표값일 수 있다.
이때, 상기 제어부(110)는 상기 촬영된 동영상에 나타난 복수의 인물의 입술 움직임이 발생한 위치들을 순차적으로 검출할 수도 있다. 예를 들어, 상기 제어부(110)는 상기 촬영된 동영상에서 맨 처음으로 발생한 제1 입술 움직임이 발생한 위치를 먼저 검출하고, 다음으로 발생한 제2 입술 움직임이 발생한 위치를 검출할 수 있다.
예를 들어, 도 9c와 같이, 상기 제어부(110)는 상기 촬영된 동영상(202)에서 맨 처음으로 발생한 제1 입술 움직임이 발생한 위치(412)를 먼저 검출할 수 있다. 다음으로, 도 9d와 같이, 상기 제어부(110)는 상기 촬영된 동영상(202)에서 다음으로 발생한 제2 입술 움직임이 발생한 위치(512)를 검출할 수 있다.
다음으로, 상기 구분된 적어도 하나의 인물에 대응하여 상기 텍스트를 상기 촬영된 컨텐츠의 상기 검출된 입술 움직임이 발생한 위치에 표시한다(1250). 상기 제어부(110)는 상기 구분된 적어도 하나의 인물에 대응하여 상기 텍스트를 상기 촬영된 컨텐츠의 상기 검출된 입술 움직임이 발생한 위치에 표시할 수 있다. 이때, 상기 제어부(110)는 상기 구분된 적어도 하나의 인물에 대응하여 상기 텍스트를 상기 촬영된 컨텐츠의 상기 검출된 입술 움직임이 발생한 위치에 순차적으로 표시할 수 있다.
예를 들어, 도 9c와 같이, 상기 제어부(110)는 상기 제1 인물(400)에 대응하여 상기 'What's up?'(430)와 같은 제1 텍스트를 상기 촬영된 동영상(202)의 상기 검출된 제1 입술 움직임이 발생한 위치(412)에 표시할 수 있다. 다음으로, 도 9d와 같이, 상기 제어부(110)는 상기 제2 인물(500)에 대응하여 상기 'Hey~'(530)와 같은 제2 텍스트를 상기 촬영된 동영상(202)의 상기 검출된 제2 입술 움직임이 발생한 위치(512)에 순차적으로 표시할 수 있다.
따라서 본 발명의 또 다른 실시예에 따르면, 적어도 하나의 음성 신호에 대응하는 적어도 하나의 인물을 구분하여, 적어도 하나의 음성 신호로부터 변환된 상기 적어도 하나의 음성 신호에 대응하는 텍스트를 적어도 하나의 인물에 대응시켜 촬영된 컨텐츠의 입술 움직임이 발생한 위치에 표시할 수 있는 이점이 있다. 그러므로, 적어도 하나의 음성 신호로부터 변환된 상기 적어도 하나의 음성 신호에 대응하는 텍스트가 입술 움직임이 발생한 위치에 즉각적으로 표시됨으로써, 사용자는 변환된 상기 적어도 하나의 음성 신호에 대응하는 텍스트가 적어도 하나의 인물에 각각 대응됨을 즉각적으로 인지할 수 있는 이점이 있다.
도 10은 본 발명의 또 다른 실시예에 따른 대화 기록 방법에 관한 순서도이다. 도 11은 본 발명의 또 다른 실시예에 따른 대화 기록 장치의 화면을 나타내는 도면이다.
도 10을 참조하면, 본 발명의 다른 실시예에 따른 대화 기록 방법은, 먼저, 컨텐츠를 촬영한다(1310). 모바일 장치(100)의 제어부(110)는 컨텐츠를 촬영할 수 있다. 상기 제어부(110)는 카메라 모듈(150)을 이용하여 컨텐츠를 촬영할 수 있다. 예를 들어, 상기 컨텐츠는 사진 또는 동영상일 수 있다. 그리고 상기 촬영된 컨텐츠는 저장부(175)에 저장될 수 있다. 도 11a를 참조하면, 상기 모바일 장치(100)의 제어부(110)는 카메라 애플리케이션을 실행하여 동영상을 촬영할 수 있다. 그리고 상기 제어부(110)는 상기 촬영된 동영상(202)을 표시부(190)에 도 11b와 같이 표시할 수 있다.
다음으로, 적어도 하나의 음성 신호를 입력받는다(1320). 상기 제어부(110)는 적어도 하나의 음성 신호를 입력받을 수 있다. 상기 제어부(110)는 마이크(162)를 이용하여 상기 적어도 하나의 음성 신호를 입력받을 수 있다. 그리고 상기 적어도 하나의 음성 신호는 상기 저장부(175)에 저장될 수 있다.
다음으로, 상기 적어도 하나의 음성 신호를 분석하여 상기 적어도 하나의 음성 신호에 대응하는 적어도 하나의 인물을 구분한다(1330). 상기 제어부(110)는 상기 적어도 하나의 음성 신호를 분석하여 상기 적어도 하나의 음성 신호에 대응하는 적어도 하나의 인물을 구분할 수 있다. 즉, 상기 적어도 하나의 음성 신호는 복수의 음성 신호일 수 있고, 상기 적어도 하나의 인물은 복수의 인물일 수 있다. 그리고 상기 제어부(110)는 상기 복수의 음성 신호 중에서 제1 음성 신호가 상기 복수의 인물 중에서 제1 인물에 대응함을 구분할 수 있다. 또한, 상기 제어부(110)는 상기 복수의 음성 신호 중에서 제2 음성 신호가 상기 복수의 인물 중에서 제2 인물에 대응함을 구분할 수 있다. 이때 상기 제어부(110)는 상기 적어도 하나의 음성 신호의 주파수와 세기를 구분하여, 상기 적어도 하나의 음성 신호에 대응하는 적어도 하나의 인물을 구분할 수 있다. 즉, 다른 주파수와 세기를 가지는 상기 적어도 하나의 음성 신호를 각각 구분할 수 있다. 예를 들어, 상기 제어부(110)는 상기 적어도 하나의 음성 신호를 분석하여 상기 제1 음성 신호에 대응하는 상기 제1 인물(A)과, 상기 제2 음성 신호에 대응하는 상기 제2 인물(B)을 구분할 수 있다.
다음으로, 상기 적어도 하나의 음성 신호를 상기 적어도 하나의 음성 신호에 대응하는 텍스트로 변환한다(1340). 상기 제어부(110)는 상기 적어도 하나의 음성 신호를 상기 적어도 하나의 음성 신호에 대응하는 텍스트로 변환할 수 있다. 즉, 상기 제어부(110)는 상기 적어도 하나의 음성 신호의 주파수와 세기를 분석하여 상기 적어도 하나의 음성 신호를 상기 적어도 하나의 음성 신호에 대응하는 텍스트로 변환할 수 있다. 그리고 상기 복수의 음성 신호는 제1 음성 신호와 제2 음성 신호를 포함할 수 있다. 따라서 상기 제어부(110)는 상기 제1 음성 신호를 제1 텍스트로, 상기 제2 음성 신호를 제2 텍스트로 변환할 수 있다. 예를 들어, 상기 제1 음성 신호를 'What's up?'과 같은 제1 텍스트로, 상기 제2 음성 신호를 'Hey~'와 같은 제2 텍스트로 변환할 수 있다.
다음으로, 상기 촬영된 컨텐츠를 분석하여 상기 촬영된 컨텐츠에 나타난 적어도 하나의 인물을 구분한다(1345). 상기 제어부(110)는 상기 촬영된 컨텐츠를 분석하여 상기 촬영된 컨텐츠에 나타난 적어도 하나의 인물을 구분할 수 있다. 이때, 상기 제어부(110)는 상기 적어도 하나의 얼굴과 미리 저장된 얼굴 데이터 베이스를 비교(얼굴 인식 기술로 칭하기도 함)하여 상기 적어도 하나의 얼굴에 대응하는 적어도 하나의 인물의 이름을 추출할 수 있다. 그리고, 상기 미리 저장된 얼굴 데이터 베이스는 갤러리에 미리 저장된 사진에 포함된 얼굴과 연락처에 저장된 이름으로 형성될 수 있다.
예를 들어, 상기 제어부(110)는 상기 촬영된 동영상을 분석하여, 상기 촬영된 동영상에 나타난 적어도 하나의 얼굴을 미리 저장된 얼굴 데이터 베이스에 포함된 얼굴과 비교하여, 상기 적어도 하나의 얼굴에 대응하는 적어도 하나의 인물의 이름을 추출할 수 있다.
예를 들어, 상기 제어부(110)는 도 11c와 같이, 상기 촬영된 동영상(202)에 나타난 제1 얼굴(410)을 미리 저장된 얼굴 데이터 베이스에 포함된 얼굴과 비교하여, 상기 제1 얼굴(410)에 대응하는 제1 인물의 이름을 'Tim'으로 추출할 수 있다. 그리고, 상기 제어부(110)는 도 11d와 같이, 상기 촬영된 동영상(202)에 나타난 제2 얼굴(510)을 미리 저장된 얼굴 데이터 베이스에 포함된 얼굴과 비교하여, 상기 제2 얼굴(510)에 대응하는 제2 인물의 이름을 'Sally'로 추출할 수 있다.
다음으로, 상기 구분된 적어도 하나의 인물에 대응하여 상기 텍스트를 상기 적어도 하나의 인물의 이름과 함께 상기 촬영된 컨텐츠에 표시한다(1350). 상기 제어부(110)는 상기 구분된 적어도 하나의 인물에 대응하여 상기 텍스트를 상기 적어도 하나의 인물의 이름과 함께 상기 촬영된 컨텐츠에 표시할 수 있다. 이때, 상기 제어부(110)는 상기 구분된 적어도 하나의 인물에 대응하여 상기 텍스트를 상기 적어도 하나의 인물의 이름과 함께 상기 적어도 하나의 음성 신호의 시간 순서에 따라 순차적으로 상기 촬영된 컨텐츠에 표시할 수 있다.
예를 들어, 도 11c와 같이, 상기 제어부(110)는 상기 제1 인물(400)에 대응하여 상기 'What's up?'(430)와 같은 제1 텍스트를 'Tim'과 같은 상기 제1 인물의 이름(420)과 함께 상기 촬영된 동영상(202)에 표시할 수 있다. 다음으로, 도 11d와 같이, 상기 제어부(110)는 상기 제2 인물(500)에 대응하여 상기 'Hey~'(530)와 같은 제2 텍스트를 'Sally'와 같은 상기 제2 인물의 이름(520)과 함께 상기 촬영된 동영상(202)에 순차적으로 표시할 수 있다.
따라서 본 발명의 다른 실시예에 따르면, 적어도 하나의 음성 신호에 대응하는 적어도 하나의 인물의 얼굴을 구분하여, 적어도 하나의 음성 신호로부터 변환된 상기 적어도 하나의 음성 신호에 대응하는 텍스트를 적어도 하나의 인물에 대응시켜 이름과 함께 촬영된 컨텐츠에 표시할 수 있는 이점이 있다.
도 12는 본 발명의 또 다른 실시예에 따른 대화 기록 방법에 관한 순서도이다. 도 13은 본 발명의 또 다른 실시예에 따른 대화 기록 장치의 화면을 나타내는 도면이다.
도 12를 참조하면, 본 발명의 또 다른 실시예에 따른 대화 기록 방법은, 먼저, 컨텐츠를 촬영한다(1410). 모바일 장치(100)의 제어부(110)는 컨텐츠를 촬영할 수 있다. 상기 제어부(110)는 카메라 모듈(150)을 이용하여 컨텐츠를 촬영할 수 있다. 예를 들어, 상기 컨텐츠는 사진 또는 동영상일 수 있다. 그리고 상기 촬영된 컨텐츠는 저장부(175)에 저장될 수 있다. 도 13a를 참조하면, 상기 모바일 장치(100)의 제어부(110)는 카메라 애플리케이션을 실행하여 동영상을 촬영할 수 있다. 그리고 상기 제어부(110)는 상기 촬영된 동영상(202)을 표시부(190)에 도 13b와 같이 표시할 수 있다.
다음으로, 적어도 하나의 음성 신호를 입력받는다(1420). 상기 제어부(110)는 적어도 하나의 음성 신호를 입력받을 수 있다. 상기 제어부(110)는 마이크(162)를 이용하여 상기 적어도 하나의 음성 신호를 입력받을 수 있다. 그리고 상기 적어도 하나의 음성 신호는 상기 저장부(175)에 저장될 수 있다.
다음으로, 상기 적어도 하나의 음성 신호를 분석하여 상기 적어도 하나의 음성 신호에 대응하는 적어도 하나의 인물을 구분한다(1430). 상기 제어부(110)는 상기 적어도 하나의 음성 신호를 분석하여 상기 적어도 하나의 음성 신호에 대응하는 적어도 하나의 인물을 구분할 수 있다. 즉, 상기 적어도 하나의 음성 신호는 복수의 음성 신호일 수 있고, 상기 적어도 하나의 인물은 복수의 인물일 수 있다. 그리고 상기 제어부(110)는 상기 복수의 음성 신호 중에서 제1 음성 신호가 상기 복수의 인물 중에서 제1 인물에 대응함을 구분할 수 있다. 또한, 상기 제어부(110)는 상기 복수의 음성 신호 중에서 제2 음성 신호가 상기 복수의 인물 중에서 제2 인물에 대응함을 구분할 수 있다. 이때 상기 제어부(110)는 상기 적어도 하나의 음성 신호의 주파수와 세기를 구분하여, 상기 적어도 하나의 음성 신호에 대응하는 적어도 하나의 인물을 구분할 수 있다. 즉, 다른 주파수와 세기를 가지는 상기 적어도 하나의 음성 신호를 각각 구분할 수 있다. 예를 들어, 상기 제어부(110)는 상기 적어도 하나의 음성 신호를 분석하여 상기 제1 음성 신호에 대응하는 상기 제1 인물(A)과, 상기 제2 음성 신호에 대응하는 상기 제2 인물(B)을 구분할 수 있다.
다음으로, 상기 적어도 하나의 음성 신호를 상기 적어도 하나의 음성 신호에 대응하는 텍스트로 변환한다(1440). 상기 제어부(110)는 상기 적어도 하나의 음성 신호를 상기 적어도 하나의 음성 신호에 대응하는 텍스트로 변환할 수 있다. 즉, 상기 제어부(110)는 상기 적어도 하나의 음성 신호의 주파수와 세기를 분석하여 상기 적어도 하나의 음성 신호를 상기 적어도 하나의 음성 신호에 대응하는 텍스트로 변환할 수 있다. 그리고 상기 복수의 음성 신호는 제1 음성 신호와 제2 음성 신호를 포함할 수 있다. 따라서 상기 제어부(110)는 상기 제1 음성 신호를 제1 텍스트로, 상기 제2 음성 신호를 제2 텍스트로 변환할 수 있다. 예를 들어, 상기 제1 음성 신호를 'What's up?'과 같은 제1 텍스트로, 상기 제2 음성 신호를 'Hey~'과 같은 제2 텍스트로 변환할 수 있다.
다음으로, 상기 촬영된 컨텐츠에 나타난 적어도 하나의 인물의 입술 움직임이 발생한 위치를 검출한다(1442). 상기 제어부(110)는 상기 촬영된 컨텐츠에 나타난 적어도 하나의 인물의 입술 움직임이 발생한 위치를 검출할 수 있다. 예를 들어, 상기 촬영된 컨텐츠는 동영상이고, 상기 위치는 상기 촬영된 동영상의 가로 축과 세로 축 상의 좌표값일 수 있다.
예를 들어, 도 13c와 같이, 상기 제어부(110)는 상기 촬영된 동영상(202)에서 발생한 제1 입술 움직임이 발생한 위치(412)와 제2 입술 움직임이 발생한 위치(512)를 검출할 수 있다.
다음으로, 지향성 마이크를 이용하여 상기 적어도 하나의 음성 신호의 방향을 검출한다(1444). 상기 제어부(110)는 지향성 마이크를 이용하여 상기 적어도 하나의 음성 신호의 방향을 검출할 수 있다. 상기 모바일 장치(100)의 마이크(162)는 지향성 마이크로 형성될 수 있다. 상기 지향성 마이크는 상기 적어도 하나의 음성 신호의 방향을 검출할 수 있는 마이크를 의미한다. 이때 상기 지향성 마이크는 복수의 마이크들로 형성될 수 있다. 따라서 상기 지향성 마이크는 상기 복수의 마이크들 각각에서 수신된 음성 신호를 분석하여 음성 신호의 방향을 추출할 수 있다. 도 14는 지향성 마이크를 이용하여 상기 적어도 하나의 음성 신호의 방향을 검출하는 장면을 나타내는 도면이다. 도 14를 참조하면, 예를 들어 상기 제어부(110)는 상기 제1 인물(400)로부터 발생한 상기 제1 음성 신호의 제1 방향(600)을 좌측 방향으로 검출할 수 있다. 그리고 상기 제어부(110)는 상기 제2 인물(500)로부터 발생한 상기 제2 음성 신호의 제2 방향(610)을 우측 방향으로 검출할 수 있다.
다음으로, 상기 구분된 적어도 하나의 인물에 대응하여 상기 텍스트를 상기 검출된 방향을 고려하여 상기 촬영된 컨텐츠의 상기 검출된 입술 움직임이 발생한 위치에 상기 텍스트를 표시한다(1450). 상기 제어부(110)는 상기 구분된 적어도 하나의 인물에 대응하여 상기 텍스트를 상기 검출된 방향을 고려하여 상기 촬영된 컨텐츠의 상기 검출된 입술 움직임이 발생한 위치에 상기 텍스트를 표시할 수 있다.
예를 들어, 도 13c와 같이, 상기 제어부(110)는 상기 제1 인물(400)에 대응하여 상기 'What's up?'(430)와 같은 제1 텍스트를 좌측 방향과 같은 상기 제1 방향(600)을 고려하여 상기 촬영된 동영상(202)의 좌측에 위치한 상기 검출된 제1 입술 움직임이 발생한 위치(412)에 표시할 수 있다. 그리고, 상기 제어부(110)는 상기 제2 인물(500)에 대응하여 상기 'Hey~'(530)와 같은 제2 텍스트를 우측 방향과 같은 상기 제2 방향(610)을 고려하여 상기 촬영된 동영상(202)의 우측에 위치한 상기 검출된 제2 입술 움직임이 발생한 위치(512)에 표시할 수 있다.
따라서 본 발명의 또 다른 실시예에 따르면, 적어도 하나의 음성 신호로부터 변환된 상기 적어도 하나의 음성 신호에 대응하는 텍스트를, 지향성 마이크를 이용하여 검출된 음성 신호의 방향을 고려하여, 촬영된 컨텐츠의 입술 움직임이 발생한 위치에 표시할 수 있는 이점이 있다. 즉 본 발명의 또 다른 실시예에 따르면, 지향성 마이크를 이용하여 검출된 음성 신호의 방향을 고려하여 텍스트를 촬영된 컨텐츠의 입술 움직임이 발생한 위치에 표시할 수 있으므로, 동시에 음성 신호가 발생되는 대화 상황에서도 올바른 위치에 텍스트를 표시할 수 있는 장점이 있다.
도 15는 본 발명의 또 다른 실시예에 따른 대화 기록 방법에 관한 순서도이다. 도 16은 본 발명의 또 다른 실시예에 따른 대화 기록 장치의 화면을 나타내는 도면이다.
도 15를 참조하면, 본 발명의 또 다른 실시예에 따른 대화 기록 방법은, 먼저, 컨텐츠를 촬영한다(1510). 모바일 장치(100)의 제어부(110)는 컨텐츠를 촬영할 수 있다. 상기 제어부(110)는 카메라 모듈(150)을 이용하여 컨텐츠를 촬영할 수 있다. 예를 들어, 상기 컨텐츠는 사진 또는 동영상일 수 있다. 그리고 상기 촬영된 컨텐츠는 저장부(175)에 저장될 수 있다. 도 16a를 참조하면, 상기 모바일 장치(100)의 제어부(110)는 카메라 애플리케이션을 실행하여 동영상을 촬영할 수 있다. 그리고 상기 제어부(110)는 상기 촬영된 동영상(202)을 표시부(190)에 도 16b와 같이 표시할 수 있다.
다음으로, 적어도 하나의 음성 신호를 입력받는다(1520). 상기 제어부(110)는 적어도 하나의 음성 신호를 입력받을 수 있다. 상기 제어부(110)는 마이크(162)를 이용하여 상기 적어도 하나의 음성 신호를 입력받을 수 있다. 그리고 상기 적어도 하나의 음성 신호는 상기 저장부(175)에 저장될 수 있다.
다음으로, 상기 적어도 하나의 음성 신호를 분석하여 상기 적어도 하나의 음성 신호에 대응하는 적어도 하나의 인물을 구분한다(1530). 상기 제어부(110)는 상기 적어도 하나의 음성 신호를 분석하여 상기 적어도 하나의 음성 신호에 대응하는 적어도 하나의 인물을 구분할 수 있다. 즉, 상기 적어도 하나의 음성 신호는 복수의 음성 신호일 수 있고, 상기 적어도 하나의 인물은 복수의 인물일 수 있다. 그리고 상기 제어부(110)는 상기 복수의 음성 신호 중에서 제1 음성 신호가 상기 복수의 인물 중에서 제1 인물에 대응함을 구분할 수 있다. 또한, 상기 제어부(110)는 상기 복수의 음성 신호 중에서 제2 음성 신호가 상기 복수의 인물 중에서 제2 인물에 대응함을 구분할 수 있다. 또한, 상기 제어부(110)는 상기 복수의 음성 신호 중에서 제3 음성 신호가 상기 복수의 인물 중에서 제3 인물에 대응함을 구분할 수 있다. 이때 상기 제어부(110)는 상기 적어도 하나의 음성 신호의 주파수와 세기를 구분하여, 상기 적어도 하나의 음성 신호에 대응하는 적어도 하나의 인물을 구분할 수 있다. 즉, 다른 주파수와 세기를 가지는 상기 적어도 하나의 음성 신호를 각각 구분할 수 있다. 예를 들어, 상기 제어부(110)는 상기 적어도 하나의 음성 신호를 분석하여 상기 제1 음성 신호에 대응하는 상기 제1 인물(A)과, 상기 제2 음성 신호에 대응하는 상기 제2 인물(B)과, 상기 제3 음성 신호에 대응하는 상기 제3 인물(C)을 구분할 수 있다.
다음으로, 상기 적어도 하나의 음성 신호를 상기 적어도 하나의 음성 신호에 대응하는 텍스트로 변환한다(1540). 상기 제어부(110)는 상기 적어도 하나의 음성 신호를 상기 적어도 하나의 음성 신호에 대응하는 텍스트로 변환할 수 있다. 즉, 상기 제어부(110)는 상기 적어도 하나의 음성 신호의 주파수와 세기를 분석하여 상기 적어도 하나의 음성 신호를 상기 적어도 하나의 음성 신호에 대응하는 텍스트로 변환할 수 있다. 그리고 상기 복수의 음성 신호는 제1 음성 신호와 제2 음성 신호를 포함할 수 있다. 따라서 상기 제어부(110)는 상기 제1 음성 신호를 제1 텍스트로, 상기 제2 음성 신호를 제2 텍스트로 변환할 수 있다. 예를 들어, 상기 제1 음성 신호를 'What's up?'과 같은 제1 텍스트로, 상기 제2 음성 신호를 'Hey~'과 같은 제2 텍스트로, 상기 제3 음성 신호를 'Hi'와 같은 제3 텍스트로 변환할 수 있다.
다음으로, 지향성 마이크를 이용하여 상기 적어도 하나의 음성 신호의 방향을 검출한다(1545). 상기 제어부(110)는 지향성 마이크를 이용하여 상기 적어도 하나의 음성 신호의 방향을 검출할 수 있다. 상기 모바일 장치(100)의 마이크(162)는 지향성 마이크로 형성될 수 있다. 상기 지향성 마이크는 상기 적어도 하나의 음성 신호의 방향을 검출할 수 있는 마이크를 의미한다. 이때 상기 지향성 마이크는 복수의 마이크들로 형성될 수 있다. 따라서 상기 지향성 마이크는 상기 복수의 마이크들 각각에서 수신된 음성 신호를 분석하여 음성 신호의 방향을 추출할 수 있다. 도 17은 지향성 마이크를 이용하여 상기 적어도 하나의 음성 신호의 방향을 검출하는 장면을 나타내는 도면이다. 도 17을 참조하면, 예를 들어 상기 제어부(110)는 상기 제1 인물(400)로부터 발생한 상기 제1 음성 신호의 제1 방향(600)을 좌측 방향으로 검출할 수 있다. 그리고 상기 제어부(110)는 상기 제2 인물(500)로부터 발생한 상기 제2 음성 신호의 제2 방향(610)을 우측 방향으로 검출할 수 있다. 그리고, 상기 제어부(110)는 상기 제3 인물(300)로부터 발생한 상기 제3 음성 신호의 제3 방향(620)을 상기 촬영된 동영상에서 벗어난 외부 방향으로 검출할 수 있다.
다음으로, 상기 촬영된 컨텐츠 외부에서 발생한 음성 신호의 방향으로 상기 텍스트를 상기 촬영된 컨텐츠에 표시한다(1550). 상기 제어부(110)는 상기 촬영된 컨텐츠 외부에서 발생한 음성 신호의 방향으로 상기 텍스트를 상기 촬영된 컨텐츠에 표시할 수 있다.
예를 들어, 도 16c와 같이, 상기 제어부(110)는 상기 제3 인물(300)에 대응하여 상기 'Hi'(330)와 같은 제3 텍스트를 상기 촬영된 동영상에서 벗어난 외부 방향과 같은 상기 제3 방향(620)을 고려하여 상기 촬영된 동영상에 표시할 수 있다.
따라서 본 발명의 또 다른 실시예에 따르면, 적어도 하나의 음성 신호로부터 변환된 상기 적어도 하나의 음성 신호에 대응하는 텍스트를 지향성 마이크를 이용하여 검출된 촬영된 동영상 외부에서 발생한 음성 신호의 방향을 고려하여 표시할 수 있는 이점이 있다. 따라서, 사용자는 촬영된 동영상 외부에서 발생한 음성 신호의 방향을 고려하여 표시된 텍스트를 인지하여, 상기 텍스트에 해당하는 인물이 상기 촬영된 동영상 외부에 존재함을 즉각적으로 인지할 수 있는 장점이 있다.
본 발명의 실시예들은 하드웨어, 소프트웨어, 또는 하드웨어 및 소프트웨어의 조합의 형태로 실현 가능하다는 것을 알 수 있을 것이다. 이러한 임의의 소프트웨어는 예를 들어, 삭제 가능 또는 재기록 가능 여부와 상관없이, ROM 등의 저장 장치와 같은 휘발성 또는 비휘발성 저장 장치, 또는 예를 들어, RAM, 메모리 칩, 장치 또는 집적 회로와 같은 메모리, 또는 예를 들어 CD, DVD, 자기 디스크 또는 자기 테이프 등과 같은 광학 또는 자기적으로 기록 가능함과 동시에 기계(예를 들어, 컴퓨터)로 읽을 수 있는 저장 매체에 저장될 수 있다. 또한 본 발명의 실시예들은 제어부 및 메모리를 포함하는 컴퓨터 또는 휴대 단말에 의해 구현될 수 있고, 상기 메모리는 본 발명의 실시 예들을 구현하는 지시들을 포함하는 프로그램 또는 프로그램들을 저장하기에 적합한 기계로 읽을 수 있는 저장 매체의 한 예임을 알 수 있을 것이다. 따라서, 본 발명은 본 명세서의 임의의 청구항에 기재된 장치 또는 방법을 구현하기 위한 코드를 포함하는 프로그램 및 이러한 프로그램을 저장하는 기계(컴퓨터 등)로 읽을 수 있는 저장 매체를 포함한다. 또한, 이러한 프로그램은 유선 또는 무선 연결을 통해 전달되는 통신 신호와 같은 임의의 매체를 통해 전자적으로 이송될 수 있고, 본 발명은 이와 균등한 것을 적절하게 포함한다.
또한, 상기 모바일 장치는 유선 또는 무선으로 연결되는 프로그램 제공 장치로부터 상기 프로그램을 수신하여 저장할 수 있다. 상기 프로그램 제공 장치는 본 발명의 실시예들을 수행하도록 하는 지시들을 포함하는 프로그램, 본 발명의 실시예들에 필요한 정보 등을 저장하기 위한 메모리와, 상기 모바일 장치와의 유선 또는 무선 통신을 수행하기 위한 통신부와, 상기 모바일 장치의 요청 또는 자동으로 해당 프로그램을 상기 송수신 장치로 전송하는 제어부를 포함할 수 있다.
100 : 모바일 장치
110 : 제어부
175 : 저장부
190 : 표시부

Claims (20)

  1. 대화 기록 방법에 있어서,
    전자 장치의 카메라를 이용하여, 컨텐츠를 촬영하는 단계;와
    상기 전자 장치의 지향성 마이크를 이용하여, 적어도 하나의 음성 신호를 수신하는 단계;와
    상기 적어도 하나의 음성 신호의 주파수 및 세기를 식별하여 상기 적어도 하나의 음성 신호에 대응하는 적어도 하나의 인물을 구분하는 단계;와
    상기 적어도 하나의 음성 신호를 상기 적어도 하나의 음성 신호에 대응하는 텍스트로 변환하는 단계;와
    상기 지향성 마이크로부터 수신된 적어도 하나의 음성 신호를 분석하여 상기 적어도 하나의 음성 신호의 방향을 식별하는 단계;와
    상기 적어도 하나의 음성 신호의 상기 식별된 방향에 따라서 결정된 위치에 위치하는 상기 구분된 적어도 하나의 인물에 대응하여 상기 텍스트를 상기 촬영된 컨텐츠에 표시하는 단계를 포함하는 대화 기록 방법.
  2. 제1항에 있어서,
    상기 적어도 하나의 음성 신호의 주파수 및 세기를 식별하여 상기 적어도 하나의 음성 신호에 대응하는 적어도 하나의 인물을 구분하는 단계는,
    상기 적어도 하나의 음성 신호와 미리 저장된 음성 데이터 베이스를 비교하여 상기 적어도 하나의 음성 신호에 대응하는 적어도 하나의 인물의 이름을 추출하는 단계를 포함하는 것을 특징으로 하는 대화 기록 방법.
  3. 제2항에 있어서,
    상기 미리 저장된 음성 데이터 베이스는 전화 통화시에 미리 저장된 음성 신호와 연락처에 저장된 이름으로 형성되는 것을 특징으로 하는 대화 기록 방법.
  4. 제1항에 있어서,
    상기 적어도 하나의 음성 신호의 상기 식별된 방향에 따라서 결정된 위치에 위치하는 상기 구분된 적어도 하나의 인물에 대응하여 상기 텍스트를 상기 촬영된 컨텐츠에 표시하는 단계는,
    상기 구분된 적어도 하나의 인물에 대응하여 상기 텍스트를 상기 적어도 하나의 인물의 이름과 함께 상기 촬영된 컨텐츠에 표시하는 단계를 포함하는 것을 특징으로 하는 대화 기록 방법.
  5. 제1항에 있어서,
    상기 촬영된 컨텐츠에 나타난 적어도 하나의 인물의 입술 움직임이 발생한 위치를 검출하는 단계;와
    상기 구분된 적어도 하나의 인물에 대응하여 상기 텍스트를 상기 촬영된 컨텐츠의 상기 검출된 입술 움직임이 발생한 위치에 표시하는 단계를 더 포함하는 것을 특징으로 하는 대화 기록 방법.
  6. 제1항에 있어서,
    상기 촬영된 컨텐츠를 분석하여 상기 촬영된 컨텐츠에 나타난 적어도 하나의 얼굴에 대응하는 적어도 하나의 인물을 구분하는 단계를 더 포함하는 것을 특징으로 하는 대화 기록 방법.
  7. 제6항에 있어서,
    상기 촬영된 컨텐츠를 분석하여 상기 촬영된 컨텐츠에 나타난 적어도 하나의 얼굴에 대응하는 적어도 하나의 인물을 구분하는 단계는,
    상기 적어도 하나의 얼굴과 미리 저장된 얼굴 데이터 베이스를 비교하여 상기 적어도 하나의 얼굴에 대응하는 적어도 하나의 인물의 이름을 추출하는 단계를 포함하는 것을 특징으로 하는 대화 기록 방법.
  8. 제7항에 있어서,
    상기 미리 저장된 얼굴 데이터 베이스는 갤러리에 미리 저장된 사진에 포함된 얼굴과 연락처에 저장된 이름으로 형성되는 것을 특징으로 하는 대화 기록 방법.
  9. 제1항에 있어서,
    상기 촬영된 컨텐츠에 나타난 적어도 하나의 인물의 입술 움직임이 발생한 위치를 검출하는 단계;를 더 포함하고,상기 적어도 하나의 음성 신호의 상기 식별된 방향에 따라서 결정된 위치에 위치하는 상기 구분된 적어도 하나의 인물에 대응하여 상기 텍스트를 상기 촬영된 컨텐츠에 표시하는 단계는,
    상기 구분된 적어도 하나의 인물에 대응하여 상기 텍스트를 상기 검출된 방향을 고려하여 상기 촬영된 컨텐츠의 상기 검출된 입술 움직임이 발생한 위치에 표시하는 단계를 포함하는 것을 특징으로 하는 대화 기록 방법.
  10. 제1항에 있어서,
    상기 적어도 하나의 음성 신호의 상기 식별된 방향에 따라서 결정된 위치에 위치하는 상기 구분된 적어도 하나의 인물에 대응하여 상기 텍스트를 상기 촬영된 컨텐츠에 표시하는 단계는,
    상기 촬영된 컨텐츠 외부에서 발생한 음성 신호의 방향으로 상기 텍스트를 상기 촬영된 컨텐츠에 표시하는 단계를 포함하는 것을 특징으로 하는 대화 기록 방법.
  11. 전자 장치에 있어서,
    카메라;
    디스플레이;
    지향성 마이크; 및
    제어부를 포함하고, 상기 제어부는,
    상기 카메라를 이용하여, 컨텐츠를 촬영하고,
    상기 지향성 마이크를 이용하여, 적어도 하나의 음성 신호를 수신하고,
    상기 적어도 하나의 음성 신호의 주파수 및 세기를 식별하여 상기 적어도 하나의 음성 신호에 대응하는 적어도 하나의 인물을 구분하고,
    상기 적어도 하나의 음성 신호를 상기 적어도 하나의 음성 신호에 대응하는 텍스트로 변환하고,
    상기 지향성 마이크로부터 수신된 적어도 하나의 음성 신호를 분석하여 상기 적어도 하나의 음성 신호의 방향을 식별하고,
    상기 적어도 하나의 음성 신호의 상기 식별된 방향에 따라서 결정된 위치에 위치하는 상기 구분된 적어도 하나의 인물에 대응하여 상기 텍스트를 상기 촬영된 컨텐츠에 표시하도록 상기 디스플레이를 제어하도록 설정된 것을 특징으로 하는 전자 장치.
  12. 제11항에 있어서,
    상기 제어부는,
    상기 적어도 하나의 음성 신호의 주파수 및 세기를 식별하여 상기 적어도 하나의 음성 신호에 대응하는 적어도 하나의 인물을 구분할 시,
    상기 적어도 하나의 음성 신호와 미리 저장된 음성 데이터 베이스를 비교하여 상기 적어도 하나의 음성 신호에 대응하는 적어도 하나의 인물의 이름을 추출하도록 설정된 것을 특징으로 하는 전자 장치.
  13. 제12항에 있어서,
    상기 미리 저장된 음성 데이터 베이스는 전화 통화시에 미리 저장된 음성 신호와 연락처에 저장된 이름으로 형성되는 것을 특징으로 하는 전자 장치.
  14. 제11항에 있어서,
    상기 제어부는,
    상기 적어도 하나의 음성 신호의 상기 식별된 방향에 따라서 결정된 위치에 위치하는 상기 구분된 적어도 하나의 인물에 대응하여 상기 텍스트를 상기 촬영된 컨텐츠에 표시할 시,
    상기 구분된 적어도 하나의 인물에 대응하여 상기 텍스트를 상기 적어도 하나의 인물의 이름과 함께 상기 촬영된 컨텐츠에 표시하도록 상기 디스플레이를 제어하도록 설정된 것을 특징으로 하는 전자 장치.
  15. 제11항에 있어서,
    상기 제어부는,
    상기 촬영된 컨텐츠에 나타난 적어도 하나의 인물의 입술 움직임이 발생한 위치를 검출하고,
    상기 구분된 적어도 하나의 인물에 대응하여 상기 텍스트를 상기 촬영된 컨텐츠의 상기 검출된 입술 움직임이 발생한 위치에 표시하도록 상기 디스플레이를 제어하도록 더 설정된 것을 특징으로 하는 전자 장치.
  16. 제11항에 있어서,
    상기 제어부는,
    상기 촬영된 컨텐츠를 분석하여 상기 촬영된 컨텐츠에 나타난 적어도 하나의 얼굴에 대응하는 적어도 하나의 인물을 구분하도록 설정된 것을 특징으로 하는 전자 장치.
  17. 제16항에 있어서,
    상기 제어부는,
    상기 촬영된 컨텐츠를 분석하여 상기 촬영된 컨텐츠에 나타난 적어도 하나의 얼굴에 대응하는 적어도 하나의 인물을 구분할 시,
    상기 적어도 하나의 얼굴과 미리 저장된 얼굴 데이터 베이스를 비교하여 상기 적어도 하나의 얼굴에 대응하는 적어도 하나의 인물의 이름을 추출하도록 설정된 것을 특징으로 하는 전자 장치.
  18. 제17항에 있어서,
    상기 미리 저장된 얼굴 데이터 베이스는 갤러리에 미리 저장된 사진에 포함된 얼굴과 연락처에 저장된 이름으로 형성되는 것을 특징으로 하는 전자 장치.
  19. 제11항에 있어서,
    상기 제어부는,
    상기 촬영된 컨텐츠에 나타난 적어도 하나의 인물의 입술 움직임이 발생한 위치를 검출하고,
    상기 구분된 적어도 하나의 인물에 대응하여 상기 텍스트를 상기 검출된 방향을 고려하여 상기 촬영된 컨텐츠의 상기 검출된 입술 움직임이 발생한 위치에 표시하도록 상기 디스플레이를 제어하도록 설정된 것을 특징으로 하는 전자 장치.
  20. 제11항에 있어서,
    상기 제어부는,
    상기 적어도 하나의 음성 신호의 상기 식별된 방향에 따라서 결정된 위치에 위치하는 상기 구분된 적어도 하나의 인물에 대응하여 상기 텍스트를 상기 촬영된 컨텐츠에 표시할 시,
    상기 촬영된 컨텐츠 외부에서 발생한 음성 신호의 방향으로 상기 텍스트를 상기 촬영된 컨텐츠에 표시하도록 상기 디스플레이를 제어하도록 설정된 전자 장치.
KR1020130056772A 2013-05-20 2013-05-20 대화 기록 장치 및 그 방법 KR102090948B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020130056772A KR102090948B1 (ko) 2013-05-20 2013-05-20 대화 기록 장치 및 그 방법
US14/221,863 US9883018B2 (en) 2013-05-20 2014-03-21 Apparatus for recording conversation and method thereof
EP14168495.1A EP2806618B1 (en) 2013-05-20 2014-05-15 Apparatus for recording conversation and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130056772A KR102090948B1 (ko) 2013-05-20 2013-05-20 대화 기록 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20140136349A KR20140136349A (ko) 2014-11-28
KR102090948B1 true KR102090948B1 (ko) 2020-03-19

Family

ID=50721655

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130056772A KR102090948B1 (ko) 2013-05-20 2013-05-20 대화 기록 장치 및 그 방법

Country Status (3)

Country Link
US (1) US9883018B2 (ko)
EP (1) EP2806618B1 (ko)
KR (1) KR102090948B1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102281341B1 (ko) * 2015-01-26 2021-07-23 엘지전자 주식회사 싱크 디바이스 및 그 제어 방법
US10902866B2 (en) 2016-09-08 2021-01-26 Huawei Technologies Co., Ltd. Sound signal processing method, terminal, and headset
US10560656B2 (en) 2017-03-19 2020-02-11 Apple Inc. Media message creation with automatic titling
WO2020142567A1 (en) * 2018-12-31 2020-07-09 Hed Technologies Sarl Systems and methods for voice identification and analysis
US11264029B2 (en) 2019-01-05 2022-03-01 Starkey Laboratories, Inc. Local artificial intelligence assistant system with ear-wearable device
US11264035B2 (en) * 2019-01-05 2022-03-01 Starkey Laboratories, Inc. Audio signal processing for automatic transcription using ear-wearable device
CN110475170A (zh) * 2019-07-10 2019-11-19 深圳壹账通智能科技有限公司 耳机播放状态的控制方法、装置、移动终端及存储介质
KR20220139189A (ko) * 2021-04-07 2022-10-14 네이버 주식회사 음성 녹음 후의 정보에 기초하여 생성된 음성 기록을 제공하는 방법 및 시스템

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040093220A1 (en) * 2000-06-09 2004-05-13 Kirby David Graham Generation subtitles or captions for moving pictures
US20090089055A1 (en) * 2007-09-27 2009-04-02 Rami Caspi Method and apparatus for identification of conference call participants
US20100250252A1 (en) * 2009-03-27 2010-09-30 Brother Kogyo Kabushiki Kaisha Conference support device, conference support method, and computer-readable medium storing conference support program

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7053938B1 (en) 1999-10-07 2006-05-30 Intel Corporation Speech-to-text captioning for digital cameras and associated methods
US20030154084A1 (en) * 2002-02-14 2003-08-14 Koninklijke Philips Electronics N.V. Method and system for person identification using video-speech matching
EP1493993A1 (en) * 2003-06-30 2005-01-05 Harman Becker Automotive Systems GmbH Method and device for controlling a speech dialog system
JP2005295015A (ja) 2004-03-31 2005-10-20 Hitachi Kokusai Electric Inc 映像会議システム
US7830408B2 (en) 2005-12-21 2010-11-09 Cisco Technology, Inc. Conference captioning
CN101309390B (zh) * 2007-05-17 2012-05-23 华为技术有限公司 视讯通信系统、装置及其字幕显示方法
US20080295040A1 (en) * 2007-05-24 2008-11-27 Microsoft Corporation Closed captions for real time communication
US7995732B2 (en) * 2007-10-04 2011-08-09 At&T Intellectual Property I, Lp Managing audio in a multi-source audio environment
US20090112589A1 (en) * 2007-10-30 2009-04-30 Per Olof Hiselius Electronic apparatus and system with multi-party communication enhancer and method
JP2010081457A (ja) 2008-09-29 2010-04-08 Hitachi Ltd 情報記録再生装置およびビデオカメラ
KR101677622B1 (ko) 2010-03-12 2016-11-18 엘지전자 주식회사 영상 표시 방법 및 그 장치
US8630854B2 (en) * 2010-08-31 2014-01-14 Fujitsu Limited System and method for generating videoconference transcriptions
US8934652B2 (en) * 2011-12-01 2015-01-13 Elwha Llc Visual presentation of speaker-related information
US9245254B2 (en) * 2011-12-01 2016-01-26 Elwha Llc Enhanced voice conferencing with history, language translation and identification
US20130162752A1 (en) * 2011-12-22 2013-06-27 Advanced Micro Devices, Inc. Audio and Video Teleconferencing Using Voiceprints and Face Prints
US9711167B2 (en) * 2012-03-13 2017-07-18 Nice Ltd. System and method for real-time speaker segmentation of audio interactions
US9966075B2 (en) * 2012-09-18 2018-05-08 Qualcomm Incorporated Leveraging head mounted displays to enable person-to-person interactions
US9679564B2 (en) * 2012-12-12 2017-06-13 Nuance Communications, Inc. Human transcriptionist directed posterior audio source separation
US9293140B2 (en) * 2013-03-15 2016-03-22 Broadcom Corporation Speaker-identification-assisted speech processing systems and methods
US20150111550A1 (en) * 2013-10-18 2015-04-23 Plantronics, Inc. Context based meeting attendee identification and meeting organizer system for use in automated multi-media conference call system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040093220A1 (en) * 2000-06-09 2004-05-13 Kirby David Graham Generation subtitles or captions for moving pictures
US20090089055A1 (en) * 2007-09-27 2009-04-02 Rami Caspi Method and apparatus for identification of conference call participants
US20100250252A1 (en) * 2009-03-27 2010-09-30 Brother Kogyo Kabushiki Kaisha Conference support device, conference support method, and computer-readable medium storing conference support program

Also Published As

Publication number Publication date
US20140343938A1 (en) 2014-11-20
US9883018B2 (en) 2018-01-30
EP2806618A1 (en) 2014-11-26
EP2806618B1 (en) 2018-03-21
KR20140136349A (ko) 2014-11-28

Similar Documents

Publication Publication Date Title
KR102041984B1 (ko) 추가 구성 요소를 이용한 얼굴 인식 기능을 가지는 모바일 장치 및 그 제어 방법
KR102090948B1 (ko) 대화 기록 장치 및 그 방법
KR102051908B1 (ko) 정보를 디스플레이하는 모바일 장치 및 방법
EP2720126B1 (en) Method and apparatus for generating task recommendation icon in a mobile device
CN109905852B (zh) 通过使用呼叫方电话号码来提供附加信息的装置和方法
KR102051418B1 (ko) 영상에 포함된 객체를 선택하기 위한 사용자 인터페이스 제어 장치 및 그 방법 그리고 영상 입력 장치
US9514512B2 (en) Method and apparatus for laying out image using image recognition
KR102141155B1 (ko) 모바일 장치의 상태에 대응하는 변경된 숏컷 아이콘을 제공하는 모바일 장치 및 그 제어 방법
KR102028952B1 (ko) 휴대 단말에 의해 촬영된 이미지들을 합성하는 방법, 기계로 읽을 수 있는 저장 매체 및 휴대 단말
US20140365923A1 (en) Home screen sharing apparatus and method thereof
US20140351763A1 (en) Apparatus, method and computer readable recording medium for displaying thumbnail image of panoramic photo
KR102015534B1 (ko) 복수의 단말들간의 메시지 싱크 방법, 기계로 읽을 수 있는 저장 매체 및 서버
KR102165818B1 (ko) 입력 영상을 이용한 사용자 인터페이스 제어 방법, 장치 및 기록매체
KR20140125078A (ko) 전자 장치 및 전자 장치에서 잠금 해제 방법
US10019219B2 (en) Display device for displaying multiple screens and method for controlling the same
KR102186815B1 (ko) 컨텐츠 스크랩 방법, 장치 및 기록매체
US10114496B2 (en) Apparatus for measuring coordinates and control method thereof
CN109189313B (zh) 移动装置及其控制方法
KR20150026110A (ko) 아이콘들을 관리하는 방법 및 이를 위한 모바일 단말기
KR20170071290A (ko) 이동 단말기
KR20200121261A (ko) 입력 영상을 이용한 사용자 인터페이스 제어 방법, 장치 및 기록매체
KR20190135958A (ko) 영상에 포함된 객체를 선택하기 위한 사용자 인터페이스 제어 장치 및 그 방법 그리고 영상 입력 장치
CN111813486A (zh) 页面显示方法、装置、电子设备及存储介质
KR20150026646A (ko) 사용자로부터 입력되는 텍스트를 수정하는 방법 및 이를 위한 전자 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right