KR20150076380A - 화자 인식을 통한 콘텐츠의 관리 방법, 컴퓨터 판독가능 매체 및 컴퓨팅 장치 - Google Patents

화자 인식을 통한 콘텐츠의 관리 방법, 컴퓨터 판독가능 매체 및 컴퓨팅 장치 Download PDF

Info

Publication number
KR20150076380A
KR20150076380A KR1020130164332A KR20130164332A KR20150076380A KR 20150076380 A KR20150076380 A KR 20150076380A KR 1020130164332 A KR1020130164332 A KR 1020130164332A KR 20130164332 A KR20130164332 A KR 20130164332A KR 20150076380 A KR20150076380 A KR 20150076380A
Authority
KR
South Korea
Prior art keywords
speaker
voice data
content
association
recognized
Prior art date
Application number
KR1020130164332A
Other languages
English (en)
Inventor
류창선
박성원
박종세
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020130164332A priority Critical patent/KR20150076380A/ko
Publication of KR20150076380A publication Critical patent/KR20150076380A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

화자 인식을 통한 콘텐츠의 관리방법은 주소록 상의 지인들에 대한 지인 음성 데이터를 저장하는 단계, 콘텐츠와 연계하여 화자 음성 데이터를 저장하는 단계, 지인 음성 데이터에 기초하여, 화자 음성 데이터에 포함된 한 명 이상의 화자를 인식하는 단계 및 인식된 화자의 정보를 콘텐츠와 연계하여 관리하는 단계를 포함한다.

Description

화자 인식을 통한 콘텐츠의 관리 방법, 컴퓨터 판독가능 매체 및 컴퓨팅 장치{METHOD FOR MANAGING CONTENTS USING SPEAKER RECOGNITION, COMPUTER-READABLE MEDIUM AND COMPUTING DEVICE}
본 발명은 화자 인식을 통한 콘텐츠의 관리 방법, 애플리케이션에서 콘텐츠를 관리하는 명령어들의 시퀀스를 포함하는 컴퓨터 판독가능 매체 및 콘텐츠 관리 애플리케이션을 실행하는 컴퓨팅 장치에 관한 것이다.
콘텐츠란 문자, 도형, 색채, 음성, 동작, 그림이나 이들을 결합한 것 또는 영화, 음악, 연극, 문학, 사진, 만화, 애니메이션, 컴퓨터 게임과 관련된 데이터를 말한다. 기존에는 콘텐츠가 전문 제작자에 의해서만 만들어졌었지만, 디지털 기술의 발전으로 인해 최근에는 누구나 개인용 컴퓨터 또는 스마트폰 등을 통해 사진, 동영상, 음악 등을 제작하고 편집할 수 있게 되었다. 이와 같이, 일반 개인이 콘텐츠를 생성할 수 있게 됨으로써, 현대 사회에서는 콘텐츠의 숫자와 양이 매우 빠른 속도로 증가하게 되었다. 따라서 이러한 방대한 양의 콘텐츠를 관리하는 방법이 필요하게 되었고 이러한 콘텐츠 관리 방법과 관련하여, 선행기술인 한국 공개 특허 제 2013-0090570호는 콘텐츠를 관리하기 위한 전자 기기 및 그 관리 방법에 대해 개시하고 있다.
앞서 언급한 바와 같이 일반 개인은 자신이 사용하는 개인용 컴퓨터 또는 스마트폰 등의 전자 기기에서 직접 콘텐츠를 생성하며 동시에 사용하고 있는 바, 이러한 유저 생성 콘텐츠(UCC: User Created Contents)의 급속한 증가는 새로운 콘텐츠 관리 방법을 요구하고 있다.
전자 기기에서 콘텐츠를 생성하거나 시청하거나 조회할 때 입력된 사람의 음성 데이터를 이용함으로써, 콘텐츠와 관련되어 있는 사람을 자동으로 인식하는 콘텐츠의 관리 방법을 제공하고자 한다. 전자 기기의 주소록에 저장되어 있는 사람에 대해 편리하고 효율적으로 콘텐츠를 태깅, 검색 및 전송하는 콘텐츠의 관리 방법을 제공하고자 한다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 실시예는 주소록 상의 지인들에 대한 지인 음성 데이터를 저장하는 단계, 콘텐츠와 연계하여 화자 음성 데이터를 저장하는 단계, 지인 음성 데이터에 기초하여, 화자 음성 데이터에 포함된 한 명 이상의 화자를 인식하는 단계 및 인식된 화자의 정보를 콘텐츠와 연계하여 관리하는 단계를 포함하는 콘텐츠 관리 방법을 제공할 수 있다.
또한, 본 발명의 다른 실시예는, 주소록 상의 지인들에 대한 지인 음성 데이터를 화자 인식 서버로 전송하는 단계, 콘텐츠와 연계하여 화자 음성 데이터를 저장하는 단계, 화자 음성 데이터를 화자 인식 서버로 전송하는 단계, 화자 인식 서버로부터 화자 음성 데이터에 포함된 한 명 이상의 화자의 인식 결과를 수신하는 단계 및 인식 결과를 콘텐츠와 연계하여 관리하는 단계를 포함하는 콘텐츠 관리 방법을 제공할 수 있다.
또한, 본 발명의 또 다른 실시예는, 모바일 단말로부터 주소록 상의 지인들에 대한 지인 음성 데이터를 수신하는 단계, 모바일 단말로부터 화자 음성 데이터를 수신하는 단계, 지인 음성 데이터에 기초하여, 화자 음성 데이터에 포함된 한 명 이상의 화자를 인식하는 단계 및 인식된 화자의 정보를 모바일 단말로 전송하는 단계를 포함하는 콘텐츠 관리 방법을 제공할 수 있다.
또한, 본 발명의 또 다른 실시예는, 메모리 및 메모리와 인터페이싱하도록 정렬된 프로세싱 유닛을 포함하고, 프로세싱 유닛은 주소록 상의 지인들에 대한 지인 음성 데이터를 저장하고 콘텐츠와 연계하여 화자 음성 데이터를 저장하고 지인 음성 데이터에 기초하여 화자 음성 데이터에 포함된 한 명 이상의 화자를 인식하고 인식된 화자의 정보를 콘텐츠와 연계하여 관리하도록 구성되는 컴퓨팅 장치를 제공할 수 있다.
또한, 본 발명의 또 다른 실시예는 컴퓨팅 장치에 의해 실행될 때, 컴퓨팅 장치가 주소록 상의 지인들에 대한 지인 음성 데이터를 저장하고, 콘텐츠와 연계하여 화자 음성 데이터를 저장하고, 지인 음성 데이터에 기초하여 화자 음성 데이터에 포함된 한 명 이상의 화자를 인식하고, 인식된 화자의 정보를 콘텐츠와 연계하여 관리하도록 하는 컴퓨터 판독가능 매체를 제공할 수 있다.
상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 전자 기기에서 콘텐츠를 생성하거나 시청하거나 조회할 때 입력된 사람의 음성 데이터를 이용함으로써, 콘텐츠와 관련되어 있는 사람을 자동으로 인식하는 콘텐츠의 관리 방법을 제공할 수 있다. 또한, 전자 기기의 주소록에 저장되어 있는 사람에 대해 편리하고 효율적으로 콘텐츠를 태깅, 검색 및 전송하는 콘텐츠의 관리 방법을 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 화자 인식을 통한 콘텐츠 관리 방법의 제공 시스템의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 사용자 디바이스의 구성도의 일 예이다.
도 3은 본 발명의 일 실시예에 따른 사용자 디바이스에 표시되는 지인 음성 데이터의 예시를 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 인식된 화자 정보를 이용한 콘텐츠의 관리의 예시를 도시한 도면이다.
도 5는 본 발명의 일 실시예에 따른 사용자 디바이스 및 화자 인식 서버에서 수행되는 콘텐츠 관리 방법을 나타내는 신호 흐름도이다.
도 6은 본 발명의 일 실시예에 따른 사용자 디바이스에서 수행되는 콘텐츠 관리 방법을 나타낸 흐름도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다.
본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다.
이하 첨부된 도면을 참고하여 본 발명의 일 실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 화자 인식을 통한 콘텐츠 관리 방법의 제공 시스템(1)의 구성도이다. 도 1을 참조하면, 화자 인식을 통한 콘텐츠 관리 방법의 제공 시스템 (1)은 사용자 디바이스(100) 및 화자 인식 서버(200)를 포함할 수 있다. 도 1에 도시된 사용자 디바이스(100) 및 화자 인식 서버(200)는 화자 인식을 통한 콘텐츠 관리 방법의 제공 시스템(1)에 의하여 제어될 수 있는 구성요소들을 예시적으로 도시한 것이다.
도 1의 화자 인식을 통한 콘텐츠 관리 방법의 제공 시스템(1)의 각 구성요소들은 일반적으로 네트워크(network)를 통해 연결된다. 예를 들어, 도 1에 도시된 바와 같이, 사용자 디바이스(100)는 네트워크를 통하여 화자 인식 서버(200)와 연결될 수 있다.
네트워크는 단말들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크의 일 예는, Wi-Fi, 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 3G, 4G, LTE(Long-Term Evolution) 등이 포함되나 이에 한정되지는 않는다.
사용자 디바이스(100)는 이용자가 사용자 디바이스(100)의 주소록 내에 있는 지인과 음성 통화를 할 때 자동으로 그 지인의 음성을 지인 음성 데이터의 형태로 저장할 수 있다. 또는, 사용자 디바이스(100)는 주소록 상의 지인과 음성 통화를 할 때 수동으로, 즉, 사용자의 녹음 요청이 있는 경우에 그 지인의 음성을 지인 음성 데이터의 형태로 저장할 수 있다. 또는 사용자 디바이스(100)는 지인의 디바이스로부터 또는 지인이 업로드해 둔 서버로부터 지인 음성 데이터를 전송받아 저장할 수도 있다. 이 때, 그 지인 음성 데이터는 주소록 내에 있는 지인의 정보와 결합되어 저장될 수 있다.
사용자 디바이스(100)는 사진을 찍거나 동영상 촬영을 하는 등의 방법으로 콘텐츠를 생성하거나 네트워크를 통해 콘텐츠를 다운로드 하여 사용자 디바이스 이용자로 하여금 시청하거나 조회하게 할 수 있다. 이렇게 콘텐츠를 생성하거나 조회할 때 입력된 여러 사람의 음성은 화자 음성 데이터의 형태로 사용자 디바이스(100)에 저장될 수 있다.
사용자 디바이스(100)는 주소록 상의 지인 음성 데이터와 콘텐츠에 태깅된 화자 음성 데이터를 비교하는 방법 등을 이용하여 화자 음성 데이터에 포함된 한 명 이상의 화자를 인식할 수 있다. 또는. 사용자 디바이스(100)는 지인 음성 데이터와 화자 음성 데이터를 화자 인식 서버(200)에 전송하고 화자 인식 서버(200)으로부터 화자 인식 정보를 수신하는 방법에 의하여 화자 음성 데이터에 포함된 한 명 이상의 화자를 인식할 수 있다. 이렇게 인식된 화자 정보는 콘텐츠와 연계되어 콘텐츠를 관리하는 데 사용될 수 있다.
사용자 디바이스(100)는 인식된 화자 정보를 콘텐츠와 연계되어 관리함에 있어서, 콘텐츠를 인식된 화자에게 전송하거나 인식된 화자 음성 데이터를 텍스트로 변환한 후 콘텐츠와 연계하여 저장하는 등의 방식을 사용할 수 있다.
이러한 사용자 디바이스(100)의 일 예는 PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(Wideband-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(Smart phone)과 같은 휴대성과 이동성이 보장되는 무선 통신 장치(101)일 수 있다. 또한, 사용자 디바이스(100)의 일 예는 스마트 패드(Smart pad), 타블랫 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치(102)를 포함할 수 있다.
이와 같은 사용자 디바이스(100)의 동작은 도 2에서 후술된다.
화자 인식 서버(200)는 네트워크를 통해 사용자 디바이스(100)로부터 주소록 상의 지인 음성 데이터와 콘텐츠와 연계된 화자 음성 데이터를 수신한다. 지인 음성 데이터를 수신하는 때에는 그 데이터를 저장하고, 화자 음성 데이터를 수신하는 때에는 기존에 저장되어 있던 지인 음성 데이터에 기초하여 수신된 화자 음성 데이터에 포함된 한 명 이상의 화자를 인식할 수 있다. 만일 사용자 디바이스(100)에서 화자 인식 프로세스를 자체적으로 수행하는 경우에는, 화자 인식 서버(200)는 생략될 수도 있다.
화자 인식 서버(200)는 위 인식된 화자의 정보를 사용자 디바이스(100)에게 송신하는 기능을 수행한다.
도 2는 본 발명의 일 실시예에 따른 사용자 디바이스(100)의 구성도의 일 예이다. 도 2를 참조하면, 사용자 디바이스(100)는 메모리(110), 프로세싱 유닛(120), 카메라(130) 및 마이크(140)를 포함할 수 있다.
다만, 도 2에 도시된 사용자 디바이스(100)는 본원의 하나의 구현 예에 불과하며, 도 2에 도시된 구성 요소들을 기초로 하여 여러 형태로 변형이 가능함은 본원의 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 이해할 수 있다. 예를 들어, 구성 요소들과 해당 구성 요소들 안에서 제공되는 기능은 더 작은 수의 구성 요소들로 결합되거나 추가적인 구성 요소들로 더 분리될 수 있다.
메모리(110)는 콘텐츠, 지인 음성 데이터 및 화자 음성 데이터가 저장되는 영역이다. 콘텐츠는 사용자 디바이스(100)가 네트워크를 통해서 다운로드 받거나 사용자 디바이스(100)의 이용자가 카메라(130) 등을 이용하여 생성한 사진 또는 동영상일 수 있다. 지인 음성 데이터는, 예를 들어, 사용자 디바이스(100)의 이용자가 주소록 상의 지인들과 음성 통화를 할 때 프로세싱 유닛(120) 및 마이크(140)에 의해 자동 또는 수동으로 생성되는 데이터이다. 화자 음성 데이터는 사용자 디바이스(100)의 이용자가 위 콘텐츠를 생성하거나 사용할 때 입력된 화자의 음성이 프로세싱 유닛(120) 및 마이크(140)에 의해 자동 또는 수동으로 데이터화 된 것이다.
프로세싱 유닛(120)은 마이크(140)를 통해 입력된 지인 음성 및 화자 음성을 각각 데이터의 형태로 변환하여 지인 음성 데이터와 화자 음성 데이터를 생성하는 기능을 수행한다. 또한, 프로세싱 유닛(120)은 사용자 디바이스 이용자가 콘텐츠를 다운로드 하거나 생성하는 경우 그 이용자의 명령(다운로드 또는 생성)을 수행한다. 사용자 디바이스(100) 자체적으로 지인 음성 데이터에 기초하여 화자 음성 데이터에 포함된 한 명 이상의 화자를 인식하는 경우 프로세싱 유닛(120)은 메모리(110)에 저장된 지인 음성 데이터와 화자 음성 데이터를 비교하는 등의 방법을 이용하여 그 기능을 수행한다.
카메라(130)는 사용자 디바이스(100)의 이용자가 사진을 찍거나 동영상을 촬영하여 콘텐츠를 생성할 수 있게 한다. 이렇게 생성된 콘텐츠는 메모리(110)에 저장되거나 프로세싱 유닛(120)에 의해 처리될 수 있다.
마이크(140)는 사용자 디바이스(100)의 이용자가 주소록 상의 지인들과 통화를 하거나 콘텐츠 생성 및 사용을 할 때 화자의 음성이 입력되도록 하는 기능을 수행한다.
도 3은 본 발명의 일 실시예에 따른 사용자 디바이스(100)에 표시되는 지인 음성 데이터의 예시를 도시한 도면이다. 사용자 디바이스(100)의 이용자가 사용자 디바이스(100)의 주소록 내에 있는 지인과 음성 통화를 할 때 자동 또는 수동으로 그 지인의 음성을 지인 음성 데이터의 형태로 저장하는데 이 때 그 지인 음성 데이터 관련 정보(320)는 주소록 내에 있는 지인의 이름(310) 등의 정보와 결합되어 저장될 수 있다.
도 4는 본 발명의 일 실시예에 따른 인식된 화자 정보를 이용한 콘텐츠의 관리의 예시를 도시한 도면이다. 사용자 디바이스(100)의 이용자가 5명의 인물(401, 402, 403, 404, 405)을 찍은 사진(410)이 있을 때 사진 속의 인물 중 403, 405가 각각 A, B라는 주소록 상에 저장되어 있는 지인이라면, 이들이 사진을 찍을 때 한 말이 음성 태그(420)로서 기록되고 이들에 대한 인식 정보가 화자 태그(430)로서 기록될 수 있다. 그리고 이렇게 인식된 화자에게 사진을 자동으로 전송할 지에 대한 설정(440)이 콘텐츠 관리 방법의 하나로서 표시될 수 있다. 이와 같이 기록된 음성 태그(420) 및 화자 태그(430)는 추후 콘텐츠 검색 시에 활용될 수 있다.
도 5는 본 발명의 일 실시예에 따른 사용자 디바이스(100) 및 화자 인식 서버(200)에서 수행되는 콘텐츠 관리 방법을 나타내는 신호 흐름도이다. 도 5를 참조하면, 단계 S510에서 사용자 디바이스(100)는 사용자 디바이스(100)의 이용자가 평소에 주소록 상 지인들과 전화 통화를 할 때 전화 통화의 상대방인 지인들의 음성을 데이터화 하여 저장한다. 예를 들어, 사용자 디바이스(100)의 이용자가 주소록에 저장된 지인 A와 통화를 하는 경우 사용자 디바이스(100)는 자동 또는 수동으로 설정된 방법에 의하여 지인 A의 음성을 데이터화 하여 지인 A의 음성 데이터를 사용자 디바이스(100)에 저장한다.
단계 S520에서 사용자 디바이스(100)는 저장된 지인 음성 데이터를 화자 인식 서버(200)에게 전송한다.
단계 S530에서 사용자 디바이스(100)는 사용자 디바이스(100)의 이용자가 콘텐츠를 생성하거나 이미 존재하는 콘텐츠를 사용하는 때 입력된 화자(들)의 음성을 데이터화 하여 그 콘텐츠와 연계하여 저장한다. 사용자 디바이스(100)의 이용자가 콘텐츠를 생성하는 경우의 예를 들면, 사용자 디바이스(100)의 이용자가 사용자 디바이스(100)를 이용하여 세 명의 사람(화자 A, 화자 B, 화자 C)이 모여 있는 사진을 찍을 때 그 피사체인 세 명의 사람이 말을 하게 되면 화자 A, 화자 B, 화자 C의 음성을 데이터화 하여 모두 저장하고 그 화자 음성 데이터를 그 사진과 연계하여 저장할 수 있다. 사용자 디바이스(100)의 이용자가 이미 존재하고 있는 타인에 의해 생성된 콘텐츠를 사용하는 경우의 예를 들면, 사용자 디바이스(100)의 이용자가 네트워크를 통해 다운로드 받은 동영상을 두 명의 사람(화자 D, 화자 E)과 함께 감상하는 동안 그 두 명의 사람이 말을 하게 되면 화자 D, 화자 E의 음성을 데이터화 하여 모두 저장하고 그 화자 음성 데이터를 그 동영상 콘텐츠와 연계하여 저장할 수 있다.
단계 S540에서 사용자 디바이스(100)는 저장된 화자 음성 데이터를 화자 인식 서버(200)에게 전송한다.
단계 S550에서 화자 인식 서버(200)는 단계 S520을 통해 사용자 디바이스(100)로부터 수신한 지인 음성 데이터에 기초하여 단계 S540을 통해 사용자 디바이스(100)로부터 수신한 화자 음성 데이터에 포함된 한 명 이상의 화자를 인식한다. 예를 들어, 사용자 디바이스(100)의 주소록 상 지인 정보 중에서 A, B, C의 지인 음성 데이터가 화자 인식 서버(200)로 전송된 경우 사용자 디바이스(100)의 이용자가 사진 1을 찍을 때 A, C, D가 말을 하여 화자 A, 화자 C 및 화자 D에 대한 화자 음성 데이터가 화자 인식 서버(200)로 전달되었다면 화자 인식 서버(200)는 사용자 디바이스(100)로부터 수신한 지인 음성 데이터와 화자 음성 데이터를 이용하여 화자 A 및 화자 C를 인식할 수 있다.
단계 S560에서 화자 인식 서버(200)는 인식된 화자 정보를 사용자 디바이스(100)에게 전송한다.
단계 S570에서 사용자 디바이스(100)는 화자 인식 서버(200)로부터 수신한 인식 화자 정보를 단계 S530에서의 콘텐츠와 연계하여 관리한다. 예를 들어, 사용자 디바이스(100)는 인식된 화자에게 자동 또는 수동 설정으로 위 콘텐츠를 전송할 수 있다. 또 다른 예로, 사용자 디바이스(100)는 인식된 화자의 음성 데이터를 텍스트로 변환하고 그 변환된 텍스트를 화자 별로 구분하여 위 콘텐츠와 연계하여 저장할 수 있다.
이후, 사용자 디바이스(100)는 사용자 디바이스(100)의 이용자로부터 화자 정보를 포함하는 검색 요청을 받으면 그 화자 정보에 대응하는 콘텐츠를 검색하여 표시할 수 있다.
상술한 설명에서, 단계 S510 내지 S570은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.
도 6은 본 발명의 일 실시예에 따른 사용자 디바이스(100)에서 수행되는 콘텐츠 관리 방법에 관한 순서도이다. 도 6에 도시된 콘텐츠 관리 방법은 도 1 내지 도 2를 통해 설명되는 사용자 디바이스(100)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하여도 도 1 내지 도 2를 통해 사용자 디바이스(100)에 대하여 설명된 내용은 도 6에도 적용된다.
단계 S610에서 사용자 디바이스(100)는 사용자 디바이스(100)의 이용자가 평소에 주소록 상 지인들과 전화 통화를 할 때 전화 통화의 상대방인 지인들의 음성을 데이터화 하여 저장한다. 예를 들어, 사용자 디바이스(100)의 이용자가 주소록에 저장된 지인 A와 통화를 하는 경우 사용자 디바이스(100)는 자동 또는 수동으로 설정된 방법에 의하여 지인 A의 음성을 데이터화 하여 지인 A의 음성 데이터를 사용자 디바이스(100)에 저장한다.
단계 S620에서 사용자 디바이스(100)는 사용자 디바이스(100)의 이용자가 콘텐츠를 생성하거나 이미 존재하는 콘텐츠를 사용하는 때 입력된 화자(들)의 음성을 데이터화 하여 그 콘텐츠와 연계하여 저장한다. 사용자 디바이스(100)의 이용자가 콘텐츠를 생성하는 경우의 예를 들면, 사용자 디바이스(100)의 이용자가 사용자 디바이스(100)를 이용하여 세 명의 사람(화자 A, 화자 B, 화자 C)이 모여 있는 사진을 찍을 때 그 피사체인 세 명의 사람이 말을 하게 되면 화자 A, 화자 B, 화자 C의 음성을 데이터화 하여 모두 저장하고 그 화자 음성 데이터를 그 사진과 연계하여 저장할 수 있다. 사용자 디바이스(100)의 이용자가 이미 존재하고 있는 타인에 의해 생성된 콘텐츠를 사용하는 경우의 예를 들면, 사용자 디바이스(100)의 이용자가 네트워크를 통해 다운로드 받은 동영상을 두 명의 사람(화자 D, 화자 E)과 함께 감상하는 동안 그 두 명의 사람이 말을 하게 되면 화자 D, 화자 E의 음성을 데이터화 하여 모두 저장하고 그 화자 음성 데이터를 그 동영상 콘텐츠와 연계하여 저장할 수 있다.
단계 S630에서 사용자 디바이스(100)는 지인 음성 데이터에 기초하여 화자 음성 데이터에 포함된 한 명 이상의 화자를 인식한다. 예를 들어, 사용자 디바이스(100)의 주소록 상 지인 정보 중에서 A, B, C의 지인 음성 데이터가 있는 경우 사용자 디바이스(100)의 이용자가 사진 1을 찍을 때 A, C, D가 말을 하여 화자 A, 화자 C 및 화자 D에 대한 화자 음성 데이터가 생성되었다면 사용자 디바이스(100)는 지인 음성 데이터와 화자 음성 데이터를 이용하여 화자 A 및 화자 C를 인식할 수 있다.
단계 S640에서 사용자 디바이스(100)는 단계 S630에서 얻은 인식 화자 정보를 단계 S620에서의 콘텐츠와 연계하여 관리한다. 예를 들어, 사용자 디바이스(100)는 인식된 화자에게 자동 또는 수동 설정으로 위 콘텐츠를 전송할 수 있다. 또 다른 예로, 사용자 디바이스(100)는 인식된 화자의 음성 데이터를 텍스트로 변환하고 그 변환된 텍스트를 화자 별로 구분하여 위 콘텐츠와 연계하여 저장할 수 있다.
이후, 사용자 디바이스(100)는 사용자 디바이스(100)의 이용자로부터 화자 정보를 포함하는 검색 요청을 받으면 그 화자 정보에 대응하는 콘텐츠를 검색하여 표시할 수 있다.
상술한 설명에서, 단계 S610 내지 S640은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.
도 6을 통해 설명된 사용자 디바이스(100)에 의해 수행되는 화자 인식을 통한 콘텐츠의 관리 방법은 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
한편, 도 6을 통해 설명된 사용자 디바이스에 의해 수행되는 화자 인식을 통한 콘텐츠의 관리 방법은 소정 어플리케이션을 통해 수행될 수도 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명된 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명된 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 사용자 디바이스
200: 서버
210: 메모리
220: 프로세싱 유닛

Claims (20)

  1. 화자 인식을 통한 콘텐츠의 관리방법에 있어서,
    주소록 상의 지인들에 대한 지인 음성 데이터를 저장하는 단계;
    콘텐츠와 연계하여 화자 음성 데이터를 저장하는 단계;
    상기 지인 음성 데이터에 기초하여, 상기 화자 음성 데이터에 포함된 한 명 이상의 화자를 인식하는 단계; 및
    상기 인식된 화자의 정보를 상기 콘텐츠와 연계하여 관리하는 단계
    를 포함하는, 콘텐츠 관리 방법.
  2. 제 1 항에 있어서,
    상기 지인 음성 데이터는 상기 주소록 상의 지인과의 통화 시에 녹음되어 생성되는 것인, 콘텐츠 관리 방법.
  3. 제 1 항에 있어서,
    상기 화자 음성 데이터는 사진을 촬영할 때 녹음되어 생성된 것인, 콘텐츠 관리 방법.
  4. 제 1 항에 있어서,
    상기 콘텐츠를 상기 인식된 화자에게 전송하는 단계
    를 더 포함하는, 콘텐츠 관리 방법.
  5. 제 1 항에 있어서,
    상기 화자 음성 데이터를 텍스트로 변환하는 단계; 및
    상기 변환된 텍스트를 화자 별로 구분하여 상기 콘텐츠와 연계하여 저장하는 단계
    를 더 포함하는, 콘텐츠 관리 방법.
  6. 제 1 항에 있어서,
    화자 정보를 포함하는 검색 요청을 수신하는 단계; 및
    상기 화자 정보에 대응하는 콘텐츠를 검색하여 표시하는 단계
    를 더 포함하는, 콘텐츠 관리 방법.
  7. 화자 인식을 통한 콘텐츠의 관리 방법에 있어서,
    주소록 상의 지인들에 대한 지인 음성 데이터를 화자 인식 서버로 전송하는 단계;
    콘텐츠와 연계하여 화자 음성 데이터를 저장하는 단계;
    상기 화자 음성 데이터를 상기 화자 인식 서버로 전송하는 단계;
    상기 화자 인식 서버로부터 상기 화자 음성 데이터에 포함된 한 명 이상의 화자의 인식 결과를 수신하는 단계; 및
    상기 인식 결과를 상기 콘텐츠와 연계하여 관리하는 단계
    를 포함하는, 콘텐츠 관리 방법.
  8. 제 7 항에 있어서,
    상기 지인 음성 데이터는 상기 주소록 상의 지인과의 통화 시에 녹음되어 생성되는 것인, 콘텐츠 관리 방법.
  9. 제 7 항에 있어서,
    상기 화자 음성 데이터는 사진을 촬영할 때 녹음되어 생성된 것인, 콘텐츠 관리 방법.
  10. 제 7 항에 있어서,
    상기 콘텐츠를 상기 인식된 화자에게 전송하는 단계
    를 더 포함하는, 콘텐츠 관리 방법.
  11. 제 7 항에 있어서,
    상기 화자 음성 데이터를 텍스트로 변환하는 단계; 및
    상기 변환된 텍스트를 화자 별로 구분하여 상기 콘텐츠와 연계하여 저장하는 단계
    를 더 포함하는, 콘텐츠 관리 방법.
  12. 제 7 항에 있어서,
    화자 정보를 포함하는 검색 요청을 수신하는 단계; 및
    상기 화자 정보에 대응하는 콘텐츠를 검색하여 표시하는 단계
    를 더 포함하는, 콘텐츠 관리 방법.
  13. 화자 인식을 통한 콘텐츠의 관리 방법에 있어서,
    모바일 단말로부터 주소록 상의 지인들에 대한 지인 음성 데이터를 수신하는 단계;
    상기 모바일 단말로부터 화자 음성 데이터를 수신하는 단계;
    상기 지인 음성 데이터에 기초하여, 상기 화자 음성 데이터에 포함된 한 명 이상의 화자를 인식하는 단계; 및
    상기 인식된 화자의 정보를 상기 모바일 단말로 전송하는 단계
    를 포함하는, 콘텐츠 관리 방법.
  14. 제 13 항에 있어서,
    상기 화자 음성 데이터를 텍스트로 변환하는 단계; 및
    상기 변환된 텍스트를 화자 별로 구분하여 상기 모바일 단말에게 전송하는 단계
    를 더 포함하는, 콘텐츠 관리 방법.
  15. 콘텐츠 관리 애플리케이션을 실행하는 컴퓨팅 장치에 있어서,
    메모리, 및
    상기 메모리와 인터페이싱하도록 정렬된 프로세싱 유닛
    을 포함하고,
    상기 프로세싱 유닛은,
    주소록 상의 지인들에 대한 지인 음성 데이터를 저장하고,
    콘텐츠와 연계하여 화자 음성 데이터를 저장하고,
    상기 지인 음성 데이터에 기초하여, 상기 화자 음성 데이터에 포함된 한 명 이상의 화자를 인식하고,
    상기 인식된 화자의 정보를 상기 콘텐츠와 연계하여 관리하도록 구성되는, 컴퓨팅 장치.
  16. 애플리케이션에서 콘텐츠를 관리하는 명령어들의 시퀀스를 포함하는 컴퓨터 판독가능 매체로서,
    컴퓨팅 장치에 의해 실행될 때, 상기 컴퓨팅 장치가,
    주소록 상의 지인들에 대한 지인 음성 데이터를 저장하고,
    콘텐츠와 연계하여 화자 음성 데이터를 저장하고,
    상기 지인 음성 데이터에 기초하여, 상기 화자 음성 데이터에 포함된 한 명 이상의 화자를 인식하고,
    상기 인식된 화자의 정보를 상기 콘텐츠와 연계하여 관리하도록 하는, 컴퓨터 판독가능 매체.
  17. 제 16 항에 있어서,
    상기 컴퓨팅 장치에 의해 실행될 때, 상기 컴퓨팅 장치가 상기 주소록 상의 지인과의 통화 시에 상기 지인 음성 데이터를 녹음하도록 하는 명령어들의 시퀀스를 더 포함하는 컴퓨터 판독가능 매체.
  18. 제 16 항에 있어서,
    상기 컴퓨팅 장치에 의해 실행될 때, 상기 컴퓨팅 장치가 사진을 촬영할 때 상기 화자 음성 데이터를 녹음하도록 하는 명령어들의 시퀀스를 더 포함하는 컴퓨터 판독가능 매체.
  19. 제 16 항에 있어서,
    상기 컴퓨팅 장치에 의해 실행될 때, 상기 컴퓨팅 장치가 상기 콘텐츠를 상기 인식된 화자에게 전송하도록 하는 명령어들의 시퀀스를 더 포함하는 컴퓨터 판독가능 매체.
  20. 제 16 항에 있어서,
    상기 컴퓨팅 장치에 의해 실행될 때, 상기 컴퓨팅 장치가 상기 화자 음성 데이터를 텍스트로 변환하고, 상기 변환된 텍스트를 화자 별로 구분하여 상기 콘텐츠와 연계하여 저장하도록 하는 명령어들의 시퀀스를 더 포함하는 컴퓨터 판독가능 매체.
KR1020130164332A 2013-12-26 2013-12-26 화자 인식을 통한 콘텐츠의 관리 방법, 컴퓨터 판독가능 매체 및 컴퓨팅 장치 KR20150076380A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130164332A KR20150076380A (ko) 2013-12-26 2013-12-26 화자 인식을 통한 콘텐츠의 관리 방법, 컴퓨터 판독가능 매체 및 컴퓨팅 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130164332A KR20150076380A (ko) 2013-12-26 2013-12-26 화자 인식을 통한 콘텐츠의 관리 방법, 컴퓨터 판독가능 매체 및 컴퓨팅 장치

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020210004202A Division KR20210010594A (ko) 2021-01-12 2021-01-12 화자 인식을 통한 콘텐츠의 관리 방법, 컴퓨터 판독가능 매체 및 컴퓨팅 장치

Publications (1)

Publication Number Publication Date
KR20150076380A true KR20150076380A (ko) 2015-07-07

Family

ID=53789330

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130164332A KR20150076380A (ko) 2013-12-26 2013-12-26 화자 인식을 통한 콘텐츠의 관리 방법, 컴퓨터 판독가능 매체 및 컴퓨팅 장치

Country Status (1)

Country Link
KR (1) KR20150076380A (ko)

Similar Documents

Publication Publication Date Title
EP3170123B1 (en) System and method for setting focus of digital image based on social relationship
US9953212B2 (en) Method and apparatus for album display, and storage medium
US9564133B2 (en) Mobile devices, methods, and computer program products for enhancing social interactions with relevant social networking information
CN107644646B (zh) 语音处理方法、装置以及用于语音处理的装置
US9530067B2 (en) Method and apparatus for storing and retrieving personal contact information
US20220300251A1 (en) Meme creation method and apparatus
KR20170023748A (ko) 사진 공유 방법, 장치, 프로그램 및 기록매체
KR101810514B1 (ko) 클라우드 카드에 기반한 전화 호출 방법, 장치, 프로그램 및 저장 매체
CN107423386B (zh) 生成电子卡片的方法及装置
CN106547850B (zh) 表情注释方法及装置
CN106911706B (zh) 通话背景添加方法及装置
CN113596175A (zh) 场景同步方法、终端、服务器及系统
EP3174052A1 (en) Method and device for realizing voice message visualization service
US9325776B2 (en) Mixed media communication
CN109167939B (zh) 一种自动配文方法、装置及计算机存储介质
CN107229707B (zh) 搜索图像的方法及装置
CN110830845A (zh) 一种视频生成方法、装置及终端设备
CN106447747B (zh) 图像处理方法及装置
KR20210010594A (ko) 화자 인식을 통한 콘텐츠의 관리 방법, 컴퓨터 판독가능 매체 및 컴퓨팅 장치
KR102058190B1 (ko) 캐릭터 서비스 시스템에서의 캐릭터 서비스를 제공하기 위한 장치
CN107239490B (zh) 一种命名人脸图像的方法、装置及计算机可读存储介质
CN107169042B (zh) 一种共享图片的方法、装置及计算机可读存储介质
KR20150076380A (ko) 화자 인식을 통한 콘텐츠의 관리 방법, 컴퓨터 판독가능 매체 및 컴퓨팅 장치
CN109981729B (zh) 文件处理方法、装置、电子设备及计算机可读存储介质
JP6832971B2 (ja) プログラム、情報処理方法、端末

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application
E601 Decision to refuse application
E801 Decision on dismissal of amendment
A107 Divisional application of patent