KR20190066537A - 음성인식 기반의 사진 공유 방법, 장치 및 시스템 - Google Patents

음성인식 기반의 사진 공유 방법, 장치 및 시스템 Download PDF

Info

Publication number
KR20190066537A
KR20190066537A KR1020180093553A KR20180093553A KR20190066537A KR 20190066537 A KR20190066537 A KR 20190066537A KR 1020180093553 A KR1020180093553 A KR 1020180093553A KR 20180093553 A KR20180093553 A KR 20180093553A KR 20190066537 A KR20190066537 A KR 20190066537A
Authority
KR
South Korea
Prior art keywords
text
image
voice data
voice
information
Prior art date
Application number
KR1020180093553A
Other languages
English (en)
Other versions
KR102196199B1 (ko
Inventor
이석희
Original Assignee
라이브픽쳐스(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to KR1020170165720 priority Critical
Priority to KR20170165720 priority
Application filed by 라이브픽쳐스(주) filed Critical 라이브픽쳐스(주)
Priority claimed from US16/191,342 external-priority patent/US20190172456A1/en
Publication of KR20190066537A publication Critical patent/KR20190066537A/ko
Application granted granted Critical
Publication of KR102196199B1 publication Critical patent/KR102196199B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/002Specific input/output arrangements not covered by G06F3/01 - G06F3/16
    • G06F3/005Input arrangements through a video camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/005
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N5/9201Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving the multiplexing of an additional signal and the video signal
    • H04N5/9202Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving the multiplexing of an additional signal and the video signal the additional signal being a sound signal

Abstract

본 발명의 일 양태는 음성인식 기반의 사진 공유 방법을 개시하고 있다. 상기 방법은, 카메라를 통해 사진을 촬영함에 따라 촬영된 사진에 대한 이미지를 획득하는 단계, 상기 획득된 이미지와 연관된 음성데이터를 획득하는 단계, 상기 획득된 음성데이터를 인식하여 텍스트를 생성하는 단계, 상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트를 연관시켜 저장하는 단계 및 상기 저장된 이미지를, 상기 저장된 음성데이터 및 상기 저장된 텍스트 중 적어도 하나와 함께 출력하는 단계를 포함한다.

Description

음성인식 기반의 사진 공유 방법, 장치 및 시스템{PHOTOGRAPH SHARING METHOD, APPARATUS AND SYSTEM BASED ON VOICE RECOGNITION}
본 발명은 사진 공유방법에 관한 것으로, 보다 상세하게는, 사진 콘텐츠에 재미요소 및 편의요소를 가미하여 다수의 사용자가 즐거운 경험으로 느끼면서 편리하게 사진콘텐츠를 공유할 수 있는 방법에 관한 것이다.
종래의 아날로그 카메라는 빛을 이용하여 촬상한 이미지를 기록하고, 현상 및 인화하는 과정을 거친 후에 촬상한 이미지를 볼 수 있다.
하지만 최근 전자기술 특히 광학기술의 발달로 인하여 카메라에 있어 새로운 종류의 디지털 기기들이 대량으로 출현하였고, 종래의 카메라뿐만 아니라 카메라 기능이 포함되어 있는 스마트폰에서의 카메라 성능도 상당히 향상되어 새로운 개념으로 발전하고 있다.
따라서 이러한 스마트폰의 카메라나 디지털 카메라는 사진을 촬영한 후, 복잡한 인화 및 현상을 수행하는 과정을 거치는 것이 아니라 화면을 카메라 또는 스마트폰에 내장된 디지털 저장매체에 저장하고, 카메라나 스마트폰에 부착된 모니터를 이용하여 출력함으로써, 손쉽게 촬영한 영상을 확인할 수 있다. 또한, 디지털 카메라는 종래의 카메라와 스캐너의 역할을 대체할 수 있고, PC의 화상데이터와 호환성이 높아 편집 및 수정을 간편하게 할 수 있다는 장점을 갖는다. 그러나 이러한 디지털 카메라는 시간이 지난 후에 영상의 촬영장소, 촬영시의 느낌 및 동행인 등과 같이 촬영한 시점의 정지된 영상뿐만 아니라 해당 영상을 촬영하는 구체적 상황 및 분위기 등 함께 다양한 기억을 촬영된 영상만으로 남겨야 할 수 밖에 없는 문제점을 갖는다.
스마트폰은 기능적으로 점점 더 다양하게 발전하고 있으며, 특히 사진이나 동영상을 촬영하는데 있어 영상의 해상도의 증가와 보정기능 등 다양한 소비자의 요구에 맞추어 점점 더 기능이 높아지고 있다. 하지만 여전히 종래의 스마트폰이나 디지털 카메라와 같은 동일한 문제점을 갖는다.
이러함 문제점을 개선하고자 카메라나 스마트폰을 이용하여 촬영한 영상에 텍스트와 같은 추가적인 정보를 입력하는 기술들이 개발되고 있다. 종래의 등록특허번호 제10-1053045호 영상물의 정보 입력 시스템은 카메라를 포함하는 촬상장치에 저장된 사진 또는 동영상 정보에 사용자 또는 사용자 단말로부터 제공된 텍스트, 음성 또는 이미지 정보를 유/무선으로 입력하도록 한다.
하지만 상기의 영상물의 정보 입력 시스템은 해당 사진 또는 동영상 정보에 제공된 텍스트, 음성 또는 새로운 이미지 정보를 별도의 유/무선으로 입력하여야 하므로 비용상의 상승을 가져오고, 이미 생성된 사진과 제공되는 텍스트, 음성, 새로운 이미지의 연계방법에 대한 한계점을 내포하고 있다.
종래의 등록번호 제10-1115701호 음성 인식 기술을 이용하여 생성된 메타데이터로 영상 콘텐츠에 주석을 달기 위한 방법 및 장치는 표시 장치상에 영상 콘텐츠를 렌더링하여 시작되며, 음성의 세그먼트가 사용자로부터 수신되어, 음성세그먼트는 현재 렌더링되는 영상 콘텐츠의 일부에 주석을 달고, 음성 세그먼트는 텍스트 세그먼트로 변환되고, 텍스트 세그먼트는 영상 콘텐츠의 렌더링된 부분과 연관된다. 텍스트 세그먼트는 선택적으로 검색가능한 방식으로 저장되어, 영상 콘텐츠의 렌더링된 부분과 연관되도록 한다.
이와 같은 종래기술은 음성인식을 통해 음성을 인식하고, 인식된 음성을 문자텍스트 변환하여 디지털 사진에 부가하는 기술을 제안하고 있으나, 단순히 인식된 음성을 텍스트로 변환하여 사진에 부가하는 기술이어서 다수 인원이 음성을 발화하고 있는 상황에서 음성인식 오류가 발생되어 제 기능을 수행하지 못하는 문제점이 있었다.
상술한 문제점을 해결하기 위한 본 발명의 일 양태에 따른 목적은 음성인식을 이용하여 텍스트를 생성하고, 생성된 텍스트를 이미지에 삽입하여 텍스트 및/또는 음성을 이미지와 함께 출력하는 음성인식 기반의 사진 공유 방법, 장치 및 시스템을 제공하는 것이다.
본 발명의 다른 양태에 따른 목적은 블록체인을 이용하여 사진을 공유하는 방법, 장치 및 시스템을 제공하는 것이다.
상기한 목적을 달성하기 위한 본 발명의 일 양태에 따른 음성인식 기반의 사진 공유 방법은, 카메라를 통해 사진을 촬영함에 따라 촬영된 사진에 대한 이미지를 획득하는 단계, 상기 획득된 이미지와 연관된 음성데이터를 획득하는 단계, 상기 획득된 음성데이터를 인식하여 텍스트를 생성하는 단계, 상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트를 연관시켜 저장하는 단계 및 상기 저장된 이미지를, 상기 저장된 음성데이터 및 상기 저장된 텍스트 중 적어도 하나와 함께 출력하는 단계를 포함할 수 있다.
상기 획득된 이미지는 현재 촬영되는 사진 및 현재시점 이전의 시점에 촬영되어 기저장된 사진 중 적어도 하나로부터 획득될 수 있다.
상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트를 연관시켜 저장하는 단계는, 상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트와 연관된 정보를 서버에 저장하는 단계를 포함할 수 있다.
상기 서버에 저장된 데이터를 검색할 때, 상기 음성데이터 및 상기 텍스트 중 적어도 하나를 기반으로 검색할 수 있다.
상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트를 연관시켜 저장하는 단계는, 상기 텍스트를 상기 이미지에 삽입하는 단계를 포함하되, 상기 텍스트는 상기 이미지와 동일한 제 1 계층 또는 상기 이미지와 서로 다른 제 2 계층으로 삽입될 수 있다.
상기 텍스트의 상기 제 1 계층으로의 삽입은 상기 텍스트를 상기 이미지 상의 임의의 영역에 삽입하는 단계, 상기 텍스트가 삽입된 제 1 영역을 식별하는 단계 및 상기 텍스트가 삽입된 이미지를 이미지 파일로 생성하는 단계를 포함하되, 상기 이미지 파일은 상기 제 1 영역에 대한 식별정보와 연관될 수 있다.
상기 텍스트가 삽입된 이미지를 이미지 파일로 생성하는 단계는 상기 텍스트가 삽입된 이미지를 스캔하여 이미지 파일로 생성하는 단계를 포함할 수 있다.
상기 텍스트가 상기 제 1 계층으로 삽입될 때, 상기 식별된 제 1 영역에 대한 사용자 입력에 대응하여 상기 저장된 음성데이터가 출력될 수 있다.
상기 텍스트가 상기 제 2 계층으로 삽입될 때, 상기 제 2 계층의 텍스트에 대한 사용자 입력에 대응하여 상기 저장된 음성데이터가 출력될 수 있다.
상기 저장되는 음성데이터는 상기 이미지 및 상기 텍스트와 함께 패키징되어 저장될 수 있다.
상기 저장되는 음성데이터는 상기 별도의 저장소에 저장되고, 상기 이미지, 상기 텍스트는 상기 음성데이터의 저장소에 대한 링크 정보와 함께 패키징될 수 있다.
상기 연관된 음성데이터는 사진촬영과 관련된 제 1 공간의 외부에 존재하는 촬영자와 연관된 음성데이터 및 상기 제 1 공간 내에 존재하는 피사체와 연관된 음성데이터 중 적어도 하나를 포함할 수 있다.
제 1 항에 있어서, 상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트를 연관시켜 저장하는 단계는, 상기 획득된 음성데이터 - 음성데이터는 제 1 음성특성을 갖는 제 1 음성데이터 및 제 2 음성특성을 갖는 제 2 음성데이터를 포함함 - 를 음성분석하여 상기 제 1 음성데이터와 상기 제 2 음성데이터로 분리하는 단계를 포함할 수 있다.
상기 분리된 제 1 음성데이터를 인식하여 제 1 텍스트를 생성하고, 상기 분리된 제 2 음성데이터를 인식하여 제 2 텍스트를 생성하되, 상기 제 1 텍스트 및 상기 제 2 텍스트는 각각 제 1 음성데이터와 상기 제 2 음성데이터와 연관시킬 수 있다.
상기 제 1 텍스트는 사용자의 제 1 입력에 따른 상기 저장된 이미지 상의 위치에 배치되고, 상기 제 2 텍스트는 사용자의 제 2 입력에 따른 상기 저장된 이미지 상의 위치에 배치될 수 있다.
상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트를 연관시켜 저장하는 단계는, 상기 이미지에 대해 객체인식 알고리즘을 적용하여 상기 이미지에 포함된 제 1 피사체 및 제 2 피사체를 각각 인식하는 단계, 상기 이미지에 포함된 제 1 피사체는 상기 제 1 텍스트와 연관시키는 단계 및 상기 이미지에 포함된 제 2 피사체는 상기 제 2 텍스트와 연관시키는 단계를 포함할 수 있다.
상기 제 1 텍스트는 상기 제 1 피사체 주변에 배치되고, 상기 제 2 텍스트는 상기 제 2 피사체 주변에 배치될 수 있다.
제 1 항에 있어서, 상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트를 연관시켜 저장하는 단계는, 상기 획득된 음성데이터와 연관된 음성특성정보를 음성 데이터베이스에 기저장된 음성특성정보와 비교하여 상기 음성데이터를 식별하는 단계를 포함할 수 있다.
상기 이미지의 영역 중, 기지정된 위치 및 이미지 분석 결과에 따른 위치 중 적어도 하나의 위치에 상기 텍스트가 자동으로 배치되는 제 1 모드 및 사용자 입력에 따라 상기 텍스트가 배치되는 제 2 모드 중 하나에 의해 상기 텍스트의 위치가 결정될 수 있다.
상기 음성인식 기반의 사진 공유 방법은 상기 텍스트의 의미를 분석하는 단계를 더 포함하고, 상기 제 1 모드로 동작할 때, 의미 분석된 결과에 대응되는 영역에 상기 텍스트가 자동으로 배치될 수 있다.
제 1 의미를 갖는 텍스트는 상기 이미지 내의 피사체와 연관된 영역에 배치되고, 제 2 의미를 갖는 텍스트는 상기 피사체와 관련없이 이미지 전체 영역 중 기설정된 어느 한 영역에 배치될 수 있다.
상기 저장된 이미지를 소셜 네트워크 서비스(SNS: Social Network Service)에 등록할 때, 상기 이미지, 상기 음성데이터, 상기 텍스트 및 상기 이미지와 연관된 메타데이터 중 적어도 하나를 기반으로 해시태그(hashtag)를 자동생성하여 등록할 수 있다.
상기 저장된 이미지를 소셜 네트워크 서비스(SNS: Social Network Service)에 등록할 때, 상기 이미지 내의 제 1 객체를 추출하여 상기 제 1 객체에 대한 정보를 기반으로 해시태그(hashtag)를 자동생성하여 등록할 수 있다.
상기 텍스트를 출력함에 있어서, 상기 텍스트를 구성하는 복수 개의 문자 간의 출력 순서, 상기 복수 개의 문자 각각에 포함된 복수 개의 획들 간의 출력 순서 및 상기 복수 개의 획 각각의 출력시점부터 출력종점까지의 드로잉(drawing)에 관한 정보를 기반으로, 상기 텍스트의 첫 문자부터 최종문자까지 받아쓰기의 형태로 상기 텍스트를 재생할 수 있다.
상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트를 연관시켜 저장하는 단계는, 상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트와 연관된 정보를 블록체인(blockchain)에 기록하는 단계를 포함할 수 있다.
상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트와 연관된 정보를 블록체인 형태로 기록하기 위한 요청이 있는 경우, 인증정보 발급 서버를 통해 공개키 및 개인키를 생성하여 블록체인기반 데이터 관리서버로 전송함으로써 블록체인 데이터 보유 서버로 상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트와 연관된 정보를 제공할 수 있다.
상기 공개키 및 개인키는 상기 블록체인기반 데이터 관리서버에서 등록 여부를 확인에 사용되고, 상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트와 연관된 정보는 해시값으로 가공되어 정보 기록을 위한 트랜잭션(transaction)으로 생성되며, 상기 생성된 트랜잭션은 상기 블록체인 보유 서버에게 전달되어 승인되도록 구성될 수 있다.
상기한 목적을 달성하기 위한 본 발명의 다른 양태에 따른 음성인식 기반의 사진 공유 장치는, 카메라를 통해 사진을 촬영함에 따라 촬영된 사진에 대한 이미지를 획득하고, 상기 획득된 이미지와 연관된 음성데이터를 획득하는 정보 획득부, 상기 획득된 음성데이터를 인식하여 텍스트를 생성하는 텍스트 변환부, 상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트를 연관시켜 저장하는 데이터 저장부 및 상기 저장된 이미지를 상기 저장된 음성데이터 및 상기 저장된 텍스트 중 적어도 하나와 함께 출력하는 데이터 출력부를 포함할 수 있다.
상기한 목적을 달성하기 위한 본 발명의 또 다른 양태에 따른 음성인식 기반의 사진 공유 시스템은 사진과 연관된 이미지, 및 상기 이미지와 연관된 음성데이터를 획득하며, 상기 획득된 음성데이터를 인식하여 텍스트를 생성하고, 상기 이미지, 상기 음성데이터 및 상기 텍스트를 연관시켜 저장하고 상기 저장된 이미지, 음성데이터 및 텍스트를 블록체인(block-chain) 형태로 기록하기 위해 요청하는 사용자 단말, 상기 사용자 단말에서 생성된 이미지, 음성데이터 및 텍스트를 블록체인 형태로 기록하는 복수 개의 블록체인 보유 서버들 및 상기 블록체인 보유 서버들에 기록된 블록체인 정보들에 대한 추가, 이전 및 삭제 중 적어도 하나를 포함하는 블록체인 관리 업무를, 상기 복수 개의 블록체인 보유 서버들의 승인에 기반하여 처리하는 블록체인기반 데이터 관리서버를 포함할 수 있다.
상기 블록체인 기반 데이터 관리서버는, 제 1 사용자 단말과 제 2 사용자 단말 간에 주고받은, 상기 이미지, 음성데이터 및 텍스트와 관련된 다운로드 정보 및 결제 정보 중 적어도 하나를 상기 블록체인 보유 서버들에 기록할 수 있다.
상기 이미지, 음성데이터 및 텍스트의 블록체인 기록 요청이 있는 경우, 상기 사용자 단말은 인증정보 발급 서버를 통해 공개키 및 개인키를 생성하여 블록체인기반 데이터 관리서버로 전송하고, 상기 블록체인기반 데이터 관리서버는 상기 사용자 단말로부터 수신한 공개키 및 개인키의 등록 여부를 확인한 뒤, 상기 사용자 단말이 요청한 이미지, 음성데이터 및 텍스트를 해시값으로 가공하여 정보 기록을 위한 트랜잭션을 생성하고, 생성된 트랜잭션을 상기 블록체인 보유 서버들에게 전달하여 승인하도록 구성될 수 있다.
본 발명의 음성인식 기반의 사진 공유 방법, 장치 및 시스템에 따르면, 음성인식을 통해 실시간으로 사진에 정보를 부가하고 감정과 생명력을 이입하여 이를 이용하는 사용자로 하여금 재미요소와 편의요소를 함께 느낄 수 있도록 하는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 음성인식 기반의 사진 공유 방법을 개략적으로 설명하기 위한 개념도,
도 2는 본 발명의 일 실시예에 따른 음성인식 기반의 사진 공유 장치를 개략적으로 나타낸 블록도,
도 3은 본 발명의 일 실시예에 따른 음성인식 기반의 사진 공유 방법의 촬영자 음성과 피사체 음성을 구분하여 이미지에 삽입하는 방법을 개략적으로 나타낸 흐름도,
도 4a 및 도 4b는 텍스트가 이미지에 삽입되는 방식을 설명하기 위한 개념도,
도 5a 및 도 5b는 이미지, 텍스트 및 음성의 저장방법을 예시적으로 설명하기 위한 개념도,
도 6은 음성인식된 텍스트 데이터를 피사체와 연관시켜 이미지 내에 삽입하는 구성을 나타낸 블록도,
도 7은 서로 다른 음성특성을 갖는 피사체의 음성 데이터를 이미지 내의 특정 피사체와 매칭시키는 방법을 설명하기 위한 개념도,
도 8a 및 도 8b는 자동모드 및 수동모드에 따라 텍스트가 이미지 내에 임의의 위치에 배치되는 과정을 설명하기 위한 개념도,
도 9는 인식된 텍스트의 의미에 따라 삽입위치를 결정하기 위한 구성을 구체적으로 나타낸 블록도,
도 10는 해쉬태그의 자동 생성을 설명하기 위한 개념도,
도 11은 감성적인 텍스트 드로잉을 설명하기 위한 개념도,
도 12는 본 발명의 일 실시예에 따른 블록체인을 기반으로 데이터를 저장하는 시스템을 나타낸 블록도,
도 13은 본 발명의 일 실시예에 따른 블록체인을 기반의 데이터를 저장 방법을 설명하기 위한 흐름도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.
그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제 1, 제 2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제 1 구성요소는 제 2 구성요소로 명명될 수 있고, 유사하게 제 2 구성요소도 제 1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
도 1은 본 발명의 일 실시예에 따른 음성인식 기반의 사진 공유 방법을 개략적으로 설명하기 위한 개념도이다.
도 1의 좌측 상단 도면을 참조하면, 본 발명의 일 실시예에 따른 사진 공유 장치는 카메라(camera)와 같은 촬영수단을 포함한다. 장치는 사진촬영을 통해 이미지 정보를 획득할 수 있다. 장치는 마이크(microphone)와 같은 음성획득수단을 포함한다. 장치는 사진촬영시 발생된 음성과 연관된 데이터를 획득할 수 있고, 획득된 음성데이터를 적어도 하나의 음성인식 알고리즘을 이용하여 인식한 후, 인식된 정보를 텍스트로 변환한다. 상기 음성과 연관된 데이터는 사진촬영 이후에 기저장된 사진을 인출하여 볼 때, 입력된 음성을 포함할 수 있다. 음성인식 후, 음성데이터는 버려지는 것이 아니라 이미지, 텍스트 정보와 연관되어 저장된다. 예컨대, 생성된 텍스트를 클릭하거나 터치하는 등의 사용자 입력이 발생했을 때, 텍스트와 연관되어 저장된 음성이 재생될 수 있도록 이미지와 텍스트, 텍스트와 음성, 및/또는 이미지와 음성 간의 매칭관계를 정의한다. 다만, 반드시 텍스트만 클릭했을 때, 음성이 재생되는 것은 아니다. 이미지의 일영역을 클릭했을 때, 음성이 재생될 수 있다.
도 1의 우측 상단 도면을 참조하면, 변환된 텍스트는 이미지의 일 영역에 배삽입된다. 텍스트가 삽입되는 위치는 사용자의 입력을 통해 수동으로 결정될 수도 있지만, 자동으로 일 영역에 배치될 수도 있다. 특히, 음성인식된 텍스트의 의미분석을 통해 의미분석결과와 연관된 위치에 배치되도록 할 수 있다. 예컨대, "사랑해"와 같이 둘 이상의 피사체를 연결하는 의미를 갖는 단어는 두 피사체의 사이의 공간에 배치되도록 미리 텍스트의 삽입위치를 정의하고 있을 수 있다. 또는, "xx" 및 "yy"와 같은 사람의 이름을 나타내는 단어가 하나의 피사체를 포함하는 이미지와 연관되는 경우, 해당 피사체의 주변에 배치되도록 할 수 있다. 즉, 의미분석 결과와 이미지 내의 피사체의 수, 또는 피사체들 간의 관계, 피사체들의 객체분석 결과(사물인지 인물인지와 연관된 정보를 포함함) 중 적어도 하나에 기반하여 텍스트의 위치가 결정될 수 있다. 이와 같이, 이미지와 텍스트를 합성하고 나면, 연관된 이미지는 텍스트 및/또는 음성과 함께 출력될 수 있다. 예컨대, 사진을 클릭하면 음성이 재생되도록 할 수 있다. 타 단말에서 다운받은 경우에도, 마찬가지다.
또한, 도 1의 하단 도면을 참조하면, 장치는 이미지, 텍스트 및 음성 데이터를 패키징하여 저장할 수 있고, 이때, 블로그, 카페와 같은 전형적인 SNS(Social Network Service) 및/또는 블록체인(blockchain)에 저장하여 다수의 사용자와 공유할 수 있다. 이와 같은 방식으로 공유채널을 통해 공유된 데이터는 이미지와 연관된 메타데이터(예컨대, 사진촬영 일시, 장소, 촬영 디바이스 정보 등), 음성데이터 및/또는 텍스트 데이터를 기반으로 검색이 가능하다. 예컨대, "서울"과 같은 촬영장소 기반의 검색뿐만 아니라, "사랑해"와 같이 음성인식을 기반으로 생성된 텍스트를 통해서도 해당 텍스트를 포함하는 이미지를 검색할 수 있다.
본 발명의 실시예에 있어서, 장치는, 카메라와 마이크와 같이, 사진 촬영 및 음성획득이 가능하면서, 통신이 가능한 디바이스를 포함한다. 또한, 음성인식 알고리즘을 직접 실행하거나, 외부의 음성인식 알고리즘을 활용하여 음성인식된 정보를 획득가능한 디바이스를 포함한다. 본 발명의 일 실시예에 따른 장치는, 이동국(MS), 사용자 장비(UE; User Equipment), 사용자 터미널(UT; User Terminal), 무선 터미널, 액세스 터미널(AT), 터미널, 고정 또는 이동 가입자 유닛(Subscriber Unit), 가입자 스테이션(SS; Subscriber Station), 셀룰러 전화, 무선 기기(wireless device), 무선 통신 디바이스, 무선송수신유닛(WTRU; Wireless Transmit/Receive Unit), 이동 노드, 모바일, 모바일국, 개인 휴대 정보 단말(personal digital assistant; PDA), 스마트폰, 랩톱, 넷북, 개인용 컴퓨터, 무선 센서, 소비자 전자기기(CE) 또는 다른 용어들로서 지칭될 수 있다. 장치의 다양한 실시예들은 셀룰러 전화기, 무선 통신 기능을 가지는 스마트 폰, 무선 통신 기능을 가지는 개인 휴대용 단말기(PDA), 무선 모뎀, 무선 통신 기능을 가지는 휴대용 컴퓨터, 무선 통신 기능을 가지는 디지털 카메라와 같은 촬영장치, 무선 통신 기능을 가지는 게이밍 장치, 무선 통신 기능을 가지는 영상/음악 저장 및 재생 가전제품, 무선 인터넷 접속 및 브라우징이 가능한 인터넷 가전제품뿐만 아니라 그러한 기능들의 조합들을 통합하고 있는 휴대형 유닛 또는 단말기들을 포함할 수 있으나, 이에 한정되는 것은 아니다.
도 2는 본 발명의 일 실시예에 따른 음성인식 기반의 사진 공유 장치를 개략적으로 나타낸 블록도이다. 도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 사진공유 장치(200)는 정보획득부(210), 음성분리부(220), 텍스트 변환부(230), 이미지 합성부(240), 데이터 저장부(250) 및 데이터 출력부(260)를 포함할 수 있다.
각각의 구성요소는 장치 내에 실장되는 하드웨어로써 구현가능하며, 음성분리부(220), 텍스트 변환부(230), 이미지 합성부(240)는 각각의 기능을 수행하는 하나의 마이크로프로세서(microprocessor) 또는 둘 이상의 마이크로프로세서의 조합으로 구현될 수 있고, 각 기능을 수행하도록 하는 명령어를 실행한다. 상기 명령어는 메모리(미도시)에 저장되어 있을 수 있다.
도 2를 참조하면, 정보획득부(210)는 카메라 및 마이크를 포함할 수 있다. 카메라를 사진촬영 애플리케이션을 실행하여 동작할 수 있다. 카메라는 피사체를 촬영하여 이미지를 획득한다. 카메라는 광학 관련 정보를 생성 및 제공할 수 있다. 이는 피사체와의 거리를 계산하는데 사용될 수 있다. 정보획득부(210)는 현재 카메라를 실행하여 획득되는 이미지뿐만 아니라, 로컬 스토리지(미도시)에 기저장된 이미지를 가져와서 이미지를 획득할 수 있다. 이때, 기저장된 이미지와 연관된 음성이 이미 존재하는 상황도 있을 수 있으나, 그렇지 않고 이미지만 저장된 파일을 가져올 수 있다. 정보획득부(210)는 사용자의 입력에 의해 파일을 가져오면서 사용자에 의해 입력되는 음성을 마이크를 통해 획득함으로써 기저장된 이미지와 현재 입력되는 음성을 입력받을 수 있다. 마이크는 음성신호를 획득하는 구성요소이다. 카메라와 마이크는 장치 내에 실장될 수도 있고, 별도 인터페이스를 통해 장치와 연결된 형태로 제공될 수도 있다. 정보획득부(210)에서 획득된 정보 중 이미지는 이미지 합성부(240)로 제공되고, 음성데이터는 음성분리부(220)로 제공될 수 있다.
음성분리부(220)는 마이크를 통해 획득된 음성을 분석하여 적어도 하나의 음성신호로 분리한다. 우선, 필터(미도시)를 통해 사람의 음성을 필터링한다. 입력되는 음성신호에는 다수의 노이즈가 끼여있을 수 있으므로, 노이즈를 필터링함으로써 사람의 음성만을 추출한다. 그리고, 추출된 사람의 음성신호를 음성의 주파수 및/또는 음성의 세기를 이용하여 적어도 하나의 사람의 음성신호로 생성한다. 음성분리부(220)는 1차 필터링된 신호가 어떤 주파수 성분을 가지고 있는가를 분석하여 음성특성 정보를 획득한다. 음성신호는 시간영역에서의 파형의 변동이 큰데, 주파수 스펙트럼의 형은 비교적 변동이 작고, 음성을 특징짓는 포맨트 등의 정보를 추출하기 용이하다. 특히, 복수 개의 주파수 성분이 혼재되어 있는 경우, 음성분리부(220)는 이를 분석하여 개별 주파수 성분을 추출한 후, 복수 개의 음성신호를 생성한다. 예컨대, 음성특성이 다른 두 개의 신호가 혼합된 경우, 제 1 음성신호와 제 2 음성신호를 분리하여 텍스트 변환부(230)로 제공할 수 있다. 또한, 부가적인 음성신호 분석을 수행하여 연관된 음성신호 데이터베이스(미도시)와 비교한 후, 기 저장된 음성신호 특성과 매칭되는 음성신호를 추출할 수 있다. 매칭된 음성신호에는 식별정보가 부가될 수 있다. 이러한 부가적인 음성신호 분석은 이미지 합성부(240)에서 이루어져도 무방하다. 음성분리부(220)에서의 신호분석 겨로가는 이미지 합성부(240)로 제공된다. 음성분리부(220)는 사진촬영시 촬영영역에 포함되는 피사체의 음성과 그렇지 않은 음성(예컨대, 촬영자 등 제3자)을 분리할 수 있다. 이는 다음의 도 3을 통해 보다 상세히 설명한다.
도 3은 본 발명의 일 실시예에 따른 음성인식 기반의 사진 공유 방법의 촬영자 음성과 피사체 음성을 구분하여 이미지에 삽입하는 방법을 개략적으로 나타낸 흐름도이다.
도 3을 참조하면, 음성분리부는, 전술한 바와 같이, 음성신호에 포함된 주파수 성분을 통해 복수 개의 음성신호를 분리할 수 있고, 분리된 음성신호와 관련된 정보를 획득한다(S310). 하나의 사람의 음성신호라면 굳이 음성분리는 필요없을 수 있다. 그리고는, 장치는 분리된 음성신호 각각의 세기 및/또는 영상촬영 관련 정보를 기반으로 촬영자와 피사체를 구분할 수 있다(S320). 장치는 음성신호의 세기 및 기타 음성특성정보를 통해 해당 분리된 음성신호가 얼마나 멀리서 장치까지 도달했는지 판단할 수 있다. 또한, 영상촬영 관련 정보는 피사체의 크기 및 카메라의 줌인/줌아웃 정보를 포함할 수 있다. 이를 통해, 카메라의 광학계가 피사체를 어느정도 당기거나 밀어서 촬영하는지 판단할 수 있고, 광학관련 정보와 피사체의 크기를 이미지 분석하여 얼마나 피사체가 떨어져있는지 파악할 수 있다. 위의 과정을 통해 분리된 각각의 음성신호를 기반으로 산출된 제 1 거리와 피사체의 크기분석 결과 및/또는 카메라의 광학 관련 정보를 기반으로 산출된 제 2 거리를 비교하여 피사체까지의 제 2 거리로부터 일정영역(기설정된 제 1 기준값으로 영역을 규정할 수 있음) 내에 제 1 거리가 포함되는지를 판단하여 피사체의 음성인지 그렇지 않은 음성인지 파악한다. 그리고, 제 1 거리가 장치로부터 제 2 기준값 내에 있는지 여부를 통해 장치로부터 근접한 위치에서 입력되는 촬영자의 음성을 구분할 수도 있다. 피사체의 음성도, 촬영자의 음성도 아닌 경우는 노이즈로 취급되거나 별도의 알고리즘을 통해 다른 취급을 받도록 제어할 수 있다.
위의 과정을 통해 촬영자 및/또는 피사체의 음성으로 구분이 되면, 각각의 음성은 텍스트 변환부에서 텍스트로 변환될 수 있다(S330). 이때, 변환된 텍스트에는 각각 촬영자의 음성에 따른 텍스트라는 것 그리고/또는 피사체의 음성에 따른 텍스트라는 것을 식별하기 위한 식별정보(또는 음성신호와의 연관성을 나타내기 위한 "연관정보"라고 부를 수 있음)가 부여될 수 있다. 그리고는, 식별정보가 부여된 각각의 텍스트를 이미지에 삽입할 수 있다(S340). 이때, 식별정보를 기반으로 각각의 텍스트는 서로 다른 취급을 받아 이미지에 삽입될 수 있다. 예컨대, 촬영자 텍스트는 이미지의 전체영역의 중앙에, 피사체 텍스트는 이미지 내의 피사체 주변에 삽입되도록 제어할 수 있다. 또는 편집방법을 달리 할 수 있다.
다시 도 2로 돌아가서, 텍스트 변환부(230)는 음성분리부(220)에서 분리된 적어도 하나의 음성신호를 텍스트로 각각 변환한다. 두 개의 음성신호로 분리된 경우, 제 1 음성신호는 제 1 텍스트로, 제 2 음성신호는 제 2 텍스트로 변환한다. 이때, 제 1 음성신호는 촬영자의 것일 수 있고, 제 2 음성신호는 피사체의 것일 수 있다. 또는, 제 1 음성신호는 피사체 1의 것, 제 2 음성신호는 피사체 2의 것일 수도 있다. 텍스트 변환부(230)는 음성인식 알고리즘을 이용하여 분리된 음성신호를 텍스트로 변환한다. 본 발명의 일 실시예에 따른 음성인식 알고리즘은 음성분리부(220)에서 분리된 음성신호 각각으로부터 언어적 의미 내용을 식별하는 알고리즘을 포함한다. 보다 구체적으로, 음성 파형을 분석하여 단어나 단어열을 식별하고 의미를 추출하는 처리 과정을 포함하고, 이는, 크게 음성 분석, 음소 인식, 단어 인식, 문장 해석, 의미 추출의 과정을 포함한다. 음성인식 알고리즘을 처리하는 텍스트 변환부(230)는 음성인식수단 및 음성합성수단을 대규모 집적 회로(LSI)를 이용하여 수 mm 크기 집적 회로로 실현될 수 있다. 본 발명의 일 실시예에 따른 음성인식 알고리즘은 자연스러운 발성에 의한 음성을 인식하여 텍스트로 완전히 변환하는 음성/텍스트 변환(full speech-to-text conversion)을 구현하기 위해, 의미분석 알고리즘와 연동할 수 있다. 이는 단어를 인식할 뿐 아니라 구문 정보(문법), 의미 정보, 작업에 관련된 정보와 지식 등을 이용하여 연속 음성 또는 문장의 의미 내용을 정확하게 추출하는 음성 이해 시스템(speech understanding system)과 연관되는 것을 의미한다. 이는 이하 도 9를 참조하여 보다 상세히 설명한다.
상기와 같은 본 발명의 일 실시예에 따른 음성인식 알고리즘은 장치 내에서 실행될 수도 있고, 경우에 따라서는, 텍스트 변환부(230)는 서버(290) 또는 별도의 장치로 분리된 음성신호를 제공하고, 해당 서버(290) 또는 상기 별도의 장치에서 음성인식이 이루어진 후, 음성인식된 텍스트 정보를 획득할 수 있다. 텍스트 변환부(230)는 분리된 음성신호 각각을 통해 변환된 텍스트 정보에 식별정보를 부여하여 어느 음성신호에 매칭되는 텍스트인지 확인이 가능하게 만들 수 있다.
이미지 합성부(240)는 카메라를 통해 촬영된 이미지와 텍스트 변환부(230)에서 변환된 텍스트 정보를 합성한다. 이때, 합성의 기반이 되는 이미지는, 앞서 설명한 바와 같이, 현재 촬영 중인 이미지뿐만 아니라 기저장된 이미지 또는 타 장치로부터 수신되어 획득된 이미지를 포함할 수 있다. 이미지 합성부(240)는 이미지와 텍스트 변환부(230)에서 변환된 텍스트를 합성하여 하나의 파일로 생성한다. 이때, 이미지 내에 텍스트가 삽입되는 방법은 다양하다. 텍스트는 음성신호 분석을 통해 피사체와 연관된 텍스트인지 촬영자와 연관된 텍스트인지 구분될 수 있고, 이러한 구분에 따라 서로 다른 위치에 삽입될 수 있다. 또한, 복수의 피사체가 존재하는 이미지의 경우, 서로 다른 피사체와 연관된 텍스트는 각각 연관된 피사체의 주변에 배치되도록 할 수 있다.
도 4a 및 도 4b는 텍스트가 이미지에 삽입되는 방식을 설명하기 위한 개념도이다.
도 4a를 참조하면, 장치는, 이미지와 동일한 레이어에 텍스트가 삽입되는 형태로 이미지와 텍스트를 삽입할 수 있다. 이때, 이미지는 PNG, JPG, PDF, GIF 및/또는 TIFF 포맷의 파일 중 적어도 하나를 포함할 수 있다. 다만, 반드시 상기 확장자의 파일로 이미지가 한정되는 것은 아니다. 이미지 합성부(240)는 텍스트와의 합성에 적합한 포맷으로 파일 형태를 변환할 수 있다. 또한, 이때 삽입되는 텍스트는 이미지와 동일한 제 1 레이어에 삽입될 수 있다. 이미지 합성부(240)는 텍스트를 이미지 형태로 생성한 후, 동일 레이어에 상기 이미지 형태의 텍스트를 삽입할 수 있다. 또는, 이미지 상에 텍스트를 텍스트 특성을 살려 그대로 배치한 후, 스캐닝을 통해 이미지화함으로써 동일 레이어의 이미지로 생성할 수 있다. 이와 같이 생성된 이미지는 단일 포맷의 파일로써, JPG, PNG, PDF 등의 파일로 생성될 수 있다. 이때, 이미지화된 텍스트가 배치된 영역 정보를 생성하여 해당 영역에 대한 사용자의 입력에 텍스트가 반응할 수 있도록 한다. 텍스트의 반응은 연관된 음성정보를 끌고 와서 출력하는 방식이 될 수 있다. 예컨대, "사랑해"가 존재하는 영역(410)에 사용자 입력이 있는 경우, 해당 영역(410)의 사용자 입력을 검출하여 텍스트와 연관된 음성을 출력하도록 할 수 있다.
도 4b를 참조하면, 이미지 합성부(240)는 이미지 파일이 존재하는 레이어를 제 1 레이어라고 가정할 때, 텍스트는 이와는 다른 제 2 레이어로 삽입되어 제 1 레이어와 제 2 레이어가 중첩되는 형태로 이미지와 텍스트가 합성되도록 할 수 있다. 이에, 텍스트가 존재하는 제 2 레이어는 제 1 레이어와 별개로 제어될 수 있고, 사용자 입력에도 제 2 레이어의 텍스트의 배치 영역(420)은 독립적으로 반응할 수 있다. 즉, 텍스트가 실제 배치된 영역(420)의 좌표에 대한 사용자 입력을 검출하여 텍스트와 연관된 음성이 출력되도록 반응할 수 있다.
추가적으로, 이와 같이 생성된 이미지와 텍스트는 분리되어 저장될 수도 있다. 분리저장시, 이미지와 텍스트는 동일 포맷(예컨대, PNG 포맷)으로 분리되어 저장될 수도 있고, 서로 다른 포맷(예컨대, PNG와 JPG 포맷)으로 분리되어 저장될 수 있다.
본 발명의 실시예에 따르면, 텍스트는 사용자 설정에 의해 다양한 폰트, 컬러, 크기 등으로 편집되어 삽입될 수 있다. 특히, 피사체 및/또는 촬영자와의 연관정보를 통해 서로 다른 폰트, 컬러 및 크기로 삽입될 수 있다. 예컨대, 피사체와 연관된 텍스트는 12의 크기를 갖고 궁서체로 삽입되도록 하고, 촬영자와 연관된 텍스트는 15의 크기를 가지며, 고딕체로 삽입되도록 할 수 있다.
다시 도 2로 돌아가서, 데이터 저장부(250)는 이미지, 음성 및 텍스트 정보를 저장한다. 앞서 설명한 바와 같이, 이미지와 텍스트는 하나의 이미지로 저장될 수도 있고, 서로 분리된 형태로 저장될 수도 있다. 데이터의 저장과 관련된 부분은 도 5a 및 도 5b를 통해 보다 상세히 설명한다.
도 5a 및 도 5b는 이미지, 텍스트 및 음성의 저장방법을 예시적으로 설명하기 위한 개념도이다.
도 5a를 참조하면, 데이터 저장부는 이미지, 텍스트, 음성 및 메타데이터를 패키징하여 하나의 파일(510)로 저장할 수 있다. 이때, 음성은 복수 개의 음성데이터를 포함할 수 있고, 음성특성이 서로 다른 복수 개의 음성데이터는 구분되어 저장될 수 있다. 메타데이터는 촬영일시, 촬영장소, 촬영디바이스, 촬영 관련 애플리케이션 정보를 포함할 수 있다.
앞서 도 4a 및 도 4b에서 설명한 바와 같이, 본 발명의 실시예에 따르면, 이미지와 텍스트는 하나의 이미지 파일로 저장될 수도 있고, 서로 다른 파일로 저장될 수 있도 있다. 이에 따라, 하나의 파일로 한번에 출력될 수 있고, 서로 다른 파일로 순차적으로 출력될 수도 있다. 다만, 하나의 이미지 파일에 저장된다고 하더라도 텍스트와 연관된 정보는 메타데이터로써 별도로 기록될 수 있다. 예컨대, 기록되는 정보는, 텍스트 내용 및 텍스트와 연관된 음성을 지시하는 연관정보 등이 텍스트의 메타데이터로써 저장되고, 이를 기반으로 검색 및 해시태그 생성 등이 이루어질 수 있다.
도 5b를 참조하면, 데이터 저장부는 이미지, 텍스트 및 메타데이터를 패키징하여 하나의 파일(520)로 저장하고, 음성데이터는 별도의 저장소(530)(로컬 스토리지 및/또는 장치외부 서버의 데이터베이스)에 저장하며, 메타데이터에 음성데이터로의 링크 정보를 저장하고 있게 할 수 있다.
텍스트 정보는 복수 개의 분리된 음성데이터에 매칭되는 복수 개의 텍스트를 포함할 수 있다. 도 5b의 실시예에서, 텍스트는 제 1 텍스트와 제 2 텍스트를 포함하고, 이는 각각 제 1 음성데이터에 대한 링크정보와 제 2 음성데이터에 대한 링크정보에 매칭된다. 이와 같은 저장방식을 통해, 제 1 텍스트에 대한 사용자 입력에 반응하여 제 1 음성데이터 링크정보가 인출되고, 인출된 링크정보를 기반으로 음성 정보가 저장된 저장소(530)를 찾아다 해당 음성이 출력되도록 할 수 있다. 음성데이터에 대한 링크정보만 패키징되기 때문에 패키징된 파일의 무게는 도 5a의 실시예에 비해 가볍다.
다시 도 2로 돌아가서, 이와 같이 데이터 저장부(250)는 이미지, 텍스트 및 음성데이터를 장치 내에 저장할 수 있고, 저장된 데이터는 서버(290)와 공유할 수 있다. 서버(290)는 SNS를 관리하는 서버를 포함할 수 있다. 본 발명의 일 실시예에 따라 저장된 이미지, 텍스트 및/또는 음성 패키지 데이터는 서버(290)를 통해 인터넷 상의 특정 웹페이지를 이용하여 타 단말(295-1~295-N)과 공유될 수 있다. 장치(200)는 서버(290)를 이용하여 특정 웹페이지에 저장된 데이터를 업로드할 수 있고, 해당 웹페이지에 방문하는 단말들(295-1~295-N)로 업로드된 데이터를 제공할 수 있다. 단말들(295-1~295-N)은 사용자 입력을 통해 업로드된 데이터의 이미지에 포함된 텍스트 및/또는 그와 연관된 음성을 출력할 수 있다. 반대로, 단말들(295-1~295-N)에서 업로드한 데이터의 이미지에 포함된 텍스트 및/또는 그와 연관된 음성 정보를 수신하여 데이터 저장부(250)에 저장할 수 있다.
데이터 출력부(260)는 모니터, 터치패널, TV 스크린과 같은 디스플레이 수단 및 스피커 및 이어폰과 같은 음향출력수단을 포함할 수 있다. 데이터 출력부(260)는 이미지, 이미지와 텍스트 및/또는 그와 연관된 음성정보를 출력한다. 데이터 출력부(260)는 터치스크린, 마우스, 키보드 등과 같은 사용자 인터페이스(미도시)를 통한 사용자 입력에 대응하여 저장된 이미지 파일을 출력할 수 있고, 이때, 이미지 내에 텍스트를 포함시켜 출력할 수 있다. 또한, 이미지 및/또는 텍스트에 대한 사용자 입력이 있을 시, 텍스트와의 연관정보를 이용하여 연관된 음성데이터를 출력한다.
본 발명의 다른 실시예에 따르면, 상기 서버(290)는 블록체인과 연관된 서버를 포함한다. 이때, 서버(290)는 블록체인을 관리하는 서버로써 동작하고, 각각의 단말(295-1~295-N)은 블록체인 보유 서버로써 동작할 수 있다. 이는, 이하 도 12 및 도 13을 통해 보다 상세히 설명한다.
서버(290)는 다수의 단말(295-1~295-N)로부터 이미지, 텍스트 및/또는 음성데이터를 수신하여 저장할 수 있고, 단말(295-1~295-N)이 원하는 데이터를 반환할 수 있다. 이때, 이미지뿐만 아니라, 텍스트 및/또는 음성데이터를 통한 검색이 이루어지도록 할 수 있다. 특히, 텍스트와 음성데이터를 통한 검색의 경우, 광고를 위한 데이터가 배제될 수 있기 때문에, 일반적인 검색어를 통한 검색보다 유용하다. 즉, 텍스트와 음성데이터 항목에 대한 검색을 수행하여 해당 검색어가 텍스트 및 음성데이터로써 포함된 이미지만 검색되도록 할 수 있다. 항목에 대한 선택은 텍스트, 음성뿐만 아니라 이미지 내의 객체 또는 메타데이터(촬영일시, 장소 등)로 다양하게 이루어질 수 있고, 이를 통해 보다 컴팩트하게 저장된 데이터에 대한 검색이 이루어지도록 할 수 있다.
도 6은 음성인식된 텍스트 데이터를 피사체와 연관시켜 이미지 내에 삽입하는 구성을 나타낸 블록도이다. 도 6에 도시된 바와 같이, 본 발명의 일 실시예에 따른 이미지 삽입을 위한 구성은 음성 획득부(610), 음성식별부(620), 객체식별부(630) 및 음성/이미지 매칭부(640)를 포함할 수 있다.
도 6을 참조하면, 음성획득부(610)는 음성분리부를 통해 구분된 제 1 음성데이터 및 제 2 음성데이터를 획득할 수 있다. 그리고는, 구분된 음성들을 음성 식별부(620)로 제공한다.
음성식별부(620)는 분리된 음성의 주파수와 같은 음성특성을 기반으로 음성데이터베이스(625)에 저장된 음성특성 정보와 비교함으로써 특정 피사체의 음성 및/또는 촬영자의 음성으로 식별한다. 음성식별부(620)는 분리된 음성데이터에 대한 정보를 음성분리부로부터 수신하여 음성식별에 활용할 수 있다.
기본적으로, 음성식별부(620)에서의 음성 분석은 주파수 분석에 기반한다. 획득된 음성데이터에 대한 주파수 분석에 의해 주파수 스펙트럼이 얻어지기 때문에, 이는 스펙트럼 분석이라고도 한다. 음성을 언어음으로서 듣는 경우, 위상 스펙트럼의 차이는 영향이 없으므로 진폭만을 나타내는 파워 스펙트럼이 사용될 수 있다. 음성파형은, 비교적 짧은 시간(수십 ms에서 수백 ms) 구간에서는 거의 일정한 특성(준정상이라고 불림)을 나타내는데, 긴 시간 구간에서는 특성이 변화한다.
따라서, 음성식별부(620)는 음성신호의 스펙트럼 분석에서는 준정상으로 볼 수 있는 단시간의 스펙트럼 분석을 수행하는 것이 바람직하다. 주파수분석 방법에는, 푸리에 변환에 의한 분석 외에, 중심주파수가 다른 복수 개의 대역 필터의 출력을 쓰는 필터 뱅크법 등을 활용할 수 있다.
음성식별부(620)에서의 음성특성 분석과 분석된 결과를 특정 인물과 매칭하는 과정은 도 7을 통해 보다 상세히 설명한다.
도 7은 서로 다른 음성특성을 갖는 피사체의 음성 데이터를 이미지 내의 특정 피사체와 매칭시키는 방법을 설명하기 위한 개념도이다.
도 7을 참조하면, 음성식별부로부터 획득된 제 1 음성데이터는 제 1 음성특성을 가질 수 있고, 제 2 음성데이터는 제 2 음성특성을 가질 수 있다. 그리고, 제 1 음성특성은 음성 데이터베이스에 저장된 인물 "A"와 대응되고, 제 2 음성특성은 음성 데이터베이스에 저장된 인물 "B"와 대응되는 것을 확인할 수 있다.
즉, 음성 데이터베이스에는, 기본적으로, 장치의 사용자에 대한 음성특성 정보가 저장되어 있을 수 있다. 장치의 사용자는 촬영자일 가능성이 높기 때문에, 촬영자의 음성특성 정보는 기저장되어 있는 것이 바람직하다. 또한, 사진촬영에 자주 노출되는 장치의 사용자 주변인들에 대한 음성정보가 저장되어 있을 수 있다. 이는 카메라 애플리케이션의 음성특성 기록과 관련된 사용자설정 인터페이스를 이용하여 미리 저장할 수도 있다. 또는, 본 발명의 일 실시예에 따른 사진촬영 방식에 따라 사진촬영과 함께 음성을 입력한 후, 기저장된 음성특성과 매칭되는 결과가 없을 때, 입력된 음성에 대한 인물정보를 입력하도록 함으로써 음성특성과 대응되는 인물정보를 저장할 수 있다. 이때, 인물정보는 촬영자와 연관된 정보라는 것을 나타내는 지시정보를 포함한다. 이는 플래그(flag) 형태로 부여되어, "0"은 촬영자를, "1"은 촬영자 외의 인물(피사체 포함)을 나타내도록 할 수 있다. 또는, "0"은 촬영자를, "1"은 촬영자 외의 대응되는 특정 인물이 있을 때를, "2"는 대응되는 특정인물은 없되, 인물의 성별 및/또는 나이대는 구분이 가능할 때를, "3"은 인물관련 정보를 파악할 수 없을 때를 나타내도록 할 수 있다. 인물정보는 특정 인물의 이미지 정보를 포함하여 객체식별부에서 식별된 객체와 매칭되는데 사용되도록 한다.
이러한 음성특성정보 및 그에 대응되는 인물정보를 포함하는 음성데이터베이스는 장치 내의 로컬 스토리지로 구현될 수도 있고, 서버와 연동하는 대용량 데이터베이스로 구현될 수 있다. 특히, 서버와 연동하는 대용량 데이터베이스의 경우, 장치의 음성식별부가 음성특성정보를 추출하여 서버로 제공하고, 서버에서 그에 대응되는 인물과 관련된 정보를 획득함으로써 음성특성에 대응되는 인물정보를 획득할 수 있다. 음성 데이터베이스는 장치가 사진촬영에 계속 이용됨에 따라 보다 많은 음성특성 정보 및 그에 대응되는 인물정보를 쌓아나갈 수 있다. 또한, 서버는 다수의 단말로부터 음성특성 정보와 그에 대응되는 인물정보를 획득하기 때문에, 기하급수적으로 많은 양의 음성특성정보 및 그에 대응하는 인물정보를 획득할 수 있다.
기저장된 특정인물에 대한 음성특성과 대응되는 음성특성을 갖는 음성데이터는 특정인물로 식별되어 음성데이터의 식별정보를 부여받게 된다. 이는 특정 인물과 연관된 식별정보로써 앞서 설명한 텍스트와의 연관정보와 구분되는 정보이다.
추가적으로, 음성식별부는 특정 인물과 매칭되는 음성데이터가 없는 경우, 입력된 음성이 남성의 음성인지, 여성의 음성인지, 어느 나이대의 음성인지 구분하는 알고리즘을 포함한다. 이는 남성 및 여성의 기본적인 음역대를 활용하는 방식, 및 특정 나이대의 사람이 갖는 기본적인 음역대를 활용하는 방식을 통해 이루어질 수 있다. 또한, 음성식별부 및/또는 음성식별부와 연동하는 서버에서의 음성식별을 위한 알고리즘은 실시간으로 쌓이는 음성특성 정보와 그에 대응되는 인물정보(해당 인물의 성별, 및 나이 정보를 포함함)를 훈련데이터 셋으로 생성하여 계속 기계학습(machine learning)될 수 있다. 이는 딥러닝 알고리즘을 기반으로 훈련된다. 이러한 과정을 통해 음성식별부가 음성데이터에 대해 부여하는 인물정보는 해당 음성의 성별, 나이대 정보를 더 포함할 수 있는 것이다.
다시 도 6으로 돌아가서, 음성식별부(620)에서, 특정 음성데이터에 대한 인물정보를 획득하고 나면, 객체식별부(630)는 객체인식 알고리즘을 이용하여 이미지 내에 존재하는 객체들에 대한 분석을 수행한다. 기본적으로는, 이미지 내에 존재하는 피사체 중 인물과 관련된 부분을 집중적으로 분석한다. 객체식별부(630)는 객체 데이터베이스(635)와 연동한다. 객체 데이터베이스(635)도 장치 내의 로컬 스토리지 및/또는 서버와 연동하는 대용량 데이터베이스로 구현될 수 있다.
객체 데이터베이스(635)는 특정 인물 및 특정 피사체와 연관된 이미지 정보와 그에 대응되는 인물 및 사물정보를 저장하고 있다. 예컨대, 인물 "A"의 이미지(얼굴, 팔, 다리 등 얼굴외 다른 부위도 포함될 수 있음), 및 인물 "A"와 연관된 정보, 예컨대, 성별, 나이, 주소 등을 매칭하여 저장하고 있을 수 있다. 즉, 획득된 이미지 내에 포함된 피사체를 객체분석하여 객체 데이터베이스 내에 포함된 이미지와 대조하고, 대응되는 이미지가 있으면, 그에 대응되는 인물정보를 획득한다. 또는, 사물객체의 경우, 인물이 아닌 사물객체(예컨대, 건물, 다리 등)의 이미지와 그에 대응되는 정보를 가지고 있을 수 있다. 이러한 정보는 사진촬영에 따라 계속하여 축적될 수 있다.
객체 데이터베이스(635)와 음성 데이터베이스(625)는 연동될 수 있다. 즉, 동일 인물에 대한 인물정보(이미지 정보, 음성정보 및/또는 인물/사물 정보)를 공유하여 함께 쌓아나갈 수 있다. 또는, 하나의 데이터베이스로 구현될 수 있다.
음성/이미지 매칭부(640)는 객체식별부(630)로부터 피사체의 인물 및/또는 사물 정보를 획득하고, 음성식별부(620)로부터 음성데이터 식별을 통해 획득된 인물정보를 획득하여 양 정보를 비교한다. 비교결과, 동일인물로 판단될 시에는, 음성데이터를 해당 피사체와 연관시킨다.
연관시킨 결과, 특정 음성데이터와 연관된 텍스트를 텍스트 변환부로부터 텍스트-음성 연관정보(제 1 연관정보)를 기반으로 획득하여 획득된 텍스트를 연관된 피사체의 주변에 배치할 수 있다(음성-이미지 연관정보(제 2 연관정보)를 이용). 즉, 제 1 음성데이터는 인물 "A"로 식별되고, 이미지 내의 제 1 피사체가 인물 "A"로 식별되면, 양자를 연관시켜, 제 1 음성데이터로부터 획득된 제 1 텍스트를 제 1 피사체 주변에 배치하고, 제 2 음성데이터는 인물 "B"로 식별되고, 이미지 내의 제 2 피사체가 인물 "B"로 식별되면, 양자를 연관시켜, 제 2 음성데이터로부터 획득된 제 2 텍스트를 제 2 피사체 주변에 배치한다. 이와 같이, 피사체 주변에 배치된 텍스트에 대해 사용자 입력이 감지되면, 해당 텍스트와 연관된 음성데이터를 인출하여 출력한다. 예컨대, 제 2 피사체 주변의 제 2 텍스트를 클릭하면, 제 2 음성데이터가 출력되어 사진촬영 당시의 제 2 피사체가 말한 내용이 출력되도록 할 수 있다.
추가적으로, 음성데이터로부터 획득된 인물정보가 특정 인물로 명확히 판명되진 않고, 10대 여성으로 식별되고, 객체분석을 통한 인물정보가 10대 여성의 피사체로 식별되는 경우, 해당 음성데이터는 10대 여성의 피사체의 음성으로 매칭하여, 상기 해당 음성데이터로부터 변환된 텍스트를 10대 여성 피사체의 주변에 배치되도록 할 수 있다. 이와 같이 음성데이터로부터 획득되는 인물 나이 및 인물성별에 대한 정보도 객체분석에 따른 피사체 정보와 최적으로 매칭될 수 있다. 객체분석에 의해서도 인물의 나이/성별 및 대응되는 목소리 톤 등을 분석할 수 있기 때문이다.
또한, 촬영자의 음성데이터로 식별된 경우, 촬영자가 사진 내의 특정 피사체로 표시되어 있으면, 해당 피사체와 매칭하여 피사체 주변에 배치하고, 촬영자가 사진 내에 없는 경우, 촬영자와 연관된 텍스트 처리 프로세스에 따라 피사체와 연관하여 또는 피사체와 상관없이 정해진 위치에 텍스트를 배치할 수 있다.
도 8a 및 도 8b는 자동모드 및 수동모드에 따라 텍스트가 이미지 내에 임의의 위치에 배치되는 과정을 설명하기 위한 개념도이다.
도 8a를 참조하면, 장치는 자동모드를 이용하여 텍스트를 연관된 피사체 주변에 배치할 수 있다. 제 1 텍스트(810)는 제 1 피사체(812)와 연관되어 있기 때문에, 제 1 피사체(812)의 주변에 자동으로 배치된다. 제 2 텍스트(820)는 제 2 피사체(822)와 연관되어 있기에 제 2 피사체(822)의 주변에 자동 배치된다. 이때, 배치되는 주변영역은 피사체의 상단 또는 하단, 및/또는 피사체의 좌측 혹은 우측 등으로 사용자 설정에 의해 미리 정해져 있을 수 있다. 또한, 객체식별부에서 피사체 주변의 다른 객체들을 분석한 후, 분석된 다른 객체와의 관계에서 가장 최적화된 위치에 배치되도록 할 수도 있다. 즉, 피사체 상단에 배치되도록 설정된 경우에도, 피사체 상단에 다른 사물객체(예컨대, 건물, 태양 등)가 존재하면, 해당 사물객체를 피하여 좌측이나 우측에 배치되도록 할 수 있다.
도 8b를 참조하면, 서로 분리된 제 1 텍스트(830)와 제 2 텍스트(840)는 각각의 텍스트에 대한 사용자 입력(834, 844)을 통해 수동으로 이미지 내의 특정 위치에 배치된다. 이는 반드시 피사체(832, 842)와 연관되어 그 주변에 배치되야만 하는 것은 아니고, 사용자가 임의로 그 위치를 정할 수 있다.
본 발명의 다른 실시예에 따르면, 장치(또는 서버)는 수동모드에 따라 사용자가 텍스트 배치 영역과 피사체와의 위치관계 및/또는 텍스트 배치 영역과 피사체 주변 객체와의 위치관계를 훈련 데이터 셋으로 생성하여 자동모드에서의 최적화된 삽입위치에 대한 학습이 딥러닝 알고리즘을 통해 이루어지도록 할 수 있다. 이에 따라 자동모드에서의 텍스트 삽입 위치가 보다 사용자(또는 서버에 접속하는 다수 회원들)의 기호에 맞게 이루어질 수 있도록 한다.
도 9는 인식된 텍스트의 의미에 따라 삽입위치를 결정하기 위한 구성을 구체적으로 나타낸 블록도이다. 도 9에 도시된 바와 같이, 본 발명의 일 실시예에 따라 텍스트 삽입위치를 결정하는 구성은 의미분석부(910) 및 삽입위치 결정부(920)를 포함할 수 있다. 이는 도 2의 이미지 합성부에 포함되는 구성요소일 수 있다.
도 9를 참조하면, 의미분석부(910)는 텍스트 변환부로부터 인식된 텍스트 정보를 획득하여 단어 데이터베이스(912) 내에 저장된 단어를 기반으로 의미분석을 수행한다. 이는 구문분석을 통해 이루어질 수 있다.
그리고, 분석된 의미정보는 삽입위치 결정부(920)로 제공된다. 삽입위치 결정부(920)는 텍스트의 의미를 기반으로 삽입위치를 결정한다. 즉, 특정의미에 따른 위치관계를 미리 저장하고 있다가 입력된 텍스트에 대응되는 삽입위치를 적절하게 결정한다.
삽입위치 결정부(920)는 인물과 관련된 의미를 갖는 텍스트는 사람의 주변에 배치한다. 예컨대, "영희", "철수"와 같은 사람이름, "팔", "다리", "머리"와 같은 사람의 특정 부위를 나타내는 단어들은 사람의 주변(특히 해당 부위)에 배치되도록 하는 것이 바람직하다.
또한, 사람 간의 관계와 연관된 의미를 갖는 텍스트는 인물 피사체의 사이에 배치되도록 한다. 예컨대, "사랑해", "좋아해", "싫어해", "사이좋게"와 같은 단어들은 둘 이상의 사람들의 사이 또는 정중앙 위치에 배치되도록 할 수 있다.
추가적으로, 또 다른 특정 의미의 텍스트는, 피사체의 배치를 고려하지 않고 이미지 전체 영역의 정중앙 또는 좌우측, 상하단 최외곽 부분에 배치되도록 설정할 수도 있다.
특히, 이러한 의미분석된 내용은 피사체 및 사진이미지를 꾸며주는 스티커(sticker)와 연동되어 이미지 내에 삽입될 수 있다. 예컨대, "사랑해"와 같은 텍스트는 "♡"와 같은 하트모양 스티커와 연동되어 이미지 내에 표시될 수 있다. 즉, 특정 의미를 갖는 텍스트와 그에 대응되는 스티커가 미리 저장되어 있어, 텍스트의 의미분석 결과에 따른 스티커가 텍스트와 함께 이미지 내에서 표시되도록 할 수 있다.
도 10는 해쉬태그의 자동 생성을 설명하기 위한 개념도이다.
도 10을 참조하면, 장치는 사진과 연관된 메타데이터, 음성 파일 및 텍스트를 해시태그(hashtag)로 자동변환할 수 있다. 보통의 경우, SNS 플랫폼은 무분별한 사진등록 및 해시태그의 사용으로 광고용 콘텐츠가 다수 검색되도록 되어 검색의 정확성이 매우 떨어지는 단점이 있다. 이에, 본 발명의 일 실시예에 따른 사진공유 장치는, 사진의 메타데이터, 예컨대, 촬영일시, 촬영장소 정보를 해시태그로 자동 변환할 수 있다. 또한, 텍스트 및 음성 정보도 해시태그로 자동 변환된다.
본 발명의 실시예에 따르면, 장치는 이미지 내의 특정 객체를 추출하여 해당 객체를 해시태그로 변환할 수 있다. 예컨대, 이미지 내에 특정건물에 붙어있는 간판에 "XX 카페"가 표시되어 있는 경우, 앞서 설명한 객체식별부에서 객체추출 알고리즘을 통해 "XX 카페"를 추출하여 이를 기반으로 "#XX 카페"라는 해시태그를 자동생성할 수 있다.
또한, 위의 촬영일시, 촬영장소, 촬영디바이스 등의 메타데이터, 텍스트, 음성 및/또는 이미지 내의 객체정보를 결합하여 태그를 생성함으로써 검색 정확도를 제고시킬 수 있다.
도 11은 감성적인 텍스트 드로잉을 설명하기 위한 개념도이다.
도 11을 참조하면, 본 발명의 일 실시예에 따른 사진공유장치는 이미지 상에 텍스트를 출력함에 있어서, 받아쓰기 형식으로 텍스트가 재생되도록 할 수 있다. 이를 위해, 텍스트를 구성하는 복수 개의 문자 간의 출력 순서, 상기 복수 개의 문자 각각에 포함된 복수 개의 획들 간의 출력 순서 및 상기 복수 개의 획 각각의 출력시점부터 출력종점까지의 드로잉(drawing)에 관한 정보를 저장하고 있다가, 해당 정보를 기반으로 텍스트의 첫 문자부터 최종문자까지 받아쓰기의 형태로 재생되도록 할 수 있다. 즉, 텍스트의 좌측부터 문자를 인식하도록 하고, 좌측문자부터 출력되도록 순서를 정하는 것이 바람직하다. "사랑해"의 경우, "사", 다음 "랑", 그 다음 "해"가 출력되도록 한다. 그리고, 국문 획 순서 정보를 기반으로 각 문자의 획이 쓰여지도록 한다. "사"의 경우 "ㅅ" 그리고, "ㅏ"가 쓰여지되, "/", "\", "ㅣ", "­"의 각 획이 순서에 맞게 출력되도록 한다. 그리고, 각 획은 상단 좌측부터의 우측하단으로 드로잉이 되도록 한다. 이러한 감성적 드로잉은, 해당 텍스트 부분이 드로잉되도록 애니메이션과 같이 다수의 프레임을 통해 구현될 수 있다. 즉, gif 파일과 같은 동영상 형태로 재생될 수 있다.
다만, 이러한 감성적 텍스트 드로잉은 항상 실행되는 것은 아니고, 사용자 설정을 통해 변경될 수 있다.
본 발명의 다른 실시예에 따르면, 이미지만 먼저 출력되고, 그 위에 한번에 텍스트가 출력되도록 이미지와 텍스트가 합성된 파일을 재생할 수 있다.
도 12는 본 발명의 일 실시예에 따른 블록체인을 기반으로 데이터를 저장하는 시스템을 나타낸 블록도이다. 본 발명의 일 실시예에 따른 블록체인을 기반으로 하는 데이터를 저장하는 시스템은, 사용자 단말(1210), 인증정보 발급 서버(1220), 블록체인기반 데이터 관리서버(1230) 및 블록체인 데이터 보유서버(1240)를 포함한다.
도 12를 참조하면, 블록체인(block-chain)이라 함은, 알려진 바와 같이, 네트워크 통신상에서 이루어지는 거래 내용을 안전하게 기록하고 저장하는 기술이다. 거래 내용은 각 블록에 기록되는데 이는 시간이 지남에 따라 체인을 형성하게 되고, 이러한 체인들은 P2P 네트워크 상에 분산 저장되어 블록체인 네트워크를 형성하게 된다.
도 12를 참조하면, 단말(1210)은 공개 키(public key) 및 개인 키(private key)를 생성하고, 생성된 키 중 공개키와 블록체인기반 인증 정보 발급에 필요한 사용자의 식별정보로 이루어진 블록체인기반 인증 정보 발급용 개인정보를 인증정보 발급 서버(1220)로 전송하는 구성이다. 이를 위해, 단말(1210)은 키생성 엔진, 및 암복호화 엔진을 포함할 수 있다. 블록체인기반 인증 정보 발급용 사용자 정보는, 사용자 이름, 사용자 등록번호, 사용자 전화번호, 사용자 이메일 중 적어도 일부를 포함할 수 있다.
단말(1210)은 공개키 및 개인키를 생성하기 전에 해당 단말(1210)을 사용하는 사용자가 인증정보 발급 서버(1220)에 사용자의 식별정보를 등록하였는지 먼저 확인하는 과정을 수행할 수 있다. 단말(1210)은, 블록체인기반 인증 정보 발급용 사용자 정보를 인증정보 발급 서버(1220)로 전송하여 블록체인기반 인증 정보 발급을 요청한다.
인증정보 발급 서버(1220)는 전송되는 블록체인기반 인증 정보 발급용 사용자 정보를 계정별 사용자 식별정보 데이터베이스(미도시)와 매칭하여 매칭되는 정보가 존재하면, 공개키 및 개인키의 생성을 안내하는 키생성 안내신호를 생성하여 단말(1210)로 전송한다. 인증정보 발급 서버(1220)는 매칭되는 정보가 없으면, 인증 정보 발급이 불가함을 나타내는 메시지를 전송할 수 있다.
구체적으로, 인증정보 발급 서버(1220)는 단말(1210)로부터 인증 정보에 대한 발급 요청으로서 특정 사용자의 식별정보를 획득하면 상기 특정 사용자의 식별정보의 등록 여부를 확인한다. 인증정보 발급 서버(1220)는 확인 결과 상기 특정 사용자의 식별정보가 등록 상태이면, 상기 키생성 안내신호를 생성하여 단말(1210)로 하여금 상기 특정 사용자의 공개키 및 개인키를 생성하도록 지원한다.
단말(1210)은 인증정보 발급 서버(1220)로부터 키생성 안내신호가 수신되면, 키생성 엔진(미도시)을 실행하여 공개키 및 개인키를 생성한다. 이때, 단말(1210)은, 네트워크를 차단한 상태에서 공개키 및 개인키가 생성되도록 제어함으로써, 혹시라도 발생할 수 있는 각 키의 외부유출을 사전에 차단하는 것이 바람직하다.
단말(1210)은 암복호화 엔진(미도시)을 운영하여 사용자가 지정한 비밀번호 및/또는 이미지를 기반으로 개인키를 암호화하여 로컬 스토리지(미도시)에 저장한다. 이에 따라 사용자의 개인키가 유출된다 하더라도 사용자가 지정한 비밀번호 및 이미지를 알아야만 정보를 열람할 수 있으므로 보안성이 강화된다. 단말(1210)은 암호화 개인키가 저장되면, 네트워크를 다시 연결하라는 알림을 출력하고, 사용자는 네트워크를 연결할 수 있다.
인증정보 발급 서버(1220)에는 연동하는 데이터베이스가 존재할 수 있다. 인증정보 발급 서버(1220)의 데이터베이스는 단말(1210)을 운영하는 사용자의 식별정보가 저장된다. 또한, 이는 상기 블록체인기반 인증 정보발급용 사용자 정보와 동일한 사용자의 식별정보가 저장된 회원별 사용자 식별정보 데이터베이스를 포함한다.
인증정보 발급 서버(1220)는 단말(1210)로부터 공개키 및 블록체인기반 인증정보 발급용 사용자 정보를 전송받고, 블록체인기반 인증 정보 발급용 사용자 정보를 해시 연산하여 사용자 식별 해시정보로 가공처리한다.
인증정보 발급 서버(1220)는 사용자 식별해시정보, 공개키 및 블록체인기반 인증 정보 발급용 사용자 정보를 이루는 사용자의 식별정보 중 기지정된 사용자의 식별정보에 해당하는 지정 사용자 식별정보를 취합하여 트랜잭션(transaction) 생성요청신호로 가공하고 이를, 블록체인기반 데이터 관리서버(1230)로 전송하는 서버이다.
블록체인기반 데이터 관리서버(1230)는 사용자의 식별정보의 등록 여부에 따라 트랜잭션 생성 및 전송 동작을 수행할 수 있다. 여기서, 지정 사용자 식별정보는 사용자의 전화번호를 포함할 수 있다. 이를 위해, 인증정보 발급 서버(1220)는 해시처리 엔진(미도시)을 포함할 수 있다. 해시처리 엔진은, 전술한 바와 같이, 블록체인기반 인증 정보발급용 사용자 정보를 해시연산하여 사용자 식별 해시정보로 가공처리하는 기능을 수행한다.
블록체인기반 데이터 관리서버(1230)는 단말(1210)로부터 인증정보에 대한 발급요청에 따라 사용자의 식별정보가 획득되어 사용자의 식별정보의 등록여부가 확인된 결과, 사용자 정보가 등록 상태이면, 사용자의 공개키 및 식별정보의 해시값 또는 이를 가공한 값을 출력으로 하는 트랜잭션을 생성하여 블록체인에 전송하거나 전송하도록 지원하고, 트랜잭션이 블록체인 상에 기록된 위치 정보를 나타내는 트랜잭션 ID(transaction ID)를 획득하는 구성이다. 블록체인에 대한 전송은 블록체인 데이터 보유서버(1240)에 대한 전송으로 이루어질 수 있다. 이를 위해, 블록체인기반 데이터 관리서버(1230)는 특정 사용자의 식별정보를 데이터베이스에서 확인할 수 있다. 블록체인기반 데이터 관리서버(1230)는 트랜잭션이 상기 블록체인 상에 기록된 위치 정보를 나타내는 트랜잭션 ID를 획득 및 저장할 수 있고, 사용자 식별 해시정보와 트랜잭션 ID를 해시연산하여 사용자검증 해시정보로 가공처리할 수 있다.
이러한 기능을 수행하는 블록체인기반 데이터 관리 서버(1230)는 서비스 이용 시 인증 수행이 요구되는 업체의 서버일 수 있다.
블록체인 데이터 보유서버(1240)들은 각각 하나의 구성원으로 이루어진다. 이는 도 2의 단말들(295-1~295-N)과 대응되는 구성일 수 있다. 각각의 블록체인 데이터 보유서버(1240)에는 블록체인을 갖는 사용자 정보에 해당하는 트랜잭션이 저장되며, 새로운 트랜잭션이 수신되면 검증을 수행한 후 트랜잭션 정보가 기록됨과 더불어 지정된 다음단의 블록체인 데이터 보유서버(1240)들에게 본 발명의 일 실시예에 따른 이미지, 텍스트, 음성 및/또는 메타데이터(또는 이와 연관된 링크 정보)(이하, "이미지/텍스트 패키징 정보"라고 한다)에 해당하는 트랜잭션을 전파한다.
구체적으로, 이미지/텍스트 패키징 정보에 해당하는 트랜잭션의 전파는 통신규약(protocol)에 의해 약속된 것으로, 새로운 트랜잭션의 생성시 1개의 노드(여기서는 블록체인 데이터 보유서버(1240)를 칭함)가 지정된 다수(예컨대, 8개)의 노드로 전파시키며, 그 비트코인(이더리움 등 다른 암호화 화폐를 사용하여도 무방함) 결제용 트랜잭션정보를 전송받은 다수의 노드마다 각각 지정된 다수의 노드로 반복 전파하는 피라미드식 전파를 통해 모든 블록체인 데이터 보유서버(1240)에게 전파됨으로써, 완료된다. 이처럼, 블록체인에 기록되는 모든 트랜잭션은 추후 위변조가 불가능하다.
상술한 바와 같이, 본 발명의 일 실시예에 따른 블록체인 기반으로 데이터를 저장하는 시스템은 이미지/텍스트 패키징 정보를 블록체인 형태인 블록체인 보유 서버(1240)들에 기록한다. 또한, 상기 시스템은 단말 또는 복수 단말 간에 주고받은 패키징 정보의 송수신 내역, 검색 내역 및/또는 이와 연관된 결제 내역 정보를 상기 블록체인 보유 서버(1240)들에 기록할 수 있다.
블록체인기반 데이터 관리서버(1230)는 블록체인 보유 서버(1240)들에 기록된 정보들에 대한 추가, 이전, 및 삭제를 포함하는 정보 관리 업무를 수행하고, 상기 정보 관리 업무를 상기 블록체인 보유 서버(1240)들의 승인에 기반하여 처리하도록 구성된다.
상기 블록체인 보유 서버(1240)들에 기록되는 이미지/텍스트 패키징 정보는 이미지, 텍스트, 음성데이터(또는 음성데이터에 대한 링크 정보), 메타데이터를 포함한다.
본 발명의 일 실시예에 따르면, 상기 단말(1210)은, 이미지/텍스트 패키징 정보의 기록 요청이 있는 경우, 인증정보 발급 서버(1220)를 통해 공개키 및 개인키를 생성하여 블록체인기반 데이터 관리서버(1230)로 전송하고, 블록체인기반 데이터 관리서버(1230)는 상기 단말(1210)로부터 수신한 공개키 및 개인키의 등록 여부를 확인한 뒤, 상기 단말(1210)이 요청한 이미지/텍스트 패키징 정보를 해시값으로 가공하여 정보 기록을 위한 트랜잭션을 생성하고, 생성된 트랜잭션을 상기 블록체인 보유 서버(1240)들에게 전달하여 승인하도록 구성된다.
도 13은 본 발명의 일 실시예에 따른 블록체인을 기반의 데이터를 저장 방법을 설명하기 위한 흐름도이다.
도 13을 참조하면, 전술한 설명에서, 단말은 사진 정보(이미지/텍스트 패키징 정보)를 블록체인기반 데이터 관리서버에게 요청한다(S1310). 그리고는, 단말으로부터 수신한 공개키 및 개인키의 등록 여부를 확인한 뒤, 해시값으로 가공하여 정보 기록을 위한 트랜잭션 블록을 생성하고(S1320), 생성된 트랜잭션 블록을 상기 블록체인 보유 서버들에게 전달한다(S1330). 이때, 트랜잭션의 전파는 통신규약(protocol)에 의해 약속된 것으로, 새로운 트랜잭션의 생성시 1개의 노드가 지정된 다수의 노드로 전파시키며, 그 비트코인(이더리움 등 다른 암호화 화폐를 사용하여도 무방함) 결제용 트랜잭션 정보를 전송받은 다수의 노드마다 각각 지정된 다수의 노드로 반복 전파하는 피라미드식 전파를 통해 모든 블록체인 데이터 보유서버에게 전파된다. 모든 블록체인 보유서버가 트랜잭션 블록을 승인하고(S1340), 트랜잭션 블록을 추가하면(S1350), 단말로부터 요청된 사진정보의 기록이 완료된다(S1360).
본 발명의 실시예에 따르면, 비트코인과 같은 암호화 화폐는 사진정보와 연관된 트랜잭션의 발생과 함께 발생될 수 있다. 또는 특정 트랜잭션에 대한 타 사용자들의 공유요청과 함께 발생될 수도 있다. 즉, 정보 공유에 따른 명성 획득에 따라 암호화화폐를 획득할 수 있다. 또한, 블록체인 기반의 플랫폼은 SNS와 같은 공유 플랫폼을 포함한다. 즉, 페이스북(FACEBOOK), 인스타그램(INSTAGRAM)과 같은 형태의 사진공유 플랫폼이 상술한 공개형 블록체인 방식으로 운영되는 시스템이 본 발명의 일 실시예에 따른 사진공유 방법이 적용되는 시스템일 수 있다.
추가적으로, 본 발명의 실시예에 따르면, 상술한 공개형 블록체인 방식 이외에도, 폐쇄형 블록체인 방식이 본 발명의 일 실시예에 따른 사진공유 시스템에 적용될 수 있다.
이상에서 설명된 시스템 또는 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 시스템, 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예들에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (31)

  1. 카메라를 통해 사진을 촬영함에 따라 촬영된 사진에 대한 이미지를 획득하는 단계;
    상기 획득된 이미지와 연관된 음성데이터를 획득하는 단계;
    상기 획득된 음성데이터를 인식하여 텍스트를 생성하는 단계;
    상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트를 연관시켜 저장하는 단계; 및
    상기 저장된 이미지를, 상기 저장된 음성데이터 및 상기 저장된 텍스트 중 적어도 하나와 함께 출력하는 단계를 포함하는 음성인식 기반의 사진 공유 방법.
  2. 제 1 항에 있어서,
    상기 획득된 이미지는 현재 촬영되는 사진 및 현재시점 이전의 시점에 촬영되어 기저장된 사진 중 적어도 하나로부터 획득되는 음성인식 기반의 사진 공유 방법.
  3. 제 1 항에 있어서,
    상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트를 연관시켜 저장하는 단계는,
    상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트와 연관된 정보를 서버에 저장하는 단계를 포함하는 음성인식 기반의 사진 공유 방법.
  4. 제 3 항에 있어서,
    상기 서버에 저장된 데이터를 검색할 때, 상기 음성데이터 및 상기 텍스트 중 적어도 하나를 기반으로 검색하는 음성인식 기반의 사진 공유 방법.
  5. 제 1 항에 있어서, 상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트를 연관시켜 저장하는 단계는:
    상기 텍스트를 상기 이미지에 삽입하는 단계를 포함하되,
    상기 텍스트는 상기 이미지와 동일한 제 1 계층 또는 상기 이미지와 서로 다른 제 2 계층으로 삽입되는 음성인식 기반의 사진 공유 방법.
  6. 제 5 항에 있어서, 상기 텍스트의 상기 제 1 계층으로의 삽입은,
    상기 텍스트를 상기 이미지 상의 임의의 영역에 삽입하는 단계;
    상기 텍스트가 삽입된 제 1 영역을 식별하는 단계; 및
    상기 텍스트가 삽입된 이미지를 이미지 파일로 생성하는 단계를 포함하되,
    상기 이미지 파일은 상기 제 1 영역에 대한 식별정보와 연관되는 음성인식 기반의 사진 공유 방법.
  7. 제 6 항에 있어서,
    상기 텍스트가 삽입된 이미지를 이미지 파일로 생성하는 단계는 상기 텍스트가 삽입된 이미지를 스캔하여 이미지 파일로 생성하는 단계를 포함하는 음성인식 기반의 사진 공유 방법.
  8. 제 6 항에 있어서,
    상기 텍스트가 상기 제 1 계층으로 삽입될 때, 상기 식별된 제 1 영역에 대한 사용자 입력에 대응하여 상기 저장된 음성데이터가 출력되는 음성인식 기반의 사진 공유 방법.
  9. 제 5 항에 있어서,
    상기 텍스트가 상기 제 2 계층으로 삽입될 때,
    상기 제 2 계층의 텍스트에 대한 사용자 입력에 대응하여 상기 저장된 음성데이터가 출력되는 음성인식 기반의 사진 공유 방법.
  10. 제 1 항에 있어서,
    상기 저장되는 음성데이터는 상기 이미지 및 상기 텍스트와 함께 패키징되어 저장되는 음성인식 기반의 사진 공유 방법.
  11. 제 1 항에 있어서,
    상기 저장되는 음성데이터는 상기 별도의 저장소에 저장되고,
    상기 이미지, 상기 텍스트는 상기 음성데이터의 저장소에 대한 링크 정보와 함께 패키징되는 음성인식 기반의 사진 공유 방법.
  12. 제 1 항에 있어서,
    상기 연관된 음성데이터는 사진촬영과 관련된 제 1 공간의 외부에 존재하는 촬영자와 연관된 음성데이터 및 상기 제 1 공간 내에 존재하는 피사체와 연관된 음성데이터 중 적어도 하나를 포함하는 음성인식 기반의 사진 공유 방법.
  13. 제 1 항에 있어서, 상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트를 연관시켜 저장하는 단계는,
    상기 획득된 음성데이터 - 음성데이터는 제 1 음성특성을 갖는 제 1 음성데이터 및 제 2 음성특성을 갖는 제 2 음성데이터를 포함함 - 를 음성분석하여 상기 제 1 음성데이터와 상기 제 2 음성데이터로 분리하는 단계를 포함하는 음성인식 기반의 사진 공유 방법.
  14. 제 13 항에 있어서,
    상기 분리된 제 1 음성데이터를 인식하여 제 1 텍스트를 생성하고,
    상기 분리된 제 2 음성데이터를 인식하여 제 2 텍스트를 생성하되,
    상기 제 1 텍스트 및 상기 제 2 텍스트는 각각 제 1 음성데이터와 상기 제 2 음성데이터와 연관시키는 음성인식 기반의 사진 공유 방법.
  15. 제 14 항에 있어서,
    상기 제 1 텍스트는 사용자의 제 1 입력에 따른 상기 저장된 이미지 상의 위치에 배치되고,
    상기 제 2 텍스트는 사용자의 제 2 입력에 따른 상기 저장된 이미지 상의 위치에 배치되는 음성인식 기반의 사진 공유 방법.
  16. 제 14 항에 있어서, 상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트를 연관시켜 저장하는 단계는,
    상기 이미지에 대해 객체인식 알고리즘을 적용하여 상기 이미지에 포함된 제 1 피사체 및 제 2 피사체를 각각 인식하는 단계;
    상기 이미지에 포함된 제 1 피사체는 상기 제 1 텍스트와 연관시키는 단계; 및
    상기 이미지에 포함된 제 2 피사체는 상기 제 2 텍스트와 연관시키는 단계를 포함하는 음성인식 기반의 사진 공유 방법.
  17. 제 16 항에 있어서,
    상기 제 1 텍스트는 상기 제 1 피사체 주변에 배치되고,
    상기 제 2 텍스트는 상기 제 2 피사체 주변에 배치되는 음성인식 기반의 사진 공유 방법.
  18. 제 1 항에 있어서,
    제 1 항에 있어서, 상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트를 연관시켜 저장하는 단계는,
    상기 획득된 음성데이터와 연관된 음성특성정보를 음성 데이터베이스에 기저장된 음성특성정보와 비교하여 상기 음성데이터를 식별하는 단계를 포함하는 음성인식 기반의 사진 공유 방법.
  19. 제 1 항에 있어서,
    상기 이미지의 영역 중, 기지정된 위치 및 이미지 분석 결과에 따른 위치 중 적어도 하나의 위치에 상기 텍스트가 자동으로 배치되는 제 1 모드; 및
    사용자 입력에 따라 상기 텍스트가 배치되는 제 2 모드 중 하나에 의해 상기 텍스트의 위치가 결정되는 음성인식 기반의 사진 공유 방법.
  20. 제 19 항에 있어서,
    상기 텍스트의 의미를 분석하는 단계를 더 포함하고,
    상기 제 1 모드로 동작할 때, 의미 분석된 결과에 대응되는 영역에 상기 텍스트가 자동으로 배치되는 음성인식 기반의 사진 공유 방법.
  21. 제 20 항에 있어서,
    제 1 의미를 갖는 텍스트는 상기 이미지 내의 피사체와 연관된 영역에 배치되고,
    제 2 의미를 갖는 텍스트는 상기 피사체와 관련없이 이미지 전체 영역 중 기설정된 어느 한 영역에 배치되는 음성인식 기반의 사진 공유 방법.
  22. 제 1 항에 있어서,
    상기 저장된 이미지를 소셜 네트워크 서비스(SNS: Social Network Service)에 등록할 때, 상기 이미지, 상기 음성데이터, 상기 텍스트 및 상기 이미지와 연관된 메타데이터 중 적어도 하나를 기반으로 해시태그(hashtag)를 자동생성하여 등록하는 음성인식 기반의 사진 공유 방법.
  23. 제 1 항에 있어서,
    상기 저장된 이미지를 소셜 네트워크 서비스(SNS: Social Network Service)에 등록할 때, 상기 이미지 내의 제 1 객체를 추출하여 상기 제 1 객체에 대한 정보를 기반으로 해시태그(hashtag)를 자동생성하여 등록하는 음성인식 기반의 사진 공유 방법.
  24. 제 1 항에 있어서,
    상기 텍스트를 출력함에 있어서,
    상기 텍스트를 구성하는 복수 개의 문자 간의 출력 순서, 상기 복수 개의 문자 각각에 포함된 복수 개의 획들 간의 출력 순서 및 상기 복수 개의 획 각각의 출력시점부터 출력종점까지의 드로잉(drawing)에 관한 정보를 기반으로,
    상기 텍스트의 첫 문자부터 최종문자까지 받아쓰기의 형태로 상기 텍스트를 재생하는 음성인식 기반의 사진 공유 방법.
  25. 제 1 항에 있어서,
    상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트를 연관시켜 저장하는 단계는,
    상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트와 연관된 정보를 블록체인(blockchain)에 기록하는 단계를 포함하는 음성인식 기반의 사진 공유 방법.
  26. 제 25 항에 있어서,
    상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트와 연관된 정보를 블록체인 형태로 기록하기 위한 요청이 있는 경우,
    인증정보 발급 서버를 통해 공개키 및 개인키를 생성하여 블록체인기반 데이터 관리서버로 전송함으로써 블록체인 데이터 보유 서버로 상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트와 연관된 정보를 제공하는 음성인식 기반의 사진 공유 방법.
  27. 제 26 항에 있어서,
    상기 공개키 및 개인키는 상기 블록체인기반 데이터 관리서버에서 등록 여부를 확인에 사용되고,
    상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트와 연관된 정보는 해시값으로 가공되어 정보 기록을 위한 트랜잭션(transaction)으로 생성되며,
    상기 생성된 트랜잭션은 상기 블록체인 보유 서버에게 전달되어 승인되도록 구성되는 음성인식 기반의 사진 공유 방법.
  28. 카메라를 통해 사진을 촬영함에 따라 촬영된 사진에 대한 이미지를 획득하고, 상기 획득된 이미지와 연관된 음성데이터를 획득하는 정보 획득부;
    상기 획득된 음성데이터를 인식하여 텍스트를 생성하는 텍스트 변환부;
    상기 획득된 이미지, 상기 획득된 음성데이터 및 상기 생성된 텍스트를 연관시켜 저장하는 데이터 저장부; 및
    상기 저장된 이미지를 상기 저장된 음성데이터 및 상기 저장된 텍스트 중 적어도 하나와 함께 출력하는 데이터 출력부를 포함하는 음성인식 기반의 사진 공유 장치.
  29. 사진과 연관된 이미지, 및 상기 이미지와 연관된 음성데이터를 획득하며, 상기 획득된 음성데이터를 인식하여 텍스트를 생성하고, 상기 이미지, 상기 음성데이터 및 상기 텍스트를 연관시켜 저장하고 상기 저장된 이미지, 음성데이터 및 텍스트를 블록체인(block-chain) 형태로 기록하기 위해 요청하는 사용자 단말;
    상기 사용자 단말에서 생성된 이미지, 음성데이터 및 텍스트를 블록체인 형태로 기록하는 복수 개의 블록체인 보유 서버들; 및
    상기 블록체인 보유 서버들에 기록된 블록체인 정보들에 대한 추가, 이전 및 삭제 중 적어도 하나를 포함하는 블록체인 관리 업무를, 상기 복수 개의 블록체인 보유 서버들의 승인에 기반하여 처리하는 블록체인기반 데이터 관리서버를 포함하는 음성인식 기반의 사진 공유 시스템.
  30. 제 29 항에 있어서,
    상기 블록체인 기반 데이터 관리서버는, 제 1 사용자 단말과 제 2 사용자 단말 간에 주고받은, 상기 이미지, 음성데이터 및 텍스트와 관련된 다운로드 정보 및 결제 정보 중 적어도 하나를 상기 블록체인 보유 서버들에 기록하는 음성인식 기반의 사진 공유 시스템.
  31. 제 29 항에 있어서,
    상기 이미지, 음성데이터 및 텍스트의 블록체인 기록 요청이 있는 경우, 상기 사용자 단말은 인증정보 발급 서버를 통해 공개키 및 개인키를 생성하여 블록체인기반 데이터 관리서버로 전송하고,
    상기 블록체인기반 데이터 관리서버는 상기 사용자 단말로부터 수신한 공개키 및 개인키의 등록 여부를 확인한 뒤, 상기 사용자 단말이 요청한 이미지, 음성데이터 및 텍스트를 해시값으로 가공하여 정보 기록을 위한 트랜잭션을 생성하고, 생성된 트랜잭션을 상기 블록체인 보유 서버들에게 전달하여 승인하도록 구성되는 음성인식 기반의 사진 공유 시스템.


KR1020180093553A 2017-12-05 2018-08-10 음성인식 기반의 사진 공유 방법, 장치 및 시스템 KR102196199B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020170165720 2017-12-05
KR20170165720 2017-12-05

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US16/191,342 US20190172456A1 (en) 2017-12-05 2018-11-14 Method for sharing photograph based on voice recognition, apparatus and system for the same

Publications (2)

Publication Number Publication Date
KR20190066537A true KR20190066537A (ko) 2019-06-13
KR102196199B1 KR102196199B1 (ko) 2020-12-30

Family

ID=66751068

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180093553A KR102196199B1 (ko) 2017-12-05 2018-08-10 음성인식 기반의 사진 공유 방법, 장치 및 시스템

Country Status (2)

Country Link
KR (1) KR102196199B1 (ko)
WO (1) WO2019112145A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021025465A1 (en) * 2019-08-06 2021-02-11 Samsung Electronics Co., Ltd. Method for recognizing voice and electronic device supporting the same
KR20220029144A (ko) * 2020-09-01 2022-03-08 주식회사 스마트캐스트 주문 메뉴 정보 관리 시스템 및 그 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110127783A (ko) * 2010-05-20 2011-11-28 충북대학교 산학협력단 음성 분리 장치 및 이를 이용한 단일 채널 음성 분리 방법
KR20140029894A (ko) * 2012-08-31 2014-03-11 엘지전자 주식회사 이동 단말기
KR20150092390A (ko) * 2014-02-03 2015-08-13 주식회사 엠앤엘솔루션 음성기반 이미지 파일 태깅장치 및 그를 이용한 클라우드 서비스 기반 이미지 파일 검색방법
KR101661930B1 (ko) * 2015-08-03 2016-10-05 주식회사 코인플러그 블록체인을 기반으로 하는 공인인증서 발급시스템
KR20170107413A (ko) * 2017-09-05 2017-09-25 윤진구 이미지에 대한 설명을 텍스트 아이템과 툴팁형태로 제공하는 이미지 파일 재생방법 및 이를 구현하는 프로그램이 저장된 기록매체.

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10231077B2 (en) * 2007-07-03 2019-03-12 Eingot Llc Records access and management
JP5565057B2 (ja) * 2010-04-08 2014-08-06 日本電気株式会社 携帯情報端末、画像登録方法および画像分類整理方法
JP2016170654A (ja) * 2015-03-13 2016-09-23 株式会社リコー 情報処理端末、情報処理方法、プログラム、及び、情報処理装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110127783A (ko) * 2010-05-20 2011-11-28 충북대학교 산학협력단 음성 분리 장치 및 이를 이용한 단일 채널 음성 분리 방법
KR20140029894A (ko) * 2012-08-31 2014-03-11 엘지전자 주식회사 이동 단말기
KR20150092390A (ko) * 2014-02-03 2015-08-13 주식회사 엠앤엘솔루션 음성기반 이미지 파일 태깅장치 및 그를 이용한 클라우드 서비스 기반 이미지 파일 검색방법
KR101661930B1 (ko) * 2015-08-03 2016-10-05 주식회사 코인플러그 블록체인을 기반으로 하는 공인인증서 발급시스템
KR20170107413A (ko) * 2017-09-05 2017-09-25 윤진구 이미지에 대한 설명을 텍스트 아이템과 툴팁형태로 제공하는 이미지 파일 재생방법 및 이를 구현하는 프로그램이 저장된 기록매체.

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021025465A1 (en) * 2019-08-06 2021-02-11 Samsung Electronics Co., Ltd. Method for recognizing voice and electronic device supporting the same
KR20220029144A (ko) * 2020-09-01 2022-03-08 주식회사 스마트캐스트 주문 메뉴 정보 관리 시스템 및 그 방법

Also Published As

Publication number Publication date
WO2019112145A1 (ko) 2019-06-13
KR102196199B1 (ko) 2020-12-30

Similar Documents

Publication Publication Date Title
US20190172456A1 (en) Method for sharing photograph based on voice recognition, apparatus and system for the same
US7787697B2 (en) Identification of an object in media and of related media objects
US9058375B2 (en) Systems and methods for adding descriptive metadata to digital content
CN102782751B (zh) 社会网络中的数字媒体语音标签
US20060173859A1 (en) Apparatus and method for extracting context and providing information based on context in multimedia communication system
US20130077835A1 (en) Searching with face recognition and social networking profiles
WO2006025797A1 (en) A search system
US9973649B2 (en) Photographing apparatus, photographing system, photographing method, and recording medium recording photographing control program
KR101592981B1 (ko) 음성기반 이미지 파일 태깅장치 및 그를 이용한 클라우드 서비스 기반 이미지 파일 검색방법
KR102196199B1 (ko) 음성인식 기반의 사진 공유 방법, 장치 및 시스템
US20140161423A1 (en) Message composition of media portions in association with image content
KR20150041592A (ko) 피호출자의 전자 디바이스에서 연락처 정보를 업데이트하는 방법 및 전자 디바이스
CN109947971A (zh) 图像检索方法、装置、电子设备及存储介质
KR20190108523A (ko) 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 제공 서버 및 방법
KR101871779B1 (ko) 사진 촬영 및 관리 어플리케이션을 구비한 단말기
KR20140060217A (ko) 오디오 신호에 의해 메시지를 포스팅하는 시스템 및 방법
JP5484113B2 (ja) 文書画像関連情報提供装置、及び文書画像関連情報取得システム
CN108255917B (zh) 图像管理方法、设备及电子设备
JP2017021672A (ja) 検索装置
CN110970011A (zh) 图片处理方法、装置、设备及计算机可读存储介质
EP2033121A2 (en) A method and electronic device for enabling multimedia searching
Ragavi et al. Portable text to speech converter for the visually impaired
CN109582825A (zh) 用于生成信息的方法和装置
CN104978389B (zh) 方法、系统、服务器和客户端
US20190005315A1 (en) Method of evaluating photographer satisfaction

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant