KR20210101374A - 오디오 신호 제공 방법 및 장치 - Google Patents

오디오 신호 제공 방법 및 장치 Download PDF

Info

Publication number
KR20210101374A
KR20210101374A KR1020200015138A KR20200015138A KR20210101374A KR 20210101374 A KR20210101374 A KR 20210101374A KR 1020200015138 A KR1020200015138 A KR 1020200015138A KR 20200015138 A KR20200015138 A KR 20200015138A KR 20210101374 A KR20210101374 A KR 20210101374A
Authority
KR
South Korea
Prior art keywords
text
message
user message
image
audio signal
Prior art date
Application number
KR1020200015138A
Other languages
English (en)
Inventor
미카엘 정크직
카타르지나 포들라스카
보제나 루카시아크
카타르지나 벡사
파웰 부주노스키
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020200015138A priority Critical patent/KR20210101374A/ko
Priority to PCT/KR2021/001170 priority patent/WO2021157957A1/ko
Publication of KR20210101374A publication Critical patent/KR20210101374A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/07User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
    • H04L51/10Multimedia information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/725Cordless telephones

Abstract

텍스트, 이미지, 비디오, 음성 또는 이들의 조합을 포함하는 사용자 메시지를 획득하는 단계, 사용자 메시지로부터 DNN에 입력될 입력 벡터를 결정하는 단계, DNN에 입력 벡터가 입력됨으로써, DNN으로부터 사용자 메시지의 출력 벡터를 획득하는 단계, 사용자 메시지의 출력 벡터를 데이터 베이스에 저장된 오디오 신호의 출력 벡터와 비교함으로써, 사용자 메시지의 출력 벡터와 데이터베이스의 복수의 오디오 신호들의 출력 벡터들 간의 유사성 스코어를 결정하는 단계, 유사성 스코어에 기초하여, 데이터베이스의 복수의 오디오 신호들 중 사용자 메시지의 오디오 신호를 결정하는 단계를 포함하는 데이터 처리 방법이 제공된다.

Description

오디오 신호 제공 방법 및 장치 {Method and Apparatus for providing audio signal}
본 개시는 오디오 신호 처리 분야에 관한 것이다. 보다 구체적으로, 본 개시는 사용자 메시지에 적합한 오디오 신호를 사용자 메시지와 함께 제공하는 장치 및 방법에 관한 것이다.
메시지에 삽입되는 이모티콘은, 문장 부호의 조합으로 표시되는 간단한 기호에서, 복잡한 상황을 나타내는 애니메이션 그림으로 발전하였다. 다양한 이모티콘은 의사 소통을 촉진하고 단순하고 단조로운 메시지를 풍부하게 한다. 또한 이모티콘을 전체 텍스트 세그먼트와 연결함으로써, 이모티콘의 한 번의 클릭으로 전체 텍스트 세그먼트를 대체하거나, 텍스트 세그먼트에 대한 의견을 공유할 수 있다. 또한 이모티콘을 이용하여, 텍스트로 표현하기 어려운 의미, 문맥 및 감정이 용이하게 설명될 수 있다.
종래의 이모티콘은 이미지 또는 애니메이션과 같이 시각적으로 구현되었으나, 메시지 작성자 및 수신자의 메시지에 대한 직관적 이해를 위하여, 다양한 종류의 감각에 의하여, 인식가능한 이모티콘의 개발이 요구되고 있다. 본 개시에 의하여 설명되는 오디오 신호에 기초한 이모티콘을 사용함으로써, 메시지에 포함되는 의미, 문맥 및 감정이 메시지 작성자로부터 메시지 수신자에게 용이하게 전달될 수 있다.
본 개시에서, 일 실시예에 따른 오디오 신호가 포함된 메시지 생성을 위한 데이터 처리 방법 및 장치이 제공된다.
더불어 본 개시의 일 실시 예에 따른 오디오 신호가 포함된 메시지 생성을 위한 데이터 처리 방법을 컴퓨터에서 실행시키기 위한 프로그램과 상기 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체가 개시된다.
본 개시에 있어서, 텍스트, 이미지, 비디오, 음성 또는 이들의 조합을 포함하는 사용자 메시지를 획득하는 단계, 상기 사용자 메시지로부터 DNN에 입력될 입력 벡터를 결정하는 단계, 상기 DNN에 상기 입력 벡터가 입력됨으로써, 상기 DNN으로부터 상기 사용자 메시지의 출력 벡터를 획득하는 단계, 상기 사용자 메시지의 출력 벡터를 데이터 베이스에 저장된 오디오 신호의 출력 벡터와 비교함으로써, 상기 사용자 메시지의 출력 벡터와 상기 데이터베이스의 복수의 오디오 신호들의 출력 벡터들 간의 유사성 스코어를 결정하는 단계, 상기 유사성 스코어에 기초하여, 상기 데이터베이스의 복수의 오디오 신호들 중 상기 사용자 메시지의 오디오 신호를 결정하는 단계를 포함하는 데이터 처리 방법이 제공된다.
본 개시에 있어서, 본 개시에서 제공되는 데이터 처리 방법의 각 단계가 구현된 명령을 저장하는 메모리 디바이스, 및 상기 메모리 디바이스에 저장된 명령을 수행하는 프로세서로 구성된 데이터 처리 장치가 제공된다.
본 개시에 있어서, 본 개시에서 제공되는 데이터 처리 방법의 각 단계가 구현된 명령을 포함하는 컴퓨터 프로그램이 제공된다.
본 실시 예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 이하의 실시 예들로부터 또 다른 기술적 과제들이 유추될 수 있다.
본 실시 예에서, 메시지의 내용에 부합하는 오디오 신호를 메시지와 함께 제공하는 데이터 처리 방법 및 장치가 제공된다. 따라서, 오디오 신호와 함께 메시지를 전달함으로써, 메시지의 의미 및 메시지 작성자의 감정이 메시지 수신자에게 효과적으로 전달될 수 있다. 또한, 오디오 신호의 전달로 인하여, 메시지 수신자는 오디오 신호를 먼저 듣고 메시지의 내용을 먼저 추측할 수 있다.
본 명세서에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1은 텍스트 벡터화에 따른 사용자 메시지와 오디오 신호의 매칭 방법의 일 실시 예를 나타낸다.
도 2는 사용자의 음성 메시지를 포함하는 사용자 메시지와 오디오 신호를 매칭하는 방법의 일 실시 예를 나타낸다.
도 3은 사용자의 음성 메시지를 포함하는 사용자 메시지와 오디오 신호를 매칭하는 방법의 일 실시 예를 나타낸다.
도 4는 데이터베이스에 입력되는 오디오 신호를 나타낸다.
도 5는 전화 통화 중에 사용자 메시지와 오디오 신호를 매칭하는 방법이 적용되는 일 실시 예를 설명한다.
도 6은 모바일 디바이스에 디스플레이된 선택 가능한 후보 오디오 신호들 중 하나를 선택하는 방법의 일 실시예를 나타낸다.
도 7은 수신자 디바이스에서 발신자 메시지에 첨부된 오디오 신호을 처리하는 방법의 일 실시예를 설명한다.
도 8은 사용자 메시지의 오디오 신호가 재생되는 IoT 가전 디바이스의 일 실시 예를 설명한다.
도 9는 사용자 메시지와 오디오 신호의 매칭 방법을 수행하는 데이터 처리 장치의 일 실시 예를 나타낸다.
도 10은 사용자 메시지와 오디오 신호의 매칭을 수행하는 데이터 처리 방법의 일 실시 예를 나타낸다.
본 개시는 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고, 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나, 이는 본 개시의 실시 형태에 대해 한정하려는 것이 아니며, 본 개시는 여러 실시예들의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
실시 예를 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 명세서의 설명 과정에서 이용되는 숫자(예를 들어, 제 1, 제 2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.
또한, 본 개시에서, 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.
또한, 본 개시에서 '~부(유닛)', '모듈' 등으로 표현되는 구성요소는 2개 이상의 구성요소가 하나의 구성요소로 합쳐지거나 또는 하나의 구성요소가 보다 세분화된 기능별로 2개 이상으로 분화될 수도 있다. 또한, 이하에서 설명할 구성요소 각각은 자신이 담당하는 주기능 이외에도 다른 구성요소가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성요소 각각이 담당하는 주기능 중 일부 기능이 다른 구성요소에 의해 전담되어 수행될 수도 있음은 물론이다.
이하, 도면에 기초하여, 본 개시에 따른, 사용자 메시지에 적합한 오디오 신호를 사용자 메시지와 함께 제공하는 장치 및 방법이 제공된다.
도 1은 텍스트 벡터화에 따른 사용자 메시지와 오디오 신호의 매칭 방법의 일 실시 예를 나타낸다.
도 1에서, 사용자 메시지를 자동으로 분석하고, 분석 결과에 따라 사용자 메시지에 대응되는 오디오 신호를 데이터베이스로부터 선택하는 오디오 신호 처리 방법이 설명된다. 사용자 메시지는 단계 102 내지 108에 따라 분석된다. 그리고 데이터 베이스의 오디오 신호와 컨텐츠의 관련성은 단계 110 내지 114에 따라 분석된다. 그리고 단계 116에서 사용자 메시지의 분석 결과 및 데이터 베이스의 오디오 신호와 컨텐츠의 관련성에 따라 사용자 메시지와 데이터 베이스의 오디오 신호가 비교된다. 그리고 비교 결과에 따라, 사용자 메시지에 가장 적합한 오디오 신호가 선택된다.
단계 102에서 사용자 메시지가 이미지 컨텐츠를 포함하는 다중 모드 메시지인 경우, 사용자 메시지의 이미지가 분석된다. 상기 다중 모드 메시지는 여려 형태의 컨텐츠를 포함하는 메시지를 의미한다. 예를 들어, 다중 모드 메시지는 텍스트, 이미지, 비디오 및 오디오 컨텐츠를 2개 이상 포함할 수 있다.
단계 102에서, 다양한 컨텐츠 및 오디오 신호에 따라 학습된 DNN 모델을 이용하여, 사용자 메시지의 이미지 또는 비디오로부터 사용자 메시지의 의미, 컨텍스트, 감정 등이 추론될 수 있다. 그리고 상기 추론에 따라, 사용자 메시지의 의미, 맥락, 감정 등을 포함하는 분석 정보가 출력된다. 상기 분석 정보는 사용자 메시지의 이미지 또는 비디오에 대한 다양한 출력 값을 포함할 수 있다. 단계 102는 사용자 메시지가 이미지 또는 비디오를 포함하거나, 사용자 메시지의 사운드 항목에 이미지 또는 비디오에 대한 주석 또는 설명이 할당된 경우에 선택적으로 적용될 수 있다.
단계 104에서 사용자 메시지가 음성 형태이거나, 음성 컨텐츠를 포함하는 다중 모드 메시지인 경우, 사용자 메시지는 자동 음성 인식(automatic speech recognition, ASR)에 따라 텍스트 형태로 변환될 수 있다. 그리고 상기 자동 음성 인식에 따라, 텍스트 형태의 사용자 메시지를 포함하는 분석 정보가 출력된다. 단계 140는 사용자 메시지가 음성 형태인 경우에 선택적으로 적용될 수 있다.
단계 106에서, 단계 102 및 단계 104로부터 출력된 사용자 메시지의 분석 정보가 입력된다. 그리고 단계 106에서, 상기 분석 정보에 대한 NLP (Natural Language Processing) 전처리가 수행된다. 상기 NLP 전처리는 텍스트 토큰화(tokenization), 텍스트 표준화(standardization), 및/또는 텍스트 요약화(summarization)을 포함할 수 있다. 상기 텍스트 표준화를 위하여, 다양한 프로세스가 선택적으로 이용될 수 있다. 예를 들어, 단어의 기본형 및 단어의 동의어를 고려한 텍스트 수정, 단어/구문 사전을 이용한 텍스트 수정, 및 복잡한 통계/신경 모델들 이용한 텍스트 수정 등이 텍스트 표준화에 사용될 수 있다. 사용자 메시지에 비디오가 포함된 경우, 소정의 비디오 프레임 단위마다 NLP 전처리가 수행될 수 있다. 예를 들어, 4 프레임 단위, 8 프레임 단위 또는 16 프레임 단위마다 NLP 전처리가 수행될 수 있다. 소정의 비디오 프레임 단위마다 NLP 전처리가 수행됨으로써, 사용자 메시지의 분석 정보는 효율적으로 요약될 수 있다. 단계 106의 NLP 전처리는 선택적으로 적용될 수 있다.
단계 108에서, 사용자 메시지 및/또는 사용자 메시지의 분석 정보가 처리된다. 예를 들어, 최초 사용자 메시지 "안녕하세요?" 및 응답 메시지 "맑은 해변에서 멋진 산책을 했습니다!"는 벡터화될 수 있다. 그리고 벡터화된 최초 사용자 메시지 및 응답 메시지는 신경망의 입력으로 사용될 수 있다. 또한 텍스트 형태의 사용자 메시지와 더불어, 단계 102 및 104에서 사용자 메시지의 이미지, 비디오, 음성 컨텐츠의 분석에 따라 생성된 분석 정보가 처리될 수 있다. 아래 표 1은, 사용자 메시지의 종류에 따라, DNN에 입력되는 입력 벡터의 파트들이 설명된다.
DNN에 입력되는 각 케이스에 대한 입력 벡터
입력 벡터의 연결된 파트
문장 파트 이미지 캡션 파트 컨텍스트 문장 파트 컨텍스트 이미지 캡션 파트
이미지와 컨텍스트가 없는 문장을 수신한 경우 문장 텍스트 문장 텍스트 문장 텍스트 문장 텍스트
컨텍스트가 없는, 다중 모드 메시지(예:이미지)를 수신한 경우 문장 텍스트 이미지 캡션 텍스트 문장 텍스트 문장 텍스트
컨텍스트가 없는, 이미지만 포함된 이미지 메시지를 수신한 경우 이미지 캡션 텍스트 이미지 캡션 텍스트 이미지 캡션 텍스트 이미지 캡션 텍스트
이전 텍스트 메시지에 대한 응답 텍스트 메시지를 수신한 경우 문장 텍스트 문장 텍스트 컨텍스트 문장 텍스트 컨텍스트 문장 텍스트
이전 텍스트 메시지에 대한 응답 다중 모드 메시지를 수신한 경우 문장 텍스트 이미지 캡션 텍스트 컨텍스트 문장 텍스트 컨텍스트 문장 텍스트
이전 이미지 메시지에 대한 응답 텍스트 메시지를 수신한 경우 문장 텍스트 문장 텍스트 컨텍스트 이미지 캡션 텍스트 컨텍스트 이미지 캡션 텍스트
이전 이미지 메시지에 대한 응답 이미지 메시지를 수신한 경우 이미지 캡션 텍스트 이미지 캡션 텍스트 컨텍스트 이미지 캡션 텍스트 컨텍스트 이미지 캡션 텍스트
이전 다중 모드 메시지에 대한 응답 텍스트 메시지를 수신한 경우 문장 텍스트 문장 텍스트 컨텍스트 문장 텍스트 컨텍스트 이미지 캡션 텍스트
이전 다중 모드 메시지에 대한 응답 이미지 메시지를 수신한 경우 이미지 캡션 텍스트 이미지 캡션 텍스트 컨텍스트 문장 텍스트 컨텍스트 이미지 캡션 텍스트
이전 다중 모드 메시지에 대한 응답 다중 모드 메시지를 수신한 경우 문장 텍스트 이미지 캡션 텍스트 컨텍스트 문장 텍스트 컨텍스트 이미지 캡션 텍스트
표 1에 따르면, DNN에 입력되는 입력 벡터는 4개의 파트를 포함할 수 있다. 그리고 입력 벡터의 4개의 파트는 DNN에 입력됨으로써, 고정 길이의 출력 벡터가 생성된다. 예를 들어, 입력 벡터는 표 1과 같이 문장 파트, 이미지 캡션 파트, 컨텍스트 문장 파트, 컨텍스트 이미지 캡션 파트로 구성될 수 있다. 입력 벡터에 포함된 파트들의 구성요소는 사용자 메시지의 종류에 따라 달라질 수 있다.
예를 들어, 문장 파트의 구성요소는 기본적으로 사용자 메시지의 문장에서 비롯된 문장 텍스트로 결정되지만, 사용자 메시지가 이미지로만 구성된 경우, 사용자 메시지의 이미지에 부가된 이미지 캡션 텍스트가 문장 파트의 구성요소로 결정될 수 있다. 또한, 이미지 캡션 파트의 구성요소는 기본적으로 이미지에 부가된 이미지 캡션 텍스트로 결정되지만, 사용자 메시지가 이미지를 포함하지 않는 경우, 사용자 메시지의 문장에서 비롯된 문장 텍스트가 이미지 캡션 파트의 구성요소로 결정될 수 있다.
컨텍스트 문장 파트 및 컨텍스트 이미지 캡션 파트의 구성 요소는 사용자 메시지 이전에 사용자에게 수신된 이전 메시지(previous message)로부터 결정될 수 있다. 사용자 메시지는, 사용자 메시지 생성 이전에 사용자에게 수신된 이전 메시지의 컨텍스트에 따라서, 사용자에 의하여 생성될 수 있다. 그러므로 사용자 메시지와 더불어 이전 메시지의 컨텍스트를 분석함으로써, 사용자 메시지의 의미를 더 정밀하게 추론할 수 있다.
컨텍스트 문장 파트의 구성 요소는 이전 메시지의 컨텍스트 문장 텍스트로 결정될 수 있다. 싱기 컨텍스트 문장 텍스트는 이전 메시지의 문장 텍스트를 의미한다. 상기 컨텍스트 문장 텍스트에 따라, 사용자 메시지의 문장 텍스트의 컨텍스트가 도출될 수 있다. 만약 이전 메시지가 이미지로만 구성된 경우, 이전 메시지의 이미지에 부가된 컨텍스트 이미지 캡션 텍스트가 컨텍스트 문장 파트의 구성요소로 결정될 수 있다. 만약 이전 메시지가 없을 경우, 사용자 메시지의 종류에 따라, 사용자 메시지의 문장 텍스트 또는 이미지 캡션 텍스트가 컨텍스트 문장 파트의 구성요소로 결정될 수 있다. 예를 들어, 이전 메시지가 없고, 사용자 메시지가 문장을 포함한 경우, 사용자 메시지의 문장으로부터 도출된 문장 텍스트가 컨텍스트 문장 파트의 구성요소로 결정될 수 있다. 만약 이전 메시지가 없고, 사용자 메시지가 이미지로만 구성된 경우, 사용자 메시지의 이미지에 부가된 이미지 캡션 텍스트가 컨텍스트 문장 파트의 구성요소로 결정될 수 있다.
컨텍스트 이미지 캡션 파트의 구성 요소는 이전 메시지의 컨텍스트 이미지 캡션 텍스트로 결정될 수 있다. 컨텍스트 이미지 캡션 텍스트는 이전 메시지의 이미지 캡션 텍스트를 의미한다. 상기 컨텍스트 이미지 캡션 텍스트에 따라, 사용자 메시지의 이미지 캡션 텍스트의 컨텍스트가 도출될 수 있다. 만약 이전 메시지에 이미지가 포함되지 않은 경우, 이전 메시지의 컨텍스트 문장 텍스트가 컨텍스트 이미지 캡션 파트의 구성요소로 결정될 수 있다. 만약 이전 메시지가 없을 경우, 사용자 메시지의 종류에 따라, 사용자 메시지의 문장 텍스트 또는 이미지 캡션 텍스트가 컨텍스트 이미지 캡션 파트의 구성요소로 결정될 수 있다. 예를 들어, 이전 메시지가 없고, 사용자 메시지가 문장을 포함한 경우, 사용자 메시지의 문장으로부터 도출된 문장 텍스트가 컨텍스트 이미지 캡션 파트의 구성요소로 결정될 수 있다. 만약 이전 메시지가 없고, 사용자 메시지가 이미지로만 구성된 경우, 사용자 메시지의 이미지에 부가된 이미지 캡션 텍스트가 컨텍스트 이미지 캡션 파트의 구성요소로 결정될 수 있다.
일 실시 예에 따르면, 다중 모드 메시지가 비디오 또는 복수의 이미지를 포함할 경우, 단계 102 및 106에 따라, 비디오 프레임 또는 복수의 이미지의 캡션을 요약한 캡션 요약(summarization)이 입력 벡터에 포함될 수 있다. 또한 연속적인 메시지는 소정의 컨텍스트의 단일 메시지로 변환되어 처리될 수 있다. 사용자 메시지가 음성 컨텐츠만 포함한 경우, DNN에 입력되는 입력 벡터의 4개의 파트들의 구성요소는 모두 단계 104에서 단일 문장으로 변환된 문장 텍스트로 결정될 수 있다.
일 실시 예에 따르면, 사용자 메시지 또는 이전 메시지의 텍스트가 여러 텍스트 파트를 포함하는 경우, 텍스트 파트들에 대한 복수의 입력 벡터가 결정될 수 있다. 그리고 복수의 입력 벡터가 DNN에 입력됨으로써, 복수의 출력 벡터가 생성될 수 있다. 또한 복수의 출력 벡터를 연결하여 최종 출력 벡터가 생성될 수 있다.
DNN에 입력된 입력 벡터의 결과물로 출력 벡터가 생성된다. 출력 벡터는 숫자 벡터(numerical vector)로 표현되는 히든 레이어(hidden layer) 또는 소프트맥스 레이어(softmax layer)의 형태를 취할 수 있다. 또한 출력 벡터의 길이는 고정될 수 있다.
다양한 DNN 모델들은 단어 / 태그 / 문장의 시맨틱(semantic) 및 감정 벡터 표현(sentiment vector representation)을 출력할 수 있다. 예를 들어, ELMO (Embeddings from Language Models) 또는 BERT(Bidirectional Encoder Representations from Transformer)와 유사한 사전 훈련된 전송 학습 아키텍처 모델이 단계 108에 적용될 수 있다. 또한 더 낳은 감정 인코딩을 위하여, 추가적인 딥 러닝 모델이 단계 108에 적용될 수 있다.
단계 110 내지 114에서, 데이터 베이스에 입력되는 오디오 신호로부터 출력 벡터가 도출된다. 단계 110 내지 114는 단계 102 내지 108, 116 및 118과 독립적으로 수행될 수 있다. 그리고 단계 110 내지 114는 단계 102 내지 108 이전에 데이터 베이스를 저장하는 서버에서 독립적으로 수행될 수 있다.
단계 110에서 오디오 신호는, 주파수 특성에 기초하여, 다양한 기준에 따라 분류된다. 예를 들어, 오디오 신호는 자기회기(Autoregression), 적응적 시간-주파수 분해(Adaptive time-frequency decomposition), 단시간 푸리에(Short-Time Fourier)와 같은 물리적 특성에 따라 분류될 수 있다. 또한 오디오 신호는 주파수 분석을 통한 소리의 밝기(Brightness), 조성(Tonality), 세기(Loudness), 높이(Pitch), 채도(Chroma), 조화도(Harmonicity)와 같은 인지적 특성으로 분류될 수 있다. 상기 오디오 신호의 물리적 특성 및 인지적 특성에 따라 상기 오디오 신호의 분석 정보가 생성될 수 있다.
또한 단계 110에서 오디오 신호에 이미지 또는 비디오가 부가될 경우, 이미지 또는 비디오의 분석에 따라, 오디오 신호의 분석 정보가 출력된다. 예를 들어, 다양한 컨텐츠 및 오디오 신호에 따라 학습된 DNN 모델을 이용하여, 이미지 또는 비디오의 의미, 맥락, 감정 등이 추론될 수 있다. 그리고 상기 추론에 따라, 이미지 또는 비디오의 의미, 맥락, 감정 등을 포함하는 분석 정보가 출력된다. 상기 분석 정보는 이미지 또는 비디오에 대한 다양한 출력 값을 포함할 수 있다. 단계 102의 이미지 분석이 단계 110의 이미지 분석에 적용될 수 있다.
단계 112에서, 단계 110으로부터 출력된 이미지의 분석 정보가 입력된다. 그리고 단계 112에서, 상기 분석 정보에 대한 NLP 전처리가 수행된다. 상기 NLP 전처리는 텍스트 토큰화, 텍스트 표준화, 및/또는 텍스트 요약화를 포함할 수 있다. 단계 106의 NLP 전처리는 단계 112의 NLP 전처리에 적용될 수 있다.
단계 114에서, 오디오 신호에 부가된 이미지의 분석 정보 또는 텍스트가 처리된다. DNN에 입력되는 입력 벡터의 파트들은 앞서 제시된 표 1에 따라 결정될 수 있다. 단계 114의 입력 벡터의 파트들의 구성요소들을 결정하는 방법 및 DNN에 따라 입력 벡터로부터 출력 벡터를 도출하는 방법은 단계 108의 방법과 동일하게 설정될 수 있다. 단계 114에 의하여, 오디오 신호에 대하여 생성된 출력 벡터는 데이터 베이스에 저장된다.
단계 116에서, 단계 108의 사용자 메시지의 출력 벡터와 단계 114의 데이터 베이스에 저장된 오디오 신호들의 출력 벡터들이 비교된다. 상기 비교는 고정 길이 벡터의 형태를 가지는 출력 벡터들에 기초하여 계산된다. 사용자 메시지의 하나의 출력 벡터는 데이터베이스의 복수의 출력 벡터와 매칭될 수 있다. 유사성 측정 방법, 예를 들어, 수치 벡터의 코사인 유사성은 사용자 메시지의 출력 벡터와 데이터베이스의 오디오 신호의 출력 벡터 모두에 대해 매번 계산된다. 유사성 측정에 따른 유사성 스코어는 단계 118의 추후 선택을 위해 메모리에 저장된다. 또는 데이터베이스가 사전에 정의된 카테고리 (예: 특수 목표)를 사용하는 경우, 머신 러닝 분류를 통해 최종 매칭이 수행될 수 있다.
단계 118에서, 사용자 메시지의 출력 벡터와 데이터베이스의 오디오 신호의 출력 벡터 사이의 유사성 스코어를 기반으로, 사용자 메시지의 출력 벡터와 가장 유사한 출력 벡터를 가지는 오디오 신호가 선택된다. 그리고 선택된 오디오 신호가 사용자에게 전송될 수 있다. 또한, 동일한 오디오 신호가 한 사용자에게 제공되는 것을 방지하는 간단한 메커니즘이 적용될 수 있다. 또한, 개인화 옵션은 복수의 오디오 신호들 중 사용자가 선호하는 오디오 신호를 선택하기 위해 적용될 수 있다. 개인화 옵션은 계산량을 줄이기 위하여 단계 116에서도 수행될 수 있다.
도 2는 사용자의 음성 메시지를 포함하는 사용자 메시지와 오디오 신호를 매칭하는 방법의 일 실시 예를 나타낸다.
도 2의 매칭 방법은, 오디오 신호를 복수의 클래스로 다중 레이블(multi-label) 분류하는 방법에 기초한다. 각 클래스는 오디오 신호의 주제, 하위 주제 또는 정서이다. 오디오 신호는 하나의 클래스에만 한정되지 않고, 다양한 클래스로 분류될 수 있다. 예를 들어, 물 흐르는 소리를 포함하는 오디오 신호는 휴식, 진정, 실외, 물 등의 클래스로 분류될 수 있다. 상기 다중 레이블 분류는 미리 학습된 DNN에 따라 수행될 수 있다. 예를 들어, 오디오 신호로부터 추출된 오디오 특징이 DNN에 입력되면, 그 결과물인 DNN 출력에 따라, 오디오 신호의 다양한 클래스가 결정될 수 있다. 오디오 신호를 다중 레이블 방식에 따라 다양한 클래스로 분류함으로써, 오디오 신호를 보다 경제적으로 사용할 수 있고, 사용자 메시지와 더 잘 일치시킬 수 있다.
마찬가지로, 사용자 메시지에 포함된 음성 메시지도 클래스 목록으로 분류된다. 클래스에 따라 음성 메시지와 오디오 신호가 매칭된다. 상기 다양한 종류의 감정으로의 분류는 사용자의 음성, 또는 얼굴 이미지와 같이 이용 가능한 데이터에 컨볼루션 신경망(convolutional neural network, CNN)을 적용함으로써 구현될 수 있다.
단계 202에서, 사용자 메시지에 포함된 음성 메시지(voice message)의 오디오 특징(audio feature)이 추출된다.
단계 204에서, 추출된 음성 메시지의 오디오 특징에 따라, 음성 메시지가 다양한 클래스로 분류된다. 상기 분류는 추출된 음성 메시지의 오디오 특징을 DNN에 입력함으로써 생성되는 DNN의 출력에 기초한다. DNN의 출력에 따른 상기 클래스는 테마 및 감정에 따라 구분된다.
단계 206에서, 데이터베이스의 오디오 신호의 오디오 특징이 추출된다.
단계 208에서, 추출된 오디오 신호의 오디오 특징에 따라, 오디오 신호가 다양한 클래스로 분류된다. 단계 204와 같이, 상기 분류는 추출된 오디오 신호의 오디오 특징을 DNN에 입력함으로써 생성되는 DNN의 출력에 기초한다. DNN의 출력에 따른 상기 클래스는 테마 및 감정에 따라 구분된다.
단계 210에서, 단계 204의 음성 메시지의 클래스와 단계 208의 오디오 신호의 클래스가 비교된다.
단계 212에서, 클래스의 비교 결과에 따라, 음성 메시지에 대한 오디오 신호의 유사성 스코어가 결정된다. 그리고 유사성 스코어에 따라, 음성 메시지에 적합한 오디오 신호가 결정된다.
도 3은 사용자의 음성 메시지를 포함하는 사용자 메시지와 오디오 신호를 매칭하는 방법의 일 실시 예를 나타낸다.
도 3의 실시 예는 도 2의 실시 예와 다르게, 단계 204와 단계 208의 DNN을 통한 다중 레이블 분류가 생략된다. 따라서, 도 2의 실시 예와 같이 클래스가 비교되는 대신, 사용자 메시지의 음성 메시지의 오디오 특징과 오디오 신호의 오디오 특징이 직접 비교된다.
단계 302에서, 사용자 메시지에 포함된 음성 메시지의 오디오 특징이 추출된다.
단계 304에서, 데이터 베이스의 오디오 신호의 오디오 특징이 추출된다.
단계 306에서, 단계 302의 음성 메시지의 오디오 특징과 단계 306의 오디오 신호의 오디오 특징이 비교된다.
단계 308에서, 오디오 특징의 비교 결과에 따라, 음성 메시지에 대한 오디오 신호의 유사성 스코어가 결정된다. 그리고 유사성 스코어에 따라, 음성 메시지에 적합한 오디오 신호가 결정된다.
도 4는 데이터베이스에 입력되는 오디오 신호(400)를 나타낸다.
도 1 내지 3의 데이터베이스는 입력 오디오 신호의 분석 결과를 저장한다. 오디오 신호에는 주석이 첨부될 수 있으며, 상기 주석은 단일 텍스트(402), 대화 텍스트(404), 이미지(406), 및 동영상(408) 등을 포함할 수 있다. 오디오 신호(400)는 상기 주석에 포함된 단일 텍스트(402), 대화 텍스트(404), 이미지(406), 및 동영상(408) 등과 연관성을 가진다. 따라서, 도 1의 단계 110 내지 114와 같이, 주석에 포함된 컨텐츠로부터 결정된 출력 벡터가 오디오 신호와 함께 저장될 수 있다. 그리고 도 1의 단계 116에서, 주석에 포함된 컨텐츠로부터 결정된 출력 벡터는 단계 108의 사용자 메시지의 출력 벡터와 비교된다. 그리고 도 1의 단계 118에서, 단계 116의 비교 결과에 따른, 데이터베이스에 저장된 최적의 출력 벡터에 대응되는 오디오 신호가 사용자 메시지와 매칭된다.
도 5는 전화 통화 중에 사용자 메시지와 오디오 신호를 매칭하는 방법이 적용되는 일 실시 예를 설명한다.
오디오 신호는 음성 메시지 또는 문자 메시지에 추가될 수 있다. 또는 오디오 신호는 전화 통화 중에 추가될 수 있다. 대화 중 발신자는 대화 주제와 일치하는 오디오 신호를 선택하고 수신자에게 오디오 신호를 전송할 수 있다.
도 5의 예를 들면, 단계 502에서 발신자는 “영화 보러 가자”는 음성 메시지를 통화 중에 수신자에게 보낼 수 있다. 그리고 단계 504에서, 발신자의 음성 메시지에 따라, 선택 가능한 후보 오디오 신호들이 모바일 디바이스에 디스플레이된다, 그리고 발신자의 입력에 의하여, 모바일 디바이스에 디스플레이된 후보 오디오 신호들 중 하나가 사용자의 음성 메시지와 함께 수신자에게 전송된다. 그리고 단계 506에서 수신자는 “영화 보러 가자”는 음성 메시지 후에 발신자가 선택한 오디오 신호를 들을 수 있다.
수신자는 오디오 신호에 대한 여러가지 옵션들 중 하나를 선택할 수 있다. 예를 들어, 수신자는 오디오 신호가 즉시 재생되도록 하는 옵션을 선택할 수 있다. 이 경우, 수신자는 통화 중에 전송된 오디오 신호를 발신자의 음성 메시지 후에 즉시 들을 수 있다. 또는 수신자는 오디오 신호가 수신자의 선택에 따라 재생되도록 하는 옵션을 선택할 수 있다. 이 경우, 발신자가 오디오 신호의 재생을 수락하면 오디오 신호가 재생될 수 있다. 또한 수신자는 일부 오디오 신호의 자동 재생은 허용하고, 다른 일부 오디오 신호는 수신자의 수락이 있을 경우에만 재생되도록 하는 옵션을 선택할 수 있다. 예를 들어, 부정적인 감정의 오디오 신호 또는 너무 다이내믹한 오디오 신호는 수신자의 수락이 있을 경우에만 재생되도록 설정될 수 있다. 상기 수신자에게 부여되는 옵션들은 전화 통화 중 전송되는 음성 메시지의 오디오 신호뿐만 아니라, 문자 메시지나 이미지 메시지의 오디오 신호에도 적용될 수 있다.
도 6은 모바일 디바이스에 디스플레이된 선택 가능한 후보 오디오 신호들 중 하나를 선택하는 방법의 일 실시예를 나타낸다.
도 6에 따르면, 발신자 메시지는 “수영장에 가자”는 음성 메시지(602)를 포함한다. 이 때, 발신자 디바이스(600)는 음성 메시지(602) 후에 연결되는 후보 오디오 신호들을 디스플레이한다. 상기 후보 오디오 신호들은 하기 2개의 옵션에 따라 결정된다. 도 6의 발신자 디바이스(600)는 모바일 디바이스인 것으로 묘사되었지만, 발신자 디바이스(600)는 디스플레이가 포함된 다른 전자기기일 수 있다.
표준 옵션(604)은 간단한 드롭 다운 메뉴에 소정의 오디오 신호들을 제공한다. 상기 소정의 오디오 신호들은 음성 메시지(602)와 관계없이 제공될 수 있다. 그리고 ASR 매칭 옵션(606)은 음성 메시지(602)의 내용에 적응적으로 결정된 오디오 신호를 제공한다. 예를 들어, 음성 메시지(602)가 수영과 같은 야외 활동과 관련이 있으므로, 폭포 소리와 같은 수영과 관련된 오디오 신호가 제공될 수 있다. 상기 ASR 매칭 옵션(606)에 따른 오디오 신호는 연관 이미지와 함께 제공될 수 있다. 사용자는 드롭 다운 메뉴의 표준 옵션(604) 및 ASR 매칭 옵션(606)에 따라 제공된 후보 오디오 신호들 중 하나를 수동으로 선택할 수 있다.
도 7은 수신자 디바이스에서 발신자 메시지에 첨부된 오디오 신호을 처리하는 방법의 일 실시예를 설명한다.
도 7의 제1 실시 예(700)에 따르면, 발신자 메시지에 포함된 음성 메시지가 재생된 후, 오디오 신호가 재생된다. 도 7의 제2 실시 예(702)에 따르면, 수신자 디바이스의 스크린이 잠금 상태일 때, 발신자 메시지의 오디오 신호가 발신자 메시지의 도착 알람으로 사용된다. 도 7의 제3 실시 예(704)에 따르면, 발신자 메시지에 포함된 텍스트와 이미지가 표시되면서, 오디오 신호가 재생된다. 그리고 도 7의 제4 실시 예(706)에 따르면, 수신자 디바이스의 스크린이 잠금 상태일 때, 발신자 메시지에 포함된 텍스트의 일부가 스크린에 표시되면서, 발신자 메시지의 오디오 신호가 발신자 메시지의 도착 알람으로 사용된다.
제1 실시 예(700) 내지 제4 실시 예(706)의 오디오 신호는 발신자에 의하여 선택될 수 있다. 또는 상기 오디오 신호는 발신자 메시지에 적응적으로 결정된 후보 오디오 신호들 중 선택될 수 있다. 또는 상기 오디오 신호는, 발신자와 관계없이, 발신자 메시지의 컨텐츠 및 감정의 분석에 기초하여 수신자 디바이스에서 결정될 수 있다.
도 8은 사용자 메시지의 오디오 신호가 재생되는 IoT 가전 디바이스의 일 실시 예를 설명한다.
IoT 가전 디바이스는 사용자 메시지와 함께 오디오 신호를 재생할 수 있다. 제1 실시 예(800)는 IoT 냉장고의 캘린더에 입력된 알람과 함께 제공되는 오디오 신호를 나타낸다. 사용자는 캘린더 어플리케이션에 특정한 이벤트를 입력할 수 있다. 그리고 사용자는 특정한 이벤트의 알람이 IoT 냉장고에 의하여 통지되도록 설정할 수 있다. 제1 실시 예(800)에 따르면, 일요일 오전 9시에 강아지에게 먹이를 주는 이벤트가 IoT 냉장고에 입력되어 있으며, 상기 이벤트에 포함된 텍스트 메시지에 대응되는 강아지 소리가 오디오 신호로 결정된다. 따라서, 일요일 오전 9시에 강아지 소리와 함께, 상기 이벤트 표시가 IoT 냉장고의 디스플레이에 도시될 수 있다.
제2 실시 예(802)는 IoT TV가 다른 IoT 가전의 태스크의 동작 상태를 알리는 오디오 신호를 나타낸다. 사용자는 로봇 청소기에게 집안 바닥의 청소를 지시할 수 있다. 로봇 청소기의 청소가 완료되면, 로봇 청소기는 사용자가 보고 있는 IoT TV에 청소 완료 메시지를 전송할 수 있다. 그리고, 로봇 청소기 또는 IoT TV에 의하여 선택된 청소 완료 메시지에 대한 오디오 신호가 IoT TV에서 재생된다.
제1 실시 예(800) 및 제2 실시 예(802)는 예시에 불과하며, IoT 가전 디바이스에서 표시 또는 재생되는 다양한 메시지에 대한 오디오 신호가 메시지에 적응적으로 결정될 수 있다.
도 5 내지 8에서 메시지에 대응되는 오디오 신호는, 도 1 내지 3의 메시지와 오디오 신호를 매칭하는 방법에 따라, 메시지에 적응적으로 결정될 수 있다.
도 9는 사용자 메시지와 오디오 신호의 매칭 방법을 수행하는 데이터 처리 장치(900)의 일 실시 예를 나타낸다.
도 9를 참조하면, 일 실시예에 따른 데이터 처리 장치 (900)는 프로세서(902) 및 메모리(904)를 포함할 수 있다.
일 실시예에 따른 프로세서(902)는 데이터 처리 장치 (900)를 전반적으로 제어할 수 있다. 일 실시예에 따른 프로세서(902)는 메모리(904)에 저장되는 하나 이상의 프로그램들을 실행할 수 있다.
일 실시예에 따른 메모리(904)는 데이터 처리 장치(900)를 구동하고 제어하기 위한 다양한 데이터, 프로그램 또는 어플리케이션을 저장할 수 있다. 메모리(904)에 저장되는 프로그램은 하나 이상의 인스트럭션들을 포함할 수 있다. 메모리(904)에 저장된 프로그램(하나 이상의 인스트럭션들) 또는 어플리케이션은 프로세서(902)에 의해 실행될 수 있다.
프로세서(902)에 의하여, 텍스트, 이미지, 비디오, 음성 또는 이들의 조합을 포함하는 사용자 메시지가 획득될 수 있다.
일 실시 예에 따르면, 프로세서(902)에 의하여, 사용자 메시지보다 이전에 사용자에게 수신된 이전 메시지가 획득될 수 있다. 사용자 메시지는 이전 메시지에 대한 응답으로 작성되는 바, 이전 메시지를 분석하여, 사용자 메시지의 컨텍스트가 분석될 수 있다.
일 실시 예에 따르면, 프로세서(902)에 의하여, 사용자 메시지에 이미지 또는 비디오가 포함된 경우, 사용자 메시지의 이미지 또는 비디오로부터 사용자 메시지의 이미지 캡션 텍스트가 결정될 수 있다.
일 실시 예에 따르면, 사용자 메시지에 비디오가 포함된 경우, 소정의 비디오 프레임 단위마다 비디오로부터 복수의 대표 프레임들이 추출될 수 있다. 그리고 상기 복수의 대표 프레임으로부터 사용자 메시지의 이미지 캡션 텍스트가 결정될 수 있다.
일 실시 예에 따르면, 사용자 메시지에 음성이 포함된 경우, 사용자 메시지의 음성이 자동 음성 인식에 따라 음성 텍스트로 변환될 수 있다.
일 실시 예에 따르면, 음성 텍스트를 포함한 사용자 메시지의 텍스트의 길이가 소정의 길이 이상일 때, 상기 사용자 메시지의 텍스트가 소정의 길이 이하로 요약될 수 있다.
프로세서(902)에 의하여, 사용자 메시지로부터 DNN에 입력될 입력 벡터가 결정될 수 있다. 사용자 메시지에 추가적으로 이전 메시지로부터 DNN에 입력될 입력 벡터가 결정될 수 있다.
일 실시 예에 따르면, 문장 파트, 이미지 캡션 파트, 컨텍스트 문장 파트, 컨텍스트 이미지 캡션 파트 중 적어도 하나로 구성된다.
일 실시 예에 따르면, 문장 파트는 사용자 메시지의 텍스트가 요약된 문장 텍스트로 구성된다. 만약 사용자 메시지가 텍스트를 포함하지 않고, 이미지 또는 비디오를 포함할 때, 문장 파트는 이미지 캡션 텍스트로 구성될 수 있다.
일 실시 예에 따르면, 이미지 캡션 파트는 상기 사용자 메시지의 이미지 또는 비디오를 설명하는 이미지 캡션 텍스트로 구성된다. 사용자 메시지가 이미지 또는 비디오를 포함하지 않고, 텍스트를 포함할 때, 이미지 캡션 파트는 문장 텍스트로 구성될 수 있다.
일 실시 예에 따르면, 컨텍스트 문장 파트는 상기 사용자 메시지보다 이전에 사용자에게 수신된 이전 메시지의 텍스트가 요약된 컨텍스트 문장 텍스트로 구성된다. 사용자 메시지에 대한 이전 메시지가 없을 때, 컨텍스트 문장 파트는 사용자 메시지의 문장 텍스트 또는 이미지 캡션 텍스트로 구성될 수 있다. 이전 메시지가 텍스트를 포함하지 않고, 컨텍스트 문장 파트는 이미지 또는 비디오를 포함할 때, 컨텍스트 이미지 캡션 텍스트로 구성될 수 있다.
일 실시 예에 따르면, 컨텍스트 이미지 캡션 파트는 이전 메시지의 이미지 또는 비디오를 설명하는 컨텍스트 이미지 캡션 텍스트로 구성된다. 사용자 메시지에 대한 이전 메시지가 없을 때, 컨텍스트 이미지 캡션 파트는 사용자 메시지의 문장 텍스트 또는 이미지 캡션 텍스트로 구성될 수 있다. 이전 메시지가 이미지 또는 비디오를 포함하지 않고, 텍스트를 포함할 때, 컨텍스트 이미지 캡션 파트는 컨텍스트 문장 텍스트로 구성될 수 있다.
프로세서(902)에 의하여, DNN에 입력 벡터가 입력됨으로써, DNN으로부터 사용자 메시지의 출력 벡터가 획득될 수 있다.
프로세서(902)에 의하여, 사용자 메시지의 출력 벡터가 데이터 베이스에 저장된 오디오 신호의 출력 벡터와 비교됨으로써, 사용자 메시지의 출력 벡터와 데이터베이스의 복수의 오디오 신호들의 출력 벡터들 간의 유사성 스코어가 결정된다. 상기 데이터베이스는 오디오 신호의 분석 정보에 따른 입력 벡터를 상기 DNN에 입력하여 생성된 출력 벡터를 포함한다. 그리고 상기 분석 정보는 오디오 신호의 주파수 특성 및 오디오 신호와 연결된 텍스트, 이미지, 동영상, 음성 또는 이들의 조합에 대한 분석 결과에 기초하여 결정될 수 있다.
프로세서(902)에 의하여, 상기 유사성 스코어에 기초하여, 데이터베이스의 복수의 오디오 신호들 중 사용자 메시지의 오디오 신호가 결정된다.
일 실시 예에 따르면, 프로세서(902)에 의하여, 유사성 스코어가 높은 복수의 후보 오디오 신호들 중 사용자의 선호도에 따라 상기 사용자 메시지의 오디오 신호가 결정될 수 있다.
도 9의 데이터 처리 장치(900)에는 도 1 내지 8에서 설명된 사용자 메시지와 오디오 신호의 매칭 방법에 관한 기술적 특징이 적용될 수 있다.
도 10은 사용자 메시지와 오디오 신호를 매칭하는 데이터 처리 방법(1000)의 일 실시 예를 나타낸다.
단계 1002에서, 텍스트, 이미지, 비디오, 음성 또는 이들의 조합을 포함하는 사용자 메시지가 획득된다. 또한 사용자 메시지보다 이전에 사용자에게 수신된 이전 메시지가 획득될 수 있다.
일 실시 예에 따르면, 사용자 메시지에 이미지 또는 비디오가 포함된 경우, 사용자 메시지의 이미지 또는 비디오로부터 사용자 메시지의 이미지 캡션 텍스트가 결정될 수 있다. 또한 사용자 메시지에 비디오가 포함된 경우, 소정의 비디오 프레임 단위마다 비디오로부터 복수의 대표 프레임들이 추출될 수 있다. 그리고 상기 복수의 대표 프레임으로부터 사용자 메시지의 이미지 캡션 텍스트가 결정될 수 있다.
일 실시 예에 따르면, 사용자 메시지에 음성이 포함된 경우, 사용자 메시지의 음성이 자동 음성 인식에 따라 음성 텍스트로 변환될 수 있다. 음성 텍스트를 포함한 사용자 메시지의 텍스트의 길이가 소정의 길이 이상일 때, 상기 사용자 메시지의 텍스트가 소정의 길이 이하로 요약될 수 있다.
단계 1004에서, 사용자 메시지로부터 DNN에 입력될 입력 벡터가 결정될 수 있다. 사용자 메시지에 추가적으로 이전 메시지로부터 DNN에 입력될 입력 벡터가 결정될 수 있다.
단계 1006에서, DNN에 입력 벡터가 입력됨으로써, DNN으로부터 사용자 메시지의 출력 벡터가 획득될 수 있다.
단계 1008에서, 사용자 메시지의 출력 벡터가 데이터 베이스에 저장된 오디오 신호의 출력 벡터와 비교됨으로써, 사용자 메시지의 출력 벡터와 데이터베이스의 복수의 오디오 신호들의 출력 벡터들 간의 유사성 스코어가 결정된다.
단계 1010에서, 상기 유사성 스코어에 기초하여, 데이터베이스의 복수의 오디오 신호들 중 사용자 메시지의 오디오 신호가 결정된다. 일 실시 예에 따르면, 유사성 스코어가 높은 복수의 후보 오디오 신호들 중 사용자의 선호도에 따라 상기 사용자 메시지의 오디오 신호가 결정될 수 있다.
도 10의 데이터 처리 방법(1000)에는, 도 9의 데이터 처리 장치(900)의 기술적 특징이 적용될 수 있다. 도 10의 데이터 처리 방법(1000)의 각 단계는 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하다. 또한 도 10의 데이터 처리 방법(1000)의 각 단계는 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.
본 발명은 특정한 최상의 실시 예와 관련하여 설명되었지만, 이외에 본 발명에 대체, 변형 및 수정이 적용된 발명들은 전술한 설명에 비추어 당업자에게 명백할 것이다. 즉, 청구범위는 이러한 모든 대체, 변형 및 수정된 발명을 포함하도록 해석한다. 그러므로 이 명세서 및 도면에서 설명한 모든 내용은 예시적이고 비제한적인 의미로 해석해야 한다.

Claims (15)

  1. 텍스트, 이미지, 비디오, 음성 또는 이들의 조합을 포함하는 사용자 메시지를 획득하는 단계;
    상기 사용자 메시지로부터 DNN에 입력될 입력 벡터를 결정하는 단계;
    상기 DNN에 상기 입력 벡터가 입력됨으로써, 상기 DNN으로부터 상기 사용자 메시지의 출력 벡터를 획득하는 단계;
    상기 사용자 메시지의 출력 벡터를 데이터 베이스에 저장된 오디오 신호의 출력 벡터와 비교함으로써, 상기 사용자 메시지의 출력 벡터와 상기 데이터베이스의 복수의 오디오 신호들의 출력 벡터들 간의 유사성 스코어를 결정하는 단계;
    상기 유사성 스코어에 기초하여, 상기 데이터베이스의 복수의 오디오 신호들 중 상기 사용자 메시지의 오디오 신호를 결정하는 단계를 포함하는 데이터 처리 방법.
  2. 제1항에 있어서,
    상기 데이터 처리 방법은,
    상기 사용자 메시지에 이미지 또는 비디오가 포함된 경우, 상기 사용자 메시지의 이미지 또는 비디오로부터 상기 사용자 메시지의 이미지 캡션 텍스트를 결정하는 단계를 더 포함하는 데이터 처리 방법.
  3. 제2항에 있어서,
    상기 이미지 캡션 텍스트를 결정하는 단계는,
    상기 사용자 메시지에 비디오가 포함된 경우, 소정의 비디오 프레임 단위마다 상기 비디오로부터 복수의 대표 프레임들을 추출하는 단계;
    상기 복수의 대표 프레임으로부터 상기 사용자 메시지의 이미지 캡션 텍스트를 결정하는 단계를 더 포함하는 데이터 처리 방법.
  4. 제1항에 있어서,
    상기 데이터 처리 방법은,
    사용자 메시지에 음성이 포함된 경우, 사용자 메시지의 음성을 자동 음성 인식에 따라 음성 텍스트로 변환하는 단계를 더 포함하는 데이터 처리 방법.
  5. 제1항에 있어서,
    상기 데이터 처리 방법은,
    상기 사용자 메시지의 텍스트의 길이가 소정의 길이 이상일 때, 상기 사용자 메시지의 텍스트를 소정의 길이 이하로 요약하는 단계를 더 포함하는 데이터 처리 방법.
  6. 제1항에 있어서,
    상기 데이터 처리 방법은,
    상기 사용자 메시지보다 이전에 사용자에게 수신된 이전 메시지를 획득하는 단계를 더 포함하고,
    상기 입력 벡터를 결정하는 단계는,
    상기 사용자 메시지 및 상기 이전 메시지로부터 DNN에 입력될 입력 벡터를 결정하는 것을 특징으로 하는 데이터 처리 방법.
  7. 제1항에 있어서,
    상기 입력 벡터는,
    문장 파트, 이미지 캡션 파트, 컨텍스트 문장 파트, 컨텍스트 이미지 캡션 파트 중 적어도 하나로 구성되고,
    상기 문장 파트는 상기 사용자 메시지의 텍스트가 요약된 문장 텍스트로 구성되고,
    상기 이미지 캡션 파트는 상기 사용자 메시지의 이미지 또는 비디오를 설명하는 이미지 캡션 텍스트로 구성되고,
    상기 컨텍스트 문장 파트는 상기 사용자 메시지보다 이전에 사용자에게 수신된 이전 메시지의 텍스트가 요약된 컨텍스트 문장 텍스트로 구성되고,
    상기 컨텍스트 이미지 캡션 파트는 상기 이전 메시지의 이미지 또는 비디오를 설명하는 컨텍스트 이미지 캡션 텍스트로 구성되는 것을 특징으로 하는 데이터 처리 방법.
  8. 제7항에 있어서,
    상기 문장 파트는,
    상기 사용자 메시지가 텍스트를 포함하지 않고, 이미지 또는 비디오를 포함할 때, 상기 이미지 캡션 텍스트로 구성되는 것을 특징으로 하는 데이터 처리 방법.
  9. 제7항에 있어서,
    상기 이미지 캡션 파트는,
    상기 사용자 메시지가 이미지 또는 비디오를 포함하지 않고, 텍스트를 포함할 때, 상기 문장 텍스트로 구성되는 것을 특징으로 하는 데이터 처리 방법.
  10. 제7항에 있어서,
    상기 컨텍스트 문장 파트는,
    상기 사용자 메시지에 대한 이전 메시지가 없을 때, 상기 사용자 메시지의 문장 텍스트 또는 이미지 캡션 텍스트로 구성되고,
    상기 이전 메시지가 텍스트를 포함하지 않고, 이미지 또는 비디오를 포함할 때, 상기 컨텍스트 이미지 캡션 텍스트로 구성되는 것을 특징으로 하는 데이터 처리 방법.
  11. 제7항에 있어서,
    상기 컨텍스트 이미지 캡션 파트는,
    상기 사용자 메시지에 대한 이전 메시지가 없을 때, 상기 사용자 메시지의 문장 텍스트 또는 이미지 캡션 텍스트로 구성되고,
    상기 이전 메시지가 이미지 또는 비디오를 포함하지 않고, 텍스트를 포함할 때, 상기 컨텍스트 문장 텍스트로 구성되는 것을 특징으로 하는 데이터 처리 방법.
  12. 제1항에 있어서,
    상기 데이터베이스는,
    오디오 신호의 분석 정보에 따른 입력 벡터를 상기 DNN에 입력하여 생성된 출력 벡터를 포함하고,
    상기 분석 정보는,
    상기 오디오 신호의 주파수 특성 및 상기 오디오 신호와 연결된 텍스트, 이미지, 동영상, 음성 또는 이들의 조합에 대한 분석 결과에 기초하여 결정되는 것을 특징으로 하는 데이터 처리 방법.
  13. 제1항에 있어서,
    상기 사용자 메시지의 오디오 신호를 결정하는 단계는,
    상기 유사성 스코어가 높은 복수의 후보 오디오 신호들 중 사용자의 선호도에 따라 상기 사용자 메시지의 오디오 신호를 결정하는 것을 특징으로 하는 데이터 처리 방법.
  14. 제1항의 데이터 처리 방법의 각 단계가 구현된 명령을 저장하는 메모리 디바이스; 및
    상기 메모리 디바이스에 저장된 명령을 수행하는 프로세서로 구성된 데이터 처리 장치.
  15. 제1항의 데이터 처리 방법의 각 단계가 구현된 명령을 포함하는 컴퓨터 프로그램.
KR1020200015138A 2020-02-07 2020-02-07 오디오 신호 제공 방법 및 장치 KR20210101374A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200015138A KR20210101374A (ko) 2020-02-07 2020-02-07 오디오 신호 제공 방법 및 장치
PCT/KR2021/001170 WO2021157957A1 (ko) 2020-02-07 2021-01-28 오디오 신호 제공 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200015138A KR20210101374A (ko) 2020-02-07 2020-02-07 오디오 신호 제공 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20210101374A true KR20210101374A (ko) 2021-08-19

Family

ID=77200201

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200015138A KR20210101374A (ko) 2020-02-07 2020-02-07 오디오 신호 제공 방법 및 장치

Country Status (2)

Country Link
KR (1) KR20210101374A (ko)
WO (1) WO2021157957A1 (ko)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170100175A (ko) * 2016-02-25 2017-09-04 삼성전자주식회사 전자 장치 및 전자 장치의 동작 방법
US10558750B2 (en) * 2016-11-18 2020-02-11 Salesforce.Com, Inc. Spatial attention model for image captioning
KR102232642B1 (ko) * 2018-05-03 2021-03-26 주식회사 케이티 스토리 컨텐츠에 대한 음향 효과를 제공하는 미디어 재생 장치 및 음성 인식 서버
US11715485B2 (en) * 2019-05-17 2023-08-01 Lg Electronics Inc. Artificial intelligence apparatus for converting text and speech in consideration of style and method for the same
KR20190100095A (ko) * 2019-08-08 2019-08-28 엘지전자 주식회사 음성 처리 방법 및 음성 처리 장치

Also Published As

Publication number Publication date
WO2021157957A1 (ko) 2021-08-12

Similar Documents

Publication Publication Date Title
US11500917B2 (en) Providing a summary of a multimedia document in a session
CN110634483B (zh) 人机交互方法、装置、电子设备及存储介质
US20200395008A1 (en) Personality-Based Conversational Agents and Pragmatic Model, and Related Interfaces and Commercial Models
US20230232078A1 (en) Method and data processing apparatus
US9569428B2 (en) Providing an electronic summary of source content
US20230103340A1 (en) Information generating method and apparatus, device, storage medium, and program product
US20120053935A1 (en) Speech recognition model
US20210280181A1 (en) Information processing apparatus, information processing method, and program
US20210065695A1 (en) Program storage medium, method, and apparatus for determining point at which trend of conversation changed
US20220277738A1 (en) Age-sensitive automatic speech recognition
JP2015212732A (ja) 音喩認識装置、及びプログラム
US8856010B2 (en) Apparatus and method for dialogue generation in response to received text
CN114464180A (zh) 一种智能设备及智能语音交互方法
US10575058B2 (en) Method and a system for enabling an user to consume a video or audio content understandable with respect to a preferred language
US20230326369A1 (en) Method and apparatus for generating sign language video, computer device, and storage medium
CN109714248B (zh) 一种数据处理方法及装置
CN109800326B (zh) 一种视频处理方法、装置、设备和存储介质
US20190384466A1 (en) Linking comments to segments of a media presentation
KR20210101374A (ko) 오디오 신호 제공 방법 및 장치
WO2019202804A1 (ja) 音声処理装置および音声処理方法
US11967338B2 (en) Systems and methods for a computerized interactive voice companion
CN115438222A (zh) 一种用于回答视频相关问题的情境感知方法,设备和系统
CN114424148B (zh) 电子设备及其用于提供手册的方法
WO2021167732A1 (en) Implementing automatic chatting during video displaying
JP7368335B2 (ja) ポジティブなオウム返し的応答文によって対話するプログラム、装置及び方法

Legal Events

Date Code Title Description
A201 Request for examination