KR102303917B1 - 악센트 번역 - Google Patents

악센트 번역 Download PDF

Info

Publication number
KR102303917B1
KR102303917B1 KR1020197021381A KR20197021381A KR102303917B1 KR 102303917 B1 KR102303917 B1 KR 102303917B1 KR 1020197021381 A KR1020197021381 A KR 1020197021381A KR 20197021381 A KR20197021381 A KR 20197021381A KR 102303917 B1 KR102303917 B1 KR 102303917B1
Authority
KR
South Korea
Prior art keywords
accent
audio
characteristic
sample
input
Prior art date
Application number
KR1020197021381A
Other languages
English (en)
Other versions
KR20190120176A (ko
Inventor
레오 파커 디락
파비안 모에르첸
에도 리버티
Original Assignee
아마존 테크놀로지스, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아마존 테크놀로지스, 인크. filed Critical 아마존 테크놀로지스, 인크.
Publication of KR20190120176A publication Critical patent/KR20190120176A/ko
Application granted granted Critical
Publication of KR102303917B1 publication Critical patent/KR102303917B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Abstract

악센트 번역을 위한 기법이 본 명세서에 기재된다. 복수의 오디오 샘플이 수신될 수 있고, 복수의 오디오 샘플의 각각의 오디오 샘플이 복수의 악센트 중 적어도 하나씩과 연관될 수 있다. 복수의 악센트의 적어도 제1 악센트와 연관된 오디오 샘플은 복수의 악센트의 적어도 하나의 타 악센트와 연관된 오디오 샘플에 비교될 수 있다. 제1 악센트와 제2 악센트 간 번역 모델이 생성될 수 있다. 제1 음성 언어의 입력 오디오 부분은 수신될 수 있다. 입력 오디오 부분이 제1 악센트와 실질적으로 연관되는지 여부를 결정할 수 있고, 그럴 경우, 제1 음성 언어의 제2 악센트와 실질적으로 연관된 출력 오디오 부분이 번역 모델을 적어도 부분적으로 기초로 하여 출력될 수 있다.

Description

악센트 번역
관련 출원의 교차 참조
본 출원은 그 전체가 본 명세서에 참조로서 포함되는 2016년 12월 21일자 미국 특허 출원 번호 15/387,038의 우선권을 주장한다.
기술, 교통, 교육 및 경제 같은 분야에서 많은 진보가 상이한 도시, 지역, 국가, 및 세계의 그 밖의 다른 부분에서 온 사람들 간 언어적 소통의 증가에 기여했다. 많은 경우에서, 사람들은 동일한 언어로 말할 때에도, 예를 들어, 상이한 화자가 사용할 수 있는 다양한 상이한 악센트들 때문에, 서로를 이해하는 데 어려움을 가질 수 있다. 일부 경우, 공통 지리적 영역에 거주하거나 일하거나, 그 밖의 다른 이유로 연관된 사람들이 공통 악센트를 가질 수 있다. 덧붙여, 일부 예시에서, 제2언어(가령, 비-모국어)를 배우는 사람들은 종종 모국어와 연관된 악센트를 이용해 제2언어를 말하는 것을 배울 수 있다. 예를 들어, 독일에 거주하고 주로 독일어를 말하는 사람은 종종 독일어 악센트로 영어를 말하는 것을 배울 수 있다.
첨부된 도면과 함께 읽을 때 이하의 상세한 설명이 더 잘 이해될 수 있다. 설명 목적으로, 도면에서 본 발명의 다양한 양태의 실시예가 도시되어 있지만, 본 발명은 개시된 특정 방법 및 기구에 한정되지 않는다.
도 1은 본 발명에 따라 사용될 수 있는 예시적 악센트 샘플 세트를 도시한다.
도 2는 본 발명에 따라 사용될 수 있는 예시적 악센트 오디오 특성 분석을 도시한다.
도 3은 본 발명에 따라 사용될 수 있는 예시적 악센트 샘플 세트 비교를 도시한다.
도 4는 본 발명에 따라 사용될 수 있는 조합된 악센트에 대한 예시적 오디오 특성을 도시한다.
도 5는 본 발명에 따라 사용될 수 있는 예시적 조합된 악센트 비교를 도시한다.
도 6은 본 발명에 따라 사용될 수 있는 예시적 악센트 번역 아키텍처를 도시하는 흐름도이다.
도 7은 본 발명에 따라 사용될 수 있는 제1 예시적 악센트 번역을 도시한다.
도 8은 본 발명에 따라 사용될 수 있는 제2 예시적 악센트 번역을 도시한다.
도 9는 본 발명에 따라 사용될 수 있는 예시적 악센트 번역 프로세스를 도시한다.
도 10은 본 발명에 따라 사용될 수 있는 데이터를 전송 및 제공하기 위한 예시적 시스템을 도시한다.
도 11은 본 발명에 따라 사용될 수 있는 예시적 컴퓨팅 시스템을 도시한다.
악센트 번역을 위한 기법이 본 명세서에 기재된다. 하나의 실시예에서, 복수의 오디오 샘플이 악센트 번역 시스템에 의해 수집될 수 있다. 하나의 실시예에서, 오디오 샘플이 다양한 소스, 가령, 전화 통화 및 그 밖의 다른 음성 통신 세션으로부터의 오디오, 음성-활성화식 컴퓨팅 디바이스로의 오디오, 녹음된 미디어(가령, 영화, 텔레비전 프로그램, 웹 및 그 밖의 다른 방송 등)로부터의 오디오, 및 그 밖의 다른 소스에 의해 수집될 수 있다. 수집된 오디오 샘플은 다양한 악센트로 말해진 스피치(speech)를 포함할 수 있다. 하나의 실시예에서, 각각의 수집된 오디오 샘플이 복수의 악센트 샘플 세트 중 적어도 하나와 연관되는 것으로 분류될 수 있다. 예를 들어, 독일 악센트로 말해진 스피치를 포함하는 제1 오디오 샘플이 독일 악센트 샘플 세트와 연관될 수 있고, 영국 악센트로 말해진 스피치를 포함하는 제2 오디오 샘플이 영국 악센트 샘플 세트와 연관될 수 있으며, 미국 남부 악센트로 말해진 스피치를 포함하는 제3 오디오 샘플이 미국 남부 악센트 샘플 세트와 연관될 수 있고, 이와 같이 계속될 수 있다.
하나의 실시예에서, 악센트 번역 시스템은 수집된 오디오 샘플을 이용하여, 스피치를 하나의 악센트에서 다른 한 악센트로 번역하기 위한 하나 이상의 악센트 번역 모델을 생성할 수 있다. 구체적으로, 하나의 실시예에서, 제1 악센트 번역 모델이 제1 음성 언어의 제1 악센트로부터 제1 음성 언어의 제2 악센트로 스피치를 번역하기 위해 생성될 수 있다. 예를 들어, 제1 악센트 번역 모델은 독일 악센트를 갖는 음성 영어를 영국 악센트를 갖는 음성 영어로 번역하는 데 사용될 수 있다. 하나의 실시예에서, 제1 악센트 번역 모델이 제1 악센트에 대응하는 오디오 샘플 세트 내 오디오 샘플을 제2 악센트에 대응하는 오디오 샘플 세트 내 오디오 샘플에 비교함으로써 생성될 수 있다. 예를 들어, 제1 악센트 번역 모델은 독일 악센트 오디오 샘플 세트 내 오디오 샘플을 영국 악센트 오디오 샘플 세트 내 오디오 샘플에 비교함으로써 생성될 수 있다. 하나의 실시예에서, 이들 상이한 오디오 샘플 세트들의 서로에 대한 비교가 사용되어 샘플 세트들 간 다양한 오디오 특성의 차이, 가령, 피치, 톤, 멜로디, 강세, 및 그 밖의 다른 오디오 특성을 결정할 수 있다. 덧붙여, 하나의 실시예에서, 제1 악센트 번역 모델은 제1 악센트 샘플 세트와 연관된 오디오 특성이 제2 악센트 오디오 샘플 세트의 오디오 특성과 더 밀접하게 닮도록 조절되도록 오디오를 번역하기 위한 명령을 포함할 수 있다. 하나의 실시예에서, 악센트 번역 시스템은 새로운 오디오 샘플을 지속적으로 및/또는 반복적으로 수신하고 예를 들어, 기계 학습 또는 그 밖의 다른 알고리즘 정제 기법을 이용함으로써 이들 새 오디오 샘플을 이용해 악센트 번역 모델을 업데이트 및 정제할 수 있다. 덧붙여, 하나의 실시예에서, 악센트 번역 모델의 생성, 업데이트, 및/또는 정제가, 많은 양의 입력 데이터를 효율적으로 파싱(parse) 및 분석할 수 있는 하나 이상의 인공 신경망 또는 그 밖의 다른 시스템에 의해, 적어도 부분적으로 수행될 수 있다.
덧붙여, 하나의 실시예에서, 악센트 번역 시스템은 수집된 오디오 샘플을 이용해 하나 이상의 중립 및/또는 조합된 악센트를 결정할 수 있다. 구체적으로, 하나의 실시예에서, 중립 악센트는 복수의 상이한 악센트에 대한 오디오 샘플 세트들을 비교하고 이들의 오디오 특성을 조합함으로써, 가령, 상이한 샘플 세트에 걸쳐 오디오 특정 값들의 평균 또는 가중 평균을 계산하고, 오디오 특성 값을 평활화 및/또는 정규화하거나, 그 밖의 다른 방식으로 오디오 특성을 조합함으로써, 결정될 수 있다. 대안적 실시예에서, 다양한 오디오 샘플이 악센트 번역 시스템으로 제공된 중립 오디오 샘플, 가령, 중립 악센트를 가진다고 인간에 의해 결정된 오디오 샘플로서 식별될 수 있다. 따라서 하나의 실시예에서, 또한 악센트 번역 모델은 스피치를 제1 악센트에서 하나 이상의 중립 및/또는 조합된 악센트로 번역하도록 형성될 수 있다.
하나의 실시예에서, 악센트 번역 모델은 입력 오디오를 제1 악센트에서 제2 악센트로 번역하도록 사용될 수 있다. 예를 들어, 하나의 실시예에서, 제1 파티와 제2 파티가 오디오 통신 세션, 가령, 전화 통화에 참여할 수 있다. 제1 파티 및 제2 파티는 동일한 언어를 말할 수 있지만, 제1 파티는 제1 악센트로 말하고, 제2 파티는 제2 악센트로 말할 수 있다. 하나의 실시예에서, 악센트 번역 시스템은 제1 파티는 제1 악센트로 말한다고 결정할 수 있으며 예를 들어, 스피치를 제1 악센트에서 중립 악센트로 번역하기 위한 각자의 악센트 번역 모델을 적용함으로써, 제1 파티의 스피치를 제1 악센트에서 중립 악센트로 번역할 수 있다. 하나의 실시예에서, 제1 파티는 자신이 제1 악센트로 말함을 악센트 번역 시스템에게 자발적으로 지시할 수 있다. 또한, 하나의 실시예에서, 악센트 번역 시스템은 제1 파티와 연관된 데이터, 가령, 전화번호, 제1 파티가 사용하는 전화기 또는 그 밖의 다른 오디오 캡처 디바이스에 대한 지리적 위치 정보, 제1 파티와 연관된 인터넷 프로토콜(IP) 주소, 및 그 밖의 다른 정보를 이용해 제1 파티가 제1 악센트로 말한다고 결정할 수 있다. 대안적 실시예에서, 제1 파티가 제1 악센트로 말한다고 결정하는 것에 추가로, 악센트 번역 시스템은, 예를 들어, 상이한 기법들 중 제1 파티의 악센트를 결정하기 위해 사용될 수 있는 것과 동일한 임의의 기법을 이용해, 제2 파티는 제2 악센트로 말한다고 결정할 수 있다. 그 후 악센트 번역 시스템은, 예를 들어, 스피치를 제1 악센트에서 제2 악센트로 번역하기 위한 각자의 악센트 번역 모델을 적용함으로써, 제1 파티의 스피치를 제1 악센트에서 제2 악센트로 번역할 수 있다.
도 1은 본 발명에 따라 사용될 수 있는 예시적 악센트 샘플 세트를 도시하는 다이어그램이다. 도 1에 도시된 바와 같이, 악센트 번역 시스템(130)은 다양한 오디오 소스(110)로부터 오디오 샘플(90A-90L)(오디오 샘플(90)이라 지칭됨)을 수신한다. 하나의 실시예에서, 오디오 소스(110)는 음성 통신 디바이스(가령, 전화기, 컴퓨터 등)(110A), 음성-활성화 디바이스(110B), 녹음된 미디어(110C)(가령, 영화, 텔레비전 프로그램, 웹 및 그 밖의 다른 방송 등), 및 그 밖의 다른 오디오 소스(110D)를 포함한다. 하나의 실시예에서, 오디오 샘플(90)은 다양한 사람이 말한 단어의 오디오를 포함하는 오디오 데이터의 샘플을 포함할 수 있다. 하나의 실시예에서, 악센트 번역 시스템(130)은 각자의 악센트와 연관된 복수의 악센트 샘플 세트(131-134)를 유지한다. 하나의 특정 예시에서, 제1 악센트 샘플 세트(131)는 독일 악센트와 연관될 수 있으며, 제2 악센트 샘플 세트(131)는 영국 악센트와 연관될 수 있고, 제3 악센트 샘플 세트(133)는 미국 남부 악센트와 연관될 수 있으며, 제4 악센트 샘플 세트(134)는 미국 북동부 악센트와 연관될 수 있다. 임의의 개수의 상이한 악센트 세트가 임의의 개수의 상이한 악센트, 비제한적 예를 들면, 악센트와 연관된 상이한 이웃, 도시, 주, 지리적 또는 정치적 지역, 국가, 인종적 그룹 및 그 밖의 다른 사람 그룹에 대해 채용될 수 있다.
하나의 실시예에서, 악센트 번역 시스템(130)은 유입 오디오 샘플(90) 각각을 하나 이상의 샘플 세트(131-134)로 정렬할 수 있는 샘플 분류기(sample sorter)(140)를 포함한다. 도 1의 예시에서, 오디오 샘플(90A, 90E 및 90I)이 제1 악센트 샘플 세트(131)로 정렬되고, 오디오 샘플(90B, 90F 및 90J)이 제2 악센트 샘플 세트(132)로 정렬되며, 오디오 샘플(90C, 90G 및 90K)이 제3 악센트 샘플 세트(133)로 정렬되고, 오디오 샘플(90D, 90H 및 90L)이 제4 악센트 샘플 세트(134)로 정렬된다. 하나의 실시예에서, 각각의 유입 오디오 샘플(90A-90L)이 각자 연관된 샘플 메타데이터(95A-95L)(샘플 메타데이터(95)라고 총체적으로 지칭됨)를 가질 수 있다. 하나의 실시예에서, 샘플 메타데이터(95)는 각각의 유입 오디오 샘플(90)을 하나 이상의 적절한 샘플 세트(131-134)로 할당하기 위해 샘플 분류기(140)에 의해 사용될 수 있는 정보를 포함할 수 있다. 하나의 실시예에서, 전화 통화로부터 캡처된 오디오 샘플(90)에 대해, 샘플 메타데이터(95)가 정보, 가령, 통화와 연관된 하나 이상의 전화 번호, 상기 통화를 만들기 위해 사용되는 하나 이상의 전화기 또는 그 밖의 다른 디바이스에 대한 지리적 위치 정보(가령, GPS(global positioning system) 좌표 등), 및 상기 통화와 연관된 그 밖의 다른 메타데이터를 포함할 수 있다. 예를 들어, 일부 경우, 미국 남부의 지역 번호를 갖는 전화 번호를 갖는 두 대의 전화기 간에 통화가 만들어지는 경우, 상기 통화로부터의 오디오 샘플이 미국 남부와 연관된 샘플 세트에 할당될 수 있다. 또 다른 예를 들면, 미국 남부의 GPS 좌표를 갖는 두 대의 전화기 간에 통화가 만들어지는 경우, 상기 통화로부터의 오디오 샘플이 미국 남부와 연관된 샘플 세트에 할당될 수 있다.
덧붙여, 하나의 실시예에서, 오디오 샘플(90)은 예를 들어, 인간이 디바이스에게 액션(가령, 음악을 재생, 날씨 리포트 제공, 질문에 대답 등)을 수행하도록 지시할 때 음성-활성화 디바이스(110B)로부터 캡처될 수 있고, 이러한 오디오 샘플(90)에 대한 샘플 메타데이터(95)는, 예를 들어, 음성-활성화 디바이스(110B)에 대한 지리적 위치 정보, 디바이스(110B)가 등록된 주소, 디바이스(110B)가 말할 때 설정될 수 있는 특정 악센트, 및 그 밖의 다른 메타데이터를 포함할 수 있다.
하나의 실시예에서, 음성 인식 분석이 하나 이상의 오디오 샘플(90) 내 음성 단어를 식별하는 데 사용될 수 있으며, 오디오 샘플(90)은 오디오 샘플 내 인식된 음성 단어를 적어도 부분적으로 기초로 하여 샘플 세트(131-134)에 할당될 수 있다. 하나의 실시예에서, 오디오 샘플(90)이 특정 악센트와 연관된 지리적, 사회적, 정치적, 스포츠, 엔터테인먼트, 또는 그 밖의 다른 특징을 참조 또는 이와 관련된 단어를 포함하는 경우, 일부 경우, 오디오 샘플(90)은 참조된 악센트와 연관된 샘플 세트에 할당될 수 있다. 예를 들어, 다양한 독일 도시(가령, Berlin, Hamburg, Munich 등)가 언급되는 오디오 녹음이 때때로 독일 악센트 세트에 할당될 수 있다. 또 다른 예를 들면, 많은 뉴욕 프로페셔널 스포츠 팀(가령, Yankees, Mets, Giants, Jets 등)이 언급되는 오디오 녹음이 때때로 뉴욕 악센트 세트에 할당될 수 있다.
또한, 하나의 실시예에서, 인간은 각자의 오디오 샘플(90)이 말해질 때 특정 악센트를 지시하는 샘플 메타데이터(95)를 자발적으로 제공할 수 있다. 예를 들어, 오디오 샘플(90)이 획득되는 전화 통화에 2명의 사람이 참여할 때, 인간 참여자가 각자의 악센트를 식별하는 정보를 자발적으로 제공할 수 있다. 덧붙여, 음성-활성화 디바이스(110B)에 명령어를 제공하는 인간이 또한 각자의 악센트를 식별하는 정보를 자발적으로 제공할 수 있다. 일부 예시에서, 인간에게 보상 또는 그 밖의 다른 보답 또는 인센티브가 제공되어, 오디오 샘플을 악센트 번역 시스템(130)에게 제공 및/또는 각자의 악센트를 자발적으로 식별할 수 있다.
하나의 실시예에서, 샘플 분류기(140)는 또한 샘플 메타데이터(95)를 이용해 각각의 오디오 샘플(90)에게 신뢰도 값을 할당할 수 있다. 신뢰도 값은 오디오 샘플(90)이 오디오 샘플(90)이 할당되는 샘플 세트에 대응하는 악센트와 실질적으로 상관된 음성 악센트를 갖는 오디오를 포함할 신뢰도를 나타낼 수 있다. 하나의 실시예에서, 특정 악센트를 갖는 스피치를 포함한다고 인간에 의해 식별된 오디오 샘플(90)에 가장 높은 신뢰도 값이 할당될 수 있다. 덧붙여, 하나의 실시예에서, 그 밖의 다른 유형의 샘플 메타데이터(95), 가령, 전화 번호의 지역 번호, GPS 좌표 또는 전화기 및 디바이스, 음성 인식 분석 및 그 밖의 다른 메타데이터에 대해 신뢰도 값이 할당될 수 있다.
도 2를 참조하며, 지금부터 예시적 악센트 오디오 특성 분석이 상세히 기재될 것이다. 구체적으로, 하나의 실시예에서, 각각의 악센트 샘플 세트(131-134) 내 오디오 샘플(90)이 분석되어 각자의 악센트와 연관된 다양한 오디오 특성을 식별할 수 있다. 구체적으로, 도 2에 도시된 바와 같이, 제1 악센트 오디오 특성(200A)은 제1 악센트 샘플 세트(131)과 관련되며, 제2 악센트 오디오 특성(200B)은 제2 악센트 샘플 세트(132)와 관련되고, 제3 악센트 오디오 특성(200C)은 제3 악센트 샘플 세트(133)와 관련되며, 제4 악센트 오디오 특성(200D)은 제4 악센트 샘플 세트(134)와 관련된다. 각각의 오디오 특성(200A-200D)은 각자의 피치 특성(201A-D), 톤 특성(202A-D), 강세 특성(203A-D), 멜로디 특성(204A-D), 및 그 밖의 다른 오디오 특성(205A-D)을 포함한다. 상기의 오디오 특성은 비제한적 예시이며 샘플 세트(131-134) 중 임의의 것 또는 전부가 분석되어 임의의 개수의 상기 또는 그 밖의 다른 오디오 특성을 획득할 수 있다.
하나의 실시예에서, 오디오 샘플(90)의 오디오 특성은 오디오 샘플(90)에 고속 푸리에 변환(FFT) 및/또는 그 밖의 다른 변환을 수행하고, 그 후 FFT 또는 그 밖의 다른 변환의 출력을 분석함으로써 결정될 수 있다. 덧붙여, 하나의 실시예에서, FFT 또는 그 밖의 다른 변환 출력의 분석은 시간과 관련된 오디오 샘플(90)의 주파수 및 진폭의 결정을 포함할 수 있다, 가령, 스펙트럼, 성문(voiceprint) 또는 그 밖의 다른 표현을 이용해 표현될 수 있다. 덧붙여, 하나의 실시예에서, FFT 출력은 MFCC(Mel-frequency cepstral coefficient) 또는 오디오 샘플(90)의 오디오 특성을 결정하는 데 또한 사용될 수 있는 사운드 파워 스펙트럼의 그 밖의 다른 표현을 생성하도록 사용될 수 있다.
하나의 실시예에서, 각자의 샘플 세트에 할당된 오디오 샘플의 오디오 특성을 조합함으로써 악센트에 대한 오디오 특성이 결정될 수 있다. 구체적으로, 하나의 실시예에서, 각자의 샘플 세트 내 오디오 샘플의 오디오 특성의 속성이 평균 내어져서 악센트에 대한 전체 오디오 특성을 생성할 수 있다. 대안 실시예에서, 오디오 특성의 속성의 가중 평균이, 가령, 오디오 샘플(90)의 신뢰도 값을 기초로, 계산될 수 있다. 구체적으로, 하나의 실시예에서, 더 높은 신뢰도 값(가령, 샘플이 할당된 악센트를 갖는 스피치를 포함할 더 높은 신뢰도)을 갖는 오디오 샘플(90)로부터의 오디오 특성의 속성이 더 낮은 신뢰도 값(가령, 샘플이 할당된 악센트를 갖는 스피치를 포함할 더 낮은 신뢰도)을 갖는 오디오 샘플(90)로부터의 오디오 특성의 속성보다 더 가중화될 수 있다. 덧붙여, 하나의 실시예에서, 다양한 데이터 평활화 및/또는 정규화 기법이 채용될 수 있다, 예를 들어, 에러이거나 결정된 임계값 또는 관계 밖에 있는 오디오 특성 가중치를 디스카운트하거나 여기에 더 낮은 가중치 또는 관계를 그 밖의 다른 데이터 샘플에 할당할 수 있다.
도 3을 참조하여, 지금부터 예시적 악센트 샘플 세트 비교가 상세히 기재될 것이다. 특히, 하나의 실시예에서, 상이한 악센트에 대응하는 상이한 오디오 샘플 세트가 서로 비교되어 스피치의 상이한 악센트들 간 번역을 위한 번역 모델을 생성할 수 있다. 하나의 실시예에서, 상이한 오디오 샘플 세트의 비교는 각각의 악센트의 상이한 오디오 특성의 서로에 대한 비교를 포함할 수 있다. 특히, 도 3에 도시된 바와 같이, 제1 악센트 샘플 세트(131)가 제2 악센트 샘플 세트에 비교되어 악센트 번역 모델(321 및 322)을 생성할 수 있다. 구체적으로, 악센트 번역 모델(321)은 스피치를 제1 악센트에서 제2 악센트로 번역하기 위한 모델이며, 악센트 번역 모델(322)은 스피치를 제2 악센트에서 제1 악센트로 번역하기 위한 모델이다. 예를 들어, 제1 악센트가 독일어이고 제2 악센트가 영어인 경우, 악센트 번역 모델(321)은 독일 악센트를 영국 악센트로의 번역을 가능하게 할 수 있으며, 악센트 번역 모델(322)은 영국 악센트에서 독일 악센트로의 번역을 가능하게 할 수 있다.
하나의 실시예에서, 샘플 세트(131 및 132)의 비교가 각자의 오디오 특성(200A 및 200B)의 비교를 포함할 수 있다. 예를 들어, 하나의 실시예에서, 오디오 특성(200A 및 200B)이 비교되어 제1 악센트 피치(201A)가 제2 악센트 피치(201B)와 어떻게 상이한지, 제1 악센트 톤(202A)이 제2 악센트 톤(202B)과 어떻게 상이한지, 제 악센트 강세(203A)가 제2 악센트 강세(203B)와 어떻게 상이한지, 제1 악센트 멜로디(204A)가 제2 악센트 멜로디(204B)와 어떻게 상이한지 등을 결정할 수 있다.
하나의 실시예에서, 그런 다음 악센트 번역 모델(321)은 오디오 특성(200B)과 더 밀접하게 닮도록 오디오 특성(200A)을 조절하기 위한 명령을 포함할 수 있다. 예를 들어, 하나의 실시예에서, 악센트 번역 모델(321)은 제2 악센트 피치(201B)와 더 밀접하게 닮도록 제1 악센트 피치(201A)를 조절하고, 제2 악센트 톤(202B)과 더 밀접하게 닮도록 제1 악센트 톤(202A)을 조절하며, 제2 악센트 강세(203B)와 더 밀접하게 닮도록 제1 악센트 강세(203A)를 조절하고, 제2 악센트 멜로디(204B)와 더 밀접하게 닮도록 제1 악센트 멜로디(204A)를 조절하기 위한 명령 등을 포함할 수 있다. 하나의 실시예에서, 이들 명령은 스피치의 특정 부분과 관련된 다양한 시점에서 다양한 주파수의 진폭을 조절하기 위한 명령을 포함할 수 있다. 예를 들어, 제1 악센트는 단어의 종료에서 더 높은 피치를 채용하는 경향이 있고, 제2 악센트는 단어의 시작에서 더 높은 피치를 채용하는 경향이 있는 시나리오를 고려할 수 있다. 이 시나리오에서, 악센트 번역 모델(321)은 스피치의 시작 또는 재개에 가까운 시점에서 소리를 더 높은 주파수로 편이시키고 스피치의 종료 또는 중단에 가까운 시점에서 소리를 더 낮은 주파수로 편이시키는 명령을 포함할 수 있다. 또 다른 예를 들면, 제1 악센트가 단어의 시작부분에 강세가 있는 경향이 있고, 제2 악센트가 단어의 종료부분에 강세가 있는 경향이 있는 시나리오를 고려할 수 있다. 이 시나리오에서, 악센트 번역 모델(321)은 스피치의 시작 또는 재개에 가까운 시점에서 진폭을 감소시키고 스피치의 종료 또는 중단에 가까운 시점에서 진폭을 증가시키는 명령을 포함할 수 있다.
하나의 실시예에서, 샘플 세트(131 및 132)의 오디오 샘플에 대해 음성 인식 분석이 수행되어, 제1 악센트 및 제2 악센트 각각에 대해 다양한 문자, 음운, 단어 및 그 밖의 다른 스피치의 단위에 대한 오디오 특성을 결정할 수 있다. 예를 들어, 제1 악센트를 갖는 화자는 특정 음운을 더 높은 피치를 갖고 말하는 경향이 있고, 제2 악센트를 갖는 화자는 동일한 음운을 더 낮은 피치를 갖고 말하는 경향이 있다고 결정될 수 있다. 일부 예시에서, 악센트 번역 모델(321)은 이 특정 음운이 검출될 때마다 피치를 감소시키는 명령을 포함할 수 있다. 또 다른 예를 들면, 제2 악센트를 갖는 화자는 특정 문자 조합에 강세를 두는 경향이 있고, 제1 악센트를 갖는 화자는 상기 문자 조합에 강세를 두지 않는 경향이 있다고 결정될 수 있다. 일부 예시에서, 악센트 번역 모델(321)은 진폭을 증가시키거나 그 밖의 다른 방식으로 이러한 특정 문자 조합에의 강세를 두는 것을 포함할 수 있다.
하나의 실시예에서, 악센트 번역 시스템(130)은 중립 악센트에 대해 다양한 오디오 특성을 결정할 수 있다. 하나의 실시예에서, 중립 악센트는 둘 이상의 타 악센트의 조합일 수 있으며, 일부 경우, 악센트 샘플 세트가 악센트 번역 시스템(130)에 의해 유지되는 상이한 악센트 각각의 조합일 수 있다. 도 4를 참조하여, 지금부터, 조합된 악센트에 대한 예시적 오디오 특성이 상세히 기재될 것이다. 특히, 도 4에 도시된 바와 같이, 조합된(가령, 중립) 악센트에 대해 오디오 특성(200N)이 결정된다. 도 4의 예시에서, 조합된 악센트 오디오 특성(200N)은 피치 특성(201N), 톤 특성(202N), 강세 특성(203N), 멜로디 특성(204N), 및 그 밖의 다른 특성(205N)을 포함한다. 하나의 실시예에서, 오디오 특성(200A-D)을 조합함으로써, 가령, 오디오 특성(200A-D)의 속성의 평균을 계산함으로써, 조합된 악센트 오디오 특성(200N)이 결정될 수 있다. 하나의 실시예에서, 오디오 특성(200A-D)의 가중된 평균이 사용되어, 예를 들어, 그 밖의 다른 소스 악센트가 아닌 다른 일부 소스 악센트와 더 밀접하게 닮는 조합된 악센트를 의도적으로 생성할 수 있다. 예를 들어, 사용자가 독일 악센트보다 영국 악센트와 더 밀접하게 닮은 조합된 악센트를 생성하기를 원하는 경우, 이는 독일 악센트 오디오 특성보다 영국 악센트 오디오 특성에 더 높은 가중치 값을 할당함으로써 이뤄질 수 있다.
대안적 실시예에서, 중립 악센트의 오디오 특성은 상이한 기법을 이용해 결정될 수 있다. 예를 들어, 일부 경우, 인간이 다양한 오디오 샘플을 중립 악센트를 가진다고 지정할 수 있으며, 이들 오디오 샘플이 중립 악센트 오디오 샘플 세트에 할당되고 분석되어 중립 악센트 오디오 특성을 결정할 수 있다.
도 5를 참조하여, 제1 악센트 오디오 특성(200A)이 조합된 악센트 오디오 특성(200N)에 비교되어 악센트 번역 모델(521 및 522)을 생성할 수 있는 실시예가 도시된다. 구체적으로, 악센트 번역 모델(521)은 스피치를 제1 악센트에서 조합된 악센트로 번역하기 위한 모델이며, 악센트 번역 모델(522)은 스피치를 조합된 악센트에서 제1 악센트로 번역하기 위한 모델이다. 하나의 실시예에서, 앞서, 가령, 도 3의 번역 모델(321 및 322)을 참조하여 상세히 기재된 다양한 번역 모델 생성 기법 중 임의의 것 또는 전부를 이용해, 악센트 모델(521 및 522)이 생성될 수 있다.
하나의 실시예에서, 악센트 번역 시스템(130)은 많은 양의 입력 데이터를 효율적으로 파싱 및 분석할 수 있는 하나 이상의 인공 신경망, 가령, LSTM(long short-term memory) 아키텍처 또는 그 밖의 다른 시스템을 포함한다. 하나의 실시예에서, 악센트 번역 시스템(130)은 새로운 오디오 샘플을 연속으로 및/또는 반복적으로 수신하고 이들 새로운 오디오 샘플을 이용해, 예를 들어, 기계 학습 또는 그 밖의 다른 연관된 기법을 이용함으로써, 악센트 번역 모델을 업데이트 및 정제할 수 있다.
도 6을 참조하여, 지금부터 예시적 악센트 번역 아키텍처가 기재될 것이다. 구체적으로, 하나의 실시예에서, 제1 파티 및 제2 파티가 예를 들어 제1 디바이스(611)와 제2 파티 디바이스(612) 간 오디오 통신 세션(601)에 참여할 수 있다. 하나의 실시예에서, 오디오 통신 세션(601)은 전화 통화일 수 있으며 디바이스(611 및 612)는 전화기 및/또는 전화-가능 컴퓨팅 디바이스일 수 있다. 오디오 통신 세션(601)은 전화 통화에 한정되지 않고 예를 들어, 전화 도는 셀방식 네트워크, 로컬 영역 네트워크(LAN), 및또는 광역 네트워크(WAN), 가령, 인터넷을 통해 데이터를 전송하기 위한 그 밖의 다른 유형의 오디오 통신, 가령, VoIP(Voice over Internet Protocol) 및 그 밖의 다른 음성 및/또는 오디오 전송 프로토콜을 포함할 수 있다. 다양한 대안 실시예에서, 본 명세서에 기재된 악센트 번역 기법이 그 밖의 다른 시나리오에서 사용될 수 있는데, 가령, 라이브 화자 또는 발표자의 악센트를 청중에게 번역하기, 라이브 또는 녹음된 미디어 콘텐츠(가령, 음악, 영화, 텔레비전 프로그램 등)의 재생 동안 악센트를 번역하기, 컴퓨터-생성 스피치의 악센트를 번역하기 위한 시나리오 및 그 밖의 다른 많은 시나리오에서 사용될 수 있다.
도 6에 도시된 실시예에서, 제1 파티 디바이스(611) 내 악센트 번역 구성요소(622)가 사용되어 제1 파티에 의해 말해진 스피치를 제1 악센트에서 제2 악센트로 번역할 수 있다. 구체적으로, 제1 파티에 의해 말해진 스피치가 오디오 캡처 구성요소(621), 가령, 마이크로폰에 의해 캡처될 수 있다. 그런 다음 이 캡처된 스피치가 악센트 번역 구성요소(622)로 입력 오디오(631)로서 제공될 수 있다. 그런 다음 악센트 번역 구성요소(622)는 입력 오디오(631)를 제1 악센트에서 제2 악센트의 출력 오디오(632)로 번역할 수 있다. 입력 오디오(631) 및 출력 오디오(632)는 서로 동일한 언어로 유지될 수 있다. 악센트 번역 구성요소(622)가 제1 파티 디바이스(611) 상에 포함되어야 할 필요는 없다. 예를 들어, 대안적 실시예에서, 악센트 번역 구성요소가 제2 파티 디바이스(612) 상에 또는 디바이스(612)의 로컬인 및/또는 원격지에 있을 수 있는 하나 이상의 그 밖의 다른 디바이스 상에 위치할 수 있다.
하나의 실시예에서, 악센트 번역 구성요소(622)는 악센트 결정 정보(651)를 수신 및 사용하여, 예를 들어, 제1 파티가 말하는 제1 악센트를 결정할 수 있다. 하나의 실시예에서, 가령, 가용 악센트의 리스트로부터 제1 악센트를 수동으로 선택함으로써 또는 그 밖의 다른 사용자 입력을 통해, 제1 파티 및/또는 제2 파티가 제1 파티의 악센트를 지시하는 사용자 입력을 제공할 수 있다. 또한, 하나의 실시예에서, 제1 파티 디바이스(611)의 전화 번호 및/또는 지역 코드(및/또는 제1 파티 디바이스(611)의 IP(Internet Protocol) 또는 그 밖의 다른 주소)가 제1 파티의 악센트를 결정하도록 사용될 수 있다. 예를 들어, 제1 파티 디바이스(611)가 독일에 대응하는 전화 번호 또는 지역 코드를 갖는 경우, 이는 제1 파티가 독일 악센트로 말함을 가리킬 수 있다. 덧붙여, 하나의 실시예에서, 제1 파티 디바이스(611)에 대한 지리적 위치(가령, GPS(global positioning system)) 정보가 제1 파티의 악센트를 결정하도록 사용될 수 있다. 예를 들어 제1 파티 디바이스(611)가 독일의 한 지역에 대응하는 연관된 GPS 좌표를 갖는 경우, 이는 제1 파티가 독일 악센트로 말함을 가리킬 수 있다.
덧붙여, 하나의 실시예에서, 제1 파티에 의한 오디오 통신의 오디오 특성 분석이 사용되어 제1 파티의 악센트, 가령, (입력 오디오(631)를 포함하는) 오디오 통신 세션(601) 및/또는 제1 파티에 의한 사전 오디오 통신으로부터의 오디오 통신을 결정할 수 있다. 예를 들어, 일부 경우, 가령, 앞서 기재된 오디오 특성 분석 기법들(가령, 고속 푸리에 변환(FFT), MFCC(Mel-frequency cepstral coefficient) 등) 중 임의의 것을 이용해, 제1 파티로부터의 오디오 통신이 분석되어 제1 파티의 악센트의 오디오 특성(가령, 피치, 톤, 강세, 멜로디 등)을 획득할 수 있다. 그런 다음 제1 파티의 악센트의 오디오 특성이 다양한 악센트 샘플 세트의 오디오 특성(가령, 도 2의 악센트 샘플 세트(131-134)의 오디오 특성(200A-D))에 비교되어, 제1 파티의 악센트가 실질적으로 상관되어 있는 악센트 세트 및 악센트를 결정할 수 있다.
덧붙여, 하나의 실시예에서, 제1 파티에 의한 오디오 통신, 가령, 오디오 통신 세션(601) 및/또는 제1 파티에 의한 이전 오디오 통신으로부터의 오디오 통신의 음성 인식 분석이 사용되어 제1 파티의 악센트를 결정할 수 있다. 예를 들어, 제1 파티의 통신이 지리적, 사회적, 정치적, 스포츠, 엔터테인먼트 또는 그 밖의 다른 특징을 언급하거나 관련된 단어를 포함하는 경우, 이는 제1 파티가 이 악센트로 말함을 가리킬 수 있다. 예를 들어, 다양한 독일 도시가 언급되는 통신이 제1 파티가 독일 악센트로 말함을 가리킬 수 있다.
하나의 실시예에서, 제1 파티가 말하는 제1 악센트를 결정하는 것에 추가로 또는 대신하여, 악센트 결정 정보(651)가 역시 사용되어 출력 오디오(632)가 번역될 제2 악센트를 결정할 수 있다. 하나의 실시예에서, 가령, 가용 악센트의 리스트 중에서 제2 악센트를 수동으로 선택함으로써 또는 그 밖의 다른 사용자 입력을 통해, 제1 파티 및/또는 제2 파티가 제2 악센트를 가리키는 사용자 입력을 제공할 수 있다. 덧붙여, 하나의 실시예에서, 악센트 결정 정보(651)가 사용되어, 제2 파티가 말할 가능성이 높은 악센트를 결정할 수 있으며, 그 후 이 악센트가 제1 파티의 스피치가 번역될 제2 악센트로 사용될 수 있다. 따라서 하나의 실시예에서, 제2 악센트가 제2 파티의 악센트를 가리킬 수 있는 제2 파티 디바이스(612)와 연관된 앞서 기재된 또는 그 밖의 다른 디바이스 정보(가령, 전화 번호, 지역 번호, IP 주소, GPS 정보 등)를 기초로 결정될 수 있다. 덧붙여, 하나의 실시예에서, 예를 들어, 제1 파티의 오디오 통신으로부터의 제1 악센트의 결정과 관련하여 기재된 것과 같은 기법을 이용해, 제2 악센트가 오디오 특성 분석 및/또는 제2 파티로부터의 오디오 통신의 음성 인식 분석을 기초로 결정될 수 있다.
하나의 실시예에서, 입력 오디오(631) 내 말해진 제1 악센트 및 출력 오디오(632)가 번역될 제2 악센트를 결정하면, 악센트 번역 구성요소(622)는, 입력 오디오(631)의 제1 악센트를 출력 오디오(632)의 제2 악센트로 번역하기 위한 적절한 악센트 번역 모델(641)을 선택할 수 있다. 하나의 실시예에서, 악센트 번역 모델(641)이 사용되어, 입력 오디오(631)의 오디오 특성, 가령, 피치, 톤, 강세, 멜로디 등을 제1 악센트에 대응하는 오디오 특성에서 제2 악센트의 오디오 특성과 더 밀접하게 닮은 오디오 특성으로 조절할 수 있다. 하나의 실시예에서, 입력 오디오(631)의 고속 푸리에 변환(FFT), MFCC(mel-frequency cepstral coefficient) 및/또는 그 밖의 다른 변환을 계산하고, 악센트 번역 모델과 계산된 변환의 출력의 비교를 적어도 부분적으로 기초로, 입력 오디오 부분의 오디오 특성을 조절함으로써, 입력 오디오(631)의 오디오 특성의 조절이 수행될 수 있다. 예를 들어, 하나의 실시예에서, 계산된 변환의 출력이 사용되어, 입력된 오디오 부분의 다양한 부분을 조절할지 여부 그리고 어느 정도일지를 결정할 수 있다. 하나의 실시예에서, 제2 악센트와 덜 밀접하게 닮으며 더 상당한 조절을 필요로 할 수 있는 입력 오디오 부분의 다른 부분에 비교할 때 제2 악센트와 더 밀접하게 닮을 수 있는 입력 오디오 부분의 특정 부분은 (존재한다면) 더 적은 조절을 필요로 할 수 있다.
하나의 실시예에서, 악센트 번역 구성요소(622)는 입력 오디오(631)에 대해 음성 인식 분석을 수행하여 입력 오디오(631) 내 스피치의 다양한 문자, 음운, 단어, 및 그 밖의 다른 단위를 식별할 수 있다. 하나의 실시예에서, 악센트 번역 모델(641)은 스피치의 다양한 특정 문자, 음운, 단어 및 그 밖의 다른 단위가 식별되는 입력 오디오의 부분에 대한 오디오 특성을 조절하기 위한 특정 명령을 포함할 수 있다. 예를 들어, 제1 악센트를 갖는 화자가 특정 음운을 더 높은 피치로 말하는 경향이 있고, 제2 악센트를 갖는 화자가 상기 음운을 더 낮은 피치로 말하는 경향이 있다고 결정될 수 있다. 일부 예시에서, 악센트 번역 모델(641)은 이 특정 음운이 검출될 때마다 피치를 감소시키는 명령을 포함할 수 있다.
하나의 실시예에서, 이 번역을 위해 사용되는 악센트 번역 모델(641)은 도 1의 악센트 번역 시스템(130)에 의해 결정되는 악센트 번역 모델의 그룹 중에서 선택될 수 있다. 특히, 도 7은 입력 오디오(631)가 독일 악센트로 말해지고 출력 오디오(632)에서 영국 악센트로 번역되는 예시를 도시한다. 덧붙여, 도 7에 도시된 실시예에서, 악센트 번역 구성요소(622)는 입력 오디오(631)를 출력 오디오(632)로 번역하기 위해 독일 악센트-영국 악센트 번역 모델(741C)을 선택했다. 또한, 도 7에 도시된 실시예에서, 악센트 번역 구성요소(622)는 악센트 번역 모델(741A-N)을 포함하는 가용 악센트 번역 모델(741)의 모음 중에서 독일 악센트-영국 악센트 번역 모델(741C)을 선택했다.
앞서 언급된 바와 같이, 하나의 실시예에서, 제1 악센트로 말해진 입력 오디오가 중립 악센트, 가령, 그 밖의 다른 둘 이상의 악센트의 조합으로 번역될 수 있다. 도 8은 입력 오디오(631)가 독일 악센트로 말해지고 출력 오디오(632)에서 중립 악센트로 번역되는 예시를 도시한다. 덧붙여, 도 8에 도시된 실시예에서, 악센트 번역 구성요소(622)는 입력 오디오(631)를 출력 오디오(632)로 번역하기 위해 독일 악센트-중립 악센트 번역 모델(841C)을 선택했다. 또한, 도 8에 도시된 실시예에서, 악센트 번역 구성요소(622)는 악센트 번역 모델(841A-N)을 포함하는 가용 악센트 번역 모델(841)의 모음 중에서 독일 악센트-중립 악센트 번역 모델(841C)을 선택했다.
도 6-8은 제1 파티에 의해 말해지는 스피치 내 악센트의 번역을 도시하며, 본 명세서에 기재된 악센트 번역 기법이 또한 유사한 방식으로 사용되어, 제2 파티에 의해 말해지는 스피치 내 악센트를 번역할 수 있다. 덧붙여, 악센트 번역 기법은 또한 셋 이상의 파티를 포함하는 전화 통화 또는 그 밖의 다른 오디오 통신 세션에서도 사용될 수 있다. 예를 들어, 제1 파티에 의해 말해지는 스피치가, 예를 들어, 오디오 통신 세션에 연결된 복수의 상이한 타 파티와 연관된 복수의 상이한 악센트로 병렬로 또는 부분적으로 병렬로 번역될 수 있다.
도 9는 본 발명에 따라 사용될 수 있는 예시적 악센트 번역 프로세스를 도시하는 다이어그램이다. 동작(910)에서, 오디오 샘플, 가령, 도 1의 오디오 샘플(90)이, 예를 들어, 도 1의 악센트 번역 시스템(130)에 의해 수신된다. 하나의 실시예에서, 오디오 샘플이 다양한 오디오 소스, 가령, 음성 통신 디바이스(가령, 전화기, 컴퓨터 등), 음성-활성화 디바이스, 녹음된 미디어(가령, 영화, 텔레비전 프로그램, 웹 및 그 밖의 다른 방송 등), 및 그 밖의 다른 오디오 소스로부터 수집될 수 있다. 하나의 실시예에서, 오디오 샘플은 다양한 사람에 의해 말해진 단어의 오디오를 포함하는 오디오 데이터의 샘플을 포함할 수 있다.
동작(912)에서, 각각의 오디오 샘플은 복수의 악센트 중 적어도 하나씩의 악센트와 연관된다. 하나의 실시예에서, 악센트 번역 시스템은 각자의 악센트와 연관된 복수의 악센트 샘플 세트를 유지할 수 있다. 덧붙여, 하나의 실시예에서, 악센트 번역 시스템은 유입 오디오 샘플 각각을 하나 이상의 샘플 세트로 분류할 수 있다. 덧붙여, 하나의 실시예에서, 각각의 오디오 샘플은 각각의 오디오 샘플을 하나 이상의 적절한 샘플 세트로 할당하기 위한 정보를 포함할 수 있는 각자의 연관된 샘플 메타데이터를 가질 수 있다. 예를 들어, 샘플 메타데이터가 정보, 가령, 각자의 오디오 샘플과 연관된 하나 이상의 전화 번호, 각자의 오디오 샘플과 연관된 지리적 위치 정보(가령, GPS 좌표 등), 음성 인식 분석 및/또는 각자의 오디오 샘플 내에서 말해진 단어의 지시자, 각자의 오디오 샘플이 말해질 때의 특정 악센트를 지시하는 사용자 입력, 및 그 밖의 다른 정보를 포함할 수 있다.
동작(914)에서, 복수의 악센트 중 적어도 제1 악센트와 연관된 오디오 샘플이 복수의 악센트 중 적어도 하나의 타 악센트와 연관된 오디오 샘플에 비교된다. 하나의 실시예에서, 동작(912)에서의 오디오 샘플의 비교는 복수의 악센트의 각각의 악센트와 연관된 다양한 오디오 특성, 가령, 피치, 톤, 강세, 멜로디 및 그 밖의 다른 오디오 특성을 결정하는 것을 포함할 수 있다. 동작(912)에서의 오디오 샘플의 비교는 적어도 제1 악센트의 오디오 특성을 적어도 하나의 타 악센트의 오디오 특성에 비교하는 것을 더 포함할 수 있다. 하나의 실시예에서, 악센트의 오디오 특성이, 각자의 샘플 세트에 할당되거나 악센트와 그 밖의 다른 방식으로 연관된 오디오 샘플의 오디오 특성을 적어도 부분적으로 기초로 결정될 수 있다. 하나의 실시예에서, 오디오 샘플의 오디오 특성은 고속 푸리에 변환(FET)을 수행, MFCC(Mel-frequency cepstral coefficient)를 생성, 및/또는 그 밖의 다른 변환을 수행하고 이들 변환의 출력을 분석함으로써 결정될 수 있다.
동작(916)에서, 제1 악센트와 제2 악센트 간 번역 모델이 생성된다. 하나의 실시예에서, 제1 악센트 및/또는 제2 악센트는 중립 악센트, 하나 이상의 타 악센트의 수정, 및/또는 둘 이상의 다른 악센트의 조합을 포함할 수 있다. 하나의 실시예에서, 악센트 번역 모델은, 적어도 부분적으로 하나 이상의 인공 신경망에 의해 결정될 수 있다. 덧붙여, 하나의 실시예에서, 번역 모델은, 적어도 제1 악센트와 연관된 오디오 샘플 및/또는 오디오 특성의 적어도 하나의 타 악센트, 가령, 제2 악센트 및/또는 상기 제2 악센트가 유도될 수 있는 악센트와 연관된 오디오 샘플 및/또는 오디오 특성과의 비교를 적어도 부분적으로 기초로 하여, 생성될 수 있다. 하나의 실시예에서, 악센트 번역 모델은 제1 악센트의 오디오 특성을 제2 악센트의 오디오 특성과 더 밀접하게 닮도록 조절하기 위한 명령을 포함할 수 있다. 예를 들어, 하나의 실시예에서, 악센트 번역 모델은 제1 악센트 피치, 톤, 강세, 멜로디 및/또는 그 밖의 다른 오디오 특성을 제2 악센트 피치, 톤, 강세, 멜로디, 및/또는 그 밖의 다른 오디오 특성과 더 밀접하게 닮도록 조절하기 위한 명령을 포함할 수 있다.
동작(918)에서, 제1 음성 언어 중 입력 오디오 부분이 수신된다. 하나의 실시예에서, 오디오 입력은 제1 파티와 제2 파티 간 오디오 통신 세션(가령, 전화 통화, VoIP 세션 등) 동안 제1 파티에 의해 말해진 오디오를 포함할 수 있다. 하나의 실시예에서, 입력 오디오 부분이 오디오 캡처 디바이스(가령, 마이크로폰)에 의해 캡처되고 그 후 악센트 번역 구성요소, 가령, 도 6의 악센트 번역 구성요소에 의해 수신될 수 있다.
동작(920)에서, 오디오 입력 부분이 제1 악센트와 실질적으로 연관된다고 결정된다. 하나의 실시예에서, 악센트 번역 구성요소(622)는 우선 오디오 입력 부분이 제1 악센트와 실질적으로 연관되는지 여부를 결정하려 시도할 수 있다. 연관된 경우, 프로세스는 동작(922)으로 진행할 수 있다. 연관되지 않은 경우, 입력 오디오 부분이 실질적으로 연관된 악센트가 결정되거나 오디오 입력 부분을 위한 악센트가 그 밖의 다른 방식으로 선택될 때까지 악센트 번역 구성요소(622)는 타 악센트를 평가할 수 있다. 하나의 실시예에서, 입력 오디오 부분이 실질적으로 연관되는 악센트는, 도 1의 악센트 결정 정보(651), 가령, 전화 번호, 지리적 위치 정보(가령, GPS 좌표 등), 또는 제1 파티로부터의 오디오 통신의 입력 오디오 부분, 오디오 특성 및/또는 음성 인식 분석을 캡처하는 전화기 또는 그 밖의 다른 디바이스와 연관된 그 밖의 다른 정보, 입력 오디오 부분과 실질적으로 연관된 악센트를 지시하는 사용자 입력, 및 그 밖의 다른 정보를 적어도 부분적으로, 결정될 수 있다. 예를 들어, 하나의 실시예에서, 입력 오디오 부분은, 입력 오디오 부분(및/또는 그 밖의 다른 제1 파티 통신)의 하나 이상의 오디오 특성을 제1 악센트와 연관된 오디오 샘플의 하나 이상의 오디오 특성에 적어도 부분적으로 매칭시킴으로써 제1 악센트와 실질적으로 연관된 것으로 결정될 수 있다. 덧붙여, 하나의 실시예에서, 고속 푸리에 변환(FFT), MFCC(mel-frequency cepstral coefficient), 및/또는 오디오 입력 부분 및/또는 그 밖의 다른 제1 파티 통신과 연관된 그 밖의 다른 변환이 계산되어 오디오 입력 부분 및/또는 그 밖의 다른 제1 파티 통신의 하나 이상의 오디오 특성을 식별할 수 있다.
덧붙여, 하나의 실시예에서, 입력 오디오 부분이 번역될 악센트(가령, 제2 악센트)가, 도 1의 악센트 결정 정보(651), 가령, 전화 번호, 지리적 위치 정보(가령, GPS 좌표 등), 또는 제2 파티와 연관된 전화기 또는 그 밖의 다른 디바이스와 연관된 그 밖의 다른 정보, 제2 파티로부터 오디오 통신의 오디오 특성 및/또는 음성 인식 분석, 제2 파티에 의해 말해진 악센트를 지시하는 사용자 입력, 및 그 밖의 다른 정보를 적어도 부분적으로 결정될 수 있다. 예를 들어, 하나의 실시예에서, 입력 오디오 부분을 제2 악센트로 번역할 결정은 제2 파티 통신의 하나 이상의 오디오 특성을 제2 악센트와 연관된 오디오 샘플의 하나 이상의 오디오 특성에 적어도 부분적으로 매칭하는 것을 기초로 할 수 있다.
동작(922)에서, 제1 음성 언어(즉, 입력 오디오 부분과 동일한 음성 언어) 내 제2 악센트와 실질적으로 연관된 출력 오디오 부분이, 악센트 번역 모델을 적어도 부분적으로 기초로 하여 출력된다. 하나의 실시예에서, 출력 오디오 부분은 제1 파티와 제2 파티 간 오디오 통신 세션 동안 제2 파티에 의해 재생될 수 있다. 하나의 실시예에서, 동작(922)에서 수행되는 출력이 입력 오디오 부분의 적어도 부분의 피치, 톤, 강세, 멜로디, 또는 그 밖의 다른 오디오 특성 중 적어도 하나를 조절하는 것을 포함할 수 있다. 구체적으로, 악센트 번역 모델이 사용되어 입력 오디오의 오디오 특성을 제1 악센트에 대응하는 오디오 특성에서 제2 악센트의 오디오 특성과 더 밀접하게 닮은 오디오 특성으로 조절할 수 있다. 하나의 실시예에서, 입력 오디오 부분의 고속 푸리에 변환(FFT), MFCC(mel-frequency cepstral coefficient), 및/또는 그 밖의 다른 변환을 계산하고 악센트 번역 모델과 계산된 변환의 출력의 비교를 적어도 부분적으로 기초로 입력 오디오 부분의 오디오 특성을 조절함으로써, 입력 오디오 부분의 오디오 특성의 조절이 수행될 수 있다. 예를 들어, 하나의 실시예에서, 계산된 변환의 출력이 사용되어, 입력 오디오 부분의 다양한 부분을 조절할지 여부 및 어느 정도를 조절할지를 결정할 수 있다. 덧붙여, 출력 오디오 부분을 출력하는 것은 입력 오디오 부분에 음성 인식 분석을 수행하여 입력 오디오 부분 내 스피치의 다양한 문자, 음운, 단어, 및 그 밖의 다른 단위를 식별하는 것을 포함할 수 있다. 하나의 실시예에서, 악센트 번역 모델은 스피치의 다양한 특정 문자, 음운, 단어 및 그 밖의 다른 단위가 식별되는 입력 오디오의 부분에 대해 오디오 특성을 조절하기 위한 특정 명령을 포함할 수 있다.
지금부터 데이터를 전송 및 제공하기 위한 예시적 시스템이 상세히 기재될 것이다. 구체적으로, 도 10은 본 명세서에 기재된 실시예가 구현될 수 있는 예시적 컴퓨팅 환경을 도시한다. 도 10은 통신 네트워크(73)를 통해 사용자 컴퓨터(72a 및 72b)(단수형 컴퓨터(72) 또는 복수형 컴퓨터(72)로 지칭될 수 있음)를 통해 컴퓨팅 자원을 사용자(70a 및 70b)(본 명세서에서 단수형 사용자(70) 또는 복수형 사용자들(70)로 지칭될 수 있음)에게 제공할 수 있는 데이터 센터(85)의 예시를 개략적으로 도시하는 다이어그램이다. 데이터 센터(85)는 영구적으로 또는 필요에 따라 애플리케이션을 실행하기 위한 컴퓨팅 자원을 제공하도록 구성될 수 있다. 데이터 센터(85)에 의해 제공되는 컴퓨팅 자원이 다양한 유형의 자원, 가령, 게이트웨이 자원, 로드 밸런싱 자원, 라우팅 자원, 네트워킹 자원, 컴퓨팅 자원, 휘발성 및 비-휘발성 메모리 자원, 콘텐츠 전달 자원, 데이터 처리 자원, 데이터 저장 자원, 데이터 통신 자원 등을 포함할 수 있다. 각각의 유형의 컴퓨팅 자원이 복수의 특정 구성에서 이용 가능할 수 있다. 예를 들어, 데이터 처리 자원이 다양한 웹 서비스를 제공하도록 구성될 수 있는 가상 머신 인스턴스로서 이용 가능할 수 있다. 덧붙여, 자원의 조합은 네트워크를 통해 이용 가능할 수 있고 하나 이상의 웹 서비스로서 구성될 수 있다. 인스턴스는 애플리케이션, 가령, 웹 서비스, 가령, 애플리케이션 서비스, 미디어 서비스, 데이터베이스 서비스, 프로세싱 서비스, 게이트웨이 서비스, 저장 서비스, 라우팅 서비스, 보안 서비스, 암호화 서비스, 로드 밸런싱 서비스, 애플리케이션 서비스 등을 실행하도록 구성될 수 있다. 이들 서비스는 설정된 또는 커스텀 애플리케이션에 의해 설정될 수 있고 크기, 실행, 비용, 레이턴시, 유형, 지속시간, 액세스 가능성 및 그 밖의 다른 임의의 치수가 설정될 수 있다. 이들 웹 서비스는 하나 이상의 클라이언트에 대한 가용 인프라구조로서 설정될 수 있으며 하나 이상의 클라이언트에 대해 플랫폼 또는 소프트웨어로서 구성된 하나 이상의 애플리케이션을 포함할 수 있다. 이들 웹 서비스는 하나 이상의 통신 프로토콜을 통해 이용 가능해질 수 있다. 이들 통신 프로토콜은 예를 들어, HTTP(hypertext transfer protocol) 또는 비-HTTP 프로토콜을 포함할 수 있다. 이들 통신 프로토콜은 예를 들어 더 신뢰할만한 전송 계층 프로토콜, 가령, 전송 제어 프로토콜(TCP), 및 덜 신뢰할만한 전송 계층 프로토콜, 가령, 사용자 데이터그램 프로토콜(UDP)을 포함할 수 있다. 데이터 저장 자원은 파일 저장 디바이스, 블록 저장 디바이스 등을 포함할 수 있다.
각각의 유형 또는 구성의 컴퓨팅 자원이 상이한 크기, 가령, 대규모 자원(많은 프로세서, 큰 메모리 및/또는 큰 저장 용량으로 구성됨) 및 소규모 자원(적은 프로세서, 적은 메모리 및/또는 적은 저장 용량으로 구성됨)으로 이용 가능할 수 있다. 예를 들어 고객이 복수의 작은 처리 자원을 웹 서버로서 할당하거나 및/또는 큰 처리 자원을 데이터베이스 서버로 할당하도록 선택할 수 있다.
데이터 센터(85)는 컴퓨팅 자원을 제공하는 서버(76a 및 76b)(본 명세서에서 단수형으로 서버(76) 또는 복수형으로 서버들(76)로 지칭될 수 있음)를 포함할 수 있다. 이들 자원은 베어 메탈 자원(bare metal resource) 또는 가상 머신 인스턴스(78a-d)(본 명세서에서 단수형으로 가상 머신 인스턴스(78) 또는 복수형으로 가상 머신 인스턴스(78)로 지칭될 수 있음)로서 이용 가능할 수 있다.
컴퓨팅 하드웨어에 대한 가상화 기법의 이용 가능성이 고객에게 대규모 컴퓨팅 자원을 제공하고 컴퓨팅 자원이 복수의 고객들 간에 효율적이고 안전하게 공유될 수 있게 한다는 이점을 제공했다. 예를 들어, 가상화 기법에 의해, 각각의 사용자에게 물리적 컴퓨팅 디바이스에 의해 호스팅되는 하나 이상의 가상 머신 인스턴스를 제공함으로써, 물리적 컴퓨팅 디바이스가 복수의 사용자 간에 공유될 수 있다. 가상 머신 인스턴스는 개별 논리 컴퓨팅 시스템으로서 역할 하는 특정 물리적 컴퓨팅 시스템의 소프트웨어 에뮬레이션일 수 있다. 이러한 가상 머신 인스턴스가 특정 물리적 컴퓨팅 자원을 공유하는 복수의 운영 체제들 간 격리를 제공한다. 또한, 일부 가상화 기법이 하나 이상의 물리적 자원에 걸쳐 있는 가상 자원, 가령, 복수의 개별 물리적 컴퓨팅 시스템에 걸쳐 있는 복수의 가상 프로세서를 갖는 단일 가상 머신 인스턴스를 제공할 수 있다.
도 10을 참조하면, 통신 네트워크(73)는, 예를 들어, 연결된 네트워크의 공개 액세스 가능하며 다양한 개별 파티에 의해 운영될 수 있는 네트워크, 가령, 인터넷일 수 있다. 또 다른 실시예에서, 통신 네트워크(73)는 권한 없는 사용자에 의해 전적으로 또는 부분적으로 액세스 가능하지 않은 사설 네트워크, 가령, 사내 또는 대학내 네트워크일 수 있다. 또 다른 실시예에서, 통신 네트워크(73)는 인터넷으로 및/또는 인터넷으로부터의 액세스를 갖는 하나 이상의 사설 네트워크를 포함할 수 있다.
통신 네트워크(73)는 컴퓨터(72)로의 액세스를 제공할 수 있다. 사용자 컴퓨터(72)는 사용자(70) 또는 데이터 센터(85)의 그 밖의 다른 고객에 의해 사용되는 컴퓨터일 수 있다. 예를 들어, 사용자 컴퓨터(72a 또는 72b)는 서버, 데스크톱 또는 랩톱 개인 컴퓨터, 태블릿 컴퓨터, 무선 전화기, 개인 디지털 보조기(PDA), 전자책 판독기, 게임 콘솔, 셋-톱 박스 또는 데이터 센터(85)를 액세스할 수 있는 그 밖의 다른 임의의 컴퓨팅 디바이스일 수 있다. 사용자 컴퓨터(72a 또는 72b)가 (가령, 케이블 모뎀 또는 DSL(Digital Subscriber Line)을 통해) 인터넷으로 직접 연결될 수 있다. 단 2개의 사용자 컴퓨터(72a 및 72b)가 도시되었지만, 복수의 사용자 컴퓨터가 존재할 수 있음을 알 수 있다.
사용자 컴퓨터(72)가 또한 데이터 센터(85)에 의해 제공되는 컴퓨팅 자원의 양태를 구성하도록 이용될 수 있다. 이와 관련하여, 데이터 센터(85)는 게이트웨이 또는 웹 인터페이스를 제공할 수 있으며, 이를 통해 사용자 컴퓨터(72) 상에서 실행되는 웹 브라우저 애플리케이션 프로그램을 이용해 데이터 센터의 동작의 양태가 구성될 수 있다. 대안으로, 사용자 컴퓨터(72) 상에서 실행되는 자립형 애플리케이션 프로그램이 데이터 센터(85)에 의해 노출된 애플리케이션 프로그래밍 인터페이스(API)를 액세스하여 구성 동작을 수행할 수 있다. 데이터 센터(85)에서 이용 가능한 다양한 웹 서비스의 동작을 구성하기 위한 그 밖의 다른 메커니즘이 또한 이용 가능할 수 있다.
도 10에 도시된 서버(76)가 앞서 기재된 컴퓨팅 자원을 제공하도록 적절하게 구성된 서버일 수 있으며 하나 이상의 웹 서비스 및/또는 애플리케이션을 실행하기 위한 컴퓨팅 자원을 제공할 수 있다. 하나의 실시예에서, 컴퓨팅 자원은 가상 머신 인스턴스(78)일 수 있다. 가상 머신 인스턴스의 예시에서, 각각의 서버(76)는 가상 머신 인스턴스(78)를 실행할 수 있는 인스턴스 관리기(80a 또는 80b)(본 명세서에서 단수형으로 인스턴스 관리기(80) 또는 복수형으로 인스턴스 관리기들(80)로 지칭될 수 있음)를 실행하도록 구성될 수 있다. 인스턴스 관리기(80)는 예를 들어 서버(76) 상에서 가상 머신 인스턴스(78)의 실행을 가능하게 하도록 구성된 가상 머신 모니터(VMM) 또는 또 다른 유형의 프로그램일 수 있다. 앞서 언급된 바와 같이, 각각의 가상 머신 인스턴스(78)는 애플리케이션의 일부 또는 전부를 실행하도록 구성될 수 있다.
앞서 개시된 실시예가 가상 머신 인스턴스의 맥락을 언급하지만, 그 밖의 다른 유형의 구현이 본 명세서에 개시된 개념 및 기술과 함께 사용될 수 있다. 예를 들어, 본 명세서에 개시된 실시예가 가상 머신 인스턴스를 이용하지 않는 컴퓨팅 시스템과 함께 사용될 수 있다.
도 10에 도시된 예시적 데이터 센터(85)에서, 라우터(71)는 서버들(76a 및 76b)을 상호연결하도록 이용될 수 있다. 라우터(71)는 또한 통신 네트워크(73)에 연결되는 게이트웨이(74)에 연결될 수 있다. 라우터(71)는 하나 이상의 로드 밸런서에 연결될 수 있고, 홀로 또는 조합되어, 예를 들어, 이러한 통신의 특성(가령, 출발지 및/또는 도착지 주소, 프로토콜 식별자, 크기, 프로세싱 요건 등을 포함하는 헤더 정보) 및/또는 사설 네트워크의 특성(가령, 네트워크 토폴로지를 기초로 하는 라우터 등)을 기초로 패킷 또는 그 밖의 다른 데이터 통신을 적절하게 전달함으로써, 데이터 센터(85)에서 네트워크 내 통신을 관리할 수 있다. 간결성을 위해, 특정 종래의 상세사항을 보여주지 않으면서, 이 예시의 컴퓨팅 시스템 및 그 밖의 다른 디바이스의 다양한 양태가 도시된다. 추가 컴퓨팅 시스템 및 그 밖의 다른 디바이스가 그 밖의 다른 실시예에서 상호연결될 수 있으며 상이한 방식으로 상호연결될 수 있다.
도 10에 도시된 예시적 데이터 센터(85)에서, 서버 관리기(75)가 또한 서버(76a 및 76b)로, 서버로부터, 및/또는 서버들 간 다양한 통신을 적어도 부분적으로 지향시키도록 사용될 수 있다. 도 10이 게이트웨이(74)와 서버 관리기(75) 사이에 위치하는 라우터(71)를 도시하지만, 이는 예시적 구성에 불과하다. 어떤 경우, 예를 들어, 서버 관리기(75)는 게이트웨이(74)와 라우터(71) 사이에 위치할 수 있다. 어떤 경우, 서버 관리기(75)는, 사용자 컴퓨터(72)로부터의 유입 통신의 일부분을 검사하여, 유입 통신을 수신 및/또는 처리하기 위해 하나 이상의 적절한 서버(76)를 결정할 수 있다. 서버 관리기(75)는 인자들, 가령, 신원, 위치 또는 사용자 컴퓨터(72)와 연관된 그 밖의 다른 속성, 통신과 연관된 작업의 속성, 통신과 연관된 작업의 우선순위, 통신과 연관된 작업의 지속시간, 통신과 연관된 작업의 크기 및/또는 추정 자원 사용율 및 그 밖의 다른 많은 인자들을 기초로 유입 통신을 수신 및/또는 처리할 적절한 서버를 결정할 수 있다. 서버 관리기(75)는 예를 들어, 상태 정보 및 다양한 작업과 연관된 그 밖의 다른 정보를 수집하거나 그 밖의 다른 방식으로 액세스하여, 예를 들어, 통신 및 이러한 작업과 연관된 그 밖의 다른 동작을 관리하는 것을 보조할 수 있다.
도 10에 도시된 네트워크 토폴로지가 크게 단순화되었으며, 본 명세서에 개시된 다양한 컴퓨팅 시스템을 상호연결하기 위해 추가 네트워크 및 네트워킹 디바이스가 사용될 수 있음을 알 것이다. 이들 네트워크 토포롤지 및 디바이스가 해당 분야의 통상의 기술자에게 자명할 것이다.
도 10에 기재된 데이터 센터(85)가 단지 예시에 불과하며, 그 밖의 다른 구현예가 사용될 수 있음을 알 것이다. 서버, 게이트웨이 또는 그 밖의 다른 컴퓨팅 디바이스가 기재된 유형의 기능과 대화하고 이들을 수행할 수 있는 하드웨어 또는 소프트웨어의 임의의 조합, 비제한적 예를 들면, 데스크톱 또는 그 밖의 다른 컴퓨터, 데이터베이스 서버, 네트워크 저장 디바이스 및 그 밖의 다른 네트워크 디바이스, PDA, 태블릿, 셀폰, 무선 전화기, 페이저, 전자 오거나이저, 인터넷 전자기구, (가령, 셋톱 박스 및/또는 개인/디지털 비디오 레코더를 이용하는) 텔레비전-기반 시스템 및 적절한 통신 기능을 포함하는 그 밖의 다른 다양한 소비자 제품을 포함할 수 있음을 알 것이다.
적어도 일부 실시예에서, 본 명세서에 기재된 하나 이상의 기법 중 일부분 또는 전부를 구현하는 서버가 하나 이상의 컴퓨터-액세스 가능한 매체를 포함하거나 이를 액세스하도록 구성된 컴퓨터 시스템을 포함할 수 있다. 도 11은 하나 이상의 컴퓨터-액세스 가능한 매체를 포함하거나 액세스하도록 구성되는 컴퓨터 시스템을 도시한다. 도시된 실시예에서, 컴퓨팅 디바이스(15)는 입/출력(I/O) 인터페이스(30)를 통해 시스템 메모리(20)에 연결된 하나 이상의 프로세서(10a, 10b 및/또는 10n)(본 명세서에서, 단수형으로 "프로세서(10)" 또는 복수형으로 "프로세서들(10)"로 지칭될 수 있음)를 포함한다. 컴퓨팅 디바이스(15)는 I/O 인터페이스(30)에 연결된 네트워크 인터페이스(40)를 더 포함한다.
다양한 실시예에서, 컴퓨팅 디바이스(15)는 하나의 프로세서(10)를 포함하는 유니프로세서 시스템 또는 복수의 프로세서(10)(가령, 2, 4, 8 또는 또 다른 적절한 개수)를 포함하는 멀티프로세서 시스템일 수 있다. 프로세서(10)는 명령을 실행할 수 있는 임의의 적합한 프로세서일 수 있다. 예를 들어, 다양한 실시예에서, 프로세서(10)는 다양한 명령 세트 아키텍처(ISA), 가령, x86, PowerPC, SPARC 또는 MIPS ISA 또는 그 밖의 다른 임의의 적합한 ISA 중 임의의 것을 구현하는 임베디드 프로세서일 수 있다. 멀티프로세서 시스템에서, 각각의 프로세서(10)는 일반적으로 동일한 ISA을 구현할 수 있으나 반드시 그럴 필요는 없다.
시스템 메모리(20)는 프로세서(들)(10)에 의해 액세스 가능한 명령 및 데이터를 저장하도록 구성될 수 있다. 다양한 실시예에서, 시스템 메모리(20)는 임의의 적합한 메모리 기법, 가령, 정적 랜덤 액세스 메모리(SRAM), 동기식 동적 RAM(SDRAM), 비휘발성/Flash® 메모리 또는 그 밖의 다른 임의의 유형의 메모리를 이용해 구현될 수 있다. 도시된 실시예에서, 하나 이상의 원하는 기능을 구현하는 프로그램 명령 및 데이터가 시스템 메모리(20) 내에 코드(25) 및 데이터(26)로서 저장되는 것으로 나타난다.
하나의 실시예에서, I/O 인터페이스(30)가 프로세서(10), 시스템 메모리(20) 및 임의의 주변기기, 가령, 네트워크 인터페이스(40) 또는 그 밖의 다른 주변기기 인터페이스 간 I/O 트래픽을 조절하도록 구성될 수 있다. 일부 실시예에서, I/O 인터페이스(30)가 임의의 필요한 프로토콜, 타이밍 또는 그 밖의 다른 데이터 변환을 수행하여, 데이터 신호를 하나의 구성요소(가령, 시스템 메모리(20))에서 또 다른 구성요소(가령, 프로세서(10))에 의해 사용되기에 적합한 포맷으로 변환할 수 있다. 일부 실시예에서, I/O 인터페이스(30)가 다양한 유형의 주변기기 버스, 가령, PCI(Peripheral Component Interconnect) 버스 표준 또는 USB(Universal Serial Bus) 표준의 변형을 통해 부착된 디바이스를 지원할 수 있다. 일부 실시예에서, I/O 인터페이스(30)의 기능이 둘 이상의 개별 구성요소, 가령, 노스 브리지(north bridge) 및 사우스 브리지(south bridge)로 쪼개질 수 있다. 또한, 일부 실시예에서, I/O 인터페이스(30), 가령, 시스템 메모리(20)로의 인터페이스의 기능의 일부 또는 전부가 프로세서(10)로 직접 포함될 수 있다.
네트워크 인터페이스(40)는 데이터가 컴퓨팅 디바이스(15)와 그 밖의 다른 디바이스 또는 네트워크 또는 네트워크(50)에 연결된 디바이스(60), 가령, 그 밖의 다른 컴퓨터 시스템 또는 디바이스 간에 교환되게 하도록 구성될 수 있다. 다양한 실시예에서, 네트워크 인터페이스(40)는 임의의 적합한 유선 또는 무선 일반적인 데이터 네트워크, 가령, 일종의 이더넷 네트워크를 통한 통신을 지원할 수 있다. 덧붙여, 네트워크 인터페이스(40)는 원격통신/전화 네트워크, 가령, 아날로그 음성 네트워크 또는 디지털 섬유 통신 네트워크를 통한, 스토리지 영역 네트워크, 가령, 섬유 채널 SAN(storage area network), 또는 그 밖의 다른 임의의 적합한 유형의 네트워크 및/또는 프로토콜을 통한 통신을 지원할 수 있다.
일부 실시예에서, 시스템 메모리(20)는 대응하는 방법 및 장치의 실시예를 구현하기 위한 앞서 기재된 프로그램 명령 및 데이터를 저장하도록 구성된 컴퓨터-액세스 가능한 매체의 하나의 실시예일 수 있다. 그러나 그 밖의 다른 실시예에서, 상이한 유형의 컴퓨터-액세스 가능한 매체에 프로그램 명령 및/또는 데이터가 수신, 전송 또는 저장될 수 있다. 일반적으로, 컴퓨터-액세스 가능한 매체가 비-일시적 저장 매체 또는 메모리 매체, 가령, 자기 또는 광학 매체, 가령, I/O 인터페이스(30)를 통해 컴퓨팅 디바이스(15)에 연결되는 디스크 또는 DVD/CD를 포함할 수 있다. 비-일시적 컴퓨터-액세스 가능한 저장 매체는 컴퓨팅 디바이스(15)의 일부 실시예에 시스템 메모리(20) 또는 또 다른 유형의 메모리로서 포함될 수 있는 임의의 휘발성 또는 비-휘발성 매체, 가령, RAM(가령, SDRAM, DDR SDRAM, RDRAM, SRAM 등), ROM(read only memory) 등을 포함할 수 있다. 또한 컴퓨터-액세스 가능한 매체는 통신 매체, 가령, 네트워크 및/또는 무선 링크를 통해 전달되는 전송 매체 또는 신호, 가령, 전기, 전자기 또는 디지털 신호, 가령, 네트워크 인터페이스(40)를 통해 구현될 수 있는 것을 포함할 수 있다.
인터넷 및/또는 그 밖의 다른 네트워크를 통해 분산 클라이언트 세트로 액세스 가능한 하나 이상의 웹 서비스(가령, 다양한 유형의 클라우드-기반 컴퓨팅 또는 저장장치)를 제공하기 위해 회사 또는 공적 섹터 기구 같은 개체에 의해 설정된 네트워크가 사업자 네트워크(provider network)라고 지칭될 수 있다. 이러한 사업자 네트워크는 사업자 네트워크에 의해 제공되는 인프라구조 및 웹 서비스를 구현 및 분포하는 데 필요한, 다양한 자원 풀을 호스팅하는 복수의 데이터 센터, 가령, 물리적 및/또는 가상화된 컴퓨터 서버, 저장 디바이스, 네트워킹 장비 등의 모음을 포함할 수 있다. 일부 실시예에서 자원은 웹 서비스와 관련된 다양한 유닛, 가령, 저장 용량, 처리 능력, 관련 서비스의 세트 등으로 클라이언트에게 제공될 수 있다. 가상 컴퓨팅 인스턴스가, 예를 들어, (CPU의 유형 및 개수, 메인 메모리 크기 등을 지시함으로써 특정될 수 있는) 특정된 계산 용량을 갖는 하나 이상의 서버 및 특정된 소프트웨어 스택(가령, 하이퍼바이저 상에서 실행될 수 있는 특정 버전의 운영 체제)을 포함할 수 있다.
컴퓨팅 노드라고도 지칭될 수 있는 컴퓨트 노드가 다양한 컴퓨팅 환경, 가령, 상품-하드웨어 컴퓨터, 가상 머신, 웹 서비스, 컴퓨팅 클러스터 및 컴퓨팅 가전기구 상에서 구현될 수 있다. 이들 컴퓨팅 디바이스 또는 환경 중 일부가, 편의상, 컴퓨트 노드로 기술될 수 있다.
복수의 상이한 유형의 컴퓨팅 디바이스가 홀로 또는 조합되어 사용되어, 상이한 실시예에서, 사업자 네트워크의 자원, 예를 들어, 컴퓨터 서버, 저장 디바이스, 네트워크 디바이스 등을 구현할 수 있다. 일부 실시예에서, 가령, 사용자에게 관리자 로그인 및 비밀번호를 제공함으로써, 클라이언트 또는 사용자에게 자원 인스턴스로의 직접 액세스가 제공될 수 있다. 또 다른 실시예에서, 사업자 네트워크 운영자에 의해, 클라이언트는, 예를 들어, 자신이 인스턴스 또는 실행 플랫폼을 직접 액세스할 필요 없이, 애플리케이션에 적합한 실행 플랫폼(가령, 애플리케이션 서버 인스턴스, Java™가상 머신(JVM), 범용 또는 특수 운영 체제, 다양한 해석된 또는 컴파일된 프로그래밍 언어, 가령, Ruby, Perl, Python, C, C++ 등을 지원하는 플랫폼 또는 고성능 컴퓨팅 플랫폼) 상에서 클라이언트를 대리하여 특정된 클라이언트 애플리케이션 및 애플리케이션의 스케줄 실행에 대한 실행 요건을 특정할 수 있다. 특정 실행 플랫폼이 어떤 구현예에서 하나 이상의 자원 인스턴스를 이용할 수 있으며, 다른 구현예에서 복수의 실행 플랫폼이 단일 자원 인스턴스에 매핑될 수 있다.
많은 환경에서, 상이한 유형의 가상화된 컴퓨팅, 저장 및/또는 그 밖의 다른 네트워크-액세스 가능한 기능을 구현하는 사업자 네트워크의 운영자에 의해, 고객은 다양한 자원 획득 모드로 자원으로의 액세스를 예약 또는 구매할 수 있다. 컴퓨팅 자원 사업자는 고객이 원하는 컴퓨팅 자원을 선택 및 런칭하고, 애플리케이션 구성요소를 컴퓨팅 자원으로 배치하고, 환경에서 실행하는 애플리케이션을 유지하기 위한 기능을 제공할 수 있다. 덧붙여, 컴퓨팅 자원 사업자는 애플리케이션의 필요에 따라 또는 용량 요건에 따라 고객이, 수동으로 또는 자동 스케일링을 통해, 애플리케이션에 할당된 자원의 개수 및 유형을 빠르고 쉽게 스케일-업 또는 스케일-다운하기 위한 추가 기능을 제공할 수 있다. 컴퓨팅 자원 사업자에 의해 제공되는 컴퓨팅 자원이 인스턴스라고 지칭될 수 있는 이산 유닛으로 이용 가능할 수 있다. 인스턴스는 물리적 서버 하드웨어 플랫폼, 서버 상에서 실행되는 가상 머신 인스턴스, 또는 둘의 조합을 나타낼 수 있다. 상이한 운영 체제(OS) 및/또는 하이퍼바이저를 실행하는 상이한 크기의 자원 및 다양한 설치된 소프트웨어 애플리케이션, 런타임 등을 포함하여, 다양한 유형 및 구성의 인스턴스가 이용 가능해질 수 있다. 인스턴스가 특정 가용성 구역에서 더 이용 가능하여, 기저 컴퓨팅 하드웨어의 논리적 영역, 장애 허용 영역, 데이터 센터 또는 그 밖의 다른 지리적 위치를 나타낸다. 인스턴스가 가용성 구역 내에서 또는 가용성 구역들 간에 복사되어 인스턴스의 용장성(redundancy)을 향상시킬 수 있으며, 인스턴스가 특정 가용성 구역 내에서 또는 가용성 구역들 간에 이주될 수 있다. 예를 들어, 가용성 구역 내 특정 서버와의 클라이언트 통신의 레이턴시가 상이한 서버와의 클라이언트 통신을 위한 레이턴스보다 짧을 수 있다. 따라서 인스턴스가 긴 레이턴시 서버로부터 짧은 레이턴시 서버로 이주되어 전체 클라이언트 경험을 개선할 수 있다.
일부 실시예에서, 사업자 네트워크가 복수의 지리적 영역으로 조직될 수 있으며, 각각의 영역은 하나 이상의 가용성 구역을 포함할 수 있다. 그런 다음 (가용성 컨테이너(availability container)라고도 지칭될 수 있는) 가용성 구역은, 특정 가용성 구역 내 자원이 다른 가용성 구역 내 장애로부터 고립 또는 격리될 수 있도록 구성된 하나 이상의 이산 위치 또는 데이터 센터를 포함할 수 있다. 즉, 하나의 가용성 구역 내 장애가 임의의 타 가용성 구역 내 장애를 초래할 것으로 예상되지 않을 수 있다. 따라서 자원 인스턴스의 가용성 프로파일이 상이한 가용성 구역 내 자원 인스턴스의 가용성 프로파일에 독립적인 것으로 의도된다. 클라이언트는 각자의 가용성 구역에서 복수의 애플리케이션 인스턴스를 런칭함으로써 단일 위치에서의 장애로부터 자신의 애플리케이션을 보호할 수 있다. 동시에, 일부 구현예에서, 저렴하고 낮은 레이턴시 네트워크 연결 가능성이 동일한 지리적 영역 내에 위치하는 자원 인스턴스들 사이에 제공될 수 있다(그리고 동일한 가용성 구역의 자원들 간 네트워크 전송이 더 빨라질 수 있다).
앞서 언급된 바와 같이, 콘텐츠는 콘텐츠 사업자에 의해 하나 이상의 클라이언트로 제공될 수 있다. 용어, 콘텐츠는 본 명세서에서 사용될 때, 임의의 표시 가능한 정보를 지칭하며, 용어, 콘텐츠 아이템은 본 명세서에서 사용될 때 이러한 임의의 표시 가능한 정보의 임의의 모음을 지칭한다. 콘텐츠 사업자는 예를 들어, 콘텐츠를 클라이언트로 제공하기 위한 하나 이상의 콘텐츠 제공 서비스를 제공할 수 있다. 콘텐츠 제공 서비스는 하나 이상의 서버 상에 위치할 수 있다. 콘텐츠 제공 서비스는 하나 이상의 고객의 수요를 충족시키기 위해 확장 가능할 수 있으며 유입 클라이언트 요청의 개수 및 유형을 기초로 용량이 증가 또는 감소할 수 있다. 콘텐츠 제공 서비스의 일부분이 요청 클라이언트에서 감소된 레이턴시의 위치로 이주될 수 있다. 예를 들어, 콘텐츠 사업자는 특정 클라이언트와 물리적 및/또는 논리적으로 가장 가까운 콘텐츠 제공 서비스와 연관된 시스템 또는 네트워크의 "에지"를 결정할 수 있다. 그 후 콘텐츠 제공자는 예를 들어, 자원을 "스핀-업", 이주시키거나 그 밖의 다른 방식으로 특정 클라이언트와 인터페이싱하기 위한 결정된 에지와 연관된 구성요소를 채용할 수 있다. 이러한 에지 결정은, 일부 경우, 특정 클라이언트와 대화하기에 적합한 구성요소를 식별하고 이용하기 위한 효율적인 기법을 제공할 수 있으며, 일부 실시예에서, 콘텐츠 사업자와 하나 이상의 클라이언트 간 통신을 위한 레이턴시가 감소한다.
덧붙여, 일부 구현예에서 특정 방법 또는 프로세스 블록이 생략될 수 있다. 본 명세서에 기재된 방법 및 프로세스는 임의의 특정 시퀀스에 한정되지 않으며, 블록 또는 이와 관련된 상태가 적절한 그 밖의 다른 시퀀스로 수행될 수 있다. 예를 들어, 기재된 블록 또는 상태가 특정하게 개시된 바와 다른 순서로 수행되거나, 복수의 블록 또는 상태가 단일 블록 또는 상태로 조합될 수 있다. 예시적 블록 또는 상태가 직렬, 병렬, 또는 그 밖의 다른 일부 방식으로 수행될 수 있다. 블록 또는 상태가 개시된 예시적 실시예에 추가되거나 이로부터 제거될 수 있다.
다양한 아이템이 사용 동안 메모리 또는 저장장치에 저장되는 것으로 도시되며 메모리 관리 및 데이터 무결성을 위해 이들 아이템 또는 이의 일부분이 메모리와 그 밖의 다른 저장 장치 간에 교환될 수 있다. 대안으로, 그 밖의 다른 실시예에서, 소프트웨어 모듈 및/또는 시스템의 일부 또는 전부가 또 다른 디바이스 상의 메모리에 실행될 수 있고 컴퓨터간 통신을 통해 컴퓨팅 시스템과 통신할 수 있다. 덧붙여, 일부 실시예에서, 시스템 및/또는 모듈의 일부 또는 전부가 그 밖의 다른 방식으로, 가령, 펌웨어 및/또는 하드웨어, 비제한적 예를 들면, 하나 이상의 ASIC(application-specific integrated circuit), 표준 집적 회로, 제어기(가령, 적절한 명령을 실행시킴으로써 구현되며, 마이크로제어기 및/또는 임베디드 제어기를 포함함), 필드-프로그램 가능 게이트 어레이(FPGA), 복합 프로그램 가능 논리 디바이스(complex programmable logic device) 등으로 부분적으로 구현 또는 제공될 수 있다. 모듈, 시스템 및 데이터 구조 중 일부 또는 전부가 컴퓨터 판독형 매체, 가령, 하드 디스크, 메모리, 네트워크 또는 휴대용 매체 상에 저장되어 적절한 드라브에 의해 판독되거나 적절한 연결을 통해 판독될 수 있다. 시스템, 모듈 및 데이터 구조는 다양한 컴퓨터 판독형 전송 매체, 가령, 무선-기반 및 유선/케이블-기반 매체 상에서 생성된 데이터 신호로서 전송될 수 있고 다양한 형태(가령, 단일 또는 멀티플렉싱된 아날로그 신호의 일부로서 또는 복수의 이산 디지털 패킷 또는 프레임으로서)를 취할 수 있다. 이러한 컴퓨터 프로그램 프로덕트는 그 밖의 다른 실시예에서 그 밖의 다른 형태를 취할 수 있다. 따라서 본 발명은 그 밖의 다른 컴퓨터 시스템 구성에 의해 실시될 수 있다.
본 명세서에서 사용되는 조건적 언어, 가령, "~일 수 있다", "예를 들어" 등은, 달리 특정하게 언급되지 않는 한 또는 맥락상 달리 이해되지 않는 한, 다른 실시예는 포함하지만 특정 실시예가 특정 특징부, 요소 및/또는 단계를 포함하는 것을 의도한다. 따라서 이러한 조건부 언어가 특징부, 요소 및/또는 단계가 하나 이상의 실시예를 위해 임의의 방식으로 요구되거나, 하나 이상의 실시예가 저자의 입력 또는 프롬프팅에 무관하게, 이들 특징, 요소 및/또는 단계가 임의의 특정 실시예에 포함되거나 이들 실시예에서 수행될지 여부를 결정하기 위한 로직을 반드시 포함하는 것을 의미하지는 않는다. "포함하는(comprising)", "포함하는(including)", "갖는(having)" 등의 용어는 동의어이며, 개방형으로 포괄적으로 사용되고 추가 요소, 특징부, 동작, 작업 등을 배제하지 않는다. 또한, 용어 "또는"은 포괄적 의미(배타적 의미가 아님)로 사용되어, 예컨대, 요소들의 리스트를 연결하기 위해 사용될 때, 용어 "또는"은 리스트 내 하나, 일부 또는 모든 요소를 의미한다.
특정 실시예가 기재되었지만, 이들 실시예는 단지 예시로서만 제공되며 본 명세서에 개시된 본 발명의 범위를 한정하려는 의도를 갖지 않는다. 따라서 상기의 기재의 어떤 것도 임의의 특정 특징부, 특성, 단계, 모듈 또는 블록이 필수 또는 불가피한 것을 의미하지 않는다. 실제로, 본 명세서에 기재된 신규한 방법 및 시스템이 다양한 형태로 구현될 수 있는데, 구체적으로, 본 명세서에 기재된 방법 및 시스템의 형태의 다양한 생략, 치환 및 변경이 본 명세서에 개시된 본 발명의 사상 내에서 이뤄질 수 있다. 이하의 청구항 및 이들의 균등예가 본 발명의 사상 및 범위 내에서 속하는 이러한 형태 또는 수정을 포함하도록 의도된다.

Claims (20)

  1. 시스템으로서,
    하나 이상의 프로세서,
    명령 세트를 저장하기 위한 하나 이상의 메모리를 포함하며, 상기 명령 세트는 하나 이상의 프로세서에 의해 실행될 때 하나 이상의 프로세서로 하여금
    복수의 오디오 샘플을 수신하는 동작,
    상기 복수의 오디오 샘플의 각각의 오디오 샘플을 복수의 악센트 중 적어도 하나씩과 연관시키는 동작,
    복수의 악센트 중 제1 악센트의 제1 조합된 오디오 특성을, 상기 제1 악센트와 연관된 오디오 샘플의 제1 샘플 오디오 특성을 조합함으로써, 결정하는 동작,
    복수의 악센트 중 제2 악센트의 제2 조합된 오디오 특성을, 상기 제2 악센트와 연관된 오디오 샘플의 제2 샘플 오디오 특성을 조합함으로써, 결정하는 동작,
    제3 악센트의 제3 조합된 오디오 특성을, 상기 제1 악센트의 제1 조합된 오디오 특성과 상기 제2 악센트의 제2 조합된 오디오 특성을 조합함으로써 결정하는 동작,
    상기 제3 악센트의 제3 조합된 오디오 특성을 상기 복수의 악센트 중 적어도 하나의 타 악센트와 연관된 타 오디오 특성에 비교하는 동작,
    제4 악센트와 상기 제3 악센트 간 번역 모델을 생성하는 동작,
    제1 음성 언어의 입력 오디오 부분을 수신하는 동작, 및
    상기 입력 오디오 부분이 제4 액센트와 연관되는지 여부를 결정하고, 연관되는 경우, 상기 번역 모델에 적어도 부분적으로 기초하여, 상기 제1 음성 언어의 제3 액센트와 연관된 출력 오디오 부분을 출력하는 동작을 하게 하는, 시스템.
  2. 제1항에 있어서, 제3 악센트는 중립 악센트인, 시스템.
  3. 제1항에 있어서, 출력하는 동작은 입력 오디오 부분의 적어도 일부분의 피치, 톤, 강세, 및 멜로디 중 적어도 하나를 조절하는 동작을 포함하는, 시스템.
  4. 제1항에 있어서, 입력 오디오 부분은 제1 파티와 제2 파티 간 오디오 통신 세션 동안 제1 파티에 의해 말해진 오디오를 포함하고, 출력 오디오 부분은 오디오 통신 세션 동안 제2 파티에게 재생되는, 시스템.
  5. 방법으로서,
    제1 악센트의 제1 조합된 오디오 특성을, 상기 제1 악센트와 연관된 오디오 샘플의 제1 샘플 오디오 특성을 조합함으로써, 결정하는 단계,
    제2 악센트의 제2 조합된 오디오 특성을, 상기 제2 악센트와 연관된 오디오 샘플의 제2 샘플 오디오 특성을 조합함으로써, 결정하는 단계,
    제3 악센트의 제3 조합된 오디오 특성을, 상기 제1 악센트의 제1 조합된 오디오 특성과 제2 악센트의 제2 조합된 오디오 특성을 조합함으로써, 결정하는 단계,
    제3 악센트의 제3 조합된 오디오 특성을 하나 이상의 타 악센트와 연관된 타 오디오 특성에 비교하는 단계,
    제4 악센트와 상기 제3 악센트 간 번역 모델을 생성하는 단계,
    제1 음성 언어에서 제4 악센트와 연관된 입력 오디오 부분을 수신하는 단계, 및
    상기 번역 모델에 적어도 부분적으로 기초하여, 제1 음성 언어의 제3 악센트와 연관된 출력 오디오 부분을 출력하는 단계를 포함하는, 방법.
  6. 제5항에 있어서, 입력 오디오 부분이 제4 악센트와 연관됨을 결정하는 단계를 더 포함하는, 방법.
  7. 제6항에 있어서, 입력 오디오 부분은, 상기 입력 오디오 부분을 캡처하는 디바이스의 지리적 위치에 적어도 부분적으로 기초하여 제4 악센트와 연관된 것으로 결정되는, 방법.
  8. 제6항에 있어서, 입력 오디오 부분은, 상기 입력 오디오 부분의 하나 이상의 오디오 특성을 제4 악센트와 연관된 오디오 샘플의 하나 이상의 제4 샘플 오디오 특성에 적어도 부분적으로 매칭시킴으로써, 제4 악센트와 연관된 것으로 결정되는, 방법.
  9. 제5항에 있어서, 오디오 입력 부분의 하나 이상의 오디오 특성을 식별하기 위해 입력 오디오 부분과 연관된 고속 푸리에 변환(fast Fourier transform) 및 MFCC(mel-frequency cepstral coefficient) 중 적어도 하나를 계산하는 단계를 더 포함하는, 방법.
  10. 제5항에 있어서, 제3 악센트는 중립 악센트를 포함하는, 방법.
  11. 제5항에 있어서, 출력하는 단계는 입력 오디오 부분의 적어도 일부분의 피치, 톤, 강세, 및 멜로디 중 적어도 하나를 조절하는 단계를 포함하는, 방법.
  12. 제5항에 있어서, 번역 모델은 적어도 부분적으로 하나 이상의 인공 신경망에 의해 결정되는, 방법.
  13. 제5항에 있어서, 입력 오디오 부분은 제1 파티와 제2 파티 간 오디오 통신 동안 제1 파티에 의해 말해진 오디오를 포함하고, 출력 오디오 부분은 오디오 통신 세션 동안 제1 파티에게 재생되는, 방법.
  14. 명령의 세트가 저장된 비일시적(non-transitory) 컴퓨터 판독형 매체로서, 상기 명령은 기계에 의해 수행될 때, 기계로 하여금
    제1 악센트의 제1 조합된 오디오 특성을, 제1 악센트와 연관된 오디오 샘플의 제1 샘플 오디오 특성을 조합함으로써 결정하는 것,
    제2 악센트의 제2 조합된 오디오 특성을, 제2 악센트와 연관된 오디오 샘플의 제2 샘플 오디오 특성을 조합함으로써 결정하는 것,
    제1 악센트의 제1 조합된 오디오 특성과 제2 악센트의 제2 조합된 오디오 특성을 조합함으로써, 제3 악센트의 제3 조합된 오디오 특성을 결정하는 것,
    제3 악센트의 제3 조합된 오디오 특성을 하나 이상의 타 악센트와 연관된 타 오디오 특성에 비교하는 것,
    제4 악센트와 상기 제3 악센트 간 번역 모델을 생성하는 것,
    제1 음성 언어의 제4 악센트와 연관된 입력 오디오 부분을 수신하는 것, 및
    상기 번역 모델에 적어도 기초하여, 제1 음성 언어의 제3 악센트와 연관된 출력 오디오 부분을 출력하는 것을 포함하는 동작을 수행하게 하는, 비일시적 컴퓨터 판독형 매체.
  15. 제14항에 있어서, 동작은 입력 오디오 부분이 제4 악센트와 연관됨을 결정하는 것을 더 포함하는, 비일시적 컴퓨터 판독형 매체.
  16. 제15항에 있어서, 상기 입력 오디오 부분은 입력 오디오 부분을 캡처한 디바이스의 지리적 위치를 적어도 부분적으로 기초로 하여 제4 악센트와 연관된다고 결정되는, 비일시적 컴퓨터 판독형 매체.
  17. 제15항에 있어서, 입력 오디오 부분의 하나 이상의 오디오 특성을 제4 악센트와 연관된 오디오 샘플의 하나 이상의 제4 샘플 오디오 특성에 적어도 부분적으로 매칭시킴으로써, 입력 오디오 부분은 제4 악센트와 연관된다고 결정되는, 비일시적 컴퓨터 판독형 매체.
  18. 제14항에 있어서, 동작은, 오디오 입력 부분의 하나 이상의 오디오 특성을 식별하기 위해 입력 오디오 부분과 연관된 고속 푸리에 변환 및 MFCC(mel-frequency cepstral coefficient) 중 적어도 하나를 계산하는 것을 더 포함하는, 비일시적 컴퓨터 판독형 매체.
  19. 제14항에 있어서, 출력하는 것은 입력 오디오 부분의 적어도 일부분의 피치, 톤, 강세, 및 멜로디 중 적어도 하나를 조절하는 것을 포함하는, 비일시적 컴퓨터 판독형 매체.
  20. 제14항에 있어서, 입력 오디오 부분은 제1 파티와 제2 파티 간 오디오 통신 세션 동안 제1 파티에 의해 말해진 오디오를 포함하고, 출력 오디오 부분은 오디오 통신 세션 동안 제2 파티로 재생되는, 비일시적 컴퓨터 판독형 매체.
KR1020197021381A 2016-12-21 2017-12-20 악센트 번역 KR102303917B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/387,038 2016-12-21
US15/387,038 US10163451B2 (en) 2016-12-21 2016-12-21 Accent translation
PCT/US2017/067727 WO2018119145A1 (en) 2016-12-21 2017-12-20 Accent translation

Publications (2)

Publication Number Publication Date
KR20190120176A KR20190120176A (ko) 2019-10-23
KR102303917B1 true KR102303917B1 (ko) 2021-09-23

Family

ID=60991610

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197021381A KR102303917B1 (ko) 2016-12-21 2017-12-20 악센트 번역

Country Status (5)

Country Link
US (1) US10163451B2 (ko)
EP (1) EP3559942A1 (ko)
KR (1) KR102303917B1 (ko)
CN (1) CN110199348B (ko)
WO (1) WO2018119145A1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101970008B1 (ko) * 2017-06-23 2019-04-18 (주)디노비즈 딥러닝 신경망회로에 의한 번역알고리즘을 구비한 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램 및 사용자 장치
US11361168B2 (en) 2018-10-16 2022-06-14 Rovi Guides, Inc. Systems and methods for replaying content dialogue in an alternate language
US11450311B2 (en) * 2018-12-13 2022-09-20 i2x GmbH System and methods for accent and dialect modification
US10839788B2 (en) * 2018-12-13 2020-11-17 i2x GmbH Systems and methods for selecting accent and dialect based on context
US11289094B2 (en) 2020-04-01 2022-03-29 Honeywell International Inc. System and method for assisting pilot through clearance playback
US20220180762A1 (en) * 2020-12-09 2022-06-09 International Business Machines Corporation Computer assisted linguistic training including machine learning
CN112698807B (zh) * 2020-12-29 2023-03-31 上海掌门科技有限公司 语音播报方法、设备及计算机可读介质
US11948550B2 (en) 2021-05-06 2024-04-02 Sanas.ai Inc. Real-time accent conversion model

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040148161A1 (en) 2003-01-28 2004-07-29 Das Sharmistha S. Normalization of speech accent
US20100082326A1 (en) 2008-09-30 2010-04-01 At&T Intellectual Property I, L.P. System and method for enriching spoken language translation with prosodic information
US20130218568A1 (en) * 2012-02-21 2013-08-22 Kabushiki Kaisha Toshiba Speech synthesis device, speech synthesis method, and computer program product
US20130238336A1 (en) 2012-03-08 2013-09-12 Google Inc. Recognizing speech in multiple languages
US20160210959A1 (en) * 2013-08-07 2016-07-21 Vonage America Inc. Method and apparatus for voice modification during a call

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080147404A1 (en) * 2000-05-15 2008-06-19 Nusuara Technologies Sdn Bhd System and methods for accent classification and adaptation
US20070038455A1 (en) * 2005-08-09 2007-02-15 Murzina Marina V Accent detection and correction system
JP4966048B2 (ja) * 2007-02-20 2012-07-04 株式会社東芝 声質変換装置及び音声合成装置
FR2920583A1 (fr) * 2007-08-31 2009-03-06 Alcatel Lucent Sas Procede de synthese vocale et procede de communication interpersonnelle, notamment pour jeux en ligne multijoueurs
US8751239B2 (en) * 2007-10-04 2014-06-10 Core Wireless Licensing, S.a.r.l. Method, apparatus and computer program product for providing text independent voice conversion
JP2009237747A (ja) * 2008-03-26 2009-10-15 Denso Corp データポリモーフィング方法及びデータポリモーフィング装置
CN101281745B (zh) * 2008-05-23 2011-08-10 深圳市北科瑞声科技有限公司 一种车载语音交互系统
JP5038995B2 (ja) * 2008-08-25 2012-10-03 株式会社東芝 声質変換装置及び方法、音声合成装置及び方法
CN101650943A (zh) * 2008-12-19 2010-02-17 中国科学院声学研究所 一种非母语语音识别系统及方法
CN101826263B (zh) * 2009-03-04 2012-01-04 中国科学院自动化研究所 基于客观标准的自动化口语评估系统
US8468012B2 (en) * 2010-05-26 2013-06-18 Google Inc. Acoustic model adaptation using geographic information
US9984700B2 (en) * 2011-11-09 2018-05-29 Speech Morphing Systems, Inc. Method for exemplary voice morphing
GB2501067B (en) * 2012-03-30 2014-12-03 Toshiba Kk A text to speech system
US8923829B2 (en) * 2012-12-28 2014-12-30 Verizon Patent And Licensing Inc. Filtering and enhancement of voice calls in a telecommunications network
US9117451B2 (en) * 2013-02-20 2015-08-25 Google Inc. Methods and systems for sharing of adapted voice profiles
US9299358B2 (en) * 2013-08-07 2016-03-29 Vonage America Inc. Method and apparatus for voice modification during a call
US9613620B2 (en) * 2014-07-03 2017-04-04 Google Inc. Methods and systems for voice conversion
US9330681B2 (en) * 2014-07-16 2016-05-03 International Business Machines Corporation Voice signal modulation service for geographic areas
US9558734B2 (en) * 2015-06-29 2017-01-31 Vocalid, Inc. Aging a text-to-speech voice
CN105632501B (zh) * 2015-12-30 2019-09-03 中国科学院自动化研究所 一种基于深度学习技术的自动口音分类方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040148161A1 (en) 2003-01-28 2004-07-29 Das Sharmistha S. Normalization of speech accent
US20100082326A1 (en) 2008-09-30 2010-04-01 At&T Intellectual Property I, L.P. System and method for enriching spoken language translation with prosodic information
US20130218568A1 (en) * 2012-02-21 2013-08-22 Kabushiki Kaisha Toshiba Speech synthesis device, speech synthesis method, and computer program product
US20130238336A1 (en) 2012-03-08 2013-09-12 Google Inc. Recognizing speech in multiple languages
US20160210959A1 (en) * 2013-08-07 2016-07-21 Vonage America Inc. Method and apparatus for voice modification during a call

Also Published As

Publication number Publication date
CN110199348A (zh) 2019-09-03
EP3559942A1 (en) 2019-10-30
US20180174595A1 (en) 2018-06-21
WO2018119145A1 (en) 2018-06-28
CN110199348B (zh) 2023-05-12
KR20190120176A (ko) 2019-10-23
US10163451B2 (en) 2018-12-25

Similar Documents

Publication Publication Date Title
KR102303917B1 (ko) 악센트 번역
US11582420B1 (en) Altering undesirable communication data for communication sessions
US20210049362A1 (en) Exploiting visual information for enhancing audio signals via source separation and beamforming
CN111433846B (zh) 全面管理和连续训练的自动语音识别服务
US9053708B2 (en) System, method and program product for providing automatic speech recognition (ASR) in a shared resource environment
US10971168B2 (en) Dynamic communication session filtering
JP2014519627A (ja) 疎結合コンポーネントを使用した音声認識
CN113539283A (zh) 基于人工智能的音频处理方法、装置、电子设备及存储介质
US11688412B2 (en) Multi-modal framework for multi-channel target speech separation
US10777186B1 (en) Streaming real-time automatic speech recognition service
US11178447B1 (en) Audio synchronization for audio and video streaming
US20230141398A1 (en) Data augmentation for intent classification
US20200066281A1 (en) Asr training and adaptation
US10375454B1 (en) Audio data and image data integration
EP4331188A1 (en) Automated recording highlights for conferences
US20210398524A1 (en) Natural language processing
US10897534B1 (en) Optimization for a call that waits in queue
US10681402B2 (en) Providing relevant and authentic channel content to users based on user persona and interest
US20240096346A1 (en) Multi-Talker Audio Stream Separation, Transcription and Diaraization
US11404087B1 (en) Facial feature location-based audio frame replacement
US11330228B1 (en) Perceived content quality through dynamic adjustment of processing settings
US11670317B2 (en) Dynamic audio quality enhancement
US11929845B2 (en) AI-based virtual proxy nodes for intent resolution in smart audio devices
US11871068B1 (en) Techniques for detecting non-synchronization between audio and video

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant