KR20170046751A

KR20170046751A - 음성 전사를 위한 시스템 및 방법

Info

Publication number: KR20170046751A
Application number: KR1020177008484A
Authority: KR
Inventors: 아우니 하눈; 칼 케이스; 자레드 캐스퍼; 브라이언 카탄자로; 그레고리 디아모스; 에리히 엘센; 라이언 프렌저; 산지브 사티쉬; 세굽타 ?하브라타; 세굽타 ?㎸瞿沅纘?; 애덤 코츠; 앤드류 응
Original assignee: 바이두 유에스에이 엘엘씨
Priority date: 2014-12-15
Filing date: 2015-12-14
Publication date: 2017-05-02
Also published as: CN107077842B; US11562733B2; JP6435403B2; CN107077842A; US10540957B2; EP3180785B1; US20160171974A1; US20190371298A1; JP2017538137A; EP3180785A1; KR101991733B1; WO2016100231A1; EP3180785A4

Abstract

본 명세서에는 단대단 심층 학습을 이용하여 개발된 최신의 음성 인식 시스템의 실시예가 제시된다. 실시예에 있어서, 힘들게 설계된 처리 파이프라인에 의존하는 종래의 음성 시스템에 비해, 모델 구조가 훨씬 간단할 뿐만 아니라, 잡음이 있는 환경에서 사용 시 이러한 종래의 시스템 또한 성능이 떨어지는 경향이 있다. 반대로, 본 시스템의 실시예는, 배경 잡음, 잔향 또는 발언자 변이를 모델링하기 위한 수작업으로 설계된 컴포넌트를 필요로하는 대신, 이러한 영향에 로버스트한 함수를 직접 학습한다. 음소 사전뿐만 아니라, 심지어 “음소”의 개념도 필요하지 않게 된다. 실시예는, 다수의 GPU를 이용할 수 있는 양호하게 최적화된 회귀성 신경망(RNN) 트레이닝 시스템 및 트레이닝을 위한 대량의 다양한 데이터를 효율적으로 획득하는 것을 허용하는 신규 데이터 합성 기법들을 포함한다. 본 시스템의 실시예는 또한 광범위하게 사용되는 최신 상업용 음성 시스템에 비해 도전적인 잡음 환경을 더욱 잘 처리할 수 있다.

Description

음성 전사를 위한 시스템 및 방법{SYSTEMS AND METHODS FOR SPEECH TRANSCRIPTION}

본 출원은 2015년 6월 9일에 제출하고 발명의 명칭이 “SYSTEMS AND METHODS FOR SPEECH TRANSCRIPTION”이고 공동 양도되고 공동 계류중이며 발명인으로 Awni Hannun, Carl Case, Jared Casper, Bryan Catanzaro, Gregory Diamos, Erich Elsen, Ryan Prenger, Sanjeev Satheesh, Shubhabrata Sengupta, Adam Coates 및 Andrew Y. Ng가 나열된 미국 특허 출원 제14/735,002호 (안건번호 제28888-1910호)의 우선권 권익을 주장하는바, 상기 출원은 35 USC § 119(e)에 따라 공동 양도되고 공동 계류 중인 아래와 같은 특허문헌의 우선권을 주장한다. 즉, (1) 2014년 12월 15일에 제출하고 발명의 명칭이 “DEEP SPEECH: SCALING UP END-TO-END SPEECH RECOGNITION”이고 발명인으로 Awni Hannun, Carl Case, Jared Casper, Bryan Catanzaro, Greg Diamos, Erich Elsen, Ryan Prenger, Sanjeev Satheesh, Shubho Sengupta, Adam Coates 및 Andrew Y. Ng가 나열된 미국 특허 출원 제62/092,251호 (안건번호 제28888-1908P호) 및 (2) 2014년 12월 17일에 제출하고 발명의 명칭이 “DEEP SPEECH: SCALING UP END-TO-END SPEECH RECOGNITION”이고 발명인으로 Awni Hannun, Carl Case, Jared Casper, Bryan Catanzaro, Greg Diamos, Erich Elsen, Ryan Prenger, Sanjeev Satheesh, Shubho Sengupta, Adam Coates 및 Andrew Y. Ng가 나열된 미국 특허 출원 제62/093,057호(안건번호 제28888-1910P호）의 우선권을 주장한다. 상술한 각 특허문헌들의 전체 내용은 참조로서 본 명세서에 원용된다.

본 개시는 데이터 처리에 관한 것이다. 구체적으로, 본 개시는 음성으로부터 문자로의 전사를 개선하기 위한 시스템 및 방법에 관한 것이다.

컴퓨팅 장치는 점점 더 흔해져 가고 있다. 컴퓨팅 장치는 다양한 방식 및 다양한 설정으로 사용되며, 다양한 형태 요소로 표현된다. 예를 들어, 컴퓨팅 장치는 전자기기(예컨대, 텔레비전, 냉장고 및 온도 조절 장치), 모바일 장치(예컨대, 스마트폰 및 태블릿 PC) 및 착용형 장치(예컨대, 스마트 워치)에 이용된다.

컴퓨팅 장치의 형태 요소 및 용도가 끊임없이 확장됨에 따라, 더욱 좋은 방식으로 이러한 장치들과 인터페이싱하는 것이 요구되고 있다. 한정된 공간 또는 한정된 입력/출력 능력의 컴퓨팅 장치를 다룰 경우, 인터페이싱 문제가 확연히 드러나게 된다.

또한, 장치의 인터페이싱 능력에 상관없이, 항상 개선된 인터페이스가 필요하게 된다. 더욱 간편하거나 더욱 자연스러운 인터페이스를 제작하는 것은 상당한 경쟁 우위를 제공할 수 있다. 날로 증가하는 관심을 받고있는 인터페이스 분야 중 하나가 음성 인식 분야이다.

상위 음성 인식 시스템은 통상적으로 다수의 연산법 및 수작업으로 설계된 처리 단계들로 구성된 복잡한 파이프라인(pipeline)에 의존한다. 종래의 음성 시스템은 설계가 복잡한 수많은 처리 단계를 이용하며, 전문적인 입력 특징, 음향 모델 및 히든 마르코프 모델(HMM)을 포함한다. 이러한 파이프라인을 개선하기 위하여, 해당 분야의 전문가들은 일발적으로 엄청난 노력을 투자하여 이러한 파이프라인의 특징 및 모델을 조정한다. 심층 학습 연산법의 도입은, 통상적으로 음향 모델을 개선하는 것을 통해, 음성 시스템의 성능을 개선한다. 비록 이러한 개선은 현저하였으나, 심층 학습은 종래의 음성 파이프라인에서 제한된 역할만 한다. 이에 따라, 잡음 환경에서 음성을 인식하는 것과 같은 태스크의 성능을 개선하기 위하여, 강인성(robustness)을 실현하도록 시스템의 나머지 부분들을 고심하여 설계하여야 한다.

따라서, 개선된 음성으로부터 문자로의 전사를 제공하는 시스템 및 방법을 제공할 필요가 있다.

상기 과제를 해결하기 위한 본 발명의 컴퓨터 구현 방법의 일 태양(aspect)은, 발언 집합 중의 각 발언에 대해: 스펙트로그램 프레임 집합을 포함하는 발언을 하나 또는 다수의 스펙트로그램 프레임의 문맥과 함께 상기 전사 모델의 제1층에 입력하되, 상기 전사 모델의 제1층은 상기 스펙트로그램 프레임 집합으로부터의 각 스펙트로그램 프레임을 평가하는 단계; 상기 전사 모델로부터 상기 발언에 대한 예측된 문자 또는 문자 확율을 출력하는 단계; 및 상기 발언에 대한 예측 중의 착오를 측정하도록 손실을 컴퓨팅하는 단계; 그라운드 트루스 문자가 주어진 상기 전사 모델의 예측된 출력의 기울기를 평가하는 단계; 및 역전파를 이용하여 상기 전사 모델을 업데이터하는 단계;를 포함한다.

상기 과제를 해결하기 위한 본 발명의 컴퓨터 구현 방법의 다른 태양은, 사용자로부터 입력된 오디오를 수신하는 단계; 상기 입력된 오디오의 총 파워를 트레이닝된 신경망 모델의 트레이닝에 이용되는 트레이닝 샘플 집합과 일치시키도록, 상기 입력된 오디오를 정규화시키는 단계; 상기 정규화된 입력된 오디오를 하나 또는 다수의 시간값만큼 수평 이동시켜 상기 정규화된 입력된 오디오로부터 오디오 파일의 지터 집합을 생성하는 단계; 상기 정규화된 입력된 오디오를 포함하는 상기 오디오 파일의 지터 집합으로부터의 각 오디오 파일에 대해: 각 오디오 파일에 대한 스펙트로그램 프레임 집합을 생성하는 단계; 상기 오디오 파일을 스펙트로그램 프레임의 문맥과 함께 트레이닝된 신경망에 입력하는 단계; 상기 트레이닝된 신경망으로부터 예측된 문자 확율 출력을 획득하는 단계; 및 상기 예측된 문자 확율 출력으로부터의 문자 스트링을 하나 또는 다수의 단어로 해석하는 언어 모델의 제약을 받는 상기 트레이닝된 신경망으로부터의 상기 예측된 문자 확율 출력을 이용하여 상기 입력된 오디오의 전사를 디코딩하는 단계;를 포함한다.

상기 다른 과제를 해결하기 위한 본 발명의 비일시적 컴퓨터 판독 가능한 매체의 일 태양은, 비일시적 컴퓨터 판독 가능한 매체에 있어서, 하나 또는 다수의 명령어 시퀀스를 포함하되, 상기 명령어 시퀀스는 하나 또는 다수의 프로세서에 의해 실행될 경우, 사용자로부터 입력된 오디오를 수신하는 단계; 오디오 파일로부터 스펙트로그램 프레임 집합을 생성하는 단계; 상기 오디오 파일을 스펙트로그램 프레임의 문맥과 함께 트레이닝된 신경망 집합에 입력하는 단계; 상기 트레이닝된 신경망 집합으로부터 예측된 문자 확율 출력을 획득하는 단계; 및 상기 예측된 문자 확율 출력으로부터의 문자 스트링을 하나 또는 다수의 단어로 해석하는 언어 모델의 제약을 받는 상기 트레이닝된 신경망 집합으로부터 획득한 상기 예측된 문자 확율 출력을 이용하여 상기 입력된 오디오의 전사를 디코딩하는 단계;를 진행하도록 하는 것을 특징으로 한다.

아래에 본 발명의 실시예들을 참조로 하게 되며, 이러한 실시예들의 예시는 첨부된 도면들에 도시될 수 있다. 이러한 도면들은 예시적인 것일 뿐, 한정적인 것이 아니다. 본 발명은 대체적으로 이러한 실시예들의 문맥에서 설명되나, 본 발명의 범위를 이러한 특정 실시예들로 한정하기 위한 것이 아님을 이해하여야 한다.
도1은 본 발명의 실시예에 따른 모델 또는 모델 집합을 트레이닝하기 위한 방법을 나타낸다.
도2는 그래픽적으로 본 발명의 실시예에 따른 신경망 모델을 나타낸다.
도3은 본 발명의 실시예에 따른 모델을 트레이닝함에 있어서 지터 샘플을 이용하기 위한 방법을 나타낸다.
도4는 본 발명의 실시예에 따른 신경망 모델 집합을 조합하기 위한 방법을 나타낸다.
도5는 본 발명의 실시예에 따른 음성 모델을 이용하여 모델의 출력을 제약하기 위한 방법을 나타낸다.
도6은 본 발명의 실시예에 따른 모델의 성능을 개선하기 위한 방법을 나타낸다.
도7a 및 도7b는 본 발명의 실시예에 따른 데이터 병렬화를 위한 방법을 나타낸다.
도8은 본 발명의 실시예에 따른 모델 병렬화를 위한 방법을 나타낸다.
도9는 본 발명의 실시예에 따른 데이터를 스트라이딩하기 위한 방법을 나타낸다.
도10은 본 발명의 실시예에 따른 잡음 오디오 클립 집합을 수집하기 위한 방법을 나타낸다.
도11은 본 발명의 실시예에 따른 합성화된 잡음 샘플을 생성하기 위한 방법을 나타낸다.
도12는 본 발명의 실시예에 따른 롬바드 효과(Lombard-effect) 오디오 샘플을 생성하기 위한 방법을 나타낸다.
도13은 본 발명의 실시예에 따른 트레이닝된 모델 또는 트레이닝된 모델 집합을 이용하기 위한 방법을 나타낸다.
도14는 본 발명의 실시예에 따른 컴퓨팅 시스템의 간략화된 블록도를 나타낸다.

아래의 설명에서 해석의 목적으로 본 발명에 대한 이해를 제공하도록 특정 세부사항들을 설명하기로 한다. 그러나, 본 발명은 이러한 세부사항들이 없이 실현할 수도 있음을 해당 기술분야의 당업자는 자명할 것이다. 또한, 아래에 설명되는 본 발명의 실시예들은 여러가지 방식으로 실현될 수 있으며, 예컨대 과정, 장치, 시스템, 설비 또는 유형의 컴퓨터 판독 가능한 매체 상의 방법으로 실현될 수 있음을 해당 기술분야의 당업자는 자명할 것이다.

첨부된 도면들에 도시된 부재 또는 모듈은 본 발명의 실시예들을 설명하기 위한 것이며, 본 발명을 흐리는 것을 피면하기로 한다. 또한, 전체적인 논술에서 부재가 별도의 기능 소자들로 설명될 수 있으나, 즉, 서브 유닛들을 포함할 수 있으나, 각종 부재 또는 그의 일부분은 별도의 부재들로 분할되거나 함께 통합될 수 있으며, 즉, 단일 시스템 또는 부재 내에 통합되는 것을 포함한다는 것을 해당 기술분야의 당업자는 자명할 것이다. 본 명세서에서 논술한 기능 또는 조작들은 부재로 실현될 수 있음을 유의하여야 한다. 부재는 소프트웨어, 하드웨어 또는 이들의 조합으로 구현될 수 있다.

또한, 도면 중의 각 부재 또는 시스템 사이의 연결은 직접적인 연결에만 제한되는 것이 아니다. 반대로, 중간 부재로 이러한 부재들 사이의 데이터를 수정하거나 리포멧하거나 또는 기타 방식으로 변화시킬 수 있다. 또한, 추가의 연결 또는 더욱 적은 연결을 이용할 수 있다. 용어 “결합(coupled)”, “연결(connected)” 또는 “통신적 결합(communicatively coupled)”은 직접적인 연결, 무선 연결, 및 하나 또는 다수의 중간 장치로의 간접적인 연결을 포함한다는 것을 이해하여야 함을 유의하여야 한다.

명세서에서 “하나의 실시예”, “바람직한 실시예”, “일 실시예” 또는 “다수의 실시예들”에 대한 언급은, 실시예를 결부하여 설명한 특정 특징, 구조, 특성 또는 기능이 본 발명의 적어도 하나의 실시예에 포함되며, 하나 이상의 실시예에 포함될 수 있음을 의미한다. 또한, 상기 문장이 명세서 각 위치에서 나타나는 것은 동일한 하나 또는 다수의 실시예에 반드시 모두 참조되어야 하는 것은 아니다. 또한, 일부 용어들은 설명의 목적으로 명세서 각 위치에서 사용될 뿐, 한정적인 목적으로 이해하여서는 아니된다. 본 명세서에서 사용되는 임의의 주제는 구성의 목적으로 이용될 뿐, 명세서 또는 특허청구범위를 한정하는 것으로 이해하여서는 아니된다.

또한, (1) 일부 단계들은 선택적으로 실행될 수 있고, (2) 단계들은 본 명세서에 기재된 특정 순서에 한정되지 않을 수 있으며, (3) 일부 단계들은 상이한 순서로 실행될 수 있으며, (4) 일부 단계들은 동시에 실행될 수 있음을 유의하여야 한다.

A． 도입부

본 명세서에는 단대단 음성 시스템의 실시예(여기서 “심층 음성”으로 지칭될 수 있음)가 제시되며, 여기서 심층 학습은 기존 방법에서의 다수의 연산법 및 수작업으로 설계된 처리 단계들을 대체한다.실시예에 있어서, 음성 모델과 결합하는 이러한 방법은 기존 방법에 비해 어려운 음성 인식 태스크에서 더욱 높은 성능을 나타낼 뿐만 아니라 더욱 간단하다. 실시예에 있어서, 이러한 결과들은 다수의 그래픽 처리 유닛(GPU)과 수천시간의 데이터로 대형 회귀성 신경망(RNN)을 트레이닝하는 것을 통해 획득할 수 있다. 이러한 시스템의 실시예는 데이터로부터 직접 학습하므로, 발언자 적응 및 잡음 필터링을 위한 전문적인 컴포넌트가 요구되지 않는다. 사실상, 발언자의 변화 및 잡음에 대한 강인성(robustness)이 관건적인 설정에 있어서, 본 발명의 실시예는, 본 명세서에서 진일보로 기술된 바와 같이, 심층 음성은 Switchboard Hub5’00 코퍼스 상에서 기존에 개시된 방법보다 탁월하고, 16.5%의 착오율에 달하며, 잡음 음성 인식 테스트에서의 표현이 상업용 시스템보다 탁월하다.

그러나, 단대단 심층 학습의 장점을 이용하는 것은, (i) 대형의 라벨링된 트레이닝 집합을 구성하기 위해 혁신적인 방식을 찾아내야 하고, (ii) 이러한 모든 데이테를 효율적으로 이용하기에 충분히 큰 망을 트레이닝하기 위한 여러가지 방식을 찾아내야 한다는 등 여러가지 도전에 직면하게 됨을 유의하여야 한다. 음성 시스템에서 라벨링된 데이터를 처리함에 있어서의 하나의 도전은 문자 전사와 입력된 음성의 정렬을 찾아야 한다는 것이다. 이러한 문제들은 사전에 이미 해결되었으므로, 신경망으로 하여금 트레이닝 과정에 정렬되지 않은 전사된 오디오를 쉽게 소모할 수 있도록 한다. 아울러, 대형 신경망을 신속하게 트레이닝하기 위한 방법을 제출하였으며, 다중 GPU로 연산처리를 진행하는 속도의 장점을 증명하였다. 본 실시예에 있어서, 이러한 견해들은 더욱 복잡한 기존 방법보다 탁월할 수 있는 대형 음성 데이터 집합과 확장 가능한 RNN 트레이닝을 기반으로 하는 일반적인 학습 시스템의 비전에 이용될 수 있다. 이러한 비전은 수작업으로 구성된 음성 특징을 대체하기 위해 조기 자율형 특징 학습 기술을 적용한 작업에서 부분적으로 영감을 받았다.

실시예에 있어서, GPU에 잘 매핑되도록 전문적으로 회귀 신경망(RNN) 모델이 개발되었다. 또한, 실시예에 있어서, 병렬화를 개선하도록 새로운 모델 분할 방안이 채택될 수 있다. 추가로, 실시예에 있어서, 시스템이 학습하여 처리하여야 할 왜곡을 표현하는 라벨링된 대량의 음성 데이터를 어셈블링하기 위한 처리과정이 개발되었다. 수집된 데이터와 합성화된 데이터의 조합을 이용하여, 본 명세서에 개시된 시스템의 실시예는 현실적인 잡음과 발언자의 변화(롬바드 효과(Lombard-effect)를 포함)에 대한 강인성(robustness)을 학습하였다. 단대단 음성 시스템의 실시예에 내장된 이러한 아이디어는 기존의 파이프라인보다 더욱 간단할 뿐만 아니라 상대적으로 어려운 음성 태스크 상에서 더욱 양호하게 실행되는 시스템을 제공하였다. 심층 음성 시스템의 실시예는 완전한 Switchboard Hub5’00 테스트 집합 상에서 16.5%의 착오율에 달하며, 이는 공개된 최고의 결과이다. 또한, 발명인이 자체로 구성한 새로운 잡음 음성 인식 데이터 집합 상에서, 심층 음성 시스템의 실시예는 19.1%의 단어 착오율에 달하였으나, 최고의 상업용 시스템은 30.5%의 착오율에 달한다.

본 명세서에는 신규의 음성 인식 시스템 및 상기 시스템을 트레이닝하고 이용하기 위한 새로운 방법의 실시예가 제시된다. 아래에서 먼저 회귀 신경망 모델 및 트레이닝 프레임워크의 실시예가 제시되고, 이어서 최적화된 실시예 및 데이터 포획 및 데이터 합성의 실시예에 대해 논술된다. 마지막으로, 심층 음성 시스템의 실시예의 최신의 성능을 나타내는 용법과 실험결과가 제시된다.

B． 회귀 신경망( RNN ) 트레이닝

실시예에 있어서, 회귀 신경망(RNN)은 음성 스펙트로그램을 획득하고 영어 문자 전사를 생성하도록 트레이닝된다. 트레이닝 집합으로부터 단일 발언x 및 라벨y을 샘플링한다고 가정할 경우:

이다.

각 발언

은 길이

의 시계열(time-series)이고, 여기서 각 타임 슬라이스는 오디오 특징

의 벡터이고,

이다. 실시예에 있어서, 스펙트로그램을 특징으로 이용할 수 있으므로,

는 오디오 프레임 중의 제p 주파수 해상도(frequency bin)가 시간t에서의 파워를 나타낸다. 실시예에 있어서, RNN은

으로 입력 서열(sequence)x을 전사를 위한 문자 확율의 서열y로 전환시키는 것을 목표로 하고, 여기서

{a, b, c,…, z, 빈칸, 생략 부호, 공백}이다.

도1은 본 발명의 실시예에 따른 모델 또는 모델 집합을 트레이닝하기 위한 방법을 나타낸다. 실시예에 있어서, 스펙트로그램 프레임 x _(t) 의 서열을 포함하는 발언 x을 C 개의 프레임의 맥락과 함께 회귀 신경망(RNN) 모델의 제1층에 입력(105)하되, RNN 모델의 제1층은 스펙트로그램 프레임 중의 적어도 일부를 평가하고, 발언x은 관련된 그라운드 트루스 라벨 또는 이미 알려진 라벨y을 구비한다.

실시예에 있어서, RNN 모델은 다섯(5)층의 히든 유닛을 포함할 수 있다. 입력x에 있어서, 층l에서의 히든 유닛은

으로 표시되며,

를 입력으로 기약한다. 실시예에 있어서, 최초의 세층은 비 회귀적이다. 제1층에 있어서, 각 시간t에서, 출력은 스펙트로그램 프레임 x _t 및 C 개의 프레임의 맥락에 의존하고, 해당 C 개의 프레임의 맥락은 일측 또는 양측으로부터의 맥락일 수 있다. 따라서, 실시예에 있어서, 맥락은 임의의 스펙트로그램 프렘임의 앞, 프레임의 뒤, 또는 스펙트로그램 프렘임의 앞과 뒤에 모두 나타나는 하나 또는 다수의 스펙트로그램 프렘임을 포함할 수 있다. 실시예에 있어서, 스펙트로그램 프레임x _t 이 클립(clip)의 가장자리에 위치할 경우, 맥락은 일측으로부터 유래된 것일 수 있거나, 또는 누락된 측에 추가된 데이터를 구비할 수 있음을 유의하여야 한다. 실시예에 있어서, 프레임의 맥락은

{5, 7, 9}일 수 있으나, 기타 수량의 프레임을 이용할 수도 있다.

실시예에 있어서, RNN 모델은 다수의 히든층을 편력하여 컴퓨팅(110)을 진행한다. 예를 들어, 실시예에 있어서, 나머지 비 회귀층은 각 시간 단계에 대해 독립적인 데이터에 대한 작업을 진행한다. 따라서, 각 시간t에 있어서, 최초의 세(3)층은 아래와 같은 수학식으로 컴퓨팅된다:

이고,

여기서,

는 클립된 정류 선형(ReLu) 활성화 함수이고,

,

는 각각 층l의 가중치 매트릭스 및 바이어스 파라미터(bias parameter)이다. 기타 활성화 함수를 이용할 수 있음을 유의하여야 한다. 실시예에 있어서, ReLu 유닛은 회귀층 중의 활성화가 폭발하는 것을 방지하도록 클립되고, 실천에서 해당 유닛이 상부 가장자리에서 포화되는 것은 아주 드물다.

실시예에 있어서, 제4층은 양방향 회귀망이다. 실시예에 있어서, 이러한 층은 두 세트의 히든 유닛을 포함하되, 일 세트는 순방향 회귀(forward recurrence)를 구비하는 히든 유닛

이고, 일 세트는 역방향 회귀(backward recurrence)를 구비하는 히든 유닛

이며:

이고,

이다.

실시예에 있어서, 제i ' 발언에 대해,

는

로부터

으로 순차적으로 산출되고, 유닛

은 역으로

로부터

으로 순차적으로 산출됨을 유의하여야 한다.

실시예에 있어서, 제5(비 회귀)층은 순방향 유닛과 역방향 유닛을 입력으로 하고,

이며, 여기서,

이다.

실시예에 있어서, 출력층은 표준 softmax 함수이고, 이는 각 타임 슬라이스t 및 알파벳 중의 문자k에 대해 예측 문자 확율을 산출(115)하고,

이다.

여기서,

및

는 각각 가중치 매트릭스의 제k 열 및 제k 바이어스를 표시한다.

일단

의 예측치가 산출(115)되면, 예측 중의 착오를 측정하도록 손실을 계산(120)한다. 실시예에 있어서, 연결주의 시간 분류(CTC; Connectionist Temporal Classification) 손실

을 이용하여 예측 중의 착오를 측정할 수 있으나, 기타 착오 측정 기술을 이용할 수도 있다. 트레이닝 과정에서, 주어진 그라운드 트루스 문자 서열y의 망 출력에 대하여 기울기

를 평가(125)한다. 이러한 관점에서, 모든 모델 파라미터에 대하여 기울기를 산출하는 것은 망의 나머지 부분을 경유하여 역전파(130)를 통해 진행할 수 있다. 실시예에 있어서, Nesterov의 가속 기울기 방법을 트레이닝에 적용할 수 있으나, 기타 기술을 이용할 수도 있다. 실시예에 있어서, 0.99의 모멘텀(momentum)을 이용할 수 있으며, 데이터를 편력한 각 에포치(epoch) 이후, 가장 신속한 수렴을 실현하도록 선택된 상수 인자로 학습 속도를 어닐링(anneal)할 수 있다.

도2는 완전 RNN 모델의 실시예를 나타낸다. RNN 모델의 실시예의 그래픽 표시에 나타낸 바와 같이, 모델(205)은 다섯(5)층을 포함한다. 최초의 세층(제1층(210), 제2층(215) 및 제3층(200))은 비 회귀층이고, 여기서 제1층(210)으로의 입력은 스펙트로그램 프레임x _t (240) 및 C개의 프레임의 맥락(예컨대, C(245))이다. 제4층(225 및 230)은 양방향 회귀망이고, 순방향 회귀를 구비하는 일 세트의 히든 유닛

(225) 및 역방향 회귀를 구비하는 일 세트의 히든 유닛

(230)을 포함한다. 마지막으로, 도2에 도시된 바와 같이, 제5층(235)은 비 회귀층이고, 제4층(225 및 230)의 순방향 유닛과 역방향 유닛 양자의 출력을 입력으로 수신하고, 예측된 문자 확율을 출력한다.

도2에 도시된 구조는 기타 모델보다 훨씬 간단하고, 도시된 실시예는 (병렬화되기 가장 어려운) 단일 회귀층으로 한정되었으며, 해당 모델은 장단기 메모리(LSTM) 회로를 사용하지 않는다.

그러나, LSTM 셀에는 각 단계마다 다중 제어 뉴런(gating neuron) 응답을 컴퓨팅하고 저장하여야 하는 결함이 존재한다. 순방향 회귀 및 역방향 회귀는 순차적인 것이므로, 실시예에 있어서 이러한 소량의 추가 코스트는 연산처리의 병목이 될 수 있다. 실시예에서 동질적 모델(homogeneous model)을 이용함으로써, 회귀 활성화의 연산처리는, ReLu 출력의 컴퓨팅이 오직 GPU 상의 소수의 고도로 최적화된 기초 선행 대수 서브프로그램(BLAS; Basic Linear Algebra Subprograms) 작업과 단일 포인트 별 비선형에만 관련되는 면에서 효율적이다.

1． 정규화

모델의 실시예는 확장된 데이터 집합(데이터 집합을 생성하고 데이터 집합을 확장하기 위한 방식의 실시예는 본원의 제4 소절에 기재됨)으로 트레이닝되었으나, 본 명세서에 사용되는 회귀망의 실시예는 여전히 데이터 트레이닝을 피팅(fitting)하기에 능숙하다. 실시예에 있어서, 분산을 진일보로 감소시키기 위하여, 여러가지 기술을 이용할 수 있다. 실시예에 있어서, 트레이닝 과정에, 이탈율(dropout rate)(예컨대 5%)을 적용한다. 실시예에 있어서, 이탈율은 피드 포워드층에 적용되고, 회귀 히든 활성화에는 적용되지 않는다.

망 평가를 진행하는 과정에서 컴퓨터 비전에 자주 이용되는 기술은, 수평 이동 또는 반사를 통해 입력을 임의로 지터링하고, 망을 통해 지터링된 각 버전을 피딩(feed)하고, 결과에 대해 표결하거나 평균화한다. 그러나, 이는 음성 인식에서 보편적이지 않으며, 원본 오디오 파일을 좌우로 5 밀리세컨드(ms)(이는 본 명세서 중의 실시예에 사용되는 필터 뱅크의 스텝 크기의 반을 대표함)만큼 수평 이동시키고, 재컴퓨팅된 특징을 순방향으로 전파시키고, 결과를 평균화시키는 것이 유익하다.

따라서, 본 발명의 실시예는 오디오 데이터의 지터 집합을 생성하고 이용하는 것을 포함한다. 도3은 본 발명의 실시예에 따른 모델을 트레이닝함에 있어서 지터 샘플을 이용하기 위한 방법을 나타낸다. 실시예에 있어서, 하나 또는 다수의 시간값으로 오디오 파일을 수평 이동시켜 오디오 파일에 대해 오디오 파일의 지터 집합을 생성(305)한다. 예를 들어, 오디오 파일은 시간상에서 전후방으로 몇 밀리세컨드(예컨대 5 ms)만큼 이동될 수 있다. 오디오 파일의 지터 집합(상응한 원본 오디오 파일을 포함함)은 스펙트로그램 집합으로 전환(310)되고, 스펙트로그램 집합은 모델 또는 모델 집합에 입력된다. 실시예에 있어서, 모델 또는 모델 집합으로부터 스펙트로그램 집합에 대한 출력 결과를 획득(315)한다. 상응한 오디오 파일의 출력을 획득하도록 스펙트로그램 집합에 대한 출력 결과를 혼합(blend)(320)한다. 실시예에 있어서, 혼합은 평균화(예컨대 평균값, 중간값 또는 모드를 구함), 가중된 평균법, 또는 표결을 통해 진행할 수 있다.

실시예에 있어서, 테스트 시간에, 디코딩 이전의 확율을 평균화시키는 다수의 RNN의 조합을 이용할 수도 있다. 모델 집합을 이용하는 것은 더욱 좋은 결과를 얻을수 있다. 그러나, 모델 사이에는 시간 이동이 존재할 수 있다. 도4는 본 발명의 실시예에 따른 신경망 모델 집합을 조합하기 위한 방법을 나타낸다. 도4에 도시된 바와 같이, 신경망 모델 집합의 출력을 조합할 때 신경망 모델 사이의 시간 이동 문제를 해결하기 위하여 아래와 같은 방법 중 하나 또는 다수를 이용할 수 있으며, 이러한 방법에는, (a) 동일한 시간 이동을 나타내는 신경망 모델을 이용(405)하는 방법, (b) 정렬된 출력을 구비하도록 입력을 각종의 모델로 이동(410)시키는 방법, 및 (c) 각 출력들이 정렬되도록, 모델의 출력 사이의 정렬을 체크(415)하고 출력 중의 하나 또는 다수를 이동시키는 방법이 포함된다.

예를 들어, RNN 출력 확율의 단순 평균화(naive averaging)는 미묘한 방식으로 실패할 수 있음을 유의하여야 한다. 실시예에 있어서, CTC 손실 함수는 RNN 출력의 작은 시간 이동에 구속받지 않으며, 여러개의 똑같이 양호한 망은 기본상 동일한 출력 확율을 구비하는 이동 버전을 생성할 수 있다. 격리시킴에 있어서, 이러한 망들의 표현은 우수하나, 이동 확율을 평균화시킴에 있어서 더이상

의 추정에 대한 분산 감소를 발생시키지 않으며, 실제로 대개 성능의 저하를 초래하게 된다. 이러한 문제를 해결하기 위하여, 실시예에 있어서, 출력 전사의 시작점(onset)이 동일한 시간에 시작되는 모델만을 결합시킨다. 이는 수동으로 출력을 이동시킴으로써 실현할 수 있으나, 매칭 이동을 구비한 집합이 실험에 적용될 수 있을 만큼 충분한 망이 이미 트레이닝되었다.

2． 언어 모델

대량의 라벨링된 음성 데이터로부터 트레이닝을 진행할 경우, RNN 모델의 실시예는 판독 가능한 문자 레벨 전사를 학습하여 생성할 수 있다. 실제로, 수많은 전사에 대해, 트레이닝된 RNN 모델의 실시예로 예측한 가장 가능성이 있는 문자 서열은 외부의 언어 제약이 없이도 완전히 정확하다. RNN으로 인해 발생되는 착오는 영어 단어의 음성학적으로 그럴듯한 해석으로 되는 경향이 존재한다--표1에는 일부의 예제들을 나타낸다.

표1: RNN의 실시예로부터 직접 출력된 전사의 예제(좌측) 및 착오가 언어 모델의 추가를 통해 수정된 전사의 예제(우측)

착오는 대부분 트레이닝 집합에 거의 나타나지 않거나 전혀 나타나지 않는 문자에 발생하게 된다. 실천에 있어서, 이는 모델이 알아야 할 필요가 있는 모든 단어 또는 언어 구조를 들을 만큼 충족한 음성 데이터로부터 트레이닝을 진행하는 것이 비현실적임을 피면하기 어렵다. 따라서, 모델의 실시예는 언어 모델를 포함하거나, 언어 모델과 통합된다. 실시예에 있어서, 이러한 모델들은 라벨링되지 않은 방대한 텍스트 코퍼스로부터 용이하게 트레이닝되므로, N-그램 언어 모델이 이용된다. 비교를 진행하기 위하여, 우리의 음성 데이터 집합은 통상적으로 3백만개에 달하는 발언을 포함하나, 제6소절 중의 실험에 이용되는 N-그램 언어 모델은 2.2억개의 문장을 구비하는 코퍼스로부터 트레이닝되며, 해당 코퍼스는 495,000개의 단어를 구비하는 어휘집을 지원한다.

도5는 본 발명의 실시예에 따른 언어 모델을 이용하여 모델의 출력을 억제하기 위한 방법을 나타낸다. 실시예에 있어서, 발언x에 대한 예측된 문자 출력

을 획득(505)한다. RNN 모델의 출력

이 주어질 경우, RNN 출력 및 언어 모델 양자에 따라 가장 가능성이 있는 문자 서열 c ₁ , c ₂ , …을 찾아내도록 검색(510)을 진행하되, 여기서 언어 모델은 문자 스트링을 단어로 해석한다. 실시예에 있어서, 결합된 목표를 극대화시키는 서열c:

을 찾아내는 것을 목표로 하며,

여기서, α 및 β는 (교차 검증으로 설정된) 조정가능한 파라미터이며, 해당 조정가능한 파라미터는 RNN, 언어 모델의 제약, 및 문장 길이 사이의 균형을 제어한다. 항

은 N -그램 모델에 따른 서열c의 확율을 표시한다. 실시예에 있어서, 빔 검색 연산법을 이용하여 목표를 극대화시키며, 여기서 전형적인 빔 크기는 1000 내지 8000의 범위내에 위치한다.

3． 최적화

실시예에 있어서, 모델의 작업을 가속시키도록 하나 또는 다수의 최적화를 이용할 수 있다. 도6은 본 발명의 실시예에 따른 모델의 성능을 개선하기 위한 방법을 나타낸다. 실시예에 있어서, 하나 또는 다수의 최적화를 실시(605)할 수 있으며, 이는 (a) 하나 또는 다수의 데이터 병렬화, (b)모델 병렬화, 및 (c) 입력을 모델의 제1층으로 스트라이딩하는 것을 포함한다.

전술한 바와 같이, 망이 고속 실행을 감당할 수 있고, 따라서 쾌속 트레이닝을 진행할 수 있도록, 실시예는 여러가지 설계 결책을 포함한다. 예를 들어, 동질적 정류 선형 망의 이용은 실시가 간단하고 오직 극소수의 고도로 최적화된 BLAS 호출에 의존하며, 상기 동질적 정류 선형 망의 이용은 실행 속도에 도움이 된다. 충분히 펼쳐질(unroll) 경우, 망의 실시예는 전형적인 발언을 위한 약 50억개의 연결을 포함하며, 따라서, 효율적인 연산처리가 중요하게 된다. 실시예에 있어서, 다중 GPU 트레이닝이 이용될 수 있으나, 이를 효율적으로 진행하기 위하여 추가로 이하에서 설명되는 것과 같이 일부의 작업이 요구될 수 있다.

a) 데이터 병렬화

실시예에 있어서, 데이터 처리를 효율적으로 돕기 위하여, 데이터 병렬화의 두개의 레벨이 이용될 수 있으며, 여기서 다수의 데이터 집합은 동시에 처리될 수 있다. 도7a 및 도7b는 본 발명의 실시예에 따른 데이터 병렬화를 위한 방법을 나타낸다.

먼저, 도7a에 도시된 바와 같이, 각 GPU는 다수의 예제에 대해 병행으로 처리(705)를 진행할 수 있다. 실시예에 있어서, 이는 다수의 예제를 단일 매트릭스로 연쇄(concatenate)시키는 것을 통해 진행될 수 있다. 예를 들어, 회귀층에서 단일 매트릭스 벡터 곱셈

을 진행하는 대신, 대부분은

를 계산하여 병행으로 진행할 수 있으며, 여기서,

이고,

는 시간t에서의 제i ’ 예제

에 해당된다. 실시예에 있어서, GPU는

가 상대적으로 넓을 경우에(예컨대 1000개 또는 더 많은 예제) 가장 효율적이고, 따라서 하나의 GPU 상에서 되도록 많은 예제를 처리하는 것이 바람직하며, 예컨대 GPU 메모리의 한계에 도달하는 것이 바람직하다.

나아가, 단일 GPU 자체가 지원할 수 있는 미니 배치 또는 데이터 집합보다 더 많은 미니 배치 또는 데이터 집합을 이용하는 것이 요구될 경우, 도 7b에 도시된 바와 같이, 다중 GPU를 편력하는 데이터 병렬화가 이용될 수 있다.

도 7b에 도시된 바와 같이, 상이한 GPU 상에서 모델의 사본을 이용(715)하며, 여기서 각 GPU는 단독적인 미니 배치의 예제를 처리한다. 이어서, 실시예에 있어서, 각 GPU는 각 반복 기간에 그의 산출된 기울기와 그의 동등체(peer)를 결합(720)시킨다. 실시예에 있어서, 통상적으로 GPU를 편력한 2× 내지 4×의 데이터 병렬화가 발명자에 의해 실험에 적용된다.

그러나, 발언이 상이한 길이를 구비할 경우, 이러한 발언들이 단일 매트릭스 곱셈에 결합되지 못하므로 데이터 병렬화를 실시하기 어렵다. 실시예에 있어서, 이러한 문제는 길이에 따라 트레이닝 예제를 분류하고 유사한 크기의 발언만을 미니 배치로 결합시키며, 필요시 무음으로 패딩하여 배치 중의 모든 발언들로 하여금 동일한 길이를 구비하도록 함으로써 해결된다.

b) 모델 병렬화

데이터 병렬화는 적당한 배수의 미니 배치 크기(예를 들어, 2 내지 4)를 위해 트레이닝 가속을 발생시키나, 더욱 많은 예제를 단일 기울기 업데이터에 배칭하는 것은 트레이닝 수렴 속도를 개선하지 못하므로, 수확 체감(Diminishing Return)에 봉착할 수 있다. 즉, 2× 만큼의 GPU 상에서 2× 에 달하는 예제를 처리하는 것은 트레이닝에서 항상 2×가속을 발생시키는 것이 아니다. 총 미니 배치 크기를 고정시키면서 실시예를 2×에 달하는 GPU에 확장하는 것도 비효율적이며, 각 GPU 내의 미니 배치가 감소함에 따라, 대다수의 작업은 메모리 대역폭의 제한을 받게 된다. 진일보로 확장하기 위하여, 실시예에 있어서, 모델의 분할로 진행하는 병렬화(“모델 병렬화”)를 이용할 수 있다.

회귀층의 시퀀스 본질로 인해, 모델의 일부 실시예에 대해 병렬화를 진행하는 것은 어려운 과제이다. 양방향 층이 서로 독립적인 순방향 연산처리와 역방향 연산처리로 구성되므로, 두개의 연산처리를 병행으로 진행하는 것이 가능하다. 그러나 유감스럽게도, 실시예에 있어서, 단순하게 RNN을 별개의 GPU 상의 위치

및

에 분할하는 것은

및

양자에 의존하는

를 컴퓨팅할 경우 상당한 데이터 전송에 관련된다. 따라서, 실시예에 있어서, 모델을 대해 더 적은 통신을 요구하는 작업에 대한 상이한 분할이 선택될 수 있으며――모델은 시간의 차원에 따라 반으로 나뉠 수 있다.

도8은 본 발명의 실시예에 따른 모델 병렬화를 위한 방법을 나타낸다. 실시예에 있어서, 시간의 차원에 따라 모든층(회귀층 제외)을 쉽게 분해할 수 있으며, 여기서 시계열의 제1 반부(t = 1로부터 t = T ⁽ⁱ⁾ /2로)를 일 GPU에 할당하고, 제2 반부를 다른 일 GPU에 할당한다. 실시예에 있어서, 회귀층의 활성화를 연산처리할 경우, 제1 GPU는 순방향 활성화

에 대한 연산처리를 시작하고, 제2 GPU는 역방향 활성화

에 대한 연산처리를 시작한다(805). 중간 포인트(t = T ⁽ⁱ⁾ /2)에서, 두개의 GPU는 중간 활성화

및

를 교환시키고 역할을 교환시킨다(810). 이어서, 제1 GPU는

의 역방향 연산처리를 완료하고, 제2 GPU는

의 순방향 연산처리를 완료한다(815).

c) 스트라이딩

회귀층은 병렬화를 진행하기 가장 어려우므로, 본 발명의 실시예는 “스탭”(또는 스트라이드(stride))을 취하는 것을 통해 RNN의 실시예의 회귀층의 실행 시간을 감소시키는 작업을 포함할 수 있다. 도9는 본 발명의 실시예에 따른 데이터를 스트라이딩하기 위한 방법을 나타낸다.

도9에 도시된 바와 같이, 회귀층에 대한 처리 시간은 원본 입력에서 스탭 크기가 q 타임 슬라이스인(예컨대 스탭 거리가 2인) 스트라이드를 취하여 펼쳐진 RNN이 더 적은 스탭을 구비하도록 하는 것을 통해 단축될 수 있다. 이러한 방식은 제1층에서 스탭 크기가 2인 컨볼루션 망과 유사하다. 실시예에 있어서, cuDNN 라이브러리는 캘리포니아 주 샌타클래라(Santa Clara)의 NVIDIA에서 제조한 CUDA® 호환가능한 GPU 상의 심층 신경망(DNN)의 처리 속도를 향상시키기 위한 최적화된 저레벨의 원시 언어(primitive) 집합이며, 이러한 cuDNN 라이브러리는 컨볼루션의 제1층을 효율적으로 실현할 수 있다.

4． 트레이닝 데이터

대규모의 심층 학습 시스템은 대량의 라벨링된 데이터를 요구한다. 시스템의 실시예를 트레이닝하기 위하여, 수많은 기록된 발언과 상응한 영어 전사가 수요되나, 충족한 규모의 공공 데이터 집합이 얼마 존재하지 않는다. 모델의 실시예를 트레이닝하기 위하여, 9600명의 발언자로부터 5000시간의 낭독 음성으로 구성된 규모가 상당한 데이터 집합을 수집하였다. 비교를 진행하기 위하여, 표2는 이용가능한 라벨링된 데이터 집합을 요약한다.

표2: 심층 음성의 실시예를 트레이닝하기 위한 데이터 집합의 요약. Wall Street Journal, Switchboard 및 Fisher corpora (Language Resources and Evaluation Conference（언어 자원 및 평가 회의）(LREC) 에서의 C. Cieri, D. Miller 및 K. Walker의 “The Fisher corpus: a Resource for the Next Generations of Speech-to-text”, 볼륨 4, 제69-71페이지, 2004년, 전체 내용은 참조로 본 명세서에 원용됨)은 모두 언어 데이터 협회에 의해 발표되었다.

실시예에 있어서, 음성 데이터는 아마존 메카니컬 터크를 통해 유급 자원 봉사자로부터 기록된다. 각 지원 봉사자(“터커”)는 짧은 문자 제시를 컴퓨터 마이크로폰에 낭독하도록 지시를 받는다. 기록된 음성 및 매칭된 문자 전사는 서버 상의 데이터 집합에 추가된다. 이러한 방식으로 생성한 낭독 음성이 기타 맥락에서 들리는 자발성 음성과 다르게 들리므로, 터커는 되도록 자연스럽게 말하도록 지시를 받는다. 별도의 믿음직한 터커 팀은 가끔씩 품질을 제어하는 임무를 받아, 기록된 발언과 매칭되는 전사를 확인한다. 데이터 집합이 다양한 발언자를 포함하고 극소수의 공헌이 큰 자에 의해 매몰되지 않는 것을 확보하도록 지원 봉사자의 공헌에 대한 관리를 강제적으로 진행한다. 실시예에 있어서, 터커의 컴퓨터 스피커 또는 헤드셋을 통해 잡음을 재생하여 롬바드 효과(Lombard-effect)를 유발시키기도 하는 바, 아래에 이에 대한 상세한 논술을 진행하기로 한다.

a) 중첩(superimpose)에 의한 합성

실시예에 있어서, 잠재적인 트레이닝 데이터를 보다 더 확장시키기 위하여, 데이터 합성을 이용한다. 실시예에 있어서, 시스템 장애가 존재하는 잡음 환경에서의 성능을 향상시키는 것을 목표로 한다. 그러나, 잡음 환경으로부터 라벨링된 데이터(예를 들어, 낭독 음성)를 포획하는 것은 비현실적이며, 따라서 이러한 데이터를 생성하기 위한(본 명세서에 개시된) 기타 방식을 찾아냈다.

먼저, 오디오 신호는 소스 신호의 중첩 과정으로 생성한다. 이러한 사실은 잡음 트레이닝 데이터를 합성하기에 이용된다. 예를 들면, 음성 오디오 트랙

및 “잡음” 오디오 트랙

이 주어질 경우, “잡음 음성” 트랙은

으로 형성되어 잡음 환경에서 포획된 오디오를 시뮬레이션할 수 있다. 실시예에 있어서, 잔향, 울림 또는 기타 감폭 형식은

,

또는 양자의 파워 스펙트럼에 추가될 수 있고, 이어서 이들을 함께 합하여 상당히 현실적인 오디오 정경을 생성한다.

그러나, 이러한 방법에는 일정한 리스크가 존재함을 유의하여야 한다. 예를 들어, 1000시간의 클린 음성을 취득하고, 1000시간의 잡음 음성을 생성하기 위해, 일반적으로 약 1000시간을 넘나드는 특유한 잡음 트랙이 요구된다. 10시간의 중복된 잡음에 만족하는 것은 회귀망으로 하여금 잡음 트랙을 기억하고 합성화된 데이터로부터 이러한 잡음 트랙을 “감산(subtract)”하는 가능성이 존재하므로, 이는 바람직하지 않다. 따라서, 길이가 1000시간의 단일 잡음 소스

를 이용하는 대신, 실시예에 있어서, 공공 비디오 소스로부터 수집되기 더욱 용이한 대량의 더 짧은 클립을 이용하고, 이들을 중첩하기 전에 별개의 잡음 소스로 간주한다.

즉,

이다.

도10은 본 발명의 실시예에 따른 잡음 오디오 클립 집합을 수집하기 위한 방법을 나타낸다. 실시예에 있어서, 후보 “잡음” 클립 집합을 수집(1005)하되, 상기 후보 “잡음” 클립 집합은 다수의 소스(예컨대 인터넷 또는 기타 데이터 집합) 중의 임의의 소스로부터 수집될 수 있다.

오디오 또는 비디오 클립으로부터 수집된 다수의 신호를 중첩시킬 경우, 실제 환경 중에 기록된 잡음의 유형과 상이한 “잡음” 소리를 획득할 수 있다. 합성 데이터와 실제 데이터 사이의 양호한 매칭을 확보하기 위하여, 각 주파수 대역에서의 평균 파워가 실제 잡음 기록에서 관찰된 평균 파워와 현저히 상이한 임의의 후보 잡음 클립을 포기할 수 있다. 따라서, 실시예에 있어서, 평가를 진행하기 위해 후보 잡음 클립 집합으로부터 후보 잡음 클립을 선택(1010)할 수 있다. 후보 잡음 클립의 주파수 대역에서의 평균 파워가 실제 잡음 기록에서 관찰된 평균 파워와 현저히 상이한지를 확정하기 위해 체크(1015)를 진행할 수 있다. 후보 잡음 클립의 주파수 대역에서의 평균 파워가 상이할 경우, 상기 클립을 포기(1030)한다. 후보 잡음 클립의 주파수 대역에서의 평균 파워가 상이하지 않을 경우, 상기 클립을 승인된 잡음 클립 집합에 추가(1020)한다.

실시예에 있어서, 평가하고자 하는 다수의 후보 잡음 클립이 존재하는지를 확정(1025)한다. 평가하고자 하는 하나 또는 다수의 후보 잡음 클립이 존재할 경우, 과정(단계(1010) 내지 단계(1020))을 반복할 수 있다. 그러나, 평가하고자 하는 후보 잡음 클립이 더이상 존재하지 않을 경우, 과정을 종료(1035)한다.

승인된 잡음 클립 집합이 주어질 경우, 합성화된 잡음 집합을 생성할 수 있다. 도11은 본 발명의 실시예에 따른 합성화된 잡음 샘플을 생성하기 위한 방법을 나타낸다. 실시예에 있어서, 잡음 트랙을 형성하도록, 승인된 잡음 클립 집합으로부터 선택된 하나의 잡음 클립 또는 다수의 잡음 클립을 함께 추가(1105)할 수 있다. 실시예에 있어서, 오디오 샘플에 대한 잡음 트랙의 신호 대 잡음비를 조정(1110)한다. 합성화된 잡음 샘플을 형성하도록, 조정된 잡음 트랙을 오디오 샘플에 추가(1115)하고, 합성화된 잡음 샘플을 트레이닝 데이터 집합에 포함(1120)시킨다. 실시예에 있어서, 만족스러운 수량의 샘플이 생성될 때까지 상기와 같은 과정을 반복(1125)할 수 있으며, 만족스러운 수량의 샘플이 생성될 경우, 상기 과정을 종료(1130)한다.

b) 롬바드 효과(Lombard-effect)의 포획

음성 인식 시스템이 잡음 환경에서 직면하게 되는 하나의 도전적인 효과는 “롬바드 효과(Lombard-effect)”이고, 이러한 효과에서 발언자들은 그들 주위의 잡음을 극복하기 위하여 그들 목소리의 음의 높낮이(pitch) 또는 억양(inflection)을 주동적으로 변화시킨다. 기록된 음성 데이터 집합이 조용한 환경에서 수집되기에, 기록된 음성 데이터 집합에는 이러한 (비자발적인) 효과가 나타나지 않는다. 이러한 효과가 본 명세서의 실시예에서 사용되는 트레이닝 데이터에서 나타나는 것을 확보하기 위하여, 데이터 수집 기간에 롬바드 효과(Lombard-effect)를 의도적으로 유발시킨다. 도12는 본 발명의 실시예에 따른 롬바드 효과(Lombard-effect) 오디오 샘플을 생성하기 위한 방법을 나타낸다.

도12에 도시된 바와 같이, 발언을 기록하는 사람은 헤드폰을 착용(1205)하도록 지시를 받는다. 이어서, 데이터 수집 기간에 발언을 기록할 때 사람이 착용한 헤드폰을 통해 시끄러운 배경 잡음을 재생(1210)시킴으로써 롬바드 효과(Lombard-effect)를 의도적으로 유발시킨다. 잡음은 발언자로 하여금 그들의 목소리의 억양을 변화시키도록 유발시키고, 이로써 트레이닝 데이터에서 롬바드 효과(Lombard-effect)의 포획(1215)이 가능하도록 한다. 잡음은 스피커로 재생시킬 수도 있으나(포획된 오디오로부터 감산될 수 있음), 헤드폰의 사용은 배경 잡음이 포함되지 않은 “클린” 기록을 포획하는 장점을 구비한다는 것을 유의하여야 한다. 클린 기록의 존재는 이후의 기타 합성 잡음의 추가를 허용한다.

5． 트레이닝된 모델의 실시예를 이용하기 위한 예시적 방법

도13은 본 발명의 실시예에 따른 트레이닝된 모델 또는 트레이닝된 모델 집합을 이용하기 위한 방법을 나타낸다. 실시예에 있어서, 사용자로부터 입력된 오디오를 수신(1305)한다. 도13에 도시된 바와 같이, 실시예에 있어서, 총 파워가 모델 또는 모델 집합의 트레이닝에 이용되는 트레이닝 샘플과 일치되도록, 입력된 오디오를 정규화(1310)시킬 수 있다.

실시예에 있어서, 정규화된 입력된 오디오를 하나 또는 다수의 시간값만큼 수평 이동시켜 정규화된 입력된 오디오로부터 오디오 파일의 지터 집합을 생성(1315)할 수 있다. 예를 들어, 오디오 파일의 지터 집합은 정규화된 입력된 오디오와, 시간 상에서 몇 밀리세컨드 이전으로 이동된 오디오 파일 및 시간 상에서 몇 밀리세컨드 이후로 이동된 오디오 파일을 포함할 수 있다.

실시예에 있어서, 정규화된 입력 오디오를 포함하는 오디오 파일의 지터 집합으로부터 n개의 선형으로 분리된 로그 필터 뱅크의 스펙트로그램 및 에너지 항을 컴퓨팅하여 스펙트로그램 프레임 집합을 생성한다. 실시예에 있어서, 필터 뱅크는 q 밀리세컨드 (예컨대 10 ms)로 스트라이딩된 p 밀리세컨드 (예컨대 20 ms)의 윈도우에서 컴퓨팅된다.

실시예에 있어서, 스펙트로그램 프레임 집합으로부터의 각 스펙트로그램 프레임x _(t) 을 하나 또는 다수의 트레이닝된 신경망에 입력(1325)한다. 실시예에 있어서, 스펙트로그램 프레임을 C개의 프레임(예컨대 9개의 프레임)의 문맥과 함께 입력(1325)한다. 프레임의 문맥은 스펙트로그램 프레임의 일측 또는 양측으로부터 유래될 수 있다.

실시예에 있어서, 다수의 트레이닝된 신경망을 이용하고, 입력된 스펙트로그램 프레임에 대한 트레이닝된 신경망 집합으로부터의 예측된 문자 확율 출력들을 함께 결합(1330)시키거나 조합시킨다. 조합은 위에서 도4를 참조하여 설명한 방법 중의 하나 또는 다수를 이용하여 진행할 수 있으나, 기타 방법을 이용할 수도 있다.

마지막으로, 실시예에 있어서, 조합된 예측 문자 확율 출력들에 대해 디코딩(1335)함으로써 입력된 오디오의 전사를 획득한다. 실시예에 있어서, 디코딩 처리는, N-그램 언어 모델을 이용하여 문자 레벨에서, 조합된 예측 문자 확율 출력들의 디코딩을 제약한는 것을 포함할 수 있다.

6． 예시적 실험

모델 시스템의 실시예를 평가하기 위하여 두조의 실험을 진행한다. 이러한 두가지 경우에서, 문자 레벨 전사를 예측하기 위하여 표2 중의 데이터 집합의 선택으로 소절 B에 설명된 모델의 실시예를 트레이닝한다. 이어서, 단어 레벨 전사를 생성하도록, 예측된 확율 벡터와 언어 모델을 디코딩 장치에 피딩하고, 여기서 단어 레벨 전사는 그라운드 트루스 전사와 비교되어 단어 오차율(WER)을 생성한다. 이러한 실험과 결과는 예시적인 방식으로 제공되었으며, 특정 조건하에 본 발명의 실시예를 이용하여 진행되므로, 이러한 실험 및 이러한 실험의 결과는 모두 본 발명의 범위를 한정하기 위한 것으로 이용되지 않음을 유의하여야 한다.

a) 담화 음성: Switchboard Hub5’00 (완전함)

본 발명의 실시예의 시스템(본 명세서에서 심층 음성 실시예, 심층 음성 모델, 심층 음성 망, 심층 음성 시스템 또는 간단히 심층 음성이라 지칭할 수 있음)과 기존의 연구를 비교하기 위하여, 이미 수락되었으나 고도로 도전적인 테스트 집합(Hub5’00 (LDC2002S23))을 이용할 수 있다. 일부 연구자들은 이러한 집합을 “간단한” (Switchboard) 사례와 “어려운” (CallHome) 사례로 분할하며, 이로써 일반적으로 보다 간단한 부분 상의 새로운 결과만을 보고한다. 본 명세서에 기재된 실험에 있어서, 가장 어려운 케이스인 완전 집합을 이용하며, 전체적인 단어 착오율을 보고한다.

심층 음성 시스템은 오직 300시간의 Switchboard 담회식 전화 음성 데이터 집합 상에서 트레이닝되고, Switchboard(SWB) 와 Fisher(FSH; Switchboard와 유사한 방식으로 수집된 2000 시간의 코퍼스) 양자 상에서 트레이닝 된다. Hub5’00 상에서 트레이닝을 진행할 경우, 수많은 연구자들은 오직 Switchboard 담회식 전화 음성의 300시간으로만 트레이닝된 모델에 대해 평가를 진행한다. 부분적인 원인은, 완전한 2000시간의 Fisher 코퍼스 상의 트레이닝이 연산처리 상 어렵기 때문이다. 제3 소절서 언급된 최적화된 기술을 사용하여, 심층 음성 시스템은 오직 몇시간 내에 2300 시간의 데이터 상에서 완전한 추산(pass)을 진행할 수 있다.

Switchboard 및 Fisher 코퍼스가 8kHz의 샘플레이트로 분포되므로, 80개의 선형으로 분리된 로그 필터 뱅크의 스펙트로그램 및 어네지 항이 컴퓨팅된다. 필터 뱅크는 10 ms로 스트라이딩된 20 ms의 윈도우에서 컴퓨팅된다. 멜척도 로그 필터 뱅크(mel-scale log filter banks) 또는 멜주파수 캡스트럴 계수(mel-frequency cepstral coefficients)와 같은 더욱 복잡한 특징들은 평가되지 않는다.

기타 현재의 자동 음성 인식(ASR) 시스템의 성공적인 실현에 있어서, 특히 300 시간의 Switchboard에서 트레이닝을 진행할 경우, 발언자 적응은 중요하다. Hub5’00 상에서 테스트를 진행하는 모델에 있어서, 간단한 형식의 발언자 적응은 각 발언자의 기초상에서 스펙트럼 특징을 정규화시킴으로써 적용된다. 뿐만 아니라, 입력된 특징은 그 어떤 방식으로도 수정되지 않는다.

디코딩을 진행하기 위하여, Fisher 및 Switchboard 전사에서 트레이닝된 30,000개의 단어 어휘집을 구비하는 4 그램의 언어 모델이 이용된다. 목표의 티코딩을 위한 하이퍼파라미터는 보류된 개발 집합 상에서 교차 검증을 통해 선택된다.

테스트된 심층 음성 SWB 모델은 5개의 히든층을 구비하는 망이고, 각 히든층은 오직 300시간의 Switchboard 상에서 트레이닝된 2048개의 뉴런을 구비한다. 심층 음성 SWB + FSH 모델은 5개의 RNN의 조합이고, 각 RNN은 완전한 2300 시간의 결합된 코퍼스 상에서 트레이닝된 2304개의 뉴런을 구비한 5개의 히든층을 구비한다. 모든 망은 문맥의 +/- 9 프레임의 입력 상에서 트레이닝된다.

표3에서는 이러한 결과를 알려준다. Vesely 등의 모델(DNN-HMM sMBR)은 전형적인 하이브리드 DNN-HMM 시스템을 이용하여 트레이닝 집합을 재정열시킨후, DNN의 상부에서 시퀀스 기반의 손실 함수를 사용하였다. 이러한 모델의 결합된 Hub5’00 테스트 집합 상에서의 성능은 이전에 발표한 최고의 결과이다. 결합된 2300 시간의 데이터 상에서 트레이닝을 진행할 경우, 심층 음성 시스템은 이러한 기준선에서 1.9%의 절대적인 WER 및 10.3%의 상대적인 WER을 개선하였다. Maas 등의 모델(DNN-HMM FSH)은 Fisher 2000시간의 코퍼스 상에서 트레이닝을 진행할 경우 19.9%의 WER를 달성하였다. 상기 시스템은 최신의 오픈 소스 음성 인식 소프트웨어인 Kaldi를 이용하여 구축된 것이다. 상당한 양의 데이터 상에서 트레이닝을 진행할 경우, 심층 음성이 가장 우수한 기존 ASR 시스템에 비해 경쟁력이 있음을 증명하기 위해, 이러한 결과를 포함하였다.

표3: Switchboard 데이터 집합 분할 상에서의 발표된 착오율(%WER). “SWB” 및 “CH”로 라벨링된 열은 각각 Hub5’00의 간단한 서브 집합과 어려운 서브 집합이다.

참조문헌 A: K. Vesely, A. Ghoshal, L. Burget 및 D. Povey, “Sequence-Discriminative Training of Deep Neural networks”，Interspeech 2013의 회의 기록, 프랑스 리옹, 2013년 8월, 제2345 내지 2349페이지 (이의 전체 내용은 참조로 본 명세서에 원용된다).

참조문헌 B: A. L. Maas, A. Y. Hannun, C. T. Lengerich, P. Qi、D. Jurafsky 및 A. Y. Ng, “Increasing Deep Neural network Acoustic Model Size for Large Vocabulary Continuous Speech recognition”, abs/1406.7806, 2014년 (//arxiv.org/abs/1406.7806으로부터 획득 가능함) (이의 전체 내용은 참조로 본 명세서에 원용된다).

참조문헌 C: F. Seide, G. Li、X. Chen, D. Yu, “Feature Engineering in Context-Dependent Deep Neural networks for Conversational Speech Transcription”，IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU)의 회의 기록 (미국 하와이 Waikoloa, 2011년 12월 11일), 제24 내지 29페이지 (이의 전체 내용은 참조로 본 명세서에 원용된다).

참조문헌 D: B. Kingsbury, T. N. Sainath 및 H. Soltau, “Scalable Minimum Bayes Risk Training of Deep Neural network Acoustic models Using Distributed Hessian-free Optimization”, INTERSPEECH 회의 기록, 2012년 9월 (이의 전체 내용은 참조로 본 명세서에 원용된다).

참조문헌 E: T. N. Sainath, A.-R. Mohamed, B. Kingsbury 및 B. Ramabhadran, “Deep convolutional neural networks for LVCSR”, 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, 2013년 (이의 전체 내용은 참조로 본 명세서에 원용된다).

b) 잡음 음성

잡음 음성 성능을 테스트하기 위한 표준이 거의 존재하지 않으므로, 10명의 발언자로부터의 100개의 잡음 발언과 100개의 무잡음 발언을 구비하는 평가 집합을 구성한다. 잡음 환경은, 배경 라디오 및 TV, 수조 내에서 씻고 있는 접시, 북적한 카페테리아, 레스토랑 및 빗속에서 주행하는 차량 내부를 포함하였다. 발언 텍스트는 주요하게 웹 검색 쿼리와 텍스트 메세지, 및 뉴스 클립, 전화 담화, 인터넷 댓글, 공개 연설 및 영화 스크립으로부터 유래된다. 잡음 샘플의 신호 대 잡음비(SNR)에 대한 정밀한 제어는 불가능하나, SNR 비율의 목표는 6 dB와 2 dB 사이이다.

이하의 실험에 있어서, RNN의 실시예는 표2에 나열된 (7000 시간 이상인) 모든 데이터 집합 상에서 트레이닝된다. 트레이닝이 15 내지 20개의 에포치에 관한것이고 각 추산에서 새로 합성화된 잡음을 이용하므로, 모델은 100,000 시간을 초과하는 신규의 데이터로부터 학습한다. 또한, 6개의 망의 조합이 이용되며, 여기서 각 망은 2560개의 뉴런을 구비하는 5개의 히든층을 구비한다. 트레이닝 집합 또는 평가 집합에는 그 어떤 형식의 발언자 적응도 사용되지 않는다. 각 예제의 총 파워가 일치하도록, 트레이닝 예제는 각 발언의 기초 상에서 정규화된다. 특징은 10 ms로 스트라이딩된 20 ms의 윈도우에서 컴퓨팅된 160개의 선형으로 분리된 로그 필터 뱅크 및 에너지 항이다. 특징화를 진행하기 전에, 오디오 파일은 16 kHz로 재샘플링된다. 마지막으로, 실험자는 각 주파수 해상도(frequency bin)으로부터 트레이닝 집합 상의 글로벌 평균값을 제거하고, 그로벌 표준 편차로 나누므로, 주요하게 트레이닝의 초기 단계 기간에서 입력이 잘 확장된다.

소절 B.2에 설명된 바와 같이, 5그램의 언어 모델은 디코딩에 이용된다. 언어 모델은 (commoncrawl.org에서 획득 가능한) Common Crawl의 2.2억개의 문장 상에서 트레이닝되고, 각 문장의 문자 중의 적어도 95%가 알파벳에 위치하도록 선택된다. 오직 가장 흔한 495,000개의 단어가 유지되고, 나머지는 “UNKNOWN” 토큰에 다시 매핑된다.

심층 음성 시스템의 트레이닝된 실시예를 아래와 같은 여러개의 상업용 음성 시스템과 비교한다. 즉, 이러한 상업용 음성 시스템은, (1) wit.ai, (2) Google 음성 API, (3) Bing 음성, 및 (4) 애플 딕테이션이다. wit.ai와 Google 음성은 각각 HTTP 기반의 API를 구비하고, 애플 딕테이션과 Bing 음성을 테스트하기 위하여, 커널 확장을 이용하여 오디오 출력을 오디오 입력, OS X 딕테이션 서비스 및 Windows 8 Bing 음성 인식 API에 루프 백시킨다.

테스트는 잡음 환경에서의 성능을 성능 평가 기준(benchmark)으로 테스트하도록 설계된다. 이러한 정경은 웹 음성 API를 평가하는데 도전을 일으키며, SNR이 너무 낮거나 일부의 경우 발언이 너무 길 경우, 이러한 시스템들은 아예 결과를 제공하지 못하게 된다. 따라서, 비교를 모든 시스템들로부터 비어 있지 않은 결과가 반환되는 발언의 서브 집합으로 제한시킨다. 이는 API가 응답하지 못할 경우 100%의 착오율을 보고하는 것보다 더욱더 높은 정확도를 달성한다. 표4는 테스트 파일 상에서 각 시스템을 평가한 결과를 나타낸다.

표4: 원본 오디오 상에서 평가된 3개의 시스템의 결과(%WER).모든 시스템들이 제공한 예측으로 오직 발언 상에서만 모든 시스템에 대해 평점한다. 데이터 집합 옆의 괄호안의 숫자(예컨대 클린(94))는 평점된 발언의 수량이다.

소절 B.4에서 설명한 잡음 합성 기술의 효능을 평가하기 위하여, 두개의 RNN의 실시예가 트레이닝되고, 여기서 하나는 5000 시간의 원본 데이터 상에서 트레이닝되고, 다른 하나는 잡음이 추가된 동일한 5000 시간 상에서 트레이닝된다. 100개의 클린 발언 상에서, 두개의 모델은 거의 동일하게 성능을 나타내며, 클린 트레이닝된 모델과 잡음 트레이닝 모델은 각각 9.2% WER 및 9.0% WER를 나타낸다. 그러나, 100개의 잡음 발언 상에서, 잡음 모델은 클린 모델의 28.7% WER을 초과하는 22.6% WER을 달성하고, 6.1%의 절대적 개선과 21.3%의 상대적 개선을 달성한다.

c） 결론

본 명세서에 기재된 실시예의 여러 부분은 이전 결과에 기초하여 확장되고 이전 결과로부터 영감을 받았다. 1990 년대 초반, 신경망 어쿠스틱 모델과 기타 연결주의 방식(connectionist approac)은 먼저 음성 파이프라인에 도입되었다. 심층 신경망(DNN) 어쿠스틱 모델과 유사하게, 이러한 시스템들은 오직 음성 인식 파이프라인의 하나의 단계만을 대체한다. 기계적으로, 본 명세서에 기재된 시스템의 실시예가 심층 학습 연산법으로부터 단대단 음성 시스템을 구성하기 위한 기타 노력과의 일부 유사성을 포함하는 것으로 볼 수 있다. 예를 들면, Graves 등 (A. Graves, S.

, F. Gomez 및 J. Schmidhuber, “Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks”, 제23기 International Conference on Machine Learning （ICML）의 회의 기록, 제369-376페이지, ACM (2006), 이의 전체 내용은 참조로 본 명세서에 원용된다）은 이전에 RNN으로 생성된 전사에 대해 평점하기 위한 “연결주의 시간 분류(Connectionist Temporal Classification)” (CTC) 손실 함수를 소개하였고, 또한 장단기 메모리(LSTM) 망은 이러한 방식을 음성에 적용하였다(A. Graves 및 N. Jaitly의 “Towards end-to-end speech recognition with recurrent neural networks”, 제31기 International Conference on Machine Learning (ICML)의 회의 기록, 제1764-1772페이지, 2014년. 참조, 이의 전체 내용은 참조로 본 명세서에 원용된다). 본 명세서에 기재된 실시예는 유사하게 트레이닝 처리의 일부분에 대해 CTC 손실을 적용하였으나, 더욱 간단한 회귀망과 정류 선형 활성화를 사용하였다. 회귀망의 실시예는, Hannun 등(A. Y. Hannun, A. L. Maas, D. Jurafsky 및 A. Y. Ng, “First-pass large vocabulary continuous speech recognition using bi-directional recurrent DNNs”, The Computing Research Repository (CoRR) abs/1408.2873, 2014 (arxiv.org/abs/1408.2873으로 부터 획득 가능함), 이의 전체 내용은 참조로 본 명세서에 원용된다)이 사용한 양방향 RNN과의 일부 유사성을 포함하는 것으로 볼 수 있으나, 그의 확장성을 향상시키기 위해 다중의 변화를 구비한다. 확장성에 집중하는 것을 통하여, 본 명세서에 나타난 바와 같이, 더욱 간단한 망이 심지어 더 복잡한 LSTM 기계 장치가 없이도 효율적인 것일 수 있다는 것을 알수 있다.

이전에 심층 학습(DL) 연산법의 성능의 향상시키기 위한 확장성을 이미 고려하였고, (GPU를 포함하는) 병렬 프로세서의 사용도 최근의 대규모 DL 결과에 이용되었다. GPU에 대한 DL 연산법의 조기 포트는 현저한 속도 증가를 제시하였다. 연구자들은 더욱 높은 효율성을 실현하기 위해, 특히는 cuDNN (S. Chetlur, C. Woolley, P. Vandermersch, J. Cohen, J. Tran, B. Catanzaro 및 E. Shelhamer, “cuDNN: Efficient primitives for deep learning” CoRR, abs/1410.0759, 2104 (arxiv.org/ abs/1410.0759에서 획득 가능함) 참조, 이의 전체 내용은 참조로 본 명세서에 원용된다) 및 BLAS와 같은 최적화된 라이브러리가 이용 가능할 경우, GPU 하드웨어에 잘 매핑되는 설계를 선택하기 시작하였으며, 이러한 예시로 컨볼루션 망 및 국부적으로 연결된 망을 포함한다. 사실상, 현재 고 성능의 컴퓨터 체계구조를 이용하여, GPU의 클러스터로 100억개를 넘는 연결을 구비하는 신경망을 트레이닝할 수 있다. 이러한 결과는, 본 명세서의 실시예 중의 적어도 일부분이 연산법과 모델 자체에 대한 엔지니어링을 시도하기 전에, 확장 가능한 설계를 선택하여 수많은 GPU를 효율적으로 이용하도록 하는 것에 중점을 두어 개발하는데 영감을 제공하였다.

대형의 모델을 트레이닝할 가능성을 고려하여, 대형 트레이닝 집합도 또한 요구된다. 기타 영역, 예컨대 컴퓨터 비전에 있어서, 대형의 라벨링된 트레이닝 집합은 그들이 더욱더 큰 DL 시스템을 피딩하도록 이용될 경우 현저한 성능 향상을 실현하였다. 그러나, 음성 인식에 있어서, 이러한 대형의 트레이닝 집합은 흔하지 않으며, 여기서 전형적인 벤치마크는 몇십 시간(예컨대 80시간의 Wall Street Journal 코퍼스) 내지 몇백 시간(예컨대 Switchboard 및 Broadcast News)의 범위의 트레이닝 집합을 구비한다. 더욱 큰 벤치마크 데이터 집합(예컨대 2000시간의 전사된 음성을 구비하는 Fisher 코퍼스)는 흔하지 않으며, 단지 근년에서야 연구하게 되었다. 본 명세서에 설명된 망의 실시예의 표현 능력을 충분히 이용하기 위하여, 대형의 라벨링된 발언 집합은 의존되는 유일한 데이터 집합인 것이 아니라, 합성 기술도 또한 새로운 예제의 생성에 사용된다. 컴퓨터 비전에는 유사한 방식이 알려져 있으나, 적당하게 진행될 경우, 합성 데이터는 음성 트레이능을 진행하기에 특별히 편리하고 효율적임을 발견하였다.

본 명세서의 새로운 개시는 기존의 이러한 방식들에 비해 신규적이고 현저한 장점을 제공한다는 것을 유의하여야 한다. 본 명세서에 기재된 것은 아래와 같은 적어도 두개의 도전적인 정경에서 최신의 인식 파이프라인을 능가할 수 있는 단대단 심층 학습 기반의 음성 시스템을 생성, 트레이닝 및 이용하기 위한 신규의 시스템 및 방법이다. 이러한 적어도 두개의 도전적인 정경은 예컨대 더 깔끔한 담화식 음성, 및 잡음 환경에서의 음성이다. 실시예는 다중 GPU 트레이닝을 포함하고, 시스템이 처리할 수 있어야 하는 뒤틀림(예컨대 배경 잡음 및 롬바드 효과(Lombard-effect))을 나타내는 대형 트레이닝 집합을 구성하기 위한 유일한 데이터 수집 및 합성 책략을 더 포함한다. 이러한 해결 방안은 데이터 구동의 음성 시스템을 구성하것이 가능하도록 하며, 이는 기존 방법보다 성능이 더 우수할 뿐만 아니라 더는 진일보의 처리를 방해하는 복잡한 처리 단계에 의존하지 않는다.

C．예시적 컴퓨팅 시스템 실시예

본 특허 문헌의 여러 양태는 컴퓨팅 시스템에 관한 것이다. 본 개시의 목적을 위하여, 컴퓨팅 시스템은 임의의 수단 또는 수단의 집합을 포함할 수 있으며, 이는 상업용, 과학용, 제어용 또는 기타 목적으로 임의의 형식의 정보, 지능 또는 데이터를 계산, 연산, 확정, 분류, 처리, 전송, 수신, 검색, 시작, 라우팅, 저장, 표시, 통신, 시현, 검측, 기록, 재현, 핸들링 또는 이용할 수 있다. 예를 들어, 컴퓨팅은 개인용 컴퓨터(예컨대 데스크톱 또는 랩톱형), 태블릿 컴퓨터, 모바일 장치(예컨대 개인 휴대 정보 단말기(PDA) 또는 스마트폰), 서버(예컨대 블레이드 서버 또는 랙 서버)， 네트워크 장치 또는 임의의 기타 적당한 장치일 수 있으며, 크기, 형상, 성능, 기능 및 가격 상에 변화할 수 있다. 컴퓨팅 시스템은 랜덤 액세스 메모리(RAM), 하나 또는 다수의 처리 자원(예컨대 중앙 처리 유닛(CPU) 또는 하드웨어 또는 소프트웨어 제어 로직), ROM 및/또는 기타 유형의 메모리를 포함할 수 있다. 컴퓨팅 시스템의 추가 부재는 하나 또는 다수의 디스크 드라이브, 외부 장치와 통신하기 위한 하나 또는 다수의 네트워크 포트 및 각종 입력 및 출력(I/O) 장치(예컨대 키보드, 마우스, 터치스크린 및/또는 비디오 표시 장치)를 포함할 수 있다. 컴퓨팅 시스템은 각종 하드웨어 부재 사이에서 통신을 전송하도록 작동되는 하나 또는 다수의 버스를 포함할 수 있다.

도14는 본 발명의 실시예에 따른 컴퓨팅 시스템(1400)의 블록도를 나타낸다. 시스템(1400)에 있어서, 도시된 기능은 컴퓨팅 시스템의 각종 실시예를 지원하도록 작동될 수 있음을 이해하여야 하나, 컴퓨팅 시스템은 상이하게 구성될 수 있으며 상이한 부재를 포함할 수 있음을 이해하여야 한다. 도14에 도시된 바와 같이, 시스템(1400)은 컴퓨팅 자원을 제공하고 컴퓨터를 제어하는 하나 또는 다수의 중앙 처리 유닛(CPU; 1401)을 포함한다. CPU(1401)는 마이크로프로세서 등으로 실현될 수 있으며, 하나 또는 다수의 그래픽 처리 유닛(GPU; 1417) 및/또는 수학적 연산처리를 위한 부동 소수점 보조 프로세서를 더 포함할 수 있다. 시스템(1400)은 시스템 메모리(1402)을 더 포함할 수 있으며, 시스템 메모리(1402)은 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM) 또는 양자의 형식일 수 있다.

도14에 도시된 바와 같이, 다수의 제어 장치 및 주변 장치가 더 제공될 수 있다. 입력 제어 장치(1403)는 각종 입력 장치(1404), 예컨대 키보드, 마우스 또는 스타일러스에 대한 인터페이스를 나타낸다. 스캐너 제어 장치(1405)가 더 존재할 수 있으며, 이는 스캐너(1406)와 통신한다. 시스템(1400)은 하나 또는 다수의 저장 장치(1408)와 인터페이싱하기 위한 저장 제어 장치(1407)를 더 포함할 수 있으며, 여기서 각 저장 장치(1408)는 자기 테이프 또는 디스크 또는 광학 매체와 같은 저장 매체를 포함하고, 상기 저장 매체는 운영체제의 명령어의 프로그램, 실용적인 프로그램 및 응용 프로그램을 기록하도록 이용될 수 있고, 이는 본 발명의 각 양태를 실현하는 프로그램의 실시예를 포함할 수 있다. 저장 장치(1408)는 처리된 데이터 또는 본 발명에 따라 처리될 데이터를 저장하도록 이용될 수도 있다. 시스템(1400)은 표시 장치(1411)에 대한 인터페이스를 제공하기 위한 표시 제어 장치(1409)를 더 포함할 수 있으며, 표시 장치(1411)는 음극선관(CRT), 박막 트랜지스터(TFT) 표시 장치 또는 기타 유형의 표시 장치일 수 있다. 컴퓨팅 시스템(1400)은 프린트 장치(1413)와 통신하기 위한 프린트 제어 장치(1412)를 더 포함할 수 있다. 통신 제어 장치(1414)는 하나 또는 다수의 통신 장치(1415)와 인터페이싱될 수 있으며, 이로써 시스템(1400)이 인터넷, 이더넷 클라우드, FCoE/DCB 클라우드, 근거리망(LAN), 광역망(WAN), 저장 전용망(SAN)을 포함하는 각종 네트워크 중의 임의의 하나를 통하여 또는 적외선 신호를 포함하는 임의의 적당한 캐리어 신호를 통하여 원거리 장치에 연결되도록 한다.

도시된 시스템에 있어서, 모든 주요한 시스템 부재는 버스(1416)에 연결될 수 있으며, 버스(1416)는 하나 이상의 물리적 버스를 표시할 수 있다. 그러나 각종 시스템 부재는 상호 물리적으로 접근할 수도 있고 접근하지 않을 수도 있다. 예를 들어, 입력된 데이터 및/또는 출력된 데이터는 일 물리적 위치에서 다른 일 물리적 위치로 원격으로 전송될 수 있다. 또한, 본 발명의 각종 양태를 실시하는 프로그램은 네트워크를 통해 원격 위치(예컨대 서버)로부터 액세스될 수 있다. 이러한 데이터 및/또는 프로그램은 각종 기계 판독 가능한 매체를 통해 전송될 수 있으며, 기계 판독 가능한 매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 홀로그래픽 장치와 같은 광학 매체, 광 자기 매체, 주문형 집적회로(ASIC), 프로그래밍 가능한 로직 장치(PLD), 플래시 메모리 장치 및 ROM 및 RAM 장치와 같이 프로그램 코드를 저장 또는 저장 및 실행하도록 특별히 구성된 하드웨어 장치를 포함하나, 이에 한정되지 않는다.

본 발명의 실시예는 하나 또는 다수의 프로세서 또는 처리 유닛이 단계들을 수행하도록 하기 위한 명령어로, 비일시적 컴퓨터 판독 가능한 매체 상에 인코딩될 수 있다. 하나 또는 다수의 비일시적 컴퓨터 판독 가능한 매체는 휘발성 또는 비휘발성 메모리를 포함하여야 함을 유의하여야 한다. 하드웨어 구현 방식 또는 소프트웨어/하드웨어 구현 방식을 포함하는 대체 구현 방식도 가능함을 유의하여야 한다. 하드웨어로 구현된 기능은 ASIC, 프로그래밍 가능한 어레이, 디지털 신호 처리 회로 등을 이용하여 실현할 수 있다. 따라서, 임의의 청구항에 있어서, 용어 “수단(means)”은 소프트웨어 및 하드웨어 구현 방식 양자를 커버하고자 한다. 유사하게, 본 명세서에 사용되는 용어 “컴퓨터 판독 가능한 매체”는 내부에 명령어의 프로그램이 체화된 소프트웨어 및/또는 하드웨어 또는 이들의 조합을 포함한다. 이러한 선택 가능한 구현 방식을 감안하여, 도면과 첨부된 설명은 해당 기술분야의 당업자가 요구되는 처리를 진행하기 위한 프로그램 코드(즉, 소프트웨어)의 작성 및/또는 회로(즉, 하드웨어)의 제조에 필요한 기능적 정보를 제공한다는 것을 이해하여야 한다.

본 발명의 실시예는 비일시적이고 유형의 컴퓨터 판독 가능한 매체를 구비하는 컴퓨터 제품에 관한 것이고, 여기서 비일시적이고 유형의 컴퓨터 판독 가능한 매체 상에는 컴퓨터로 실행되는 각종 작업을 진행하기 위한 컴퓨터 코드를 구비한다. 매체와 컴퓨터 코드는 본 발명의 목적으로 전문적으로 설계되거나 구성될 수 있거나, 이는 관련 분야의 당업자에게 이미 알려지거나 이용 가능한 유형일 수 있다. 유형적인 컴퓨터 판독 가능한 매체의 예시는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 홀로그래픽 장치와 같은 광학 매체, 광 자기 매체, 주문형 집적회로(ASIC), 프로그래밍 가능한 로직 장치(PLD), 플래시 메모리 장치 및 ROM 및 RAM 장치와 같이 프로그램 코드를 저장 또는 저장 및 실행하도록 특별히 구성된 하드웨어 장치를 포함하나, 이에 한정되지 않는다. 컴퓨터 코드의 예시는 예컨대 컴파일러로 작성된 기계 코드, 및 해석 장치로 실행되는 상대적으로 높은 레벨의 코드를 포함하는 파일을 포함한다. 본 발명의 실시예는 전부 또는 부분적으로 기계 실행 가능한 명령어로 구현될 수 있으며, 상기 기계 실행 가능한 명령어는 처리 장치로 실행되는 프로그램 모듈에 위치할 수 있다. 모듈의 예시는 라이브러리, 프로그램, 루틴, 오브젝트, 컴포넌트 및 데이터 구조를 포함한다. 분포형 연산처리 환경에서, 프로그램 모듈은 근거리, 원거리 또는 양자의 세팅에 물리적으로 위치될 수 있다.

컴퓨팅 시스템 또는 프로그래밍 언어는 본 발명을 실천에 있어서 아주 중요한 것임을 해당 기술분야의 당업자는 자명할 것이다. 상기 다수의 요소는 물리적 및/또는 기능적으로 서브 모듈로 분할되거나 함께 결합될 수 있음을 해당 기술분야의 당업자는 자명할 것이다.

이하의 특허 청구 범위의 요소는 상이한 방식으로 배치될 수 있으며, 다중의 종속성, 배치, 조합을 구비하는 것을 포함한다. 예를 들어, 실시예에 있어서, 각 청구항의 주제는 기타 청구항의 주제와 결합될 수 있다. 예를 들어, 청구항 4의 주제는 청구항 1 내지 3 중의 임의의 한 항의 주제와 결합될 수 있으며, 청구항 6의 주제는 청구항 4 또는 5의 주제와 결합될 수 있으며, 청구항 8의 주제는 청구항 1 내지 7의 주제와 결합될 수 있으며, 청구항 10의 주제는 청구항 8 또는 9의 주제와 결합될 수 있으며, 청구항 13의 주제는 청구항 11 또는 12의 주제와 결합될 수 있으며, 청구항 15의 주제는 청구항 11 또는 14의 주제와 결합될 수 있으며, 청구항 16의 주제는 청구항 11 내지 15의 주제와 결합될 수 있으며, 청구항 19의 주제는 청구항 17 또는 18의 주제와 결합될 수 있다.

전술한 예시와 실시예는 예시적인 것일 뿐, 본 발명의 범위를 한정하는 것이 아님을 해당 기술분야의 당업자는 자명할 것이다. 명세서의 열독과 도면의 연구로부터, 본 발명에 대한 모든 순열, 강화, 균등, 조합 및 개선은 본 발명의 참된 정신과 범위에 포함되는 것을 해당 기술분야의 당업자는 자명할 것이다.

Claims

발언 집합 중의 각 발언에 대해:
스펙트로그램 프레임 집합을 포함하는 발언을 하나 또는 다수의 스펙트로그램 프레임의 문맥과 함께 상기 전사 모델의 제1층에 입력하되, 상기 전사 모델의 제1층은 상기 스펙트로그램 프레임 집합으로부터의 각 스펙트로그램 프레임을 평가하는 단계;
상기 전사 모델로부터 상기 발언에 대한 예측된 문자 또는 문자 확율을 출력하는 단계; 및
상기 발언에 대한 예측 중의 착오를 측정하도록 손실을 컴퓨팅하는 단계;
그라운드 트루스 문자가 주어진 상기 전사 모델의 예측된 출력의 기울기를 평가하는 단계; 및
역전파를 이용하여 상기 전사 모델을 업데이터하는 단계;를 포함하는 전사 모델을 트레이닝하기 위한 컴퓨터 구현 방법.
제1항에 있어서,
상기 전사 모델에 입력되기 전에, 상기 발언 집합 중의 적어도 일부 발언을 지터링하는 단계;를 더 포함하는 컴퓨터 구현 방법.
제2항에 있어서,
상기 전사 모델에 입력되기 전에, 상기 발언 집합 중의 적어도 일부 발언을 지터링하는 단계는,
발언의 오디오 파일을 하나 또는 다수의 시간값만큼 수평 이동시켜 상기 발언에 대한 발언의 지터 집합을 생성하는 단계와,
상기 발언의 지터 집합과 상기 발언을 스펙트로그램 집합로 전환하는 단계와,
상기 모델 또는 모델 집합으로부터 상기 스펙트로그램 집합에 대한 출력 결과를 획득하는 단계와,
상기 오디오 파일의 출력을 획득하도록 상기 스펙트로그램 집합에 대한 상기 출력 결과를 평균화하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
제3항에 있어서,
상기 전사 모델의 트레이닝에 이용되는 트레이닝 데이터 집합에 대한 하나 또는 다수의 발언을 생성하는 단계;를 더 포함하는 컴퓨터 구현 방법.
제4항에 있어서,
트레이닝에 이용되는 데이터 집합에 대한 하나 또는 다수의 발언을 생성하는 단계는,
사람이 발언을 기록할 때 상기 사람으로 하여금 헤드폰을 착용하도록 하는 단계와,
상기 발언의 데이터 수집 기간에, 상기 사람이 착용한 헤드폰을 통해 배경 잡음을 재생시킴으로써 롬바드 효과(Lombard-effect)를 의도적으로 유발시키는 단계와,
상기 배경 잡음의 포획이 없이, 마이크로폰으로 상기 사람의 롬바드 효과를 구비한 발언을 포획하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
제4항에 있어서,
트레이닝에 이용되는 데이터 집합에 대한 하나 또는 다수의 발언을 생성하는 단계는,
잡음 트랙을 형성하도록 승인된 잡음 클립 집합으로부터 선택한 하나 또는 다수의 잡음 클립을 추가하는 단계와,
오디오 파일에 대한 상기 잡음 트랙의 신호 대 잡음비를 조절하는 단계와,
합성화된 잡음 오디오 파일을 형성하도록 조절된 잡음 트랙을 상기 오디오 파일에 추가하는 단계와,
상기 합성화된 잡음 오디오 파일을 상기 트레이닝 데이터 집합에 추가하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
제6항에 있어서,
후보 잡음 클립 집합을 수집하는 단계, 및
상기 후보 잡음 클립 집합으로부터의 각 잡음 클립이 평가될 때까지,
상기 후보 잡음 클립 집합으로부터 평가를 위한 후보 잡음 클립을 선택하고,
상기 후보 잡음 클립의 주파수 대역에서의 평균 파워가 실제 잡음 기록에서 관찰된 주파수 대역에서의 평균 파워와 현저히 상이하지 않음에 응답하여, 상기 후보 잡음 클립을 상기 승인된 잡음 클립 집합에 추가하고,
상기 후보 잡음 클립의 주파수 대역에서의 평균 파워가 실제 잡음 기록에서 관찰된 주파수 대역에서의 평균 파워와 현저히 상이함에 응답하여, 상기 후보 잡음 클립을 포기하는 것을
반복하는 단계를 진행하여 상기 승인된 잡음 클립 집합을 형성하는 것을 특징으로 하는 컴퓨터 구현 방법.
제1항에 있어서,
상기 전사 모델의 트레이닝에 하나 또는 다수의 최적화를 병합시키는 단계;를 더 포함하되,
상기 전사 모델의 트레이닝에 하나 또는 다수의 최적화를 병합시키는 단계는,
하나 또는 다수의 데이터 병렬화를 병합시키는 단계와,
모델 병렬화를 병합시키는 단계와,
입력을 상기 전사 모델의 제1층에 스트라이딩시키는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
제8항에 있어서,
하나 또는 다수의 데이터 병렬화를 병합시키는 단계는,
다중의 처리 유닛 상에서 상기 전사 모델의 다수의 사본을 이용하되, 각 처리 유닛은 별개의 발언 미니배치를 처리하는 단계와,
각 반복 기간에 처리 유닛으로부터의 컴퓨팅된 기울기와 그의 동등체(peer)를 결합시키는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
제8항에 있어서,
하나 또는 다수의 데이터 병렬화를 병합시키는 단계는,
다수의 발언을 단일 매트릭스로 시켜 각 처리 유닛으로 하여금 다수의 발언을 병행으로 처리하도록 하는 단계와,
길이에 따라 발언을 분류하고, 유사한 크기의 발언을 미니 배치로 결합시키고, 무음으로 발언을 패딩하여 미니 배치 중의 모든 발언이 동일한 길이를 구비하도록 하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
사용자로부터 입력된 오디오를 수신하는 단계;
상기 입력된 오디오의 총 파워를 트레이닝된 신경망 모델의 트레이닝에 이용되는 트레이닝 샘플 집합과 일치시키도록, 상기 입력된 오디오를 정규화시키는 단계;
상기 정규화된 입력된 오디오를 하나 또는 다수의 시간값만큼 수평 이동시켜 상기 정규화된 입력된 오디오로부터 오디오 파일의 지터 집합을 생성하는 단계;
상기 정규화된 입력된 오디오를 포함하는 상기 오디오 파일의 지터 집합으로부터의 각 오디오 파일에 대해:
각 오디오 파일에 대한 스펙트로그램 프레임 집합을 생성하는 단계;
상기 오디오 파일을 스펙트로그램 프레임의 문맥과 함께 트레이닝된 신경망에 입력하는 단계;
상기 트레이닝된 신경망으로부터 예측된 문자 확율 출력을 획득하는 단계; 및
상기 예측된 문자 확율 출력으로부터의 문자 스트링을 하나 또는 다수의 단어로 해석하는 언어 모델의 제약을 받는 상기 트레이닝된 신경망으로부터의 상기 예측된 문자 확율 출력을 이용하여 상기 입력된 오디오의 전사를 디코딩하는 단계;를 포함하는 것을 특징으로 하는 음성을 전사하기 위한 컴퓨터 구현 방법.
제11항에 있어서,
각 오디오 파일에 대한 스펙트로그램 프레임 집합을 생성하는 단계는,
스펙트로그램 프레임을 생성하는 단계를 포함하되,
스펙트로그램 프레임은 선형으로 분리된 로그 필터 뱅크 집합을 포함하고, 상기 선형으로 분리된 로그 필터 뱅크 집합은 제2 밀리세컨드 값으로 스트라이딩된 제1 밀리세컨드 값의 윈도우에서 컴퓨팅되는 것을 특징으로 하는 컴퓨터 구현 방법.
제11항에 있어서,
상기 오디오 파일을 스펙트로그램 프레임의 문맥과 함께 트레이닝된 신경망에 입력하는 단계는,
상기 오디오 파일을 스펙트로그램 프레임의 문맥과 함께 다수의 트레이닝된 신경망에 입력하는 단계를 포함하고,
상기 트레이닝된 신경망으로부터 예측된 문자 확율 출력을 획득하는 단계는,
예측된 문자 확율을 획득하도록 트레이닝된 신경망 집합의 예측된 문자 확율 출력을 조합하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
제13항에 있어서,
예측된 문자 확율을 획득하도록 트레이닝된 신경망 집합의 예측된 문자 확율 출력을 조합하는 단계는,
트레이닝된 신경망 모델 사이의 시간 이동을 해결하는 단계를 포함하되,
상기 트레이닝된 신경망 모델 사이의 시간 이동을 해결하는 단계는,
동일한 시간 이동을 나타내는 신경망 모델을 이용하는 것과,
신경망 모델의 출력들 사이의 정렬을 체크하고, 상기 출력들이 정렬되도록 상기 출력들 중 하나 또는 다수를 이동시키는 것과,
정렬된 출력을 구비하도록 입력을 신경망 모델 중의 하나 또는 다수로 이동시키는 것 중 하나 또는 다수를 이용하는 것을 특징으로 하는 컴퓨터 구현 방법.
제11항에 있어서,
상기 문자 스트링을 단어로 해석하는 언어 모델의 제약을 받는 상기 트레이닝된 신경망으로부터의 상기 예측된 문자 확율 출력을 이용하여 상기 입력된 오디오의 전사를 디코딩하는 단계는,
상기 트레이닝된 신경망으로부터의 예측된 문자 확율 출력이 주어질 경우, 상기 예측된 문자 확율 출력 및 상기 예측된 문자 확율 출력으로부터의 문자 스트링을 하나 또는 다수의 단어로 해석하는 트레이닝된 N-그램 언어 모델 출력 양자에 따라, 가장 가능성이 있는 문자 서열을 찾아내도록 검색을 진행하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
제11항에 있어서,
상기 신경망 모델은 다섯층의 모델을 포함하고,
상기 다섯층의 모델은,
비 회귀적인 세개의 층을 구비한 제1집합;
순방향 회귀 집합과 역방향 회귀 집합을 구비하는 두개의 집합의 히든 유닛을 포함하는 양방향 회귀망인 제4층; 및
상기 제4층으로부터 순방향 유닛 및 역방향 유닛을 입력으로 하고, 상기 예측된 문자 확율을 출력하는 비 회귀층인 제5층;을 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
비일시적 컴퓨터 판독 가능한 매체에 있어서,
하나 또는 다수의 명령어 시퀀스를 포함하되, 상기 명령어 시퀀스는 하나 또는 다수의 프로세서에 의해 실행될 경우,
사용자로부터 입력된 오디오를 수신하는 단계;
오디오 파일로부터 스펙트로그램 프레임 집합을 생성하는 단계;
상기 오디오 파일을 스펙트로그램 프레임의 문맥과 함께 트레이닝된 신경망 집합에 입력하는 단계;
상기 트레이닝된 신경망 집합으로부터 예측된 문자 확율 출력을 획득하는 단계; 및
상기 예측된 문자 확율 출력으로부터의 문자 스트링을 하나 또는 다수의 단어로 해석하는 언어 모델의 제약을 받는 상기 트레이닝된 신경망 집합으로부터 획득한 상기 예측된 문자 확율 출력을 이용하여 상기 입력된 오디오의 전사를 디코딩하는 단계;를 진행하도록 하는 것을 특징으로 하는 비일시적 컴퓨터 판독 가능한 매체.
제17항에 있어서,
스펙트로그램 프레임 집합을 생성하는 단계는,
스펙트로그램 프레임을 생성하는 단계를 포함하되,
스펙트로그램 프레임은 선형으로 분리된 로그 필터 뱅크 집합을 포함하고, 상기 선형으로 분리된 로그 필터 뱅크 집합은 제2 밀리세컨드 값으로 스트라이딩된 제1 밀리세컨드 값의 윈도우에서 컴퓨팅되는 것을 특징으로 하는 비일시적 컴퓨터 판독 가능한 매체.
제17항에 있어서,
상기 트레이닝된 신경망 집합으로부터 예측된 문자 확율 출력을 획득하는 단계는,
예측된 문자 확율을 획득하도록 상기 트레이닝된 신경망 집합으로부터의 예측된 문자 확율 출력을 조합시키는 단계를 포함하는 것을 특징으로 하는 비일시적 컴퓨터 판독 가능한 매체.
제19항에 있어서,
예측된 문자 확율을 획득하도록 상기 트레이닝된 신경망 집합으로부터의 예측된 문자 확율 출력을 조합시키는 단계는,
트레이닝된 신경망 모델 사이의 시간 이동을 해결하는 단계를 포함하되,
상기 트레이닝된 신경망 모델 사이의 시간 이동을 해결하는 단계는,
동일한 시간 이동을 나타내는 신경망 모델을 이용하는 것과,
신경망 모델의 출력들 사이의 정렬을 체크하고, 상기 출력들이 정렬되도록 상기 출력들 중 하나 또는 다수를 이동시키는 것과,
정렬된 출력을 구비하도록 입력을 신경망 모델 중의 하나 또는 다수로 이동시키는 것 중 하나 또는 다수를 이용하는 것을 특징으로 하는 비일시적 컴퓨터 판독 가능한 매체.