KR102316063B1

KR102316063B1 - 오디오 중의 키 프레이즈를 인식하기 위한 방법과 장치, 기기 및 매체

Info

Publication number: KR102316063B1
Application number: KR1020190101833A
Authority: KR
Inventors: 즈화 왕; 톈싱 양; 즈펑 우; 빈 펑; 쳉위안 자오
Original assignee: 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date: 2018-08-20
Filing date: 2019-08-20
Publication date: 2021-10-22
Also published as: US11308937B2; JP2020030408A; US20200058291A1; KR20200021429A; JP6909832B2; CN109241330A; EP3614378A1

Abstract

본 개시의 실시예는 오디오 중의 키 프레이즈를 인식하기 위한 방법과 장치, 기기 및 컴퓨터 판독 가능 저장 매체를 제공한다. 오디오 중의 키 프레이즈를 인식하기 위한 방법은, 인식해야 할 오디오 데이터를 획득하는 단계를 포함한다. 당해 방법은, 트레이닝된 키 프레이즈 인식 모델을 이용하여 오디오 데이터 중의 키 프레이즈를 인식하는 단계를 더 포함한다. 당해 키 프레이즈 인식 모델은 제1 트레이닝 데이터 및 제2 트레이닝 데이터에 따라 트레이닝되는바, 여기서 제1 트레이닝 데이터는 제1 트레이닝 텍스트 중의 단어의 특징 정보를 표기하고 상기 제2 트레이닝 데이터는 제2 트레이닝 텍스트 중의 키 프레이즈를 표기한다. 이러한 방식으로, 본 개시의 실시예는 정확하고 고효율적으로 오디오 데이터 중의 핵심 정보를 인식할 수 있다.

Description

오디오 중의 키 프레이즈를 인식하기 위한 방법과 장치, 기기 및 매체{METHOD AND APPARATUS FOR IDENTIFYING KEY PHRASE IN AUDIO DATA, DEVICE AND MEDIUM}

본 개시의 실시예는 전체적으로 데이터 처리 분야에 관한 것이고, 더 구체적으로는, 오디오 중의 키 프레이즈(key phrase)를 인식하기 위한 방법과 장치, 기기 및 컴퓨터 판독 가능 저장 매체에 관한 것이다.

컴퓨터 기술이 발전하고 스마트 단말이 보급됨에 따라, 사람들은 점점 더 많이 스마트폰 또는 스마트 스피커 등 단말 기기를 사용하여 여러 가지 오디오 프로그램, 예컨대 오디오 소설, 키즈 스토리, 트레이닝 코스 등을 청취하게 되었다. 오디오 리소스의 제공자는 통상적으로 단지 녹취된 오디오 데이터를 서버에 업로드하고 거기에 간단한 제목과 글 설명을 추가하는 것이므로, 사용자가 이러한 리소스를 검색할 경우, 시스템은 통상적으로 단지 제목 및 글 설명에 근거하여 검색을 진행하게 된다. 오디오 데이터의 내용에 대해서는 전반적이고 빠르게 이해할 수가 없으므로, 이러한 검색 효과는 사용자 수요를 만족하지 못할 수 있다. 예컨대, 사용자가 송출한 조회 명령 중의 키워드가 오디오 데이터의 제목 또는 글 설명에 포함되지 않을 시, 당해 오디오 데이터는 검색되지 않는다.

본 개시의 예시적 실시예에 따르면, 오디오 중의 키 프레이즈를 인식하기 위한 방안이 제공된다.

본 개시의 제1 측면으로, 키 프레이즈 인식 모델을 트레이닝하기 위한 방법이 제공된다. 당해 방법은, 제1 트레이닝 데이터를 획득하는 단계를 포함하며, 제1 트레이닝 데이터는 제1 트레이닝 텍스트 중의 단어의 특징 정보를 표기한다. 당해 방법은, 제2 트레이닝 데이터를 획득하는 단계를 더 포함하며, 제2 트레이닝 데이터는 제2 트레이닝 텍스트 중의 키 프레이즈를 표기한다. 당해 방법은, 제1 트레이닝 데이터 및 제2 트레이닝 데이터에 따라 키 프레이즈 인식 모델을 트레이닝하여 오디오 데이터 중의 키 프레이즈를 인식하는 단계를 더 포함한다.

본 개시의 제2 측면으로, 오디오 중의 키 프레이즈를 인식하기 위한 방법이 제공된다. 당해 방법은, 인식해야 할 오디오 데이터를 획득하는 단계를 포함한다. 당해 방법은, 트레이닝된 키 프레이즈 인식 모델을 이용하여 오디오 데이터 중의 키 프레이즈를 인식하는 단계를 더 포함한다. 당해 키 프레이즈 인식 모델은 제1 트레이닝 데이터 및 제2 트레이닝 데이터에 따라 트레이닝되는바, 제1 트레이닝 데이터는 제1 트레이닝 텍스트 중의 단어의 특징 정보를 표기하고 제2 트레이닝 데이터는 제2 트레이닝 텍스트 중의 키 프레이즈를 표기한다.

본 개시의 제3 측면으로, 키 프레이즈 인식 모델을 트레이닝하기 위한 장치가 제공된다. 당해 장치는, 제1 트레이닝 데이터를 획득하도록 구성되는 제1 획득 모듈 - 제1 트레이닝 데이터는 제1 트레이닝 텍스트 중의 단어의 특징 정보를 표기함 - ; 제2 트레이닝 데이터를 획득하도록 구성되는 제2 획득 모듈 - 제2 트레이닝 데이터는 제2 트레이닝 텍스트 중의 키 프레이즈를 표기함 - ; 및 제1 트레이닝 데이터 및 제2 트레이닝 데이터에 따라 키 프레이즈 인식 모델을 트레이닝하여 오디오 데이터 중의 키 프레이즈를 인식하도록 구성되는 모델 트레이닝 모듈을 포함한다.

본 개시의 제4 측면으로, 오디오 중의 키 프레이즈를 인식하기 위한 장치가 제공된다. 당해 장치는, 인식해야 할 오디오 데이터를 획득하도록 구성되는 오디오 획득 모듈; 및 트레이닝된 키 프레이즈 인식 모델을 이용하여 오디오 데이터 중의 키 프레이즈를 인식하도록 구성되는 인식 모듈 - 키 프레이즈 인식 모델은 제1 트레이닝 데이터 및 제2 트레이닝 데이터에 따라 트레이닝되는바, 제1 트레이닝 데이터는 제1 트레이닝 텍스트 중의 단어의 특징 정보를 표기하고 제2 트레이닝 데이터는 제2 트레이닝 텍스트 중의 키 프레이즈를 표기함 - 을 포함한다.

본 개시의 제5 측면으로, 하나 또는 복수의 프로세서 및 기억 장치를 포함하는 전자 기기가 제공된다. 기억 장치는 하나 또는 복수의 프로그램을 기억하기 위한 것이다. 하나 또는 복수의 프로그램이 하나 또는 복수의 프로세서에 의해 실행될 경우, 하나 또는 복수의 프로세서가 본 개시의 제1 측면에 따른 방법을 실행하도록 한다.

본 개시의 제6 측면으로, 하나 또는 복수의 프로세서 및 기억 장치를 포함하는 전자 기기가 제공된다. 기억 장치는 하나 또는 복수의 프로그램을 기억하기 위한 것이다. 하나 또는 복수의 프로그램이 하나 또는 복수의 프로세서에 의해 실행될 경우, 하나 또는 복수의 프로세서가 본 개시의 제2 측면에 따른 방법을 실행하도록 한다.

본 개시의 제7 측면으로, 컴퓨터 프로그램이 기억되어 있는 컴퓨터 판독 가능 매체가 제공되고, 당해 컴퓨터 프로그램이 프로세서에 의해 실행될 경우, 본 개시의 제１ 측면에 따른 방법을 구현한다.

본 개시의 제8 측면으로, 컴퓨터 프로그램이 기억되어 있는 컴퓨터 판독 가능 매체가 제공되고, 당해 컴퓨터 프로그램이 프로세서에 의해 실행될 경우, 본 개시의 제2 측면에 따른 방법을 구현한다.

발명 내용 부분에서 설명하는 내용은 본 개시의 실시예의 핵심 또는 중요 특징을 한정하기 위한 것이 아니며 본 개시의 범위를 제한하기 위한 것도 아님을 이해하여야 한다. 본 개시의 기타 특징은 이하의 설명을 통하여 이해하기 쉽게 될 것이다.

첨부 도면을 결부하고 이하 상세한 설명을 참조하면, 본 개시의 각 실시예의 상술한 및 기타의 특징, 이점 및 측면은 더욱 분명해질 것이다. 첨부 도면에서, 동일 또는 유사한 도면 부호는 동일 또는 유사한 요소를 표시한다.
도 1은 본 개시의 실시예에 의해 구현될 수 있는 예시 시스템의 개략도를 나타낸다.
도 2는 본 개시의 실시예에 따른 키 프레이즈 인식 모델을 트레이닝하기 위한 예시 방법의 흐름도를 나타낸다.
도 3은 본 개시의 실시예에 따른 오디오 중의 키 프레이즈를 인식하기 위한 예시 방법의 흐름도를 나타낸다.
도 4는 본 개시의 실시예에 따른 키 프레이즈 인식 모델을 트레이닝하기 위한 장치의 개략적 블록도를 나타낸다.
도 5는 본 개시의 실시예에 따른 오디오 중의 키 프레이즈를 인식하기 위한 장치의 개략적 블록도를 나타낸다.
도 6은 본 개시의 복수의 실시예를 구현 가능한 컴퓨팅 기기의 블록도를 나타낸다.

이하, 첨부 도면을 참조하여 본 개시의 실시예에 대해 더 상세하게 설명하고자 한다. 비록 첨부 도면에 본 개시의 어떤 실시예가 도시되었지만, 본 개시는 여러 가지 형식으로 구현 가능한 것으로, 여기서 서술하는 실시예에 한정되는 것으로 해석되어서는 안되고, 반대로, 이러한 실시예를 제공하는 것은 본 개시를 더욱 투철하게 그리고 완전하게 이해시키기 위한 것임을 이해하여야 한다. 본 개시의 첨부 도면 및 실시예는 예시적 작용을 위한 것으로, 본 개시의 보호 범위를 제한하기 위한 것이 아님을 이해하여야 한다.

본 개시의 실시예의 설명에서, 전문 용어 '포함' 및 그 유사 용어는 개방적 포괄, 즉, '포함하나 이에 한정되지 않음'으로 이해하여야 한다. 전문 용어 '기반하여'는 '적어도 부분적으로 기반하여'로 이해하여야 한다. 전문 용어 '한 개 실시예' 또는 '당해 실시예'는 '적어도 한 개 실시예'로 이해하여야 한다. 전문 용어 '제1', '제2' 등은 부동한 또는 동일한 대상을 지칭할 수 있다. 하기의 기재에는 기타의 명확한 및 묵시적인 정의를 더 포함할 수 있다.

전술한 바와 같이, 컴퓨터 기술이 발전하고 스마트 단말이 보급됨에 따라, 사람들은 점점 더 많이 스마트폰 또는 스마트 스피커 등 단말 기기를 사용하여 여러 가지 오디오 프로그램, 예컨대 오디오 소설, 키즈 스토리, 트레이닝 코스 등을 청취하게 되었다. 오디오 리소스의 제공자는 통상적으로 단지 녹취된 오디오 데이터를 서버에 업로드하고 거기에 간단한 제목과 글 설명을 추가하는 것이므로, 사용자가 이러한 리소스를 검색할 경우, 시스템은 통상적으로 단지 제목 및 글 설명에 근거하여 검색을 진행하게 된다. 오디오 데이터의 내용에 대해서는 전반적이고 빠르게 이해할 수가 없으므로, 이러한 검색 효과는 사용자 수요를 만족하지 못할 수 있다. 이러한 상황에서, 어떡하면 빨리 오디오 파일의 내용을 이해하고, 이로써 정확하고 고효율적으로 그중의 키워드 또는 키 프레이즈를 인식하는 것은 해결이 절박한 도전으로 되었다. 일부 종래 방안은 핫한 오디오에 대하여 수동 레이블링의 방식을 적용하여 그 중의 키워드 또는 키 프레이즈를 레이블링하는바, 예컨대 핫한 키즈 스토리 중의 주인공 등이다. 그러나 이러한 방안은 효율이 보다 낮아, 대규모 응용이 불가능하다. 이 외에, 종래 방안에는 텍스트에 대해 키워드 또는 키 프레이즈 검색을 진행하는 방안이 존재한다. 그러나 이러한 방안은 오디오 데이터에 대해 정확하고 고효율적인 검색을 진행할 수 없다.

본 개시의 실시예에 따르면, 오디오 중의 키 프레이즈를 인식하기 위한 방안이 제공된다. 당해 방안은 자연 언어 처리를 거친 트레이닝 샘플과 수동 서열 레이블링을 거친 트레이닝 샘플, 이 양자를 이용하여 키 프레이즈 인식 모델을 트레이닝한다. 당해 방안은 인식해야 할 오디오 데이터를 대응되는 텍스트로 변환하고, 트레이닝된 키 프레이즈 인식 모델을 이용하여 텍스트 중의 키워드 또는 키 프레이즈를 인식한다. 이러한 방식으로, 당해 방안은 정확하고 고효율적으로 오디오 데이터의 내용을 이해하고 그 중의 핵심 정보를 추출할 수 있다. 때문에, 당해 방안은 광범위하게 여러 가지 오디오 애플리케이션 또는 오디오 검색 시스템에 응용될 수 있다.

이하, 첨부 도면을 참조하여 본 개시의 실시예를 구체적으로 설명하고자 한다. 본 개시에서는, 전문 용어 '모델'은 트레이닝 데이터로부터 대응하는 입력과 출력 사이의 연관을 학습할 수 있어서, 트레이닝 완료 후, 주어지는 입력에 대하여 대응되는 출력을 생성할 수 있다. '모델'은 '신경망', '학습 모델' 또는 '학습 네트워크'로 호칭될 수도 있다. 전문 용어 '키 프레이즈'는 한 단락의 내용에 출현하는 하나 또는 복수의 키워드를 지칭할 수 있다. '키 프레이즈'는 사용자의 의도을 기반으로 결정될 수 있는바, 그 예시로 오디오 내용 중의 주인공, 특정 시나리오, 시간 또는 이들의 조합을 포함할 수 있으나 이에 한정되지 않는다.

도 1은 본 개시의 실시예에 의해 구현될 수 있는 예시 시스템(100)의 개략도를 나타낸다. 시스템(100)은, 전반적으로는 모델 트레이닝 서브시스템(110) 및 모델 애플리케이션 서브시스템(120)을 포함할 수 있다. 시스템(100)의 구조와 기능은 단지 예시적인 목적으로 설명되는 것일 뿐, 본 개시의 범위에 대한 어떠한 제한을 암시하는 것도 아님을 이해하여야 한다. 본 개시의 실시예는 부동한 구조 및/또는 기능을 구비하는 환경에 더 응용될 수 있다.

모델 트레이닝 서브시스템(110)에서, 모델 트레이닝 장치(111)는 제1 트레이닝 데이터(101) 및 제2 트레이닝 데이터(102)를 획득하여 키 프레이즈 인식 모델(103)의 트레이닝에 사용할 수 있다. 예컨대, 제1 트레이닝 데이터(101)는 제1 트레이닝 텍스트 중의 단어의 특징 정보를 표기할 수 있고 제2 트레이닝 데이터(102)는 제2 트레이닝 텍스트 중의 키 프레이즈를 표기할 수 있다.

일부 실시예에서, 제1 트레이닝 텍스트 또는 제2 트레이닝 텍스트는 임의 텍스트 또는 오디오 데이터를 변환하여 획득한 텍스트일 수 있다. 예컨대, 제1 트레이닝 텍스트는 키 프레이즈 인식 모델(103)을 트레이닝하기 위한 제1 오디오 샘플을 변환하여 획득할 수 있다. 제2 트레이닝 텍스트는 키 프레이즈 인식 모델(103)을 트레이닝하기 위한 제2 오디오 샘플을 변환하여 획득할 수 있다. 일부 실시예에서, 제1 오디오 샘플과 제2 오디오 샘플은 동일하거나 또는 부동한 오디오 데이터일 수 있다. 즉, 제1 트레이닝 텍스트와 제2 트레이닝 텍스트도 동일하거나 또는 부동할 수 있다.

일부 실시예에서, 제1 트레이닝 텍스트를 전처리하여 제1 트레이닝 데이터(101)를 생성할 수 있다. 예컨대, 제1 트레이닝 텍스트를 문장 구분자(예컨대, 여러 가지 문장 부호 등)에 따라 복수의 문장으로 분할하고 이 중의 매개 문장에 대해 자연 언어 처리를 진행하여 문장 중의 매개 단어의 특징 정보를 획득할 수 있다. 예컨대, 단어의 특징 정보는 당해 단어의 텍스트, 품사, 의미 및/또는 문법 정보 등을 포함할 수 있다. 특징 정보 중의 품사는 예컨대 당해 단어가 명사, 동사, 형용사, 또는 부사 등에 속함을 지시할 수 있다. 특징 정보 중의 의미는 예컨대 당해 단어의 구체 함의, 예컨대 인물, 동작, 환경 등을 지시할 수 있다. 특징 정보 중의 문법 정보는 당해 단어가 문장 중의 주어, 서술어, 목적어, 관형어, 부사어 또는 보어 등에 속함을 지시할 수 있다.

일부 실시예에서는, 제1 트레이닝 텍스트의 획득과 제1 트레이닝 데이터(101)의 생성 중에서 일부 또는 전부가 모델 트레이닝 장치(111)에 의해 실행될 수 있다. 즉, 모델 트레이닝 장치(111)는 임의 텍스트를 제1 트레이닝 텍스트로 할 수도 있고 또는 음성 인식 기술을 이용하여 제1 오디오 샘플을 제1 트레이닝 텍스트로 변환할 수도 있다. 부가적으로 또는 대안적으로, 모델 트레이닝 장치(111)는 제1 트레이닝 텍스트에 따라 제1 트레이닝 데이터(101)를 자체 생성할 수 있다.

대안적으로, 다른 일부 실시예에서는, 제1 트레이닝 텍스트의 획득과 제1 트레이닝 데이터(101)의 생성 중에서 일부 또는 전부가 기타의 장치(111)에 의해 실행될 수 있다. 이러한 상황에서, 모델 트레이닝 장치(111)는 예컨대 당해 기타의 장치로부터 생성된 제1 트레이닝 데이터(101)를 획득하여 모델 트레이닝에 직접 사용할 수 있다.

일부 실시예에서는, 제2 트레이닝 텍스트를 전처리하여 제2 트레이닝 데이터(102)를 생성할 수 있다. 예컨대, 제2 트레이닝 텍스트를 문장 구분자(예컨대, 여러 가지 문장 부호 등)에 따라 복수의 문장으로 분할하고, 복수의 태그를 이용하여 매개 문장 중의 키 프레이즈를 표기할 수 있다. 일부 실시예에서는, 예컨대, B(Begin), I(Inside), O(Outside) 태그를 이용하여 문장 중의 키 프레이즈를 수동 레이블링할 수 있는바, 여기서 B 태그(본 개시에서 '제1 태그'로 호칭되기도 함)는 키 프레이즈의 시작 문자를 레이블링하기 위한 것이고, I 태그(본 개시에서 '제2 태그'로 호칭되기도 함)는 키 프레이즈에서 시작 문자 이외의 기타 문자를 레이블링하기 위한 것이고, O 태그(본 개시에서 '제3 태그'로 호칭되기도 함)는 문장 중의 키 프레이즈에 속하지 않는 기타 문자를 레이블링하기 위한 것이다.

예를 들면, 레이블링할 문장은 '백설공주와 일곱 난쟁이가 삼림에 있다'일 경우, 레이블링할 키 프레이즈는 당해 문장 중의 주인공(즉, '백설공주' 및 '일곱 난쟁이')이면, 글자 '백'과 글자 '일'은 각각 B 태그를 이용하여 레이블링하고, '설공주'와 '곱 난쟁이'는 각각 I 태그를 이용하여 레이블링하고, 나머지 문자는 O 태그를 이용하여 레이블링한다. 여전히 문장 '백설공주와 일곱 난쟁이가 삼림에 있다'를 예로 들면, 가령 레이블링할 키 프레이즈가 당해 문장 중의 시나리오(즉, '삼')이라면, 글자 '삼'을 B 태그를 이용하여 레이블링하고, 글자 '림'을 I 태그를 이용하여 레이블링하고, 나머지 문자는 O 태그를 이용하여 레이블링한다.

이상으로 BIO 태그를 예로 들어 제2 트레이닝 텍스트 중의 키 프레이즈에 대한 수동 레이블링을 설명하였다. 그러나, 이는 단지 설명에 그 목적을 두는 것으로, 본 개시에 대하여 어떠한 제한을 하고자 하는 것도 아님을 이해하여야 한다. 본 개시의 일부 기타 실시예에서는, BIO 태그 이외의 기타 태그를 이용하여 제2 트레이닝 텍스트 중의 키 프레이즈를 레이블링할 수도 있는바, 본 개시의 범위는 이러한 측면에서 제한을 받지 않는다.

일부 실시예에서는, 제2 트레이닝 텍스트의 획득과 제2 트레이닝 데이터(102)의 생성 중에서 일부 또는 전부가 모델 트레이닝 장치(111)에 의해 실행될 수 있다. 즉, 모델 트레이닝 장치(111)는 임의 텍스트를 제2 트레이닝 텍스트로 할 수도 있고 또는 음성 인식 기술을 이용하여 제2 오디오 샘플을 제2 트레이닝 텍스트로 변환할 수도 있다. 부가적으로 또는 대안적으로, 모델 트레이닝 장치(111)는 제2 트레이닝 텍스트에 따라 제2 트레이닝 데이터(102)를 자체 생성할 수 있다.

대안적으로, 다른 일부 실시예에서, 제2 트레이닝 텍스트의 획득과 제2 트레이닝 데이터(102)의 생성 중에서 일부 또는 전부가 기타의 장치에 의해 실행될 수 있다. 이러한 상황에서, 모델 트레이닝 장치(111)는 예컨대 당해 기타의 장치로부터 생성된 제2 트레이닝 데이터(102)를 획득하여 모델 트레이닝에 직접 사용할 수 있다.

일부 실시예에서, 모델 트레이닝 장치(111)는 제1 트레이닝 데이터(101) 및 제2 트레이닝 데이터(102)에 따라 키 프레이즈 인식 모델(103)을 트레이닝할 수 있다. 예컨대, 키 프레이즈 인식 모델(103)의 예시는 재귀 신경망 모델(예컨대, 장단기 기억(LSTM) 모델), 합성곱 신경망(CNN) 모델 등을 포함할 수 있으나 이에 한정되지 않는다. 트레이닝된 키 프레이즈 인식 모델(103)은 오디오 데이터 중의 키 프레이즈를 인식될 수 있다.

도 1에 도시한 바와 같이, 모델 애플리케이션 서브시스템(120)에서, 모델 애플리케이션 장치(121)는 인식해야 할 오디오 데이터(104)를 획득하고 트레이닝된 키 프레이즈 인식 모델(103)을 이용하여 오디오 데이터(104) 중의 키 프레이즈를 인식할 수 있다. 오디오 데이터(104)는 임의의 인식해야 할 오디오 파일, 오디오 데이터 스트림 등을 포함할 수 있다. 예컨대, 모델 애플리케이션 장치(121)는 실시간으로 인식해야 할 오디오 데이터 스트림을 획득하거나 또는 특정 기억 장치로부터 인식해야 할 오디오 파일을 획득하여 오디오 데이터(104)로 할 수 있다.

일부 실시예에서, 모델 애플리케이션 장치(121)는 음성 인식 기술을 이용하여 오디오 데이터(104)를 이에 대응되는 텍스트로 변환하고, 획득한 텍스트를 문장 구분자에 따라 하나 또는 복수의 문장으로 분할할 수 있다. 그리고, 모델 애플리케이션 장치(121)는 키 프레이즈 인식 모델(103)을 이용하여 매개 문장 중의 문자에 대응하는 대응 태그를 결정하고, 대응 태그에 따라 문장 중의 키 프레이즈를 인식할 수 있다.

일부 실시예에서, 예컨대 키 프레이즈 인식 모델(103)을 트레이닝하기 위한 제2 트레이닝 데이터(102)에 BIO 태그를 이용하여 제2 트레이닝 텍스트 중의 키 프레이즈를 레이블링한다. 이러한 상황에서, 모델 애플리케이션 장치(121)는 키 프레이즈 인식 모델(103)을 이용하여 매개 문장 중의 매개 문자의 태그를 B 태그, I 태그 및 O 태그 중의 하나로 결정할 수 있는바, 여기서 B 태그는 당해 문자가 키 프레이즈인 시작 문자를 지시할 수 있고, I 태그는 당해 문자가 키 프레이즈에서 시작 문자 이외의 문자를 지시할 수 있고, O 태그는 당해 문자가 키 프레이즈에 속하지 않음을 지시할 수 있다. 나아가, 모델 애플리케이션 장치(121)는 B 태그에 의해 표기되는 문자 및 I 태그에 의해 표기되는 문자의 집합에 의해 키 프레이즈로 인식될 수 있다. 대안적으로, 일부 기타 실시예에서, 키 프레이즈 인식 모델(103)을 트레이닝하기 위한 제2 트레이닝 데이터(102)에도 BIO 태그 이외의 복수의 기타 태그를 이용하여 제2 트레이닝 텍스트 중의 키 프레이즈를 레이블링할 수 있다. 이러한 상황에서, 모델 애플리케이션 장치(121)는 키 프레이즈 인식 모델(103)을 이용하여 매개 문장 중의 문자 또는 단어의 대응 태그를 예컨대 복수의 기타 태그 중 하나로 결정하고, 나아가 결정된 태그에 따라 키 프레이즈를 인식할 수 있다.

도 2는 본 개시의 실시예에 따른 키 프레이즈 인식 모델을 트레이닝하기 위한 예시 방법(200)의 흐름도를 나타낸다. 예컨대, 방법(200)은 도 1에 도시한 바와 같은 모델 트레이닝 장치(111)에 의해 실행될 수 있다. 이하 도 1을 결부하여 방법(200)의 각각의 동작에 대해 상세히 설명하고자 한다. 방법(200)은 미도시된 부가 동작을 더 포함하거나 및/또는 도시된 동작을 생략할 수 있음을 이해하여야 한다. 본 개시의 범위는 이러한 측면에서 제한을 받지 않는다.

블록(210)에서, 모델 트레이닝 장치(111)는 제1 트레이닝 데이터(101)를 획득한다. 예컨대, 제1 트레이닝 데이터(101)는 제1 트레이닝 텍스트 중의 단어의 특징 정보를 표기할 수 있다.

일부 실시예에서, 제1 트레이닝 텍스트는 획득될 수 있고, 그리고 제1 트레이닝 텍스트를 전처리하여 제1 트레이닝 데이터를 생성할 수 있다. 예컨대, 임의 텍스트를 획득하여 제1 트레이닝 텍스트로 할 수 있다. 또 예를 들면, 키 프레이즈 인식 모델(103)을 트레이닝하기 위한 제1 오디오 샘플을 획득하고, 음성 인식 기술을 이용하여 제1 오디오 샘플을 제1 트레이닝 텍스트로 변환할 수 있다. 일부 실시예에서, 제1 트레이닝 데이터(101)는 이하와 같은 방식으로 생성될 수 있다. 문장 구분자에 따라 제1 트레이닝 텍스트를 적어도 하나의 문장으로 분할하고, 자연 언어 처리 기술을 이용하여 적어도 하나의 문장 중의 단어의 특징 정보를 결정한다. 예컨대, 단어의 특징 정보는 당해 단어의 텍스트, 품사, 의미 및 문법 정보 중 적어도 하나를 포함할 수 있다.

블록(220)에서, 모델 트레이닝 장치(111)는 제2 트레이닝 데이터(102)를 획득한다. 예컨대, 제2 트레이닝 데이터(102)는 제2 트레이닝 텍스트 중의 키 프레이즈를 표기할 수 있다. 여기서 기술하는 '키 프레이즈'는 사용자의 의도을 기반으로 결정될 수 있는바, 그 예시는 제2 트레이닝 텍스트 중의 주인공, 특정 시나리오, 시간 또는 이들의 조합 등을 포함할 수 있으나 이에 한정되지 않는다.

일부 실시예에서, 제2 트레이닝 텍스트는 획득될 수 있고, 그리고 제2 트레이닝 텍스트를 전처리하여 제2 트레이닝 데이터(102)를 생성할 수 있다. 예컨대, 임의 텍스트를 획득하여 제2 트레이닝 텍스트로 할 수 있다. 또 예를 들면, 키 프레이즈 인식 모델(103)을 트레이닝하기 위한 제2 오디오 샘플을 획득하고, 음성 인식 기술을 이용하여 제2 오디오 샘플을 제2 트레이닝 텍스트로 변환할 수 있다. 일부 실시예에서, 제2 트레이닝 데이터(102)는 이하와 같은 방식으로 생성될 수 있다. 문장 구분자에 따라 제2 트레이닝 텍스트를 적어도 하나의 문장으로 분할하고, 복수의 태그를 이용하여 적어도 하나의 문장 중의 키 프레이즈를 표기한다. 예컨대, 제1 태그를 이용하여 키 프레이즈의 시작 문자를 표시할 수 있고, 제2 태그를 이용하여 키 프레이즈에서 시작 문자 다음의 후속 문자를 표기할 수 있고, 제3 태그를 이용하여 문장 중의 키 프레이즈에 속하지 않는 문자를 표기할 수 있다.

블록(230)에서, 모델 트레이닝 장치(111)는 제1 트레이닝 데이터(101) 및 제2 트레이닝 데이터(102)에 따라 키 프레이즈 인식 모델(103)을 트레이닝한다. 예컨대, 키 프레이즈 인식 모델(103)의 예시는 재귀 신경망 모델(예컨대, 장단기 기억(LSTM) 모델), 합성곱 신경망(CNN) 모델 등을 포함할 수 있으나 이에 한정되지 않는다. 트레이닝된 키 프레이즈 인식 모델(103)은 오디오 데이터 중의 키 프레이즈를 인식될 수 있다.

도 3은 본 개시의 실시예에 따른 오디오 중의 키 프레이즈를 인식하기 위한 방법(300)의 흐름도를 나타낸다. 예컨대, 방법(300)은 도 1에 도시한 바와 같은 모델 애플리케이션 장치(121)에 의해 실행될 수 있다. 이하 도 1을 결부하여 방법(300)의 각각의 동작을 상세히 설명하고자 한다. 방법(300)은 또한 미도시된 부가 동작을 포함하거나 및/또는 도시된 동작을 생략할 수 있음을 이해하여야 한다. 본 개시의 범위는 이러한 측면에서 제한을 받지 않는다.

블록(310)에서, 모델 애플리케이션 장치(121)는 인식해야 할 오디오 데이터(104)를 획득한다. 예컨대, 오디오 데이터(104)는 임의의 인식해야 할 오디오 파일, 오디오 데이터 스트림 등을 포함할 수 있다. 일부 실시예에서, 모델 애플리케이션 장치(121)는 실시간으로 인식해야 할 오디오 데이터 스트림을 획득하여 오디오 데이터(104)로 할 수 있다. 대안적으로, 모델 애플리케이션 장치(121)는 특정 기억 장치로부터 인식해야 할 오디오 파일을 획득하여 오디오 데이터(104)로 할 수 있다.

블록(320)에서, 모델 애플리케이션 장치(121)는 트레이닝된 키 프레이즈 인식 모델(103)을 이용하여 오디오 데이터(104) 중의 키 프레이즈을 인식한다.

일부 실시예에서, 예컨대, 문자의 태그는, 당해 문자가 키 프레이즈의 시작 문자임을 지시하는 제1 태그; 당해 문자가 키 프레이즈에서 시작 문자 다음의 후속 문자임을 지시하는 제2 태그; 및 당해 문자가 키 프레이즈에 속하지 않음을 지시하는 제3 태그 중 하나를 포함할 수 있다. 일부 실시예에서, 모델 애플리케이션 장치(121)는 제1 태그에 의해 표기되는 시작 문자 및 제2 태그에 의해 표기되는 후속 문자의 집합을 키 프레이즈로 인식할 수 있다.

이상의 설명으로부터 볼 수 있는바, 본 개시의 실시예는 오디오 중의 키 프레이즈를 인식하기 위한 방안을 제공한다. 당해 방안은 자연 언어 처리를 거친 트레이닝 샘플과 수동 서열 레이블링을 거친 트레이닝 샘플, 이 양자를 이용하여 키 프레이즈 인식 모델을 트레이닝한다. 당해 방안은 인식해야 할 오디오 데이터를 대응되는 텍스트로 변환하고, 트레이닝된 키 프레이즈 인식 모델을 이용하여 텍스트 중의 키워드 또는 키 프레이즈를 인식한다. 이러한 방식으로, 당해 방안은 정확하고 고효율적으로 오디오 데이터의 내용을 이해하고 그 중의 핵심 정보를 추출할 수 있다. 때문에, 당해 방안은 광범위하게 여러 가지 오디오 애플리케이션 또는 오디오 검색 시스템에 응용될 수 있다.

도 4는 본 개시의 실시예에 따른 키 프레이즈 인식 모델을 트레이닝하기 위한 장치(400)의 개략적 블록도를 나타낸다. 도 4에 도시한 바와 같이, 장치(400)는, 제1 트레이닝 데이터를 획득 - 여기서, 제1 트레이닝 데이터는 제1 트레이닝 텍스트 중의 단어의 특징 정보를 표기함 - 하도록 구성되는 제1 획득 모듈(410)을 포함할 수 있다. 장치(400)는 또한, 제2 트레이닝 데이터를 획득 - 여기서, 제2 트레이닝 데이터는 제2 트레이닝 텍스트 중의 키 프레이즈를 표기함 - 하도록 구성되는 제2 획득 모듈(420)를 포함할 수 있다. 이 외에, 장치(400)는, 제1 트레이닝 데이터 및 제2 트레이닝 데이터에 따라 키 프레이즈 인식 모델을 트레이닝하여 오디오 데이터 중의 키 프레이즈를 인식하도록 구성되는 모델 트레이닝 모듈(430)을 더 포함할 수 있다.

일부 실시예에서, 제1 획득 모듈(410)은, 제1 트레이닝 텍스트를 획득하도록 구성되는 제1 획득 유닛; 및 제1 트레이닝 텍스트를 전처리하여 제1 트레이닝 데이터를 생성하도록 구성되는 제1 전처리 유닛을 포함한다.

일부 실시예에서, 제1 획득 유닛은 또한, 키 프레이즈 인식 모델을 트레이닝하기 위한 제1 오디오 샘플을 획득하고; 음성 인식 기술을 이용하여 제1 오디오 샘플을 제1 트레이닝 텍스트로 변환하도록 구성된다.

일부 실시예에서, 제1 전처리 유닛은 또한, 제1 트레이닝 텍스트를 적어도 하나의 문장으로 분할하고; 및 자연 언어 처리 기술을 이용하여 적어도 하나의 문장 중의 단어의 특징 정보를 결정하도록 구성된다.

일부 실시예에서, 특징 정보는, 당해 단어의 텍스트, 품사, 의미 및 문법 정보 중 적어도 하나를 포함한다.

일부 실시예에서, 제2 획득 모듈(420)은, 제2 트레이닝 텍스트를 획득하도록 구성되는 제2 획득 유닛; 및 제2 트레이닝 텍스트를 전처리하여 제2 트레이닝 데이터를 생성하도록 구성되는 제2 전처리 유닛을 포함한다.

일부 실시예에서, 제2 획득 유닛은 또한, 키 프레이즈 인식 모델을 트레이닝하기 위한 제2 오디오 샘플을 획득하고; 및 음성 인식 기술을 이용하여 제2 오디오 샘플을 제2 트레이닝 텍스트로 변환하도록 구성된다.

일부 실시예에서, 제2 전처리 유닛은 또한, 제2 트레이닝 텍스트를 적어도 하나의 문장으로 분할하고; 및 복수의 태그를 이용하여 적어도 하나의 문장 중의 키 프레이즈를 표기하도록 구성된다.

일부 실시예에서, 제2 전처리 유닛은 또한, 제1 태그를 이용하여 키 프레이즈의 시작 문자를 표기하고; 제2 태그를 이용하여 키 프레이즈 중의 시작 문자 다음의 후속 문자를 표기하며; 및 제3 태그를 이용하여 적어도 하나의 문장 중의 키 프레이즈에 속하지 않는 문자를 표기하도록 구성된다.

도 5는 본 개시의 실시예에 따른 오디오 중의 키 프레이즈를 인식하기 위한 장치(500)의 개략적 블록도를 나타낸다. 도 5에 도시한 바와 같이, 장치(500)은 인식해야 할 오디오 데이터를 획득하도록 구성되는 오디오 획득 모듈(510)을 포함할 수 있다. 장치(500)은, 트레이닝된 키 프레이즈 인식 모델을 이용하여 오디오 데이터 중의 키 프레이즈를 인식하도록 구성되는 인식 모듈(520)을 더 포함할 수 있다. 여기서, 키 프레이즈 인식 모델은 제1 트레이닝 데이터 및 제2 트레이닝 데이터에 따라 트레이닝되고, 제1 트레이닝 데이터는 제1 트레이닝 텍스트 중의 단어의 특징 정보를 표기하고 제2 트레이닝 데이터는 제2 트레이닝 텍스트 중의 키 프레이즈를 표기한다.

일부 실시예에서, 인식 모듈(520)은, 음성 인식 기술을 이용하여 오디오 데이터를 당해 오디오 데이터에 대응되는 텍스트로 변환하도록 구성되는 데이터 변환 유닛; 당해 텍스트를 적어도 하나의 문장으로 분할하도록 구성되는 텍스트 분할 유닛; 키 프레이즈 인식 모델을 이용하여 적어도 하나의 문장 중의 문자에 대응하는 대응 태그를 결정하도록 구성되는 태그 결정 유닛; 및 대응 태그에 따라 오디오 데이터 중의 키 프레이즈를 인식하도록 구성되는 인식 유닛을 포함한다.

일부 실시예에서, 대응 태그는, 당해 문자가 키 프레이즈의 시작 문자임을 지시하는 제1 태그; 당해 문자가 키 프레이즈 중 시작 문자 이후에 위치하는 후속 문자임을 지시하는 제2 태그; 및 당해 문자가 키 프레이즈에 속하지 않음을 지시하는 제3 태그 중 하나를 포함할 수 있다.

일부 실시예에서, 인식 유닛은 또한, 제1 태그에 의해 표기되는 시작 문자 및 제2 태그에 의해 표기되는 후속 문자의 집합을 키 프레이즈로 인식하도록 구성된다.

도 6은 본 개시의 실시예를 구현하는데 사용 가능한 예시 기기(600)의 개략적 블록도를 나타낸다. 기기(600)는 도 1에 기술한 것과 같은 모델 트레이닝 장치(111) 및/또는 모델 애플리케이션 장치(121)를 구현하기 위한 것일 수 있다. 도시한 바와 같이, 기기(600)는 중앙 처리 유닛(CPU)(601)을 포함하는바, 이는 읽기 전용 메모리(ROM)(602) 중의 컴퓨터 프로그램에 기억된 명령어 또는 기억 유닛(608)으로부터 랜덤 액세스 메모리(RAM)(603)에 로딩된 컴퓨터 프로그램 명령어에 근거하여 여러 가지 적당한 동작과 처리를 실행할 수 있다. RAM(603)에는, 기기(600) 조작에 필요한 여러 가지 프로그램 및 데이터를 기억할 수 있다. CPU(601), ROM(602) 및 RAM(603)은 버스(604)를 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(605)도 버스(604)에 연결된다.

기기(600) 중의 복수의 부품은 I/O 인터페이스(605)에 연결되는바, 상기 복수의 부품은, 예컨대 키보드, 마우스 등 입력 유닛(606); 예컨대 여러 가지 유형의 디스플레이, 스피커 등 출력 유닛(607); 예컨대 자기 디스크, 광디스크 등 기억 유닛(608); 및 예컨대 네트워크 카드, 모뎀, 무선 통신 송수신기 등 통신 유닛(609)이 포함된다. 통신 유닛(609)은 기기(600)가 인터넷과 같은 컴퓨터 네트워크 및/또는 여러 가지 전기 통신 네트워크를 통하여 기타 기기와 정보/데이터를 교환하는 것을 허용한다.

처리 유닛(601)은 전술에서 설명된 각각의 방법 및 처리를 실행하는바, 예컨대 방법(400) 및/또는 (500)이다. 예컨대, 일부 실시예에서, 방법(400) 및/또는 (500)은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있는바, 이는 기계 판독 가능 매체, 예컨대 기억 유닛(608)에 유형적으로 포함된다. 일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전부가 ROM(602) 및/또는 통신 유닛(609)을 통하여 기기(600)에 로딩 및/또는 설치될 수 있다. 컴퓨터 프로그램이 RAM(603)에 로딩되어 CPU(601)에 의해 실행될 경우, 전술에서 설명된 방법(400) 및/또는 (500)의 하나 또는 복수의 단계를 실행할 수 있다. 대안적으로, 기타 실시예에서, CPU(601)는 기타 임의의 적당한 방식을 통해(예컨대, 펌웨어의 도움으로) 방법(400) 및/또는 (500)을 실행하도록 구성될 수 있다.

본 개시에서, 이상에서 설명된 기능은 적어도 부분적으로 하나 또는 복수의 하드웨어 논리 부품에 의해 실행될 수 있다. 예컨대, 무제한적으로, 사용 가능한 시범 유형의 하드웨어 논리 부품은 필드 프로그램 가능 게이트 어레이(FPGA), 주문형 반도체(ASIC), 특정 용도 표준 제품(ASSP), 시스템 온 칩(SOC), 복합 프로그래머블 논리 소자(CPLD) 등을 포함한다.

본 개시의 방법을 구현하기 위한 프로그램 코드는 하나 또는 복수의 프로그래밍 언어의 임의의 조합을 적용하여 작성할 수 있다. 이러한 프로그램 코드는 범용 컴퓨터, 전용 컴퓨터 또는 기타 프로그램 가능 데이터 처리 장치의 프로세서 또는 제어기에 제공되어 프로그램 코드가 프로세서 또는 제어기에 의해 실행될 경우 흐름도 및/또는 블록도에 규정한 기능/조작이 구현되도록 할 수 있다. 프로그램 코드는 기계에서 전부 실행되거나, 기계에서 일부 실행되거나, 독립적인 소프트웨어 패키지로서 일부는 기계에서 실행되고 일부는 원격 기계에서 실행되거나, 혹은 원격 기계 또는 서버에서 전부 실행될 수 있다.

본 개시의 전반 서술에서, 기계 판독 가능 매체는 유형의 매체일 수 있는바, 이는, 명령어 실행 시스템, 장치 또는 기기에 사용하기 위한, 또는 명령어 실행 시스템, 장치 또는 기기와 결합하여 사용하기 위한 프로그램을 포함 또는 기억할 수 있다. 기계 판독 가능 매체는 기계 판독 가능 신호 매체 또는 기계 판독 가능 저장 매체일 수 있다. 기계 판독 가능 매체는 전자의, 자성의, 광학의, 전자기의, 적외선의 또는 반도체의 시스템, 장치 또는 기기, 또는 상술한 내용의 임의의 적합한 조합을 포함할 수 있으나 이에 한정되지 않는다. 기계 판독 가능 저장 매체의 더 구체적인 예시는 하나 또는 복수의 선에 기반하는 전기 연결, 휴대형 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 읽기 전용 메모리(ROM), 소거 및 프로그램 가능 읽기 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 콤팩트 디스크 읽기 전용 메모리(CD-ROM), 광학 기억 기기, 자기 기억 기기, 또는 상술한 내용의 임의의 적합한 조합을 포함하게 된다.

이 외에, 비록 각 조작을 묘사함에 있어서 특정 순서를 적용하였지만, 이러한 조작이 도시된 특정 순서로 또는 순차적 순서로 실행되어야 하거나, 또는 모든 도시한 조작이 실행되어야 하는 것으로, 이로써 기대하는 결과를 취득하기 위한 것임을 이해하여야 한다. 일정한 환경에서는, 다중 태스크 및 병렬 처리가 유익할 수 있다. 마찬가지로, 비록 위의 서술에는 약간의 구체 구현 디테일이 포함되지만, 이러한 것은 본 개시의 범위에 대한 제한으로 해석되어서는 안된다. 단독의 실시예의 전반 서술에서 설명되는 어떤 특징 또한, 조합 가능하게 하나의 구현에 구현될 수 있다. 반대로, 하나의 구현의 전반 서술에서 설명되는 여러 가지 특징도 단독으로 또는 임의의 적합한 서브조합의 방식으로 복수의 구현에 구현될 수 있다.

비록 이미 구조적 특징 및/또는 방법론적 동작에 특정된 언어를 적용하여 본 주제에 대해 설명하였지만, 첨부된 특허청구범위가 한정하는 주제는 위에서 설명한 특정 특징 또는 동작에 한정되는 것이 아님을 이해하여야 한다. 반대로, 위에서 설명한 특정 특징 및 동작은 단지 특허청구범위의 예시 형식을 구현하는 것일 뿐이다.

Claims

키 프레이즈 인식 모델을 트레이닝하기 위한 방법에 있어서,
제1 트레이닝 텍스트 중의 단어의 특징 정보를 표기하는 제1 트레이닝 데이터를 획득하는 단계;
제2 트레이닝 텍스트 중의 키 프레이즈를 표기하는 제2 트레이닝 데이터를 획득하는 단계 - 상기 키 프레이즈는 주인공, 특정 시나리오, 시간 또는 이들의 조합을 포함하고, 상기 키 프레이즈는 사용자의 의도를 기반으로 결정된 하나 또는 복수의 키워드임 - ; 및
상기 제1 트레이닝 데이터 및 상기 제2 트레이닝 데이터에 따라 키 프레이즈 인식 모델을 트레이닝하여, 오디오 데이터 중의 키 프레이즈를 인식하는 단계
를 포함하고,
상기 제1 트레이닝 데이터를 획득하는 단계는,
상기 제1 트레이닝 텍스트를 획득하는 단계; 및
상기 제1 트레이닝 텍스트를 전처리하여 상기 제1 트레이닝 데이터를 생성하는 단계
를 포함하며,
상기 제1 트레이닝 텍스트를 전처리하는 단계는,
상기 제1 트레이닝 텍스트를 적어도 하나의 문장으로 분할하는 단계; 및
자연 언어 처리 기술을 이용하여 상기 적어도 하나의 문장 중의 상기 단어의 상기 특징 정보를 결정하는 단계
를 포함하고,
상기 제2 트레이닝 데이터를 획득하는 단계는,
상기 제2 트레이닝 텍스트를 획득하는 단계; 및
상기 제2 트레이닝 텍스트를 전처리하여 상기 제2 트레이닝 데이터를 생성하는 단계
를 포함하며,
상기 제2 트레이닝 텍스트를 전처리하는 단계는,
상기 제2 트레이닝 텍스트를 적어도 하나의 문장으로 분할하는 단계; 및
복수의 태그를 이용하여 상기 적어도 하나의 문장 중의 상기 키 프레이즈를 표기하는 단계
를 포함하는 것을 특징으로 하는, 키 프레이즈 인식 모델을 트레이닝하기 위한 방법.
삭제
제1항에 있어서,
상기 제1 트레이닝 텍스트를 획득하는 단계는,
상기 키 프레이즈 인식 모델을 트레이닝하기 위한 제1 오디오 샘플을 획득하는 단계; 및
음성 인식 기술을 이용하여 상기 제1 오디오 샘플을 상기 제1 트레이닝 텍스트로 변환하는 단계
를 포함하는 것을 특징으로 하는, 키 프레이즈 인식 모델을 트레이닝하기 위한 방법.
삭제
제1항에 있어서,
상기 특징 정보는 상기 단어의 텍스트, 품사, 의미 및 문법 정보 중 적어도 하나를 포함하는 것을 특징으로 하는, 키 프레이즈 인식 모델을 트레이닝하기 위한 방법.
삭제
제1항에 있어서,
상기 제2 트레이닝 텍스트를 획득하는 단계는,
상기 키 프레이즈 인식 모델을 트레이닝하기 위한 제2 오디오 샘플을 획득하는 단계; 및
음성 인식 기술을 이용하여 상기 제2 오디오 샘플을 상기 제2 트레이닝 텍스트로 변환하는 단계
를 포함하는 것을 특징으로 하는, 키 프레이즈 인식 모델을 트레이닝하기 위한 방법.
삭제
제1항에 있어서,
복수의 태그를 이용하여 상기 적어도 하나의 문장 중의 상기 키 프레이즈를 표기하는 단계는,
제1 태그를 이용하여 상기 키 프레이즈의 시작 문자를 표기하는 단계;
제2 태그를 이용하여 상기 키 프레이즈 중의 상기 시작 문자 다음의 후속 문자를 표기하는 단계; 및
제3 태그를 이용하여 상기 적어도 하나의 문장 중의 상기 키 프레이즈에 속하지 않는 문자를 표기하는 단계
를 포함하는 것을 특징으로 하는, 키 프레이즈 인식 모델을 트레이닝하기 위한 방법.
오디오 중의 키 프레이즈를 인식하기 위한 방법에 있어서,
인식해야 할 오디오 데이터를 획득하는 단계; 및
트레이닝된 키 프레이즈 인식 모델을 이용하여 상기 오디오 데이터 중의 키 프레이즈를 인식하는 단계 - 상기 키 프레이즈 인식 모델은 제1 트레이닝 데이터 및 제2 트레이닝 데이터에 따라 트레이닝되며, 상기 제1 트레이닝 데이터는 제1 트레이닝 텍스트 중의 단어의 특징 정보를 표기하고, 상기 제2 트레이닝 데이터는 제2 트레이닝 텍스트 중의 키 프레이즈를 표기하며, 상기 키 프레이즈는 주인공, 특정 시나리오, 시간 또는 이들의 조합을 포함하고, 상기 키 프레이즈는 사용자의 의도를 기반으로 결정된 하나 또는 복수의 키워드임 -
를 포함하고,
상기 오디오 데이터 중의 키 프레이즈를 인식하는 단계는,
음성 인식 기술을 이용하여 상기 오디오 데이터를 상기 오디오 데이터에 대응되는 텍스트로 변환하는 단계;
상기 텍스트를 적어도 하나의 문장으로 분할하는 단계;
상기 키 프레이즈 인식 모델을 이용하여 상기 적어도 하나의 문장 중의 문자에 대응하는 대응 태그를 결정하는 단계; 및
상기 대응 태그에 따라 상기 오디오 데이터 중의 키 프레이즈를 인식하는 단계
를 포함하는 것을 특징으로 하는, 오디오 중의 키 프레이즈를 인식하기 위한 방법.
삭제
제10항에 있어서,
상기 대응 태그는,
상기 문자가 상기 키 프레이즈의 시작 문자임을 지시하는 제1 태그;
상기 문자가 상기 키 프레이즈 중의 상기 시작 문자 다음의 후속 문자임을 지시하는 제2 태그; 및
상기 문자가 상기 키 프레이즈에 속하지 않음을 지시하는 제3 태그
중 하나를 포함하는 것을 특징으로 하는, 오디오 중의 키 프레이즈를 인식하기 위한 방법.
제12항에 있어서,
상기 대응 태그에 따라 상기 오디오 데이터 중의 키 프레이즈를 인식하는 단계는,
상기 제1 태그에 의해 표기되는 상기 시작 문자 및 상기 제2 태그에 의해 표기되는 상기 후속 문자의 집합을 상기 키 프레이즈로 인식하는 단계
를 포함하는 것을 특징으로 하는, 오디오 중의 키 프레이즈를 인식하기 위한 방법.
키 프레이즈 인식 모델을 트레이닝하기 위한 장치에 있어서,
제1 트레이닝 텍스트 중의 단어의 특징 정보를 표기하는 제1 트레이닝 데이터를 획득하도록 구성되는 제1 획득 모듈;
제2 트레이닝 텍스트 중의 키 프레이즈를 표기하는 제2 트레이닝 데이터를 획득하도록 구성되는 제2 획득 모듈 - 상기 키 프레이즈는 주인공, 특정 시나리오, 시간 또는 이들의 조합을 포함하고, 상기 키 프레이즈는 사용자의 의도를 기반으로 결정된 하나 또는 복수의 키워드임 - ; 및
상기 제1 트레이닝 데이터 및 상기 제2 트레이닝 데이터에 따라 키 프레이즈 인식 모델을 트레이닝하여, 오디오 데이터 중의 키 프레이즈를 인식하도록 구성되는 모델 트레이닝 모듈
을 포함하고,
상기 제1 획득 모듈은,
상기 제1 트레이닝 텍스트를 획득하도록 구성되는 제1 획득 유닛; 및
상기 제1 트레이닝 텍스트를 전처리하여 상기 제1 트레이닝 데이터를 생성하도록 구성되는 제1 전처리 유닛
을 포함하며,
상기 제1 전처리 유닛은, 또한
상기 제1 트레이닝 텍스트를 적어도 하나의 문장으로 분할하고,
자연 언어 처리 기술을 이용하여 상기 적어도 하나의 문장 중의 상기 단어의 상기 특징 정보를 결정하도록 구성되고,
상기 제2 획득 모듈은,
상기 제2 트레이닝 텍스트를 획득하도록 구성되는 제2 획득 유닛; 및
상기 제2 트레이닝 텍스트를 전처리하여 상기 제2 트레이닝 데이터를 생성하도록 구성되는 제2 전처리 유닛
을 포함하며,
상기 제2 전처리 유닛은, 또한
상기 제2 트레이닝 텍스트를 적어도 하나의 문장으로 분할하고,
복수의 태그를 이용하여 상기 적어도 하나의 문장 중의 상기 키 프레이즈를 표기하도록 구성되는 것을 특징으로 하는, 키 프레이즈 인식 모델을 트레이닝하기 위한 장치.
삭제
제14항에 있어서,
상기 제1 획득 유닛은, 또한
상기 키 프레이즈 인식 모델을 트레이닝하기 위한 제1 오디오 샘플을 획득하고,
음성 인식 기술을 이용하여 상기 제1 오디오 샘플을 상기 제1 트레이닝 텍스트로 변환하도록 구성되는 것을 특징으로 하는, 키 프레이즈 인식 모델을 트레이닝하기 위한 장치.
삭제
제14항에 있어서,
상기 특징 정보는 상기 단어의 텍스트, 품사, 의미 및 문법 정보 중 적어도 하나를 포함하는 것을 특징으로 하는, 키 프레이즈 인식 모델을 트레이닝하기 위한 장치.
삭제
제14항에 있어서,
상기 제2 획득 유닛은, 또한
상기 키 프레이즈 인식 모델을 트레이닝하기 위한 제2 오디오 샘플을 획득하고,
음성 인식 기술을 이용하여 상기 제2 오디오 샘플을 상기 제2 트레이닝 텍스트로 변환하도록 구성되는 것을 특징으로 하는, 키 프레이즈 인식 모델을 트레이닝하기 위한 장치.
삭제
제14항에 있어서,
상기 제2 전처리 유닛은, 또한
제1 태그를 이용하여 상기 키 프레이즈의 시작 문자를 표기하고,
제2 태그를 이용하여 상기 키 프레이즈 중의 상기 시작 문자 다음의 후속 문자를 표기하며,
제3 태그를 이용하여 상기 적어도 하나의 문장 중의 상기 키 프레이즈에 속하지 않는 문자를 표기하도록 구성되는 것을 특징으로 하는, 키 프레이즈 인식 모델을 트레이닝하기 위한 장치.
오디오 중의 키 프레이즈를 인식하기 위한 장치에 있어서,
인식해야 할 오디오 데이터를 획득하도록 구성되는 오디오 획득 모듈; 및
트레이닝된 키 프레이즈 인식 모델을 이용하여 상기 오디오 데이터 중의 키 프레이즈를 인식하도록 구성되는 인식 모듈 - 상기 키 프레이즈 인식 모델은 제1 트레이닝 데이터 및 제2 트레이닝 데이터에 따라 트레이닝되며, 상기 제1 트레이닝 데이터는 제1 트레이닝 텍스트 중의 단어의 특징 정보를 표기하고, 상기 제2 트레이닝 데이터는 제2 트레이닝 텍스트 중의 키 프레이즈를 표기하며, 상기 키 프레이즈는 주인공, 특정 시나리오, 시간 또는 이들의 조합을 포함하고, 상기 키 프레이즈는 사용자의 의도를 기반으로 결정된 하나 또는 복수의 키워드임 -
을 포함하고,
상기 인식 모듈은,
음성 인식 기술을 이용하여 상기 오디오 데이터를 상기 오디오 데이터에 대응되는 텍스트로 변환하도록 구성되는 데이터 변환 유닛;
상기 텍스트를 적어도 하나의 문장으로 분할하도록 구성되는 텍스트 분할 유닛;
상기 키 프레이즈 인식 모델을 이용하여 상기 적어도 하나의 문장 중의 문자에 대응하는 대응 태그를 결정하도록 구성되는 태그 결정 유닛; 및
상기 대응 태그에 따라 상기 오디오 데이터 중의 키 프레이즈를 인식하도록 구성되는 인식 유닛
을 포함하는 것을 특징으로 하는, 오디오 중의 키 프레이즈를 인식하기 위한 장치.
삭제
제23항에 있어서,
상기 대응 태그는,
상기 문자가 상기 키 프레이즈의 시작 문자임을 지시하는 제1 태그;
상기 문자가 상기 키 프레이즈 중의 상기 시작 문자 다음의 후속 문자임을 지시하는 제2 태그; 및
상기 문자가 상기 키 프레이즈에 속하지 않음을 지시하는 제3 태그
중 하나를 포함하는 것을 특징으로 하는, 오디오 중의 키 프레이즈를 인식하기 위한 장치.
제25항에 있어서,
상기 인식 유닛은, 또한
상기 제1 태그에 의해 표기되는 상기 시작 문자 및 상기 제2 태그에 의해 표기되는 상기 후속 문자의 집합을 상기 키 프레이즈로 인식하도록 구성되는 것을 특징으로 하는, 오디오 중의 키 프레이즈를 인식하기 위한 장치.
전자 기기에 있어서,
하나 또는 복수의 프로세서; 및
하나 또는 복수의 프로그램을 기억하기 위한 기억 장치
를 포함하며,
상기 하나 또는 복수의 프로그램이 상기 하나 또는 복수의 프로세서에 의해 실행될 경우, 상기 하나 또는 복수의 프로세서가 제1항, 제3항, 제5항, 제7항 및 제9항 중 어느 한 항의 방법을 구현하도록 하는 것을 특징으로 하는 전자 기기.
전자 기기에 있어서,
하나 또는 복수의 프로세서; 및
하나 또는 복수의 프로그램을 기억하기 위한 기억 장치
를 포함하며,
상기 하나 또는 복수의 프로그램이 상기 하나 또는 복수의 프로세서에 의해 실행될 경우, 상기 하나 또는 복수의 프로세서가 제10항, 제12항 및 제13항 중 어느 한 항의 방법을 구현하도록 하는 것을 특징으로 하는 전자 기기.
컴퓨터 프로그램이 기억되어 있는 컴퓨터 판독 가능 저장 매체에 있어서,
상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우, 제1항, 제3항, 제5항, 제7항 및 제9항 중 어느 한 항의 방법을 구현하는 것을 특징으로 하는 컴퓨터 판독 가능 저장 매체.
컴퓨터 프로그램이 기억되어 있는 컴퓨터 판독 가능 저장 매체에 있어서,
상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우, 제10항, 제12항 및 제13항 중 어느 한 항의 방법을 구현하는 것을 특징으로 하는 컴퓨터 판독 가능 저장 매체.