KR20230155156A - 통합 토크나이저를 갖는 음성 이해 시스템 및 상기 음성 이해 시스템에서의 통합 토큰화 방법 - Google Patents

통합 토크나이저를 갖는 음성 이해 시스템 및 상기 음성 이해 시스템에서의 통합 토큰화 방법 Download PDF

Info

Publication number
KR20230155156A
KR20230155156A KR1020220054663A KR20220054663A KR20230155156A KR 20230155156 A KR20230155156 A KR 20230155156A KR 1020220054663 A KR1020220054663 A KR 1020220054663A KR 20220054663 A KR20220054663 A KR 20220054663A KR 20230155156 A KR20230155156 A KR 20230155156A
Authority
KR
South Korea
Prior art keywords
integrated
tokenizer
tokenization
speech
tokens
Prior art date
Application number
KR1020220054663A
Other languages
English (en)
Inventor
구명완
이정필
Original Assignee
서강대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서강대학교산학협력단 filed Critical 서강대학교산학협력단
Priority to KR1020220054663A priority Critical patent/KR20230155156A/ko
Publication of KR20230155156A publication Critical patent/KR20230155156A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 통합 토크나이저를 갖는 음성 이해 시스템에 관한 것이다. 상기 음성 이해 시스템은, 훈련용 데이터들을 이용하여 통합 토크나이저를 학습시키고, 학습 과정에서 생성된 토큰들을 이용하여 통합 토큰 사전을 생성하는 통합 토크나이저 학습 장치를 구비한다. 상기 통합 토크나이저 학습 장치는, 훈련용 데이터들을 전처리하는 전처리 모듈; 전처리된 훈련용 데이터들에 대하여, 명사와 조사를 분리하는 명사 토큰화 모듈; 입력 데이터들에 대하여 서브워드 토큰화 알고리즘으로 토큰들을 생성하는 통합 토크나이저; 및 명사와 조사가 분리된 훈련용 데이터들을 이용하여 상기 통합 토크나이저를 학습시키는 통합 토크나이저 학습 모듈;을 구비한다. 본 발명에 따른 음성 이해 시스템은, 통합 토크나이저를 이용하여 토큰화시킴으로써, 음성 인식기와 언어 이해 처리기가 한 번의 토큰화 과정을 통해 실행될 수 있다.

Description

통합 토크나이저를 갖는 음성 이해 시스템 및 상기 음성 이해 시스템에서의 통합 토큰화 방법{Voice recognition system by using a single tokenizer and method of tokenization in the voice recognition system}
본 발명은 음성 이해 시스템의 토큰화 방법에 관한 것으로서, 더욱 구체적으로는 명사와 조사를 분리한 후 서브워드 방식의 알고리즘을 이용한 토큰화를 수행함으로써, 단일의 토큰화를 통해 음성 인식기와 언어 이해 처리기가 모두 실행될 수 있도록 구성된 음성 이해 시스템에서의 통합 토큰화 방법에 관한 것이다.
자연어 처리 과정은 일반적으로 토큰화, 토큰 단어 사전(Vocabulary) 생성, 정수 인코딩 패딩, 벡터화의 과정을 거치게 된다. 여기서, 토큰화(Tokenization)는 주어진 문장이나 텍스트를 단어 또는 문자 등의 기본 유니트인 토큰(token)으로 자르는 것을 의미한다.
자연어 처리에서 토큰화는 전처리 단계, 즉 음성 인식이나 언어 이해 처리를 위한 딥러닝 모델을 실제로 학습하기 전에 진행하게 되는데, 좋은 토큰을 만들어야 딥러닝 모델의 학습이 효율적으로 진행될 수 있게 된다. 좋은 토큰은 충분한 의미를 내포하면서도 적절한 크기의 토큰 단어 사전(Vocabulary)를 만들 수 있도록 설계되어야 한다. 토큰이 너무 잘게 쪼개지는 경우, 토큰이 특정한 의미를 담을 수 없게 되고, 그 결과 언어에 담겨진 특성을 충분히 파악할 수 없게 된다. 반면, 토큰을 쪼개지 않을 경우, 토큰 단어 사전의 크기가 너무 커지게 되는 문제가 발생한다. 토큰 단어 사전은 딥러닝 모델이 학습할 때 특정 토큰과 숫자형 데이터를 매핑시켜 놓고 참고하는 정보이다. 참고로, 토큰 단어 사전을 만들 때 모든 단어를 포함할 수 없기 때문에, 일반적으로는 사전의 크기를 정해 놓고 빈도수 기반으로 단어를 포함시키게 된다. 텍스트를 숫자로 바꾸는 과정에서 토큰 단어 사전에 없는 토큰을 만날 경우, 해당 토큰은 OOV(Out-of-Vocabulary; “단어사전에 값이 없음”)라는 특별한 토큰의 숫자값으로 변환시키게 된다.
한편, 대표적인 토큰화 방법으로는 1) 단어 기반 토큰화(Word-based tokenization) 2) 글자 기반 토큰화(Character-based tokenization) 3) 서브워드 토큰화(Subword tokenization)가 있다.
먼저, 단어 기반 토큰화는 단어 사전의 크기가 매우 커질 수 있으며, OOV(Out-of-Vocabulary)의 양이 증가하여 딥러닝 모델의 성능이 저하될 수 있으며, 유사한 단어들 사이의 의미 관계 파악이 어려운 문제점이 있다. 그리고, 글자 기반 토큰화는 시퀀스가 매우 길어지며, 개별 토큰의 유의미성이 떨어지게 된다. 이러한 글자 기반 토큰화와 단어 기반 토큰화의 한계로 인하여, 서브워드 토큰화가 주로 사용된다. 서브워드 토큰화의 기본 개념은, 자주 사용되는 단어는 더 작은 서브워드로 나누어져서는 안되며, 자주 사용되지 않는 단어는 의미를 갖는 서브워드로 분해하는 것이다. 서브워드 토큰화는 비슷한 통사론적, 의미론적 단위로 텍스트를 식별할 수 있기 때문에 널리 사용된다. 서브워드 토큰화 알고리즘으로는 BPE(Byte-Pair Encoding) 알고리즘, Byte-level BPE 알고리즘, WordPiece 알고리즘, SentencePiece 알고리즘 등과 같은 다양한 알고리즘들이 제안된 바 있다.
한편, 영어는 띄어쓰기(Whitespace) 단위로 토큰화를 진행해도 단어들 간에 구분이 명확하기 때문에 토큰화 작업이 수월하다. 하지만, 한국어는 영어와는 달리 띄어쓰기만으로는 토큰화를 할 수 없다. 한국어는 조사, 어미 등을 붙여서 말을 만드는 교착어이다. 한국어는 이러한 교착어의 특성으로 인하여, 띄어쓰기 단위가 되는 단어나 어절을 기준으로 하는 어절 토큰화를 하는 경우 토큰 단어 사전(vocabulary)이 너무 커지게 된다. 이러한 문제를 줄이기 위하여, 한국어에 대한 자소 또는 음절 단위로 토큰화를 처리하는 방법도 있지만, 이러한 방법들은 한국어에 대한 언어의 의미적 단위가 상실되어 낮은 성능을 초래하게 된다.
일반적으로, 자연어 처리 분야 중 하나인 음성 이해 시스템은 음성 인식기와 언어 이해 처리기로 구성된다. 음성 인식기는 음파의 형태로 음성 신호를 인식하는 음향 모듈과, 음향 모듈에 의해 인식된 음성 신호를 텍스트의 형태로 변환시켜 출력하는 언어 모듈로 구성되어, 입력된 음성 신호를 텍스트 형태로 변환시켜 출력한다. 그리고, 언어 이해 처리기는 텍스트들을 의미 이해의 최소 단위로 다시 토큰화하고 언어의 의미를 분석하여 출력한다. 도 1은 종래의 기술에 따른 음성 이해 시스템을 전체적으로 도시한 구성도이다. 도 1에 도시된 바와 같이, 종래의 기술에 따른 음성 이해 시스템은 음성 인식기와 언어 이해 처리기를 구비하여, 음성 인식을 위한 언어 처리와 언어 이해를 위한 언어 처리가 각각 독립적으로 구현되었다.
음성 인식기는, 음성 인식을 위한 기본 유니트인 토큰(token)이 필요하고, 이러한 기본 유니트는 띄어쓰기에 기반한 어절, 음절 및 통계적인 방식으로 구한 서브워드를 사용해 오고 있으며, 그 결과 문장을 생성한다. 한편, 언어 이해 처리기는 입력된 문장을 형태소 분석 또는 통계적 서브워드 방식으로 기본 유니트를 분리한 후, 언어 이해 모듈을 이용하여 문장의 의미를 분류하게 된다. 음성 인식기는 기본 토큰의 길이가 가능한 한 긴 것이 음성 신호를 모델링하는 것이 편리한 반면에, 언어 이해 처리기는 의미적 최소 단위를 기본 토큰으로 사용하는 것이 편리하다.
이와 관련하여, 구글은 음성 인식 연구에서 서브 워드 토큰화 방식으로 처리하여 적절한 길이 단위로 토큰화를 함으로써, 기본의 방법들보다 높은 성능을 제안한 바 있다. 하지만, 구글이 개발한 서브워드 토큰화 방식은 한국어 조사를 분리하기 어렵기 때문에, 한국어 음성 인식 시스템에 사용하기에는 효과적이지 못한 문제점이 있다. 한편, 형태소 분석은 의미적인 최소 단위이므로 음소 단위로 분리될 수 있다. 따라서, 문장을 음절 단위로 분리시키기 위하여, 의사(Pseudo) 형태소 단위를 한국어 음성 인식 시스템의 언어모델의 최소 단위로 사용하는 방법이 사용되고 있다. 하지만, 음향 모델을 훈련하는 알고리즘이 통계적인 특징을 반영하는 것이어서, 서브워드 토큰화 모델 방식에 비해서 효과적이지는 못하다.
이러한 문제점들을 해결하기 위하여, 최근 언어 이해 처리 연구에서는 서브워드 토큰화 방식으로 처리하여 적절한 길이 단위로 토큰화를 하고 기존보다 높은 성능을 구현하는 방안들이 제안되었다. 그러나, 서브워드 토큰화 방식은 한국어 조사를 분리하기가 어렵기 때문에, 한국어 음성 이해 시스템에 사용하기에는 효과적이지 못하였다. 최근에는 형태소 분석 알고리즘을 사용한 후에 서브워드 토큰화 방식을 활용하는 방안이 제안되었으나, 형태소 분석 알고리즘은 한국어를 너무 세부적으로 분리할 뿐만 아니라 형태소 분석 알고리즘의 성능이 완벽하지 못하므로 언어 이해 성능의 향상에 한계가 있었다.
이와 같이, 도 1에 도시된 바와 같이, 토큰화 과정은 음성 인식기와 언어 이해 처리기에서 모두 필요하지만, 기존의 연구들을 음성 인식기와 언어 처리기를 각각 연구해 왔기 때문에 서로 다른 토크나이저를 사용했다. 음성 인식기는 입력된 음성에 대한 waveform 데이터를 텍스트로 변환시키는 것이 주 목적이고 인접한 토큰들이 연쇄적으로 발화될 확률을 계산하기 때문에, 서브워드 방식 또는 의사 형태소 방식을 기본 토크나이저(tokenizer)로 사용해 왔다. 한편, 언어 이해 처리기는 언어의 의미적인 부분에 초점을 두고 있기 때문에 형태소 분석 방식과 서브워드 토큰화 방식을 결합한 알고리즘의 토크나이저를 사용하였다.
이와 같이, 종래의 음성 이해 시스템은 서로 다른 음성 인식기용 토크나이저 및 언어 이해 처리기용 토크나이저를 각각 구비하고, 이들을 각각 학습시켜야 되므로 비효율을 초래한다. 또한, 한국어 음성 이해 시스템은 명사 및 조사 분리를 위하여 형태소 분석기나 별도의 명사 분리 단계를 거쳐야 하므로, 처리 시간이 증가하는 단점이 있다. 또한, 형태소 분석과 같은 언어 종속적인 분석 방법은 음성 인식의 오류가 있을 경우 연쇄적으로 잘못된 분석을 초래하는 단점이 있다.
한국공개특허공보 제 10-2022-0022343호 한국공개특허공보 제 10-2021-0133667호 한국등록특허공보 제 10-2381079호 한국등록특허공보 제 10-2324829호
전술한 문제점을 해결하기 위한 본 발명은 단일의 토크나이저를 사용하여 음성 인식기와 언어 이해 처리기를 실행시킬 수 있도록 구성된 음성 이해 시스템을 제공하는 것을 목적으로 한다.
전술한 기술적 과제를 달성하기 위한 본 발명의 제1 특징에 따른 토큰화 방법은, 통합 토크나이저 학습 장치 및 음성 신호를 수신하여 토큰화된 텍스트로 변환시켜 출력하는 음성 인식기를 구비하는 음성 이해 시스템에서의 토큰화 방법에 관한 것으로서, (a) 상기 통합 토크나이저 학습 장치가 훈련용 데이터들을 이용하여 통합 토크나이저를 학습시키고 통합 토큰 사전을 생성하는 통합 토크나이저 학습 단계; 및 (b) 상기 음성 인식기가 상기 통합 토크나이저 및 상기 통합 토큰 사전을 이용하여, 입력 데이터에 대한 토큰들을 구하여 출력하는 통합 토큰화 단계;를 구비하고, 상기 통합 토크나이저 학습 단계는, (a1) 훈련용 데이터들에 대하여, 발성되지 않는 표기상의 기호를 제거하여 정제된 형태로 출력하는 전처리 단계; (a2) 전처리 단계에서 전처리된 훈련용 데이터들에 대하여, 명사와 조사를 분리하는 명사 토큰화 단계; (a3) 상기 명사 토큰화 단계에서 명사와 조사가 분리된 훈련용 데이터들을 이용하여 통합 토크나이저를 학습시키는 단계; 및 (a4) 통합 토크나이저를 학습시키는 과정에서 구한 토큰들을 이용하여 통합 토큰 사전을 생성하는 단계;를 구비한다.
전술한 제1 특징에 따른 음성 이해 시스템에서의 통합 토큰화 방법에 있어서, 상기 (b) 단계는, 입력 데이터들에 대하여, 발성되지 않는 표기상의 기호를 제거하여 정제된 형태로 전처리하고, 상기 통합 토크나이저 및 통합 토큰 사전을 이용하여, 상기 전처리된 데이터들을 서브워드 단위로 분리하여 토큰들을 구하는 것이 바람직하다.
전술한 제1 특징에 따른 음성 이해 시스템에서의 통합 토큰화 방법에 있어서, 상기 통합 토크나이저는, 입력된 데이터에 대하여 서브워드 단위로 분리하여 토큰들을 생성하는 알고리즘으로 구현된 서브워드 방식의 토크나이저로 구성된 것이 바람직하다.
전술한 제1 특징에 따른 음성 이해 시스템에서의 통합 토큰화 방법에 있어서, 상기 음성 이해 시스템은 언어 이해 처리기를 더 구비하고, 상기 언어 이해 처리기는, 상기 음성 인식기로부터 출력된 토큰화된 텍스트들을 이용하여, 별도의 토큰화 과정없이 언어 이해 알고리즘을 실행하는 것이 바람직하다.
본 발명의 제2 특징에 따른 음성 이해 시스템은, 음성 신호를 수신하여 토큰화된 텍스트로 변환하여 출력하는 음성 인식기 및 음성 인식기에 의해 인식된 텍스트를 분석하여 세부 태스크를 처리하는 언어 이해 처리기를 구비하는 음성 이해 시스템에 관한 것으로서, 훈련용 데이터들을 이용하여 통합 토크나이저를 학습시키고, 학습 과정에서 생성된 토큰들을 이용하여 통합 토큰 사전을 생성하는 통합 토크나이저 학습 장치; 를 더 구비하고, 상기 음성 인식기는, 상기 통합 토크나이저 및 상기 통합 토큰 사전을 이용하여, 입력 데이터에 대한 토큰들을 구하여 출력하는 통합 토큰화 모듈;을 구비하고,
상기 통합 토크나이저 학습 장치는, 훈련용 데이터들에 대하여, 발성되지 않는 표기상의 기호를 제거하여 정제된 형태로 출력하는 전처리 모듈; 전처리 모듈에 의해 전처리된 훈련용 데이터들에 대하여, 명사와 조사를 분리하는 명사 토큰화 모듈; 입력되는 데이터들에 대하여 사전 설정된 알고리즘으로 토큰들을 생성하는 통합 토크나이저; 상기 명사 토큰화 모듈에 의해 명사와 조사가 분리된 훈련용 데이터들을 이용하여 상기 통합 토크나이저를 학습시키는 통합 토크나이저 학습 모듈; 및 상기 통합 토크나이저 학습 모듈에 의한 통합 토크나이저의 학습 과정에서 생성된 토큰들을 이용하여 통합 토큰 사전을 생성하는 토큰 사전 생성 모듈;을 구비한다.
전술한 제2 특징에 따른 통합 토크나이저를 갖는 음성 이해 시스템에 있어서, 상기 통합 토큰화 모듈은, 입력 데이터들에 대하여, 발성되지 않는 표기상의 기호를 제거하여 정제된 형태로 전처리하고, 상기 통합 토크나이저 및 통합 토큰 사전을 이용하여, 상기 전처리된 데이터들을 서브워드 단위로 분리하여 토큰들을 구하는 것이 바람직하다.
전술한 제2 특징에 따른 통합 토크나이저를 갖는 음성 이해 시스템에 있어서, 상기 통합 토크나이저는, 입력된 데이터에 대하여 서브워드 단위로 분리하여 토큰들을 생성하는 서브워드 방식의 토크나이저인 것이 바람직하다.
전술한 구성을 갖는 본 발명에 따른 음성 이해 시스템의 통합 토크나이저 학습 장치는 훈련용 데이터들을 전처리한 후 명사와 조사를 분리시키고, 명사와 조사를 분리시킨 훈련용 데이터들을 사용하여 통합 토크나이저를 학습시킴으로써, 음성 이해 시스템을 구성하는 음성 인식기와 언어 이해 처리기에서 모두 사용될 수 있는 통합 토크나이저를 얻을 수 있게 된다.
또한, 본 발명에 따른 음성 이해 시스템은 입력 데이터에 대하여 별도의 명사와 조사를 분리시키는 과정없이도, 학습된 통합 토크나이저와 통합 토큰 사전을 이용하여 입력 데이터를 토큰화할 수 있게 된다.
따라서, 본 발명에 따른 음성 이해 시스템은 토크나이저에 대한 전체 학습 시간을 감소시킬 수 있을 뿐만 아니라, 언어 이해 처리기가 토큰화하는 데 소요되는 시간을 절약할 수 있게 된다.
도 1은 종래의 기술에 따른 음성 이해 시스템을 전체적으로 도시한 구성도이다.
도 2는 본 발명의 바람직한 실시예에 따른 통합 토크나이저를 갖는 음성 이해 시스템을 도시한 구성도이다.
도 3은 본 발명의 바람직한 실시예에 따른 통합 토크나이저를 갖는 음성 이해 시스템에 있어서, 통합 토크나이저 학습 장치(20)를 도시한 블록도이다.
도 4는 본 발명의 바람직한 실시예에 따른 통합 토크나이저를 갖는 음성 이해 시스템에 있어서, 통합 토크나이저 학습 장치(20)에 의해 실행되는 통합 토크나이저 학습 단계들을 순차적으로 도시한 흐름도이다.
도 5는 본 발명의 바람직한 실시예에 따른 통합 토크나이저를 갖는 음성 이해 시스템에 있어서, 본 발명에 따른 통합 토크나이저에 의해 토큰화된 결과와 기존의 형태소 분석 방식에 따른 토큰화 결과를 예시적으로 도시한 도표이다.
도 6은 본 발명의 바람직한 실시예에 따른 통합 토크나이저를 갖는 음성 이해 시스템에 있어서, 본 발명에 따른 음성 인식기의 통합 토큰화 모듈에 의해 입력 데이터가 토큰화된 결과와 기존의 형태소 기반 서브워드 방식에 따른 토큰화 결과를 예시적으로 도시한 도표이다.
본 발명에 따른 통합 토크나이저는 명사와 조사가 분리된 형태의 훈련용 데이터를 이용하여 학습됨으로써, 입력 데이터를 음성 인식기와 언어 이해 처리기에서 모두 사용될 수 있는 형태로 토큰화한다. 또한, 본 발명에 따른 통합 토크나이저는 입력 데이터를 음성 인식기와 언어 이해 처리기에서 모두 사용될 수 있는 형태로 토큰화함으로써, 음성 이해 시스템이 한번의 토큰화 과정만으로도 음성 인식과 언어 이해 처리를 모두 수행할 수 있도록 구성된 것을 특징으로 한다. 따라서, 본 발명에 따른 음성 이해 시스템은 음성 인식기가 입력 데이터에서 명사와 조사를 분리시킨 후 서브워드 방식으로 토큰화를 하여 언어 이해 처리기로 제공함으로써, 언어 이해 처리기가 별도의 토큰화없이 언어 이해 처리 과정을 수행할 수 있게 된다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 따른 통합 토크나이저를 갖는 음성 이해 시스템의 구조 및 동작에 대하여 구체적으로 설명한다.
도 2는 본 발명의 바람직한 실시예에 따른 통합 토크나이저를 갖는 음성 이해 시스템을 도시한 구성도이다. 도 2를 참조하면, 본 발명에 따른 음성 이해 시스템(2)은 통합 토크나이저 학습 장치(20), 음성 인식기(22) 및 언어 이해 처리기(24)를 구비한다. 본 발명에서의 음성 인식기 및 언어 이해 처리기의 구성 및 알고리즘은 기존의 음성 인식기 및 언어 이해 처리기의 그것들과 동일하므로, 이에 대한 구체적인 설명은 생략한다.
상기 통합 토크나이저 학습 장치(20)는 훈련데이터 DB(210)에 저장된 훈련용 데이터들을 이용하여 통합 토크나이저를 학습하여 통합 토큰 사전을 생성한다. 도 3은 본 발명의 바람직한 실시예에 따른 통합 토크나이저를 갖는 음성 이해 시스템에 있어서, 통합 토크나이저 학습 장치(20)를 도시한 블록도이다. 도 3을 참조하면, 상기 통합 토크나이저 학습 장치(20)는 전처리 모듈(200), 명사 토큰화 모듈(202), 통합 토크나이저(204), 통합 토크나이저 학습 모듈(205) 및 토큰 사전 생성 모듈(206)을 구비한다.
상기 전처리 모듈(200)은 훈련데이터 DB(210)의 훈련용 데이터들에 대하여, 발성되지 않는 표기상의 기호를 제거하여 정제된 형태로 출력한다. 여기서, "정제된 형태"는 문장에서 punctuation을 제거하고, 숫자를 한글읽기로 변환한 형태 등을 의미한다.
상기 명사 토큰화 모듈(202)은 전처리 모듈에 의해 전처리된 훈련용 데이터들에 대하여, 명사와 조사를 분리한다. 상기 통합 토크나이저(204)는 입력되는 데이터들에 대하여 사전 설정된 알고리즘으로 토큰들을 생성한다. 본 발명에 따른 통합 토크나이저는, 입력된 데이터에 대하여 서브워드 단위로 분리하여 토큰들을 생성하는 알고리즘으로 이루어진 서브워드 방식의 토크나이저로 구성된 것이 바람직하며, WordPiece Model을 사용할 수도 있다. 상기 통합 토크나이저 학습 모듈(205)은 명사 토큰화 모듈에 의해 명사와 조사가 분리된 데이터들을 이용하여 상기 통합 토크나이저(204)를 학습시키게 된다. 한편, 상기 토큰 사전 생성 모듈(206)은 상기 통합 토크나이저 학습 모듈이 통합 토크나이저를 학습시키는 과정에서 생성된 토큰들을 이용하여 통합 토큰 사전(209)을 생성한다.
상기 음성 인식기(22)는, 상기 학습된 통합 토크나이저(204) 및 상기 통합 토큰 사전(209)을 이용하여, 입력 데이터에 대한 토큰들을 구하여 출력하는 통합 토큰화 모듈(220)을 구비한다. 상기 통합 토큰화 모듈(220)은, 상기 음성 인식기에 마련되어, 음성 인식기로 입력된 데이터들에 대하여, 발성되지 않는 표기상의 기호를 제거하여 정제된 형태로 전처리하고, 통합 토크나이저 및 통합 토큰 사전을 이용하여, 상기 전처리된 데이터들을 서브워드 단위로 분리하여 토큰들을 획득하여 제공한다.
이와 같이, 본 발명에 따른 음성 이해 시스템은 학습 단계에서 명사와 조사가 분리된 데이터를 이용하여 통합 토크나이저를 학습시킴으로써, 통합 토큰 사전(vocabulary)를 구성할 때 명사와 조사의 구분 정보가 함께 학습되며, 그 결과 토큰화 단계에서는 명사와 조사의 분리를 위한 별도의 분석 단계없이 명사와 조사가 구분될 수 있게 된다.
한편, 본 발명에 따른 음성 인식기의 통합 토큰화 모듈의 다른 실시 형태는, 입력 데이터들에 대하여, 발성되지 않는 표기상의 기호를 제거하여 정제된 형태로 전처리하고, 상기 전처리된 입력 데이터들에 대하여 명사와 조사를 분리하고, 상기 통합 토크나이저 및 통합 토큰 사전을 이용하여, 명사와 조사가 분리된 입력 데이터들을 서브워드 단위로 분리하여 토큰들을 획득하여 제공할 수 있다.
상기 언어 이해 처리기(24)는, 상기 음성 인식기로부터 출력된 토큰화된 텍스트들을 이용하여, 별도의 토큰화 과정없이 언어 이해 알고리즘을 바로 실행하여 세부 태스크들을 처리하는 것을 특징으로 한다. 여기서, 언어 이해 처리기의 세부 태스크는 NLU(Natural Language Understanding), 텍스트 분류(Text Classification), 순차적 레이블링(Sequence Labelling) 등을 포함한다.
이하, 전술한 구성을 갖는 음성 이해 시스템에서의 토큰화 방법에 대하여 구체적으로 설명한다. 전술한 구성을 갖는 본 발명에 따른 음성 이해 시스템에서의 토큰화 방법은 통합 토크나이저 학습 장치에 의해 구현되는 통합 토크나이저 학습 단계 및 음성 인식기에 의해 구현되는 통합 토큰화 단계를 구비한다.
상기 통합 토크나이저 학습 단계는 소프트웨어의 형태로 구현되어, 통합 토크나이저 학습 장치에 탑재된 마이크로프로세서 등과 같은 처리 장치에 의해 실행될 수 있다. 도 4는 본 발명의 바람직한 실시예에 따른 통합 토크나이저를 갖는 음성 이해 시스템에 있어서, 통합 토크나이저 학습 장치(20)에 의해 실행되는 통합 토크나이저 학습 단계들을 순차적으로 도시한 흐름도이다. 도 4를 참조하면, 상기 통합 토크나이저 학습 단계는, 먼저 훈련용 데이터들에 대하여, 발성되지 않는 표기상의 기호를 제거하여 정제된 형태로 출력하는 전처리 단계(S310)를 수행한다. 다음, 전술한 전처리 단계에서 전처리된 훈련용 데이터들에 대하여, 명사와 조사를 분리시키는 명사 토큰화 단계(S320)를 수행한다. 다음, 명사와 조사가 분리된 훈련용 데이터들을 이용하여 통합 토크나이저를 학습시킨다(S330). 한편, 상기 통합 토크나이저는, 왼쪽에 스페이스가 있으면 왼쪽에 '_'를 추가하고, 오른쪽에 스페이스가 있으면 오른쪽에 '_'를 추가하며, 어절의 시작과 끝도 스페이스로 간주하여 '_'를 추가한다. 다음, 상기 통합 토크나이저 학습 과정에서 명사와 조사가 분리된 훈련용 데이터들로부터 구한 토큰들을 이용하여 통합 토큰 사전을 생성한다(S340).
예를 들면, 입력 문장이 "내일 12시에, 병원가는 일정을 등록해줘." 인 경우, 전처리 단계는 "내일 열두시에 병원가는 일정을 등록해줘" 라는 형태로 변환하게 되며, 명사 토큰화 단계는 "내일 열두시 에 병원 가는 일정 을 등록 해줘"라는 형태로 변환하며, WordPieceModel을 이용한 통합 토크나이저 학습 단계는 "_내일__열 두 시 에__병원 가는__일정__을__등록__해 줘_"하는 형태로 토큰화를 하게 된다.
도 5는 본 발명의 바람직한 실시예에 따른 통합 토크나이저를 갖는 음성 이해 시스템에 있어서, 통합 토크나이저 학습 장치(20)에 의해 학습된 통합 토크나이저에 의해 토큰화된 결과와 기존의 형태소 분석 방식에 따른 토큰화 결과를 예시적으로 도시한 도표이다. 도 5를 참조하면, 본 발명에 따른 방식은 명사와 조사에 대한 구분을 띄어쓰기로 표기한 후, 서브워드 방식의 토큰화를 진행한다. 따라서, 도 5의 예에서, 본 발명에 따른 방식은 명사와 조사가 분리되어, “나랑 쇼핑하자”라는 원본 문장은 “나 랑 쇼핑 하자”로 되어, '랑'과 '하자'가 명사에서 분리된다.
한편, 본 발명에 따른 음성 인식기에 의해 구현되는 통합 토큰화 단계에 대하여 구체적으로 설명한다. 상기 통합 토큰화 단계는 소프트웨어의 형태로 구현되어, 음성 인식기에 구비된 마이크로프로세서 등과 같은 처리 장치에 의해 실행될 수 있다. 상기 통합 토큰화 단계는, 상기 음성 인식기가 입력 데이터들에 대하여, 발성되지 않는 표기상의 기호를 제거하여 정제된 형태로 전처리하고, 상기 통합 토크나이저 및 통합 토큰 사전을 이용하여, 상기 전처리된 데이터들을 서브워드 단위로 분리하여 토큰들을 획득하도록 구성된다.
도 6은 본 발명의 바람직한 실시예에 따른 통합 토크나이저를 갖는 음성 이해 시스템에 있어서, 음성 인식기의 통합 토큰화 모듈에 의해 입력 데이터가 토큰화된 결과와 기존의 형태소 기반 서브워드 방식에 따른 토큰화 결과를 예시적으로 도시한 도표이다. 도 6을 참조하면, 본 발명에 따른 방식은 명사와 조사의 분리 과정없이, 서브워드 방식의 토큰화를 진행한다. 따라서, 도 6의 예에서, 본 발명에 따른 방식은 명사와 조사가 분리되어, “나랑 쇼핑하자”라는 원본 문장은 “나 랑 쇼핑 하자”로 되어, '랑'과 '하자'가 명사에서 분리된다.
상기 통합 토큰화 단계의 다른 실시 형태는, 입력 데이터들에 대하여, 발성되지 않는 표기상의 기호를 제거하여 정제된 형태로 전처리하고, 상기 전처리된 데이터들에 대하여 명사와 조사를 분리하고, 상기 통합 토크나이저 및 통합 토큰 사전을 이용하여, 명사와 조사가 분리된 데이터들을 서브워드 단위로 분리하여 토큰들을 획득하도록 구성된다. 상기 음성 인식기는 상기 통합 토크나이저에 의해 토큰화된 텍스트들을 언어 이해 처리기로 출력하게 된다.
상기 통합 토크나이저는, 입력된 데이터에 대하여 서브워드 단위로 분리하여 토큰들을 생성하는 알고리즘으로 구현된 서브워드 방식의 토크나이저로 구성된 것이 바람직하다.
이상에서 본 발명에 대하여 그 바람직한 실시예를 중심으로 설명하였으나, 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 발명의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 그리고, 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.
1, 2 : 음성 이해 시스템
20 : 통합 토크나이저 학습 장치
22 : 음성 인식기
24 : 언어 이해 처리기
210 : 훈련데이터 DB
200 : 전처리 모듈
202 : 명사 토큰화 모듈
204 : 통합 토크나이저
205 : 통합 토크나이저 학습 모듈
206 : 토큰 사전 생성 모듈
209 : 통합 토큰 사전
220 : 통합 토큰화 모듈

Claims (10)

  1. 통합 토크나이저 학습 장치 및 음성 신호를 수신하여 토큰화된 텍스트로 변환시켜 출력하는 음성 인식기를 구비하는 음성 이해 시스템에서의 토큰화 방법에 있어서,
    (a) 상기 통합 토크나이저 학습 장치가 훈련용 데이터들을 이용하여 통합 토크나이저를 학습시키고 통합 토큰 사전을 생성하는 통합 토크나이저 학습 단계; 및
    (b) 상기 음성 인식기가 상기 통합 토크나이저 및 상기 통합 토큰 사전을 이용하여, 입력 데이터에 대한 토큰들을 구하여 출력하는 통합 토큰화 단계;를 구비하고,
    (a) 상기 통합 토크나이저 학습 단계는,
    (a1) 훈련용 데이터들에 대하여, 발성되지 않는 표기상의 기호를 제거하여 정제된 형태로 출력하는 전처리 단계;
    (a2) 전처리 단계에서 전처리된 훈련용 데이터들에 대하여, 명사와 조사를 분리하는 명사 토큰화 단계;
    (a3) 상기 명사 토큰화 단계에서 명사와 조사가 분리된 훈련용 데이터들을 이용하여 통합 토크나이저를 학습시키는 단계; 및
    (a4) 통합 토크나이저를 학습시키는 과정에서 구한 토큰들을 이용하여 통합 토큰 사전을 생성하는 단계;
    를 구비하는 것을 특징으로 하는 음성 이해 시스템에서의 통합 토큰화 방법.
  2. 제1항에 있어서, 상기 (b) 단계는,
    입력 데이터들에 대하여, 발성되지 않는 표기상의 기호를 제거하여 정제된 형태로 전처리하고, 상기 통합 토크나이저 및 통합 토큰 사전을 이용하여, 상기 전처리된 데이터들을 서브워드 단위로 분리하여 토큰들을 구하는 것을 특징으로 하는 음성 이해 시스템에서의 통합 토큰화 방법.
  3. 제1항에 있어서, 상기 (b) 단계는,
    입력 데이터들에 대하여, 발성되지 않는 표기상의 기호를 제거하여 정제된 형태로 전처리하고, 상기 전처리된 데이터들에 대하여 명사와 조사를 분리하고, 상기 통합 토크나이저 및 통합 토큰 사전을 이용하여, 명사와 조사가 분리된 데이터들을 서브워드 단위로 분리하여 토큰들을 구하는 것을 특징으로 하는 음성 이해 시스템에서의 통합 토큰화 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 통합 토크나이저는,
    입력된 데이터에 대하여 서브워드 단위로 분리하여 토큰들을 생성하는 알고리즘으로 구현된 서브워드 방식의 토크나이저로 구성된 것을 특징으로 하는 음성 이해 시스템에서의 통합 토큰화 방법.
  5. 제1항에 있어서, 상기 음성 이해 시스템은 언어 이해 처리기를 더 구비하고,
    상기 언어 이해 처리기는, 상기 음성 인식기로부터 출력된 토큰화된 텍스트들을 이용하여, 별도의 토큰화 과정없이 언어 이해 알고리즘을 실행하는 것을 특징으로 하는 음성 이해 시스템에서의 통합 토큰화 방법.
  6. 음성 신호를 수신하여 토큰화된 텍스트로 변환하여 출력하는 음성 인식기 및 음성 인식기에 의해 인식된 텍스트를 분석하여 세부 태스크를 처리하는 언어 이해 처리기를 구비하는 음성 이해 시스템에 있어서,
    훈련용 데이터들을 이용하여 통합 토크나이저를 학습시키고, 학습 과정에서 생성된 토큰들을 이용하여 통합 토큰 사전을 생성하는 통합 토크나이저 학습 장치; 를 더 구비하고,
    상기 음성 인식기는, 상기 통합 토크나이저 및 상기 통합 토큰 사전을 이용하여, 입력 데이터에 대한 토큰들을 구하여 출력하는 통합 토큰화 모듈;을 구비하고,
    상기 통합 토크나이저 학습 장치는,
    훈련용 데이터들에 대하여, 발성되지 않는 표기상의 기호를 제거하여 정제된 형태로 출력하는 전처리 모듈;
    전처리 모듈에 의해 전처리된 훈련용 데이터들에 대하여, 명사와 조사를 분리하는 명사 토큰화 모듈;
    입력되는 데이터들에 대하여 사전 설정된 알고리즘으로 토큰들을 생성하는 통합 토크나이저;
    상기 명사 토큰화 모듈에 의해 명사와 조사가 분리된 훈련용 데이터들을 이용하여 상기 통합 토크나이저를 학습시키는 통합 토크나이저 학습 모듈; 및
    상기 통합 토크나이저 학습 모듈에 의해 통합 토크나이저의 학습 과정에서 생성된 토큰들을 이용하여 통합 토큰 사전을 생성하는 토큰 사전 생성 모듈;
    을 구비하는 것을 특징으로 하는 통합 토크나이저를 갖는 음성 이해 시스템.
  7. 제6항에 있어서, 상기 통합 토큰화 모듈은,
    입력 데이터들에 대하여, 발성되지 않는 표기상의 기호를 제거하여 정제된 형태로 전처리하고, 상기 통합 토크나이저 및 통합 토큰 사전을 이용하여, 상기 전처리된 데이터들을 서브워드 단위로 분리하여 토큰들을 구하는 것을 특징으로 하는 통합 토크나이저를 갖는 음성 이해 시스템.
  8. 제6항에 있어서, 상기 통합 토큰화 모듈은,
    입력 데이터들에 대하여, 발성되지 않는 표기상의 기호를 제거하고 발음 형태로 변경하여 전처리하고, 상기 전처리된 입력 데이터들에 대하여 명사와 조사를 분리하고, 상기 통합 토크나이저 및 통합 토큰 사전을 이용하여, 명사와 조사가 분리된 입력 데이터들을 서브워드 단위로 분리하여 토큰들을 구하는 것을 특징으로 하는 통합 토크나이저를 갖는 음성 이해 시스템.
  9. 제6항 내지 제8항 중 어느 한 항에 있어서, 상기 통합 토크나이저는,
    입력된 데이터에 대하여 서브워드 단위로 분리하여 토큰들을 생성하는 서브워드 방식의 토크나이저인 것을 특징으로 하는 통합 토크나이저를 갖는 음성 이해 시스템.
  10. 제6항에 있어서, 상기 언어 이해 처리기는,
    상기 음성 인식기로부터 출력된 토큰화된 텍스트들을 이용하여, 별도의 토큰화 과정없이 언어 이해 알고리즘을 실행하는 것을 특징으로 하는 통합 토크나이저를 갖는 음성 이해 시스템.

KR1020220054663A 2022-05-03 2022-05-03 통합 토크나이저를 갖는 음성 이해 시스템 및 상기 음성 이해 시스템에서의 통합 토큰화 방법 KR20230155156A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220054663A KR20230155156A (ko) 2022-05-03 2022-05-03 통합 토크나이저를 갖는 음성 이해 시스템 및 상기 음성 이해 시스템에서의 통합 토큰화 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220054663A KR20230155156A (ko) 2022-05-03 2022-05-03 통합 토크나이저를 갖는 음성 이해 시스템 및 상기 음성 이해 시스템에서의 통합 토큰화 방법

Publications (1)

Publication Number Publication Date
KR20230155156A true KR20230155156A (ko) 2023-11-10

Family

ID=88742343

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220054663A KR20230155156A (ko) 2022-05-03 2022-05-03 통합 토크나이저를 갖는 음성 이해 시스템 및 상기 음성 이해 시스템에서의 통합 토큰화 방법

Country Status (1)

Country Link
KR (1) KR20230155156A (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210133667A (ko) 2020-04-29 2021-11-08 서강대학교산학협력단 코퍼스 구축 서비스 제공 서버 및 방법
KR102324829B1 (ko) 2019-12-02 2021-11-11 주식회사 엘지유플러스 음성 인식 오류 보정 장치 및 방법
KR20220022343A (ko) 2020-08-18 2022-02-25 현대자동차주식회사 음성인식 장치 및 방법
KR102381079B1 (ko) 2021-08-02 2022-04-01 주식회사 닥터송 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102324829B1 (ko) 2019-12-02 2021-11-11 주식회사 엘지유플러스 음성 인식 오류 보정 장치 및 방법
KR20210133667A (ko) 2020-04-29 2021-11-08 서강대학교산학협력단 코퍼스 구축 서비스 제공 서버 및 방법
KR20220022343A (ko) 2020-08-18 2022-02-25 현대자동차주식회사 음성인식 장치 및 방법
KR102381079B1 (ko) 2021-08-02 2022-04-01 주식회사 닥터송 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템

Similar Documents

Publication Publication Date Title
Church Phonological parsing and lexical retrieval
US6223150B1 (en) Method and apparatus for parsing in a spoken language translation system
US6278968B1 (en) Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system
Wang et al. Complete recognition of continuous Mandarin speech for Chinese language with very large vocabulary using limited training data
US6282507B1 (en) Method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection
JP3741156B2 (ja) 音声認識装置および音声認識方法並びに音声翻訳装置
US6356865B1 (en) Method and apparatus for performing spoken language translation
US6243669B1 (en) Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation
US6721697B1 (en) Method and system for reducing lexical ambiguity
US6266642B1 (en) Method and portable apparatus for performing spoken language translation
US7379870B1 (en) Contextual filtering
WO1999063456A1 (fr) Dispositif de preparation de regles de conversion du langage, dispositif de conversion du langage et support d'enregistrement de programme
US6477495B1 (en) Speech synthesis system and prosodic control method in the speech synthesis system
US6980954B1 (en) Search method based on single triphone tree for large vocabulary continuous speech recognizer
JP2006227425A (ja) 音声再生装置及び発話支援装置
Nugues Language Processing with Perl and Prolog
JP3441400B2 (ja) 言語変換規則作成装置、及びプログラム記録媒体
JP3009636B2 (ja) 音声言語解析装置
KR20230155156A (ko) 통합 토크나이저를 갖는 음성 이해 시스템 및 상기 음성 이해 시스템에서의 통합 토큰화 방법
JP3518340B2 (ja) 読み韻律情報設定方法及び装置及び読み韻律情報設定プログラムを格納した記憶媒体
Meng et al. CU VOCAL: corpus-based syllable concatenation for Chinese speech synthesis across domains and dialects.
JP2001117583A (ja) 音声認識装置および音声認識方法、並びに記録媒体
Arısoy et al. Turkish dictation system for broadcast news applications
KR0180650B1 (ko) 음성합성기의 한국어 문장분석방법
KR0157026B1 (ko) 한국어 기본음소단위군으로 구성한 한국어 형태소 발음사전을 사용한 한국어 연속음성 인식시스템 및 그 방법