KR20230017092A

KR20230017092A - 이미지 기반의 음소 인식 방법

Info

Publication number: KR20230017092A
Application number: KR1020210152701A
Authority: KR
Inventors: 김동진
Original assignee: 브레인소프트주식회사
Priority date: 2021-07-27
Filing date: 2021-11-09
Publication date: 2023-02-03
Also published as: KR102701949B1; KR20230017702A; KR102701946B1

Abstract

본 발명은 이미지 기반의 음소 인식 방법에 관한 것이다.
본 발명에 따른 이미지 기반의 음소 인식 방법은, 음성을 스펙트로그램 이미지로 변환하는 음성/이미지 변환 모델(DJT)을 이용하여 주어진 음성 학습 데이터에 대한 스펙트로그램을 생성하는 단계; 생성된 스펙트로그램에서 청음 영역의 이미지를 추출하고, 추출된 청음 영역의 이미지를 시간 축 방향으로 미리 설정된 크기로 확대하는 단계; 확대된 청음 영역의 이미지를 음소에 따라 주파수 축의 특정 주파수대의 영역에서만 추출하여 이미지를 생성하는 단계; 생성된 이미지를 학습 데이터로 사용하여 딥러닝 기반의 음소 분류 네트워크를 학습시키는 단계; 학습된 음소 분류 네트워크를 이용하여 임의로 주어진 소리에 대한 스펙트로그램을 생성하는 단계: 생성된 스펙트로그램에서 상기 학습된 음소 분류 네트워크를 이용하여 음소 시작 시점을 추출하고, 스펙트로그램에서의 선택된 영역이 음소일 확률을 계산하여 음소 영역들을 추출하는 단계; 추출된 음소 영역들 중 임의의 두 개의 음소 영역이 시간 순으로 겹치거나 인접하면서 동일한 음소에 해당될 경우 두 개의 음소 영역을 하나의 영역으로 병합하는 단계; 및 병합에 의해 생성된 음소 영역들을 시작 시간 순서대로 출력하여 출력된 결과를 바탕으로 음소를 인식하는 단계를 포함한다.

Description

이미지 기반의 음소 인식 방법{Image-based phoneme recognition method}

본 발명은 이미지 기반의 음소 인식 방법에 관한 것으로서, 더 상세하게는 고해상도 스펙트로그램(spectrogram)을 이용하여 음소 인식을 이미지 인식으로 처리함으로써, 기존 방식으로는 구분하기 어려운 음소를 명확하게 구분할 수 있는 이미지 기반의 음소 인식 방법에 관한 것이다.

감쇠 고조파 발진기(damped harmonic oscillator; DHO)에 외력이 가해지면, 그 에너지나 운동의 진폭은 외력의 주파수에 의존하고, 외력의 주파수가 발진기의 고유진동수에 가까울 때 공진이 발생한다. 따라서 다양한 주파수의 발진기의 응답을 관찰하여 신호의 스펙트럼을 분석할 수 있다. 도 1은 종래의 방식에 따라 측정한 음성에 대한 스펙트로그램(spectrogram) 결과를 나타낸 도면이다.

도 1을 참조하면, 스펙트로그램에서 음소 "c"의 시작 부분 중 "g"와 다른 부분은 1∼2msec 정도라서 기존 방법으로는 음소 "c"와 "g"를 구분하기 어렵다. 즉, 소리의 시작 시점을 정확히 알기 어려운 문제점이 있다.

한편, 한국 공개특허공보 제10-2018-0088103호(특허문헌 1)에는 "표준음소이미지 기반 읽기검사 진단시스템"이 개시되어 있는 바, 음성인식기술을 통해 인식된 피검사자의 읽기발음을 음소단위 또는 자음/모음으로 구분하여 검사함으로써 읽기의 정확성 및 유창성을 검사하는 것을 특징으로 한다.

이와 같은 특허문헌 1의 경우, 미리 설정된 음성인식 기술을 이용하여 읽기발음을 인식하여 분석함으로써 객관적인 읽기검사가 이루어지고 검사결과의 신뢰성을 높일 수 있는 장점이 있기는 하나, 이는 일단 읽기를 위한 지문이 주어지고, 그것을 읽는 과정에서 발음을 인식하는 메커니즘으로 되어 있어, 그와 같은 지문에 의한 읽기 상황이 아닌, 상대방과 대화를 나누거나 혼자서 말하는 경우 혹은 혼자서 노래를 부를 때 등과 같은 보다 광범위한 일반적인 상황에서 어떤 소리(음)에 대한 음소를 명확하게 구분해 내기는 어려운 문제점을 내포하고 있다.

한국 공개특허공보 제10-2018-0088103호(2018.08.03.)

본 발명은 상기와 같은 종래 기술의 문제점을 개선하기 위하여 창출된 것으로서, 고해상도 스펙트로그램을 이용하여 음소 인식을 이미지 인식으로 처리함으로써, 기존 방식으로는 구분하기 어려운 음소를 명확하게 구분할 수 있는 이미지 기반의 음소 인식 방법을 제공함에 그 목적이 있다.

상기의 목적을 달성하기 위하여 본 발명에 따른 이미지 기반의 음소 인식 방법은,

각 단계가 컴퓨터에 의해 수행되는, 음소 인식을 이미지 인식으로 처리하는 이미지 기반의 음소 인식 방법으로서,

a) 사전에 미리 설계된 음성을 스펙트로그램(spectrogram) 이미지로 변환하는 음성/이미지 변환 모델(본 발명에서는 'DJT'라 칭함)을 이용하여 주어진 음성 학습 데이터에 대한 스펙트로그램을 생성하는 단계와;

b) 상기 생성된 스펙트로그램에서 청음 영역의 이미지를 추출하고, 추출된 청음 영역의 이미지를 시간 축 방향으로 미리 설정된 크기로 확대하는 단계와;

c) 상기 확대된 청음 영역의 이미지를 음소에 따라 주파수 축의 특정 주파수대의 영역에서만 추출하여 이미지를 생성하는 단계와;

d) 상기 생성된 이미지를 학습 데이터로 사용하여 딥러닝 기반의 음소 분류 네트워크를 학습시키는 단계와;

e) 상기 학습된 딥러닝 기반의 음소 분류 네트워크를 이용하여 임의로 주어진 소리에 대한 스펙트로그램을 생성하는 단계와:

f) 상기 생성된 스펙트로그램에서 상기 학습된 음소 분류 네트워크를 이용하여 음소 시작 시점을 추출하고, 스펙트로그램에서의 선택된 영역이 음소일 확률을 계산하여 음소 영역들을 추출하는 단계와;

g) 상기 추출된 음소 영역들 중 임의의 두 개의 음소 영역이 시간 순으로 겹치거나 인접하면서 동일한 음소에 해당될 경우 상기 두 개의 음소 영역을 하나의 영역으로 병합하는 단계; 및

h) 상기 병합에 의해 생성된 음소 영역들을 시작 시간 순서대로 출력하여 출력된 결과를 바탕으로 음소를 인식하는 단계를 포함하는 점에 그 특징이 있다.

여기서, 상기 단계 b)에서 상기 청음 영역은 각 음소 영역에서 정확히 해당 음소만 포함하는 영역일 수 있다.

또한, 상기 단계 b)에서 상기 미리 설정된 크기는 시간 축 방향으로 각 구간이 일정한 시간 간격을 가지도록 구성될 수 있다.

이때, 상기 청음 영역의 이미지의 시간 축 방향으로의 크기가 미리 설정된 시간 축 방향으로의 최대 크기보다 크면, 상기 청음 영역의 이미지를 최대 크기로 분할하여 여러 개의 이미지들로 구성할 수 있다.

또한, 상기 단계 c)에서 청음 영역의 이미지를 음소에 따라 주파수 축의 특정 주파수대의 영역에서만 추출하여 이미지를 생성함에 있어서, 청음 영역의 이미지들을 음소에 따라서 주파수 축의 0∼4kHz, 4kHz∼8kHz, 혹은 0Hz∼8kHz 대의 영역에서만 추출하여 이미지를 생성할 수 있다.

또한, 상기 단계 d)에서 상기 딥러닝 기반의 음소 분류 네트워크는 CNN(Convolution Neural Network), RNN(Recurrent Neural Network), 음성/이미지 변환 모델(DJT) 등을 포함할 수 있다.

또한, 상기 단계 f)에서 스펙트로그램에서 음소 시작 시점을 추출함에 있어서, 스펙트로그램에서 시간 축의 좌측단에서 우측단으로 한 칸씩 이동하면서 매 칸마다 우측으로 일정 시간 구간의 영역을 탐색하면서 음소를 구성하는 각 주파수에 해당하는 소리의 시작 시점이 현재 칸에 존재하는지를 검사함으로써 음소 시작 시점을 추출할 수 있다.

이때, 검사하는 방법으로 스펙트로그램에서 압정 머리 모양의 이미지가 존재하는지 여부를 검사하여, 압정 머리 모양의 이미지가 존재하면 그 시점을 음소를 구성하는 각 주파수에 해당하는 소리의 시작 시점으로 추출할 수 있다.

이때, 또한 음소 발생 구간에 진입하지 않은 상태에서 새로운 소리의 시작 시점이 추출되면, 음소 발생 구간이 시작된 것으로 간주할 수 있다.

이때, 또한 각 주파수에 해당하는 소리의 크기 중 최대값이 음소 발생 구간 진입 이후의 전체 구간에서 발생한 각 주파수에 해당하는 소리 크기의 최대값보다 일정 비율 이하이면 상기 음소 발생 구간을 벗어난 것으로 간주할 수 있다.

또한, 상기 단계 f)에서 스펙트로그램에서의 선택된 영역이 음소일 확률을 계산하여 음소 영역들을 추출함에 있어서, 음소 발생 구간에 진입한 상태에서 새로운 소리의 시작 시점을 찾았으면, 시간 축 방향으로 일정 구간에 해당하는 스펙트로그램 상의 사각형 영역을 선택하고, 각 음소에 대해서 상기 선택된 사각형 영역의 이미지가 해당 음소일 확률을 계산할 수 있다.

이때, 계산된 확률이 임계값 이상이면 상기 선택된 영역을 해당 음소 영역으로 추출할 수 있다.

이때, 또한 음소 발생 구간에 진입하지 않은 상태에서 새로운 소리의 시작 시점을 찾았으면, 10 msec 구간의 스펙트로그램 영역을 선택한 후, 각 음소에 대해서 상기 선택된 10 msec 구간의 영역의 이미지가 해당 음소일 확률을 계산할 수 있다.

또한, 상기 단계 f)에서 상기 스펙트로그램에서 음소 시작 시점을 추출하고, 스펙트로그램에서의 선택된 영역이 음소일 확률을 계산함에 있어서, 음소 발생 구간에 진입한 상태라면, 시간 축 방향으로 일정한 시간 간격만큼 이동한 후, 그리고 음소 발생 구간에 진입하지 않았거나 벗어난 상태라면, 스펙트로그램의 최소 시간 간격만큼 이동한 후, 상기 스펙트로그램에서 음소 시작 시점을 추출하고, 스펙트로그램에서의 선택된 영역이 음소일 확률을 계산하는 과정을 반복 수행할 수 있다.

이때, 이동 시간 간격은 직전에 추출된 음소에 따라서 변경될 수도 있다.

또한, 상기 단계 g)에서 상기 추출된 음소 영역들 중 임의의 두 개의 음소 영역이 시간 순으로 겹치거나 인접하면서 동일한 음소에 해당될 경우 상기 두 개의 음소 영역을 하나의 영역으로 병합함에 있어서, 상기 단계 f)에서 추출된 음소 영역들을 각 영역의 시작 시간 기준으로 오름차순으로 나열하여, 시간 구간이 겹치거나 인접한 두 개의 음소 영역이 존재하면서 동일한 음소에 해당될 경우, 상기 두 개의 음소 영역을 하나의 영역으로 병합할 수 있다.

이와 같은 본 발명에 의하면, 고해상도 스펙트로그램(spectrogram)을 이용하여 주어진 음성 학습 데이터에 대한 이미지를 생성하고, 생성된 이미지를 학습 데이터로 사용하여 딥러닝 기반의 음소 분류 네트워크를 학습시키며, 이를 기반으로 주어진 소리에서 스펙트로그램을 생성하여 음소 시작 시점을 추출하고, 스펙트로그램에서의 선택된 영역이 음소일 확률을 계산 및 음소 영역을 추출하여 음소 인식을 이미지 인식으로 처리함으로써, 기존 방식으로는 구분하기 어려운 음소를 명확하게 구분할 수 있는 장점이 있다.

도 1은 종래의 방식에 따라 측정한 음성에 대한 스펙트럼 결과를 나타낸 도면이다.
도 2는 본 발명에 따른 이미지 기반의 음소 인식 방법의 실행 과정을 나타낸 흐름도이다.
도 3은 본 발명에 따른 이미지 기반의 음소 인식 방법에 있어서, 사과라는 소리(발음)에서의 음소 영역과 청음 영역의 개요를 나타낸 도면이다.
도 4는 특정 주파수의 소리가 시작되는 시점에 스펙트로그램 상에 삼각형(혹은 압정 머리) 모양이 발생하는 것을 나타낸 도면이다.
도 5는 본 발명에 채용되는 DJT(DJ Transform)에 의해 house와 nine이라는 단어(발음)에 대해 생성된 스펙트로그램 이미지를 나타낸 도면이다.
도 6은 본 발명에 채용되는 DJT(DJ Transform)에 의해 생성된 스펙트로그램 이미지를 나타낸 도면이다.
도 7은 종래 STFT(short-time Fourier transform)에 의해 생성된 스펙트로그램 이미지를 나타낸 도면이다.

본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정되어 해석되지 말아야 하며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 한다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈", "장치" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

이하 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다.

도 2는 본 발명의 실시예에 따른 이미지 기반의 음소 인식 방법의 실행 과정을 나타낸 흐름도이다.

도 2를 참조하면, 본 발명에 따른 이미지 기반의 음소 인식 방법은, 각 단계가 컴퓨터에 의해 수행되는, 음소 인식을 이미지 인식으로 처리하는 이미지 기반의 음소 인식 방법으로서, 크게 학습 단계와 추론 단계로 구성된다.

학습 단계에서는 먼저 사전에 미리 설계된 음성을 스펙트로그램 (spectrogram) 이미지로 변환하는 음성/이미지 변환 모델(본 발명에서는 이를 'DJT(DJ Transform)'라 칭함)을 이용하여 주어진 음성 학습 데이터에 대한 스펙트로그램을 생성한다(단계 S201). 여기서, 상기 DJT는 외력으로 작용하는 신호에 따라 다양한 주파수를 갖는 감쇠 고조파 발진기(damped harmonic oscillator; DHO)들의 응답으로 정의될 수 있다.

이렇게 하여 DJT를 이용한 스펙트로그램이 생성되면, 그 생성된 스펙트로그램에서, 도 3에 도시된 바와 같이, 청음 영역의 이미지를 추출하고, 추출된 청음 영역의 이미지를 시간 축 방향으로 미리 설정된 크기로 확대한다(단계 S202). 도 3은 '사과'라는 소리(발음)에서의 음소 영역과 청음 영역의 개요를 나타낸 것이다. 여기서, 음소 영역과 청음 영역에 대해 설명을 부가해 보기로 한다.

음소의 발음 구간은 도 3과 같이, 인접한 음소의 발음과 겹치는 구간을 포함한 전체 음소 영역과, 인접한 음소의 발음과 겹치지 않는 청음 영역으로 나눌 수 있다. 이때, 음소 영역은 단위 소리의 영역으로서, 예를 들면, "안녕하세요"의 경우, "ㅏ+ㄴ+ㄴ+ㅣ+ㅓ+ㅇ+ㅎ+ㅏ+ㅅ+ㅔ+ㅛ"로 분해될 수 있고, 이때 ㅏ, ㄴ, ㄴ,ㅣ, ㅓ 등과 같은 각 개별 단위 소리의 영역을 음소 영역이라 한다. 이때, 또한 음소와 음소 사이 지점을 경계로 한다. 연속한 음소 영역은 경계가 맞닿아 있다. 각 음소는 고유의 주파수 구성을 가지고 있으며, 발음 길이가 다르더라도 동일한 주파수 구성으로 이루어지며, 이에 따라 동일한 이미지로 처리가 가능하다. 즉, 이미지를 시간축으로 확대/축소하는 것과 유사하다. 음성 신호에서 각 음소의 길이는 음소 종류, 사람 특성, 발음 속도 등에 따라 달라진다. 자음의 경우는 상대적으로 지속 시간의 차이가 적고, 모음의 경우는 지속 시간이 다양하다. 또한, 청음 영역은 각 음소 영역에서 정확히 해당 음소만 포함하는 영역일 수 있다. 청음 영역의 시작점에서는 앞의 음소 발음이 들리지 않는다. 그리고 청음 영역의 끝점에서는 뒤의 음소 발음이 들리지 않는다. 연속한 청음 영역은 경계가 맞닿아 있을 수 없다.

여기서, 또한 상기 미리 설정된 크기는 시간 축 방향으로 각 구간이 일정한 시간 간격을 가지도록 구성될 수 있다. 예를 들면, 미리 설정된 크기는 5msec, 10msec, 15msec, 20msec 등의 일정한 시간 간격을 가지도록 구성될 수 있다.

이상에 의해 청음 영역의 이미지에 대한 확대가 완료되면, 그 확대된 청음 영역의 이미지를 음소에 따라 주파수 축의 특정 주파수대의 영역에서만 추출하여 이미지를 생성한다(단계 S203). 여기서, 상기 청음 영역의 이미지를 음소에 따라 주파수 축의 특정 주파수대의 영역에서만 추출하여 이미지를 생성함에 있어서, 청음 영역의 이미지들을 음소에 따라서 주파수 축의 0∼4kHz, 4kHz∼8kHz, 혹은 0Hz∼8kHz 대의 영역에서만 추출하여 이미지를 생성할 수 있다. 예를 들어, "ㅅ", "ㅎ" 발음은 4kHz∼8kHz 대의 영역을 설정하고, 모음은 0∼4kHz 대의 영역을 설정하여, 그 영역에서만 청음 영역의 이미지를 추출할 수 있다. 또는 모든 음소에 대해서 0Hz∼8kHz 대의 전체 영역을 설정하여 그 영역에서 청음 영역의 이미지를 추출할 수도 있다. 여기서, 또한 이상과 같은 특정 주파수대의 영역은 주파수 축의 0∼4kHz, 4kHz∼8kHz, 혹은 0Hz∼8kHz 대의 영역으로 한정되는 것은 아니며, 경우에 따라서는 다른 주파수대의 영역으로 설정될 수도 있다.

이렇게 하여 청음 영역의 이미지를 특정 주파수대의 영역에서만 추출하여 이미지가 생성되면, 그 생성된 이미지를 학습 데이터로 사용하여 딥러닝 기반의 음소 분류 네트워크를 학습시킨다(단계 S204). 여기서, 상기 딥러닝 기반의 음소 분류 네트워크는 CNN(Convolution Neural Network), RNN(Recurrent Neural Network), 음성/이미지 변환 모델(DJT) 등을 포함할 수 있다.

이상에 의해 학습 단계가 완료되고, 이후에는 추론 단계가 이어진다. 즉, 위의 학습 단계의 마지막 단계로서 딥러닝 기반의 음소 분류 네트워크의 학습이 완료되면, 이어서 추론 단계의 첫 번째 단계로서 상기 학습된 음소 분류 네트워크(예를들면, 음성/이미지 변환 모델(DJT))를 이용하여 임의로 주어진 소리에 대한 스펙트로그램을 생성한다(단계 S205).

그런 후, 그 생성된 스펙트로그램에서 상기 학습된 음소 분류 네트워크를 이용하여 음소 시작 시점을 추출하고, 스펙트로그램에서의 선택된 영역이 음소일 확률을 계산하여 음소 영역들을 추출한다(단계 S206). 여기서, 스펙트로그램에서 음소 시작 시점을 추출함에 있어서, 스펙트로그램에서 시간 축의 좌측단에서 우측단으로 한 칸씩 이동하면서 매 칸마다 우측으로 일정 시간 구간(예를 들면, 10 msec)의 영역을 탐색하면서 음소를 구성하는 각 주파수에 해당하는 소리의 시작 시점이 현재 칸에 존재하는지를 검사함으로써 음소 시작 시점을 추출할 수 있다. 여기서, 음소 시작 시점이 추출되면 음소 발생 구간에 진입한 것으로 한다.

이때, 검사하는 방법으로 도 4의 원형 영역(401)과 같이, 스펙트로그램에서 압정 머리 모양의 이미지가 존재하는지 여부를 검사하여, 압정 머리 모양의 이미지가 존재하면 그 시점을 음소를 구성하는 각 주파수에 해당하는 소리의 시작 시점으로 추출할 수 있다. 이때, 또한 음소 발생 구간에 진입하지 않은 상태에서 새로운 소리의 시작 시점이 추출되면, 음소 발생 구간이 시작된 것으로 간주할 수 있다. 이때, 또한 각 주파수에 해당하는 소리의 크기 중 최대값이 음소 발생 구간 진입 이후의 전체 구간에서 발생한 각 주파수에 해당하는 소리 크기의 최대값보다 일정 비율(예를 들면, 0.1) 이하이면 음소 발생 구간을 벗어난 것으로 간주할 수 있다. 여기서, 이상과 같은 주파수에 해당하는 소리의 시작 시점의 추출과 관련하여 조금 더 설명을 부가해 보기로 한다.

DJT는 외력으로 작용하는 신호에 따라 다양한 주파수를 갖는 감쇠 고조파 발진기(damped harmonic oscillator; DHO)들의 응답이므로 특정 주파수의 소리가 주어지면 발진기 중에서 해당 주파수와 유사한 고유주파수를 갖는 발진기들의 진폭이 크게 증가하기 시작한다. 시간이 지나면 해당 주파수와 고유주파수의 차이가 큰 발진기부터 진폭은 다시 줄어들게 되고, 발진기들의 진폭을 발진기들의 고유주파수의 증가순으로 정렬하면 해당 주파수와 고유주파수의 차이가 제일 작은 발진기를 중심으로 발진기들의 진폭이 날카로운 피크를 구성하게 된다. 따라서, 특정 주파수의 소리가 시작되는 시점에 도 4의 원형 영역(401)과 같이 스펙트로그램에 삼각형(혹은 압정 머리) 모양이 발생한다. 이러한 모양은 주파수가 초기에 변하는 상태에 따라서 이등변 삼각형, 직각 삼각형 등의 다양한 형태로 나타날 수 있다. 따라서 이미지 검출 기법을 사용하여 삼각형 이미지를 검출하면, 특정 주파수의 소리의 시작 시점을 찾을 수 있게 된다.

또한, 상기 단계 S206에서 스펙트로그램에서의 선택된 영역이 음소일 확률을 계산하여 음소 영역들을 추출함에 있어서, 음소 발생 구간에 진입한 상태에서 새로운 소리의 시작 시점을 찾았으면, 도 5의 (a) 및 (b)와 같이 시간 축 방향으로 일정 구간에 해당하는 스펙트로그램 상의 사각형 영역(501)을 선택하고, 각 음소에 대해서 상기 선택된 사각형 영역(501)의 이미지가 해당 음소일 확률을 계산할 수 있다. 이때, 계산된 확률이 임계값 이상이면 상기 선택된 영역을 해당 음소 영역으로 추출할 수 있다. 추출된 영역을 음소 추출 영역이라고 하자. 여기서 일정 구간으로 5msec, 10msec, 15msec, 20msec 등을 사용할 수 있다.

이때, 또한 음소 발생 구간에 진입하지 않은 상태에서 새로운 소리의 시작 시점을 찾았으면, 10 msec 구간의 스펙트로그램 영역을 선택한 후, 각 음소에 대해서 상기 선택된 10 msec 구간의 영역의 이미지가 해당 음소일 확률을 계산할 수 있다. 이때, 계산된 확률이 임계값 이상이면 상기 선택된 영역을 해당 음소 영역으로 추출할 수 있다.

한편, 이상과 같이 시간 축 방향으로 일정 구간의 스펙트로그램 영역을 선택할 때, 주파수 축 방향의 영역은 음소 별로 구간을 다르게 설정할 수 있다. 예를 들어, "ㅅ, ㅎ" 발음은 4kHz∼8kHz 대의 구간을 설정하고, 모음은 0∼4kHz 대 구간을 설정할 수 있다.

또한, 상기 단계 S206에서 상기 스펙트로그램에서 음소 시작 시점을 추출하고, 스펙트로그램에서의 선택된 영역이 음소일 확률을 계산함에 있어서, 음소 발생 구간에 진입한 상태라면, 시간 축 방향으로 일정한 시간 간격만큼 이동한 후, 그리고 음소 발생 구간에 진입하지 않았거나 벗어난 상태라면, 스펙트로그램의 최소 시간 간격(예를 들면, 스펙트로그램이 1msec마다 각 주파수의 크기를 저장하고 있다면 1msec)만큼 이동한 후, 상기 스펙트로그램에서 음소 시작 시점을 추출하고, 스펙트로그램에서의 선택된 영역이 음소일 확률을 계산하는 과정을 반복 수행할 수 있다. 이때, 이동 시간 간격은 직전에 추출된 음소에 따라서 변경될 수도 있다. 예를 들어, 'ㅏ'음이 검출되었다면 10msec, 'ㅋ' 음이 검출되었다면 5msec 이동하도록 설정될 수 있다.

이렇게 하여 스펙트로그램에서의 선택된 영역이 음소일 확률을 계산하여 음소 영역들이 추출되면, 그 추출된 음소 영역들 중 임의의 두 개의 음소 영역이 시간 순으로 겹치거나 인접하면서 동일한 음소에 해당될 경우 상기 두 개의 음소 영역을 하나의 영역으로 병합한다(단계 S207). 여기서, 상기 추출된 음소 영역들 중 임의의 두 개의 음소 영역이 시간 순으로 겹치거나 인접하면서 동일한 음소에 해당될 경우 상기 두 개의 음소 영역을 하나의 영역으로 병합함에 있어서, 상기 단계 S206에서 추출된 음소 영역들을 각 영역의 시작 시간 기준으로 오름차순으로 나열하여, 시간 구간이 겹치거나 인접한 두 개의 음소 영역이 존재하면서 동일한 음소에 해당될 경우, 상기 두 개의 음소 영역을 하나의 영역으로 병합할 수 있다. 이때, 이와 같이 두 개의 음소 영역을 하나의 영역으로 병합하는 작업을 시간순으로 정렬된 순서대로 수행한다. 이는 결과적으로 겹치거나 인접한 두 개의 음소 영역이 동일한 음소인 경우가 없는 상황이 되도록 하기 위한 것이다.

이후, 최종적으로 상기 병합에 의해 생성된 음소 영역들을 시작 시간 순서대로 출력하여 출력된 결과를 바탕으로 음소를 인식한다(단계 S208).

한편, 도 6은 본 발명에 채용되는 DJT(DJ Transform)에 의해 생성된 스펙트로그램 이미지를 나타낸 것이고, 도 7은 종래 STFT(short-time Fourier transform)에 의해 생성된 스펙트로그램 이미지를 나타낸 것이다.

도 6 및 도 7을 참조하면, 도 6의 DJT(DJ Transform)에 의해 생성된 스펙트로그램 이미지가 도 7의 STFT(short-time Fourier transform)에 의해 생성된 스펙트로그램 이미지보다 월등히 선명함을 확인할 수 있다.

이를 통해 본 발명에 따른 이미지 기반의 음소 인식 방법을 적용할 경우, 음소 시작 시점을 정확히 찾아낼 수 있고, 그 결과 기존 방식으로는 구분하기 어려운 음소를 명확하게 구분할 수 있게 됨을 알 수 있다.

이상의 설명과 같이, 본 발명에 따른 이미지 기반의 음소 인식 방법은 고해상도 스펙트로그램(spectrogram)을 이용하여 주어진 음성 학습 데이터에 대한 이미지를 생성하고, 생성된 이미지를 학습 데이터로 사용하여 딥러닝 기반의 음소 분류 네트워크를 학습시키며, 이를 기반으로 주어진 소리에서 스펙트로그램을 생성하여 음소 시작 시점을 추출하고, 스펙트로그램에서의 선택된 영역이 음소일 확률을 계산 및 음소 영역을 추출하여 음소 인식을 이미지 인식으로 처리함으로써, 기존 방식으로는 구분하기 어려운 음소를 명확하게 구분할 수 있는 장점이 있다.

이상, 바람직한 실시예를 통하여 본 발명에 관하여 상세히 설명하였으나, 본 발명은 이에 한정되는 것은 아니며, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 다양하게 변경, 응용될 수 있음은 당해 기술분야의 통상의 기술자에게 자명하다. 따라서, 본 발명의 진정한 보호 범위는 다음의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술적 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

401: 원형 영역 501: 사각형 영역

Claims

각 단계가 컴퓨터에 의해 수행되는, 음소 인식을 이미지 인식으로 처리하는 이미지 기반의 음소 인식 방법으로서,
a) 사전에 미리 설계된 음성을 스펙트로그램(spectrogram) 이미지로 변환하는 음성/이미지 변환 모델(DJT)을 이용하여 주어진 음성 학습 데이터에 대한 스펙트로그램을 생성하는 단계와;
b) 상기 생성된 스펙트로그램에서 청음 영역의 이미지를 추출하고, 추출된 청음 영역의 이미지를 시간 축 방향으로 미리 설정된 크기로 확대하는 단계와;
c) 상기 확대된 청음 영역의 이미지를 음소에 따라 주파수 축의 특정 주파수대의 영역에서만 추출하여 이미지를 생성하는 단계와;
d) 상기 생성된 이미지를 학습 데이터로 사용하여 딥러닝 기반의 음소 분류 네트워크를 학습시키는 단계와;
e) 상기 학습된 딥러닝 기반의 음소 분류 네트워크를 이용하여 임의로 주어진 소리에 대한 스펙트로그램을 생성하는 단계와:
f) 상기 생성된 스펙트로그램에서 상기 학습된 음소 분류 네트워크를 이용하여 음소 시작 시점을 추출하고, 스펙트로그램에서의 선택된 영역이 음소일 확률을 계산하여 음소 영역들을 추출하는 단계와;
g) 상기 추출된 음소 영역들 중 임의의 두 개의 음소 영역이 시간 순으로 겹치거나 인접하면서 동일한 음소에 해당될 경우 상기 두 개의 음소 영역을 하나의 영역으로 병합하는 단계; 및
h) 상기 병합에 의해 생성된 음소 영역들을 시작 시간 순서대로 출력하여 출력된 결과를 바탕으로 음소를 인식하는 단계를 포함하는 이미지 기반의 음소 인식 방법.
제1항에 있어서,
상기 단계 b)에서 상기 청음 영역은 각 음소 영역에서 정확히 해당 음소만 포함하는 영역인 이미지 기반의 음소 인식 방법.
제1항에 있어서,
상기 단계 b)에서 상기 미리 설정된 크기는 시간 축 방향으로 각 구간이 일정한 시간 간격을 가지도록 구성된 이미지 기반의 음소 인식 방법.
제3항에 있어서,
상기 청음 영역의 이미지의 시간 축 방향으로의 크기가 미리 설정된 시간 축 방향으로의 최대 크기보다 크면, 상기 청음 영역의 이미지를 최대 크기로 분할하여 여러 개의 이미지들로 구성하는 이미지 기반의 음소 인식 방법.
제1항에 있어서,
상기 단계 c)에서 청음 영역의 이미지를 음소에 따라 주파수 축의 특정 주파수대의 영역에서만 추출하여 이미지를 생성함에 있어서, 청음 영역의 이미지들을 음소에 따라서 주파수 축의 0∼4kHz, 4kHz∼8kHz, 혹은 0Hz∼8kHz 대의 영역에서만 추출하여 이미지를 생성하는 이미지 기반의 음소 인식 방법.
제1항에 있어서,
상기 단계 d)에서 상기 딥러닝 기반의 음소 분류 네트워크는 CNN(Convolution Neural Network), RNN(Recurrent Neural Network), 음성/이미지 변환 모델(DJT)을 포함하는 이미지 기반의 음소 인식 방법.
제1항에 있어서,
상기 단계 f)에서 스펙트로그램에서 음소 시작 시점을 추출함에 있어서, 스펙트로그램에서 시간 축의 좌측단에서 우측단으로 한 칸씩 이동하면서 매 칸마다 우측으로 일정 시간 구간의 영역을 탐색하면서 음소를 구성하는 각 주파수에 해당하는 소리의 시작 시점이 현재 칸에 존재하는지를 검사함으로써 음소 시작 시점을 추출하는 이미지 기반의 음소 인식 방법.
제7항에 있어서,
상기 음소를 구성하는 각 주파수에 해당하는 소리의 시작 시점이 현재 칸에 존재하는지를 검사함에 있어서, 스펙트로그램에서 압정 머리 모양의 이미지가 존재하는지 여부를 검사하여, 압정 머리 모양의 이미지가 존재하면 그 시점을 음소를 구성하는 각 주파수에 해당하는 소리의 시작 시점으로 추출하는 이미지 기반의 음소 인식 방법.
제7항에 있어서,
음소 발생 구간에 진입하지 않은 상태에서 새로운 소리의 시작 시점이 추출되면, 음소 발생 구간이 시작된 것으로 간주하는 이미지 기반의 음소 인식 방법.
제9항에 있어서,
각 주파수에 해당하는 소리의 크기 중 최대값이 음소 발생 구간 진입 이후의 전체 구간에서 발생한 각 주파수에 해당하는 소리 크기의 최대값보다 일정 비율 이하이면 상기 음소 발생 구간을 벗어난 것으로 간주하는 이미지 기반의 음소 인식 방법.
제1항에 있어서,
상기 단계 f)에서 스펙트로그램에서의 선택된 영역이 음소일 확률을 계산하여 음소 영역들을 추출함에 있어서, 음소 발생 구간에 진입한 상태에서 새로운 소리의 시작 시점을 찾았으면 시간 축 방향으로 일정 구간에 해당하는 스펙트로그램 상의 사각형 영역을 선택하고, 각 음소에 대해서 상기 선택된 사각형 영역의 이미지가 해당 음소일 확률을 계산하는 이미지 기반의 음소 인식 방법.
제11항에 있어서,
상기 계산된 확률이 임계값 이상이면 상기 선택된 영역을 해당 음소 영역으로 추출하는 이미지 기반의 음소 인식 방법.
제11항에 있어서,
상기 음소 발생 구간에 진입하지 않은 상태에서 새로운 소리의 시작 시점을 찾았으면, 10 msec 구간의 스펙트로그램 영역을 선택한 후, 각 음소에 대해서 상기 선택된 10 msec 구간의 영역의 이미지가 해당 음소일 확률을 계산하는 이미지 기반의 음소 인식 방법.
제13항에 있어서,
상기 계산된 확률이 임계값 이상이면 상기 선택된 영역을 해당 음소 영역으로 추출하는 이미지 기반의 음소 인식 방법.
제1항에 있어서,
또한, 상기 단계 f)에서 상기 스펙트로그램에서 음소 시작 시점을 추출하고, 스펙트로그램에서의 선택된 영역이 음소일 확률을 계산함에 있어서, 음소 발생 구간에 진입한 상태라면, 시간 축 방향으로 일정한 시간 간격만큼 이동한 후, 그리고 음소 발생 구간에 진입하지 않았거나 벗어난 상태라면, 스펙트로그램의 최소 시간 간격만큼 이동한 후, 상기 스펙트로그램에서 음소 시작 시점을 추출하고, 스펙트로그램에서의 선택된 영역이 음소일 확률을 계산하는 과정을 반복 수행하는 이미지 기반의 음소 인식 방법.
제15항에 있어서,
상기 이동 시간 간격은 직전에 추출된 음소에 따라서 변경되어 설정되는 이미지 기반의 음소 인식 방법.
제1항에 있어서,
상기 단계 g)에서 상기 추출된 음소 영역들 중 임의의 두 개의 음소 영역이 시간 순으로 겹치거나 인접하면서 동일한 음소에 해당될 경우 상기 두 개의 음소 영역을 하나의 영역으로 병합함에 있어서, 상기 단계 f)에서 추출된 음소 영역들을 각 영역의 시작 시간 기준으로 오름차순으로 나열하여, 시간 구간이 겹치거나 인접한 두 개의 음소 영역이 존재하면서 동일한 음소에 해당될 경우, 상기 두 개의 음소 영역을 하나의 영역으로 병합하는 이미지 기반의 음소 인식 방법.