KR102626954B1

KR102626954B1 - 치과용 음성 인식 장치 및 이를 이용한 방법

Info

Publication number: KR102626954B1
Application number: KR1020230051940A
Authority: KR
Inventors: 서영상; 임병준
Original assignee: 주식회사 덴컴
Priority date: 2023-04-20
Filing date: 2023-04-20
Publication date: 2024-01-18

Abstract

일 구현예에 따른 치과용 음성 인식 장치는 적어도 하나의 명령어를 저장하는 메모리; 및 프로세서를 포함한다. 상기 적어도 하나의 명령어가 상기 프로세서에 의해 실행됨으로써, 치과 치료 중에 발생된 소음 및 음성을 포함하는 사운드가 획득되고, 상기 소음에 대한 정제 과정이 상기 획득된 사운드를 대상으로 수행되며, 상기 정제 과정이 수행되지 않은 사운드 및 상기 정제 과정이 수행된 사운드 각각을 대상으로 특징을 추출하는 과정, 상기 추출된 각각의 특징에 소정의 가중치를 적용하고 가공하여서 인코딩 벡터를 획득하는 과정 및 상기 획득된 인코딩 벡터를 디코딩하여서 상기 음성에 대한 스크립트를 획득하는 과정이 자기 지도 학습(self-supervised learning) 방식으로 학습된 STT(Speech To Text) 모델에 의해 수행되되, 상기 자기 지도 학습에 포함된 미세 조정(fine-tuning) 과정에서는 치과 치료 중에 발생된 소음 및 음성을 포함하는 복수 개의 사운드 및 상기 복수 개의 사운드 각각에 대한 스크립트가 학습용 데이터로서 이용된다.

Description

치과용 음성 인식 장치 및 이를 이용한 방법 {SPEECH RECOGNITION APPARATUS FOR DENTIST AND METHOD USING THE SAME}

본 발명은 치과용 음성 인식 장치 및 방법에 관한 것이다.

최근 의료진의 음성을 인식하고 텍스트로 변환하여 의료 기록 차트 등에 반영하는 기술, 즉 의료용 STT(Speech To Text)가 각광받고 있다. 특히, 의료진들끼리 치료를 하는 중에 주고받는 대화나 정보 또는 의료진과 환자가 나눈 대화 등은 비정형적 데이터이긴 하지만, 환자에 관한 현재 상태를 기록한다는 측면에서 중요하게 다뤄지고 있다. 더 나아가서는 이러한 비정형적 데이터는 환자의 예후 등을 예측하는데에도 이용될 수 있다는 측면에서, 전술한 의료용 STT 등을 이용해서 이러한 비정형적 데이터를 정확하게 인식하기 위한 시도가 이루어지고 있다.

치과에서도 마찬가지로 전술한 의료진들 간에 오고가는 대화나 정보 또는 의료진과 환자 간에 오고가는 대화는 중요하게 인식되고 있다.

그런데, 치과 치료 중에는, 다른 의료 분야에서의 치료에 비해 소음이 상대적으로 크게 발생될 수 있다. 예컨대 드릴이나 진공 흡입기(dental suction)의 동작에 따른 소음이 발생될 수 있다. 또는 치아에 소정의 물질을 충전할 때에도 소음이 발생될 수 있다.

치과 의료진은 이러한 소음이 존재하는 상황에서 환자의 상태에 관한 정보를 대화를 통해 공유하거나 또는 환자의 치료에 필요한 요청 등을 상대방 의료진에게 말을 통해 전달하기도 한다.

따라서, 이러한 소음이 발생하는 상황에서도 정확하게 음성을 인식할 수 있는 기술에 대한 요구가 존재한다.

한국공개특허 10-2022-0095581 (2022.07.07. 공개)

일 실시예에 따라 해결하고자 하는 과제는, 치과에서 발생되는 소음에도 불구하고, 치과 의료진 간에 오고가는 음성 또는 치과 의료진과 환자 간에 오고가는 음성을 정확하게 인식하기 위한 기술을 제공하는 것을 포함한다.

다만, 일 실시예에 따른 해결하고자 하는 과제가 이에 한정되는 것은 아니다.

제 1 구현예에 따른 치과용 음성 인식 장치는 적어도 하나의 명령어를 저장하는 메모리; 및 프로세서를 포함한다. 상기 적어도 하나의 명령어가 상기 프로세서에 의해 실행됨으로써, 치과 치료 중에 발생된 소음 및 음성을 포함하는 사운드가 획득되고, 상기 소음에 대한 정제 과정이 상기 획득된 사운드를 대상으로 수행되며, 상기 정제 과정이 수행되지 않은 사운드 및 상기 정제 과정이 수행된 사운드 각각을 대상으로 특징을 추출하는 과정, 상기 추출된 각각의 특징에 소정의 가중치를 적용하고 가공하여서 인코딩 벡터를 획득하는 과정 및 상기 획득된 인코딩 벡터를 디코딩하여서 상기 음성에 대한 스크립트를 획득하는 과정이 자기 지도 학습(self-supervised learning) 방식으로 학습된 STT(Speech To Text) 모델에 의해 수행된다. 이 때, 상기 자기 지도 학습에 포함된 미세 조정(fine-tuning) 과정에서는 치과 치료 중에 발생된 소음 및 음성을 포함하는 복수 개의 사운드 및 상기 복수 개의 사운드 각각에 대한 스크립트가 학습용 데이터로서 이용된다.

또한, 상기 정제 과정은 speech enhancement를 수행하는 모델에 의해 수행될 수 있다.

또한, 상기 정제 과정에서는 스펙트럼 차감(spectrum subtraction), 와이너 필터링(Wiener Filtering) 및 적응 필터링(Adaptive Filtering) 중 적어도 하나가 수행될 수 있다.

또한, 상기 특징을 추출하는 과정에는 상기 정제 과정이 수행되지 않은 사운드 및 상기 정제 과정이 수행된 사운드 각각을 스펙트로그램(spectrogram)으로 변환하는 과정; 및 상기 각각의 스펙트로그램으로부터 특징을 추출하는 과정이 포함될 수 있다.

또한, 상기 가중치는 상기 정제 과정이 수행되지 않은 사운드 및 상기 정제 과정이 수행된 사운드 간에 상대적으로 유사한 부분에는 더 높은 값이 적용되는 반면, 상대적으로 유사하지 않은 부분에는 더 낮은 값이 적용될 수 있다.

또한, 상기 특징을 추출하는 과정 및 상기 인코딩 벡터를 획득하는 과정은 상기 STT 모델에 포함된 인코딩부에 의해 수행되되, 상기 인코딩부는 상기 자기 지도 학습에 포함된 사전 학습(pre-training) 과정에서, 음성과 소음을 포함하는 복수 개의 사운드를 이용해서 학습된 것일 수 있다.

또한, 상기 인코딩부에 대한 사전 학습 과정에서는 학습용 입력 데이터로서 음성과 소음을 포함하는 사운드가 이용되고 학습용 정답 데이터로서 음성을 포함하는 사운드가 이용될 수 있다.

또한, 상기 인코딩부에 대한 사전 학습 과정에서는 상기 학습용 입력 데이터로서 음성과 소음을 포함하는 사운드에 대한 정제 과정이 수행되고, 상기 정제 과정이 수행되지 않은 학습용 입력 데이터로서의 사운드 및 상기 정제 과정이 수행된 학습용 입력 데이터로서의 사운드 각각을 대상으로 특징을 추출하는 과정이 수행되며, 상 정제 과정이 수행되지 않은 학습용 입력 데이터로서의 사운드로부터 추출된 특징 및 상기 정제 과정이 수행된 학습용 입력 데이터로서의 사운드로부터 추출된 특징에 소정의 가중치를 적용하고 가공하여서 학습용 인코딩 벡터를 획득하는 과정이 수행되고, 상기 학습용 인코딩 벡터와 상기 특징 벡터 간의 차이가 최소화되도록 학습이 수행될 수 있다.

또한, 상기 적어도 하나의 명령어가 상기 프로세서에 의해 수행됨으로써, 상기 스크립트에 사전(dictionary)에 없는 단어가 포함되어 있으면, 기 학습된 단어 보정 모델에 상기 단어를 포함하는 연속된 3개의 단어가 제공되고, 상기 사전에 없는 단어는 상기 단어 보정 모델에 의해 보정된 단어로 대체될 수 있다.

또한, 상기 학습용 인코딩 벡터와 상기 특징 벡터 간의 차이를 최소화시키는 학습에는, 대조 손실(contrastive loss)이 이용될 수 있다.

또한, 상기 획득된 인코딩 벡터를 디코딩하여서 상기 음성에 대한 스크립트를 획득하는 과정은 상기 STT 모델에 포함된 디코딩부에 의해 수행되되, 상기 미세 조정 과정에서는 상기 인코딩부에 상기 치과 치료 중에 발생된 소음 및 음성을 포함하는 복수 개의 사운드가 제공된 것에 대응해서 상기 디코딩부에서 출력되는 결과와 상기 학습용 데이터로서의 스크립트 간의 차이가 최소화되도록 학습이 수행될 수 있다.

또한, 상기 디코딩부에서 출력되는 결과와 상기 학습용 데이터로서의 스크립트 간의 차이를 최소화시키는 학습에는, CTC(Connectionist Temporal Classification) 손실이 이용될 수 있다.

제 2 구현예에 따른 치과용 음성 인식 장치가 수행하는 치과용 음성 인식 수행 방법으로서, 상기 수행 방법은 치과 치료 중에 발생된 소음 및 음성을 포함하는 사운드를 획득하는 단계; 상기 획득된 사운드를 대상으로 상기 소음에 대한 정제 과정을 수행하는 단계; 및 상기 정제 과정이 수행되지 않은 사운드 및 상기 정제 과정이 수행된 사운드 각각을 대상으로 특징을 추출하는 과정, 상기 추출된 각각의 특징에 소정의 가중치를 적용하고 가공하여서 인코딩 벡터를 획득하는 과정 및 상기 획득된 인코딩 벡터를 디코딩하여서 상기 음성에 대한 스크립트를 획득하는 과정이 자기 지도 학습(self-supervised learning) 방식으로 학습된 STT(Speech To Text) 모델에 의해 수행되는 단계를 포함한다. 여기서, 상기 자기 지도 학습에 포함된 미세 조정(fine-tuning) 과정에서는, 치과 치료 중에 발생된 소음 및 음성을 포함하는 복수 개의 사운드 및 상기 복수 개의 사운드 각각에 대한 스크립트가 학습용 데이터로서 이용된다.

제 3 구현예에 따른 컴퓨터 프로그램은 컴퓨터 판독가능한 기록매체에 저장되며, 상기 컴퓨터 프로그램은 상기 방법에 포함된 각 단계를 포함해서 수행되도록 프로그램된 것일 수 있다.

제 4 구현예에 따른 컴퓨터 판독가능한 기록매체는 컴퓨터 프로그램을 저장하며, 상기 컴퓨터 프로그램은 상기 방법에 포함된 각 단계를 포함해서 수행되도록 프로그램된 것일 수 있다.

일 실시예에 따르면, 음성과 소음을 포함하는 사운드 뿐 아니라 이러한 사운드가 정제된 결과물로부터 각각 특징이 추출되고, 이렇게 추출된 각각의 특징에 대한 가중 평균 결과가 도출되며, 이렇게 도출된 결과로부터 인코딩 벡터가 생성된 뒤에 텍스트로의 디코딩이 수행된다. 따라서, 소음이 상대적으로 큰 환경에서도 비교적 정확하게 음성이 인식될 수 있다. 즉, 높은 인식률을 갖는 치과용 STT 모델의 구현이 가능해진다.

도 1에는 일 실시예에 따른 치과 전용 STT 모델이 치과에서 발생된 사운드로부터 음성을 인식해서 텍스트로 변환하여 제공하는 것이 개념적으로 도시되어 있다.
도 2에는 일 실시예에 따른 치과용 음성 인식 장치가 네트워크 상에서 연결된 형태가 예시적으로 도시되어 있다.
도 3에는 일 실시예에 따른 치과용 음성 인식 장치에 대한 블록도가 개념적으로 도시되어 있다.
도 4에는 딥러닝에 대한 아키텍쳐가 개념적으로 도시되어 있다.
도 5에는 일 실시예에 따라 구현된 STT 모델의 아키텍쳐가 개념적으로 도시되어 있다.
도 6에는 다른 실시예에 따라 구현된 STT 모델의 아키텍쳐가 개념적으로 도시되어 있다.
도 7에는 일 실시예에 따라 STT 모델의 인코딩부를 사전 학습(pre-training)시키는 과정이 개념적으로 도시되어 있다.
도 8에는 일 실시예에 따라 STT 모델을 미세 조정(fine-tuning)하는 과정이 개념적으로 도시되어 있다.
도 9에는 일 실시예에 따른 치과용 음성 인식 방법에 대한 순서도가 예시적으로 도시되어 있다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

도 1에는 일 실시예에 따른 치과 전용 STT 모델이 치과에서 발생된 사운드로부터 음성을 인식해서 텍스트로 변환하여 제공하는 것이 개념적으로 도시되어 있다. 다만, 도 1은 예시적인 것에 불과한 바, 본 발명의 사상이 도 1에 도시된 것으로 한정 해석되는 것은 아니다.

도 1을 참조하면, 치과 치료 중에 발생된 사운드가 치과 전용 STT(Speech To Text) 모델에 제공된다. 이러한 사운드에는 음성 및 소음이 포함될 수 있다. 이 중 음성은 치과 의료진 간의 대화 또는 치과 의료진과 환자 간의 대화를 포함할 수 있다. 아울러, 소음은 치료 중에 발생되는 다양한 소리를 포함한다. 예컨대 드릴이나 진공 흡입기(dental suction)의 동작에 따른 소음이 발생될 수 있다. 또는 치아에 소정의 물질을 충전할 때에도 소음이 발생될 수 있다. 물론, 치과 밖에서의 자동차 경적 소리 등도 이러한 소음에 포함될 수 있다.

즉, 전술한 사운드는 도 1에 도시된 바와 같이 noisy waveform의 형태일 수 있다. 다시 말하면, 전술한 사운드는 소음과 음성을 포함할 수 있다. 이러한 사운드는 일 실시예에 따라 마련되어 있는 치과 전용 STT 모델에 제공된다. 그러면 이러한 치과 전용 STT 모델에서는 사운드에 포함되어 있는 음성이 인식되어서 출력된다. 출력 형태는 다양할 수 있다. 예컨대 도 1에 도시된 바와 같이 스크립트(script)와 같은 텍스트가 출력될 수 있으며, 다만 이에 한정되는 것은 아니다.

여기서, 치과 전용 STT 모델은 소음에 강인(robust)하도록 학습된 모델이다. 예컨대 전술한 치과 치료 중에 발생되는 소음에도 불구하고, 전술한 모델은 이러한 사운드에 포함되어 있는 음성을 정확하게 인식해서 출력하도록 학습된 모델일 수 있다. 즉, 일반적인 STT 모델에 비해, 일 실시예에 따른 치과 전용 STT 모델은, 그 정도가 심한 소음에도 불구하고, 음성 인식률이 상대적으로 높도록 학습된 모델일 수 있다.

한편, 전술한 치과 전용 STT 모델에 적용된 기술은, 다른 의료 분야에도 적용될 수 있음은 물론이다. 미세 조정 과정에 이용되는 학습용 데이터의 종류에 따라, 소아과, 산부인과, 안과 또는 피부과 전용 STT 모델 역시, 일 실시예에 따른 기술의 응용으로 구현 가능하다.

도 2는 일 실시예에 따른 치과용 음성 장치가 네트워크 상에서 연결된 형태가 예시적으로 도시되어 있다.

도 2를 참조하면, 일 실시예에 따른 치과용 음성 인식 장치(100)는 사용자 단말(200) 등과 네트워크(300)를 통해 연결될 수 있다. 여기서, 도 2는 예시적인 것에 불과한 바, 본 발명의 사상이 도 2에 도시된 것으로 한정 해석되는 것은 아니다.

여기서 네트워크(300)는 무선 또는 유선 네트워크망을 의미한다. 이 중, 무선 네트워크 망의 경우, 예컨대 LTE(long-term evolution), LTE-A(LTE Advance), CDMA(code division multiple access), WCDMA(wideband CDMA), UMTS(universal mobile telecommunications system), WiBro(Wireless Broadband), WiFi(wireless fidelity), 블루투스(Bluetooth), NFC(near field communication) 및 GNSS(global navigation satellite system) 등에서 적어도 하나를 포함할 수 있다. 또한, 유선 네트워크 망의 경우, 예컨대 USB(universal serial bus), HDMI(high definition multimedia interface), RS-232(recommended standard232), LAN(Local Area Network), WAN(Wide Area Network), 인터넷 및 전화망(telephone network) 등에서 적어도 하나를 포함할 수 있다.

다음으로, 사용자 단말(200)은 전술한 치과용 음성 인식 장치(100)를 사용하고자 하는 사용자의 단말을 지칭한다. 예컨대, 사용자 단말(200)은 치과 의료진의 단말이거나 또는 환자의 단말일 수 있다. 또는 치과에서 발생되는 음성과 소음을 포함하는 사운드를 수집해서, 이로부터 의료 빅데이터를 구축하고자 하는 데이터사업자 또는 마이데이터 사업자의 단말일 수도 있다.

이러한 사용자 단말(200)은 도 2에 도시된 바와 같이 스마트폰, 태블릿 PC, 데스크탑 PC 또는 서버 등을 포함할 수 있으며, 다만 이에 한정되는 것은 아니다. 아울러, 이러한 사용자 단말(200)에는 마이크와 같은 음성 인식 장치, 그리고 통신부 등이 구비되어 있을 수 있다. 이러한 마이크를 통해 치과에서 발생되는 전술한 사운드가 전술한 사용자 단말(200)에 입력될 수 있다. 그리고 상기 통신부를 통해, 전술한 사용자 단말(200)에 입력된 전술한 사운드가 네트워크(300)를 통해 일 실시예에 따른 치과용 음성 인식 장치(100)에게 전송될 수 있다.

치과용 음성 인식 장치(100)는 치과에서 발생되는 사운드를 제공받는다. 이러한 사운드는 치과 치료 중에 발생된 것일 수 있으며, 다만 이에 한정되는 것은 아니다. 아울러, 이러한 사운드에는 음성과 소음 등이 포함될 수 있다. 여기서, 음성과 소음에 대해서는 이미 설명된 바 있으므로, 이에 대한 추가적인 설명은 생략하기로 한다.

치과용 음성 인식 장치(100)는, 제공받은 사운드를 분석해서 음성을 인식한다. 그리고 이렇게 인식된 음성은 스크립트와 같은 텍스트의 형태로 출력된다. 보다 구체적으로, 치과용 음성 인식 장치(100)는 치과 치료 중에 발생되는 소음에도 불구하고, 사운드에 포함되어 있는 음성을 정확하게 인식해서 스크립트의 형태로 출력할 수 있다. 즉, 일반적인 STT 모델에 비해, 일 실시예에 따른 치과용 음성 인식 장치(100)는 그 정도가 심한 소음에도 불구하고 정확하게 음성을 인식해서 스크립트의 형태로 출력할 수 있다.

이하, 이러한 치과용 음성 인식 장치(100)에 대해 보다 자세하게 살펴보기로 한다.

도 3은 일 실시예에 따른 치과용 음성 인식 장치(100)에 대한 예시적인 구성도이다. 도 3을 참조하면, 치과용 음성 인식 장치(100)는 통신부(110), 메모리(120) 및 프로세서(130)를 포함한다. 다만, 도 3에 도시된 구성도는 예시적인 것에 불과한 바, 본 발명의 사상이 도 3에 도시된 구성도에 의해 한정 해석되는 것은 아니다. 예컨대, 치과용 음성 인식 장치(100)는 도 3에 도시되지 않은 구성을 적어도 하나 포함하거나 도 3에 도시된 구성 중 적어도 하나를 포함하지 않을 수 있다.

통신부(110)는 유선 또는 무선 통신 모듈에 의해 구현 가능하다. 치과용 음성 인식 장치(100)는 이러한 통신부(110)를 통해 외부의 단말, 예컨대 도 2에 도시된 다양한 종류의 단말(200) 등과 통신을 수행할 수 있다.

메모리(120)는 정보를 저장하는 매체에 의해 구현 가능하다. 이러한 매체에는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(Random Access Memory, RAM), SRAM(Static Random Access Memory), 롬(Read-Only Memory, ROM), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체일 수 있으며, 다만 이에 한정되는 것은 아니다.

이러한 메모리(120)에는 다양한 종류의 정보가 저장될 수 있다. 예컨대 메모리(120)에는 통신부(110)를 통해 치과용 음성 인식 장치(100)가 외부의 단말(200) 등에서 획득한 정보가 저장될 수 있다. 또한, 이러한 메모리(120)에는 후술할 다양한 종류의 모델이나 모듈의 학습에 이용될 복수 개의 학습용 데이터가 저장되어 있을 수도 있다.

또한, 메모리(120)에는 다양한 종류의 모듈 내지 모델이 구현되어 있을 수 있다. 이러한 모듈이나 모델은 후술할 프로세서(130)에 의해 실행되면, 목적하는 기능이 수행되게 된다. 각각의 모듈 내지 모델에 대해서는 후술하기로 한다.

다음으로, 프로세서(130)에 대해 살펴보자. 우선, 일 실시예에 따른 프로세서(130)는 메모리(120)에 저장된 적어도 하나의 명령어를 실행시킴으로써, 후술될 본 개시내용의 실시예들에 따른 기술적 특징들을 수행할 수 있다.

일 실시예에서, 프로세서(130)는 적어도 하나의 코어로 구성될 수 있다. 아울러, 이러한 프로세서(130)는 중앙 처리 장치(CPU: central processing unit), 범용 그래픽 처리 장치 (GPGPU: general purpose graphics processing unit), 텐서 처리 장치(TPU: tensor processing unit) 등의 데이터 분석 및/또는 처리를 위한 것일 수 있다.

전술한 프로세서(130)는 머신러닝이나 딥러닝 방식으로 설계된 신경망 내지 모델을 학습시킬 수 있다. 이를 위해, 프로세서(130)는 학습을 위한 입력 데이터의 처리, 입력 데이터에서의 피처 추출, 오차 계산, 역전파(backpropagation)를 이용한 신경망의 가중치 업데이트 등의 신경망의 학습을 위한 계산을 수행할 수 있다.

또한, 프로세서(130)는 인공 신경망 방식으로 구현된 모델을 이용해서, 소정의 목적 하에 추론(inference)을 수행할 수도 있다.

이하, 인공 신경망에 대해 살펴보기로 한다. 본 명세서에서의 모델은 네트워크 함수, 인공신경망 및/또는 뉴럴 네트워크에 기반하여 동작하는 임의의 형태의 컴퓨터 프로그램을 의미할 수 있다. 본 명세서에 걸쳐, 모델, 신경망, 네트워크 함수, 뉴럴 네트워크(neural network)는 상호 교환 가능한 의미로 사용될 수 있다. 신경망은 하나 이상의 노드들이 하나 이상의 링크를 통해 상호 연결되어 신경망 내에서 입력 노드 및 출력 노드 관계를 형성한다. 신경망 내에서 노드들과 링크들의 개수 및 노드들과 링크들 사이의 연관관계, 링크들 각각에 부여된 가중치의 값에 따라, 신경망의 특성이 결정될 수 있다. 신경망은 하나 이상의 노드들의 집합으로 구성될 수 있다. 신경망을 구성하는 노드들의 부분 집합은 레이어(layer)를 구성할 수 있다.

뉴럴 네트워크 중 딥 뉴럴 네트워크(DNN: deep neural network, 심층신경망)는 입력 레이어와 출력 레이어 외에 복수개의 히든 레이어를 포함하는 신경망을 의미할 수 있으며, 도 4에 이에 대한 개념이 예시적으로 도시되어 있는 것과 같이, 중간에 있는 히든 계층이 딥 뉴럴 네트워크에서는 1개 이상, 바람직하게는 2개 이상으로 구성된다.

이러한 딥 뉴럴 네트워크는 합성곱 신경망(CNN: convolutional neural network), 리커런트 뉴럴 네트워크(RNN: recurrent neural network), LSTM(Long Short Term Memory) 네트워크, GPT(Generative Pre-trained Transformer), 오토 인코더(auto encoder), GAN(Generative Adversarial Networks), 제한 볼츠만 머신(RBM: restricted boltzmann machine), 심층 신뢰 네트워크(DBN: deep belief network), Q 네트워크, U 네트워크, 샴 네트워크, 적대적 생성 네트워크(GAN: Generative Adversarial Network), 트랜스포머(transformer) 등을 포함할 수 있다.

전술한 딥 뉴럴 네트워크는 전이학습(transfer learning) 방식으로 학습된 모델일 수 있다. 여기서, 전이학습은 대용량의 라벨링되어 있지 않은 학습용 데이터를 준지도학습 또는 자기 학습(self-supervised) 방식으로 사전 학습(pre-training)하여 제1 태스크를 갖는 사전 학습된(pre-trained) 모델(또는 베이스부)을 얻고, 사전 학습된 모델을 제2 태스크에 적합하도록 fine-tuning하기 위해, 라벨링된 학습용 데이터를 지도학습 방식으로 학습시켜서 타겟으로 하는 모델을 구현하는 학습 방식을 나타낸다. 이러한 전이학습 방식으로 학습된 모델 중 하나로서, BERT(Bidirectional Encoder Representations from Transformers) 등이 있는데, 다만 이에 한정되는 것은 아니다.

전술한 딥 뉴럴 네트워크를 포함하여서, 뉴럴 네트워크는 출력의 오류를 최소화하는 방향으로 학습될 수 있다. 뉴럴 네트워크의 학습에서는, 반복적으로 학습 데이터를 뉴럴 네트워크에 입력시키고 학습 데이터에 대한 뉴럴 네트워크의 출력과 타겟의 에러를 계산하고, 에러를 줄이기 위한 방향으로 뉴럴 네트워크의 에러를 뉴럴 네트워크의 출력 레이어에서부터 입력 레이어 방향으로 역전파(backpropagation)하여 뉴럴 네트워크의 각 노드의 가중치를 업데이트 하는 과정이 수행될 수 있다.

한편, 일 실시예에서 개시되는 모델은 트랜스포머의 적어도 일부분을 차용할 수 있다. 트랜스포머는 임베딩된 데이터들을 인코딩하는 인코더 및 인코딩된 데이터들을 디코딩하는 디코더로 구성될 수 있다. 트랜스포머는 일련의 데이터들을 수신하여, 인코딩 및 디코딩 단계를 거처 상이한 타입의 일련의 데이터들을 출력하는 구조를 지닐 수 있다. 일 실시예에서, 일련의 데이터들은 트랜스포머가 연산가능한 형태로 가공될 수 있다. 일련의 데이터들을 트랜스포머가 연산가능한 형태로 가공하는 과정은 임베딩 과정을 포함할 수 있다. 데이터 토큰, 임베딩 벡터, 임베딩 토큰 등과 같은 표현들은, 트랜스포머가 처리할 수 있는 형태로 임베딩된 데이터들을 지칭하는 것일 수 있다.

트랜스포머가 일련의 데이터들을 인코딩 및 디코딩하기 위하여, 트랜스포머 내의 인코더 및 디코더들을 어텐션(attention) 알고리즘을 활용하여 처리할 수 있다. 어텐션 알고리즘이란 주어진 쿼리(Query)에 대해, 하나 이상의 키(Key)에 대한 유사도를 구하고, 이렇게 주어진 유사도를, 각각의 키(Key)와 대응하는 값(Value)에 반영한 후, 유사도가 반영된 값(Value)들을 가중합하여 어텐션 값을 계산하는 알고리즘을 의미할 수 있다.

쿼리, 키 및 값을 어떻게 설정하느냐에 따라, 다양한 종류의 어텐션 알고리즘이 분류될 수 있다. 예를 들어, 쿼리, 키 및 값을 모두 동일하게 설정하여 어텐션을 구하는 경우, 이는 셀프-어텐션 알고리즘을 의미할 수 있다. 입력된 일련의 데이터들을 병렬로 처리하기 위해, 임베딩 벡터를 차원을 축소하여, 각 분할된 임베딩 벡터에 대해 개별적인 어텐션 헤드를 구하여 어텐션을 구하는 경우, 이는 멀티-헤드(multi-head) 어텐션 알고리즘을 의미할 수 있다.

일 실시예에서, 트랜스포머는 복수개의 멀티-헤드 셀프 어텐션 알고리즘 또는 멀티-헤드 인코더-디코더 알고리즘을 수행하는 모듈들로 구성될 수 있다. 일 실시예에서, 트랜스포머는 임베딩, 정규화, 소프트맥스(softmax) 등 어텐션 알고리즘이 아닌 부가적인 구성요소들 또한 포함할 수 있다. 어텐션 알고리즘을 이용하여 트랜스포머를 구성하는 방법은 Vaswani et al., Attention Is All You Need, 2017 NIPS에 개시된 방법을 포함할 수 있으며, 이는 본 명세서에 참조로 통합된다.

트랜스포머는 임베딩된 자연어, 분할된 이미지 데이터, 오디오 파형 등 다양한 데이터 도메인에 적용하여, 일련의 입력 데이터를 일련의 출력 데이터로 변환할 수 있다. 다양한 데이터 도메인을 가진 데이터들을 트랜스포머에 입력가능한 일련의 데이터들로 변환하기 위해, 트랜스포머는 데이터들을 임베딩할 수 있다. 트랜스포머는 일련의 입력 데이터 사이의 상대적 위치관계 또는 위상관계를 표현하는 추가적인 데이터를 처리할 수 있다. 또는 일련의 입력 데이터에 입력 데이터들 사이의 상대적인 위치관계 또는 위상관계를 표현하는 벡터들이 추가적으로 반영되어 일련의 입력 데이터가 임베딩될 수 있다. 일 예에서, 일련의 입력 데이터 사이의 상대적 위치관계는, 자연어 문장 내에서의 어순, 각각의 분할된 이미지의 상대적 위치 관계, 분할된 오디오 파형의 시간 순서 등을 포함할 수 있으나, 이에 제한되지 않는다. 일련의 입력 데이터들 사이의 상대적인 위치관계 또는 위상관계를 표현하는 정보를 추가하는 과정은 위치 인코딩(positional encoding)으로 지칭될 수 있다.

이하, 프로세서(130)에 의해 메모리(120)에 저장된 적어도 하나의 명령어가 실행됨으로써, 치과용 음성 인식 장치(100)가 수행할 수 있는 다양한 동작 내지 기능 등에 대해 살펴보기로 하자.

우선, 프로세서(130)는 통신부(110)를 제어할 수 있다. 이를 통해 치과용 음성 인식 장치(100)는 통신부(110)를 통해 도 2에 도시되어 있는 사용자 단말(200)과 통신을 수행해서 정보를 획득할 수 있다.

또한 프로세서(130)는 메모리(120)에 저장되어 있는 전술한 데이터나 명령어를 읽어들일 수 있고, 메모리(120)에 새로운 데이터나 명령어를 기록할 수 있다. 또한, 프로세서(130)는 이미 기록되어 있는 데이터나 명령어를 수정하거나 삭제할 수 있다.

또한, 프로세서(130)는 메모리(120)에 저장되어 있는 다양한 모델이나 모듈을 실행시킬 수 있다. 여기서, 이러한 모델이나 모듈은 전술한 인공신경망 방식 또는 룰 기반 방식으로 구현된 것일 수 있다. 보다 구체적으로, 치과용 음성 인식 장치(100)에서는 프로세서(130)에 의해, 메모리(120)에 저장 내지 구현되어 있는 도 1에 도시되어 있는 치과 전용 STT 모델(이하, STT 모델이라고 지칭)이 실행될 수 있다. 이하, 이러한 STT 모델에 대해 살펴보자.

일 실시예에 따른 STT 모델은 트랜스포머에 의해 구현될 수 있다. 더욱 구체적으로, STT 모델은 시퀀스-투-시퀀스 트랜스포머에 의해 구현될 수 있다. 시퀀스-투-시퀀스 트랜스포머는 통상적인 트랜스포머에 비해 디코더 부분에 디코더-인코더 어텐션이 이용되는 것이 상이하다.

이러한 STT 모델의 아키텍쳐는 도 5에 예시적으로 도시되어 있다. 도 5를 참조하면, STT 모델은 인코딩부(122)와 디코딩부(123)를 포함하도록 구현된다. 이 중 인코딩부(122)는 음성과 소음을 포함하는 사운드, 즉 noisy waveform을 입력받아서 인코딩하도록 구현된다. 아울러, 디코딩부(123)는 인코딩부(122)로부터 인코딩 벡터를 제공받아서 스크립트와 같은 텍스트로 변환하여 출력하도록 구현된다. 즉, 전술한 사운드가 인코딩부(122)에 제공되면, 인코딩부(122)에서는 인코딩 벡터가 생성된다. 그리고 인코딩 벡터는 디코딩부(123)에 제공되며, 디코딩부(123)에서는 사운드에 포함된 음성에 대한 스크립트가 출력된다.

한편, 일 실시예에 따른 STT 모델은 도 5에 도시된 아키텍쳐의 형태로만 구현될 수 있는 것은 아니다. 예컨대, STT 모델은 도 6에 도시된 아키텍쳐의 형태로 구현될 수도 있다. 도 6을 참조하면, STT 모델은 크게 사운드 정제부(121), 인코딩부(122) 및 디코딩부(123)를 포함하도록 구현될 수 있다. 아울러, 이 때의 인코딩부(122)는 특징 추출부(1211,1212), 가중치 적용부(1213) 및 인코딩 벡터 생성부(1214)를 포함하도록 구현될 수 있으며, 다만 이에 한정되는 것은 아니다.

도 6을 좀더 구체적으로 살펴보자. 사운드 정제부(121)는 사운드에 포함되어 있는 소음을 정제하도록 동작한다. 이러한 사운드 정제부(121)는 speech enhancement를 수행하는 모델에 의해 구현 가능하다. speech enhancement란, 사운드에 포함되어 있는 음성 신호를 명료하게 하는 기술을 지칭한다.

이러한 speech enhancement에서는 다양한 기술이 이용될 수 있다. 예컨대 speech enhancement에서는 스펙트럼 차감(spectrum subtraction), 와이너 필터링(Wiener Filtering) 및 적응 필터링(Adaptive Filtering) 중 적어도 하나가 수행될 수 있으며, 다만 이에 한정되는 것은 아니다.

이 중, 스펙트럼 차감은 전술한 사운드에서 백그라운드 노이즈를 제거하는 기술 중 하나이다. 구체적으로, 스펙트럼 차감이 적용되면, 음성 신호의 주파수 스펙트럼과 백그라운드 노이즈의 스펙트럼이 분석된 뒤, 노이즈가 존재하는 주파수 대역에서의 신호 성분이 감소된다. 이를 통해 백그라운드 노이즈가 저감될 수 있으며, 따라서 음성 신호가 명료해질 수 있다.

다음으로, 와이너 필터링 역시 전술한 사운드에서 노이즈를 제거하는 기술 중 하나이다. 구체적으로, 이 기술에서는 노이즈와 음성 신호의 통계적 특성이 분석된 뒤, 노이즈가 존재하는 부분이 제거되며, 따라서 음성 신호가 명료해질 수 있다. 이러한 와이너 필터링은 시간 도메인이나 주파수 도메인에서 적용될 수 있으며, 다른 필터링 기술과 함께 사용될 때 더욱 효과적이다.

마지막으로, 적응 필터링은 음성 신호에서 노이즈를 제거하고 신호의 품질을 향상시키기 위해 사용되는 기술 중 하나이다. 구체적으로, 이 기술에서는 필터링의 가중치를 실시간으로 조정함으로써 노이즈와 음성 신호가 분리되며, 그 결과 노이즈가 용이하게 제거될 수 있다.

인코딩부(122)에는 음성과 소음을 포함하는 사운드가 제공될 뿐만 아니라, 상기 사운드로부터 소음에 대한 정제 과정이 수행된 결과물이 제공된다. 즉, 일 실시예에 따른 인코딩부(122)에는 인식 대상인 사운드 그 자체 뿐만 아니라 소음이 정제된 사운드가 제공된다.

그러면, 이러한 인코딩부(122)에 포함된 특징 추출부(1211,1212) 각각에서는 특징이 추출된다. 보다 구체적으로 살펴보면, 소음 정제 과정이 수행되지 않은 사운드로부터 특징 추출부(1211)에 의해 특징이 추출될 수 있다. 또한, 소음 정제 과정이 수행된 사운드로부터 특징 추출부(1212)에 의해 특징이 추출될 수 있다. 물론, 도 6에 도시된 것과는 달리, 인코딩부(122)에는 특징 추출부가 1개 포함되어 있을 수도 있는데, 이 경우에는 1개의 특징 추출부에 의해 전술한 소음 정제 과정이 수행되지 않은 사운드 및 소음 정제 과정이 수행된 사운드 각각으로부터 특징이 추출될 수 있다.

이렇게 추출된 2개의 특징은 서로 상이할 수 있다. 왜냐하면, 1개의 특징은 소음 정제 과정이 수행된 사운드로부터 추출된 것인 반면, 다른 1개의 특징은 소음 정제 과정이 수행되지 않은 사운드로부터 추출된 것이기 때문이다. 이러한 2개의 특징을 주파수를 기준으로 비교해보면, 동일한 부분과 동일하지 않은 부분이 있을 수 있다. 동일한 부분은 소음에 영향을 받지 않거나 상대적으로 덜 받은 부분일 것이고, 동일하지 않은 부분은 소음에 영향을 받은 상대적으로 많이 받은 부분일 것이다. 추후, 이렇게 동일한 부분과 동일하지 않은 부분은 feature sharing이라는 학습 과정에 활용될 수 있다.

여기서, 특징 추출부(1211,1212)에 대해 좀더 자세하게 살펴보기로 하자. 특징 추출부(1211,1212)는 전술한 바와 같이 사운드를 입력받는다. 그러면 특징 추출부(1211,1212)에서는 이렇게 입력받은 사운드가 스펙트로그램(spectrogram)으로 변환된다. 즉, 특징 추출부(1211,1212)에서는 사운드가 주파수 영역으로 변환된다. 변환에는 Short-Time Fourier Transform(STFT)와 같은 기술이 사용될 수 있으며, 다만 이에 한정되는 것은 아니다. 이후, 이렇게 변환된 스펙트로그램으로부터 특징이 추출된다. 특징의 추출에서는 합성곱 신경망(Convolutional Neural Network, CNN)에서 이용되는 feature extraction 기술이 이용될 수 있으며, 다만 이에 한정되는 것은 아니다.

한편, 전술한 2개의 특징은 가중치 적용부(1213)에 제공된다. 그러면, 가중치 적용부(1213)에서는 이러한 2개의 특징에 대한 가중 평균이 연산된다. 구체적으로, 가중치 적용부(1213)에서는 2개의 특징 중 유사한 부분은 상대적으로 강조되도록 그리고 유사하지 않은 부분은 상대적으로 강조되지 않도록 가중치가 결정될 수 있다. 즉, 가중치는 유사한 부분에는 더욱 높은 값으로 결정되고 유사하지 않은 부분에는 더욱 낮은 값으로 결정될 수 있다. 이를 통해, 2개의 특징 중 중요한 부분은 부각될 수 있으며, 중요하지 않은 부분은 제거되거나 희미해질 수 있다.

이러한 가중치 적용부(1213)에 의해, 큰 소음이 존재하더라도 음성과 소음이 확실하게 분리될 수 있다. 즉, 이에 의해, 일 실시예에서의 STT 모델은 높은 음성 인식률을 가질 수 있다. 여기서 이러한 가중치 적용부(1213)가 가중치를 결정하고 적용하는 것은 attention fusion 기법에 의한 것일 수 있으며, 다만 이에 한정되는 것은 아니다.

가중치 적용부(1213)에서 연산된 가중 평균된 값은 인코딩 벡터 생성부(1214)에게 제공된다. 인코딩 벡터 생성부(1214)는 전술한 사운드, 즉 음성과 소음을 포함하는 사운드에서 소음이 제거되어 있는 잔여 부분에 대한 특징을 인코딩 벡터로서 생성해서 출력하도록 구현된다. 즉, 인코딩 벡터 생성부(1213)의 입력은 가중 평균된 값이고, 인코딩 벡터 생성부(1214)의 출력은 사운드에서 소음이 제거된 음성의 특징을 인코딩한 벡터, 즉 인코딩 벡터이다.

인코딩부(122)는 인코딩 벡터 생성부(1213)에서 생성하여 출력한 인코딩 벡터를 디코딩부(123)에게 제공한다. 그러면, 디코딩부(123)는 소정의 알고리즘을 이용해서, 인코딩 벡터로부터 스크립트와 같은 텍스트를 디코딩 과정을 통해 생성해서 출력한다. 여기서, 인코딩 벡터로부터 스크립트와 같은 텍스트를 디코딩 과정을 통해 생성해서 출력하는 과정 그 자체는 공지기술이므로, 이에 대한 자세한 설명은 생략하기로 한다.

즉, 일 실시예에 따르면, 음성과 소음을 포함하는 사운드 뿐 아니라 이러한 사운드가 정제된 결과물로부터 각각 특징이 추출되고, 이렇게 추출된 각각의 특징에 대한 가중 평균 결과가 도출되며, 이렇게 도출된 결과로부터 인코딩 벡터가 생성된 뒤에 텍스트로의 디코딩이 수행된다. 따라서, 소음이 상대적으로 큰 환경에서도 비교적 정확하게 음성이 인식될 수 있다. 즉, 높은 인식률을 갖는 치과용 STT 모델의 구현이 가능해진다.

이항에서는 이러한 STT 모델의 학습 과정에 대해 살펴보기로 하자.

도 7과 8 각각에는 일 실시예에 따란 STT 모델에 대한 학습 과정이 예시적으로 도시되어 있다. 다만, 도 7과 8은 예시적인 것에 불과한 바, STT 모델의 학습 과정이 도 7과 8에 도시된 것으로만 한정 해석되는 것은 아니다.

우선, STT 모델은 자기 지도 학습(self-supervised learning) 방식으로 학습된 것일 수 있다. 자기 지도 학습에서는 사전 학습(pre-training) 과정과 미세 조정(fine-tuning) 과정이 수행된다.

먼저, 사전 학습 과정에서는 학습용 데이터로서 범용 음성이 이용된다. 즉, 사전 학습 과정에 이용되는 학습용 데이터는 치과에서 획득된 음성만으로 한정되는 것은 아니며, 일상에서 획득 가능한 모든 종류의 음성이 이용될 수 있다.

도 7을 이용하여 이러한 사전 학습 과정에 대해 보다 구체적으로 살펴보도록 한다. 우선, 소음이 없는 범용 음성이 획득된다. 이는 도 7에 clean waveform이라고 도시되어 있다. 이러한 범용 음성은 일상에서 손쉽게, 복수 개 획득이 가능하다.

그리고 이러한 clean waveform에 소음을 가함으로써 noisy waveform을 형성한다. 소음의 형태는 다양할 수 있으며, 어느 하나로 한정되는 것은 아니다. 따라서, 하나의 범용 음성으로부터 무수히 많은 개수의 noisy waveform이 형성될 수 있다.

이렇게 사전 학습에 필요한 학습용 데이터셋이 마련된다. 학습용 데이터셋 중 학습용 입력 데이터는 noisy waveform이고, 학습용 정답 데이터는 clean waveform이다.

다음으로, 학습용 입력 데이터를 앞서 설명된 바 있는 사운드 정제부(121)에 제공한다. 그러면, noisy waveform을 대상으로 소음에 대한 정제 과정이 수행된다.

다음으로, 소음 정제 과정이 수행된 사운드 및 소음 정제 과정이 수행되지 않은 사운드 각각이 도 7에 도시되어 있는 인코딩부(122) 내의 특징 추출부(1211,1212) 각각에 제공된다. 특징 추출부(1211,1212)에서는 전술한 바와 같이 스펙트로그램으로의 변환 과정을 통해 특징이 추출된다.

다음으로, 각각의 특징 추출부(1211,1212)로부터 추출된 특징은 가중치 적용부(1213)에 제공된다. 그 결과 전술한 가중 평균 결과가 도출된다.

다음으로, 가중 평균 결과는 인코딩 벡터 생성부(1214)에 제공된다. 그러면, 전술한 바와 같이 인코딩 벡터가 생성된다.

한편, 학습용 정답 데이터로서의 clean waveform 역시 특징 추출부(1213)에 제공된다. 추출된 특징은 Vector quantization unit(1215)에 제공되고, 그로부터 벡터가 생성된다. 여기서 특징 추출부(1213)는 특징 추출부(1211,1212)와 동일한 기능을 수행하는 것일 수 있다. 그리고 Vector quantization unit(1215)은 특징 추출부(1213)에서 추출된 특징을 벡터로 변환하는 unit일 수 있다.

그러면, 인코딩 벡터 생성부(1214)에서 생성된 인코딩 벡터와 Vector quantization unit(1215)에서 생성된 벡터 간의 차이가 최소화가 되도록, 사운드 정제부(121), 특징 추출부(1211,1212), 가중치 적용부(1213) 및 인코딩 벡터 생성부(1214) 중 적어도 하나가 학습될 수 있다. 학습에는 역전파 방식이 이용될 수 있으며, 다만 이에 한정되는 것은 아니다. 이 때, 전술한 차이는 contrastive loss, 즉 대조 손실일 수 있다. 즉, 학습 과정에서는 이러한 대조 손실이 최소가 되도록 학습될 수 있다.

여기서, 이러한 학습이 self-supervised learning이라고 지칭되는 이유는, 범용 음성에 소음을 가해서 무수히 많은 학습용 데이터셋이 만들어지는데, 이러한 학습용 데이터셋이 학습에 이용되기 때문이다. 여기서, 소음은 일종의 마스킹(masking) 역할을 한다. 즉, 사전 학습에서는, 소음과 같은 Masking에도 불구하고 음성에 대한 벡터를 정확히 추출하도록 학습이 수행된다.

다음으로, 미세 조정 과정에 대해 도 8을 참조하여 살펴보자. 사전 학습 과정에서 범용 음성에 의해 인코딩부(122) 및 사운드 정제부(121) 중 적어도 하나가 학습되고나면, 이후에는 치과 전용 STT 모델을 타겟으로 하여, 치과 전용 사운드가 미세 조정을 위해 이용된다. 이미 범용 음성으로 사전 학습이 수행되었으므로, 원하는 인식률을 달성하기 위해 필요한 치과용 사운드의 개수, 즉 학습용 데이터의 개수는 많을 필요가 없다.

미세 조정을 위한 학습용 데이터로서, 학습용 입력 데이터는 치과에서 발생된 사운드를 포함한다. 이러한 사운드는 치과 치료 중에 발생된 것일 수 있으며, 구체적으로는 치과 치료 중에 발생된 음성과 소음을 포함할 수 있다. 그리고, 학습용 정답 데이터는 이러한 음성에 대한 스크립트와 같은 텍스트일 수 있다.

도 8에 도시된 바와 같이, 학습용 입력 데이터로서 전술한 사운드가 제공된다. 그리고 학습용 정답 데이터로서 전술한 스크립트가 제공된다. 구체적으로, 전술한 사운드는 사운드 정제부(121)를 거쳐서 특징 추출부(1212)에게 제공되고, 사운드 정제부(121)를 거치지 않은 사운드가 특징 추출부(1211)에게 제공된다. 이후 도 8에 도시되어 있는 인코딩부(122)의 각 구성을 거쳐서 인코딩 벡터가 생성된다. 이렇게 생성된 인코딩 벡터는 디코딩부(123)에 제공된다. 디코딩부(123)에서는 디코딩 과정을 통해 스크립트가 생성된다. 그러면, 이렇게 생성된 스크립트는 학습용 정답 데이터인 스크립트와 비교된다. 비교 결과, 그 차이가 최소가 되도록 사운드 정제부(121), 인코딩부(122)의 각 구성 및 디코딩부(123) 중 적어도 하나가 학습된다. 이 때의 차이는 CTC(Connectionist Temporal Classification) 손실이라고 지칭될 수 있다.

한편, 도 5와 도 6에는 도시되어 있지 않지만, 디코딩부(123)에는 단어 보정 모델이 포함될 수 있다. 이러한 단어 보정 모델은, 입력된 단어가 사전(dictionary)에 없는 단어인 경우, 이러한 단어를 사전(dictionary)에 등재되어 있는 단어 중 어느 하나로 추천하도록 학습된 모델이다. 예컨대, 사전에 없는 단어를 포함해서 연속해서 n개(여기서, n은 자연수)의 단어가 단어 보정 모델에 입력될 수 있다. 그러면, 이러한 단어 보정 모델은 사전에 없는 단어를 사전에 있는 단어 중 어느 하나로 추천해서 출력한다. 그러면, 스크립트에 포함된 사전에 없는 단어는 사전에 있는 단어로 대체될 수 있다.

여기서, 이러한 단어 보정 모델은 지도 학습 방식으로 학습된 것일 수 있다. 학습을 위해, 학습용 입력 데이터는 사전에 없는 단어를 포함하는 n개의 단어의 세트를 복수 개 포함할 수 있다. 그리고, 학습용 정답 데이터는 사전에 없는 단어가 대체된, 사전에 있는 단어를 복수 개 포함할 수 있다.

여기서, 사전에 없는 단어는 임의로 생성될 수 있다. 예컨대 단어를 구성하는 음절 중 하나를 누락시키는 방법, 자음을 바꾸는 방법, 모음을 바꾸는 방법 등 다양한 방법에 의해 사전에 없는 단어는 생성될 수 있다.물론, 이렇게 생성된 뒤 사전에 실제로 존재하는지 여부가 조사되어야 함은 물론이다.

아울러, 전술한 숫자 'n'은 다양한 수일 수 있으며, 예컨대 3일 수 있으나 다만 이에 한정되는 것은 아니다.

한편, 전술한 치과용 음성 인식 장치(100)는 서버에서 구현되는 것을 전제로, 사용자 단말(200)에서 인식된 음성이 이러한 치과용 음성 인식 장치(100)에 제공되는 것으로 전제로 설명되었으나, 본 발명의 사상이 이에 한정되는 것은 아니다. 예컨대, 전술한 치과용 음성 인식 장치(100)는 사용자 단말(200)에서 구현될 수도 있다. 이 경우, 치과 전용 STT 모델은 사용자 단말(200)에 포함된 메모리에 구현될 수 있으며, 이러한 사용자 단말(200)에 포함된 프로세서의 실행에 의해 구동됨으로써, 전술한 것과 동일한 성능의 STT 모델이 구현될 수도 있다.

지금까지는 일 실시예에 따른 치과용 음성 인식 장치(100)에 대해 살펴보았다. 이하에서는, 이러한 치과용 음성 인식 장치(100)에 의해 수행되는 치과용 음성 인식 방법에 대해 살펴보기로 한다.

먼저, 도 9에는 일 실시예에 따른 치과용 음성 인식 방법에 대한 순서도가 예시적으로 도시되어 있다. 여기서, 이러한 순서도는 예시적인 것에 불과한 바, 본 발명의 사상이 이에 한정되는 것은 아니다. 예컨대 실시예에 따라 도 9에 도시된 것과는 상이한 순서로 각 단계가 수행될 수 있으며, 또는 도 9에 도시되지 않은 적어도 하나의 단계가 추가적으로 수행되거나 또는 도 9에 도시된 단계 중 적어도 하나가 수행되지 않을 수도 있다.

도 9를 참조하면, 치과 치료 중에 발생된 소음 및 음성을 포함하는 사운드를 획득하는 단계(S100)가 수행된다.

또한, 상기 획득된 사운드를 대상으로 상기 소음에 대한 정제 과정을 수행하는 단계(S110)가 수행된다.

또한, 상기 정제 과정이 수행되지 않은 사운드 및 상기 정제 과정이 수행된 사운드 각각을 대상으로 특징을 추출하는 과정, 상기 추출된 각각의 특징에 소정의 가중치를 적용하고 가공하여서 인코딩 벡터를 획득하는 과정 및 상기 획득된 인코딩 벡터를 디코딩하여서 상기 음성에 대한 스크립트를 획득하는 과정이 자기 지도 학습(self-supervised learning) 방식으로 학습된 STT(Speech To Text) 모델에 의해 수행된다.

여기서, 상기 자기 지도 학습에 포함된 미세 조정(fine-tuning) 과정에서는, 치과 치료 중에 발생된 소음 및 음성을 포함하는 복수 개의 사운드 및 상기 복수 개의 사운드 각각에 대한 스크립트가 학습용 데이터로서 이용될 수 있다.

한편, 이러한 방법은 전술한 치과용 음성 인식 장치(100)에 의해 수행되는 것인 바, 중복되는 설명은 생략하기로 한다.

한편, 전술한 다양한 실시예들에 따른 방법은 이러한 방법의 각 단계를 수행하도록 프로그램된 컴퓨터 판독가능한 기록매체에 저장된 컴퓨터 프로그램의 형태로 구현 가능하고, 또한 이러한 방법의 각 단계를 수행하도록 프로그램된 컴퓨터 프로그램을 저장하는 컴퓨터 판독가능한 기록매체의 형태로 구현될 수도 있다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 품질에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100 : 치과용 음성 인식 장치

Claims

적어도 하나의 명령어를 저장하는 메모리; 및
프로세서를 포함하며,
상기 적어도 하나의 명령어가 상기 프로세서에 의해 실행됨으로써,
치과 치료 중에 발생된 소음 및 음성을 포함하는 사운드가 획득되고,
상기 소음에 대한 정제 과정이 상기 획득된 사운드를 대상으로 수행되며,
상기 정제 과정이 수행되지 않은 사운드 및 상기 정제 과정이 수행된 사운드 각각을 대상으로 특징을 추출하는 과정, 상기 추출된 각각의 특징에 소정의 가중치를 적용하고 가공하여서 인코딩 벡터를 획득하는 과정 및 상기 획득된 인코딩 벡터를 디코딩하여서 상기 음성에 대한 스크립트를 획득하는 과정이 STT(Speech To Text) 모델에 의해 수행되되,
상기 STT 모델의 학습에 포함된 미세 조정(fine-tuning) 과정에서는,
치과 치료 중에 발생된 소음 및 음성을 포함하는 복수 개의 사운드 및 상기 복수 개의 사운드 각각에 대한 스크립트가 학습용 데이터로서 이용되고,
상기 STT 모델의 인코딩부에 대한 사전 학습 과정에서는,
학습용 입력 데이터로서 음성과 소음을 포함하는 사운드가 이용되고 학습용 정답 데이터로서 음성을 포함하는 사운드가 이용되되,
상기 인코딩부에 대한 사전 학습 과정에서는,
상기 학습용 입력 데이터로서 음성과 소음을 포함하는 사운드에 대한 정제 과정이 수행되고,
상기 정제 과정이 수행되지 않은 학습용 입력 데이터로서의 사운드 및 상기 정제 과정이 수행된 학습용 입력 데이터로서의 사운드 각각을 대상으로 특징을 추출하는 과정이 수행되며,
상기 정제 과정이 수행되지 않은 학습용 입력 데이터로서의 사운드로부터 추출된 특징 및 상기 정제 과정이 수행된 학습용 입력 데이터로서의 사운드로부터 추출된 특징에 소정의 가중치를 적용하고 가공하여서 학습용 인코딩 벡터를 획득하는 과정이 수행되고,
상기 학습용 인코딩 벡터와 상기 학습용 정답 데이터인 상기 음성을 포함하는 사운드로부터 추출된 특징 벡터 간의 차이가 최소화되도록 학습이 수행되는
치과용 음성 인식 장치.
제 1 항에 있어서,
상기 정제 과정은,
speech enhancement를 수행하는 모델에 의해 수행되는
치과용 음성 인식 장치.
제 1 항에 있어서,
상기 정제 과정에서는,
스펙트럼 차감(spectrum subtraction), 와이너 필터링(Wiener Filtering) 및 적응 필터링(Adaptive Filtering) 중 적어도 하나가 수행되는
치과용 음성 인식 장치.
제 1 항에 있어서,
상기 특징을 추출하는 과정에는,
상기 정제 과정이 수행되지 않은 사운드 및 상기 정제 과정이 수행된 사운드 각각을 스펙트로그램(spectrogram)으로 변환하는 과정; 및
상기 각각의 스펙트로그램으로부터 특징을 합성곱 신경망을 이용해서 추출하는 과정이 포함되는
치과용 음성 인식 장치.
제 1 항에 있어서,
상기 가중치는,
상기 정제 과정이 수행되지 않은 사운드 및 상기 정제 과정이 수행된 사운드 간에 상대적으로 유사한 부분에는 더 높은 값이 적용되는 반면, 상대적으로 유사하지 않은 부분에는 더 낮은 값이 적용되는
치과용 음성 인식 장치.
삭제
삭제
삭제
제 1 항에 있어서,
상기 학습용 인코딩 벡터와 상기 특징 벡터 간의 차이를 최소화시키는 학습에는, 대조 손실(contrastive loss)이 이용되는
치과용 음성 인식 장치.
제 1 항에 있어서,
상기 획득된 인코딩 벡터를 디코딩하여서 상기 음성에 대한 스크립트를 획득하는 과정은 상기 STT 모델에 포함된 디코딩부에 의해 수행되되,
상기 미세 조정 과정에서는,
상기 인코딩부에 상기 치과 치료 중에 발생된 소음 및 음성을 포함하는 복수 개의 사운드가 제공된 것에 대응해서 상기 디코딩부에서 출력되는 결과와 상기 학습용 데이터로서의 스크립트 간의 차이가 최소화되도록 학습이 수행되는
치과용 음성 인식 장치.
제 10 항에 있어서,
상기 디코딩부에서 출력되는 결과와 상기 학습용 데이터로서의 스크립트 간의 차이를 최소화시키는 학습에는, CTC(Connectionist Temporal Classification) 손실이 이용되는
치과용 음성 인식 장치.
제 1 항에 있어서,
상기 적어도 하나의 명령어가 상기 프로세서에 의해 수행됨으로써,
상기 스크립트에 사전(dictionary)에 없는 단어가 포함되어 있으면, 기 학습된 단어 보정 모델에 상기 단어를 포함하는 연속된 3개의 단어가 제공되고, 상기 사전에 없는 단어는 상기 단어 보정 모델에 의해 보정된 단어로 대체되는
치과용 음성 인식 장치.
치과용 음성 인식 장치가 수행하는 치과용 음성 인식 수행 방법으로서,
치과 치료 중에 발생된 소음 및 음성을 포함하는 사운드를 획득하는 단계;
상기 획득된 사운드를 대상으로 상기 소음에 대한 정제 과정을 수행하는 단계; 및
상기 정제 과정이 수행되지 않은 사운드 및 상기 정제 과정이 수행된 사운드 각각을 대상으로 특징을 추출하는 과정, 상기 추출된 각각의 특징에 소정의 가중치를 적용하고 가공하여서 인코딩 벡터를 획득하는 과정 및 상기 획득된 인코딩 벡터를 디코딩하여서 상기 음성에 대한 스크립트를 획득하는 과정이 STT(Speech To Text) 모델에 의해 수행되는 단계를 포함하되,
상기 STT 모델의 학습에 포함된 미세 조정(fine-tuning) 과정에서는,
치과 치료 중에 발생된 소음 및 음성을 포함하는 복수 개의 사운드 및 상기 복수 개의 사운드 각각에 대한 스크립트가 학습용 데이터로서 이용되고,
상기 STT 모델의 인코딩부에 대한 사전 학습 과정에서는,
학습용 입력 데이터로서 음성과 소음을 포함하는 사운드가 이용되고 학습용 정답 데이터로서 음성을 포함하는 사운드가 이용되되,
상기 인코딩부에 대한 사전 학습 과정에서는,
상기 학습용 입력 데이터로서 음성과 소음을 포함하는 사운드에 대한 정제 과정이 수행되고,
상기 정제 과정이 수행되지 않은 학습용 입력 데이터로서의 사운드 및 상기 정제 과정이 수행된 학습용 입력 데이터로서의 사운드 각각을 대상으로 특징을 추출하는 과정이 수행되며,
상기 정제 과정이 수행되지 않은 학습용 입력 데이터로서의 사운드로부터 추출된 특징 및 상기 정제 과정이 수행된 학습용 입력 데이터로서의 사운드로부터 추출된 특징에 소정의 가중치를 적용하고 가공하여서 학습용 인코딩 벡터를 획득하는 과정이 수행되고,
상기 학습용 인코딩 벡터와 상기 학습용 정답 데이터인 상기 음성을 포함하는 사운드로부터 추출된 특징 벡터 간의 차이가 최소화되도록 학습이 수행되는
치과용 음성 인식 방법.
제 13 항에 있어서,
상기 정제 과정은,
speech enhancement를 수행하는 모델에 의해 수행되는
치과용 음성 인식 방법.
제 13 항에 있어서,
상기 정제 과정에서는,
스펙트럼 차감(spectrum subtraction), 와이너 필터링(Wiener Filtering) 및 적응 필터링(Adaptive Filtering) 중 적어도 하나가 수행되는
치과용 음성 인식 방법.
제 13 항에 있어서,
상기 특징을 추출하는 과정에는,
상기 정제 과정이 수행되지 않은 사운드 및 상기 정제 과정이 수행된 사운드 각각을 스펙트로그램(spectrogram)으로 변환하는 과정; 및
상기 각각의 스펙트로그램으로부터 특징을 합성곱 신경망을 이용해서 추출하는 과정이 포함되는
치과용 음성 인식 방법.
제 13 항에 있어서,
상기 가중치는,
상기 정제 과정이 수행되지 않은 사운드 및 상기 정제 과정이 수행된 사운드 간에 상대적으로 유사한 부분에는 더 높은 값이 적용되는 반면, 상대적으로 유사하지 않은 부분에는 더 낮은 값이 적용되는
치과용 음성 인식 방법.
삭제
삭제
제 13 항에 따른 방법에 포함된 각 단계를 수행하도록 프로그램된 컴퓨터 판독가능한 기록매체에 포함된 컴퓨터 프로그램.