KR20230013826A - 인공 지능 모델을 이용하여 음성 인식 서비스를 제공하는 장치 및 방법 - Google Patents

인공 지능 모델을 이용하여 음성 인식 서비스를 제공하는 장치 및 방법 Download PDF

Info

Publication number
KR20230013826A
KR20230013826A KR1020210094768A KR20210094768A KR20230013826A KR 20230013826 A KR20230013826 A KR 20230013826A KR 1020210094768 A KR1020210094768 A KR 1020210094768A KR 20210094768 A KR20210094768 A KR 20210094768A KR 20230013826 A KR20230013826 A KR 20230013826A
Authority
KR
South Korea
Prior art keywords
character string
electronic device
reliability level
voice
audio signal
Prior art date
Application number
KR1020210094768A
Other languages
English (en)
Inventor
이희승
김병헌
박수영
박하은
김동윤
Original Assignee
울산과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 울산과학기술원 filed Critical 울산과학기술원
Priority to KR1020210094768A priority Critical patent/KR20230013826A/ko
Priority to PCT/KR2021/011523 priority patent/WO2023003072A1/ko
Publication of KR20230013826A publication Critical patent/KR20230013826A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Abstract

본 개시는 인공 지능 모델을 이용하여 음성 인식 서비스를 제공하는 방법 및 이를 수행하는 전자 장치에 관한 것이다. 일 실시 예에 의하면, 전자 장치가 인공 지능 모델을 이용하여 음성 인식 서비스를 제공하는 방법은 사용자 음성 신호를 포함하는 오디오 신호를 획득하는 단계; 상기 획득된 오디오 신호를 전처리하는 단계; 상기 전처리된 오디오 신호가 입력되면 상기 음성 신호에 대응되는 문자열을 출력하는 인공 지능 모델에 상기 전처리된 오디오 신호를 입력함으로써, 상기 음성 신호에 대응되는 문자열을 획득하는 단계; 상기 인공 지능 모델로부터 획득되는 상기 문자열에 대한 정확도 정보에 기초하여, 상기 문자열에 대한 신뢰도 수준을 결정하는 단계; 및 상기 문자열 및 상기 신뢰도 수준을 함께 출력하는 단계; 를 포함할 수 있다.

Description

인공 지능 모델을 이용하여 음성 인식 서비스를 제공하는 장치 및 방법 {METHOD AND DEVICE FOR PROVIDING VOICE RECOGNITION SERVICE USING ARTIFICIAL INTELLIGENCE MODEL}
본 개시는 음성 인식 서비스를 제공하는 장치 및 방법에 관한 것이다. 보다 상세하게는, 음성 인식 정확도를 기반으로 음성 인식 서비스를 제공하는 전자 장치 및 방법에 관한 것이다.
인공 지능 시스템은 인공 지능 학습 알고리즘에 의해 기계가 스스로 학습하고 판단하는 시스템이다. 인공 지능 모델을 이용하여 음성 인식 서비스를 제공하기 위한 기술들이 활발하게 연구되고 있다.
일반적으로 음성 인식 문자열 변환 과정에서 오탈자를 검토하는 과정은 불완전한 음성 인식 기술 때문에 불가피하다. 따라서, 음성 인식 문자열 변환 결과에 대한 정확도를 향상하기 위한 기술 개발이 연구되고 있다.
일부 음성 인식 서비스 기술들은 음성 인식 결과에 대한 문법 또는 맞춤법적 수정안을 제안하나, 그 정확도에 한계가 있으며, 음성 인식 결과의 정확도를 기반으로 음성 인식 결과에 대한 문법 또는 맞춤법적 수정안을 제안하지 않는다.
따라서, 음성 인식 결과의 정확도를 기반으로 음성 인식 서비스를 제공하는 기술 개발이 요구되고 있다.
일 실시 예에 따르면, 인공 지능 모델을 이용하여 음성 인식 서비스를 제공하는 방법 및 이를 수행하는 전자 장치가 제공될 수 있다.
또한, 일 실시 예에 의하면, 음성 인식 결과의 정확도에 기초하여 음성 인식 결과에 대한 신뢰도 수준을 결정하고, 결정된 신뢰도 수준을 음성 인식 결과와 함께 제공하는 음성 인식 서비스를 제공하는 방법 및 이를 수행하는 전자 장치가 제공될 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 일 실시 예에 의하면, 전자 장치가 인공 지능 모델을 이용하여 음성 인식 서비스를 제공하는 방법은 사용자 음성 신호를 포함하는 오디오 신호를 획득하는 단계; 상기 획득된 오디오 신호를 전처리하는 단계; 상기 전처리된 오디오 신호가 입력되면 상기 음성 신호에 대응되는 문자열을 출력하는 인공 지능 모델에 상기 전처리된 오디오 신호를 입력함으로써, 상기 음성 신호에 대응되는 문자열을 획득하는 단계; 상기 인공 지능 모델로부터 획득되는 상기 문자열에 대한 정확도 정보에 기초하여, 상기 문자열에 대한 신뢰도 수준을 결정하는 단계; 및 상기 문자열 및 상기 신뢰도 수준을 함께 출력하는 단계; 를 포함할 수 있다.
상술한 기술적 과제를 달성하기 위한 또 다른 실시 예에 의하면, 인공 지능 모델을 이용하여 음성 인식 서비스를 제공하는 전자 장치에 있어서, 하나 이상의 인스트럭션을 저장하는 메모리; 및 상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서; 를 포함하고, 상기 적어도 하나의 프로세서는 사용자 음성 신호를 포함하는 오디오 신호를 획득하고, 상기 획득된 오디오 신호를 전처리하고, 상기 전처리된 오디오 신호가 입력되면 상기 음성 신호에 대응되는 문자열을 출력하는 인공 지능 모델에 상기 전처리된 오디오 신호를 입력함으로써, 상기 음성 신호에 대응되는 문자열을 획득하고, 상기 인공 지능 모델로부터 획득되는 상기 문자열에 대한 정확도 정보에 기초하여, 상기 문자열에 대한 신뢰도 수준을 결정하고, 상기 문자열 및 상기 신뢰도 수준을 함께 출력하는, 전자 장치가 제공될 수 있다.
또한, 상술한 기술적 과제를 달성하기 위한 또 다른 실시 예에 의하면, 전자 장치가 인공 지능 모델을 이용하여 음성 인식 서비스를 제공하는 방법에 있어서, 사용자 음성 신호를 포함하는 오디오 신호를 획득하는 단계; 상기 획득된 오디오 신호를 전처리하는 단계; 상기 전처리된 오디오 신호가 입력되면 상기 음성 신호에 대응되는 문자열을 출력하는 인공 지능 모델에 상기 전처리된 오디오 신호를 입력함으로써, 상기 음성 신호에 대응되는 문자열을 획득하는 단계; 상기 인공 지능 모델로부터 획득되는 상기 문자열에 대한 정확도 정보에 기초하여, 상기 문자열에 대한 신뢰도 수준을 결정하는 단계; 및 상기 문자열 및 상기 신뢰도 수준을 함께 출력하는 단계; 를 포함하는, 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체가 제공될 수 있다.
도 1은 일 실시 예에 따른, 전자 장치가 음성 인식 정확도에 기초하여 음성 인식 서비스를 제공하는 방법을 개략적으로 나타내는 도면이다.
도 2는 일 실시 예에 따른 전자 장치가 인공 지능 모델을 이용하여 음성 인식 서비스를 제공하는 방법의 흐름도이다.
도 3은 일 실시 예에 따른 전자 장치가 음성 인식 결과에 대한 신뢰도 수준에 기초하여 후순위 인식 문자열을 출력하는 방법의 흐름도이다.
도 4는 일 실시 예에 따른 전자 장치가 음성 인식 결과로써 문자열, 타임라인 및 후순위 인식 문자열을 출력하는 예를 설명하기 위한 도면이다.
도 5는 일 실시 예에 따른 전자 장치가 음성 인식 서비스를 제공하는 다양한 예를 설명하기 위한 도면이다.
도 6은 일 실시 예에 따른 전자 장치가 음성 인식결과로써 문자열, 타임라인 및 후순위 인식 문자열을 출력하는 예를 설명하기 위한 도면이다.
도 7은 일 실시 예에 따른 전자 장치의 블록도이다.
도 8은 또 다른 실시 예에 따른 전자 장치의 블록도이다.
도 9는 또 다른 실시 예에 따른 전자 장치가 음성 인식 서비스를 제공하는 과정을 설명하기 위한 도면이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 개시에 대해 구체적으로 설명하기로 한다.
본 개시에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
아래에서는 첨부한 도면을 참고하여 본 개시의 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
도 1은 일 실시 예에 따른, 전자 장치가 음성 인식 정확도에 기초하여 음성 인식 서비스를 제공하는 방법을 개략적으로 나타내는 도면이다.
일 실시 예에 의하면, 전자 장치(1000)는 사용자(10)로부터 사용자 음성 신호(102)를 포함하는 오디오 신호(104)를 획득하고, 인공 지능 모델(160)을 이용하여, 상기 획득된 오디오 신호(104)에 대한 음성 인식을 수행함으로써, 문자열(182)을 출력할 수 있다. 본 개시에 따른 전자 장치(1000)는 음성 인식 서비스를 제공하기 위해 인공 지능 모델을 이용할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)가 이용하는 인공 지능 모델은 자동 음성 인식 ASR(Automatic Speech Recognition) 모델, 음향 모델, 또는 언어 모델 중 적어도 하나를 포함할 수 있다. 예를 들어, 전자 장치(1000)가 이용하는 인공 지능 모델은 자동 음성 인식 모델로써 입력된 사용자 음성을 텍스트 문자열로 변환할 수 있다.
또한, 일 실시 예에 의하면, 음향 모델은 입력된 사용자 음성 신호의 기 설정된 단위(예컨대 음절 또는 음소 (phonemes) 단위)가 나타내는 음향(acoustic) 특징을 식별함으로써 사용자 음성 신호에 대응되는 음성 정보를 출력한다. 전자 장치(1000)는 음향 모델에서 음성 정보를 획득함과 함께, 음향 모델로부터 상기 사용자 음성 신호가 상기 출력된 음성 정보에 대응될 확률 값을 출력할 수 있다.
또한, 일 실시 예에 의하면 언어 모델은 상기 음향 모델에서 출력된 음성 정보들 중 적어도 하나를 이용하여, 복수의 단어 시퀀스들 중, 가장 높은 확률 값에 대응되는 후보 문자열을 출력할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)가 이용하는 언어 모델은 적어도 하나의 모델을 포함할 수도 있다. 예를 들어, 전자 장치(1000)가 이용하는 인공 지능 모델이 적어도 하나의 언어 모델을 포함하는 경우, 전자 장치(1000)는 각 언어 모델에서 출력된 후보 문자열들 중, 가장 빈도수가 높은 후보 문자열을, 음성 인식 결과값으로써 출력할 수도 있다.
일 실시 예에 의하면, 전자 장치(1000)는 하나 이상의 인스트럭션을 저장하는 메모리(120) 및 상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서(140)를 포함하고, 상기 하나 이상의 인스트럭션을 실행하는 상기 프로세서(140)의 제어에 의해 음성 인식 서비스를 제공할 수 있다. 또한, 일 실시 예에 의하면, 전자 장치(1000)가 이용하는 인공 지능 모델은 CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks)를 더 포함할 수도 있으나, 이에 한정되는 것은 아니며, 기타 오디오 신호를 학습하기 위한 신경망 모델일 수도 있다.
전자 장치(1000)가 이용하는 인공 지능 모델은 사용자 음성을 포함하는 오디오 신호에 포함된 사용자 음성을 인식함으로써 사용자 음성을 텍스트 문자열로 변환할 수 있다. 그러나, 또 다른 실시 예에 의하면 전자 장치(1000)는 사용자 음성 신호에 대응되는 문자열(182)을 출력함과 함께 음성 인식 결과에 대한 신뢰도 수준(184), 타임 라인(186), 맞춤법 제안 정보(188) 또는 부가 정보(192) 중 적어도 하나를 출력할 수 있다.
예를 들어, 전자 장치(1000)는 인공 지능 모델(160)로부터 음성 인식 결과에 대한 문자열 정보를 획득함과 함께 음성 인식 결과인 문자열에 대한 정확도 정보를 더 획득하고, 획득된 정확도 정보에 기초하여 문자열에 대한 신뢰도 수준을 문자열과 함께 출력할 수 있다. 본 개시에 따른 전자 장치(1000)는 사용자 음성에 대한 음성 인식 결과로써 문자열만을 출력하는 것이 아니라, 문자열과 함께 신뢰도 수준에 대한 정보를 함께 출력함으로써, 음성 인식 결과의 품질을 향상시킬 수 있다. 본 개시에 따른 전자 장치(1000)를 사용하는 사용자는 음성 인식 결과에 대한 신뢰도 수준에 더하여, 타임 라인(186), 맞춤법 제안 정보(188) 또는 부가 정보(192) 중 적어도 하나를 더 획득함으로써 음성 인식 서비스를 사용하는 사용자의 편의를 향상시킬 수 있다.
예를 들어, 전자 장치 화면(162)를 참조하면, 본 개시에 따른 전자 장치(1000)는 사용자와 담당자의 음성을 인식함으로써 소정의 문자열들을 출력할 수 있다. 전자 장치(1000)는 사용자에 대한 음성 인식 결과로써 '안녕하세요. 클로바노트 서비스는 언제 사용하면 좋은 서비스인가요'와 같은 문자열을 출력함과 함께 '언제'와 같은 문자열의 인접한 위치에 신뢰도 수준(112)을 함께 표시함으로써 음성 인식 수준에 대한 신뢰도 정보를 사용자에게 제공할 수 있다. 또한, 전자 장치(1000)는 담당자의 음성을 인식함으로써 '특히 배경 소음이 적고 3명 이하의 대화 같은 정확하게 기록할 수 있어요'라는 문자열을 출력함과 함께 '대화 같은' 부분 문자열과 '정확하게'라는 부분 문자열 사이에 낮은 신뢰도 수준을 함께 표시함으로써, 사용자로 하여금 해당 부분에 음성 인식이 신뢰할 만한 수준으로 수행되지 않았음을 나타낼 수 있다.
일 실시 예에 의하면, 전자 장치(1000)는 서버(2000)와 연동함으로써 사용자 음성 인식 서비스를 제공할 수 있다. 예를 들어, 전자 장치(1000)는 사용자 음성을 포함하는 오디오 신호를 획득하고, 획득된 오디오 신호를 서버(2000)로 전송하며, 서버(2000)에 의해 수행된 음성 인식 결과에 대한 정보를 수신할 수도 있다. 그러나, 상술한 예에 한정되는 것은 아니며, 전자 장치(1000)는 서버(2000)와 연동함으로써 본 명세서에서 기재되는 음성 인식 서비스 중 적어도 일부를 수행할 수 있다.
일 실시 예에 따른 전자 장치(1000)는 AI 프로그램이 탑재되고 음성 인식 기능을 포함하는 스마트폰, PC, 휴대폰, PDA(personal digital assistant), 랩톱, 미디어 플레이어, 기타 모바일 또는 비모바일 컴퓨팅 장치일 수 있으나, 이에 제한되지 않는다. 또한, 일 실시 예에 의하면, 전자 장치(1000)와 연동되는 서버(2000)는 네트워크를 통하여 전자 장치(1000)와 연결될 수 있으며, 상기 네트워크는 근거리 통신망(Local Area Network; LAN), 광역 통신망(Wide Area Network; WAN), 부가가치 통신망(Value Added Network; VAN), 이동 통신망(mobile radio communication network), 위성 통신망 및 이들의 상호 조합을 포함할 수 있다. 전자 장치(1000)와 네트워크를 통하여 연결되는 서버(2000)는 본원 전자 장치(1000)와 통신 가능한 적어도 하나의 다른 전자 장치를 포함할 수 있다.
도 2는 일 실시 예에 따른 전자 장치가 인공 지능 모델을 이용하여 음성 인식 서비스를 제공하는 방법의 흐름도이다.
S210에서, 전자 장치(1000)는 사용자 음성 신호를 포함하는 오디오 신호를 획득할 수 있다. 예를 들어, 전자 장치(1000)는 적어도 하나의 마이크를 포함하고, 마이크를 통하여 사용자 음성을 포함하는 오디오 신호를 획득할 수 있다. S220에서, 전자 장치(1000)는 오디오 신호를 전처리할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 인공 지능 모델의 특성에 맞도록 획득된 오디오 신호의 포맷을 변환함으로써, 오디오 신호를 전처리할 수 있다. 또 다른 실시 예에 의하면, 전자 장치(1000)는 오디오 신호를 소정의 시퀀스로 분할함으로써, 오디오 신호를 전처리할 수도 있다.
S230에서, 전자 장치(1000)는 전처리된 오디오 신호가 입력되면 음성 신호에 대응되는 문자열을 출력하는 인공 지능 모델에, 상기 전처리된 오디오 신호를 입력함으로써 음성 신호에 대응되는 문자열을 획득할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)가 이용하는 인공 지능 모델은 적어도 하나의 언어 모델을 포함할 수 있다. 전자 장치(1000)는 전처리된 음성 신호에 대한 음성 정보들을 각 언어 모델에 입력하고, 각 언어 모델들로부터 후보 문자열들을 획득할 수 있다. 전자 장치(1000)는 적어도 하나의 언어 모델에서 출력된 후보 문자열들의 빈도수에 기초하여, 후보 문자열들 중 하나의 후보 문자열을, 최종 음성 인식 결과로써의 문자열로 획득할 수 있다.
S240에서, 전자 장치(1000)는 인공 지능 모델로부터 획득되는 문자열에 대한 정확도 정보에 기초하여, 문자열에 대한 신뢰도 수준을 결정할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)가 인공 지능 모델로부터 획득하는 정확도 정보는 인공 지능 모델의 음성 인식 과정에서 발생한 정보일 수 있다. 일 실시 예에 의하면, 전자 장치(1000)가 획득하는 문자열에 대한 정확도 정보는, 입력된 사용자 음성 신호가, 인공 지능 모델 내 음향 모델에서 출력된 음성 정보에 해당할 확률 값을 의미할 수 있다.
일 실시 예에 의하면, 전자 장치(1000)는 오디오 신호 내 사용자 음성 신호를 제외한 신호들의 강도에 관한 노이즈 강도를 측정할 수 있다. 또한, 전자 장치(1000)는 음향 모델로부터 상기 사용자 음성 신호가 음성 정보에 해당할 확률 값을 획득할 수 있다. 본 개시에 따른 전자 장치(1000)는 노이즈 강도 및 음성 정보에 해당할 확률 값을 정확도 정보로 획득할 수도 있다. 전자 장치(1000)는 정확도 정보에 기초하여 문자열에 대한 신뢰도 수준을 결정할 수 있다.
S250에서, 전자 장치(1000)는 인공 지능 모델로부터 획득된 문자열 및 상기 결정된 신뢰도 수준을 함께 출력할 수 있다. 예를 들어, 전자 장치(1000)는 인공 지능 모델로부터 획득되는 문자열 및 신뢰도 수준을 전자 장치의 화면상에 함께 표시할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 다양한 시각적 컨텐츠 또는 청각적 컨텐츠를 활용하여, 음성 인식 결과인 문자열과 함께 신뢰도 수준을 제공할 수 있다.
도 3은 일 실시 예에 따른 전자 장치가 음성 인식 결과에 대한 신뢰도 수준에 기초하여 후순위 인식 문자열을 출력하는 방법의 흐름도이다.
S310에서, 전자 장치(1000)는 신뢰도 수준 또는 상기 신뢰도 수준의 변화가 기 설정된 범위를 벗어나는지 여부를 식별할 수 있다. S320에서, 전자 장치(1000)는 신뢰도 수준 또는 상기 신뢰도 수준의 변화가 기 설정된 범위를 벗어나는 경우, 상기 기 설정된 범위를 벗어나는 것으로 식별되는 문자열에 대한 후순위 인식 문자열을 더 출력할 수 있다.
예를 들어, 전자 장치(1000)는 획득된 오디오 신호 내 사용자 음성 시퀀스 각각에 대한 문자열을 획득함과 함께 각 음성 시퀀스에 대한 음성 인식 수행 과정에서의 신뢰도 수준을 결정할 수 있다. 전자 장치(1000)는 음성 시퀀스 각각에 대한 신뢰도 수준이 기 설정된 제1 신뢰도 범위를 벗어나는 경우, 제1 신뢰도 범위를 벗어나는 것으로 식별된 음성 시퀀스에 대한 문자열을 표시함과 함께 상기 표시된 문자열에 인접한 위치에 후순위 인식 문자열들을 함께 출력할 수 있다.
그러나, 또 다른 실시 예에 의하면, 전자 장치(1000)는 음성 시퀀스 각각에 대한 신뢰도 수준이 아닌, 음성 시퀀스 각각에 대해 결정된 신뢰도 수준의 변화량을 식별하고, 식별된 변화량이 제2 신뢰도 범위를 벗어나는 경우, 상기 제2 신뢰도 범위를 벗어나는 것으로 식별되는 인접한 문자열들 각각에 대해, 후순위 인식 문자열들을 더 출력할 수도 있다.
도 4는 일 실시 예에 따른 전자 장치가 음성 인식 결과로써 문자열, 타임라인 및 후순위 인식 문자열을 출력하는 예를 설명하기 위한 도면이다.
도 4를 참조하면 일 실시 예에 따른 전자 장치(1000)가 제공하는 음성 인식 결과에 대한 컨텐츠가 도시된다. 예를 들어, 전자 장치(1000)는 사용자로부터 '음성 인식 하면 다 꺼'라는 음성 신호를 포함하는 오디오 신호를 획득할 수 있다. 전자 장치(1000)는 인공 지능 모델을 이용하여 '음성 인식 하면 다꺼'와 같은 문자열을 출력할 수 있다.
보다 상세하게는, 전자 장치(1000)는 인공 지능 모델 내 음향 모델에서 출력되는 사용자 음성이 음성 정보에 대응될 확률 값을 정확도 정보로 획득하고, 획득된 정확도 정보에 기초하여, 언어 모델의 출력 값(예컨대 문자열)에 대한 신뢰도 수준을 결정할 수 있다. 예를 들어, 전자 장치(1000)는 출력된 문자열 '하면'(405)과 '다 꺼'(404) 각각에 대해 제1 신뢰도 수준 및 제2 신뢰도 수준을 결정하고, 결정된 제1 신뢰도 수준 및 제2 신뢰도 수준이 소정의 임계치 이하인 경우, 신뢰도 수준이 낮은 것으로 결정할 수 있다. 전자 장치(1000)는 신뢰도 수준이 낮은 것으로 식별되는 문자열 '하면'(405)에 대한 타임 라인(401)을 표시함과 함께, '하면'(405)에 대한 후순위 인식 문자열들(406) (예컨대 '화면' 또는 '관련')을 신뢰도 수준이 낮은 것으로 식별되는 문자열 '하면'(405)에 인접한 위치에 출력할 수 있다. 또한, 전자 장치(1000)는 신뢰도 수준이 낮은 것으로 식별되는 문자열 '다 꺼'(404)에 대한 타임 라인(401)을 표시함과 함께, '다 꺼'(405)에 대한 후순위 인식 문자열들(408) (예컨대 '특허')을 신뢰도 수준이 낮은 것으로 식별되는 문자열 '다 꺼' (404)에 인접한 위치에 출력할 수 있다.
본 개시에 따른 전자 장치(1000)가 표시하는 타임 라인은 오디오 신호를 시각화한 그래프일 수 있다. 또한, 전자 장치(1000)는 타임라인(401)에 신뢰도 수준이 낮은 것으로 식별되는 문자열에 대응되는 신뢰도 유의 구간(402)을 더 표시할 수도 있다. 예를 들어, 신뢰도 유의 구간은 타임 라인 내 신뢰도 수준이 낮은 것으로 식별되는 문자열에 해당하는 부분 오디오 신호에 대응될 수 있다. 일 실시 예에 의하면, 전자 장치(1000)가 출력하는 후순위 인식 문자열들(406, 408)들은, 인공 지능 모델 내 적어도 하나의 언어 모델들에서 출력된 문자열들 중, 가장 빈도수가 높은 문자열 다음으로 빈도수가 높은 문자열들일 수 있다.
또 다른 실시 예에 의하면, 전자 장치(1000)는 '하면'(405)과 '다 꺼'(404) 각각에 대한 제1 신뢰도 수준 및 제2 신뢰도 수준을 결정하고, 상기 결정된 제1 신뢰도 수준 및 제2 신뢰도 수준의 변화량을 식별할 수도 있다. 전자 장치(1000)는 제1 신뢰도 수준 및 제2 신뢰도 수준의 변화량이 소정의 임계 변화량 보다 크게 식별되는 경우, '하면'(405) 및 '다 꺼'(404) 문자열 모두가 신뢰도가 낮은 것으로 식별하고, '하면'(405) 및 '다 꺼'(404) 각각에 대한 타임라인과 함께 후순위 인식 문자열들을 출력할 수도 있다.
도 4에서는 전자 장치(1000)가 신뢰도 수준 또는 신뢰도 수준의 변화가 기 설정된 범위를 벗어나는 경우, 기 설정된 범위를 벗어나는 것으로 식별된 문자열에 대응되는 타임 라인 및 후순위 인식 문자열들을 함께 출력하는 것으로 설명하였으나, 또 다른 실시 예에 의하면, 전자 장치(1000)는 신뢰도 수준 또는 신뢰도 수준의 변화가 기 설정된 범위를 벗어나는 경우, 해당 문자열에 인접한 위치에 타임 라인만을 표시할 수도 있음은 물론이다.
또 다른 실시 예에 의하면, 전자 장치(1000)는 신뢰도 수준 또는 신뢰도 수준의 변화가 기 설정된 범위를 벗어나는 경우, 해당 문자열을 시각적으로 변환(예컨대 문자열에 밑줄 또는 기타 강조 표시 등) 하고, 시각적으로 변환된 문자열을 전자 장치의 화면상에 출력할 수도 있다.
또 다른 실시 예에 의하면, 전자 장치(1000)는 신뢰도 수준 또는 신뢰도 수준의 변화가 기 설정된 범위를 벗어나는 경우, 해당 문자열에 대한 맞춤법 제안 정보를 더 출력할 수도 있다. 일 실시 예에 의하면, 맞춤법 제안 정보는 해당 문자열에 대한 맞춤법 수정 과정을 수행함에 따라 맞춤법에 맞도록 변환된 문자열을 포함할 수 있다.
도 5는 일 실시 예에 따른 전자 장치가 음성 인식 서비스를 제공하는 다양한 예를 설명하기 위한 도면이다.
도 5를 참조하여 전자 장치(1000)가 사용자 음성 인식 서비스를 제공하는 예를 설명하기로 한다. 일 실시 예에 의하면, 전자 장치(1000)는 사용자로부터 '음성 인식 하면 다 꺼'라는 음성 신호를 포함하는 오디오 신호를 획득할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 오디오 신호 내 사용자 음성 신호를 소정의 음성 시퀀스들로 분할할 수 있다. 예를 들어, 전자 장치(1000)는 '음성 인식 하면 다 꺼'라는 음성 신호를 전처리함으로써 제1 음성 시퀀스(502), 제2 음성 시퀀스(504), 제3 음성 시퀀스(506) 및 제4 음성 시퀀스로 분할할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)가 생성한 제1 내지 제4 음성 시퀀스들은 인접하는 시퀀스 간에 적어도 일부 시퀀스가 중첩될 수 있다. 예를 들어, 제1 음성 시퀀스(502) 및 제2 음성 시퀀스(504)는 '음성 인식' 중 '인'부분에 대한 시퀀스가 중첩될 수 있으나, 이에 한정되는 것은 아니다.
전자 장치(1000)는 사용자 음성 신호를 적어도 일부 시퀀스가 중첩되는 소정의 시퀀스들로 분할하고, 분할된 시퀀스들에 대해 실시간으로 음성 인식을 수행할 수 있다. 전자 장치(1000)는 분할된 시퀀스들에 실시간 음성 인식을 수행함과 함께, 음성 인식 결과에 대한 정확도를 측정할 수 있다. 예를 들어, 전자 장치(1000)는 제1 음성 시퀀스(502)를 음향 모델에 입력함에 따라 음향 모델로부터 제1 음성 시퀀스(502)에 대응되는 음성 정보 및 제1 음성 시퀀스(502)가 해당 음성 정보에 대응할 확률 값을 정확도 정보로 획득할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 메모리 내 정확도 측정부에 대응되는 인스트럭션을 수행함으로써, 제1 음성 시퀀스(502)에 대응되는 음성 정보에 대한 정확도를 식별할 수도 있다.
일 실시 예에 의하면, 전자 장치(1000)는 각 음성 시퀀스에 대한 정확도를 측정하고, 측정된 각 음성 시퀀스에 대한 정확도 정보에 기초하여 신뢰도 수준을 결정할 수 있다. 전자 장치(1000)는 인접한 음성 시퀀스들 각각에 대해 결정된 신뢰도 수준의 차이 값이 소정의 유의 수준을 벗어나는 경우, 신뢰도 수준 차이 값이 소정의 유의 수준을 벗어난, 음성 시퀀스들(예컨대 '음성' '인식' '하면' '다 꺼') 각각에 대한 후순위 인식 문자열들(509, 510)을 인식 문자열과 함께 출력할 수 있다. 또한, 일 실시 예에 의하면 전자 장치(1000)는 문자열들에 대한 신뢰도 수준 차이값이 유의 수준을 벗어나는 정도에 기초하여, 후순위 인식 문자열들을 다른 시각적인 방법으로 표시할 수도 있다. 예를 들어, 전자 장치(1000)는 '음성' 및 '인식'에 대한 제1 신뢰도 수준 차이 값이, '하면' 및 '다 꺼'에 대한 제2 신뢰도 수준 차이 값 보다 작은 경우, 제1 신뢰도 수준 차이 값에 대한 제1 후순위 인식 문자열(509)들보다, 제2 신뢰도 수준 차이 값에 대한 제2 후순위 인식 문자열(510)들을 시각적으로 더 강조하여 표시할 수도 있다.
이하에서는 또 다른 실시 예에 따라 전자 장치(1000)가 오디오 신호 내 사용자 음성 신호에 대한 음성 인식 과정을 수행하는 예를 설명하기로 한다. 예를 들어, 전자 장치(1000)는 '음성 인식 하면 다 꺼'라는 사용자 음성 신호를 포함하는 오디오 신호를 획득하고, 획득된 오디오 신호 내 사용자 음성 신호를 소정의 음성 시퀀스들로 분할할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 '음성'에 대한 제1 음성 시퀀스(512)를 생성하고, '음성의'에 대한 제2 음성 시퀀스(514)를 생성하며, '음성 인식 하면'에 대한 제3 음성 시퀀스(516)를 생성하고, '음성 인식 하면 다 꺼'에 대한 제4 음성 시퀀스(518)를 생성할 수 있다.
전자 장치(1000)는 인공 지능 모델을 이용하여 상기 각 음성 시퀀스에 대한 음성 인식을 수행할 수 있다. 또한, 전자 장치(1000)는 인공 지능 모델을 이용하여 각 음성 시퀀스에 대한 음성 인식을 수행함과 함께, 각 음성 시퀀스에 대한 잡음 정보, 정확도 정보(예컨대 신경망 정확도) 또는 후순위 인식 문자열(예컨대 후순위 결과값)을 결정할 수 있다. 전자 장치(1000)는 각 음성 시퀀스에 대한 잡음 정보, 정확도 정보 또는 후순위 인식 문자열에 대한 정보 중 적어도 하나에 기초하여 각 음성 시퀀스에 대한 신뢰도 수준을 결정하고, 결정된 신뢰도 수준 각각이 소정의 유의 수준 이상인지 여부를 식별할 수 있다. 전자 장치(1000)는 신뢰도 수준이 유의 수준 이상으로 식별되는 문자열(예컨대 '하면' 다 꺼')을 식별하고, 식별된 문자열 각각에 대한 후순위 인식 문자열들(예컨대 '화면' '관련' 또는 '특허')을 더 출력할 수도 있다.
도 6은 일 실시 예에 따른 전자 장치가 음성 인식결과로써 문자열, 타임라인 및 후순위 인식 문자열을 출력하는 예를 설명하기 위한 도면이다.
전자 장치(1000)는 도 5에서 상술한 바와 같이, 신뢰도 수준이 낮은 것으로 식별되는 문자열들에 후순위 인식 문자열들을 표시함과 함께 타임 라인들(602, 604, 622, 624)들을 더 표시할 수도 있다. 또한, 전자 장치(1000)는 문자열들에 대한 신뢰도 수준 값이 소정의 유의 수준을 벗어나는 정도에 기초하여, 소정의 유의 수준을 더 많이 벗어나는 문자열들에 대한 후순위 문자열들(610, 612)을, 유의 수준을 덜 벗어나는 문자열들에 대한 후순위 문자열(606, 608)들 보다 시각적으로 더 강조(예컨대 볼드라인을 그리거나, 더 채도가 높은 경계를 후순위 문자열들 주변에 표시)하여 표시할 수도 있다.
도 7은 일 실시 예에 따른 전자 장치의 블록도이다.
도 8은 또 다른 실시 예에 따른 전자 장치의 블록도이다.
도 7에 도시된 바와 같이, 일 실시 예에 따른 전자 장치(1000)는 프로세서(1400) 및 메모리(1402)를 포함할 수 있다. 그러나 도시된 구성 요소가 모두 필수구성요소인 것은 아니다. 도시된 구성요소보다 많은 구성요소에 의해 전자 장치(1000)가 구현될 수도 있고, 그보다 적은 구성요소에 의해서도 전자 장치(1000)는 구현될 수 있다. 예를 들어, 도 8에 도시된 바와 같이, 일 실시 예에 따른 전자 장치(1000)는 사용자 입력 인터페이스(1502), 네트워크 인터페이스(1504), 마이크(1506), 디스플레이(1507), 스피커(1508)를 더 포함할 수도 있다.
프로세서(1400)는 메모리(1402)내 하나 이상의 인스트럭션을 실행함으로써 전자 장치(1000)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(1400)는 메모리(1402)에 저장된 하나 이상의 인스트럭션을 실행함으로써 사용자 입력 인터페이스(1502), 네트워크 인터페이스(1504), 마이크(1506), 디스플레이(1507), 스피커(1508) 등을 전반적으로 제어할 수 있다. 또한, 프로세서(1400)는 메모리(1402)에 저장된 하나 이상의 인스트럭션들을 실행함으로써 도 1 내지 도 6에 기재된 전자 장치(1000)의 기능을 수행할 수 있다.
일 실시 예에 의하면, 프로세서(1400)는 사용자 음성 신호를 포함하는 오디오 신호를 획득하고, 상기 획득된 오디오 신호를 전처리하고, 상기 전처리된 오디오 신호가 입력되면 상기 음성 신호에 대응되는 문자열을 출력하는 인공 지능 모델에 상기 전처리된 오디오 신호를 입력함으로써, 상기 음성 신호에 대응되는 문자열을 획득하고, 상기 인공 지능 모델로부터 획득되는 상기 문자열에 대한 정확도 정보에 기초하여, 상기 문자열에 대한 신뢰도 수준을 결정하고, 상기 문자열 및 상기 신뢰도 수준을 함께 출력할 수 있다.
일 실시 예에 의하면, 프로세서(1400)는 상기 신뢰도 수준 또는 상기 신뢰도 수준의 변화가 기 설정된 범위를 벗어나는지 여부를 식별하고, 상기 신뢰도 수준 또는 상기 신뢰도 수준의 변화가 상기 기 설정된 범위를 벗어나는 경우, 상기 기 설정된 범위를 벗어나는 것으로 식별되는 문자열에 대한 후순위 인식 문자열을 더 출력할 수 있다.
일 실시 예에 의하면, 적어도 하나의 프로세서는 상기 신뢰도 수준 또는 상기 신뢰도 수준의 변화가 상기 기 설정된 범위를 벗어나는 경우, 상기 기 설정된 범위를 벗어나는 것으로 식별되는 문자열에 대응되는 타임 라인을 더 출력할 수 있다.
일 실시 예에 의하면, 적어도 하나의 프로세서는 상기 신뢰도 수준 또는 상기 신뢰도 수준의 변화가 상기 기 설정된 범위를 벗어나는 경우, 상기 기 설정된 범위를 벗어나는 것으로 식별되는 문자열을 시각적으로 변환하고, 상기 시각적으로 변환된 문자열을 출력할 수 있다.
일 실시 예에 의하면, 적어도 하나의 프로세서는 상기 신뢰도 수준 또는 상기 신뢰도 수준의 변화가 상기 기 설정된 범위를 벗어나는 경우, 상기 기 설정된 범위를 벗어나는 것으로 식별되는 문자열에 대한 맞춤법 제안 정보를 더 출력할 수 있다.
일 실시 예에 의하면, 적어도 하나의 프로세서는 상기 인공 지능 모델의 특성에 기초하여 상기 획득된 오디오 신호의 포맷을 미리 설정된 포맷으로 변환할 수 있다.
일 실시 예에 의하면, 상기 적어도 하나의 프로세서는 상기 사용자 음성 신호에 대응되는 음성 정보를 상기 적어도 하나의 언어 모델에 입력함으로써, 상기 적어도 하나의 언어 모델 각각에서 출력되는 후보 문자열들을 획득하고, 상기 적어도 하나의 언어 모델들에서 출력된 후보 문자열들의 빈도수에 기초하여, 상기 후보 문자열들 중, 하나의 후보 문자열을 획득할 수 있다.
일 실시 예에 의하면, 상기 적어도 하나의 프로세서는 상기 오디오 신호 내 노이즈 강도를 식별하고, 상기 음향 모델로부터 상기 사용자 음성 신호가 상기 음성 정보에 해당할 확률 값을 획득하고, 상기 노이즈 강도 및 상기 음성 정보에 해당할 확률 값을 상기 정확도 정보로 획득하고, 상기 정확도 정보에 기초하여 상기 문자열에 대한 신뢰도 수준을 결정할 수 있다.
메모리(1402)는 전자 장치(1000)의 동작을 제어하기 위한 하나 이상의 인스트럭션(instruction)을 포함할 수 있다. 또한, 메모리(1402)는 음성 인식 서비스를 활성화 하기 위해 하나 이상의 언어 모델, 음향 모델, 자동 음성 인식 모델을 포함할 수 있다. 또한, 메모리(1402) 음성 인식을 위해 필요한 인공 지능 모델 또는 신경망 모델에 대한 정보를 저장할 수 있다.
일 실시 예에 의하면, 메모리(1402)는 예를 들어, 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있으나, 이에 제한되지 않는다.
사용자 입력 인터페이스(1502)는 전자 장치의 동작을 제어하기 위한 사용자 입력을 수신할 수 있다. 예를 들어, 사용자 입력 인터페이스(1502)는, 키 패드(key pad), 돔 스위치(dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠, 조그 스위치 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
네트워크 인터페이스(1504)는 서버(2000)와의 통신을 위한 하나 이상의 통신 모듈을 포함할 수 있다. 예를 들어, 네트워크 인터페이스(1504)는, 근거리 통신부 또는 이동 통신부 중 적어도 하나를 포함할 수 있다. 예를 들어, 근거리 통신부(short-range wireless communication unit)는, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부등을 포함할 수 있으나, 이에 제한되는 것은 아니다.
이동 통신부는, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기에서, 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.
마이크(1506)는 사용자의 음성을 포함하는 오디오 신호를 수신할 수 있다. 또한, 마이크는 사용자의 음성 외에 복수의 집음 원들로부터 발생된 잡음 신호를 포함하는 오디오 신호를 수신할 수도 있다. 마이크(1506)는 획득한 오디오 신호를 프로세서(1400)로 전달함으로써, 사용자 음성 신호에 대응되는 문자열을 출력하도록 할 수 있다.
스피커(1508)는 오디오 신호 내 사용자의 음성을 인식한 결과를 오디오 신호로 출력할 수 있다. 예를 들어, 스피커(1508)는 전자 장치(1000)에서 수행되는 기능(예를 들어, 호신호 수신음, 메시지 수신음, 알림음)과 관련된 신호를 소리로 출력할 수 있다.
디스플레이(1507)는 전자 장치(1000)에서 처리되는 정보를 표시 출력할 수 있다. 예를 들어, 디스플레이(1507)는, 오디오 신호 내 사용자의 음성을 인식한 결과를 텍스트 문자열로 표시할 수 있다. 또한, 디스플레이(1507)는 문자열 외에, 신뢰도 수준, 타임 라인, 맞춤법 제안 정보, 부가 정보(예컨대 잡음 정보, 정확도 정보, 후순위 인식 문자열)에 대한 정보를 더 표시할 수도 있다.
도 9는 또 다른 실시 예에 따른 전자 장치가 음성 인식 서비스를 제공하는 과정을 설명하기 위한 도면이다.
일 실시 예에 의하면, 전자 장치(1000)는 오디오 신호 내 사용자 음성 신호에 대응되는 사용자 음성 입력(902)을 식별할 수 있다. 전자 장치(1000)는 음성 입력(902)을 신호 전처리기(904)를 이용하여 전처리할 수 있다. 신호 전처리기(904)에 의해 전처리된 음성 입력은 음향 모델(906)에 입력됨으로써, 음성 입력에 대한 음성 정보로 출력될 수 있다. 음향 모델(906)에서 출력된 음성 정보는 언어 모델(908)로 입력되고, 언어 모델(908)을 통하여 복수의 후보 문자열들이 출력될 수 있다. 전자 장치(1000)는 후보 문자열들 중 빈도수에 기초하여 선택되는 하나의 문자열을 텍스트 문자열(910)로 출력할 수 있다.
도 9에 도시된 신호 전처리기(904), 음향 모델(906) 및 언어 모델(908)은 전자 장치의 메모리 내 하나 이상의 인스트럭션의 형태로 저장될 수 있으며, 프로세서에 의해 액세스됨으로써, 신호 전처리, 음성 정보 출력 및 텍스트 문자열 출력과 같은 기능을 수행하는데 사용될 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 정확도 측정부(912)를 더 포함할 수 있다. 예를 들어, 정확도 측정부(912)는 전자 장치의 메모리에 인스트럭션으로 저장되어 정확도를 측정하는 기능을 수행하는 모듈일 수 있다. 일 실시 예에 의하면, 정확도 측정부(912)는 노이즈 강도 측정기(914), 정확도 정보 획득기(916) 및 n순위 출력 값 획득기(918)을 포함할 수 있다.
일 실시 예에 의하면, 전자 장치(1000)는 노이즈 강도 측정기(914)를 이용하여 음성 입력(902) 에 대한 노이즈의 강도를 측정할 수 있다. 전자 장치(1000)는 정확도 정보 획득기(916)를 이용하여, 음향 모델(906)에서 사용자 음성 신호에 대응되는 음성 정보와 함께 출력되는, 음성 정보에 대응될 확률 값을 정확도 정보로 획득할 수 있다. 또한, 전자 장치(1000)는 n 순위 출력 값 획득기(918)를 이용하여 언어 모델(908)로부터 복수의 후보 문자열들을 획득하고, 후보 문자열들에 대한 n순위 랭크 내에 포함되는 소정의 후보 문자열들에 대한 정보를 획득할 수 있다. 전자 장치(1000)는 정확도 측정부(912)에서 측정되는 정확도 정보에 기초하여, 음성 인식 결과에 대한 신뢰도 수준을 결정할 수 있다. 전자 장치(1000)는 신뢰도 수준을 함께 표시함으로써 사용자로 하여금, 음성 인식 결과가 얼마나 신뢰도 있게 수행되었는지 여부를 나타낼 수 있다.
일 실시예에 따른 전자 장치가 인공 지능 모델을 이용하여 음성 인식 서비스를 제공하는 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속한다.

Claims (20)

  1. 전자 장치가 인공 지능 모델을 이용하여 음성 인식 서비스를 제공하는 방법에 있어서,
    사용자 음성 신호를 포함하는 오디오 신호를 획득하는 단계;
    상기 획득된 오디오 신호를 전처리하는 단계;
    상기 전처리된 오디오 신호가 입력되면 상기 음성 신호에 대응되는 문자열을 출력하는 인공 지능 모델에 상기 전처리된 오디오 신호를 입력함으로써, 상기 음성 신호에 대응되는 문자열을 획득하는 단계;
    상기 인공 지능 모델로부터 획득되는 상기 문자열에 대한 정확도 정보에 기초하여, 상기 문자열에 대한 신뢰도 수준을 결정하는 단계; 및
    상기 문자열 및 상기 신뢰도 수준을 함께 출력하는 단계; 를 포함하는, 방법.
  2. 제1항에 있어서, 상기 방법은
    상기 신뢰도 수준 또는 상기 신뢰도 수준의 변화가 기 설정된 범위를 벗어나는지 여부를 식별하는 단계; 및
    상기 신뢰도 수준 또는 상기 신뢰도 수준의 변화가 상기 기 설정된 범위를 벗어나는 경우, 상기 기 설정된 범위를 벗어나는 것으로 식별되는 문자열에 대한 후순위 인식 문자열을 더 출력하는 단계; 를 포함하는, 방법.
  3. 제2항에 있어서, 상기 방법은
    상기 신뢰도 수준 또는 상기 신뢰도 수준의 변화가 상기 기 설정된 범위를 벗어나는 경우, 상기 기 설정된 범위를 벗어나는 것으로 식별되는 문자열에 대응되는 타임 라인을 더 출력하는 단계; 및
    상기 타임 라인에 상기 기 설정된 범위를 벗어나는 것으로 식별되는 문자열에 대응되는 신뢰도 유의 구간을 표시하는 단계; 를 더 포함하는, 방법.
  4. 제3항에 있어서, 상기 방법은
    상기 신뢰도 수준 또는 상기 신뢰도 수준의 변화가 상기 기 설정된 범위를 벗어나는 경우, 상기 기 설정된 범위를 벗어나는 것으로 식별되는 문자열을 시각적으로 변환하는 단계; 및
    상기 시각적으로 변환된 문자열을 출력하는 단계; 를 포함하는, 방법.
  5. 제3항에 있어서, 상기 방법은
    상기 신뢰도 수준 또는 상기 신뢰도 수준의 변화가 상기 기 설정된 범위를 벗어나는 경우, 상기 기 설정된 범위를 벗어나는 것으로 식별되는 문자열에 대한 맞춤법 제안 정보를 더 출력하는 단계; 를 포함하는, 방법.
  6. 제1항에 있어서, 상기 전처리하는 단계는
    상기 인공 지능 모델의 특성에 기초하여 상기 획득된 오디오 신호의 포맷을 미리 설정된 포맷으로 변환하는 단계; 및
    상기 오디오 신호 내 노이즈 강도를 식별하는 단계; 를 포함하는, 방법.
  7. 제1항에 있어서, 상기 인공 지능 모델은
    상기 오디오 신호 내 상기 사용자 음성 신호의 기 설정된 단위로 음성 정보를 출력하는 음향 모델; 및
    상기 음성 정보가 단어 시퀀스에 해당할 확률에 기초하여, 상기 음성 정보에 대응되는 소정의 후보 문자열을 출력하는 적어도 하나의 언어 모델; 을 포함하는 것을 특징으로 하는, 방법.
  8. 제7항에 있어서, 상기 문자열을 획득하는 단계는
    상기 사용자 음성 신호에 대응되는 음성 정보를 상기 적어도 하나의 언어 모델에 입력함으로써, 상기 적어도 하나의 언어 모델 각각에서 출력되는 후보 문자열들을 획득하는 단계; 및
    상기 적어도 하나의 언어 모델에서 출력된 후보 문자열들의 빈도수에 기초하여, 상기 후보 문자열들 중, 하나의 후보 문자열을 획득하는 단계; 를 포함하는, 방법.
  9. 제6항에 있어서, 상기 신뢰도 수준을 결정하는 단계는
    상기 인공 지능 모델 내 음향 모델로부터, 상기 음향 모델 내로 입력된 사용자 음성 신호가 상기 음향 모델로부터 출력되는 상기 음성 정보에 해당할 확률 값을 획득하는 단계;
    상기 노이즈 강도 및 상기 음성 정보에 해당할 확률 값을 상기 정확도 정보로 획득하는 단계; 및
    상기 정확도 정보에 기초하여 상기 문자열에 대한 신뢰도 수준을 결정하는 단계; 를 포함하는, 방법.
  10. 제2항에 있어서, 상기 신뢰도 수준 또는 상기 신뢰도 수준의 변화가 기 설정된 범위를 벗어나는지 여부를 식별하는 단계는
    상기 문자열에 대한 신뢰도 수준이 상기 기 설정된 범위를 벗어나거나, 상기 인공 지능 모델로부터 출력된 인접한 문자열에 대한 신뢰도 수준의 변화가 상기 기 설정된 범위를 벗어나는지 여부를 식별하는 단계; 를 포함하는, 방법.
  11. 인공 지능 모델을 이용하여 음성 인식 서비스를 제공하는 전자 장치에 있어서,
    하나 이상의 인스트럭션을 저장하는 메모리; 및
    상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서; 를 포함하고,
    상기 적어도 하나의 프로세서는
    사용자 음성 신호를 포함하는 오디오 신호를 획득하고,
    상기 획득된 오디오 신호를 전처리하고,
    상기 전처리된 오디오 신호가 입력되면 상기 음성 신호에 대응되는 문자열을 출력하는 인공 지능 모델에 상기 전처리된 오디오 신호를 입력함으로써, 상기 음성 신호에 대응되는 문자열을 획득하고,
    상기 인공 지능 모델로부터 획득되는 상기 문자열에 대한 정확도 정보에 기초하여, 상기 문자열에 대한 신뢰도 수준을 결정하고,
    상기 문자열 및 상기 신뢰도 수준을 함께 출력하는, 전자 장치.
  12. 제11항에 있어서, 상기 적어도 하나의 프로세서는
    상기 신뢰도 수준 또는 상기 신뢰도 수준의 변화가 기 설정된 범위를 벗어나는지 여부를 식별하고,
    상기 신뢰도 수준 또는 상기 신뢰도 수준의 변화가 상기 기 설정된 범위를 벗어나는 경우, 상기 기 설정된 범위를 벗어나는 것으로 식별되는 문자열에 대한 후순위 인식 문자열을 더 출력하는, 전자 장치.
  13. 제12항에 있어서, 상기 적어도 하나의 프로세서는
    상기 신뢰도 수준 또는 상기 신뢰도 수준의 변화가 상기 기 설정된 범위를 벗어나는 경우, 상기 기 설정된 범위를 벗어나는 것으로 식별되는 문자열에 대응되는 타임 라인을 더 출력하고,
    상기 타임 라인에 상기 기 설정된 범위를 벗어나는 것으로 식별되는 문자열에 대응되는 신뢰도 유의 구간을 표시하는, 전자 장치.
  14. 제13항에 있어서, 상기 적어도 하나의 프로세서는
    상기 신뢰도 수준 또는 상기 신뢰도 수준의 변화가 상기 기 설정된 범위를 벗어나는 경우, 상기 기 설정된 범위를 벗어나는 것으로 식별되는 문자열을 시각적으로 변환하고,
    상기 시각적으로 변환된 문자열을 출력하는, 전자 장치.
  15. 제13항에 있어서, 상기 적어도 하나의 프로세서는
    상기 신뢰도 수준 또는 상기 신뢰도 수준의 변화가 상기 기 설정된 범위를 벗어나는 경우, 상기 기 설정된 범위를 벗어나는 것으로 식별되는 문자열에 대한 맞춤법 제안 정보를 더 출력하는, 전자 장치.
  16. 제11항에 있어서, 상기 적어도 하나의 프로세서는
    상기 인공 지능 모델의 특성에 기초하여 상기 획득된 오디오 신호의 포맷을 미리 설정된 포맷으로 변환하고,
    상기 오디오 신호 내 노이즈 강도를 식별하는, 전자 장치.
  17. 제11항에 있어서, 상기 인공 지능 모델은
    상기 오디오 신호 내 상기 사용자 음성 신호의 음절 단위로 음성 정보를 출력하는 음향 모델; 및
    상기 음성 정보가 단어 시퀀스에 해당할 확률에 기초하여, 상기 음성 정보에 대응되는 소정의 후보 문자열을 출력하는 적어도 하나의 언어 모델; 을 포함하는 것을 특징으로 하는, 전자 장치.
  18. 제17항에 있어서, 상기 적어도 하나의 프로세서는
    상기 사용자 음성 신호에 대응되는 음성 정보를 상기 적어도 하나의 언어 모델에 입력함으로써, 상기 적어도 하나의 언어 모델 각각에서 출력되는 후보 문자열들을 획득하고,
    상기 적어도 하나의 언어 모델들에서 출력된 후보 문자열들의 빈도수에 기초하여, 상기 후보 문자열들 중, 하나의 후보 문자열을 획득하는, 전자 장치.
  19. 제16항에 있어서, 상기 적어도 하나의 프로세서는
    상기 음향 모델로부터 상기 사용자 음성 신호가 상기 음성 정보에 해당할 확률 값을 획득하고,
    상기 노이즈 강도 및 상기 음성 정보에 해당할 확률 값을 상기 정확도 정보로 획득하고,
    상기 정확도 정보에 기초하여 상기 문자열에 대한 신뢰도 수준을 결정하는, 전자 장치.
  20. 전자 장치가 인공 지능 모델을 이용하여 음성 인식 서비스를 제공하는 방법에 있어서,
    사용자 음성 신호를 포함하는 오디오 신호를 획득하는 단계;
    상기 획득된 오디오 신호를 전처리하는 단계;
    상기 전처리된 오디오 신호가 입력되면 상기 음성 신호에 대응되는 문자열을 출력하는 인공 지능 모델에 상기 전처리된 오디오 신호를 입력함으로써, 상기 음성 신호에 대응되는 문자열을 획득하는 단계;
    상기 인공 지능 모델로부터 획득되는 상기 문자열에 대한 정확도 정보에 기초하여, 상기 문자열에 대한 신뢰도 수준을 결정하는 단계; 및
    상기 문자열 및 상기 신뢰도 수준을 함께 출력하는 단계; 를 포함하는, 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
KR1020210094768A 2021-07-20 2021-07-20 인공 지능 모델을 이용하여 음성 인식 서비스를 제공하는 장치 및 방법 KR20230013826A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210094768A KR20230013826A (ko) 2021-07-20 2021-07-20 인공 지능 모델을 이용하여 음성 인식 서비스를 제공하는 장치 및 방법
PCT/KR2021/011523 WO2023003072A1 (ko) 2021-07-20 2021-08-27 인공 지능 모델을 이용하여 음성 인식 서비스를 제공하는 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210094768A KR20230013826A (ko) 2021-07-20 2021-07-20 인공 지능 모델을 이용하여 음성 인식 서비스를 제공하는 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20230013826A true KR20230013826A (ko) 2023-01-27

Family

ID=84980543

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210094768A KR20230013826A (ko) 2021-07-20 2021-07-20 인공 지능 모델을 이용하여 음성 인식 서비스를 제공하는 장치 및 방법

Country Status (2)

Country Link
KR (1) KR20230013826A (ko)
WO (1) WO2023003072A1 (ko)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0426347D0 (en) * 2004-12-01 2005-01-05 Ibm Methods, apparatus and computer programs for automatic speech recognition
KR101537370B1 (ko) * 2013-11-06 2015-07-16 주식회사 시스트란인터내셔널 녹취된 음성 데이터에 대한 핵심어 추출 기반 발화 내용 파악 시스템과, 이 시스템을 이용한 인덱싱 방법 및 발화 내용 파악 방법
KR102592587B1 (ko) * 2018-02-06 2023-10-23 한국전자통신연구원 음성인식 결과 수정 장치 및 방법
KR20200091797A (ko) * 2019-01-23 2020-07-31 삼성전자주식회사 음성 인식 장치 및 방법
KR20210047173A (ko) * 2019-10-21 2021-04-29 엘지전자 주식회사 오인식된 단어를 바로잡아 음성을 인식하는 인공 지능 장치 및 그 방법

Also Published As

Publication number Publication date
WO2023003072A1 (ko) 2023-01-26

Similar Documents

Publication Publication Date Title
US20200388273A1 (en) Dynamic wakeword detection
EP3469592B1 (en) Emotional text-to-speech learning system
US10510340B1 (en) Dynamic wakeword detection
KR102582291B1 (ko) 감정 정보 기반의 음성 합성 방법 및 장치
US11443750B2 (en) User authentication method and apparatus
US20210104245A1 (en) Multiple classifications of audio data
KR102449875B1 (ko) 음성 신호 번역 방법 및 그에 따른 전자 장치
US11574637B1 (en) Spoken language understanding models
JP6585733B2 (ja) 情報処理装置
US11676572B2 (en) Instantaneous learning in text-to-speech during dialog
CN114051639A (zh) 使用说话者基线进行情绪检测
US20240029739A1 (en) Sensitive data control
EP3980991B1 (en) System and method for recognizing user's speech
US11521619B2 (en) System and method for modifying speech recognition result
US11830501B2 (en) Electronic device and operation method for performing speech recognition
US11373656B2 (en) Speech processing method and apparatus therefor
CN112785667A (zh) 视频生成方法、装置、介质及电子设备
KR20200132645A (ko) 음성 인식 서비스를 제공하는 장치 및 방법
KR20230013826A (ko) 인공 지능 모델을 이용하여 음성 인식 서비스를 제공하는 장치 및 방법
US11430435B1 (en) Prompts for user feedback
KR20210098250A (ko) 전자 장치 및 이의 제어 방법
CN113168438A (zh) 用户认证方法和设备
US11508355B1 (en) Extracting natural language semantics from speech without the use of speech recognition
KR102392992B1 (ko) 음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법
US20230115538A1 (en) Speech recognition device and operating method thereof