KR102358087B1 - 발달 장애인 음성 인식 점수 산출 장치 및 그 방법 - Google Patents

발달 장애인 음성 인식 점수 산출 장치 및 그 방법 Download PDF

Info

Publication number
KR102358087B1
KR102358087B1 KR1020190156569A KR20190156569A KR102358087B1 KR 102358087 B1 KR102358087 B1 KR 102358087B1 KR 1020190156569 A KR1020190156569 A KR 1020190156569A KR 20190156569 A KR20190156569 A KR 20190156569A KR 102358087 B1 KR102358087 B1 KR 102358087B1
Authority
KR
South Korea
Prior art keywords
text
score
correct
corrected
speech recognition
Prior art date
Application number
KR1020190156569A
Other languages
English (en)
Other versions
KR20210067201A (ko
Inventor
박찬일
박연지
오수영
최규정
고은수
정유진
최진솔
손채봉
Original Assignee
광운대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 광운대학교 산학협력단 filed Critical 광운대학교 산학협력단
Priority to KR1020190156569A priority Critical patent/KR102358087B1/ko
Publication of KR20210067201A publication Critical patent/KR20210067201A/ko
Application granted granted Critical
Publication of KR102358087B1 publication Critical patent/KR102358087B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 AI방식을 이용한 발달 장애인 음성 인식 점수 산출 장치 및 그 방법에 대한 것이다.
본 발명에 따르면, 발달 장애인의 육성에 의해 생성된 음성 데이터를 수신받는 수신부, 상기 수신된 음성 데이터를 블록 단위로 샘플링 한 다음, 언어 인식 모델에 입력하여 음성 데이터를 텍스트로 변환하고, 변환된 텍스트를 이용하여 컨피던스 점수를 획득하는 텍스트 변환부, 상기 변환된 텍스트와 정답 텍스트를 기 구축된 딥러닝 모듈에 입력하여 보정 텍스트를 획득하는 보정 텍스트 추출부, 그리고 상기 획득한 보정 텍스트와 정답 텍스트를 비교하여 유사 여부를 판단하고, 판단된 결과에 따른 평가 점수를 산출하는 제어부를 포함한다.
이와 같이 본 발명에 따르면, 사용자의 음성을 텍스트로 변환, 및 사용자의 의도에 부합하도록 수정하는 과정을 통해 사용자의 화용 능력 향상 효과를 도모할 수 있고, 정답 문장과 보정된 문장 사이의 점수를 매김으로써 사용자의 언어 능력을 실시간으로 확인하여 언어 구사 및 활용 능력에 도움을 줄 수 있다.

Description

발달 장애인 음성 인식 점수 산출 장치 및 그 방법{Calculation apparatus of speech recognition score for the developmental disability and method thereof}
본 발명은 AI 방식을 이용한 발달 장애인 음성 인식 점수 산출 장치 및 그 방법에 관한 것으로서, 더욱 상세하게는 발달 장애인의 음성을 딥러닝을 이용해서 인식한 후 말하고자 하는 문장과 유사한 정도 및 정확도를 점수로 산출하는 발달 장애인 음성 인식 점수 산출 장치 및 그 방법에 관한 것이다.
발달 장애인들은 뇌성마비, 구순구개열, 정신지체와 같은 특정 문제가 있어 부정확하거나 알아듣기 어려운 말소리를 내는데 이를 조음장애라고 한다. 보통 말소리는 입술, 치아, 혀, 입천장 등과 같은 부분을 통해 만들어진다. 하지만 이 과정에서 발생된 조음장애로 인해 다른 사람들은 발달 장애인들의 말을 알아듣기 어려운 상황이 빈번하게 발생된다.
따라서, 본 발명은 발달 장애인들의 음성을 올바르게 인식해서 말하고자 하는 바를 얼마나 정확하게 표현했는지에 대한 결과를 점수로 측정한 후 시각화하는 방법을 제공한다.
대한민국 특허청 공개특허공보 제10-2000-0030906호(2000.06.05.공개)
본 발명이 이루고자 하는 기술적 과제는, 딥러닝을 이용해서 발달 장애인의 음성을 인식한 후 말하고자 하는 문장과 유사한 정도 및 정확도를 점수로 산출하는 발달 장애인 음성 인식 점수 산출 장치 및 그 방법을 제공하는데 목적이 있다.
이러한 기술적 과제를 이루기 위한 본 발명의 실시예에 따르면, AI방식을 이용한 발달 장애인 음성 인식 점수 산출 장치에 있어서, 발달 장애인의 육성에 의해 생성된 음성 데이터를 수신하는 수신부, 상기 수신된 음성 데이터를 블록 단위로 샘플링 한 다음, 언어 인식 모델에 입력하여 음성 데이터를 텍스트로 변환하고, 변환된 텍스트를 이용하여 컨피던스 점수를 획득하는 텍스트 변환부, 상기 변환된 텍스트와 정답 텍스트를 기 구축된 딥러닝 모듈에 입력하여 보정 텍스트를 획득하는 보정 텍스트 추출부, 그리고 상기 획득한 보정 텍스트와 정답 텍스트를 비교하여 유사 여부를 판단하고, 판단된 결과에 따른 평가 점수를 산출하는 제어부를 포함한다.
상기 수신부는, 상기 발달 장애인이 정답 텍스트를 읽음으로써 발생된 음성 데이터를 수신하고, 수신된 음성 데이터에 포함되어 있는 잡음을 처리하여 음성 특징을 추출할 수 있다.
상기 보정 텍스트 추출부는, 오디오 신호와 언어의 음성 단위 간의 관계를 학습한 음향모델과, 문법체계를 통계적으로 학습한 언어 모델을 기 구축하고, 상기 구축된 음향 모델 및 언어 모델에 수신된 음성 데이터를 입력하여 보정된 텍스트를 획득할 수 있다.
상기 제어부는, 차이 발견 알고리즘을 이용하여 보정된 텍스트와 정답 텍스트 사이의 동일한 부분과 다른 부분을 추출하고, 추출된 동일한 부분만을 선별하여 1행 n열의 행렬을 생성할 수 있다.
상기 제어부는, 상기 생성된 행렬을 하기의 수학식에 적용하여 보정된 텍스트와 정답 텍스트 사이의 유사도 점수를 산출할 수 있다.
Figure 112019123391889-pat00001
여기서, A는 정답 텍스트이고, R은 보정된 텍스트이고, D는 행렬이고, AL은 정답 텍스트의 길이이고, RL은 보정된 텍스트의 길이이고, DL은 행렬에 포함된 열의 크기를 나타낸다.
상기 제어부는, 상기 산출된 유사도 점수와 컨피던스 점수를 하기의 수학식에 적용하여 평가 점수를 산출할 수 있다.
Figure 112019123391889-pat00002
여기서, sim(A, R)은 유사도 점수이고, conf는 컨피던스 점수이며, A’,R’은 정답 텍스트와 보정된 텍스트에서 명사와 동사같이 유의미한 단어들만 추출하여 재구성한 문장을 나타낸다.
본 발명의 다른 실시예에 따르면, 발달 장애인 음성 인식 점수 산출 장치를 이용한 발달 장애인 음성 인식 점수 산출 방법에 있어서, 발달 장애인의 육성에 의해 생성된 음성 데이터를 수신받는 단계, 상기 수신된 음성 데이터를 블록 단위로 샘플링 한 다음, 언어 인식 모델에 입력하여 음성 데이터를 텍스트로 변환하고, 변환된 텍스트를 이용하여 컨피던스 점수를 획득하는 단계, 상기 변환된 텍스트와 정답 텍스트를 기 구축된 딥러닝 모듈에 입력하여 보정 텍스트를 획득하는 단계, 그리고 상기 획득한 보정 텍스트와 정답 텍스트를 비교하여 유사 여부를 판단하고, 판단된 결과에 따른 평가 점수를 산출하는 단계를 포함한다.
이와 같이 본 발명에 따르면, 사용자의 음성을 텍스트로 변환, 및 사용자의 의도에 부합하도록 수정하는 과정을 통해 사용자의 화용 능력 향상 효과를 도모할 수 있고, 정답 문장과 보정된 문장 사이의 점수를 매김으로써 사용자의 언어 능력을 실시간으로 확인하여 언어 구사 및 활용 능력에 도움을 줄 수 있다.
도 1은 본 발명의 실시예에 따른 발달 장애인 음성 인식 점수 산출 장치를 설명하기 위한 구성도이다.
도 2는 본 발명의 실시예에 따른 발달 장애인 음성 인식 점수 산출 장치를 이용한 평가점수를 산출하는 방법을 설명하기 위한 순서도이다.
도 3은 도 2에 도시된 S220단계에서 STT에서 출력된 결과물을 나타내는 예시도이다.
도 4는 도 2에 도시된 S260단계에서 평가 점수를 산출하는 예를 설명하기 위한 도면이다.
이하 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시 예를 상세히 설명하기로 한다. 이 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다.
또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서, 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있다. 그러므로 이러한 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
이하에서는 도 1을 이용하여 발달 장애인 음성 인식 점수 산출 장치에 대하여 설명한다.
도 1은 본 발명의 실시예에 따른 발달 장애인 음성 인식 점수 산출 장치를 설명하기 위한 구성도이다.
도 1에 도시된 바와 같이, 본 발명의 실시예 따르면 발달 장애인 음성 인식 점수 산출 장치(100)는 수신부(110), 텍스트 변환부(120), 보정 텍스트 추출부(130), 제어부(140) 및 음성 데이터베이스(150)을 포함한다.
먼저, 수신부(110)는 음성데이터를 수신한다. 부연하자면, 발달 장애인은 마이크에 대고 제공받은 정답 텍스트를 읽는다. 그 결과, 수신부(110)는 마이크를 통해 송출된 음성데이터를 수신한다. 이때, 수신된 음성데이터에는 잡음이 포함되어 있으므로, 수신부(110)는 수신된 음성 데이터에 포함된 잡음을 제거한 다음, 음성 특징을 추출한다.
텍스트 변환부(120)는 수신된 음성 데이터를 텍스트로 변환시킨다. 이를 다시 설명하면, 텍스트 변환부는 STT(Speech To Text)에서 지원하는 협대역 언어 모델(ko-KR_Narrow band Model)에 음성 데이터를 입력한다. 그러면, 협대역 언어 모델은 입력받은 음성 데이터를 json형태의 결과물로 출력한다. 이때, 출력된 결과물에는 변환된 텍스트와 컨피던스 점수를 포함한다.
보정 텍스트 추출부(130)는 변환된 텍스트를 RNN(Recurrent neural network) 기반의 딥러닝 모델에 입력하여 보정된 텍스트를 획득한다. 부연하자면, STT(Speech To Text)는 비장애인의 언어 또한 정확하게 텍스트로 변환하지 못하는 한계가 발생할 수 있다. 따라서, 보정 텍스트 추출부(130)는 STT(Speech To Text)를 통해 변환된 텍스트를 음향 모델 및 언어모델을 이용하여 보정 텍스트를 추출한다.
그리고, 제어부(140)는 추출된 보정 텍스트와 정답 텍스트를 비교하여 발달장애인의 언어 능력에 대한 평가점수를 산출한다.
이를 다시 설명하면, 제어부(140)는 보정 텍스트와 정답 텍스트를 이용하여 유사도 점수를 산출한다. 그 다음, 제어부(140)는 산출된 유사도 점수와 앞서 획득한 컨피던스 점수를 이용하여 평가점수를 산출한다.
마지막으로 음성 데이터베이스(150)는 기 구축된 음향 모델을 학습하기 위하여 오디오 녹음 및 음성의 텍스트에 대한 정보를 수집하고 저장한다.
이하에서는 도 2 내지 도 4를 통해 발달 장애인 음성 인식 점수 산출 장치를 이용하여 평가점수를 산출하는 방법에 대해 더욱 상세하게 설명한다.
도 2는 본 발명의 실시예에 따른 발달 장애인 음성 인식 점수 산출 장치를 이용한 평가점수를 산출하는 방법을 설명하기 위한 순서도이고, 도 3은 도 2에 도시된 S220단계에서 STT에서 출력된 결과물을 나타내는 예시도이고, 도 4는 도 2에 도시된 S260단계에서 평가 점수를 산출하는 예를 설명하기 위한 도면이다.
도 2에 도시된 바와 같이, 발달 장애인은 사용자 인터페이스를 통해 출력된 정답 텍스트를 읽는다. 그러면, 수신부(110)는 마이크를 통해 음성 데이터를 수신 한다(S210).
수신부(110)는 실시간으로 음성 데이터를 입력받으며, 그 때마다 오디오 데이터 컨테이너인 오디오 클립에서 받아진 음성 데이터를 블록 단위로 샘플링을 한다.
그 다음, 텍스트 변환부(120)는 수신된 음성데이터를 IBM Watson의 STT(Speech To Text)에서 지원하는 협대역 언어 모델(ko-KR_Narrow band Model)에 입력하여 텍스트로 변환시킨다(S220).
부연하면, 텍스트 변환부(120)는 샘플링된 음성데이터를 IBM Watson 서버로 전송한다. 이때, 텍스트 변환부(120)는 변환율을 높이기 위하여 샘플링 속도를 8kHz로 설정하고, 빠른 반응 속도를 위해서 오디오 클립의 길이를 1초로 설정한다. 그 다음, 텍스트 변환부(120)는 샘플링 속도 8kHz 및 샘플 당 16비트를 사용하여 초당 128kbps의 데이터 비트 수만큼 데이터를 웹 소켓을 통해 IBM Watson 서버로 전송한다. 텍스트 변환부(120)는 일정 기간 동안 사용자의 음성 입력이 없을 때까지 지속적으로 샘플링된 음성 데이터를 전송한다. 그러면, IBM Watson 서버는 수신된 음성 데이터에 대하여 json 형태의 결과를 출력한다.
도 3에 도시된 바와 같이, json 형태의 결과물은 변환된 텍스트와 컨피던스 점수를 포함한다.
S220단계가 완료되면, 보정 텍스트 추출부(130)는 기 구축된 음향 모델 및 언어모델을 이용하여 보정 텍스트를 추출한다(S230).
부연하자면, 보정 텍스트 추출부(130)는 음성의 통계적인 특성을 나타내기 위하여 음향모델(Acoustic Model)과 언어 모델(Language Model) 및 어휘/발음사전을 구축하여 학습시킨다.
먼저, 음향모델은 음성 신호와 음소 또는 음성을 구성하는 다른 언어 단위간의 관계를 나타낸다. 그러므로 음향 모델은 음성 데이터베이스(150)에 저장된 오디오 녹음 및 음성 텍스트를 이용하여 학습한다. 그러면, 음향모델은 오디오 신호와 언어의 음성 단위 간의 관계를 모델링한다.
그 다음, 언어 모델은 어휘 선택, 문장 단위 구문 구조 등 해당 언어의 사용성 문제에 대해 문법 체계를 통계적으로 학습한다.
또한, 발음 사전 구축을 위해서는 텍스트를 소리 나는 대로 변환하는 음소 변환(G2P; Grapheme-to-Phoneme)구현 과정이 필요하며, 표준 발음을 대상으로 하는 발음 변환 규칙만으로는 사용자의 발화 습관과 어투에 따른 다양한 패턴을 반영하기 어려운 경우가 있어 별도의 사전 구축이 필요하다. 따라서, 보정 텍스트 추출부(130)는 사용자의 발음을 이용하여 어휘/발음사전을 구축한다.
그러므로, 보정 텍스트 추출부(130)는 STT과정에서 변환된 텍스트와 정답 텍스트를 음향 모델 및 언어모델에 입력하여 보정된 텍스트를 추출한다.
S230단계가 완료되면, 제어부(140)는 보정된 텍스트와 정답 텍스트를 비교하여 유사도 점수를 산출한다(S240).
부연하면, 제어부(140)는 diff 알고리즘을 이용하여 보정된 텍스트와 정답 텍스트 사이의 동일 부분과 다른 부분을 각각 추출한다.
이 후, 제어부(140)는 동일 부분만을 선별하여 행렬(D)을 생성한다. 여기서 행렬은 1행 n열을 가지며, n은 보정된 텍스트와 정답 텍스트 사이의 공통인 부분에 대한 총 개수를 나타낸다. 한편 각 행렬에는 공통인 텍스트의 길이를 포함한다.
그 다음 제어부(140)는 생성된 행렬(D)을 하기의 수학식 1에 적용하여 유사도 점수(Sim(A, R))를 산출한다.
Figure 112019123391889-pat00003
여기서, A는 정답 텍스트이고, R은 보정된 텍스트이고, D는 행렬이고, AL은 정답 텍스트의 길이이고, RL은 보정된 텍스트의 길이이고, DL은 행렬에 포함된 열의 크기를 나타낸다.
그 다음 제어부(140)는 보정된 텍스트와 정답 텍스트의 형태소를 분석하여 동사, 명사와 같이 유의미한 단어들을 추가적으로 추출하고, 추출된 단어들을 이용하여 유사도 점수를 재 산출한다(S250).
그리고, 제어부(140)는 추출된 유의미한 단어들을 이용하여 유사도 점수를 재 추출한다. S240단계에서 산출된 유사도 점수와 S250 단계에서 산출된 유사도 점수의 평균 점수를 이용하여 최종적인 유사도 점수를 산출한다.
S250 단계가 완료되면, 제어부(140)는 산출된 유사도 점수와 S220단계에서 획득한 컨피던스 점수를 이용하여 평가 점수를 산출한다(S260).
평가 점수는 하기의 수학식 2를 통해 산출된다.
Figure 112019123391889-pat00004
여기서, sim(A, R)은 유사도 점수이고, conf는 컨피던스 점수이며, A’,R’은 정답 텍스트와 보정된 텍스트에서 명사와 동사같이 유의미한 단어들만 추출하여 재구성한 문장을 나타낸다.
도 4에 도시된 바와 같이, 예를 들어 설명하면, 정답 텍스트가 “카드와 영수증입니다”라고 가정한다. 사용자로부터 음성데이터를 획득한 수신부(110)는 음성데이터를 텍스트 변환부(120)에 전달한다. 그 결과 텍스트 변환부(120)는 STT를 통해 “눠아둘 영수증 닭” 및 컨피던스 점수 “0.4”를 획득한다.
그 다음, 보정 텍스트 추출부(130)는 변환된 텍스트 즉, “눠아둘 영수증 닭”을 기 구축된 음향모델 및 언어모델에 입력하여 “카드랑 영수증입니다”라는 보정된 텍스트를 추출한다.
그리고, 제어부(140)는 “카드랑 영수증입니다”라는 보정된 텍스트와 “카드와 영수증입니다”라는 정답 텍스트를 비교하여 “0.9”에 대한 유사도 점수를 획득한다. 또한, 제어부(140)는 유의미한 단어를 이용하여 유사도 점수를 재산출한다. 여기서 유의미한 단어는 “카드 영수증 이”가 해당된다.
그리고, 재 산출된 유사도 점수는 1.0이 된다. 따라서, 첫 번째 유사도 점수인 0.9와 두 번째 유사도 점수인 1.0을 이용하여 평균값을 산출한다.
마지막으로, 제어부(140)는 앞서 산출된 컨피던스 점수인 0.4와 유사도 평균점수인 0.95를 상기의 수학식 2에 적용하여 0.675에 대한 점수를 획득한다.
본 발명의 실시예에 있어서, 문장 전체의 유사도 점수만을 사용 하지 않고 재구성한 문장의 유사도를 같이 사용한 이유는 의도를 올바르게 표현했는지에 대해 판단하기 위해서이며, 컨피던스 점수를 추가한 이유는 올바르게 발음을 했는지 판단하기 위해서이다.
이와 같이 본 발명에 따르면, 사용자의 음성을 텍스트로 변환, 및 사용자의 의도에 부합하도록 수정하는 과정을 통해 사용자의 화용 능력 향상 효과를 도모할 수 있고, 정답 문장과 보정된 문장 사이의 점수를 매김으로써 사용자의 언어 능력을 실시간으로 확인하여 언어 구사 및 활용 능력에 도움을 줄 수 있다.
본 발명은 도면에 도시된 실시예를 참고로 하여 설명되었으나 이는 예시적인 것에 불과하며, 당해 기술이 속하는 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호범위는 아래의 청구범위의 기술적 사상에 의하여 정해져야 할 것이다.
100 : 발달 장애인 음성 인식 점수 산출 장치
110 : 수신부
120 : 텍스트 변환부
130 : 보정 텍스트 추출부
140 :제어부
150 :음성 데이터베이스

Claims (12)

  1. AI방식을 이용한 발달 장애인 음성 인식 점수 산출 장치에 있어서,
    발달 장애인의 육성에 의해 생성된 음성 데이터를 수신받는 수신부,
    상기 수신된 음성 데이터를 블록 단위로 샘플링 한 다음, 언어 인식 모델에 입력하여 음성 데이터를 텍스트로 변환하고, 변환된 텍스트를 이용하여 컨피던스 점수를 획득하는 텍스트 변환부,
    상기 변환된 텍스트와 정답 텍스트를 RNN 기반의 딥러닝 모듈에 입력하여 보정 텍스트를 획득하는 보정 텍스트 추출부, 그리고
    상기 획득한 보정 텍스트와 정답 텍스트를 비교하여 유사 여부를 판단하고, 판단된 결과에 따른 평가 점수를 산출하는 제어부를 포함하며,
    상기 제어부는,
    생성된 행렬을 하기의 수학식에 적용하여 보정된 텍스트와 정답 텍스트 사이의 유사도 점수를 산출하는 발달 장애인 음성 인식 점수 산출 장치:
    Figure 112021103487459-pat00017

    여기서, A는 정답 텍스트이고, R은 보정된 텍스트이고, D는 행렬이고, AL은 정답 텍스트의 길이이고, RL은 보정된 텍스트의 길이이고, DL은 행렬에 포함된 열의 크기를 나타낸다.
  2. 제1항에 있어서,
    상기 수신부는,
    상기 발달 장애인이 정답 텍스트를 읽음으로서 발생된 음성 데이터를 수신하고, 수신된 음성 데이터에 포함되어 있는 잡음을 처리하여 음성 특징을 추출하는 발달 장애인 음성 인식 점수 산출 장치.
  3. 제2항에 있어서,
    상기 보정 텍스트 추출부는,
    오디오 신호와 언어의 음성 단위 간의 관계를 학습한 음향모델과, 문법체계를 통계적으로 학습한 언어 모델을 기 구축하고,
    상기 구축된 음향 모델 및 언어 모델에 수신된 음성 데이터를 입력하여 보정 텍스트를 획득하는 발달 장애인 음성 인식 점수 산출 장치.
  4. 제3항에 있어서,
    상기 제어부는,
    차이 발견 알고리즘을 이용하여 보정된 텍스트와 정답 텍스트 사이의 동일한 부분과 다른 부분을 추출하고, 추출된 동일한 부분만을 선별하여 1행 n열의 행렬을 생성하는 발달 장애인 음성 인식 점수 산출 장치.
  5. 삭제
  6. 제1항에 있어서,
    상기 제어부는,
    상기 산출된 유사도 점수와 컨피던스 점수를 하기의 수학식에 적용하여 평가 점수를 산출하는 발달 장애인 음성 인식 점수 산출 장치:
    Figure 112021024088368-pat00014

    여기서, sim(A, R)은 유사도 점수이고, conf는 컨피던스 점수이며, A’,R’은 정답 텍스트와 보정된 텍스트에서 명사와 동사같이 유의미한 단어들만 추출하여 재구성한 문장을 나타낸다.
  7. 발달 장애인 음성 인식 점수 산출 장치를 이용한 발달 장애인 음성 인식 점수 산출 방법에 있어서,
    발달 장애인의 육성에 의해 생성된 음성 데이터를 수신받는 단계,
    상기 수신된 음성 데이터를 블록 단위로 샘플링 한 다음, 언어 인식 모델에 입력하여 음성 데이터를 텍스트로 변환하고, 변환된 텍스트를 이용하여 컨피던스 점수를 획득하는 단계,
    상기 변환된 텍스트와 정답 텍스트를 RNN 기반의 딥러닝 모듈에 입력하여 보정 텍스트를 획득하는 단계, 그리고
    상기 획득한 보정 텍스트와 정답 텍스트를 비교하여 유사 여부를 판단하고, 판단된 결과에 따른 평균 점수를 산출하는 단계를 포함하며,
    상기 평균 점수를 산출하는 단계는,
    생성된 행렬을 하기의 수학식에 적용하여 보정된 텍스트와 정답 텍스트 사이의 유사도 점수를 산출하는 발달 장애인 음성 인식 점수 산출 방법:
    Figure 112021103487459-pat00018

    여기서, A는 정답 텍스트이고, R은 보정된 텍스트이고, D는 행렬이고, AL은 정답 텍스트의 길이이고, RL은 보정된 텍스트의 길이이고, DL은 행렬에 포함된 열의 크기를 나타낸다.
  8. 제7항에 있어서,
    상기 음성 데이터를 수신받는 단계는,
    상기 발달 장애인이 정답 텍스트를 읽음으로서 발생된 음성 데이터를 수신하고, 수신된 음성 데이터에 포함되어 있는 잡음을 처리하여 음성 특징을 추출하는 발달 장애인 음성 인식 점수 산출 방법.
  9. 제8항에 있어서,
    상기 보정 텍스트를 획득하는 단계는,
    오디오 신호와 언어의 음성 단위 간의 관계를 학습한 음향모델과, 문법체계를 통계적으로 학습한 언어 모델을 기 구축하고,
    상기 구축된 음향 모델 및 언어 모델에 수신된 음성 데이터를 입력하여 보정 텍스트를 획득하는 발달 장애인 음성 인식 점수 산출 방법.
  10. 제9항에 있어서,
    상기 평균 점수를 산출하는 단계는,
    차이 발견 알고리즘을 이용하여 보정된 텍스트와 정답 텍스트 사이의 동일한 부분과 다른 부분을 추출하고, 추출된 동일한 부분만을 선별하여 1행 n열의 행렬을 생성하는 발달 장애인 음성 인식 점수 산출 방법.
  11. 삭제
  12. 제7항에 있어서,
    상기 평균 점수를 산출하는 단계는,
    상기 산출된 유사도 점수와 컨피던스 점수를 하기의 수학식에 적용하여 평가점수를 산출하는 발달 장애인 음성 인식 점수 산출 방법:
    Figure 112021024088368-pat00016

    여기서, sim(A, R)은 유사도 점수이고, conf는 컨피던스 점수이며, A’,R’은 정답 텍스트와 보정된 텍스트에서 명사와 동사같이 유의미한 단어들만 추출하여 재구성한 문장을 나타낸다.
KR1020190156569A 2019-11-29 2019-11-29 발달 장애인 음성 인식 점수 산출 장치 및 그 방법 KR102358087B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190156569A KR102358087B1 (ko) 2019-11-29 2019-11-29 발달 장애인 음성 인식 점수 산출 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190156569A KR102358087B1 (ko) 2019-11-29 2019-11-29 발달 장애인 음성 인식 점수 산출 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20210067201A KR20210067201A (ko) 2021-06-08
KR102358087B1 true KR102358087B1 (ko) 2022-02-03

Family

ID=76399727

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190156569A KR102358087B1 (ko) 2019-11-29 2019-11-29 발달 장애인 음성 인식 점수 산출 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR102358087B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008262120A (ja) * 2007-04-13 2008-10-30 Nippon Hoso Kyokai <Nhk> 発話評価装置及び発話評価プログラム
KR101562222B1 (ko) * 2014-07-22 2015-10-23 조광호 발음의 정확도 평가 장치 및 그 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000030906A (ko) 2000-03-29 2000-06-05 백종관 음성 인식과 음성 합성을 이용한 컴퓨터에서의 명령 실행방법 및 어플리케이션 프로그램에서의 선택된 텍스트를음성으로 변환하여 출력하기 위한 방법
KR20050101694A (ko) * 2004-04-19 2005-10-25 대한민국(전남대학교총장) 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법
US20080091426A1 (en) * 2006-10-12 2008-04-17 Rod Rempel Adaptive context for automatic speech recognition systems
KR20120046627A (ko) * 2010-11-02 2012-05-10 삼성전자주식회사 화자 적응 방법 및 장치
KR102386854B1 (ko) * 2015-08-20 2022-04-13 삼성전자주식회사 통합 모델 기반의 음성 인식 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008262120A (ja) * 2007-04-13 2008-10-30 Nippon Hoso Kyokai <Nhk> 発話評価装置及び発話評価プログラム
KR101562222B1 (ko) * 2014-07-22 2015-10-23 조광호 발음의 정확도 평가 장치 및 그 방법

Also Published As

Publication number Publication date
KR20210067201A (ko) 2021-06-08

Similar Documents

Publication Publication Date Title
KR102191425B1 (ko) 인터랙티브 캐릭터 기반 외국어 학습 장치 및 방법
JPH0850498A (ja) 音声をテキストに変換するための方法および装置
JP2017058674A (ja) 音声認識のための装置及び方法、変換パラメータ学習のための装置及び方法、コンピュータプログラム並びに電子機器
JPH09500223A (ja) 多言語音声認識システム
KR20140121580A (ko) 자동 번역 및 통역 장치 및 그 방법
US11810471B2 (en) Computer implemented method and apparatus for recognition of speech patterns and feedback
JPH0922297A (ja) 音声‐テキスト変換のための方法および装置
KR101836430B1 (ko) 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버
Ghai et al. Analysis of automatic speech recognition systems for indo-aryan languages: Punjabi a case study
US9691389B2 (en) Spoken word generation method and system for speech recognition and computer readable medium thereof
WO2006083020A1 (ja) 抽出された音声データを用いて応答音声を生成する音声認識システム
US20230274727A1 (en) Instantaneous learning in text-to-speech during dialog
CN112581963A (zh) 一种语音意图识别方法及系统
JPH10504404A (ja) 音声認識のための方法および装置
CN113744722A (zh) 一种用于有限句库的离线语音识别匹配装置与方法
KR20180033875A (ko) 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스
KR20180025559A (ko) 발음 사전 학습 방법 및 장치
JP2010197644A (ja) 音声認識システム
US11817079B1 (en) GAN-based speech synthesis model and training method
KR20150014235A (ko) 자동 통역 장치 및 방법
KR102358087B1 (ko) 발달 장애인 음성 인식 점수 산출 장치 및 그 방법
EP3718107B1 (en) Speech signal processing and evaluation
US6772116B2 (en) Method of decoding telegraphic speech
KR20220112560A (ko) 실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템
JP2012255867A (ja) 音声認識装置

Legal Events

Date Code Title Description
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant