KR20220164668A - 인공지능 기반의 학습된 단어 추출 가능 자동 음성 녹음기 - Google Patents

인공지능 기반의 학습된 단어 추출 가능 자동 음성 녹음기 Download PDF

Info

Publication number
KR20220164668A
KR20220164668A KR1020210073125A KR20210073125A KR20220164668A KR 20220164668 A KR20220164668 A KR 20220164668A KR 1020210073125 A KR1020210073125 A KR 1020210073125A KR 20210073125 A KR20210073125 A KR 20210073125A KR 20220164668 A KR20220164668 A KR 20220164668A
Authority
KR
South Korea
Prior art keywords
voice
language
artificial intelligence
user
recording
Prior art date
Application number
KR1020210073125A
Other languages
English (en)
Inventor
박현주
Original Assignee
박현주
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 박현주 filed Critical 박현주
Priority to KR1020210073125A priority Critical patent/KR20220164668A/ko
Publication of KR20220164668A publication Critical patent/KR20220164668A/ko

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/72Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for transmitting results of analysis
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B23/00Record carriers not specific to the method of recording or reproducing; Accessories, e.g. containers, specially adapted for co-operation with the recording or reproducing apparatus ; Intermediate mediums; Apparatus or processes specially adapted for their manufacture
    • G11B23/02Containers; Storing means both adapted to cooperate with the recording or reproducing means
    • G11B23/03Containers for flat record carriers
    • G11B23/0301Details
    • G11B23/0302Auxiliary features
    • G11B23/0305Semiconductor memories
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 실시 예는 도면 1과 같이 외부에는 마이크와 스피커를 부착하고 내부에는 제어수단, 데이터 베이스 그리고 전원 공급 수단을 배치한다. 도면 3은 다수의 음성을 인식 후 등록하는 단계; 상기 등록된 단어 사용자의 발화 음성에 대한 소리 신호를 수신하는 단계; 상기 등록된 음성의 특성을 추출하는 단계; 상기 추출된 단어 음성 데이터를 획득하는 단계; 상기 음성 인식 결과에 기초하여 사용자의 의도 여부를 결정하는 단계; 상기 사용자의 의도 인식을 실패하는 단계; 상기 인식되지 못한 음성을 확인하는 단계; 상기 음성을 전처리 단계로 전처리 하는 단계; 상기 실패한 음성을 대신하여 대체 음성을 획득 및 생성하는 단계; 상기 학습된 언어들 중 불확실한 언어의 정상 인식 영역과 유사도가 기준 값 이상이 언어를 선택하는 단계; 상기 변환된 언어를 선택된 언어들 중에서 변환된 언어의 오인식 영역과 유사도가 가장 높은 언어로 대체하는 단계; 상기 대체된 언어를 판별하는 단계; 상기 대체 및 판별된 단어로 녹음을 수행하는 단계를 포함하는 방식으로 목소리만으로 간편하게 녹음을 진행할 수 있는 인공 지능 장치를 제공한다.

Description

인공지능 기반의 학습된 단어 추출 가능 자동 음성 녹음기{Automatic voice recorder capable of extracting words learned based on artificial intelligence}
본 발명품은 사용자의 음성을 인식 후 학습된 특정 단어를 타인 또는 자신이 말하면 음성 녹음이 가능해지는 방법과 이를 위한 인공지능 녹음 시스템에 관한 것이다. 인공지능이 그 오디오를 분석해서 이 소리는 라는 발음이 라는 것을 알고 아 라는 문자로 표현할 수 있다. 각각의 소리에 파형에 대해 학습을 마치고, 이어진 음성의 파형을 분석해서 소리를 분석한다. 음절 단위로 소리가 분석되면 그것을 기반으로 문장을 분석하는 원리를 이용한다.
최근에는 직장 내 갑질과 학교 폭력이라는 뉴스에 피해자들이 고통받고 있는 것이 수면 위로 떠오르고 있다. 이때 가해자로부터 나를 보호하는 수단 중 하나는 녹음이다. 하지만 녹음을
시작하게 된다면 녹음기 시작 버튼을 누르는 행위나 녹음 시작을 알리는 소리가 들리기 마련이다.
그렇게 된다면 사용자에게 피해를 주려고 하는 사람에게 녹음을 하는 것을 알리는 행위는 상황을 더 악화시킬 수 있는 곤란한 문제점이 있다. 이것을 피하기 위해 소리를 통한 제어 인공지능 장치가 필요하다. 하지만 소리를 통해 제어를 수행하는 장치는 오인식으로 인하여 제어를 수행하지 못한다. 따라서 오인식에 관한 피드백을 제공 후 다시 실행을 통하여 인공 지능 성능을 높일 수 있는 기술이 필요하다.
본 발명은 개인의 부득이하게 녹음기를 켤 수 없는 상황이나 신속한 녹음이 필요한 경우 보다 편리하게 음성 신호가 입력된 후 음성 인식이 이루어지는지 판단 후 음성 인식이 잘 이루어진 것으로 판단되는 경우 인식된 결과에 맞는 제어를 수행 및 인식이 잘 이루어지지 않은 경우에는 피드백을 제공하는 인공 지능 장치 및 그 방법을 제공 및 목적이 있다.
실시예는 녹음기 내부의 제어 수단의 제어로 음성이 저장되는 데이터 베이스를 설치하고 녹음기 외부의 녹음 버튼, 재생 버튼, 스피커와 마이크를 설치한다. 상기 마이크를 통하여 다수의 음성을 참조하여 녹음기에 최초 음성을 등록하는 단계; 상기 등록된 음성 참조를 인식하고 상기 음성 참조에 기초하여 상기 최초 음성을 조정하는 단계; 상기 조정된 음성과 사용자의 발화 음성에 대한 소리 신호 인식하는 단계; 상기 발화된 음성에 대해 수신된 소리 신호를 인식 후 최초 등록된 음성을 인식하는 단계; 상기 등록된 음성의 특징을 추출하여 인식하는 단계; 상기 추출된 음성의 특징 데이터를 수집하여 선별해 내는 단계; 상기 선별된 음성의 데이터를 획득하여 단어를 인식해 내는 단계; 상기 인식된 단어를 추출하여 학습하는 단계; 상기 학습된 단어에 기초하여 사용자의 의도를 인식하는 단계; 상기 사용자의 의도를 인식 성공하는 단계; 상기 사용자의 인식된 단어에 대한 의도 성공 시 녹음 동작을 수행하는 단계; 반면, 사용자의 상기 인식된 단어에 대한 의도 인식 성공 못 할 시 단계; 상기 인식된 음성과 다른 대체 음성을 전처리부에서 획득하는 단계; 상기 미리 학습된 단어들 중 불확실한 언어를 전처리부에서 추출하는 단계; 상기 불확실한 언어의 정상 인식 영역과 유사도가 기준 값 이상인 언어를 데이터 생성부에서 선택하는 단계; 상기 변환된 언어를 선택된 언어들 중에서 변환된 언어의 오인식 영역과 유사도가 가장 높은 대체 언어를 데이터 판별부에서 찾은 후 판단하는 단계; 상기 대체된 단어를 출력부에서 선택하여 추출하는 단계; 상기 추출 및 출력된 단어를 가지고 녹음 동작을 수행하는 단계; 를 포함하는 녹음을 하기 위한 특정된 단어를 학습 및 인식하여 녹음을 실시하는 방법을 제공할 수 있다.
본 발명에 따른 실시예는 다수의 음성을 추정하여 인식된 단어로 개인의 보호와 개인의 안전한
생활을 위한 방법 및 시스템을 제공할 수 있다.
또한, 본 발명에 따른 실시예는 개인 또는 타인의 목소리를 저장하여 간편하게 녹음을 할 수 있는 방법 및 시스템을 제공할 수 있다.
또한, 본 발명에 따른 실시 예는, 긴급한 녹음이 필요할 시 간단하게 녹음이 가능하게 한다.
또한, 본 발명에 따른 실시 예는 녹음으로 인해 피해자 보호를 위한 강력한 증거 기록을 가능하게 한다.
또한, 본 발명에 따른 실시 예는 녹음의 효율성을 높일 수 있는 방법 및 시스템을 제공할 수 있다.
또한, 본 발명에 따른 실시예는 유사도를 간진 언어 또는 단어를 통해 파악 후 사용자의 의도를 파악하는 방법 및 시스템을 제공할 수 있다.
또한, 본 발명에 따른 실시예는 음성 녹음 완료 후 음성 정보를 출력할 수 있는 시스템을 제공한다.
도 1은 녹음을 위한 녹음기의 구성도로 내부는 제어수단과 데이터 베이스를 외부에는 마이크, 스피커 그리고 전원 공급 수단인 버튼을 배치하여 녹음기의 기능을 갖춘다.
도 2는 도3의 녹음 시 음성 인식이 되지 않을 상황에 이용되는 부분의 개략도이다.
도 3은 녹음을 위한 음성 인식 시 필요한 단어를 수집하고 추출한 뒤 성공 여부에 따라 대처할 수 있는 방향을 제시하는 방법을 나타낸다.
본 발명은 여러가지 단어를 수집 후 다양한 단어들의 변화에도 적은 실패 확률로 녹음이 가능한 바 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다, 본 발명의 효과 및 특징 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 설명하고자 한다.
도 1에 표시된 10은 제어 수단으로써 녹음기의 기능을 제어하여 녹음기의 기능을 실시하는 부분이다
20은 음성을 등록 시 필요한 음성을 수집하기 위한 마이크이다.
30은 음성인식을 위한 다수의 음성을 등록하고 의도 인식 실패 시 불확실한 언어와 비교할 수 있는 정상 인식 언어들이 보관된 데이터 베이스이다.
40은 음성이 출력되는 곳으로써 사용자가 녹음 수행 완료 후 원하는 동작이 수행되었는지 확인하기 위한 스피커이다.
50은 녹음 기능을 장시간 사용하지 않을 시 불필요한 에너지 낭비를 위한 전원 공급 수단 장치이다.
도면 2의 도면 3의 150단계의 세부적인 면을 나타낸 도면이다
도면 2의 N10은 사용자의 의도 인식 실패 시 인식되지 못한 음성을 수집하는 단계이다.
N20은 상기 인식되지 못한 데이터를 전달받아 전처리하는 전처리 데이터를 생성하는 전처리부 단계이다.
N30은 상기 전처리된 데이터를 미리 학습된 언어들 중 불확실한 언어의 정상 인식 영역과 유사도가 기준 값 이상인 데이터를 생성 및 선택 변환하는 단계이다.
N40은 상기 생성 및 선택 변환된 데이터를 선택된 언어들 중에서 변환된 언어의 오인식 영역과 유사도가 가장 높은 언어를 판별하는 단계이다.
N50은 상기 판별된 언어 데이터를 올바른 언어로 대처 후 출력하는 단계이다.
도면 3의 동작 100은 음성 녹음 동작을 위한 다수의 음성을 등록하는 단계이다.
110의 동작은 상기 등록된 사용자의 발화 음성의 소리 신호를 수신하는 단계이다.
120의 동작은 상기 등록된 사용자의 발화 음성의 소리 신호 수신의 음성 및 특징을 추출하는 단계이다.
130의 동작은 100,110 그리고 120의 동작을 통하여 음성 데이터를 획득하는 단계이다.
140의 동작은 상기 음성 인식 결과에 기초하여 사용자의 의도인 녹음을 실시할 것인지를 결정하는 단계이다
150의 동작은 상기 사용자의 의도 인식에 실패하였을 시 대체 음성을 획득하는 단계이다.
160의 동작은 상기 학습된 언어들 중 불확실한 언어를 찾은 후 불확실한 언어의 정상 인식 영역과 유사도가 기준 값 이상인 언어를 선택하는 단계이다.
170의 단계는 변환된 언어를 선택된 언어들 중 변환된 언어의 오인식 영역과 유사도가 가장 높은 언어로 대체하는 단계이다.
180의 단계는 상기 성공하였을 경우 또는 성공하지 못했을 시 대체 음성 획득 후 사용자의 의도 인식에 성공하여 녹음 동작을 수행하는 단계이다.

Claims (9)

  1. 녹음기의 몸체 외부에는 장기간 녹음을 진행하지 않을 시 에너지 절약을 위한 녹음버튼과 음량 조정 버튼, 스피커 그리고 마이크를 장착한다.
  2. 상기 녹음기의 외부에는 제어수단과 메모리를 장착하여 음성 녹음이 가능하게 한다.
  3. 상기 마이크를 통해 사용자의 음성 신호를 획득하는 인공 지능 장치
  4. 상기 음성 인식 모델을 이용하여 상기 음성 신호를 텍스트로 변환하고 상기 측정한 신뢰도가 기준 값 이상인 경우에는 상기 수신된 소리 신호의 특징을 추출하는 단계; 상기 추출된 음성 및 단어 데이터를 수집 및 획득하는 단계를 포함하는 음성 및 단어를 수집하는 인공 지능 장치
  5. 제4항에 있어서, 상기 수집 및 획득된 음성 및 단어에 기초하여 사용자의 의도를 파악하는 단계를 거친 후 사용자의 의도 파악 실패 시 대체 음성을 획득하는 단계를 포함하는 음성 및 단어를 수집하는 인공 지능 장치
  6. 제5항에 있어서, 상기 수집 및 획득한 음성 및 단어 중 불확실한 언어의 정상 인식 영역과 유사도가 기준 값 이상인 언어를 찾아 피드백을 생성하는 인공지능 장치
  7. 제6항에 있어서 상기 피드백을 통해 언어를 선택하여 불확실한 언어와 변환되는 내용을 포함한 피드백을 생성하는 인공지능 장치
  8. 제7항에 있어서 상기 변환된 언어를 선택된 언어들 중에서 변환된 언어의 오인식 영역과 유사도가 가장 높은 언어로 대체되는 정보를 알리는 내용을 포함하는 피드백을 제공하는 인공 지능 장치
  9. 제8항에 있어서 상기 대체된 언어를 통해 사용자의 의도를 파악하는 단계; 상기 파악된 의도인 녹음 동작을 수행하는 단계를 포함하는 맞춤 단어를 수집하는 방법 및 녹음 인공 지능 장치

KR1020210073125A 2021-06-05 2021-06-05 인공지능 기반의 학습된 단어 추출 가능 자동 음성 녹음기 KR20220164668A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210073125A KR20220164668A (ko) 2021-06-05 2021-06-05 인공지능 기반의 학습된 단어 추출 가능 자동 음성 녹음기

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210073125A KR20220164668A (ko) 2021-06-05 2021-06-05 인공지능 기반의 학습된 단어 추출 가능 자동 음성 녹음기

Publications (1)

Publication Number Publication Date
KR20220164668A true KR20220164668A (ko) 2022-12-13

Family

ID=84439112

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210073125A KR20220164668A (ko) 2021-06-05 2021-06-05 인공지능 기반의 학습된 단어 추출 가능 자동 음성 녹음기

Country Status (1)

Country Link
KR (1) KR20220164668A (ko)

Similar Documents

Publication Publication Date Title
US11455995B2 (en) User recognition for speech processing systems
WO2021159688A1 (zh) 声纹识别方法、装置、存储介质、电子装置
US6618702B1 (en) Method of and device for phone-based speaker recognition
Faundez-Zanuy et al. State-of-the-art in speaker recognition
US5794196A (en) Speech recognition system distinguishing dictation from commands by arbitration between continuous speech and isolated word modules
JP2991144B2 (ja) 話者認識装置
JP5098613B2 (ja) 音声認識装置及びコンピュータプログラム
JPS58130393A (ja) 音声認識装置
US20220343895A1 (en) User-defined keyword spotting
US20080154591A1 (en) Audio Recognition System For Generating Response Audio by Using Audio Data Extracted
CN113129895B (zh) 一种语音检测处理系统
JP2996019B2 (ja) 音声認識装置
KR20220164668A (ko) 인공지능 기반의 학습된 단어 추출 가능 자동 음성 녹음기
KR20180057315A (ko) 자연어 발화 음성 판별 시스템 및 방법
KR102661005B1 (ko) 다채널 다화자 환경에서 화자별 음원분리장치 및 방법
WO2019030810A1 (ja) 音声認識装置および音声認識方法
KR102221236B1 (ko) 음성을 제공하는 방법 및 장치
JP6517417B1 (ja) 評価システム、音声認識装置、評価プログラム、及び音声認識プログラム
US8688452B2 (en) Automatic generation of distractors for special-purpose speech recognition grammars
Macherey et al. Multi-level error handling for tree based dialogue course management
JP3357752B2 (ja) パターンマッチング装置
Kalinli et al. Continuous speech recognition using attention shift decoding with soft decision.
CN117351945A (zh) 身份鉴权方法、装置及介质
JPH0534679B2 (ko)
JPH0316038B2 (ko)