KR20240053154A - Speech recognition media playback device and method - Google Patents

Speech recognition media playback device and method Download PDF

Info

Publication number
KR20240053154A
KR20240053154A KR1020220132897A KR20220132897A KR20240053154A KR 20240053154 A KR20240053154 A KR 20240053154A KR 1020220132897 A KR1020220132897 A KR 1020220132897A KR 20220132897 A KR20220132897 A KR 20220132897A KR 20240053154 A KR20240053154 A KR 20240053154A
Authority
KR
South Korea
Prior art keywords
voice
speaker
unit
data
user
Prior art date
Application number
KR1020220132897A
Other languages
Korean (ko)
Inventor
송수인
정지원
장선규
Original Assignee
송수인
정지원
장선규
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 송수인, 정지원, 장선규 filed Critical 송수인
Priority to KR1020220132897A priority Critical patent/KR20240053154A/en
Publication of KR20240053154A publication Critical patent/KR20240053154A/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명은 작업 환경에서의 환경, 작업 소음이 제거된 음성을 인식하고, 미디어 재생과 같은 제어 동작을 실행하고, 손으로 전자기기를 조작하지 않고도 미디어를 음성으로 제어한다.The present invention recognizes the environment in a work environment and voices from which work noise has been removed, performs control operations such as media playback, and controls media by voice without manipulating electronic devices by hand.

Description

음성 인식 미디어 재생 장치 및 방법{SPEECH RECOGNITION MEDIA PLAYBACK DEVICE AND METHOD}Voice recognition media playback device and method {SPEECH RECOGNITION MEDIA PLAYBACK DEVICE AND METHOD}

본 발명은 음성 인식 미디어 재생 장치 및 방법에 관한 것으로, 보다 상세하게는 사용자는 소음이 심한 환경에서도 미디어를 감상하고, 사용자는 손으로 도구를 잡고 작업하는 중에 미디어를 감상하는 음성 인식 미디어 재생 장치 및 방법에 관한 것이다.The present invention relates to a voice recognition media playback device and method. More specifically, a voice recognition media playback device that allows a user to enjoy media even in a noisy environment and allows the user to watch media while working while holding a tool with his or her hand. It's about method.

본 발명에 관련된 종래기술에는 감시 시스템, 발화 음성 인식, 음성 인터랙션이 있다. 특허문헌 1 자동감지/촬영기능을 구비한 감시시스템 및 감시방법은 3D 정상태, 3D 줌인상태, 3D 줌아웃상태의 영상을 전송한다. 또한, 특허문헌 2 멀티미디어 컨텐츠에 접속하기 위한 시스템 및 방법은 멀티미디어 컨텐츠의 하나 이상의 부분과 연결한다. 또한, 특허문헌 3 사용자의 발화 음성을 인식하는 인공 지능 장치 및 그 방법은 사용자의 발화 음성을 인식한다. 또한, 특허문헌 4 음성 인터랙션 방법 및 이를 이용한 차량은 차량과 탑승객 간의 음성 인터랙션 여부, 음성 인터랙션 설정을 변경한다.Conventional technologies related to the present invention include surveillance systems, spoken voice recognition, and voice interaction. Patent Document 1: A surveillance system and surveillance method equipped with an automatic detection/photography function transmits images in 3D normal state, 3D zoom-in state, and 3D zoom-out state. Additionally, Patent Document 2: System and method for accessing multimedia content connects to one or more portions of multimedia content. In addition, Patent Document 3, an artificial intelligence device and method for recognizing a user's spoken voice, recognizes a user's spoken voice. In addition, Patent Document 4's voice interaction method and vehicle using the same change whether or not there is voice interaction between the vehicle and passengers and the voice interaction settings.

그러나 종래기술은 작업 환경에서의 환경, 작업 소음이 제거된 음성을 인식하고, 미디어 재생과 같은 제어 동작을 실행하지 못하는 문제점이 있다.However, the prior art has the problem of not being able to recognize the environment in the work environment and voices from which work noise has been removed, and perform control operations such as media playback.

등록특허공보 제10-0997497호 자동감지/촬영기능을 구비한 감시시스템 및 감시방법Registered Patent Publication No. 10-0997497 Surveillance system and surveillance method with automatic detection/photography function 공개특허공보 제10-2014-0108180호 멀티미디어 컨텐츠에 접속하기 위한 시스템 및 방법Public Patent Publication No. 10-2014-0108180 System and method for accessing multimedia content 등록특허공보 제10-2281602호 사용자의 발화 음성을 인식하는 인공 지능 장치 및 그 방법Registered Patent Publication No. 10-2281602 Artificial intelligence device and method for recognizing user's spoken voice 등록특허공보 제10-2330978호 음성 인터랙션 방법 및 이를 이용한 차량Registered Patent Publication No. 10-2330978 Voice interaction method and vehicle using the same

본 발명은 작업 환경에서의 환경, 작업 소음이 제거된 음성을 인식하고, 미디어 재생과 같은 제어 동작을 실행하는 음성 인식 미디어 재생 장치 및 방법을 제공하는 것을 목적으로 한다.The purpose of the present invention is to provide a voice recognition media playback device and method that recognizes voices from which environmental and work noises have been removed in a work environment and performs control operations such as media playback.

또한, 본 발명은 손으로 전자기기를 조작하지 않고도 미디어를 음성으로 제어하는 음성 인식 미디어 재생 장치 및 방법을 제공하는 것을 또 다른 목적으로 한다.Another object of the present invention is to provide a voice recognition media playback device and method for controlling media by voice without manipulating electronic devices by hand.

본 발명의 바람직한 일 실시예에 따른 음성 인식 미디어 재생 장치 및 방법은, 단말기(6)에 포함된 음성 인식 시스템을 통해 주변 소음이 포함된 사용자 음성 데이터를 입력받는 음향 및 음성 입력부(100); 사용자 음성 데이터로부터 환경 소음 및 작업 소음을 제거하고, 발화자 음성을 획득하는 발화자 독립 음성 인식부(200); 사전에 학습된 발화자 음성 데이터를 기반으로 원본 데이터에서 발화자 음성을 식별하는 발화자 종속 음성 인식부(300); 상기 발화자 독립 음성 인식부, 상기 발화자 종속 음성 인식부(300)에 의해 추출된 발화자 음성 데이터를 텍스트 데이터로 변환하는 발화자 음성 텍스트 변환부(400); 상기 발화자 음성 텍스트 변환부(400)에서 변환된 텍스트 데이터를 기반으로 인공지능 모델을 통해 사용자 발화 의도, 구성 요소를 추출하는 사용자 의도 추론부(500); 추출된 발화 의도를 미디어를 제어할 수 있는 컴퓨터 명령어와 연결하는 의도 명령어 연결부(600); 및 영상을 재생하고, 미디어 제어 명령어를 통해 영상을 제어하는 미디어 재생부(700);를 포함하는 것을 특징으로 한다.A voice recognition media playback device and method according to a preferred embodiment of the present invention includes a sound and voice input unit 100 that receives user voice data including ambient noise through a voice recognition system included in a terminal 6; a speaker-independent voice recognition unit 200 that removes environmental and operational noise from user voice data and acquires the speaker's voice; A speaker-dependent voice recognition unit 300 that identifies the speaker's voice from the original data based on the speaker's voice data learned in advance; a speaker voice-to-text conversion unit 400 that converts speaker voice data extracted by the speaker-independent voice recognition unit and the speaker-dependent voice recognition unit 300 into text data; a user intention inference unit 500 that extracts user speech intention and components through an artificial intelligence model based on text data converted by the speaker voice-to-text conversion unit 400; An intention command connection unit 600 that connects the extracted speech intention with a computer command capable of controlling media; And a media playback unit 700 that plays the video and controls the video through a media control command.

또한, 상기 발화자 독립 음성 인식부(200)는, 환경 소음을 청취하고, 청취한 소리에 대하여 환경 소음 저장소(212)를 토대로 특징 요소를 학습하고, 심층 신경망이 환경 소음의 특징 요소를 학습하고, 학습 결과를 토대로 사용자 음성 데이터에서 환경 소음을 제거하고, 학습 결과를 환경 소음 저장소(212)에 저장하는 환경소음 제거부(210); 및 작업 소음을 청취하고, 청취한 소리에 대하여 작업 소음 저장소(222)를 토대로 특징 요소를 학습하고, 심층 신경망은 작업 소음의 특징 요소를 학습하고, 학습 결과를 토대로 환경 소음이 1차적으로 제거된 음성 데이터에서 작업 소음을 제거하고, 학습 결과를 작업 소음 저장소(222)에 저장하는 작업 소음 제거부(220);를 포함하는 것을 특징으로 한다.In addition, the speaker-independent speech recognition unit 200 listens to environmental noise, learns characteristic elements of the heard sound based on the environmental noise storage 212, and a deep neural network learns characteristic elements of the environmental noise, An environmental noise removal unit 210 that removes environmental noise from user voice data based on the learning results and stores the learning results in the environmental noise storage 212; And listen to the work noise, learn the characteristic elements of the heard sound based on the work noise storage 222, the deep neural network learns the feature elements of the work noise, and based on the learning results, the environmental noise is primarily removed. It is characterized in that it includes a work noise removal unit 220 that removes work noise from voice data and stores the learning results in the work noise storage 222.

또한, 상기 발화자 종속 음성 인식부(300)는, 원본 데이터로부터 개인 고유의 음성적 특징인 성문을 추출하고, 통계적 방법을 통해 분석하여 다수 발화자가 발언하는 상황에서 각각의 발화자 음성을 분리하는 성문 인식부(310); 다수 발화자의 음성이 동시에 감지되었을 경우 상기 성문 인식부(310)에서 분석된 데이터를 바탕으로 처음 발언한 발화자 음성만을 인식하여 추출하는 최초 발화자 인식부(320); 및 기존 등록된 사용자 음성의 특징 요소를 저장하는 발화자 음성 저장소(330);를 포함하는 것을 특징으로 한다.In addition, the speaker-dependent voice recognition unit 300 extracts the voiceprint, which is an individual's unique phonetic characteristic, from the original data, analyzes it through statistical methods, and separates the voices of each speaker in a situation where multiple speakers speak. (310); When the voices of multiple speakers are detected at the same time, a first speaker recognition unit 320 recognizes and extracts only the voice of the first speaker based on the data analyzed by the voiceprint recognition unit 310; and a speaker voice storage 330 that stores characteristic elements of an existing registered user voice.

또한, 상기 사용자 의도 추론부(500)는, 음성 데이터로부터 변환된 텍스트 데이터를 토대로 만약 이전에 추출된 이력이 있는 데이터라면 인공지능 모델을 거치지 않고, 바로 사용자 의도 저장소(520)에 저장된 발화 의도, 구성 요소를 가져와서 불필요한 인공지능 모델 연산을 줄이고, 이전에 추출된 이력이 없는 데이터의 경우 인공지능 모델을 통해 추출된 발화 의도, 구성 요소를 사용자 의도 저장소(520)에 저장하는 사용자 의도 관리부(510); 및 인공지능 모델을 통해 추출된 발화 의도, 구성 요소를 저장하는 사용자 의도 저장소(520);를 포함하는 것을 특징으로 한다.In addition, the user intention inference unit 500, if the data has previously been extracted based on text data converted from voice data, immediately stores the utterance intention in the user intention storage 520 without going through an artificial intelligence model, A user intention management unit (510) that imports components to reduce unnecessary artificial intelligence model calculations, and stores the utterance intent and components extracted through the artificial intelligence model in the user intent storage (520) in the case of data that has no previously extracted history. ); and a user intent storage 520 that stores speech intent and components extracted through an artificial intelligence model.

또한, 상기 의도 명령어 연결부(600)는, 각각의 발화 의도에 대응되는 미디어 제어 명령어에 대한 쌍을 저장하는 미디어 제어 명령어 저장소(610);를 포함하는 것을 특징으로 한다.In addition, the intent command connection unit 600 is characterized by including a media control command storage 610 that stores pairs of media control commands corresponding to each utterance intention.

본 발명은 작업 환경에서의 환경, 작업 소음이 제거된 음성을 인식하고, 미디어 재생과 같은 제어 동작을 실행함으로써 사용자는 소음이 심한 환경에서도 미디어를 감상하는 효과를 가질 수 있다.The present invention recognizes the work environment and voices with work noise removed, and performs control operations such as media playback, allowing users to enjoy media even in noisy environments.

또한, 본 발명은 손으로 전자기기를 조작하지 않고도 미디어를 음성으로 제어함으로써 사용자는 손으로 도구를 잡고 작업하는 중에 미디어를 감상하는 효과를 가질 수 있다.Additionally, the present invention controls media by voice without manipulating electronic devices with hands, allowing users to enjoy media while working while holding tools with their hands.

도 1 작업 환경을 보인 예시도이다.
도 2는 본 발명 음성 인식 미디어 재생 장치의 구성을 보인 블록도이다.
도 3은 본 발명 음성 인식 미디어 재생 방법의 동작을 보인 흐름도이다.
도 4는 본 발명을 설명하기 위한 데이터 오류를 검증하는 구성을 설명하는 예시도이다.
도 5는 본 발명을 설명하기 위한 하드웨어 자원과 운영체제, 코어인 제어부의 동작, 제어부 동작을 실행할 권한을 부여하는 시스템 인증 구성을 설명하는 예시도이다.
Figure 1 is an example diagram showing a working environment.
Figure 2 is a block diagram showing the configuration of the voice recognition media playback device of the present invention.
Figure 3 is a flowchart showing the operation of the voice recognition media playback method of the present invention.
Figure 4 is an example diagram illustrating a configuration for verifying data errors to explain the present invention.
Figure 5 is an example diagram illustrating the hardware resources, operating system, operation of the core control unit, and system authentication configuration that grants authority to execute the control unit operation to explain the present invention.

이하, 도면을 참조하여 본 발명의 실시 예에 따른 음성 인식 미디어 재생 장치 및 방법에 대하여 상세히 설명하기로 한다. 이하에서 종래 주지된 사항에 대한 설명은 본 발명의 요지를 명확히 하기 위해 생략하거나 간단히 한다. 본 발명의 설명에 포함된 구성은 개별 또는 복합 결합 구성되어 동작한다.Hereinafter, a voice recognition media playback device and method according to an embodiment of the present invention will be described in detail with reference to the drawings. Below, descriptions of previously known matters are omitted or simplified to clarify the gist of the present invention. The components included in the description of the present invention operate individually or in combination.

도 1 작업 환경을 보인 예시도로서, 도 1을 참조하면, 사용자(21)는 작업 환경(20)에서 도구(22)를 손으로 잡고 목공, 철재 작업을 수행한다. 이러한 작업 환경(20)에서 사용자(21)가 미디어를 음성으로 제어할 수 있는 본 발명 음성 인식 미디어 재생 장치 및 방법을 설명한다.Referring to FIG. 1 as an exemplary diagram showing a working environment, a user 21 holds a tool 22 with his hand and performs woodworking or steel work in the working environment 20. The voice recognition media playback device and method of the present invention, which allows the user 21 to control media by voice in this work environment 20, will be described.

도 2는 본 발명 음성 인식 미디어 재생 장치의 구성을 보인 블록도로서, 도 2를 참조하면, 음성 인식 미디어 재생 장치는 음향 및 음성 입력부(100), 발화자 독립 음성 인식부(200), 환경소음 제거부(210), 환경소음 수집부(211), 환경소음 저장소(212), 작업소음 제거부(220), 작업소음 수집부(221), 작업소음 저장소(222), 발화자 종속 음성 인식부(300), 성문 인식부(310), 최초발화자 인식부(320), 발화자 음성 저장소(330), 발화자 음성 텍스트 변환(400), 사용자 의도 추론부(500), 사용자 의도 관리부(510), 사용자 의도 저장소(520), 의도명령어 연결부(600), 미디어 제어 명령어 저장소(610), 미디어 재생부(700)를 포함한다.Figure 2 is a block diagram showing the configuration of the voice recognition media playback device of the present invention. Referring to Figure 2, the voice recognition media playback device includes a sound and voice input unit 100, a speaker independent voice recognition unit 200, and an environmental noise suppressor. Rejection (210), environmental noise collection unit (211), environmental noise storage (212), work noise removal unit (220), work noise collection unit (221), work noise storage (222), speaker-dependent voice recognition unit (300) ), voiceprint recognition unit 310, initial speaker recognition unit 320, speaker voice storage 330, speaker voice-to-text conversion (400), user intention inference unit 500, user intention management unit 510, user intention storage It includes (520), an intent command connection unit (600), a media control command storage (610), and a media playback unit (700).

단말기(6)는 음성 인식 미디어 재생 장치로 동작한다.The terminal 6 operates as a voice recognition media playback device.

음향 및 음성 입력부(100)는 단말기(6)에 포함된 음성 인식 시스템을 통해 주변 소음이 포함된 사용자 음성 데이터를 입력받는다.The sound and voice input unit 100 receives user voice data including ambient noise through a voice recognition system included in the terminal 6.

발화자 독립 음성 인식부(200)는 사용자 음성 데이터로부터 환경 소음 및 작업 소음을 제거하고, 발화자 음성을 획득한다. 환경소음 제거부(210)는 환경 소음을 청취하고, 청취한 소리에 대하여 환경 소음 저장소(212)를 토대로 특징 요소를 학습한다. 심층 신경망이 환경 소음의 특징 요소를 학습하고, 학습 결과를 토대로 사용자 음성 데이터에서 환경 소음을 제거하고, 학습 결과를 환경 소음 저장소(212)에 저장한다. 작업 소음 제거부(220)는 작업 소음을 청취하고, 청취한 소리에 대하여 작업 소음 저장소(222)를 토대로 특징 요소를 학습한다. 심층 신경망은 작업 소음의 특징 요소를 학습하고, 학습 결과를 토대로 환경 소음이 1차적으로 제거된 음성 데이터에서 작업 소음을 제거하고, 학습 결과를 작업 소음 저장소(222)에 저장한다.The speaker-independent voice recognition unit 200 removes environmental noise and work noise from user voice data and acquires the speaker's voice. The environmental noise removal unit 210 listens to environmental noise and learns characteristic elements of the heard sound based on the environmental noise storage 212. A deep neural network learns the characteristic elements of environmental noise, removes environmental noise from user voice data based on the learning results, and stores the learning results in the environmental noise storage 212. The work noise removal unit 220 listens to work noise and learns characteristic elements of the heard sound based on the work noise storage 222. The deep neural network learns the characteristic elements of task noise, removes task noise from voice data from which environmental noise has been primarily removed based on the learning results, and stores the learning results in the task noise storage 222.

발화자 종속 음성 인식부(300)는 사전에 학습된 발화자 음성 데이터를 기반으로 원본 데이터에서 발화자 음성을 식별하고, 성문 인식부(310), 최초 발화자 인식부(320), 발화자 음성 저장소(330)를 포함한다. 성문 인식부(310)는 원본 데이터로부터 개인 고유의 음성적 특징인 성문을 추출하고, 통계적 방법을 통해 분석하여 다수 발화자가 발언하는 상황에서 각각의 발화자 음성을 분리한다.The speaker-dependent voice recognition unit 300 identifies the speaker's voice from the original data based on pre-learned speaker voice data, and uses the voiceprint recognition unit 310, the initial speaker recognition unit 320, and the speaker voice storage 330. Includes. The voiceprint recognition unit 310 extracts the voiceprint, which is an individual's unique vocal characteristic, from the original data, analyzes it through statistical methods, and separates the voices of each speaker in a situation where multiple speakers speak.

최초 발화자 인식부(320)는 다수 발화자의 음성이 동시에 감지되었을 경우 성문 인식부(310)에서 분석된 데이터를 바탕으로 처음 발언한 발화자 음성만을 인식하여 추출한다. 발화자 음성 저장소(330)는 기존 등록된 사용자 음성의 특징 요소를 저장한다.When the voices of multiple speakers are detected simultaneously, the first speaker recognition unit 320 recognizes and extracts only the voice of the first speaker based on the data analyzed by the voiceprint recognition unit 310. The speaker voice storage 330 stores characteristic elements of existing registered user voices.

발화자 음성 텍스트 변환부(400)는 발화자 독립 음성 인식부, 발화자 종속 음성 인식부(300)에 의해 추출된 발화자 음성 데이터를 텍스트 데이터로 변환한다.The speaker voice-to-text conversion unit 400 converts the speaker voice data extracted by the speaker-independent voice recognition unit and the speaker-dependent voice recognition unit 300 into text data.

사용자 의도 추론부(500)는 발화자 음성 텍스트 변환부(400)에서 변환된 텍스트 데이터를 기반으로 인공지능 모델을 통해 사용자 발화 의도, 구성 요소를 추출하고, 사용자 의도 관리부(510), 사용자 의도 저장소(520)를 포함한다.The user intention inference unit 500 extracts the user speech intention and components through an artificial intelligence model based on the text data converted by the speaker voice-to-text conversion unit 400, and the user intention management unit 510 and the user intention storage ( 520).

사용자 의도 관리부(510)는 음성 데이터로부터 변환된 텍스트 데이터를 토대로 만약 이전에 추출된 이력이 있는 데이터라면 인공지능 모델을 거치지 않고, 바로 사용자 의도 저장소(520)에 저장된 발화 의도, 구성 요소를 가져와서 불필요한 인공지능 모델 연산을 줄인다. 또한, 이전에 추출된 이력이 없는 데이터의 경우 사용자 의도 관리부(510)는 인공지능 모델을 통해 추출된 발화 의도, 구성 요소를 사용자 의도 저장소(520)에 저장한다.Based on the text data converted from voice data, the user intention management unit 510 directly retrieves the utterance intention and components stored in the user intention storage 520 without going through the artificial intelligence model if the data has a history of being previously extracted. Reduce unnecessary artificial intelligence model calculations. Additionally, in the case of data that has no previous extraction history, the user intention management unit 510 stores the utterance intention and components extracted through the artificial intelligence model in the user intention storage 520.

사용자 의도 저장소(520)는 인공지능 모델을 통해 추출된 발화 의도, 구성 요소를 저장한다.The user intention storage 520 stores speech intention and components extracted through an artificial intelligence model.

의도 명령어 연결부(600)는 추출된 발화 의도를 미디어를 제어할 수 있는 컴퓨터 명령어와 연결하고, 미디어 제어 명령어 저장소(610)를 포함한다. 미디어 제어 명령어 저장소(610)는 각각의 발화 의도에 대응되는 미디어 제어 명령어에 대한 쌍을 저장한다. 예를 들어, 재생해줘 발화 의도에는 재생 명령이 쌍을 이룬다.The intent command connection unit 600 connects the extracted speech intention with a computer command capable of controlling media, and includes a media control command storage 610. The media control command storage 610 stores pairs of media control commands corresponding to each utterance intention. For example, the play utterance intent is paired with a play command.

미디어 재생부(700)는 영상을 재생하고, 미디어 제어 명령어를 통해 영상을 제어한다.The media playback unit 700 plays the video and controls the video through media control commands.

도 3은 본 발명 음성 인식 미디어 재생 방법의 동작을 보인 흐름도로서, 도 3을 참조하면, 제어부(5)는 음성 입력 단계(S201), 소음 제거 단계(S202), 음성 인식 단계(S203), 인식 결과 저장 단계(S204), 의도 추론 단계(S205)를 수행한다.Figure 3 is a flowchart showing the operation of the voice recognition media playback method of the present invention. Referring to Figure 3, the control unit 5 performs a voice input step (S201), a noise removal step (S202), a voice recognition step (S203), and a recognition step. The result storage step (S204) and the intention inference step (S205) are performed.

음성 입력 단계(S201)는 소음이 포함된 사용자 음성 데이터를 입력하고, 소음 제거 단계(S202)는 사용자 음성 데이터에서 소음을 제거하고, 음성 인식 단계(S203)는 소음이 제거된 음성 데이터를 텍스트 데이터로 인식하고, 인식 결과 저장 단계(S204)는 인식된 텍스트 데이터를 저장하고, 의도 추론 단계(S205)는 텍스트 데이터의 의도를 미디어 제어 명령으로 변환하고, 미디어 제어 명령에 따라 미디어를 제어한다.In the voice input step (S201), user voice data including noise is input, in the noise removal step (S202), noise is removed from the user voice data, and in the voice recognition step (S203), the voice data with the noise removed is converted into text data. Recognized, the recognition result storage step (S204) stores the recognized text data, and the intention inference step (S205) converts the intent of the text data into a media control command and controls the media according to the media control command.

도 4는 본 발명을 설명하기 위한 데이터 오류를 검증하는 구성을 설명하는 예시도이다.Figure 4 is an exemplary diagram illustrating a configuration for verifying data errors for illustrating the present invention.

도 4를 참조하면, 제어부(5)는 샘플링 데이터를 저장하고, 일정 시간 동안 샘플링 데이터의 크기 별로 발생 회수를 누적하여 확률 분포를 계산하고, 또 다른 일정 시간 동안의 확률 분포를 계산하고, 두 확률 분포의 차, 면적 차, 차 거리 누적을 계산해서(S101) 샘플링 회로 이상, 데이터 오류, 데이터 변화를 예측하고, 이에 대응할 수 있다(S102). 제어부(5)는 예측 결과를 사용자에게 알림으로써 사용자가 대응하거나 제어부(5)가 하드웨어 고장, 데이터 오류, 데이터 변화에 대응할 수 있다.Referring to FIG. 4, the control unit 5 stores sampling data, calculates a probability distribution by accumulating the number of occurrences for each size of the sampling data for a certain time, calculates a probability distribution for another certain time, and calculates the two probabilities. By calculating the distribution difference, area difference, and difference distance accumulation (S101), sampling circuit abnormalities, data errors, and data changes can be predicted and responded to (S102). The control unit 5 notifies the user of the prediction result so that the user can respond, or the control unit 5 can respond to hardware failure, data error, or data change.

샘플링 데이터는 사용자 음성 데이터, 환경 소음, 작업 소음, 텍스트 데이터를 포함하고, 제어부(5)는 샘플링 데이터에 기반하여 하드웨어 고장, 데이터 오류, 데이터 변화에 대응한다.Sampling data includes user voice data, environmental noise, work noise, and text data, and the control unit 5 responds to hardware failure, data error, and data change based on the sampling data.

제어부(5)는 일정 시간 동안 마다 각각의 확률 분포 추이를 보고, 확률 분포 중 특이 현상 이상을 예측하고, 이상 사고에 대응하고, 확률 분포에 대해 데이터 변화가 일정하면 정상 동작을 외부에 알린다. 또한, 제어부(5)는 일정 시간 간격을 조정하기 위해 데이터 변화율을 피드백한다. 예를 들어, 데이터 변화율이 크면 일정 시간 간격을 늘리고, 데이터 변화율이 작으면 일정 시간 간격을 줄인다.The control unit 5 monitors the trend of each probability distribution for a certain period of time, predicts abnormalities in the probability distribution, responds to abnormal accidents, and reports normal operation to the outside if the data change in the probability distribution is constant. Additionally, the control unit 5 feeds back the data change rate to adjust a certain time interval. For example, if the data change rate is large, the certain time interval is increased, and if the data change rate is small, the certain time interval is shortened.

도 5는 본 발명을 설명하기 위한 하드웨어 자원과 운영체제, 코어인 제어부의 동작, 제어부 동작을 실행할 권한을 부여하는 시스템 인증 구성을 설명하는 예시도로서, 도 5를 참조하면, 본 발명은 프로세서(1), 메모리(2), 입출력장치(3), 운영체제(4), 제어부(5)를 포함한다.FIG. 5 is an exemplary diagram illustrating hardware resources and an operating system for explaining the present invention, operations of a control unit as a core, and a system authentication configuration that grants authority to execute control unit operations. Referring to FIG. 5, the present invention is a processor (1). ), memory (2), input/output device (3), operating system (4), and control unit (5).

프로세서(1)는 CPU(Central Processing Units), GPU(Graphic Processing Unit), FPGA(Field Programmable Gate Array), NPU(Neural Processing Unit)로서, 메모리(2)에 탑재된 운영체제(4), 제어부(5)의 실행 코드를 수행한다.The processor (1) is a CPU (Central Processing Unit), GPU (Graphic Processing Unit), FPGA (Field Programmable Gate Array), and NPU (Neural Processing Unit), and the operating system (4) and control unit (5) mounted on the memory (2) ) executes the execution code.

메모리(2)는 RAM(random access memory), ROM(read only memory), 디스크 드라이브, SSD(solid state drive), 플래시 메모리(flash memory) 등과 같은 비소멸성 대용량 저장 장치(permanent mass storage device)를 포함할 수 있다.Memory (2) includes permanent mass storage devices such as random access memory (RAM), read only memory (ROM), disk drives, solid state drives (SSD), and flash memory. can do.

입출력장치(3)는 입력 장치로, 오디오 센서 및/또는 이미지 센서를 포함한 카메라, 키보드, 마이크로폰, 마우스 등의 장치를, 그리고 출력 장치로, 디스플레이, 스피커, 햅틱 피드백 디바이스(haptic feedback device) 등과 같은 장치를 포함할 수 있다.The input/output device 3 is an input device, such as a camera, keyboard, microphone, mouse, etc. including an audio sensor and/or image sensor, and an output device such as a display, speaker, haptic feedback device, etc. May include devices.

운영체제(4)는 윈도우, 리눅스, IOS, 가상 머신, 웹브라우저, 인터프리터를 포함할 수 있고, 태스크, 쓰레드, 타이머 실행, 스케줄링, 자원 관리, 그래픽, 폰트 처리, 통신 등을 지원한다.The operating system 4 may include Windows, Linux, IOS, virtual machines, web browsers, and interpreters, and supports tasks, threads, timer execution, scheduling, resource management, graphics, font processing, communication, etc.

제어부(5)는 운영체제(4)의 지원하에 입출력장치(3)의 센서, 키, 터치, 마우스 입력에 의한 상태를 결정하고, 결정된 상태에 따른 동작을 수행한다. 제어부(5)는 병렬 수행 루틴으로 타이머, 쓰레드에 의한 작업 스케줄링을 수행한다.The control unit 5 determines the state based on sensor, key, touch, and mouse input of the input/output device 3 with the support of the operating system 4 and performs operations according to the determined state. The control unit 5 performs job scheduling by timers and threads using parallel execution routines.

제어부(5)는 입출력장치(3)의 센서값을 이용하여 상태를 결정하고, 결정된 상태에 따른 알고리즘을 수행한다.The control unit 5 determines the state using the sensor value of the input/output device 3 and performs an algorithm according to the determined state.

도 5를 참조하면, 시스템 인증 구성은 제어부(5)를 포함하는 단말기(6), 인증 서버(7)를 포함한다.Referring to Figure 5, the system authentication configuration includes a terminal 6 including a control unit 5, and an authentication server 7.

단말기(6)는 데이터 채널을 이중화하고, 단말기(6)의 키값, 생체 정보를 입력받아 인증 서버(7)에 제1데이터 채널을 통해 사용자 인증을 요청하고, 단말기(6)는 생성된 킷값을 디스플레이에 표시하고, 인증 서버(7)로 전송한다.The terminal 6 duplicates the data channel, receives the key value and biometric information of the terminal 6, and requests user authentication through the first data channel to the authentication server 7, and the terminal 6 receives the generated kit value. It is displayed on the display and transmitted to the authentication server (7).

단말기(6)는 단말기(6)의 디스플레이에 표시된 킷값을 입력하고, 사용자 정보와 함께 제2데이터 채널을 통해 인증 서버(7)로 전송한다. 단말기(6)는 킷값과 사용자 정보를 이용하여 단말기(6)에 탑재된 시스템의 인증을 인증 서버(7)에 요청한다. 단말기(6)의 킷값은 컴퓨터 고유의 정보인 CPU 제조번호, 이더넷 칩의 맥주소로부터 생성될 수 있다. 단말기(6)는 카메라를 이용한 얼굴 인식, 마이크를 이용한 음성 인식, 디스플레이를 이용한 필기 인식을 통해 사용자 정보를 획득하고, 인증에 활용할 수 있다.The terminal 6 inputs the kit value displayed on the display of the terminal 6 and transmits it along with the user information to the authentication server 7 through the second data channel. The terminal 6 requests the authentication server 7 to authenticate the system mounted on the terminal 6 using the kit value and user information. The kit value of the terminal 6 can be generated from computer-specific information such as the CPU manufacturing number and the Ethernet chip number. The terminal 6 can obtain user information through face recognition using a camera, voice recognition using a microphone, and handwriting recognition using a display, and use it for authentication.

인증 서버(7)는 단말기(6)로부터 킷값을 수신하고, 단말기(6)로부터 이중화된 데이터 채널을 통해 킷값과 사용자 정보를 수신하여 단말기(6)의 킷값과 사용자 정보를 비교하고, 사용자 정보를 대응시켜 단말기(6)의 시스템 이용에 대한 인증을 처리한다. 인증 서버(7)는 인증 결과를 단말기(6)로 전송하여 시스템에 대한 사용자의 사용을 허가한다. 단말기(6)의 이중화된 데이터 채널로 인해 킷값 손실이 최소화되는 효과를 가질 수 있다.The authentication server 7 receives the kit value from the terminal 6, receives the kit value and user information from the terminal 6 through a duplicated data channel, compares the kit value and the user information of the terminal 6, and By matching, authentication for use of the system of the terminal 6 is processed. The authentication server 7 transmits the authentication result to the terminal 6 to authorize the user's use of the system. Due to the dual data channels of the terminal 6, kit value loss can be minimized.

인증 서버(7)는 사용자 정보의 히스토리 분석을 수행하고, 시간 흐름에 따라 사용자 정보의 일관성, 변화를 비교 판단한다. 히스토리 분석에서 사용자 정보가 일관성을 나타내면 사용자의 사용을 허가하고, 변화를 나타내면 사용자의 사용을 허가하지 않는다. 사용자 정보가 일관성을 나타낼 때 사용자의 시스템 사용을 허가함으로써 사용자 정보가 변조된 사용자가 시스템에 접근하지 못하도록 보안을 강화한다.The authentication server 7 performs history analysis of user information and compares and determines consistency and changes in user information over time. In history analysis, if user information shows consistency, the user's use is permitted; if it shows changes, the user's use is not permitted. By allowing users to use the system when user information shows consistency, security is strengthened to prevent users with altered user information from accessing the system.

인증 서버(7)는 일관성, 변화, 빈도, 빈도 추이, 빈도가 높음에 가중치를 부여해서 가중치 조합으로 신뢰되지 않은 사용자의 접근을 차단한다. 예를 들어, 빈도의 임계치가 초과하면 초과 누적수에 비례하여 신뢰되지 않은 사용자의 접근을 차단하고, 장시간에 걸쳐 접근 시도하는 사용자를 인증 처리할 수 있다. 이때, 신뢰되지 않은 사용자에 대해 추가 인증을 요청한다.The authentication server 7 assigns weights to consistency, change, frequency, frequency trend, and high frequency, and blocks access by untrusted users using a combination of weights. For example, if the frequency threshold is exceeded, access by untrusted users can be blocked in proportion to the accumulated number of excesses, and users who attempt access over a long period of time can be authenticated. At this time, additional authentication is requested for untrusted users.

시스템의 사용을 인증하는 수단인 단말기(6)는 시스템과 직접 연결하지 않고, 인증 서버(7)를 통한 우회 경로를 형성함으로써 인터넷망을 이루는 네트워크가 내부망과 외부망으로 구성되어 아이피 주소 설정 과정이 번거로울 때 단말기(6)를 이용한 인증 과정이 원활히 수행되는 장점이 있다. 이때, 단말기(6)에는 시스템이 탑재되고, 단말기(6)는 인증 단말 수단이 되고, 인증 서버(7)는 인증 서버 수단이 된다.The terminal 6, which is a means of authenticating the use of the system, does not connect directly to the system, but forms a bypass route through the authentication server 7, so that the network that makes up the Internet network is composed of an internal network and an external network, and the IP address setting process There is an advantage that the authentication process using the terminal 6 is performed smoothly in this cumbersome time. At this time, the system is mounted on the terminal 6, the terminal 6 becomes an authentication terminal means, and the authentication server 7 becomes an authentication server means.

클라우드(12)는 프로세서(1), 메모리(2), 입출력장치(3), 통신부(6)를 관리하는 운영체제(4)의 지원 하에 컨테이너(7)의 모듈화로, 웹(8), DB(9), 프로토콜(10), 라이브러리(11)의 서비스를 제공하며, 제어부(5)는 컨테이너(7)의 서비스를 이용한 클라우드 애플리케이션을 실행한다. 컨테이너(7)라고 하는 표준 소프트웨어 패키지는 애플리케이션의 코드를 관련 구성 파일, 라이브러리(11) 및 앱 실행에 필요한 종속성과 함께 번들로 제공한다.The cloud (12) is a modularization of the container (7) with the support of the operating system (4) that manages the processor (1), memory (2), input/output device (3), and communication unit (6), and the web (8) and DB ( 9), provides the services of the protocol 10 and library 11, and the control unit 5 executes a cloud application using the services of the container 7. A standard software package, called a container (7), bundles an application's code with associated configuration files, libraries (11), and dependencies needed to run the app.

클라우드(12)는 다수의 단말기(6)를 통합 제어하고, 단말기(6)로부터 수신된 센서값을 저장하여 시간 흐름에 따라 모니터링하고, 단말기(6)의 동작 에러를 처리하고, 에러 메시지를 다른 단말기(6)로 알리고, 제어 대상인 단말기(6)를 스위칭 제어한다.The cloud 12 integrates control of multiple terminals 6, stores sensor values received from the terminal 6, monitors them over time, processes operation errors of the terminal 6, and sends error messages to other terminals. Notifies the terminal 6, and performs switching control on the terminal 6 that is the control target.

신경망 학습은 온도, 고도, 지문 등 각종 센서, 이미지, 적외선 등 카메라, 라이더와 같은 입력 장치로부터 수집된 시계열 데이터로부터 특징량 선택, 알고리즘 선택을 통해 모델을 선택하고, 학습, 성능 검증 과정에 의한 반복 시행 착오를 거쳐 모델 선택을 반복한다. 성능 검증이 마치면 인공지능 모델이 선택된다.Neural network learning selects features from time series data collected from input devices such as temperature, altitude, fingerprints, various sensors, images, infrared cameras, and lidar, selects a model through algorithm selection, and repeats through the learning and performance verification process. Model selection is repeated through trial and error. After performance verification is completed, an artificial intelligence model is selected.

제어부(5)는 센서값 판단에 신경망을 이용한 딥러닝 알고리즘을 수행하고, 신경망 학습에 훈련 데이터를 이용하고, 시험 데이터로 신경망 성능을 검증한다.The control unit 5 performs a deep learning algorithm using a neural network to determine sensor values, uses training data to learn the neural network, and verifies the neural network performance with test data.

본 발명은 상술한 특정의 바람직한 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 해당 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.The present invention is not limited to the specific preferred embodiments described above, and various modifications can be made by anyone skilled in the art without departing from the gist of the invention as claimed in the claims. Of course, such changes are within the scope of the claims.

1: 프로세서
2: 메모리
3: 입출력장치
4: 운영체제
5: 제어부
6: 단말기
7: 인증 서버
8: 웹
9: DB
11: 라이브러리
12: 클라우드
14: 컨테이너
16: 통신부
100: 음향 및 음성 입력부
200: 발화자 독립 음성 인식부
210: 환경소음 제거부
211: 환경소음 수집부
212: 환경소음 저장소
220: 작업소음 제거부
221: 작업소음 수집부
222: 작업소음 저장소
300: 발화자 종속 음성 인식부
310: 성문 인식부
320: 최초발화자 인식부
330: 발화자 음성 저장소
400: 발화자 음성 텍스트 변환
500: 사용자 의도 추론부
510: 사용자 의도 관리부
520: 사용자 의도 저장소
600: 의도명령어 연결부
610: 미디어 제어 명령어 저장소
700: 미디어 재생부
1: processor
2: memory
3: Input/output device
4: Operating system
5: Control unit
6: Terminal
7: Authentication server
8: web
9: DB
11: Library
12: Cloud
14: Container
16: Department of Communications
100: Sound and voice input unit
200: Speaker independent voice recognition unit
210: Environmental noise removal unit
211: Environmental noise collection department
212: Environmental noise storage
220: Work noise removal unit
221: Work noise collection unit
222: Work noise storage
300: Speaker-dependent voice recognition unit
310: Voiceprint recognition unit
320: First speaker recognition unit
330: Talker voice storage
400: Speaker speech-to-text conversion
500: User intent inference unit
510: User intent management unit
520: User intent store
600: Intent command connection part
610: Media control command storage
700: Media playback unit

Claims (5)

단말기(6)에 포함된 음성 인식 시스템을 통해 주변 소음이 포함된 사용자 음성 데이터를 입력받는 음향 및 음성 입력부(100);
사용자 음성 데이터로부터 환경 소음 및 작업 소음을 제거하고, 발화자 음성을 획득하는 발화자 독립 음성 인식부(200);
사전에 학습된 발화자 음성 데이터를 기반으로 원본 데이터에서 발화자 음성을 식별하는 발화자 종속 음성 인식부(300);
상기 발화자 독립 음성 인식부(200), 상기 발화자 종속 음성 인식부(300)에 의해 추출된 발화자 음성 데이터를 텍스트 데이터로 변환하는 발화자 음성 텍스트 변환부(400);
상기 발화자 음성 텍스트 변환부(400)에서 변환된 텍스트 데이터를 기반으로 인공지능 모델을 통해 사용자 발화 의도, 구성 요소를 추출하는 사용자 의도 추론부(500);
추출된 발화 의도를 미디어를 제어할 수 있는 컴퓨터 명령어와 연결하는 의도 명령어 연결부(600); 및
영상을 재생하고, 미디어 제어 명령어를 통해 영상을 제어하는 미디어 재생부(700);를 포함하는 것을 특징으로 하는, 음성 인식 미디어 재생 장치 및 방법.
a sound and voice input unit 100 that receives user voice data including ambient noise through a voice recognition system included in the terminal 6;
a speaker-independent voice recognition unit 200 that removes environmental and operational noise from user voice data and acquires the speaker's voice;
A speaker-dependent voice recognition unit 300 that identifies the speaker's voice from the original data based on the speaker's voice data learned in advance;
A speaker voice-to-text conversion unit 400 that converts the speaker voice data extracted by the speaker-independent voice recognition unit 200 and the speaker-dependent voice recognition unit 300 into text data;
a user intention inference unit 500 that extracts user speech intention and components through an artificial intelligence model based on text data converted by the speaker voice-to-text conversion unit 400;
An intention command connection unit 600 that connects the extracted speech intention with a computer command capable of controlling media; and
A voice recognition media playback device and method comprising a media playback unit 700 that plays video and controls the video through media control commands.
제1항에 있어서,
상기 발화자 독립 음성 인식부(200)는,
환경 소음을 청취하고, 청취한 소리에 대하여 환경 소음 저장소(212)를 토대로 특징 요소를 학습하고, 심층 신경망이 환경 소음의 특징 요소를 학습하고, 학습 결과를 토대로 사용자 음성 데이터에서 환경 소음을 제거하고, 학습 결과를 상기 환경 소음 저장소(212)에 저장하는 환경소음 제거부(210); 및
작업 소음을 청취하고, 청취한 소리에 대하여 작업 소음 저장소(222)를 토대로 특징 요소를 학습하고, 심층 신경망은 작업 소음의 특징 요소를 학습하고, 학습 결과를 토대로 환경 소음이 1차적으로 제거된 음성 데이터에서 작업 소음을 제거하고, 학습 결과를 상기 작업 소음 저장소(222)에 저장하는 작업 소음 제거부(220);를 포함하는 것을 특징으로 하는, 음성 인식 미디어 재생 장치 및 방법.
According to paragraph 1,
The speaker independent voice recognition unit 200,
Listen to environmental noise, learn feature elements of the heard sound based on the environmental noise storage 212, a deep neural network learns feature elements of the environmental noise, remove environmental noise from user voice data based on the learning results, and , an environmental noise removal unit 210 that stores learning results in the environmental noise storage 212; and
Listen to work noise, learn feature elements of the heard sound based on the work noise storage 222, deep neural network learn feature elements of work noise, and produce a voice with environmental noise primarily removed based on the learning results. A voice recognition media playback device and method comprising a task noise removal unit (220) that removes task noise from data and stores learning results in the task noise storage (222).
제1항에 있어서,
상기 발화자 종속 음성 인식부(300)는,
원본 데이터로부터 개인 고유의 음성적 특징인 성문을 추출하고, 통계적 방법을 통해 분석하여 다수 발화자가 발언하는 상황에서 각각의 발화자 음성을 분리하는 성문 인식부(310);
다수 발화자의 음성이 동시에 감지되었을 경우 상기 성문 인식부(310)에서 분석된 데이터를 바탕으로 처음 발언한 발화자 음성만을 인식하여 추출하는 최초 발화자 인식부(320); 및
기존 등록된 사용자 음성의 특징 요소를 저장하는 발화자 음성 저장소(330);를 포함하는 것을 특징으로 하는, 음성 인식 미디어 재생 장치 및 방법.
According to paragraph 1,
The speaker-dependent voice recognition unit 300,
a voiceprint recognition unit 310 that extracts voiceprints, which are individual unique vocal characteristics, from the original data, analyzes them through statistical methods, and separates the voices of each speaker in a situation where multiple speakers speak;
When the voices of multiple speakers are detected at the same time, a first speaker recognition unit 320 that recognizes and extracts only the voice of the first speaker based on the data analyzed by the voiceprint recognition unit 310; and
A voice recognition media playback device and method comprising a speaker voice storage 330 that stores characteristic elements of an existing registered user voice.
제1항에 있어서,
상기 사용자 의도 추론부(500)는,
음성 데이터로부터 변환된 텍스트 데이터를 토대로 만약 이전에 추출된 이력이 있는 데이터라면 인공지능 모델을 거치지 않고, 바로 사용자 의도 저장소(520)에 저장된 발화 의도, 구성 요소를 가져와서 불필요한 인공지능 모델 연산을 줄이고, 이전에 추출된 이력이 없는 데이터의 경우 인공지능 모델을 통해 추출된 발화 의도, 구성 요소를 상기 사용자 의도 저장소(520)에 저장하는 사용자 의도 관리부(510); 및
인공지능 모델을 통해 추출된 발화 의도, 구성 요소를 저장하는 사용자 의도 저장소(520);를 포함하는 것을 특징으로 하는, 음성 인식 미디어 재생 장치 및 방법.
According to paragraph 1,
The user intention inference unit 500,
Based on text data converted from voice data, if the data has a history of being previously extracted, the utterance intention and components stored in the user intention storage 520 are immediately imported without going through the artificial intelligence model to reduce unnecessary artificial intelligence model calculations. , a user intent management unit 510 that stores utterance intent and components extracted through an artificial intelligence model in the user intent storage 520 in the case of data that has no previous extraction history; and
A voice recognition media playback device and method, comprising a user intention storage 520 that stores speech intent and components extracted through an artificial intelligence model.
제1항에 있어서,
상기 의도 명령어 연결부(600)는,
각각의 발화 의도에 대응되는 미디어 제어 명령어에 대한 쌍을 저장하는 미디어 제어 명령어 저장소(610);를 포함하는 것을 특징으로 하는, 음성 인식 미디어 재생 장치 및 방법.
According to paragraph 1,
The intent command connection unit 600,
A media control command storage 610 that stores pairs of media control commands corresponding to each speech intention. A voice recognition media playback device and method comprising a.
KR1020220132897A 2022-10-17 2022-10-17 Speech recognition media playback device and method KR20240053154A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220132897A KR20240053154A (en) 2022-10-17 2022-10-17 Speech recognition media playback device and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220132897A KR20240053154A (en) 2022-10-17 2022-10-17 Speech recognition media playback device and method

Publications (1)

Publication Number Publication Date
KR20240053154A true KR20240053154A (en) 2024-04-24

Family

ID=90884196

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220132897A KR20240053154A (en) 2022-10-17 2022-10-17 Speech recognition media playback device and method

Country Status (1)

Country Link
KR (1) KR20240053154A (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100997497B1 (en) 2010-04-29 2010-11-30 (주)동아이앤씨 Observation system and method having auto-sensing/filming function
KR20140108180A (en) 2013-02-28 2014-09-05 삼성전자주식회사 systems and methods for accessing multi-media content
KR102281602B1 (en) 2019-08-21 2021-07-29 엘지전자 주식회사 Artificial intelligence apparatus and method for recognizing utterance voice of user
KR102330978B1 (en) 2019-03-29 2021-11-26 엘지전자 주식회사 Voice interaction method and vehicle using the same

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100997497B1 (en) 2010-04-29 2010-11-30 (주)동아이앤씨 Observation system and method having auto-sensing/filming function
KR20140108180A (en) 2013-02-28 2014-09-05 삼성전자주식회사 systems and methods for accessing multi-media content
KR102330978B1 (en) 2019-03-29 2021-11-26 엘지전자 주식회사 Voice interaction method and vehicle using the same
KR102281602B1 (en) 2019-08-21 2021-07-29 엘지전자 주식회사 Artificial intelligence apparatus and method for recognizing utterance voice of user

Similar Documents

Publication Publication Date Title
EP3234945B1 (en) Application focus in speech-based systems
US10733978B2 (en) Operating method for voice function and electronic device supporting the same
US20200090647A1 (en) Keyword Detection In The Presence Of Media Output
EP3953843A1 (en) Systems and methods for end-to-end architectures for voice spoofing detection
JP2021533397A (en) Speaker dialification using speaker embedding and a trained generative model
US20200296098A1 (en) Voiceprint security with messaging services
US11989230B2 (en) Media search filtering mechanism for search engine
US20200279565A1 (en) Caching Scheme For Voice Recognition Engines
US10891954B2 (en) Methods and systems for managing voice response systems based on signals from external devices
US11942094B2 (en) Hybrid multilingual text-dependent and text-independent speaker verification
CN111506183A (en) Intelligent terminal and user interaction method
KR20240053154A (en) Speech recognition media playback device and method
US20220366901A1 (en) Intelligent Interactive Voice Recognition System
WO2022186878A1 (en) Adaptive biometric authentication
US11609947B2 (en) Guidance query for cache system
US20230260521A1 (en) Speaker Verification with Multitask Speech Models
US20210311989A1 (en) Error detection and correction for audio cache
KR102438969B1 (en) Functional dialog filter system applying sentence reconstruction and contrastive loss and the method thereof
US11011174B2 (en) Method and system for determining speaker-user of voice-controllable device
US20220366915A1 (en) Intelligent Interactive Voice Recognition System
KR20240051469A (en) Text-based conversational device
CN117524228A (en) Voice data processing method, device, equipment and medium
CN115132193A (en) Control method, medium, electronic equipment and system based on voice assistant