KR20240099616A - 끼어들기 기능을 갖는 음성인식장치 및 방법 - Google Patents
끼어들기 기능을 갖는 음성인식장치 및 방법 Download PDFInfo
- Publication number
- KR20240099616A KR20240099616A KR1020220181321A KR20220181321A KR20240099616A KR 20240099616 A KR20240099616 A KR 20240099616A KR 1020220181321 A KR1020220181321 A KR 1020220181321A KR 20220181321 A KR20220181321 A KR 20220181321A KR 20240099616 A KR20240099616 A KR 20240099616A
- Authority
- KR
- South Korea
- Prior art keywords
- user
- data
- intelligent robot
- face
- voice
- Prior art date
Links
- 238000000034 method Methods 0.000 title abstract description 16
- 230000004044 response Effects 0.000 claims abstract description 22
- 238000013473 artificial intelligence Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 description 16
- 230000000875 corresponding effect Effects 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009118 appropriate response Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J19/00—Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
- B25J19/02—Sensing devices
- B25J19/026—Acoustical sensing devices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/167—Detection; Localisation; Normalisation using comparisons between temporally consecutive images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/61—Control of cameras or camera modules based on recognised objects
- H04N23/611—Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mechanical Engineering (AREA)
- Robotics (AREA)
- Manipulator (AREA)
Abstract
본 발명의 실시 예는 사용자 음성 데이터를 수신하는 입력부, 하나 이상의 프로세서 및 상기 사용자 음성 데이터에 기초하여 생성된 응답을 출력하는 출력부를 포함하는 지능형 로봇에 있어서, 상기 프로세서는, 상기 사용자의 얼굴 영상데이터 및 상기 사용자 음성 데이터를 이용하여 대화 상대를 식별하는 듣기모드 상태를 유지한 채, 상기 사용자 음성 데이터에 대응하는 응답을 생성하고, 상기 응답에 상응하는 동작을 수행하도록 제어하는 말하기 모드를 수행하는, 지능형 로봇 및 지능형 로봇의 동작 방법을 개시한다.
Description
본 발명은 지능형 로봇이 응답음을 재생하는 도중 끼어드는 사용자 음성을 인식할 수 있는 장치 및 방법에 관한 것이다.
더욱 구체적으로 지능형로봇의 눈에 해당하는 카메라를 통하여 시야 범위에 사용자의 멀티 모달(시각, 음성) 정보를 활용하여, 끼어드는 음성에 대해 강인한 음성구간 검출 및 강인한 음성인식을 통해 성능을 높일 수 있는 음성인식장치 및 방법 관한 것이다.
인공지능 기술의 발달에 따라 사람과 지능형 로봇이 널리 보급되고 있다. 특히 최근에는 사람의 음성데이터가 입력되면, 상기 사용자 음성 데이터를 이해하고 대용량 사전학습모델에 기반한 적절한 답을 하는 지능형 로봇 기술의 성능이 대폭 향상되었다.
그러나 지능형 로봇을 사용하는 과정에서는 많은 어려움이 있다. 그 중 특히 로봇이 이미 응답을 하고 도중 사용자가 끼어드는 바지인(Barge-In) 상황을 정확하게 검출하고, 사용자의 음성을 즉각적으로 인식하는 것은 어려운 기술에 해당한다.
실제 끼어드는 바지인(이하 끼어들기) 상황에서는 다양한 종류의 환경잡음과 음성잡음 뿐만 아니라 로봇이 재생하는 음성잡음이 동시 다발적으로 존재한다. 이는 사용자가 끼어드는 상황에서 사용자의 음성구간 검출과 음성인식 성능을 저하시키는 큰 요인이 된다. 이를 해결하기 위해 로봇의 음성이 재생 중에는 끼어들기를 막기 위해 마이크 입력을 막아 끼어든 음성이 입력되지 못하도록 강제하거나, 신호처리기술을 이용하여 재생음을 제거하는 방식의 기술들이 활용되고 있다.
그러나 마이크 입력을 막아 끼어들기를 하지 못하도록 강제하는 것은 실제 대화와 다른 사용자 경험을 제공하여 사용자에게 불편함을 발생시키며, 재생음을 활용하여 루프백 신호에 대한 음향 신호처리를 활용한 기술 등은 그 성능에 한계가 존재하였다.
본 발명은 사람과 지능형로봇 간 자연스러운 대화 기능을 제공하고, 지능형 로봇의 발화 도중 사용자의 음성 끼어들기가 발생하는 경우에도, 사용자의 끼어들기 발화에 지능형 로봇이 멀티모달(영상,음성) 정보를 활용하여 즉각적으로 빠른 시점에 사람과 같이 자연스럽게 반응하는 지능형로봇의 음성인식 방법 및 시스템을 제공하는 것을 목적으로 한다.
본 발명의 실시 예에 따르면, 사용자 음성 데이터를 수신하는 입력부, 하나 이상의 프로세서 및 상기 사용자 음성 데이터에 기초하여 생성된 응답을 출력하는 출력부를 포함하는 지능형 로봇에 있어서, 상기 프로세서는, 상기 사용자의 얼굴 영상데이터 및 상기 사용자 음성 데이터를 이용하여 대화 상대를 식별하는 듣기모드 상태를 유지한 채, 상기 사용자 음성 데이터에 대응하는 응답을 생성하고, 상기 응답에 상응하는 동작을 수행하도록 제어하는 말하기 모드를 수행하는,지능형 로봇을 포함할 수 있다.
또한, 상기 프로세서는, 상기 입력부를 통하여 획득된 주변 영상 데이터를 이용하여 시야 범위 내에 존재하는 사용자 얼굴을 검출하고, 상기 사용자 얼굴에 대응하는 음성 데이터를 수신하여, 상기 사용자 얼굴데이터 및 사용자 음성 데이터와 기존에 학습된 데이터와 유사도를 학습된 인공지능 모델을 이용하여 판별함으로써 대화 상대를 식별할 수 있다.
또한, 상기 프로세서는 상기 대화 상대의 음성이 검출되면 상기 입력부에 구비된 카메라를 제어하여 상기 카메라에 입력되는 시야를 상기 대화 상대의 얼굴이 가운데로 오도록 조정할 수 있다.
또한, 상기 프로세서는 미리 저장된 사용자의 얼굴 데이터와 상기 카메라를 통하여 입력된 영상 데이터에서 사용자 얼굴 영역을 검출하고, 상기 검출된 사용자 얼굴 영역과 미리 저장된 사용자 얼굴 데이터의 유사도가 미리 정해진 값을 초과하는 경우, 상기 검출된 사용자 얼굴 영역이 상기 카메라의 시야 중앙에 위치하면 상기 지능형 로봇의 시야 조정이 완료되었다고 판단할 수 있다.
또한, 상기 프로세서는, 상기 사용자 음성 데이터의 음성인식 결과를 기초로 되물음 여부를 결정하고, 상기 음성인식 결과는 상기 사용자 음성 데이터의 음성인식 신뢰도를 의미할 수 있다.
또한, 사용자 얼굴 영상데이터 및 사용자 음성 데이터를 수신하는 단계, 상기 사용자의 얼굴 영상데이터 및 상기 사용자 음성 데이터를 이용하여 대화 상대를 식별하는 듣기모드를 수행하는 단계, 상기 듣기모드 상태를 유지한 채, 상기 사용자 음성 데이터에 대응하는 응답을 생성하는 단계 및 상기 응답에 상응하는 동작을 수행하도록 제어하는 말하기 모드를 수행하는 단계를 포함하는, 지능형 로봇의 동작 방법을 포함할 수 있다.
또한, 상기 듣기모드를 수행하는 단계는, 상기 입력부를 통하여 획득된 주변 영상 데이터를 이용하여 시야 범위 내에 존재하는 사용자 얼굴을 검출하고, 상기 사용자 얼굴에 대응하는 음성 데이터를 수신하는 단계 및 상기 사용자 얼굴데이터 및 사용자 음성 데이터와 기존에 학습된 데이터와 유사도를 학습된 인공지능 모델을 이용하여 판별함으로써 대화 상대를 식별하는 단계를 포함할 수 있다.
또한, 상기 듣기모드를 수행하는 단계는, 상기 대화 상대의 음성이 검출되면 상기 입력부에 구비된 카메라를 제어하여 상기 카메라에 입력되는 시야를 상기 대화 상대의 얼굴이 가운데로 오도록 조정하는 단계를 포함할 수 있다.\
또한, 상기 듣기모드를 수행하는 단계는, 미리 저장된 사용자의 얼굴 데이터와 상기 카메라를 통하여 입력된 영상 데이터에서 사용자 얼굴 영역을 검출하고, 상기 검출된 사용자 얼굴 영역과 미리 저장된 사용자 얼굴 데이터의 유사도가 미리 정해진 값을 초과하는 경우, 상기 검출된 사용자 얼굴 영역이 상기 카메라의 시야 중앙에 위치하면 상기 지능형 로봇의 시야 조정이 완료되었다고 판단하는 단계를 포함할 수 있다.
또한, 상기 말하기 모드를 수행하는 단계는, 상기 사용자 음성 데이터의 음성인식 결과를 기초로 되물음 여부를 결정하는 단계를 포함하고, 상기 음성인식 결과는 상기 사용자 음성 데이터의 음성인식 신뢰도를 의미할 수 있다.
본 발명에 따르면, 종래 방법인 음성기반 지능형로봇과 달리, 지능형로봇이 사용자의 갑작스러운 끼어들기 발화에 빠르고 강인하게 반응하여 발화를 멈추고 듣기모드로 전환하여 자연스럽게 대화를 이어 나갈 수 있는 효과가 있다.
또한, 본 발명에 따르면, 시각정보를 함께 활용하여 지능형로봇과 사용자 간의 발화 겹침 구간에서 강인하게 사용자의 원음을 인식할 수 있으므로, 발화 겹침 구간 그리고 고잡음환경에서 사용자의 음성을 정확히 인식함으로써 대화를 효과적으로 이어 나갈 수 있다는 효과가 있다.
또한, 본 발명에 따르면, 종래의 지능형로봇의 음성인식 방법에 시각정보를 함께 활용하여 음성 인식에 실패하더라도 정확한 시점에 다시 되물음을 하여 자연스러운 대화 시나리오를 제공할 수 있는 효과가 있다.
도 1은 본 발명의 일 실시 예에 따른 음성인식 장치(100)를 나타낸다.
도 2는 본 발명의 일 실시 예에 따른 말하기 모드 및 듣기모드를 나타낸 도면이다.
도 3은 본 발명의 일 실시 예에 따른 듣기 모드의 흐름도를 나타낸 것이다.
도 4는 본 발명의 일 실시 예에 따른 말하기 모드의 흐름도를 나타낸 것이다.
도 5는 본 발명의 일 실시 예에 따른 전체 동작 흐름도를 나타낸 것이다.
도 2는 본 발명의 일 실시 예에 따른 말하기 모드 및 듣기모드를 나타낸 도면이다.
도 3은 본 발명의 일 실시 예에 따른 듣기 모드의 흐름도를 나타낸 것이다.
도 4는 본 발명의 일 실시 예에 따른 말하기 모드의 흐름도를 나타낸 것이다.
도 5는 본 발명의 일 실시 예에 따른 전체 동작 흐름도를 나타낸 것이다.
이하 설명하는 기술은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 이하 설명하는 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 이하 설명하는 기술의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 상기 용어들에 의해 한정되지는 않으며, 단지 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 이하 설명하는 기술의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함한다" 등의 용어는 설명된 특징, 개수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다.
도면에 대한 상세한 설명을 하기에 앞서, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.
또, 방법 또는 동작 방법을 수행함에 있어서, 상기 방법을 이루는 각 과정들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 과정들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
이하 끼어들기 기능을 갖는 음성인식 장치(100)가 하기 동작을 수행한다고 설명한다. 음성인식 장치(100)는 입력된 데이터를 일정하게 처리하고 특정 모델이나 알고리즘에 따라 음성인식에 필요한 연산을 수행하는 장치이다. 예컨대, 음성인식 장치는 컴퓨팅 장치일 수 있으며, 컴퓨팅 장치는 PC, 네트워크상의 서버, 스마트기기, 설계 프로그램이 임베딩된 칩셋 등과 같은 형태로 구현될 수 있다.
도 1은 본 발명의 일 실시 예에 따른 음성인식 장치(100)를 나타낸다.
도 1은 본 개시의 일 실시예와 관련된 음성인식 기능을 제공하는 컴퓨팅 장치의 블록 구성도를 도시한다. 도 1에 도시된 음성인식 기능을 제공하는 컴퓨팅 장치(100)의 컴포넌트들은 예시적인 것이다. 도 1에 도시된 컴포넌트 중 일부만이 음성인식 기능을 제공하는 컴퓨팅 장치(100)를 구성할 수도 있으며, 도 1에 도시된 컴포넌트 이외에 추가적인 컴포넌트(들)가 상기 실감 가시화를 제공하는 컴퓨팅 장치(100)에 포함될 수도 있다.
도 1은 본 발명의 일 실시 예에 따른 음성인식 장치(100)를 나타낸다.
음성인식 장치(100)는 TV, 프로젝터, 휴대폰, 스마트폰, 데스크탑 컴퓨터, 노트북, 디지털방송용 단말기, PDA(personal digital assistants), PMP(portable multimedia player), 네비게이션, 태블릿 PC, 웨어러블 장치, 셋톱박스(STB), DMB 수신기, 라디오, 세탁기, 냉장고, 데스크탑 컴퓨터, 디지털 사이니지, 로봇, 차량 등과 같은, 고정형 기기 또는 이동 가능한 기기 등으로 구현될 수 있다.
도 1을 참조하면, 음성인식 장치(100)는 통신부(110), 입력부(120), 러닝 프로세서(130), 센싱부(140), 출력부(150), 메모리(170) 및 프로세서(180) 등을 포함할 수 있다.
통신부(110)는 유무선 통신 기술을 이용하여 다른 장치나 서버 등의 외부 장치들과 데이터를 송수신할 수 있다. 예컨대, 통신부(110)는 외부 장치들과 센서 정보, 사용자 입력, 학습 모델, 제어 신호 등을 송수신할 수 있다.
이때, 통신부(110)가 이용하는 통신 기술에는 GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), LTE(Long Term Evolution), 5G, WLAN(Wireless LAN), Wi-Fi(Wireless-Fidelity), 블루투스(Bluetooth??), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association; IrDA), ZigBee, NFC(Near Field Communication) 등이 있다.
입력부(120)는 다양한 종류의 데이터를 획득할 수 있다.
이때, 입력부(120)는 영상 신호 입력을 위한 카메라, 오디오 신호를 수신하기 위한 마이크로폰, 사용자로부터 정보를 입력 받기 위한 사용자 입력부 등을 포함할 수 있다. 여기서, 카메라나 마이크로폰을 센서로 취급하여, 카메라나 마이크로폰으로부터 획득한 신호를 센싱 데이터 또는 센서 정보라고 할 수도 있다.
입력부(120)는 모델 학습을 위한 학습 데이터 및 학습 모델을 이용하여 출력을 획득할 때 사용될 입력 데이터 등을 획득할 수 있다. 입력부(120)는 가공되지 않은 입력 데이터를 획득할 수도 있으며, 이 경우 프로세서(180) 또는 러닝 프로세서(130)는 입력 데이터에 대하여 전처리로써 입력 특징점(input feature)을 추출할 수 있다.
러닝 프로세서(130)는 학습 데이터를 이용하여 인공 신경망으로 구성된 모델을 학습시킬 수 있다. 여기서, 학습된 인공 신경망을 학습 모델이라 칭할 수 있다. 학습된 인공 신경망 모델은 학습 데이터가 아닌 새로운 입력 데이터에 대하여 결과 값을 추론해 내는데 사용될 수 있고, 추론된 값은 어떠한 동작을 수행하기 위한 판단의 기초로 이용될 수 있다. 본 발명의 실시 예에 따른 신경망 모델은 상기 러닝 프로세서(130)를 통해 학습될 수 있다.
이때, 러닝 프로세서(130)는 음성인식 장치(100)에 통합되거나 구현된 메모리를 포함할 수 있다. 또는, 러닝 프로세서(130)는 메모리(170), 음성인식 장치(100)에 직접 결합된 외부 메모리 또는 외부 장치에서 유지되는 메모리를 사용하여 구현될 수도 있다.
센싱부(140)는 다양한 센서들을 이용하여 음성인식 장치(100) 내부 정보, 음성인식 장치(100)의 주변 환경 정보 및 사용자 정보 중 적어도 하나를 획득할 수 있다.
이때, 센싱부(140)에 포함되는 센서에는 근접 센서, 조도 센서, 가속도 센서, 자기 센서, 자이로 센서, 관성 센서, RGB 센서, IR 센서, 지문 인식 센서, 초음파 센서, 광 센서, 마이크로폰, 라이다, 레이더 등이 있다.
출력부(150)는 시각, 청각 또는 촉각 등과 관련된 출력을 발생시킬 수 있다.
이때, 출력부(150)에는 시각 정보를 출력하는 디스플레이부, 청각 정보를 출력하는 스피커, 촉각 정보를 출력하는 햅틱 모듈 등이 포함될 수 있다.
메모리(170)는 음성인식 장치(100)의 다양한 기능을 지원하는 데이터를 저장할 수 있다. 예컨대, 메모리(170)는 입력부(120)에서 획득한 입력 데이터, 학습 데이터, 학습 모델, 학습 히스토리 등을 저장할 수 있다.
프로세서(180)는 데이터 분석 알고리즘 또는 머신 러닝 알고리즘을 사용하여 결정되거나 생성된 정보에 기초하여, 음성인식 장치(100)의 적어도 하나의 실행 가능한 동작을 결정할 수 있다. 그리고, 프로세서(180)는 음성인식 장치(100)의 구성 요소들을 제어하여 결정된 동작을 수행할 수 있다.
이를 위해, 프로세서(180)는 러닝 프로세서(130) 또는 메모리(170)의 데이터를 요청, 검색, 수신 또는 활용할 수 있고, 상기 적어도 하나의 실행 가능한 동작 중 예측되는 동작이나, 바람직한 것으로 판단되는 동작을 실행하도록 음성인식 장치(100)의 구성 요소들을 제어할 수 있다.
이때, 프로세서(180)는 결정된 동작을 수행하기 위하여 외부 장치의 연계가 필요한 경우, 해당 외부 장치를 제어하기 위한 제어 신호를 생성하고, 생성한 제어 신호를 해당 외부 장치에 전송할 수 있다.
프로세서(180)는 사용자 입력에 대하여 의도 정보를 획득하고, 획득한 의도 정보에 기초하여 사용자의 요구 사항을 결정할 수 있다.
이때, 프로세서(180)는 음성 입력을 문자열로 변환하기 위한 STT(Speech To Text) 엔진 또는 자연어의 의도 정보를 획득하기 위한 자연어 처리(NLP: Natural Language Processing) 엔진 중에서 적어도 하나 이상을 이용하여, 사용자 입력에 상응하는 의도 정보를 획득할 수 있다.
이때, STT 엔진 또는 NLP 엔진 중에서 적어도 하나 이상은 적어도 일부가 머신 러닝 알고리즘에 따라 학습된 인공 신경망으로 구성될 수 있다. 그리고, STT 엔진 또는 NLP 엔진 중에서 적어도 하나 이상은 러닝 프로세서(130)에 의해 학습된 것이나, 서버(200)에 의해 학습된 것이거나, 또는 이들의 분산 처리에 의해 학습된 것일 수 있다.
프로세서(180)는 음성인식 장치(100)의 동작 내용이나 동작에 대한 사용자의 피드백 등을 포함하는 이력 정보를 수집하여 메모리(170) 또는 러닝 프로세서(130)에 저장하거나, 서버(200) 등의 외부 장치에 전송할 수 있다. 수집된 이력 정보는 학습 모델을 갱신하는데 이용될 수 있다.
프로세서(180)는 메모리(170)에 저장된 응용 프로그램을 구동하기 위하여, 음성인식 장치(100)의 구성 요소들 중 적어도 일부를 제어할 수 있다. 나아가, 프로세서(180)는 상기 응용 프로그램의 구동을 위하여, 음성인식 장치(100)에 포함된 구성 요소들 중 둘 이상을 서로 조합하여 동작시킬 수 있다.
이하 본 발명의 음성인식 장치에 대해 구체적으로 설명한다.
본 발명의 실시 예에 따른 음성인식 장치는 지능형 로봇에 탑재되거나 지능형 로봇이 제공하는 일부 기능에 관한 것이다. 따라서 이하 지능형 로봇은 음성인식 장치를 포함하는 것으로 해석되어야 할 것이다.
일반적으로 지능형 로봇은 사용자 음성 정보만을 활용하여 음성을 인식하여 인식된 사용자의 음성에 대한 적절한 답변(응답)이나 행동을 사용자에게 들려주거나 행동으로 보여주는 방식으로 동작하게 된다.
종래 음성 인식을 통해 동작하는 지능형로봇은 사용자 음성을 수신하고, 수신한 사용자 음성에 대한 답변 또는 행동을 개시하는 경우, 상기 사용자의 음성신호가 수신되는 입력부의 입력을 차단하게된다.
따라서 음성인식 기능을 갖춘 지능형 로봇의 특정 동작 수행 시, 사용자의 음성이 수신된 경우(끼어들기 음성) 사용자의 발화를 수신할 수 없다.
이는 기존의 지능형 로봇의 동작 알고리즘에 듣기 모드와 말하기 모드가 분리되어 존재하기 때문이다.
이하, 본 발명은 영상 정보와 음성 정보를 함께 활용하는 멀티모달 기술을 활용함으로써 로봇의 시선 범위 내의 사용자 음성을 영상과 함께 입력 받아 지능형 로봇의 음성, 주변의 잡음과 관계없이 끼어들기 기능을 갖는 지능형로봇 시스템 및 방법을 제안한다.
도 2는 본 발명의 실시 예에 따른 끼어들기(barge-in)기능을 갖는 음성인식장치의 동작을 설명하기 위한 도면이다.
도 2를 참조하면, 본 발명의 실시 예에 따른 지능형 로봇(100)은 사용자의 음성을 듣는 "듣기 모드", 인식된 음성에 대한 응답을 하는 "말하기 모드"의 동작을 수행할 수 있다.
구체적으로 "듣기 모드"에서는 입력부(120)에 구비된 마이크로폰 등을 통하여 사용자 음성을 수신할 수 있다. 또한 지능형 로봇은 입력부(120)에 구비된 카메라를 통하여 주변 영상 데이터를 획득할 수 있으며 획득한 영상 데이터를 이용하여 객체 인식, 사용자 식별 및 화자 인지 등을 수행할 수 있다.
지능형 로봇은 "듣기 모드"에서 출력부(150)에 구비된 스피커를 오프(off) 함으로써 외부에서 수신되는 음성 데이터를 보다 잘 수신할 수 있다.
또한, "말하기 모드"에서는 입력부(120)에 구비된 마이크로폰, 카메라 등을 통하여 사용자 음성과 영상 데이터를 수신할 수 있으며, 출력부(150)에 구비된 스피커를 온(on) 함으로써 수신한 사용자 음성에 대응하는 응답 또는 동작을 수행할 수 있다.
본 발명의 실시 예에 따른 지능형 로봇은 "듣기 모드"와 "말하기 모드가" 항시 같이 동작될 수 있다.
즉, 본 발명의 실시 예에 따른 지능형 로봇은 "듣기 모드"가 항시 활성화 됨에 따라 입력부(120)를 통해 사용자 음성을 지속적으로 수신할 수 있다. 이를 통해 지능형 로봇이 특정 동작을 수행하는 도중, 사용자의 음성 끼어들기에 반응할 수 있을 것이다.
도 3은 본 발명의 실시 예에 따른 '듣기 모드'의 동작을 나타낸 흐름도이다.
도 3을 참조하면, "듣기 모드" 에서의 지능형 로봇의 동작을 설명한다. "듣기 모드"가 시작되면 지능형 로봇(100)의 프로세서(180)는 입력부(120)를 이용하여 지능형 로봇의 시야 범위 내의 주변 영상 데이터 및 음성 데이터를 수신할 수 있다.
지능형 로봇은 입력부(120)의 카메라를 통하여 수신한 주변 영상 데이터에 기초하여 지능형 로봇의 시야 범위 내에 존재하는 사용자 얼굴을 검출할 수 있다(S301).
이후, 본 발명의 실시 예에 따른 지능형 로봇(100)은 사용자의 검출된 얼굴과 마이크로부터 입력 받는 음성 데이터를 추출할 수 있다(S303).
지능형 로봇(100)은 사용자의 얼굴 영상데이터 및 입력된 사용자 음성 데이터를이용하여 대화상대를 식별할 수 있다(S305). 구체적으로 지능형 로봇은 미리 학습된 인공지능 모델을 이용하여 사용자 얼굴데이터 및 사용자 음성 데이터의 싱크를 기존에 학습된 데이터와 유사도를 판별함으로써 사용자를 식별할 수 있다.
이때, 식별된 사용자는 '대화 대상'으로 명명될 수 있다.
상기 인공지능 모델은 사용자 얼굴데이터 및 사용자 음성데이터 중 적어도 하나의 데이터가 입력되면 사용자 식별 정보를 출력하는 인공 신경망 모델을 포함할 수 있으며, 신경망 모델의 예시는 종래에 개시된 모델을 사용하도록 한다.
이때, 음성 데이터의 싱크를 확인하는 기술은 인공지능 모델을 사용하는것 뿐만 아니라 종래의 개시된 기술이 다양하게 사용될 수 있다.
본 발명의 실시 예에 따르면, 지능형 로봇(100)은 대화 상대의 음성이 검출되면 입력부(120)에 구비된 카메라를 제어하여 지능형 로봇의 시야를 대화 상대의 얼굴이 가운데로 오도록 조정할 수 있다(S307).
구체적으로 지능형 로봇의 프로세서(180)는 미리 저장된 사용자의 얼굴 데이터와 카메라를 통하여 입력된 영상 데이터에서 사용자 얼굴 영역을 검출하고, 상기 검출된 사용자 얼굴 영역과 미리 저장된 사용자 얼굴 데이터의 유사도가 미리 정해진 값을 초과하는 경우, 상기 검출된 사용자 얼굴 영역이 상기 카메라의 시야 중앙에 위치하면, 상기 지능형 로봇의 시야 조정이 완료되었다고 판단할 수 있다. 또한 상기 검출된 사용자 얼굴 영역이 카메라의 수평 및 수직 해상도에 기초하여 중앙에 위치하는 경우 시야 조정이 완료되었다고 판단할 수 있을 것이다.
본 발명의 실시 예에 따른 지능형 로봇은 시야조정과 동시에 수신된 음성데이터에 기초한 음성인식을 수행할 수 있다(S309). 듣기 모드에서 얻어진 음성인식 결과는 "말하기 모드"로 전달될 수 있다.
상기 듣기모드에서는 주변 영상데이터 및 사용자 음성데이터에 기초하여대화상대로 특정(식별)된 사용자의 음성데이터만 수신하게되므로 주변의 소음 또는 다른 사용자의 발화 데이터와 구분하여 음성인식이 수행될 수 있다.
본 발명에서는 "듣기 모드"가 항상 활성화되어 있기에 상기 과정을 통해 지능형 로봇이 임의의 동작을 수행하고 있는 도중에, 사용자의 음성이 발화되는 경우 끼어든 사용자의 음성에도 반응 할 수 있을 것이다.
이하 "말하기 모드"에서의 지능형 로봇의 동작을 설명한다.
도 4는 본 발명의 실시 에에 따른 '말하기 모드'의 동작을 나타낸 흐름도이다.
도 4를 참조하면, "말하기 모드" 가 시작되면 지능형 로봇(100)의 프로세서(180)는 수신된 사용자 음성 데이터에 대응하는 응답을 생성할 수 있다.
이때, 상기 응답은 '듣기모드'에서 인식한 음성 인식 결과의 신뢰도(confidence) 정보를 기초로 생성될 수 있다. 또한, 상기 응답은 음성인식 결과에 따른 대답에 국한하지 않고 카메라를 통해 획득한 영상정보, 상황 정보 등 대화 엔진에서 결과를 도출하는 추가 정보를 기초로 생성될 수 있다.
지능형 로봇은 '듣기모드'에서 인식한 음성인식 결과 및 신뢰도 정보를 바탕으로 "되물음" 여부를 결정할 수 있다(S401).
본 발명의 실시 예에 따른면, 지능형 로봇은 미리 설정한 파라미터를 기준으로 사용자 음성데이터에 기초한 음성인식 결과와 신뢰도(confidence)가 정상으로 판단되면, 상기 음성인식 결과를 대화 엔진에 입력하고, 상기 음성인식 결과에 상응하는 적절한 대답을 생성할 수 있다(S402).
반면, 지능형 로봇(100) 음성인식결과의 신뢰도가 미리 정해진 값보다 낮거나 음성인식결과가 지능형 로봇(100)이 수행할 수 없는 동작에 대응하는 경우 "다시 한번 말씀 해 주시겠습니까?" 와 같은 되물음 대답을 생성할 수 있다(S403).
본 발명의 실시 예에 따른 지능형 로봇은 상기 S402 또는 S403동작으로 인해 생성된 대답을 기초로 응답에 상응하는 합성 음성을 생성할 수 있으며, 생성된 대답을 출력부를 통하여 출력할 수 있다(S405).
한편, 생성된 대답은 합성음을 통해 스피커로 출력될 수 있으며, 상기 응답에 상응하는 동작이 존재하는 경우 지능형 로봇의 동작으로 수행되거나, 상기 대답에 상응하는 정보가 디스플레이를 통해 화면표출되는 등의 여러 방법이 사용될 수 있다.
상기 대답의 출력이 완료되면 지능형 로봇은 합성음 재생을 종료할 수 있다(S407).
이하, 상기 듣기 모드 및 말하기 모드에 기초하여 음성인식 장치의 전체 동작을 설명한다.
도 5는 본 발명의 실시 예에 따른 음성인식장치의 전체 동작을 나타낸 도면이다.
도 5를 참조하면, 지능형 로봇의 동작 시작과 함께, 도 3 및 도 4에서 설명한 "말하기 모드"와 "듣기 모드"가 동시에 동작될 수 있다.
앞서 설명한 바와 같이 듣기모드(S300)은 말하기 모드(S400)가 수행되는 도중에도 항시 활성화 될 수 있으며, 이를 통해 음성 끼어들기 기능을 갖는 지능형 로봇을 제공할 수 있을 것이다.
상기 듣기모드 및 말하기 모드는 사용자와 지능형 로봇의 대화가 종료될 때까지 반복될 수 있다(S510, S520). 그리고 대화 도중 "듣기 모드"에서 획득한 음성인식 정보는 "말하기 모드"의 입력으로 사용되어 지능형 로봇의 합성음 생성 또는 대응 동작 생성에 사용될 수 있다.
본 발명은 음성 정보와 함께 로봇의 시야범위 내의 영상 정보도 활용하여 정보 수집 대상의 범위를 좁히고, 그 범위 내에서 존재하는 발화자의 음성만을 인식함으로써 강인한 끼어들기 검출, 음성인식 결과를 얻을 수 있다.
또한 음성인식에 실패하더라도 종래의 기술보다 정확하게 사용자의 음성시작지점을 검출할 수 있으므로 음성인식결과의 신뢰도를 기반으로 되묻기를 수행할 수 있다.
본 발명을 활용함으로써, 사용자는 자신의 지능형로봇과의 대화상황에서 제한된 시나리오 상황에 제한되지 않고 사람과 대화하듯 자연스럽게 대화하고 편리하게 정보를 취득할 수 있다.
본 개시의 기술 분야에서 통상의 지식을 가진 자는 여기에 개시된 실시예들과 관련하여 설명된 다양한 예시적인 논리 블록들, 모듈들, 프로세서들, 수단들, 회로들 및 알고리즘 단계들이 전자 하드웨어, (편의를 위해, 여기에서 소프트웨어로 지칭되는) 다양한 형태들의 프로그램 또는 설계 코드 또는 이들 모두의 결합에 의해 구현될 수 있다는 것을 이해할 것이다.
전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다.
Claims (10)
- 사용자 음성 데이터를 수신하는 입력부;
하나 이상의 프로세서 및
상기 사용자 음성 데이터에 기초하여 생성된 응답을 출력하는 출력부를 포함하는 지능형 로봇에 있어서,
상기 프로세서는,
상기 사용자의 얼굴 영상데이터 및 상기 사용자 음성 데이터를 이용하여 대화 상대를 식별하는 듣기모드 상태를 유지한 채, 상기 사용자 음성 데이터에 대응하는 응답을 생성하고, 상기 응답에 상응하는 동작을 수행하도록 제어하는 말하기 모드를 수행하는,
지능형 로봇. - 제 1항에 있어서,
상기 프로세서는,
상기 입력부를 통하여 획득된 주변 영상 데이터를 이용하여 시야 범위 내에 존재하는 사용자 얼굴을 검출하고, 상기 사용자 얼굴에 대응하는 음성 데이터를 수신하여,
상기 사용자 얼굴데이터 및 사용자 음성 데이터와 기존에 학습된 데이터와 유사도를 학습된 인공지능 모델을 이용하여 판별함으로써 대화 상대를 식별하는,
지능형 로봇. - 제 1항에 있어서,
상기 프로세서는
상기 대화 상대의 음성이 검출되면 상기 입력부에 구비된 카메라를 제어하여 상기 카메라에 입력되는 시야를 상기 대화 상대의 얼굴이 가운데로 오도록 조정하는,
지능형 로봇. - 제 3항에 있어서,
상기 프로세서는 미리 저장된 사용자의 얼굴 데이터와 상기 카메라를 통하여 입력된 영상 데이터에서 사용자 얼굴 영역을 검출하고, 상기 검출된 사용자 얼굴 영역과 미리 저장된 사용자 얼굴 데이터의 유사도가 미리 정해진 값을 초과하는 경우, 상기 검출된 사용자 얼굴 영역이 상기 카메라의 시야 중앙에 위치하면 상기 지능형 로봇의 시야 조정이 완료되었다고 판단하는,
지능형 로봇. - 제 1항에 있어서,
상기 프로세서는, 상기 사용자 음성 데이터의 음성인식 결과를 기초로 되물음 여부를 결정하고,
상기 음성인식 결과는 상기 사용자 음성 데이터의 음성인식 신뢰도를 의미하는,
지능형 로봇. - 사용자 얼굴 영상데이터 및 사용자 음성 데이터를 수신하는 단계;
상기 사용자의 얼굴 영상데이터 및 상기 사용자 음성 데이터를 이용하여 대화 상대를 식별하는 듣기모드를 수행하는 단계;
상기 듣기모드 상태를 유지한 채, 상기 사용자 음성 데이터에 대응하는 응답을 생성하는 단계 및
상기 응답에 상응하는 동작을 수행하도록 제어하는 말하기 모드를 수행하는 단계를 포함하는,
지능형 로봇의 동작 방법. - 제 6항에 있어서,
상기 듣기모드를 수행하는 단계는,
상기 입력부를 통하여 획득된 주변 영상 데이터를 이용하여 시야 범위 내에 존재하는 사용자 얼굴을 검출하고, 상기 사용자 얼굴에 대응하는 음성 데이터를 수신하는 단계 및
상기 사용자 얼굴데이터 및 사용자 음성 데이터와 기존에 학습된 데이터와 유사도를 학습된 인공지능 모델을 이용하여 판별함으로써 대화 상대를 식별하는 단계를 포함하는,
지능형 로봇의 동작 방법. - 제 6항에 있어서,
상기 듣기모드를 수행하는 단계는,
상기 대화 상대의 음성이 검출되면 상기 입력부에 구비된 카메라를 제어하여 상기 카메라에 입력되는 시야를 상기 대화 상대의 얼굴이 가운데로 오도록 조정하는 단계를 포함하는,
지능형 로봇의 동작 방법. - 제 8항에 있어서,
상기 듣기모드를 수행하는 단계는,
미리 저장된 사용자의 얼굴 데이터와 상기 카메라를 통하여 입력된 영상 데이터에서 사용자 얼굴 영역을 검출하고, 상기 검출된 사용자 얼굴 영역과 미리 저장된 사용자 얼굴 데이터의 유사도가 미리 정해진 값을 초과하는 경우, 상기 검출된 사용자 얼굴 영역이 상기 카메라의 시야 중앙에 위치하면 상기 지능형 로봇의 시야 조정이 완료되었다고 판단하는 단계를 포함하는,
지능형 로봇의 동작 방법. - 제 6항에 있어서,
상기 말하기 모드를 수행하는 단계는, 상기 사용자 음성 데이터의 음성인식 결과를 기초로 되물음 여부를 결정하는 단계를 포함하고,
상기 음성인식 결과는 상기 사용자 음성 데이터의 음성인식 신뢰도를 의미하는,
지능형 로봇의 동작 방법.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220181321A KR20240099616A (ko) | 2022-12-22 | 2022-12-22 | 끼어들기 기능을 갖는 음성인식장치 및 방법 |
US18/498,241 US20240212681A1 (en) | 2022-12-22 | 2023-10-31 | Voice recognition device having barge-in function and method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220181321A KR20240099616A (ko) | 2022-12-22 | 2022-12-22 | 끼어들기 기능을 갖는 음성인식장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20240099616A true KR20240099616A (ko) | 2024-07-01 |
Family
ID=91583797
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220181321A KR20240099616A (ko) | 2022-12-22 | 2022-12-22 | 끼어들기 기능을 갖는 음성인식장치 및 방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20240212681A1 (ko) |
KR (1) | KR20240099616A (ko) |
-
2022
- 2022-12-22 KR KR1020220181321A patent/KR20240099616A/ko unknown
-
2023
- 2023-10-31 US US18/498,241 patent/US20240212681A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20240212681A1 (en) | 2024-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12118999B2 (en) | Reducing the need for manual start/end-pointing and trigger phrases | |
KR102411766B1 (ko) | 음성 인식 서비스를 활성화하는 방법 및 이를 구현한 전자 장치 | |
WO2021008538A1 (zh) | 语音交互方法及相关装置 | |
US11568875B2 (en) | Artificial intelligence apparatus and method for recognizing plurality of wake-up words | |
KR20190096308A (ko) | 전자기기 | |
CN115620728B (zh) | 音频处理方法、装置、存储介质及智能眼镜 | |
KR20210044475A (ko) | 대명사가 가리키는 객체 판단 방법 및 장치 | |
US11830501B2 (en) | Electronic device and operation method for performing speech recognition | |
US10923123B2 (en) | Two-person automatic speech recognition training to interpret unknown voice inputs | |
US20200090663A1 (en) | Information processing apparatus and electronic device | |
CN116860913A (zh) | 语音交互方法、装置、设备及存储介质 | |
US11997445B2 (en) | Systems and methods for live conversation using hearing devices | |
WO2023006033A1 (zh) | 语音交互方法、电子设备及介质 | |
KR20240099616A (ko) | 끼어들기 기능을 갖는 음성인식장치 및 방법 | |
US11935449B2 (en) | Information processing apparatus and information processing method | |
US12067171B1 (en) | Systems and methods for operating artificial reality devices using gestures | |
KR20240048966A (ko) | 인공지능 기기 및 그의 동작 방법 | |
CN112230829A (zh) | 用于计算设备上的自动服务激活的系统和方法 | |
KR20200021400A (ko) | 음성 인식을 수행하는 전자 장치 및 그 동작 방법 | |
KR20220060739A (ko) | 전자장치 및 그 제어방법 | |
CN116189718A (zh) | 语音活性检测方法、装置、设备及存储介质 | |
KR20210109722A (ko) | 사용자의 발화 상태에 기초하여 제어 정보를 생성하는 디바이스 및 그 제어 방법 |