KR102660613B1

KR102660613B1 - 언어교육 보조 시스템용 사용자 기기

Info

Publication number: KR102660613B1
Application number: KR1020210026169A
Authority: KR
Inventors: 차형경
Original assignee: 차형경
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2024-04-25
Also published as: KR20220122045A

Abstract

본 문서는 언어교육 보조 시스템용 사용자 기기에 대한 것이다. 사용자 기기는 착용자의 시선방향 이미지를 캡처하기 위해 모자 또는 안경을 포함하는 착용물에 장착되는 카메라; 음성을 인식하기 위한 마이크; 및 소리를 출력하기 위한 스피커와 무선으로 연결된다. 또한, 사용자 기기는 소프트웨어를 포함한 메모리 및 프로세서를 포함하며, 상기 소프트웨어는, 상기 카메라에 의해 캡쳐된 이미지 중 사람의 얼굴 및 사물을 인식하여, 상기 사람의 얼굴이 가족 구성원 중 누구의 얼굴인지, 그리고 상기 사물이 어떠한 사물인지를 CNN (Convolutional Neural Network)을 통해 학습하되, 상기 가족 구성원 중 누구의 얼굴인지에 대한 학습정보는 클라우드 기반 가족 사진 정보의 특징 벡터로부터 획득하며, 상기 소프트웨어는 상기 사람의 얼굴이 가족 구성원 중 누구의 얼굴인지 특정된 정보, 그리고 상기 사물이 어떠한 사물인지 특정된 정보에 기반한 음성 신호를 상기 스피커를 통해 출력할 수 있다.

Description

언어교육 보조 시스템용 사용자 기기 {User Equipment For Supporting Language Education System}

이하의 설명은 언어교육 보조 시스템용 사용자 기기에 대한 것으로서, 착용자의 시선방향 이미지를 이용하여 효율적인 언어교육을 제공하기 위한 언어교육 보조 시스템, 언어교육 보조 시스템용 사용자 기기, 이를 위한 사용자 인터페이스 등에 대한 것이다.

유아가 첫 단어를 배우는 것은 대략 만 1세 가량으로써, 이후 유아의 언어발달을 위해 다양한 방법이 이용되고 있다. 많은 부모들이 자녀의 언어발달을 위해 단어카드를 사용하거나, 책을 읽어주거나, 직접 사물을 제시하면서 해당 사물의 명칭을 반복하여 이야기해 주는 방식을 사용하고 있다.

다만, 많은 유아교육 전문가들은 유아 스스로가 관심이 없는 상태에서 단어카드를 사용하거나, 책을 읽어 주거나, 관심 없는 사물을 제시하면서 교육하는 방식보다는 유아를 따라 다니면서 유아가 스스로 관심이 있어하는 사물 등을 중계방송을 해 주듯이 설명해 주는 방식이 가장 효율적인 언어교육으로 제시하고 있다.

다만, 이와 같이 아이를 지속적으로 따라다니면서 아이의 시선이 가는 곳을 지속적으로 설명해 주는 것은 많은 시간과 노력이 드는 일이다.

상술한 바와 같은 문제를 해결하기 위한 본 발명의 일 측면에서는 착용자의 시선방향 이미지를 캡쳐하여, 이에 대응하는 음성을 지속적으로 제공함으로써, 효율적인 언어교육을 제공할 수 있는 수단을 제공하고자 한다.

본 발명의 다른 일 측면에서는 언어교육 보조 시스템을 착용한 착용자의 부정확한 음성을 인지하여, 이에 대응하는 효율적인 언어교육을 제공하며, 나아가 부정확한 음성을 통역해 주는 수단을 제공하고자 한다.

본 발명에서 해결하고자 하는 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

상술한 바와 같은 과제를 해결하기 위한 본 발명의 일 측면에서는 언어교육 보조 시스템용 사용자 기기에 있어서, 착용자의 시선방향 이미지를 캡처하기 위해 모자 또는 안경을 포함하는 착용물에 장착되는 카메라; 음성을 인식하기 위한 마이크; 및 소리를 출력하기 위한 스피커와 무선으로 연결되며, 소프트웨어를 포함한 메모리 및 프로세서를 포함하는 사용자 기기에 있어서, 상기 소프트웨어는, 상기 카메라에 의해 캡쳐된 이미지 중 사람의 얼굴 및 사물을 인식하여, 상기 사람의 얼굴이 가족 구성원 중 누구의 얼굴인지, 그리고 상기 사물이 어떠한 사물인지를 CNN (Convolutional Neural Network)을 통해 학습하되, 상기 가족 구성원 중 누구의 얼굴인지에 대한 학습정보는 클라우드 기반 가족 사진 정보의 특징 벡터로부터 획득하며, 상기 소프트웨어는 상기 사람의 얼굴이 가족 구성원 중 누구의 얼굴인지 특정된 정보, 그리고 상기 사물이 어떠한 사물인지 특정된 정보에 기반한 음성 신호를 상기 스피커를 통해 출력하는, 언어교육 보조 시스템용 사용자 기기를 제안한다.

상기 CNN은, 상기 카메라에 의해 캡쳐된 이미지 내의 특징 지도를 추출하는 복수의 콘볼루션 계층들 (convolution layers), 및 상기 복수의 콘볼루션 계층들 사이에 서브샘플링을 수행하는 풀링 계층(pooling layer)를 포함하여, 상기 이미지 내의 인물 특정 벡터를 추출하며, 상기 인물 특정 벡터를 상기 클라우드 기반 가족 사진 정보의 특징 벡터와 비교하여 학습할 수 있다.

상기 소프트웨어는 상기 사람의 얼굴이 가족 구성원 중 누구의 얼굴인지 특정된 정보, 상기 사물이 어떠한 사물인지 특정된 정보, 및 상기 가족 구성원이 특정된 제 1 영역과 상기 사물이 특정된 제 2 영역의 위치 관계에 기반한 음성 신호를 상기 스피커를 통해 출력할 수도 있다.

상기 소프트웨어는 상기 마이크를 통해 인식된 착용자의 음성에 대응하는 음성 신호를 상기 스피커를 통해 출력하되, 상기 인식된 착용자의 음성은 기 저장된 단어 사전의 정보에 추가적으로 상기 카메라에 의해 캡쳐된 이미지에 의해 기반하여 판단될 수도 있다.

상기 소프트웨어는, 상기 인식된 착용자의 음성이 기 저장된 단어 사전의 정보에 대응하는 단어가 없는 경우, 상기 카메라에 의해 캡쳐된 이미지에 기반하여 상기 인식된 착용자의 음성을 학습하여 상기 기 저장된 단어 사전을 오류 인덱스 및 상기 카메라에 의해 캡쳐된 이미지에 대응하는 단어와 함께 업데이트하도록 설정될 수도 있다.

상기 소프트웨어는, 상기 인식된 착용자의 음성이 상기 오류 인덱스를 포함하는 기 저장된 단어 사전의 단어에 대응되는 경우, 학습에 기반한 교정 안내를 출력할 수 있다.

상기 사용자 기기는 상기 착용자의 언어 수준에 따라 상기 스피커를 통해 출력되는 음성의 단어 수 레벨을 조절하기 위한 사용자 인터페이스를 포함할 수도 있다.

상기 소프트웨어는 상기 클라우드 기반 가족 사진 정보의 인물 인덱스를 교육 대상자 시점에서의 인물 인덱스로 변경하는 기능을 포함할 수 있다.

상술한 바와 같은 본 발명의 실시예들에 따르면 착용자의 시선방향 이미지를 캡쳐하여, 이에 대응하는 음성을 지속적으로 제공함으로써, 효율적인 언어교육을 제공할 수 있다.

또한, 본 발명의 실시예들에 따르면 언어교육 보조 시스템을 착용한 착용자의 부정확한 음성을 인지하여, 이에 대응하는 효율적인 언어교육을 제공하며, 나아가 부정확한 음성을 통역해 주는 수단을 제공할 수 있다.

본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에서 유아의 시선방향 이미지를 용이하게 캡쳐하기 위한 일례를 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따라 착용자의 시선방향 이미지를 활용하는 방법을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따라 사용자의 클라우드 사진첩의 정보와 인물을 특정하는 단어를 변경하는 방법을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 CNN 학습 방법을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 사용자 기기 상의 디스플레이를 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 착용구의 구성을 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에 따라 교육 대상자의 부정확한 언어에 대응하는 방법을 설명하기 위한 도면이다.
도 8은 본 발명의 일 실시예에 따라 교육 대상자의 잘못된 발음을 학습한 이후의 활용예를 설명하기 위한 도면이다.

이하에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

도 1은 본 발명의 일 실시예에서 유아의 시선방향 이미지를 용이하게 캡쳐하기 위한 일례를 도시한 도면이다.

상술한 바와 같이 본 발명의 일 측면에서는 착용자의 시선방향 이미지를 캡쳐하여, 이에 대응하는 음성을 지속적으로 제공하고자 한다. 이를 위해 도 1에서는 유아가 거부감 없이 착용할 수 있는 모자(10) 형태를 도시하고 있으며, 다만 유아가 거부감 없이 착용할 수 있는 착용물이라면 안경 등 다양한 착용물이 이용될 수 있으며, 후술하는 바와 같이 착용물이 아닌 유아가 탑승한 유모차 등 탑숭물에도 적용될 수 있다.

도 1에 도시된 착용물(10)은 착용자의 시선방향 이미지를 캡처하기 위해 장착되는 카메라(20)를 포함한다. 또한, 도 1의 예에서는 착용자(예: 유아)의 음성을 인식하기 위한 마이크(30)가 추가적으로 장착되는 형태를 도시하고 있으나, 마이크(30)는 반드시 착용물에 장착될 필요는 없으며, 착용자의 음성을 용이하게 인식할 수 있는 위치에 있다면 별도의 장소에 장착될 수 있다.

도 2는 본 발명의 일 실시예에 따라 착용자의 시선방향 이미지를 활용하는 방법을 설명하기 위한 도면이다.

도 1과 관련하여 상술한 카메라(20) 및 마이크(30)에 추가적으로 본 실시예에 따른 언어교육 보조 시스템은 스피커(40)를 활용하나, 스피커(40)는 착용물에 장착될 필요성이 카메라(20) 및 마이크(30)에 비해 매우 낮다.

이와 같이 카메라(20), 마이크(30) 및 스피커(40)는 본 발명의 일 실시예에 따른 사용자 기기에 무선으로 연결될 수 있으며, 무선 연결은 WiFi, 블루투스 등 다양한 방법이 활용될 수 있다.

이와 같은 사용자 기기는 소프트웨어를 포함한 메모리 및 프로세서를 포함하며, 이하에서 설명하는 방식을 소프트웨어를 통해 구동시킬 수 있다. 이해의 편의를 위해 이하의 설명에서 상술한 사용자 기기는 스마트폰이며, 소프트웨어는 다운로드 가능한 어플리케이션인 것을 가정하여 설명하나, 사용자 기기의 형태, 소프트웨어의 형태는 이와 달리 다양할 수 있다.

도 2에 도시된 바와 같이 본 발명의 일 실시예에 따른 소프트웨어는, 카메라(10)에 의해 캡쳐된 이미지 중 사람의 얼굴(100) 및 사물(200)을 인식하여, 상기 사람의 얼굴(100)이 가족 구성원 중 누구의 얼굴인지, 그리고 상기 사물이 어떠한 사물인지를 CNN (Convolutional Neural Network)을 통해 학습하는 것을 제안한다. 특히, 본 실시예에서 가족 구성원 중 누구의 얼굴인지에 대한 학습정보는 클라우드 기반 가족 사진 정보의 특징 벡터로부터 획득하는 것을 제안한다.

예를 들어, 사용자가 사용하는 클라우드 기반 사진첩(예를 들어, 구글 포토 등)에 저장된 사진들은 대체로 인물들을 구분하여 인물 인덱스에 대응하게 저장되어 있으며, 이러한 클라우드 사진첩의 정보를 CNN의 학습정보로 활용하여 인물이 가족 구성원 중 누구인지를 식별할 수 있다.

이에 기반하여 본 실시예에 따른 소프트웨어는 상기 사람의 얼굴(100)이 가족 구성원 중 엄마의 얼굴이라는 정보, 그리고 사물(200)이 책이라는 정보에 기반한 음성 신호(예를 들어, 엄마가 책을 읽고 있네요)를 스피커(40)를 통해 출력하도록 구성될 수 있다.

또한, 본 발명의 일 실시예에 따른 소프트웨어는 사람의 얼굴이 가족 구성원 중 누구의 얼굴인지 특정된 정보, 사물이 어떠한 사물인지 특정된 정보뿐만 아니라 상기 가족 구성원이 특정된 제 1 영역(100)과 상기 사물이 특정된 제 2 영역(200)의 위치 관계에 기반한 음성 신호를 스피커(40)를 통해 출력하는 것을 제안한다. 이는 특정된 이미지 영역을 regression하는 방식으로 수행될 수 있으며, 예를 들어, '아빠가 쇼파 위에 있어요'와 같이 대상물 사이의 위치 관계를 설명하는 방식으로 이용될 수 있다.

물론, 사람과 사물 사이의 위치관계에 한정될 필요는 없으며, 사물과 사물 사이의 위치관계를 설명하는 음성을 출력할 수도 있다. 예를 들어, "사과가 식탁 위에 있어요"와 같이 사물과 사물 사이의 관계를 출력할 수 있다. 다만, 착용자의 시선이 지나가는 모든 사물 이미지 사이의 관계를 설명하는 경우, 착용자의 집중력에 비효율적일 수 있으며, 따라서 바람직하게 착용자의 시선이 기 정해진 시간(예를 들어, 10초)이상 머무르는 경우, 상술한 바와 같은 음성을 출력하도록 설정될 수 있다.

도 3은 본 발명의 일 실시예에 따라 사용자의 클라우드 사진첩의 정보와 인물을 특정하는 단어를 변경하는 방법을 설명하기 위한 도면이다.

도 3에 도시된 바와 같이 일반적인 상용 클라우드 사진첩에는 인물별로 구분되어 폴더를 생성하고 있으며, 이와 같은 인물 구분에는 사진 상의 인물의 특징 벡터를 이용하고 있다. 이와 같은 클라우드 사진첩에서 인물별 폴더를 들어가면 기 저장된 많은 사진들 중 특정 인물의 사진들이 저장되어 있다.

다만, 도 3에 도시된 바와 같이 일반적인 상용 클라우드 사진첩의 인물 인덱스(300)는 해당 인물의 실명 등으로 인덱스되어 있으며, 유아에게 이러한 실명을 이용하는 것보다는 유아의 관점에서의 호칭으로 변경하여 음성 출력을 하는 것이 바람직하다.

따라서, 본 발명의 일 실시예에 따른 소프트웨어는 클라우드 기반 가족 사진 정보의 인물 인덱스(300)를 교육 대상자 시점에서의 인물 인덱스(400)로 변경하는 기능을 포함하는 것을 제안한다.

예를 들어, 해당 어플리케이션에서 상용 클라우트 사진첩의 인물 인덱스 정보(300)를 획득하되, 이를 유아의 관점에서의 호칭, 예를 들어 '엄마', '아빠', '형아' 등으로 변경하는 사용자 인터페이스를 제공할 수 있다.

도 4는 본 발명의 일 실시예에 따른 CNN 학습 방법을 설명하기 위한 도면이다.

도 4에 도시된 바와 같이 착용자의 시선방향 이미지(50)는 CNN의 입력 데이터로서 입력될 수 있다. 본 실시예에 따른 CNN은 우선 이와 같은 입력 데이터의 이미지(50) 내의 특징 지도를 추출하는 복수의 콘볼루션 계층들 (convolution layers; S100 및 S300)과 상기 복수의 콘볼루션 계층들(S100 및 S300) 사이에 서브샘플링을 수행하는 풀링 계층(pooling layer; S200 및 S400)을 포함할 수 있다. 콘볼루션 계층들은 도 4에 도시된 바와 같이 ReLU 계층을 거쳐 해당 특징 지도 내 양의 값만을 활성화시키는 것이 바람직하나, 이에 한정될 필요는 없다.

상술한 바와 같이 추출된 특징 벡터들은 입체 이미지를 평탄화(S500)하는 과정을 거치고, 완전연결(fully connected) 계층을 통과하여 특징 벡터가 출력되며, 이러한 특징 벡터를 Softmax를 이용하여 분류하는 작업을 수행할 수 있다.

이와 같이 Softmax를 이용하여 분류된 인물 특정 벡터(인덱스)는 상술한 바와 같이 클라우드 기반 가족 사진 정보의 특징 벡터와 비교(S500)하여 학습하는 과정을 거칠 수 있다. 이에 따라, 본 실시예에 따른 CNN은 이미지의 인물을 단순히 사람이 아니라 특정 인물을 구분할 수 있으며, 대량의 데이터로 효율적으로 학습하고, 도 3과 관련하여 상술한 바와 같이 교육 대상자 시점에서 적절한 인덱스를 부여할 수 있다.

도 5는 본 발명의 일 실시예에 따른 사용자 기기 상의 디스플레이를 설명하기 위한 도면이다.

본 실시예에 따른 사용자 기기(50)는 상술한 바와 같이 카메라(20), 마이크(30) 및 스피커(40)와 WiFi, 블루투스 등 무선통신 방식으로 연결되며, 이를 위한 소프트웨어(어플리케이션)은 카메라와의 무선연결을 제어하는 인터페이스(51), 마이크와의 무선연결을 제어하는 인터페이스(미도시), 그리고 스피커와의 무선연결을 제어하는 인터페이스(52)를 포함할 수 있다. 도 5에 도시된 바와 같이 카메라, 스피커 등을 각각 온/오프로 제어할 수 있으며, 복수의 카메라, 스피커들 중 어느 카메라/스피커와 연결할 지를 선택할 수도 있다. 이는 유아용 언어교육 보조 시스템의 경우 카메라/마이크 등이 장착된 모자 등을 수시로 세척할 필요가 있을 수 있으며, 이에 따라 복수의 카메라/마이크들 중 어느 카메라/마이크에 연결할 지를 선택하도록 하는 인터페이스를 제공할 수 있다.

도 5에 도시된 것과 달리 카메라/마이크가 장착된 착용구 단위로 연결을 선택하도록 인터페이스를 구성할 수도 있음은 물론이다.

한편, 본 실시예에 따른 사용자 기기는 도 5에 도시된 바와 같이 SNS를 통해 로그인할 수 있는 인터페이스(53)를 제공할 수 있다. 상술한 바와 같이 클라우드 기반 사진첩의 인물 특징 벡터를 활용하는 측면에서, 해당 클라우드 기반 사진첩을 제공하는 SNS 계정으로 로그인을 하는 경우, 별도의 연결 절차 없이 해당 SNS 계정에 연결된 클라우드 사진첩의 정보를 추출할 수 있도록 할 수 있다.

물론, 본 발명의 일 실시예에서는 언어교육 보조 시스템 자체의 서버를 구축하고, 자체 제공하는 클라우드 사진첩을 이용하도록 할 수 있으며, 기존 상용 클라우드 사진첩의 정보를 자체 클라우드 사진첩으로 손쉽게 이동시키는 기능을 제공할 수도 있다.

도 6은 본 발명의 일 실시예에 따른 착용구의 구성을 설명하기 위한 도면이다.

도 6에 도시된 바와 같이 교육 대상자가 착용하는 착용구가 모자의 형태를 가질 수 있으며, 본 실시예에서 카메라(20)는 렌즈부가 외부로 노출되되, 내부에서는 교육 대상자의 피부에 접촉하지 않도록 하는 커버(60)를 포함할 수 있다.

또한, 해당 커버(60)는 개방/밀폐가 용이하도록 설계하여, 카메라(20)를 분리한 후 용이하게 세척이 이루어지도록 할 수 있다.

상술한 카메라에 대한 설명은 마이크가 착용구에 부착된 형태를 이용하는 경우에도 동일하게 착용자의 피부에 접촉하지 않도록 개폐 가능한 커버를 포함시킬 수 있다.

도 7은 본 발명의 일 실시예에 따라 교육 대상자의 부정확한 언어에 대응하는 방법을 설명하기 위한 도면이다.

본 발명의 일 실시예에 따른 소프트웨어는 마이크(30)를 통해 인식된 착용자의 음성에 대응하는 음성 신호를 스피커(40)를 통해 출력하는 것을 제안한다. 만일, 착용자의 음성이 정확한 단어를 이용한 음성인 경우 (예를 들어, 기 저장된 단어 사전 정보에 대응하는 단어가 있는 경우), 이에 응답하는 음성을 출력하여 대화를 유도할 수 있다. 또한, 후술하는 바와 같이 유아의 언어 수준에 따라 출력 음성의 단어의 수 등 수준을 조정할 수도 있다.

한편, 바람직한 일 실시예에서는 상기 인식된 착용자의 음성은 기 저장된 단어 사전의 정보에 추가적으로 상기 카메라에 의해 캡쳐된 이미지(50A)에 의해 기반하여 판단되는 것을 제안한다.

구체적으로, 본 실시예에 따른 소프트웨어는, 인식된 착용자의 음성이 기 저장된 단어 사전의 정보에 대응하는 단어가 없는 경우 (예를 들어, '아슈 ~ 아슈 ~'), 카메라에 의해 캡쳐된 이미지(50A)에 기반하여 상기 인식된 착용자의 음성을 학습할 수 있다. 즉, 이와 같은 부정확한 단어 음성이 소정 횟수 이상 반복하여 동일 대상물을 지칭하는 경우, 이를 학습을 통해 교육 대상자가 해당 대상물을 잘못된 단어로 발음하고 있음을 인지할 수 있다.

이와 같은 학습 과정을 통해 본 실시예에 따른 소프트웨어는 상기 기 저장된 단어 사전을 오류 인덱스 및 카메라에 의해 캡쳐된 이미지(50A)에 대응하는 단어와 함께 업데이트하도록 설정될 수 있다.

이러한 학습을 거친 후 본 실시예에 따른 소프트웨어는 인식된 착용자의 음성이 상기 오류 인덱스를 포함하는 기 저장된 단어 사전의 단어에 대응되는 경우, 이를 교정하는 음성을 출력할 수 있다. 많은 언어교육 전문가들은 직접적인 교정보다는 해당 단어의 올바른 발음을 이용하여 대응하는 것이 효율적이라고 추천하고 있으며, 이에 따라 아이가 아이스크림을 “아슈 ~ 아슈 ~”로 발음하고 있음을 학습한 경우, 이에 대응하는 음성으로서 “주원이는 아이스크림이 먹고 싶은가 봐요.”라는 대응음성을 출력하고/출력하거나 “아.이.스.크.림.”의 발음을 보다 정확하게 표현하여 출력할 수 있다.

이러한 교정 안내의 출력은 상기 카메라에 의해 캡쳐된 이미지(50A)에 대응하여 출력할 수 있으나, 이미 학습이 이루어져 있는 경우에는 잘못된 발음 자체를 인지하여 교정 안내를 출력할 수도 있다.

한편, 상술한 바와 같이 사용자 기기는 착용자의 언어 수준에 따라 스피커를 통해 출력되는 음성의 단어 수 레벨을 조절하기 위한 사용자 인터페이스를 포함할 수도 있다. 예를 들어, 아이가 만 1세 ~ 2세 사이인 경우, 출력음성이 2단어 이하를 이용하도록 설정할 수 있고, 이러한 레벨은 사용자가 직접 단어 수를 선택하게 하거나, 아이의 만 월령에 기반하여 자동적으로 설정될 수도 있다. 물론, 마이크를 통해 입력되는 교육 대상자의 언어 수준을 통해 스스로 이를 판단하여 사용자 기기에 표시할 수도 있다.

도 8은 본 발명의 일 실시예에 따라 교육 대상자의 잘못된 발음을 학습한 이후의 활용예를 설명하기 위한 도면이다.

도 8의 실시예에서는 마이크(30)가 모자/안경 등의 착용구가 아니라 유모차 등 탑승 장비에 장착되는 예를 도시하고 있으며, 이러한 변형은 상술한 실시예들에도 동일하게 적용할 수 있다.

도 7과 관련하여 상술한 바와 같이 교육 대상자의 반복적인 잘못된 발음은 학습될 수 있다. 이를 활용하여 부모조차 알아듣기 어려운 아이의 표현을 해석하는 방식으로 본 사용자 기기가 이용될 수도 있다.

예를 들어, 도 7의 과정을 통해 아이가 '아이스크림'을 '아슈'로 발음하는 것을 학습한 사용자 기기는 교육 대상자가 "맘마 ~ 아슈퍼~"라는 발음을 통해 "엄마. 아이스크림 먹고 싶어요"를 의도하는 것으로 해석할 수 있다. 이에 따라 거꾸로 부모에서 아이가 의미하는 바를 전달하는 음성을 스피커(40)를 통해 출력될 수 있다. 도 8의 도시와 달리 스피커(40) 역시 유모차 등의 탑승 장비에 장착될 수도 있음은 물론이다.

상술한 바와 같이 개시된 본 발명의 바람직한 실시예들에 대한 상세한 설명은 당업자가 본 발명을 구현하고 실시할 수 있도록 제공되었다. 상기에서는 본 발명의 바람직한 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 본 발명의 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다. 예를 들어, 당업자는 상술한 실시예들에 기재된 각 구성을 서로 조합하는 방식으로 이용할 수 있다.

따라서, 본 발명은 여기에 나타난 실시예들에 제한되려는 것이 아니라, 여기서 개시된 원리들 및 신규한 특징들과 일치하는 최광의 범위를 부여하려는 것이다.

상술한 바와 같은 본 발명은 유아기의 아동의 언어교육에 활용될 수 있으며, 유아뿐만 아니라 자페 스팩트럼 증후군을 가진 교육대상자에 효율적인 사용적 자극을 제공하기 위해서도 널리 활용될 수 있다.

Claims

언어교육 보조 시스템용 사용자 기기에 있어서,
착용자의 시선방향 이미지를 캡처하기 위해 모자 또는 안경을 포함하는 착용물에 장착되는 카메라;
음성을 인식하기 위한 마이크; 및
소리를 출력하기 위한 스피커,
와 무선으로 연결되며,
소프트웨어를 포함한 메모리 및 프로세서를 포함하는 사용자 기기에 있어서,
상기 소프트웨어는,
상기 카메라에 의해 캡쳐된 이미지 중 사람의 얼굴 및 사물을 인식하여, 상기 사람의 얼굴이 누구의 얼굴인지, 그리고 상기 사물이 어떠한 사물인지를 CNN (Convolutional Neural Network)을 통해 획득하되,
상기 누구의 얼굴인지에 대한 정보는 클라우드 기반 사진첩 정보의 인물 인덱스에 대응하는 제 1 인덱스를 획득하여, 상기 제 1 인덱스를 상기 착용자의 관점에서의 호칭에 대응하는 제 2 인덱스로 변경하여 특정하며,
상기 소프트웨어는 상기 사람의 얼굴이 누구의 얼굴인지 특정된 제 2 인덱스, 그리고 상기 사물이 어떠한 사물인지 특정된 정보에 기반한 음성 신호를 상기 스피커를 통해 출력하며,
상기 소프트웨어는 상기 마이크를 통해 인식된 착용자의 음성에 대응하는 음성 신호를 상기 스피커를 통해 출력하되,
상기 인식된 착용자의 음성이 기 저장된 단어 사전의 정보에 대응하는 단어가 없는 경우, 상기 카메라에 의해 캡쳐된 이미지에 기반하여 상기 인식된 착용자의 음성을 학습하여 상기 기 저장된 단어 사전을 오류 인덱스 및 상기 카메라에 의해 캡쳐된 이미지에 대응하는 단어와 함께 업데이트하도록 설정되는, 언어교육 보조 시스템용 사용자 기기.
제 1 항에 있어서,
상기 CNN은,
상기 카메라에 의해 캡쳐된 이미지 내의 특징 지도를 추출하는 복수의 콘볼루션 계층들 (convolution layers), 및 상기 복수의 콘볼루션 계층들 사이에 서브샘플링을 수행하는 풀링 계층(pooling layer)를 포함하여, 상기 이미지 내의 인물 특정 벡터를 추출하며,
상기 인물 특정 벡터를 상기 클라우드 기반 사진첩 정보의 특징 벡터와 비교하여 학습하는, 언어교육 보조 시스템용 사용자 기기.
제 1 항에 있어서,
상기 소프트웨어는 상기 사람의 얼굴이 누구의 얼굴인지 특정된 제 2 인덱스, 상기 사물이 어떠한 사물인지 특정된 정보, 및 상기 사람의 얼굴이 특정된 제 1 영역과 상기 사물이 특정된 제 2 영역의 위치 관계에 기반한 음성 신호를 상기 스피커를 통해 출력하는, 언어교육 보조 시스템용 사용자 기기.
삭제
삭제
제 1 항에 있어서,
상기 소프트웨어는,
상기 인식된 착용자의 음성이 상기 오류 인덱스를 포함하는 기 저장된 단어 사전의 단어에 대응되는 경우, 학습에 기반한 교정 안내를 출력하는, 언어교육 보조 시스템용 사용자 기기.
제 1 항에 있어서,
상기 사용자 기기는 상기 착용자의 언어 수준에 따라 상기 스피커를 통해 출력되는 음성의 단어 수 레벨을 조절하기 위한 사용자 인터페이스를 포함하는, 언어교육 보조 시스템용 사용자 기기.
삭제