KR102660613B1 - 언어교육 보조 시스템용 사용자 기기 - Google Patents

언어교육 보조 시스템용 사용자 기기 Download PDF

Info

Publication number
KR102660613B1
KR102660613B1 KR1020210026169A KR20210026169A KR102660613B1 KR 102660613 B1 KR102660613 B1 KR 102660613B1 KR 1020210026169 A KR1020210026169 A KR 1020210026169A KR 20210026169 A KR20210026169 A KR 20210026169A KR 102660613 B1 KR102660613 B1 KR 102660613B1
Authority
KR
South Korea
Prior art keywords
user device
person
wearer
voice
face
Prior art date
Application number
KR1020210026169A
Other languages
English (en)
Other versions
KR20220122045A (ko
Inventor
차형경
Original Assignee
차형경
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 차형경 filed Critical 차형경
Priority to KR1020210026169A priority Critical patent/KR102660613B1/ko
Publication of KR20220122045A publication Critical patent/KR20220122045A/ko
Application granted granted Critical
Publication of KR102660613B1 publication Critical patent/KR102660613B1/ko

Links

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/04Electrically-operated educational appliances with audible presentation of the material to be studied
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/002Specific input/output arrangements not covered by G06F3/01 - G06F3/16
    • G06F3/005Input arrangements through a video camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Educational Technology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Educational Administration (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Acoustics & Sound (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

본 문서는 언어교육 보조 시스템용 사용자 기기에 대한 것이다. 사용자 기기는 착용자의 시선방향 이미지를 캡처하기 위해 모자 또는 안경을 포함하는 착용물에 장착되는 카메라; 음성을 인식하기 위한 마이크; 및 소리를 출력하기 위한 스피커와 무선으로 연결된다. 또한, 사용자 기기는 소프트웨어를 포함한 메모리 및 프로세서를 포함하며, 상기 소프트웨어는, 상기 카메라에 의해 캡쳐된 이미지 중 사람의 얼굴 및 사물을 인식하여, 상기 사람의 얼굴이 가족 구성원 중 누구의 얼굴인지, 그리고 상기 사물이 어떠한 사물인지를 CNN (Convolutional Neural Network)을 통해 학습하되, 상기 가족 구성원 중 누구의 얼굴인지에 대한 학습정보는 클라우드 기반 가족 사진 정보의 특징 벡터로부터 획득하며, 상기 소프트웨어는 상기 사람의 얼굴이 가족 구성원 중 누구의 얼굴인지 특정된 정보, 그리고 상기 사물이 어떠한 사물인지 특정된 정보에 기반한 음성 신호를 상기 스피커를 통해 출력할 수 있다.

Description

언어교육 보조 시스템용 사용자 기기 {User Equipment For Supporting Language Education System}
이하의 설명은 언어교육 보조 시스템용 사용자 기기에 대한 것으로서, 착용자의 시선방향 이미지를 이용하여 효율적인 언어교육을 제공하기 위한 언어교육 보조 시스템, 언어교육 보조 시스템용 사용자 기기, 이를 위한 사용자 인터페이스 등에 대한 것이다.
유아가 첫 단어를 배우는 것은 대략 만 1세 가량으로써, 이후 유아의 언어발달을 위해 다양한 방법이 이용되고 있다. 많은 부모들이 자녀의 언어발달을 위해 단어카드를 사용하거나, 책을 읽어주거나, 직접 사물을 제시하면서 해당 사물의 명칭을 반복하여 이야기해 주는 방식을 사용하고 있다.
다만, 많은 유아교육 전문가들은 유아 스스로가 관심이 없는 상태에서 단어카드를 사용하거나, 책을 읽어 주거나, 관심 없는 사물을 제시하면서 교육하는 방식보다는 유아를 따라 다니면서 유아가 스스로 관심이 있어하는 사물 등을 중계방송을 해 주듯이 설명해 주는 방식이 가장 효율적인 언어교육으로 제시하고 있다.
다만, 이와 같이 아이를 지속적으로 따라다니면서 아이의 시선이 가는 곳을 지속적으로 설명해 주는 것은 많은 시간과 노력이 드는 일이다.
상술한 바와 같은 문제를 해결하기 위한 본 발명의 일 측면에서는 착용자의 시선방향 이미지를 캡쳐하여, 이에 대응하는 음성을 지속적으로 제공함으로써, 효율적인 언어교육을 제공할 수 있는 수단을 제공하고자 한다.
본 발명의 다른 일 측면에서는 언어교육 보조 시스템을 착용한 착용자의 부정확한 음성을 인지하여, 이에 대응하는 효율적인 언어교육을 제공하며, 나아가 부정확한 음성을 통역해 주는 수단을 제공하고자 한다.
본 발명에서 해결하고자 하는 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상술한 바와 같은 과제를 해결하기 위한 본 발명의 일 측면에서는 언어교육 보조 시스템용 사용자 기기에 있어서, 착용자의 시선방향 이미지를 캡처하기 위해 모자 또는 안경을 포함하는 착용물에 장착되는 카메라; 음성을 인식하기 위한 마이크; 및 소리를 출력하기 위한 스피커와 무선으로 연결되며, 소프트웨어를 포함한 메모리 및 프로세서를 포함하는 사용자 기기에 있어서, 상기 소프트웨어는, 상기 카메라에 의해 캡쳐된 이미지 중 사람의 얼굴 및 사물을 인식하여, 상기 사람의 얼굴이 가족 구성원 중 누구의 얼굴인지, 그리고 상기 사물이 어떠한 사물인지를 CNN (Convolutional Neural Network)을 통해 학습하되, 상기 가족 구성원 중 누구의 얼굴인지에 대한 학습정보는 클라우드 기반 가족 사진 정보의 특징 벡터로부터 획득하며, 상기 소프트웨어는 상기 사람의 얼굴이 가족 구성원 중 누구의 얼굴인지 특정된 정보, 그리고 상기 사물이 어떠한 사물인지 특정된 정보에 기반한 음성 신호를 상기 스피커를 통해 출력하는, 언어교육 보조 시스템용 사용자 기기를 제안한다.
상기 CNN은, 상기 카메라에 의해 캡쳐된 이미지 내의 특징 지도를 추출하는 복수의 콘볼루션 계층들 (convolution layers), 및 상기 복수의 콘볼루션 계층들 사이에 서브샘플링을 수행하는 풀링 계층(pooling layer)를 포함하여, 상기 이미지 내의 인물 특정 벡터를 추출하며, 상기 인물 특정 벡터를 상기 클라우드 기반 가족 사진 정보의 특징 벡터와 비교하여 학습할 수 있다.
상기 소프트웨어는 상기 사람의 얼굴이 가족 구성원 중 누구의 얼굴인지 특정된 정보, 상기 사물이 어떠한 사물인지 특정된 정보, 및 상기 가족 구성원이 특정된 제 1 영역과 상기 사물이 특정된 제 2 영역의 위치 관계에 기반한 음성 신호를 상기 스피커를 통해 출력할 수도 있다.
상기 소프트웨어는 상기 마이크를 통해 인식된 착용자의 음성에 대응하는 음성 신호를 상기 스피커를 통해 출력하되, 상기 인식된 착용자의 음성은 기 저장된 단어 사전의 정보에 추가적으로 상기 카메라에 의해 캡쳐된 이미지에 의해 기반하여 판단될 수도 있다.
상기 소프트웨어는, 상기 인식된 착용자의 음성이 기 저장된 단어 사전의 정보에 대응하는 단어가 없는 경우, 상기 카메라에 의해 캡쳐된 이미지에 기반하여 상기 인식된 착용자의 음성을 학습하여 상기 기 저장된 단어 사전을 오류 인덱스 및 상기 카메라에 의해 캡쳐된 이미지에 대응하는 단어와 함께 업데이트하도록 설정될 수도 있다.
상기 소프트웨어는, 상기 인식된 착용자의 음성이 상기 오류 인덱스를 포함하는 기 저장된 단어 사전의 단어에 대응되는 경우, 학습에 기반한 교정 안내를 출력할 수 있다.
상기 사용자 기기는 상기 착용자의 언어 수준에 따라 상기 스피커를 통해 출력되는 음성의 단어 수 레벨을 조절하기 위한 사용자 인터페이스를 포함할 수도 있다.
상기 소프트웨어는 상기 클라우드 기반 가족 사진 정보의 인물 인덱스를 교육 대상자 시점에서의 인물 인덱스로 변경하는 기능을 포함할 수 있다.
상술한 바와 같은 본 발명의 실시예들에 따르면 착용자의 시선방향 이미지를 캡쳐하여, 이에 대응하는 음성을 지속적으로 제공함으로써, 효율적인 언어교육을 제공할 수 있다.
또한, 본 발명의 실시예들에 따르면 언어교육 보조 시스템을 착용한 착용자의 부정확한 음성을 인지하여, 이에 대응하는 효율적인 언어교육을 제공하며, 나아가 부정확한 음성을 통역해 주는 수단을 제공할 수 있다.
본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에서 유아의 시선방향 이미지를 용이하게 캡쳐하기 위한 일례를 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따라 착용자의 시선방향 이미지를 활용하는 방법을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따라 사용자의 클라우드 사진첩의 정보와 인물을 특정하는 단어를 변경하는 방법을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 CNN 학습 방법을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 사용자 기기 상의 디스플레이를 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 착용구의 구성을 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에 따라 교육 대상자의 부정확한 언어에 대응하는 방법을 설명하기 위한 도면이다.
도 8은 본 발명의 일 실시예에 따라 교육 대상자의 잘못된 발음을 학습한 이후의 활용예를 설명하기 위한 도면이다.
이하에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
도 1은 본 발명의 일 실시예에서 유아의 시선방향 이미지를 용이하게 캡쳐하기 위한 일례를 도시한 도면이다.
상술한 바와 같이 본 발명의 일 측면에서는 착용자의 시선방향 이미지를 캡쳐하여, 이에 대응하는 음성을 지속적으로 제공하고자 한다. 이를 위해 도 1에서는 유아가 거부감 없이 착용할 수 있는 모자(10) 형태를 도시하고 있으며, 다만 유아가 거부감 없이 착용할 수 있는 착용물이라면 안경 등 다양한 착용물이 이용될 수 있으며, 후술하는 바와 같이 착용물이 아닌 유아가 탑승한 유모차 등 탑숭물에도 적용될 수 있다.
도 1에 도시된 착용물(10)은 착용자의 시선방향 이미지를 캡처하기 위해 장착되는 카메라(20)를 포함한다. 또한, 도 1의 예에서는 착용자(예: 유아)의 음성을 인식하기 위한 마이크(30)가 추가적으로 장착되는 형태를 도시하고 있으나, 마이크(30)는 반드시 착용물에 장착될 필요는 없으며, 착용자의 음성을 용이하게 인식할 수 있는 위치에 있다면 별도의 장소에 장착될 수 있다.
도 2는 본 발명의 일 실시예에 따라 착용자의 시선방향 이미지를 활용하는 방법을 설명하기 위한 도면이다.
도 1과 관련하여 상술한 카메라(20) 및 마이크(30)에 추가적으로 본 실시예에 따른 언어교육 보조 시스템은 스피커(40)를 활용하나, 스피커(40)는 착용물에 장착될 필요성이 카메라(20) 및 마이크(30)에 비해 매우 낮다.
이와 같이 카메라(20), 마이크(30) 및 스피커(40)는 본 발명의 일 실시예에 따른 사용자 기기에 무선으로 연결될 수 있으며, 무선 연결은 WiFi, 블루투스 등 다양한 방법이 활용될 수 있다.
이와 같은 사용자 기기는 소프트웨어를 포함한 메모리 및 프로세서를 포함하며, 이하에서 설명하는 방식을 소프트웨어를 통해 구동시킬 수 있다. 이해의 편의를 위해 이하의 설명에서 상술한 사용자 기기는 스마트폰이며, 소프트웨어는 다운로드 가능한 어플리케이션인 것을 가정하여 설명하나, 사용자 기기의 형태, 소프트웨어의 형태는 이와 달리 다양할 수 있다.
도 2에 도시된 바와 같이 본 발명의 일 실시예에 따른 소프트웨어는, 카메라(10)에 의해 캡쳐된 이미지 중 사람의 얼굴(100) 및 사물(200)을 인식하여, 상기 사람의 얼굴(100)이 가족 구성원 중 누구의 얼굴인지, 그리고 상기 사물이 어떠한 사물인지를 CNN (Convolutional Neural Network)을 통해 학습하는 것을 제안한다. 특히, 본 실시예에서 가족 구성원 중 누구의 얼굴인지에 대한 학습정보는 클라우드 기반 가족 사진 정보의 특징 벡터로부터 획득하는 것을 제안한다.
예를 들어, 사용자가 사용하는 클라우드 기반 사진첩(예를 들어, 구글 포토 등)에 저장된 사진들은 대체로 인물들을 구분하여 인물 인덱스에 대응하게 저장되어 있으며, 이러한 클라우드 사진첩의 정보를 CNN의 학습정보로 활용하여 인물이 가족 구성원 중 누구인지를 식별할 수 있다.
이에 기반하여 본 실시예에 따른 소프트웨어는 상기 사람의 얼굴(100)이 가족 구성원 중 엄마의 얼굴이라는 정보, 그리고 사물(200)이 책이라는 정보에 기반한 음성 신호(예를 들어, 엄마가 책을 읽고 있네요)를 스피커(40)를 통해 출력하도록 구성될 수 있다.
또한, 본 발명의 일 실시예에 따른 소프트웨어는 사람의 얼굴이 가족 구성원 중 누구의 얼굴인지 특정된 정보, 사물이 어떠한 사물인지 특정된 정보뿐만 아니라 상기 가족 구성원이 특정된 제 1 영역(100)과 상기 사물이 특정된 제 2 영역(200)의 위치 관계에 기반한 음성 신호를 스피커(40)를 통해 출력하는 것을 제안한다. 이는 특정된 이미지 영역을 regression하는 방식으로 수행될 수 있으며, 예를 들어, '아빠가 쇼파 위에 있어요'와 같이 대상물 사이의 위치 관계를 설명하는 방식으로 이용될 수 있다.
물론, 사람과 사물 사이의 위치관계에 한정될 필요는 없으며, 사물과 사물 사이의 위치관계를 설명하는 음성을 출력할 수도 있다. 예를 들어, "사과가 식탁 위에 있어요"와 같이 사물과 사물 사이의 관계를 출력할 수 있다. 다만, 착용자의 시선이 지나가는 모든 사물 이미지 사이의 관계를 설명하는 경우, 착용자의 집중력에 비효율적일 수 있으며, 따라서 바람직하게 착용자의 시선이 기 정해진 시간(예를 들어, 10초)이상 머무르는 경우, 상술한 바와 같은 음성을 출력하도록 설정될 수 있다.
도 3은 본 발명의 일 실시예에 따라 사용자의 클라우드 사진첩의 정보와 인물을 특정하는 단어를 변경하는 방법을 설명하기 위한 도면이다.
도 3에 도시된 바와 같이 일반적인 상용 클라우드 사진첩에는 인물별로 구분되어 폴더를 생성하고 있으며, 이와 같은 인물 구분에는 사진 상의 인물의 특징 벡터를 이용하고 있다. 이와 같은 클라우드 사진첩에서 인물별 폴더를 들어가면 기 저장된 많은 사진들 중 특정 인물의 사진들이 저장되어 있다.
다만, 도 3에 도시된 바와 같이 일반적인 상용 클라우드 사진첩의 인물 인덱스(300)는 해당 인물의 실명 등으로 인덱스되어 있으며, 유아에게 이러한 실명을 이용하는 것보다는 유아의 관점에서의 호칭으로 변경하여 음성 출력을 하는 것이 바람직하다.
따라서, 본 발명의 일 실시예에 따른 소프트웨어는 클라우드 기반 가족 사진 정보의 인물 인덱스(300)를 교육 대상자 시점에서의 인물 인덱스(400)로 변경하는 기능을 포함하는 것을 제안한다.
예를 들어, 해당 어플리케이션에서 상용 클라우트 사진첩의 인물 인덱스 정보(300)를 획득하되, 이를 유아의 관점에서의 호칭, 예를 들어 '엄마', '아빠', '형아' 등으로 변경하는 사용자 인터페이스를 제공할 수 있다.
도 4는 본 발명의 일 실시예에 따른 CNN 학습 방법을 설명하기 위한 도면이다.
도 4에 도시된 바와 같이 착용자의 시선방향 이미지(50)는 CNN의 입력 데이터로서 입력될 수 있다. 본 실시예에 따른 CNN은 우선 이와 같은 입력 데이터의 이미지(50) 내의 특징 지도를 추출하는 복수의 콘볼루션 계층들 (convolution layers; S100 및 S300)과 상기 복수의 콘볼루션 계층들(S100 및 S300) 사이에 서브샘플링을 수행하는 풀링 계층(pooling layer; S200 및 S400)을 포함할 수 있다. 콘볼루션 계층들은 도 4에 도시된 바와 같이 ReLU 계층을 거쳐 해당 특징 지도 내 양의 값만을 활성화시키는 것이 바람직하나, 이에 한정될 필요는 없다.
상술한 바와 같이 추출된 특징 벡터들은 입체 이미지를 평탄화(S500)하는 과정을 거치고, 완전연결(fully connected) 계층을 통과하여 특징 벡터가 출력되며, 이러한 특징 벡터를 Softmax를 이용하여 분류하는 작업을 수행할 수 있다.
이와 같이 Softmax를 이용하여 분류된 인물 특정 벡터(인덱스)는 상술한 바와 같이 클라우드 기반 가족 사진 정보의 특징 벡터와 비교(S500)하여 학습하는 과정을 거칠 수 있다. 이에 따라, 본 실시예에 따른 CNN은 이미지의 인물을 단순히 사람이 아니라 특정 인물을 구분할 수 있으며, 대량의 데이터로 효율적으로 학습하고, 도 3과 관련하여 상술한 바와 같이 교육 대상자 시점에서 적절한 인덱스를 부여할 수 있다.
도 5는 본 발명의 일 실시예에 따른 사용자 기기 상의 디스플레이를 설명하기 위한 도면이다.
본 실시예에 따른 사용자 기기(50)는 상술한 바와 같이 카메라(20), 마이크(30) 및 스피커(40)와 WiFi, 블루투스 등 무선통신 방식으로 연결되며, 이를 위한 소프트웨어(어플리케이션)은 카메라와의 무선연결을 제어하는 인터페이스(51), 마이크와의 무선연결을 제어하는 인터페이스(미도시), 그리고 스피커와의 무선연결을 제어하는 인터페이스(52)를 포함할 수 있다. 도 5에 도시된 바와 같이 카메라, 스피커 등을 각각 온/오프로 제어할 수 있으며, 복수의 카메라, 스피커들 중 어느 카메라/스피커와 연결할 지를 선택할 수도 있다. 이는 유아용 언어교육 보조 시스템의 경우 카메라/마이크 등이 장착된 모자 등을 수시로 세척할 필요가 있을 수 있으며, 이에 따라 복수의 카메라/마이크들 중 어느 카메라/마이크에 연결할 지를 선택하도록 하는 인터페이스를 제공할 수 있다.
도 5에 도시된 것과 달리 카메라/마이크가 장착된 착용구 단위로 연결을 선택하도록 인터페이스를 구성할 수도 있음은 물론이다.
한편, 본 실시예에 따른 사용자 기기는 도 5에 도시된 바와 같이 SNS를 통해 로그인할 수 있는 인터페이스(53)를 제공할 수 있다. 상술한 바와 같이 클라우드 기반 사진첩의 인물 특징 벡터를 활용하는 측면에서, 해당 클라우드 기반 사진첩을 제공하는 SNS 계정으로 로그인을 하는 경우, 별도의 연결 절차 없이 해당 SNS 계정에 연결된 클라우드 사진첩의 정보를 추출할 수 있도록 할 수 있다.
물론, 본 발명의 일 실시예에서는 언어교육 보조 시스템 자체의 서버를 구축하고, 자체 제공하는 클라우드 사진첩을 이용하도록 할 수 있으며, 기존 상용 클라우드 사진첩의 정보를 자체 클라우드 사진첩으로 손쉽게 이동시키는 기능을 제공할 수도 있다.
도 6은 본 발명의 일 실시예에 따른 착용구의 구성을 설명하기 위한 도면이다.
도 6에 도시된 바와 같이 교육 대상자가 착용하는 착용구가 모자의 형태를 가질 수 있으며, 본 실시예에서 카메라(20)는 렌즈부가 외부로 노출되되, 내부에서는 교육 대상자의 피부에 접촉하지 않도록 하는 커버(60)를 포함할 수 있다.
또한, 해당 커버(60)는 개방/밀폐가 용이하도록 설계하여, 카메라(20)를 분리한 후 용이하게 세척이 이루어지도록 할 수 있다.
상술한 카메라에 대한 설명은 마이크가 착용구에 부착된 형태를 이용하는 경우에도 동일하게 착용자의 피부에 접촉하지 않도록 개폐 가능한 커버를 포함시킬 수 있다.
도 7은 본 발명의 일 실시예에 따라 교육 대상자의 부정확한 언어에 대응하는 방법을 설명하기 위한 도면이다.
본 발명의 일 실시예에 따른 소프트웨어는 마이크(30)를 통해 인식된 착용자의 음성에 대응하는 음성 신호를 스피커(40)를 통해 출력하는 것을 제안한다. 만일, 착용자의 음성이 정확한 단어를 이용한 음성인 경우 (예를 들어, 기 저장된 단어 사전 정보에 대응하는 단어가 있는 경우), 이에 응답하는 음성을 출력하여 대화를 유도할 수 있다. 또한, 후술하는 바와 같이 유아의 언어 수준에 따라 출력 음성의 단어의 수 등 수준을 조정할 수도 있다.
한편, 바람직한 일 실시예에서는 상기 인식된 착용자의 음성은 기 저장된 단어 사전의 정보에 추가적으로 상기 카메라에 의해 캡쳐된 이미지(50A)에 의해 기반하여 판단되는 것을 제안한다.
구체적으로, 본 실시예에 따른 소프트웨어는, 인식된 착용자의 음성이 기 저장된 단어 사전의 정보에 대응하는 단어가 없는 경우 (예를 들어, '아슈 ~ 아슈 ~'), 카메라에 의해 캡쳐된 이미지(50A)에 기반하여 상기 인식된 착용자의 음성을 학습할 수 있다. 즉, 이와 같은 부정확한 단어 음성이 소정 횟수 이상 반복하여 동일 대상물을 지칭하는 경우, 이를 학습을 통해 교육 대상자가 해당 대상물을 잘못된 단어로 발음하고 있음을 인지할 수 있다.
이와 같은 학습 과정을 통해 본 실시예에 따른 소프트웨어는 상기 기 저장된 단어 사전을 오류 인덱스 및 카메라에 의해 캡쳐된 이미지(50A)에 대응하는 단어와 함께 업데이트하도록 설정될 수 있다.
이러한 학습을 거친 후 본 실시예에 따른 소프트웨어는 인식된 착용자의 음성이 상기 오류 인덱스를 포함하는 기 저장된 단어 사전의 단어에 대응되는 경우, 이를 교정하는 음성을 출력할 수 있다. 많은 언어교육 전문가들은 직접적인 교정보다는 해당 단어의 올바른 발음을 이용하여 대응하는 것이 효율적이라고 추천하고 있으며, 이에 따라 아이가 아이스크림을 “아슈 ~ 아슈 ~”로 발음하고 있음을 학습한 경우, 이에 대응하는 음성으로서 “주원이는 아이스크림이 먹고 싶은가 봐요.”라는 대응음성을 출력하고/출력하거나 “아.이.스.크.림.”의 발음을 보다 정확하게 표현하여 출력할 수 있다.
이러한 교정 안내의 출력은 상기 카메라에 의해 캡쳐된 이미지(50A)에 대응하여 출력할 수 있으나, 이미 학습이 이루어져 있는 경우에는 잘못된 발음 자체를 인지하여 교정 안내를 출력할 수도 있다.
한편, 상술한 바와 같이 사용자 기기는 착용자의 언어 수준에 따라 스피커를 통해 출력되는 음성의 단어 수 레벨을 조절하기 위한 사용자 인터페이스를 포함할 수도 있다. 예를 들어, 아이가 만 1세 ~ 2세 사이인 경우, 출력음성이 2단어 이하를 이용하도록 설정할 수 있고, 이러한 레벨은 사용자가 직접 단어 수를 선택하게 하거나, 아이의 만 월령에 기반하여 자동적으로 설정될 수도 있다. 물론, 마이크를 통해 입력되는 교육 대상자의 언어 수준을 통해 스스로 이를 판단하여 사용자 기기에 표시할 수도 있다.
도 8은 본 발명의 일 실시예에 따라 교육 대상자의 잘못된 발음을 학습한 이후의 활용예를 설명하기 위한 도면이다.
도 8의 실시예에서는 마이크(30)가 모자/안경 등의 착용구가 아니라 유모차 등 탑승 장비에 장착되는 예를 도시하고 있으며, 이러한 변형은 상술한 실시예들에도 동일하게 적용할 수 있다.
도 7과 관련하여 상술한 바와 같이 교육 대상자의 반복적인 잘못된 발음은 학습될 수 있다. 이를 활용하여 부모조차 알아듣기 어려운 아이의 표현을 해석하는 방식으로 본 사용자 기기가 이용될 수도 있다.
예를 들어, 도 7의 과정을 통해 아이가 '아이스크림'을 '아슈'로 발음하는 것을 학습한 사용자 기기는 교육 대상자가 "맘마 ~ 아슈퍼~"라는 발음을 통해 "엄마. 아이스크림 먹고 싶어요"를 의도하는 것으로 해석할 수 있다. 이에 따라 거꾸로 부모에서 아이가 의미하는 바를 전달하는 음성을 스피커(40)를 통해 출력될 수 있다. 도 8의 도시와 달리 스피커(40) 역시 유모차 등의 탑승 장비에 장착될 수도 있음은 물론이다.
상술한 바와 같이 개시된 본 발명의 바람직한 실시예들에 대한 상세한 설명은 당업자가 본 발명을 구현하고 실시할 수 있도록 제공되었다. 상기에서는 본 발명의 바람직한 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 본 발명의 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다. 예를 들어, 당업자는 상술한 실시예들에 기재된 각 구성을 서로 조합하는 방식으로 이용할 수 있다.
따라서, 본 발명은 여기에 나타난 실시예들에 제한되려는 것이 아니라, 여기서 개시된 원리들 및 신규한 특징들과 일치하는 최광의 범위를 부여하려는 것이다.
상술한 바와 같은 본 발명은 유아기의 아동의 언어교육에 활용될 수 있으며, 유아뿐만 아니라 자페 스팩트럼 증후군을 가진 교육대상자에 효율적인 사용적 자극을 제공하기 위해서도 널리 활용될 수 있다.

Claims (8)

  1. 언어교육 보조 시스템용 사용자 기기에 있어서,
    착용자의 시선방향 이미지를 캡처하기 위해 모자 또는 안경을 포함하는 착용물에 장착되는 카메라;
    음성을 인식하기 위한 마이크; 및
    소리를 출력하기 위한 스피커,
    와 무선으로 연결되며,
    소프트웨어를 포함한 메모리 및 프로세서를 포함하는 사용자 기기에 있어서,
    상기 소프트웨어는,
    상기 카메라에 의해 캡쳐된 이미지 중 사람의 얼굴 및 사물을 인식하여, 상기 사람의 얼굴이 누구의 얼굴인지, 그리고 상기 사물이 어떠한 사물인지를 CNN (Convolutional Neural Network)을 통해 획득하되,
    상기 누구의 얼굴인지에 대한 정보는 클라우드 기반 사진첩 정보의 인물 인덱스에 대응하는 제 1 인덱스를 획득하여, 상기 제 1 인덱스를 상기 착용자의 관점에서의 호칭에 대응하는 제 2 인덱스로 변경하여 특정하며,
    상기 소프트웨어는 상기 사람의 얼굴이 누구의 얼굴인지 특정된 제 2 인덱스, 그리고 상기 사물이 어떠한 사물인지 특정된 정보에 기반한 음성 신호를 상기 스피커를 통해 출력하며,
    상기 소프트웨어는 상기 마이크를 통해 인식된 착용자의 음성에 대응하는 음성 신호를 상기 스피커를 통해 출력하되,
    상기 인식된 착용자의 음성이 기 저장된 단어 사전의 정보에 대응하는 단어가 없는 경우, 상기 카메라에 의해 캡쳐된 이미지에 기반하여 상기 인식된 착용자의 음성을 학습하여 상기 기 저장된 단어 사전을 오류 인덱스 및 상기 카메라에 의해 캡쳐된 이미지에 대응하는 단어와 함께 업데이트하도록 설정되는, 언어교육 보조 시스템용 사용자 기기.
  2. 제 1 항에 있어서,
    상기 CNN은,
    상기 카메라에 의해 캡쳐된 이미지 내의 특징 지도를 추출하는 복수의 콘볼루션 계층들 (convolution layers), 및 상기 복수의 콘볼루션 계층들 사이에 서브샘플링을 수행하는 풀링 계층(pooling layer)를 포함하여, 상기 이미지 내의 인물 특정 벡터를 추출하며,
    상기 인물 특정 벡터를 상기 클라우드 기반 사진첩 정보의 특징 벡터와 비교하여 학습하는, 언어교육 보조 시스템용 사용자 기기.
  3. 제 1 항에 있어서,
    상기 소프트웨어는 상기 사람의 얼굴이 누구의 얼굴인지 특정된 제 2 인덱스, 상기 사물이 어떠한 사물인지 특정된 정보, 및 상기 사람의 얼굴이 특정된 제 1 영역과 상기 사물이 특정된 제 2 영역의 위치 관계에 기반한 음성 신호를 상기 스피커를 통해 출력하는, 언어교육 보조 시스템용 사용자 기기.
  4. 삭제
  5. 삭제
  6. 제 1 항에 있어서,
    상기 소프트웨어는,
    상기 인식된 착용자의 음성이 상기 오류 인덱스를 포함하는 기 저장된 단어 사전의 단어에 대응되는 경우, 학습에 기반한 교정 안내를 출력하는, 언어교육 보조 시스템용 사용자 기기.
  7. 제 1 항에 있어서,
    상기 사용자 기기는 상기 착용자의 언어 수준에 따라 상기 스피커를 통해 출력되는 음성의 단어 수 레벨을 조절하기 위한 사용자 인터페이스를 포함하는, 언어교육 보조 시스템용 사용자 기기.
  8. 삭제
KR1020210026169A 2021-02-26 2021-02-26 언어교육 보조 시스템용 사용자 기기 KR102660613B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210026169A KR102660613B1 (ko) 2021-02-26 2021-02-26 언어교육 보조 시스템용 사용자 기기

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210026169A KR102660613B1 (ko) 2021-02-26 2021-02-26 언어교육 보조 시스템용 사용자 기기

Publications (2)

Publication Number Publication Date
KR20220122045A KR20220122045A (ko) 2022-09-02
KR102660613B1 true KR102660613B1 (ko) 2024-04-25

Family

ID=83280928

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210026169A KR102660613B1 (ko) 2021-02-26 2021-02-26 언어교육 보조 시스템용 사용자 기기

Country Status (1)

Country Link
KR (1) KR102660613B1 (ko)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150021283A (ko) * 2013-08-20 2015-03-02 한국전자통신연구원 스마트 안경을 이용한 외국어 학습 시스템 및 방법
KR102156440B1 (ko) * 2013-12-10 2020-09-17 한국전자통신연구원 시각언어 기반의 영상주석 자동 생성 장치 및 방법
CN105302315A (zh) * 2015-11-20 2016-02-03 小米科技有限责任公司 图片处理方法及装置

Also Published As

Publication number Publication date
KR20220122045A (ko) 2022-09-02

Similar Documents

Publication Publication Date Title
EP3654625B1 (en) Method and system for providing recommendation information related to photography
CN107784354B (zh) 机器人的控制方法及陪伴机器人
US11222634B2 (en) Dialogue method, dialogue system, dialogue apparatus and program
KR101587471B1 (ko) 웨어러블 컴퓨터를 이용한 독서 증강을 위한 책 시스템 및 독서 증강 방법
US20200320898A1 (en) Systems and Methods for Providing Reading Assistance Using Speech Recognition and Error Tracking Mechanisms
US11393352B2 (en) Reading and contingent response educational and entertainment method and apparatus
JP2016177483A (ja) コミュニケーション支援装置、コミュニケーション支援方法及びプログラム
Agrigoroaie et al. The enrichme project: Lessons learnt from a first interaction with the elderly
McMahon et al. Re-immersing into elite swimming culture: A meta-autoethnography by a former elite swimmer
KR102660613B1 (ko) 언어교육 보조 시스템용 사용자 기기
KR101612782B1 (ko) 사용자 독서 관리 시스템 및 방법
CN202838711U (zh) 一种通过语言进行交互的装置及交互系统
JP2021105808A (ja) 発話者認識システム、発話者認識方法、及び発話者認識プログラム
Heinrich et al. Embodied multimodal interaction in language learning: the emil data collection
US12039666B2 (en) Method for creating a tangible objection and digitizing the tangible object using an artificial intelligence process
CN113221784A (zh) 一种基于多模态的学生学习状态分析方法及装置
US20220126439A1 (en) Information processing apparatus and information processing method
TWM546589U (zh) 手語辨識系統
Hennig Natural user interfaces and accessibility
US11244510B2 (en) Information processing apparatus and method capable of flexibility setting virtual objects in a virtual space
WO2019190817A1 (en) Method and apparatus for speech interaction with children
Gandhi et al. A CMUcam5 computer vision based arduino wearable navigation system for the visually impaired
KR102508889B1 (ko) 디지털 트윈 기반의 영유아 시설 모니터링 방법 및 시스템
KR102203786B1 (ko) 스마트 토이를 이용한 인터렉션 서비스 제공방법 및 시스템
Naveen et al. Tech-It-Easy: An Application for Physically Impaired People Using Deep Learning

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant