KR102431663B1

KR102431663B1 - 스탠드형 스마트 리딩 기기 및 그 제어 방법

Info

Publication number: KR102431663B1
Application number: KR1020190077392A
Authority: KR
Inventors: 고영인; 강동한; 최승범; 박지희
Original assignee: 네이버 주식회사; 라인 가부시키가이샤
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2022-08-12
Also published as: KR20220113906A; KR20210001371A

Abstract

스탠드형 스마트 리딩 기기 및 그 제어 방법이 개시된다. 컴퓨터 장치로 구현된 스마트 리딩 기기에서 실행되는 스마트 리딩 제어 방법에 있어서, 상기 스마트 리딩 기기는 카메라와 조명 및 스피커가 결합된 스탠드 타입의 디바이스로서, 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 스마트 리딩 제어 방법은, 상기 적어도 하나의 프로세서에 의해, 대화 기반 인터페이스를 통해 사용자의 음성 명령을 인식하는 단계; 상기 적어도 하나의 프로세서에 의해, 상기 카메라를 이용하여 상기 카메라로 촬영된 인쇄물의 텍스트를 인식하는 단계; 및 상기 적어도 하나의 프로세서에 의해, 상기 음성 명령에 대한 응답으로 상기 인식된 텍스트를 음성 발화하여 읽어주는 기능을 제공하는 단계를 포함한다.

Description

스탠드형 스마트 리딩 기기 및 그 제어 방법{STAND TYPE SMART READING DEVICE AND CONTROL METHOD THEREOF}

아래의 설명은 책을 읽어주는 기술에 관한 것이다.

유아나 저학년 아동과 같은 저연령 학습자를 위해 책을 읽어주는 기술이 제안되고 있다.

예를 들어, 한국등록특허 제10-0415236호(등록일 2004년 01월 02일)에는 정전유도방식을 이용하여 학습지에 인쇄된 학습내용(글이나 그림 등)에 전자펜을 접촉하면 접촉 위치에 해당되는 관련 학습 내용을 음성으로 출력하는 기술이 개시되어 있다.

카메라와 조명, 그리고 스피커가 결합된 스탠드 타입의 스마트 리딩 기기를 제공한다.

책을 스캔하여 인식된 텍스트를 음성으로 발화할 수 있는 스마트 리딩 기기 및 그 제어 방법을 제공한다.

원하는 목소리를 선택하여 책을 읽어줄 수 있는 스마트 리딩 기기 및 그 제어 방법을 제공한다.

책을 다양한 언어로 번역하여 읽어줄 수 있는 스마트 리딩 기기 및 그 제어 방법을 제공한다.

악보를 스캔하여 다양한 악기의 연주를 제공할 수 있는 스마트 리딩 기기 및 그 제어 방법을 제공한다.

피보호자의 실시간 모니터링과 보호자와 피보호자 간의 커뮤니케이션을 제공할 수 있는 스마트 리딩 기기 및 그 제어 방법을 제공한다.

영상 촬영을 통해 영상 컨텐츠를 제작할 수 있는 스마트 리딩 기기 및 그 제어 방법을 제공한다.

컴퓨터 장치로 구현된 스마트 리딩 기기에서 실행되는 스마트 리딩 제어 방법에 있어서, 상기 스마트 리딩 기기는 카메라와 조명 및 스피커가 결합된 스탠드 타입의 디바이스로서, 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 스마트 리딩 제어 방법은, 상기 적어도 하나의 프로세서에 의해, 대화 기반 인터페이스를 통해 사용자의 음성 명령을 인식하는 단계; 상기 적어도 하나의 프로세서에 의해, 상기 카메라를 이용하여 상기 카메라로 촬영된 인쇄물의 텍스트를 인식하는 단계; 및 상기 적어도 하나의 프로세서에 의해, 상기 음성 명령에 대한 응답으로 상기 인식된 텍스트를 음성 발화하여 읽어주는 기능을 제공하는 단계를 포함하는 스마트 리딩 제어 방법을 제공한다.

일 측면에 따르면, 상기 텍스트를 인식하는 단계는, OCR(optical character reader)을 통해 상기 인쇄물을 스캔하여 상기 텍스트를 인식할 수 있다.

다른 측면에 따르면, 상기 텍스트를 인식하는 단계는, 상기 인쇄물에서 QR(quick response) 코드를 인식하는 단계; 및 상기 QR 코드를 통해 상기 인쇄물을 검색하여 해당 인쇄물의 텍스트를 획득하는 단계를 포함할 수 있다.

또 다른 측면에 따르면, 상기 읽어주는 기능을 제공하는 단계는, 상기 읽어주는 기능에 적용 가능한 목소리 목록 또는 적어도 하나의 추천 목소리를 제공하는 단계; 및 상기 목소리 목록 또는 상기 추천 목소리에서 상기 사용자에 의해 선택된 목소리로 상기 인식된 텍스트를 음성 발화하는 단계를 포함할 수 있다.

또 다른 측면에 따르면, 상기 스마트 리딩 제어 방법은, 상기 적어도 하나의 프로세서에 의해, 녹음 기능을 통해 특정인의 음성을 녹음하여 상기 녹음된 음성으로부터 목소리 데이터를 추출하는 단계를 더 포함하고, 상기 읽어주는 기능을 제공하는 단계는, 상기 목소리 데이터를 이용하여 상기 인식된 텍스트를 상기 특정인의 목소리로 음성 발화할 수 있다.

또 다른 측면에 따르면, 상기 읽어주는 기능을 제공하는 단계는, 상기 인식된 텍스트를 상기 사용자에 의해 특정된 목적 언어로 번역한 후 상기 목적 언어로 번역된 텍스트를 음성 발화할 수 있다.

또 다른 측면에 따르면, 상기 스마트 리딩 제어 방법은, 상기 적어도 하나의 프로세서에 의해, 이미지 분석을 통해 상기 카메라로 촬영된 사물 자체 혹은 상기 인쇄물의 이미지를 인식하는 단계; 및 상기 적어도 하나의 프로세서에 의해, 인식 결과를 음성 발화하여 읽어주는 기능을 제공하는 단계를 더 포함할 수 있다.

또 다른 측면에 따르면, 상기 스마트 리딩 제어 방법은, 상기 적어도 하나의 프로세서에 의해, 상기 카메라로 촬영된 인쇄물의 악보를 인식하는 단계; 및 상기 적어도 하나의 프로세서에 의해, 상기 인식된 악보를 상기 사용자에 의해 특정된 악기로 연주하여 악보 연주 기능을 제공하는 단계를 더 포함할 수 있다.

또 다른 측면에 따르면, 상기 스마트 리딩 제어 방법은, 상기 적어도 하나의 프로세서에 의해, 상기 카메라를 통해 입력되는 영상을 네트워크를 통해 사전에 정해진 타 사용자의 전자 기기로 전송하는 단계를 더 포함할 수 있다.

또 다른 측면에 따르면, 상기 스마트 리딩 제어 방법은, 상기 적어도 하나의 프로세서에 의해, 상기 카메라를 이용한 영상 촬영을 통해 영상 컨텐츠를 제작하는 단계; 및 상기 적어도 하나의 프로세서에 의해, 상기 영상 컨텐츠를 네트워크를 통해 사전에 정해진 외부 서버로 업로드하는 단계를 더 포함할 수 있다.

상기 스마트 리딩 제어 방법을 컴퓨터에 실행시키기 위한 프로그램이 기록되어 있는 비-일시적인 컴퓨터 판독 가능한 기록 매체를 제공한다.

컴퓨터 장치로 구현된 스마트 리딩 기기에 있어서, 카메라와 조명 및 스피커가 결합된 스탠드 타입의 디바이스로 구성되고, 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 대화 기반 인터페이스를 통해 사용자의 음성 명령이 인식되는 경우 상기 카메라를 이용하여 상기 카메라로 촬영된 인쇄물의 텍스트를 인식하는 인식부; 및 상기 음성 명령에 대한 응답으로 상기 인식된 텍스트를 음성 발화하여 읽어주는 기능을 제공하는 음성 발화부를 포함하는 스마트 리딩 기기를 제공한다.

본 발명의 실시예들에 따르면, 카메라와 조명, 그리고 스피커가 결합된 스탠드 타입의 스마트 리딩 기기를 제공할 수 있다.

본 발명의 실시예들에 따르면, 책을 스캔하여 인식된 텍스트를 음성으로 발화할 수 있다.

본 발명의 실시예들에 따르면, 원하는 목소리를 선택하여 책을 읽어줄 수 있다.

본 발명의 실시예들에 따르면, 책을 다양한 언어로 번역하여 읽어줄 수 있다.

본 발명의 실시예들에 따르면, 악보를 스캔하여 다양한 악기의 연주를 제공할 수 있다.

본 발명의 실시예들에 따르면, 피보호자의 실시간 모니터링과 보호자와 피보호자 간의 커뮤니케이션을 제공할 수 있다.

본 발명의 실시예들에 따르면, 영상 촬영을 통해 영상 컨텐츠를 제작할 수 있다.

도 1은 본 발명의 일실시예에 있어서 컴퓨터 장치의 내부 구성의 일례를 설명하기 위한 블록도이다.
도 2는 본 발명의 일실시예에 있어서 스마트 리딩 기기의 일례를 도시한 사시도이다.
도 3은 본 발명의 일실시예에 있어서, 클라우드 인공지능 플랫폼의 예를 도시한 도면이다.
도 4는 본 발명의 일실시예에 따른 스마트 리딩 기기의 프로세서가 포함할 수 있는 구성요소의 예를 도시한 도면이다.
도 5 내지 도 7은 본 발명의 일실시예에 따른 스마트 리딩 기기가 수행할 수 있는 스마트 리딩 제어 방법의 일례로 읽어주는 기능을 제공하는 방법 예시를 도시한 순서도이다.
도 8은 본 발명의 일실시예에 따른 스마트 리딩 기기가 수행할 수 있는 스마트 리딩 제어 방법의 다른 예로 악보 연주 기능을 제공하는 방법 예시를 도시한 순서도이다.
도 9는 본 발명의 일실시예에 따른 스마트 리딩 기기가 수행할 수 있는 스마트 리딩 제어 방법의 또 다른 예로 커뮤니케이션 기능을 제공하는 방법 예시를 도시한 순서도이다.
도 10은 본 발명의 일실시예에 따른 스마트 리딩 기기가 수행할 수 있는 스마트 리딩 제어 방법의 또 다른 예로 컨텐츠 제작 기능을 제공하는 방법 예시를 도시한 순서도이다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

본 발명의 실시예들은 책을 읽어주는 기술에 관한 것이다.

본 명세서에서 구체적으로 개시되는 것들을 포함하는 실시예들은 카메라와 조명, 그리고 스피커가 결합된 스탠드 타입의 스마트 리딩 기기로서 모든 책을 스캔하여 사용자가 원하는 목소리로 읽어줄 수 있는 스마트 리딩 기기를 제공할 수 있다.

도 1은 본 발명의 일실시예에 따른 컴퓨터 장치의 예를 도시한 블록도이다. 예를 들어, 본 발명의 실시예들에 따른 스마트 리딩 기기는 도 1을 통해 도시된 컴퓨터 장치(100)에 의해 구현될 수 있다.

도 1에 도시된 바와 같이 컴퓨터 장치(100)는 본 발명의 실시예들에 따른 스마트 리딩 제어 방법을 실행하기 위한 구성요소로서, 메모리(110), 프로세서(120), 통신 인터페이스(130) 그리고 입출력 인터페이스(140)를 포함할 수 있다.

메모리(110)는 컴퓨터에서 판독 가능한 기록매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 여기서 ROM과 디스크 드라이브와 같은 비소멸성 대용량 기록장치는 메모리(110)와는 구분되는 별도의 영구 저장 장치로서 컴퓨터 장치(100)에 포함될 수도 있다. 또한, 메모리(110)에는 운영체제와 적어도 하나의 프로그램 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 메모리(110)와는 별도의 컴퓨터에서 판독 가능한 기록매체로부터 메모리(110)로 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록매체를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록매체가 아닌 통신 인터페이스(130)를 통해 메모리(110)에 로딩될 수도 있다. 예를 들어, 소프트웨어 구성요소들은 네트워크(160)를 통해 수신되는 파일들에 의해 설치되는 컴퓨터 프로그램에 기반하여 컴퓨터 장치(100)의 메모리(110)에 로딩될 수 있다.

프로세서(120)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(110) 또는 통신 인터페이스(130)에 의해 프로세서(120)로 제공될 수 있다. 예를 들어 프로세서(120)는 메모리(110)와 같은 기록 장치에 저장된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성될 수 있다.

통신 인터페이스(130)는 네트워크(160)를 통해 컴퓨터 장치(100)가 다른 장치와 서로 통신하기 위한 기능을 제공할 수 있다. 일례로, 컴퓨터 장치(100)의 프로세서(120)가 메모리(110)와 같은 기록 장치에 저장된 프로그램 코드에 따라 생성한 요청이나 명령, 데이터, 파일 등이 통신 인터페이스(130)의 제어에 따라 네트워크(160)를 통해 다른 장치들로 전달될 수 있다. 역으로, 다른 장치로부터의 신호나 명령, 데이터, 파일 등이 네트워크(160)를 거쳐 컴퓨터 장치(100)의 통신 인터페이스(130)를 통해 컴퓨터 장치(100)로 수신될 수 있다. 통신 인터페이스(130)를 통해 수신된 신호나 명령, 데이터 등은 프로세서(120)나 메모리(110)로 전달될 수 있고, 파일 등은 컴퓨터 장치(100)가 더 포함할 수 있는 저장 매체(상술한 영구 저장 장치)로 저장될 수 있다.

입출력 인터페이스(140)는 입출력 장치(150)와의 인터페이스를 위한 수단일 수 있다. 예를 들어, 입력 장치는 마이크, 키보드, 카메라 또는 마우스 등의 장치를, 그리고 출력 장치는 디스플레이, 스피커와 같은 장치를 포함할 수 있다. 다른 예로 입출력 인터페이스(140)는 터치스크린과 같이 입력과 출력을 위한 기능이 하나로 통합된 장치와의 인터페이스를 위한 수단일 수도 있다. 입출력 장치(150)는 컴퓨터 장치(100)와 하나의 장치로 구성될 수도 있다.

또한, 다른 실시예들에서 컴퓨터 장치(100)는 도 1의 구성요소들보다 더 적은 혹은 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 컴퓨터 장치(100)는 상술한 입출력 장치(150) 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다.

통신 방식은 제한되지 않으며, 네트워크(160)가 포함할 수 있는 통신망(일례로, 이동통신망, 유선 인터넷, 무선 인터넷, 방송망)을 활용하는 통신 방식뿐만 아니라 기기들간의 근거리 유선/무선 통신 역시 포함될 수 있다. 예를 들어, 네트워크(160)는, PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다. 또한, 네트워크(160)는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.

도 2는 본 발명의 일실시예에 있어서 스마트 리딩 기기의 일례를 도시한 사시도이다.

도 2를 참조하면, 본 발명의 실시예들에 따른 스마트 리딩 기기(200)는 도 1을 통해 도시된 컴퓨터 장치(100)로 구현될 수 있으며, 카메라(201), 조명(202), 그리고 스피커(204)가 결합된 스탠드형 디바이스로 구성될 수 있다. 또한, 책이나 악보 같은 물체를 놓을 수 있는 패드 내지는 독서대 형태의 추가 구성(미도시)이 함께 구비될 수 있다.

카메라(201)와 조명(202)이 포함된 헤드 부분(203)은 수동 혹은 자동 회전이 가능한 구조물을 포함할 수 있으며, 일례로 X축과 Y축 및 Z축 중 적어도 둘 이상의 축을 중심으로 회전이 가능한 구조를 통해 카메라(201)와 조명(202)이 바닥을 향하도록 회전하거나 혹은 정해진 곳(예컨대, 사용자 얼굴이나 움직임이 인식된 위치 등)을 향하도록 회전할 수 있다. 조명(202)은 하나 이상의 LED를 배치하여 구성할 수 있다. 이 때 조명부는 각각의 LED를 ON/OFF 하거나 밝기, 색온도를 조절하여 필요에 따라 적절한 조명을 제공할 수 있다. 예를 들면, 카메라(201)가 책을 촬영하는 중에 빛반사가 일어나는 경우 특정 위치의 LED를 OFF하거나 밝기를 조절하여 빛반사를 없앨 수 있다. 현재 시간이나 위치에 따라, 조명을 조절할 수 있다. 예를 들면 위치에 따라 해가 뜨는 시간이 다르므로 이를 고려하고, 밝은 시간 대와 어두운 시간대의 조명의 밝기를 다르게 할 수 있다. 또한, 나이대별로 선호하는 색온도가 다를 수 있으므로 음성 분석을 통해 현재 사용자를 파악하여 색온도를 조절할 수도 있다. 또는, 추가적으로 조도센서를 구비하여 정보를 획득하거나 카메라 내에 구비된 센서 정보를 활용하여, 입력된 정보에 따라 조명을 조절할 수도 있다(ex. 주변이 밝은 경우 조명은 약하게, 주변이 어두운 경우 밝게).

카메라(201)는 헤드 부분에 하나 위치하는 것으로 도시하였으나, 이 위치에 한정되는 것은 아니며, 필요에 따라 두 개 이상의 카메라가 구비될 수 있으며, 스탠드 본체 부분에 카메라가 위치할 수도 있다. 그리고, 스마트 리딩 기기(200)는 음성 발화를 위해 스피커(204)를 포함할 수 있다.

본 실시예들에서 스마트 리딩 기기(200)는 읽어주는 기능, 악보 연주 기능, 커뮤니케이션 기능, 컨텐츠 제작 기능 등 사용자를 위한 다양한 기능을 제공하기 위해 사용자의 음성 명령을 입력받기 위한 마이크(미도시), 영상을 입력받기 위한 카메라(201), 음성 출력을 위한 스피커(204)를 입출력 장치(150)로서 기본적으로 포함할 수 있다. 경우에 따라서는 스마트 리딩 기기(200)와의 인터페이스를 위한 수단으로서 디스플레이(미도시)나 입력 버튼 등이 더 포함될 수 있다.

더 나아가, 스마트 리딩 기기(200)는 음성 기반 인터페이스를 통해 사용자의 발화에 따라 입력되는 음성 입력을 포함하는 사용자 명령(이하, '음성 명령'이라 칭함)을 처리할 수 있는 인공지능(AI) 비서 서비스 기능을 포함할 수 있다.

스마트 리딩 기기(200)는 직접 사용자의 음성 명령을 인식 및 분석하여 음성 명령에 알맞은 동작을 수행함으로써 사용자 명령을 처리할 수도 있으나, 실시예에 따라서는 사용자의 음성 명령에 대한 인식이나 인식된 음성 명령의 분석, 사용자에게 제공될 음성의 합성 등의 처리를 스마트 리딩 기기(200)와 연계된 외부의 플랫폼을 통해 수행할 수도 있다.

도 3은 본 발명의 일실시예에 있어서, 클라우드 인공지능 플랫폼의 예를 도시한 도면이다. 도 3은 스마트 리딩 기기(200)와 클라우드 인공지능 플랫폼(320) 및 컨텐츠·서비스(330)를 나타내고 있다.

일례로, 스마트 리딩 기기(200)나 스마트 리딩 기기(200)에 설치 및 구동되는 어플리케이션들(이하, 앱들)은 인터페이스 커넥트(340)를 통해 클라우드 인공지능 플랫폼(320)과 연계될 수 있다. 여기서, 인터페이스 커넥트(340)는 스마트 리딩 기기(200)나 스마트 리딩 기기(200)에 설치 및 구동되는 앱들의 개발을 위한 SDK(Software Development Kit) 및/또는 개발 문서들을 개발자들에게 제공할 수 있다. 또한, 인터페이스 커넥트(340)는 스마트 리딩 기기(200)나 스마트 리딩 기기(200)에 설치 및 구동되는 앱들이 클라우드 인공지능 플랫폼(320)이 제공하는 기능들을 활용할 수 있는 API(Application Program Interface)를 제공할 수 있다. 구체적인 예로, 개발자들은 인터페이스 커넥트(340)가 제공하는 SDK(Software Development Kit) 및/또는 개발 문서를 이용하여 개발한 기기나 앱은 인터페이스 커넥트(340)가 제공하는 API를 이용하여 클라우드 인공지능 플랫폼(320)이 제공하는 기능들을 활용할 수 있게 된다.

클라우드 인공지능 플랫폼(320)은 음성 기반의 서비스를 제공하기 위한 기능을 제공할 수 있다. 예를 들어, 클라우드 인공지능 플랫폼(320)은 스마트 리딩 기기(200)로부터 입력된 음성을 인식하고 출력될 음성을 합성하기 위한 음성처리모듈(321), 입력된 영상이나 동영상을 분석하여 처리하기 위한 비전처리모듈(322), 입력된 음성에 따라 알맞은 음성을 출력하기 위해 적절한 대화를 결정하기 위한 대화처리모듈(323), 입력된 음성에 알맞은 기능을 추천하기 위한 추천모듈(324), 인공지능이 데이터 학습을 통해 문장 단위로 언어를 번역할 수 있도록 지원하는 인공신경망 기반 기계 번역(Neural Machine Translation, NMT, 325) 등과 같이 음성 기반 서비스를 제공하기 위한 다양한 모듈들을 포함할 수 있다.

스마트 리딩 기기(200)는 사용자의 음성 명령을 인터페이스 커넥트(340)에서 제공하는 API를 이용하여 클라우드 인공지능 플랫폼(320)으로 전송할 수 있다. 이 경우, 클라우드 인공지능 플랫폼(320)은 수신된 음성 명령을 상술한 모듈들(321 내지 325)을 활용하여 인식 및 분석할 수 있으며, 수신된 음성 명령에 따라 적절한 답변 음성을 합성하여 제공하거나, 적절한 동작을 추천할 수 있다.

또한, 확장 키트(350)는 제3자 컨텐츠 개발자 또는 회사들이 클라우드 인공지능 플랫폼(320)에 기반하여 새로운 음성기반 기능을 구현할 수 있는 개발 키트를 제공할 수 있다. 예를 들어, 도 2의 실시예에서, 스마트 리딩 기기(200)는 사용자의 음성 명령을 외부 서버(미도시)로 전송할 수 있고, 외부 서버는 확장 키트(350)를 통해 제공되는 API를 통해 클라우드 인공지능 플랫폼(320)으로 음성 명령을 전송할 수 있다. 이 경우, 앞서 설명한 바와 유사하게 클라우드 인공지능 플랫폼(320)은 수신되는 음성 명령을 인식, 분석하여 적절한 답변 음성을 합성하여 제공하거나 음성 명령을 통해 처리되어야 할 기능에 대한 추천정보를 외부 서버로 제공할 수 있다.

이하에서는 스마트 리딩 기기 및 그 제어 방법의 구체적인 실시예를 설명하기로 한다.

도 4는 본 발명의 일실시예에 따른 스마트 리딩 기기의 프로세서가 포함할 수 있는 구성요소의 예를 도시한 도면이다.

도 4에 도시된 바와 같이, 프로세서(120)는 인식부(401), 음성 발화부(402), 번역 처리부(403), 연주 제공부(404), 커뮤니케이션부(405), 및 컨텐츠 제작부(406)를 포함할 수 있다. 이러한 프로세서(120)의 구성요소들은 적어도 하나의 프로그램 코드에 의해 제공되는 제어 명령에 따라 프로세서(120)에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 예를 들어, 프로세서(120)가 책의 텍스트를 인식하도록 스마트 리딩 기기(200)를 제어하기 위해 동작하는 기능적 표현으로서 인식부(401)가 사용될 수 있다.

프로세서(120) 및 프로세서(120)의 구성요소들은 이하에서 설명하게 될 스마트 리딩 제어 방법이 포함하는 단계들을 수행할 수 있다. 예를 들어, 프로세서(120) 및 프로세서(120)의 구성요소들은 메모리(110)가 포함하는 운영체제의 코드와 상술한 적어도 하나의 프로그램 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다. 여기서, 적어도 하나의 프로그램 코드는 스마트 리딩 제어 방법을 처리하기 위해 구현된 프로그램의 코드에 대응될 수 있다.

프로세서(120)는 스마트 리딩 제어 방법을 위한 프로그램 파일에 저장된 프로그램 코드를 메모리(110)에 로딩할 수 있다. 예를 들어, 스마트 리딩 제어 방법을 위한 프로그램 파일은 컴퓨터 장치(100)에 포함된 영구 저장 장치에 저장되어 있을 수 있고, 프로세서(120)는 버스를 통해 영구 저장 장치에 저장된 프로그램 파일로부터 프로그램 코드가 메모리(110)에 로딩되도록 스마트 리딩 기기(200)를 제어할 수 있다. 이때, 프로세서(120) 및 프로세서(120)가 포함하는 인식부(401), 음성 발화부(402), 번역 처리부(403), 연주 제공부(404), 커뮤니케이션부(405), 및 컨텐츠 제작부(406) 각각은 메모리(110)에 로딩된 프로그램 코드 중 대응하는 부분의 명령을 실행하여 이후 스마트 리딩 제어 방법을 실행하기 위한 프로세서(120)의 서로 다른 기능적 표현들일 수 있다. 스마트 리딩 제어 방법의 실행을 위해, 프로세서(120) 및 프로세서(120)의 구성요소들은 직접 제어 명령에 따른 연산을 처리하거나 또는 스마트 리딩 기기(200)를 제어할 수 있다.

이하의 스마트 리딩 제어 방법은 도시된 순서대로 발생하지 않을 수 있으며, 단계들 중 일부가 생략되거나 추가의 과정이 더 포함될 수 있다.

도 5는 본 발명의 일실시예에 따른 스마트 리딩 기기가 수행할 수 있는 스마트 리딩 제어 방법의 일례를 도시한 순서도이다.

단계(S510)에서 인식부(401)는 대화 기반 인터페이스를 통해 사용자의 음성 명령을 입력받을 수 있다. 예를 들어, 인식부(401)는 대화 기반 인터페이스로서 스마트 리딩 기기(200)가 포함하는 마이크 또는 스마트 리딩 기기(200)와 연동된 마이크와 같은 음성 입력 장치를 통해 사용자의 발화에 따른 음성 명령을 입력받을 수 있다. 인식부(401)는 스마트 리딩 기기(200)에서 제공 가능한 기능(읽어주는 기능, 악보 연주 기능, 커뮤니케이션 기능, 컨텐츠 제작 기능 등) 중 어느 하나의 기능을 위한 요청으로서 음성 명령을 구분하여 인식할 수 있다. 또는, 인식부(410)는 카메라(210)를 통해 입력된 물체를 분석하여 필요한 기능이 무엇인지 인식하고 사용자에게 제공할 수 있다. 예를 들어 카메라에 인식된 물체가 책인 경우, 스마트 리딩 기기는 "책을 읽어드릴까요?" 와 같이 사용자에게 질의할 수 있다. 사용자로부터 수신된 응답이 긍정적인 응답일 경우 읽어주는 기능을 실행하게 된다. 또는, 카메라에 인식된 물체가 악보인 경우, 스마트 리딩 기기는 "악보를 연주할까요?" 와 같이 질의하여 긍정적 응답을 수신할 경우 악보 연주 기능을 실행할 수 있다.

단계(S520)에서 인식부(401)는 사용자의 음성 명령이 읽어주는 기능을 위한 요청에 해당되는 경우 스마트 리딩 기기(200)에 포함된 카메라(201)를 통해 영상을 입력받아 영상에 포함된 텍스트를 인식할 수 있다. 스마트 리딩 기기(200)의 사용자는 책과 같은 인쇄물을 카메라(201)를 마주보는 위치에 놓고 읽어주는 기능을 실행할 수 있으며, 이때 인식부(401)는 카메라(201)를 통해 책을 스캔하여 텍스트를 인식할 수 있다. 일례로, 인식부(401)는 OCR(optical character reader) 기술을 통해 책의 텍스트와 그림을 구별하여 인식할 수 있다. 다른 예로, 인식부(401)는 책에 인쇄된 QR(quick response) 코드 내지는 바코드를 인식하여 인식된 코드를 통해 스마트 리딩 기기(200)에 포함된 데이터베이스 혹은 스마트 리딩 기기(200)와 연동 가능한 서버나 플랫폼 상의 데이터베이스에서 책을 검색하여 해당 책의 텍스트 내지는 음원을 획득할 수 있다.

단계(S530)에서 음성 발화부(402)는 사용자의 음성 명령에 대한 응답으로, 단계(S520)에서 인식된 텍스트를 스마트 리딩 기기(200)에 포함된 스피커(204)를 통해 음성 발화하여 읽어주는 기능을 제공할 수 있다. 다시 말해, 음성 발화부(402)는 OCR 스캔이나 QR 코드 검색을 통해 획득한 책의 텍스트를 읽어줄 수 있다. 사용자에게 책의 페이지를 넘기도록 하여 스마트 리딩 기기(200)가 해당 페이지를 OCR로 스캔하여 읽어줄 수 있고, 혹은 QR 코드로 책의 각 페이지가 구분되는 경우 스마트 리딩 기기(200)가 해당 페이지의 QR 코드를 인식하여 인식된 페이지의 텍스트를 획득하여 읽어줄 수 있다. 음성 발화부(402) 저장되어있는 음원을 이용하거나, 저장된 음원이 없거나 사용자 요청이 있는 경우 음성합성기를 통해 합성된 음성을 제공할 수 있다.

인식부(200)는 카메라(201)를 통해 입력된 책 표지가 포함된 영상을 분석하여 해당 책이 무엇인지를 알아낼 수 있다. 구체적으로, 인식부(401)는 i) 책 표지에 기재된 텍스트 영역을 찾아내서 해당 텍스트를 문자 인식, ii) 데이터베이스 내에 저장된 표지 이미지들과 비교, iii) 책 표지에 인쇄된 QR 코드 내지는 바코드 등을 이용하는 등 다양한 방법을 사용하여 해당 책에 대한 정보를 알아낼 수 있다. 책에 대한 정보를 이용하여, 다양한 방식으로 기 구축된 데이터베이스의 책 내용에 대한 정보(예를 들어 페이지 내 텍스트 및/또는 이미지 정보, 페이지 내 텍스트에 대한 음성 정보), 전체 줄거리 정보, 작가, 출판사 등 책에 대한 부가 정보, 사용자 선호도 정보 등) 들을 추가로 활용할 수 있다. 예를 들면, 스마트 리딩 기기(200)는 책 표지를 통해 책 정보를 알아낸 후 데이터베이스 내에 저장된 해당 책에 대한 정보를 활용할 수 있다. 이후 페이지에 대한 영상이 입력되었을 때, 텍스트의 일부에 대한 문자 인식으로도 해당 책에 대한 데이터베이스 검색을 통하여 어떤 페이지인지 알아내고, 해당 페이지 전체를 읽어줄 수 있다. 또한, 추가로 데이터 해당 페이지에 적합한 컨텐츠(텍스트에 대한 음성, 부가적인 설명 정보 등)를 제공할 수도 있다.

그리고, 스마트 리딩 기기(200)는 텍스트 이외에도 이미지 분석을 통해 카메라로 촬영된 사물 자체를 인식하거나 책에 인쇄된 이미지를 인식하여 이미지 인식 결과를 음성 발화할 수 있다. 예를 들어, 책에 사과 이미지가 인쇄된 경우 이미지 인식 결과에 따라 '사과', 또는 '애플'과 같은 음성 발화를 출력할 수 있다.

본 발명에 따르면, 보다 실감나는 책읽기를 위하여 책 내의 추가적인 정보를 반영하여 음성을 합성하거나 기존 음성을 변조하여 제공할 수 있다. 예를 들면, 폰트사이즈가 큰 텍스트는 크게, 작은 텍스트는 작게 읽을 수 있다. 또한 직접 인용 부호(")가 있거나 말풍선 내의 문장은 등장인물의 직접 발화이므로 화자를 구분하여 다른 목소리로 읽을 수 있다. 또한 그림을 분석하여 인물의 표정이 우울하거나 울고 있는 경우에는 우는 목소리, 웃고 있는 경우에는 밝은 목소리로 표현하는 등 감정을 파악하여 감정을 나타내는 음성을 제공할 수 있다. 단락의 구분이 있거나 말줄임표가 있는 부분에서는 적절히 쉬어주면서 읽을 수도 있다.

상기한 텍스트와 이미지를 인식하는 방법은 예시적인 것으로 이에 한정되는 것은 아니며, 이미 잘 알려진 다른 기술들을 이용하는 것 또한 가능하다.

또한, 스마트 리딩 기기(200)는 읽어주는 기능에 대해 각 책 별로 인식된 텍스트와 이미지를 인식 순서에 따라 차례로 저장할 수 있고, 사용자의 독서 횟수나 독서 중단 페이지 등을 포함한 사용자 이력 정보를 저장할 수 있다. 이러한 정보를 바탕으로, 이후 동일한 책에 대해 OCR 스캔이나 QR 코드 검색 과정 없이, 즉 실물 책이 없더라도 해당 책을 다시 읽어주는 기능을 제공할 수 있고, 다시 읽어주는 기능을 제공하는 과정에서 사용자가 동일한 책을 몇 번 읽었는지, 어느 페이지까지 읽다 말았는지 등에 대한 정보를 활용할 수 있다.

상기한 스마트 리딩 제어 방법(S510 내지 S530)에 따른 시나리오 예시는 다음과 같다.

1. 스마트 리딩 기기(200)가 사용자의 발화에 따라 입력되는 음성 명령 '책을 읽어줘'를 인식하는 경우 카메라(201)를 활성화시킨 후 '무슨 책을 읽어줄까? 책 표지를 보여줘'와 같이 읽어주는 기능을 위한 가이드를 음성으로 출력할 수 있다.

2. 사용자가 카메라(201) 정면에 책을 놓고 '우리 이 책 읽은 적 있어?'라고 질의하는 경우 스마트 리딩 기기(200)는 저장된 정보를 검색하여 검색 결과에 따라 '아니, 처음 읽는 책이야!'와 같은 응답을 발화할 수 있다.

3. 스마트 리딩 기기(200)는 책 표지를 인식한 후 '<브라운 무슨 생각해?>라는 책이구나. 책장을 천천히 넘기면서 읽어보자. 시작할게.'와 같이 책 정보와 함께 가이드를 발화한 후 책 읽기를 시작할 수 있다.

스마트 리딩 기기(200)는 텍스트를 읽어주는 것 이외에도 사용자가 이미지 카드를 카메라(201) 정면에 놓고 '이게 뭐야?'라고 물으면 이미지를 인식하여 '이것은 사과야'와 같이 이미지를 인식하여 읽어주는 것 또한 가능하다.

도 6은 본 발명의 일실시예에 따른 스마트 리딩 기기가 수행할 수 있는 스마트 리딩 제어 방법의 다른 예를 도시한 순서도이다.

도 6의 스마트 리딩 제어 방법에 포함된 단계들은 도 5의 스마트 리딩 제어 방법에 포함될 수 있다. 이하의 스마트 리딩 제어 방법은 도시된 순서대로 발생하지 않을 수 있으며, 단계들 중 일부가 생략되거나 추가의 과정이 더 포함될 수 있다.

단계(S610)에서 스마트 리딩 기기(200)는 스마트 리딩 기기(200)에 포함된 마이크를 통해 입력되는 특정인의 음성을 녹음한 후 녹음된 음성으로부터 특정인의 목소리 데이터를 추출하여 저장 및 유지할 수 있다. 이때, 스마트 리딩 기기(200)는 읽어주는 기능에 활용하기 위한 위한 목소리로서 별도의 녹음 기능을 통해 특정인(예컨대, 엄마, 아빠 등)의 목소리를 녹음하여 목소리 특징을 추출한 후 목소리 대상과 매칭하여 저장해 놓을 수 있다.

단계(S620)에서 스마트 리딩 기기(200)는 사용자의 음성 명령이 읽어주는 기능을 위한 요청에 해당되는 경우 읽어주는 기능에 적용 가능한 목소리 목록 혹은 적어도 하나의 추천 목소리를 사용자에게 제공할 수 있다. 예를 들어, 스마트 리딩 기기(200)는 음성 발화를 통해 '이 책은 브라운, 코니, 샐리 중 누구 목소리로 읽어줄까?'와 같이 목소리 목록을 제공하거나 '이 책은 엄마 목소리로 읽어줄까?'와 같이 추천 목소리를 제공할 수 있다.

단계(S630)에서 스마트 리딩 기기(200)는 사용자와의 대화 기반으로 사용자가 선택한 특정 목소리로 단계(S520)에서 인식된 텍스트를 음성 발화하여 읽어주는 기능을 제공할 수 있다. 다시 말해, 스마트 리딩 기기(200)는 읽어주는 기능의 음성 발화에 엄마나 아빠 등 녹음된 목소리를 합성할 수 있다.

상기한 스마트 리딩 제어 방법(S610 내지 S630)에 따른 시나리오 예시는 다음과 같다.

3. 스마트 리딩 기기(200)는 책 표지를 인식한 후 '<브라운 무슨 생각해?>라는 책이구나. 이 책은 엄마 목소리로 읽어줄까?'와 같이 책 정보와 함께 추천 목소리를 제공할 수 있다.

4. 사용자가 '응, 좋아.'와 같이 추천 목소리를 허용하면 스마트 리딩 기기(200)는 '책장을 천천히 넘기면서 읽어보자. 시작할게.'와 같이 가이드를 발화한 후 책 읽기를 시작할 수 있다.

도 7은 본 발명의 일실시예에 따른 스마트 리딩 기기가 수행할 수 있는 스마트 리딩 제어 방법의 또 다른 예를 도시한 순서도이다.

단계(S710)에서 인식부(401)는 대화 기반 인터페이스로서 스마트 리딩 기기(200)에 포함된 마이크 또는 스마트 리딩 기기(200)와 연동된 마이크와 같은 음성 입력 장치를 통해 사용자의 발화에 따른 음성 명령을 입력받을 수 있다. 인식부(401)는 스마트 리딩 기기(200)에서 제공 가능한 기능(읽어주는 기능, 악보 연주 기능, 커뮤니케이션 기능, 컨텐츠 제작 기능 등) 중 어느 하나의 기능을 위한 요청으로서 음성 명령을 구분하여 인식할 수 있다.

단계(S720)에서 인식부(401)는 사용자의 음성 명령이 읽어주는 기능을 위한 요청에 해당되는 경우 스마트 리딩 기기(200)에 포함된 카메라(201)를 활성화시킨 후 카메라(201)를 통해 영상을 입력받아 영상에 포함된 텍스트를 인식할 수 있다. 스마트 리딩 기기(200)의 사용자는 책과 같은 인쇄물을 카메라(201)를 마주보는 위치에 놓고 읽어주는 기능을 실행할 수 있으며, 이때 인식부(401)는 카메라(201)를 통해 입력된 영상에 대해 OCR 스캔이나 QR 코드 검색을 통해 해당 책의 텍스트를 획득할 수 있다.

단계(S730)에서 번역 처리부(403)는 단계(S720)에서 인식된 텍스트를 사용자에 의해 선택된 목적 언어로 번역할 수 있다. 번역 처리부(403)는 사용자와의 대화를 기반으로 사용자에 의해 선택된 목적 언어를 특정하거나 혹은 사용자에 의해 사전 설정된 목적 언어를 특정할 수 있다. 번역 처리부(403)는 스마트 리딩 기기(200)에 포함된 사전 데이터베이스 혹은 스마트 리딩 기기(200)와 연동 가능한 서버나 플랫폼 상의 사전 데이터베이스를 통해 목적 언어로 단계(S720)에서 인식된 텍스트를 번역할 수 있다.

단계(S740)에서 음성 발화부(402)는 사용자의 음성 명령에 대한 응답으로, 단계(S730)에서 목적 언어로 번역된 텍스트를 스마트 리딩 기기(200)에 포함된 스피커(204)를 통해 음성 발화하여 읽어주는 기능을 제공할 수 있다. 다시 말해, 음성 발화부(402)는 OCR 스캔이나 QR 코드 검색을 통해 획득한 책의 텍스트를 사용자가 원하는 원어로 번역하여 읽어줄 수 있다.

상기한 스마트 리딩 제어 방법(S710 내지 S740)에 따른 시나리오 예시는 다음과 같다.

1. 사용자가 음성 명령 '이 책을 영어로 읽어줘'를 발화하는 경우 스마트 리딩 기기(200)는 카메라(201)를 활성화시켜 영상을 획득한 후 영상으로 촬영된 책의 텍스트를 인식할 수 있다.

2. 스마트 리딩 기기(200)는 인식된 텍스트를 사용자의 음성 명령에 포함된 목적 언어, 즉 영어로 번역하여 번역 결과를 음성 발화함으로써 읽어주는 기능을 제공할 수 있다.

다른 시나리오 예시는 다음과 같다.

1. 사용자가 카메라(201) 정면에 사과 이미지 카드를 놓고 '이게 일본어로 뭐야?'라고 질의하는 경우 스마트 리딩 기기(200)는 카메라(201)를 활성화시켜 이미지 카드를 스캔한 후 이미지 객체 '사과'를 인식할 수 있다.

2. 스마트 리딩 기기(200)는 인식된 이미지 객체 '사과'를 사용자의 음성 명령에 포함된 목적 언어, 즉 일본어로 번역하여 번역 결과 'リンゴ'를 음성 발화로 읽어줄 수 있다.

도 8은 본 발명의 일실시예에 따른 스마트 리딩 기기가 수행할 수 있는 스마트 리딩 제어 방법의 또 다른 예를 도시한 순서도이다.

단계(S810)에서 인식부(401)는 대화 기반 인터페이스로서 스마트 리딩 기기(200)에 포함된 마이크 또는 스마트 리딩 기기(200)와 연동된 마이크와 같은 음성 입력 장치를 통해 사용자의 발화에 따른 음성 명령을 입력받을 수 있다. 인식부(401)는 스마트 리딩 기기(200)에서 제공 가능한 기능(읽어주는 기능, 악보 연주 기능, 커뮤니케이션 기능, 컨텐츠 제작 기능 등) 중 어느 하나의 기능을 위한 요청으로서 음성 명령을 구분하여 인식할 수 있다.

단계(S820)에서 인식부(401)는 사용자의 음성 명령이 악보 연주 기능을 위한 요청에 해당되는 경우 스마트 리딩 기기(200)에 포함된 카메라(201)를 활성화시킨 후 카메라(201)를 통해 영상을 입력받아 영상에 포함된 악보를 인식할 수 있다. 스마트 리딩 기기(200)의 사용자는 악보 인쇄물을 카메라(201)를 마주보는 위치에 놓고 악보 연주 기능을 실행할 수 있으며, 이때 인식부(401)는 카메라(201)를 통해 입력된 영상에 대해 OCR 스캔이나 QR 코드 검색을 통해 악보를 인식할 수 있다.

단계(S830)에서 연주 제공부(404)는 사용자의 음성 명령에 대한 응답으로, 단계(S820)에서 인식된 악보를 사용자에 의해 선택된 특정 악기로 연주하여 악보 연주 기능을 제공할 수 있다. 연주 제공부(404)는 사용자와의 대화를 기반으로 사용자에 의해 선택된 악기를 특정하거나 혹은 사용자에 의해 사전 설정된 악기를 특정할 수 있다. 악기 별 소리 특징 데이터를 포함하는 데이터베이스가 스마트 리딩 기기(200)에 포함되거나 혹은 스마트 리딩 기기(200)와 연동 가능한 서버나 플랫폼 상에 포함될 수 있으며, 이를 통해 연주 제공부(404)는 사용자에 의해 특정된 악기의 소리 특징 데이터에 기초하여 카메라(201)로 인식된 악보를 해당 악기로 자동 연주해 줄 수 있다.

상기한 스마트 리딩 제어 방법(S810 내지 S830)에 따른 시나리오 예시는 다음과 같다.

1. 사용자가 음성 명령 '이 악보를 피아노로 연주해줘'를 발화하는 경우 스마트 리딩 기기(200)는 카메라(201)를 활성화시켜 영상을 획득한 후 영상으로 촬영된 악보를 인식할 수 있다.

2. 스마트 리딩 기기(200)는 인식된 악보를 사용자의 음성 명령에 포함된 특정 악기, 즉 피아노 버전으로 연주할 수 있다.

도 9는 본 발명의 일실시예에 따른 스마트 리딩 기기가 수행할 수 있는 스마트 리딩 제어 방법의 또 다른 예를 도시한 순서도이다.

단계(S910)에서 인식부(401)는 커뮤니케이션을 위한 요청을 수신할 수 있다. 일례로, 인식부(401)는 스마트 리딩 기기(200)에 포함된 마이크 또는 스마트 리딩 기기(200)와 연동된 마이크와 같은 음성 입력 장치를 통해 사용자의 발화에 따른 음성 명령으로서 타 사용자와의 커뮤니케이션을 요청하는 사용자 명령을 수신할 수 있다. 예를 들어, 집에 있는 아이가 스마트 리딩 기기(200)를 통해 엄마와의 커뮤니케이션을 요청할 수 있다. 다른 예로, 인식부(401)는 네트워크(160)를 통해 스마트 리딩 기기(200)에 접속한 타 사용자로부터 스마트 리딩 기기(200)의 사용자와의 커뮤니케이션을 요청하는 명령을 수신할 수 있다. 예를 들어, 외부에 있는 엄마가 스마트 리딩 기기(200)에 접속 가능한 앱을 통해 집에 있는 아이와의 커뮤니케이션을 요청할 수 있다.

단계(S920)에서 커뮤니케이션부(405)는 커뮤니케이션 기능에 해당되는 요청이 수신되는 경우 스마트 리딩 기기(200)가 CCTV와 같이 동작하도록 스마트 리딩 기기(200)의 카메라(201)가 포함된 헤드 부분(203)의 기울기를 조정할 수 있다. 일례로, 커뮤니케이션부(405)는 사용자가 영상 촬영을 위한 방향으로 헤드 부분(203)의 기울기를 조정하도록 하는 가이드를 음성으로 발화할 수 있다. 다른 예로, 스마트 리딩 기기(200)가 헤드 부분(203)의 기울기를 조정할 수 있는 회전 구조물을 포함하는 경우, 커뮤니케이션부(405)는 스마트 리딩 기기(200)에 포함된 센서 혹은 스마트 리딩 기기(200)와 연동된 센서를 통해 주변의 움직임을 감지할 수 있고 움직임이 감지된 곳을 향하도록 헤드 부분(203)의 기울기를 자동 조정할 수 있다.

단계(S930)에서 커뮤니케이션부(405)는 헤드 부분(203)의 기울기 조정이 완료되면 스마트 리딩 기기(200)의 카메라(201)를 통해 입력되는 영상을 네트워크(160)를 통해 사전에 정해진 타 사용자의 전자 기기로 실시간 전송할 수 있다. 다시 말해, 커뮤니케이션부(405)는 스마트 리딩 기기(200)의 사용자 혹은 사전에 정해진 타 사용자의 요청을 수신하는 경우 사용자와 타 사용자 간의 커뮤니케이션을 위해 카메라(201)를 활성화시켜 스마트 리딩 기기(200)에서 촬영된 실시간 영상을 타 사용자의 전자 기기로 전달할 수 있다.

상기한 스마트 리딩 제어 방법(S910 내지 S930)에 따른 시나리오 예시는 다음과 같다.

1. 외부에 있는 엄마가 스마트폰을 통해 가정 내 스마트 리딩 기기(200)에 접속하여 커뮤니케이션 기능을 요청하는 경우 스마트 리딩 기기(200)는 카메라(201)와 마이크 등을 포함한 대화 기반 인터페이스를 활성화시킬 수 있다.

2. 엄마가 '우리 딸, 뭐하고 있어?'와 같이 음성이나 문자 메시지를 전송하는 경우 스마트 리딩 기기(200)는 수신된 메시지를 음성으로 출력함과 동시에, 카메라(201)를 통해 촬영된 영상을 실시간으로 엄마의 스마트폰으로 전달할 수 있다.

3. 집에 있는 아이가 스마트 리딩 기기(200)를 통해 '퍼즐 맞추기 하고 있어요.'와 같이 발화하는 경우 아이의 발화에 따라 입력된 음성을 엄마의 스마트폰으로 전달할 수 있다.

다른 시나리오 예시는 다음과 같다.

1. 집에 있는 아이가 스마트 리딩 기기(200)를 통해 '엄마한테 연결해줘'와 같이 발화하는 경우 스마트 리딩 기기(200)는 커뮤니케이션을 위한 요청으로 인식하여 카메라(201)와 마이크 등을 포함한 대화 기반 인터페이스를 활성화시킬 수 있다.

2. 스마트 리딩 기기(200)는 사전에 정해진, 예컨대 엄마의 스마트폰으로 커뮤니케이션을 위한 요청을 전달한다. 엄마의 스마트폰에서는 스마트 리딩 기기(200)와 연관된 앱을 통해 스마트 리딩 기기(200)로부터 커뮤니케이션을 위한 요청을 수신했음을 알림으로 표시할 수 있다.

3. 스마트 리딩 기기(200)는 엄마가 커뮤니케이션 요청을 수락하는 경우 카메라(201)를 통해 촬영된 영상을 실시간으로 엄마의 스마트폰으로 전달할 수 있다. 그리고, 스마트 리딩 기기(200)는 아이가 '엄마 몇 시쯤 와요?' 와 같이 발화하는 경우 아이의 발화 음성을 엄마의 스마트폰으로 전달할 수 있다.

도 10 본 발명의 일실시예에 따른 스마트 리딩 기기가 수행할 수 있는 스마트 리딩 제어 방법의 또 다른 예를 도시한 순서도이다.

단계(S1010)에서 인식부(401)는 컨텐츠 제작을 위한 요청을 수신할 수 있다. 일례로, 인식부(401)는 스마트 리딩 기기(200)에 포함된 마이크 또는 스마트 리딩 기기(200)와 연동된 마이크와 같은 음성 입력 장치를 통해 사용자의 발화에 따른 음성 명령으로서 컨텐츠 제작을 요청하는 사용자 명령을 수신할 수 있다.

단계(S1020)에서 커뮤니케이션부(405)는 컨텐츠 제작 기능에 해당되는 요청이 수신되는 경우 스마트 리딩 기기(200)의 카메라(201)가 포함된 헤드 부분(203)의 기울기를 조정할 수 있다. 일례로, 커뮤니케이션부(405)는 사용자가 영상 촬영을 위한 방향으로 헤드 부분(203)의 기울기를 조정하도록 하는 가이드를 음성으로 발화할 수 있다. 다른 예로, 스마트 리딩 기기(200)가 헤드 부분(203)의 기울기를 조정할 수 있는 회전 구조물을 포함하는 경우, 커뮤니케이션부(405)는 스마트 리딩 기기(200)에 포함된 센서 혹은 스마트 리딩 기기(200)와 연동된 센서를 통해 주변의 움직임을 감지할 수 있고 움직임이 감지된 곳을 향하도록 헤드 부분(203)의 기울기를 자동 조정할 수 있다.

단계(S1030)에서 컨텐츠 제작부(406)는 헤드 부분(203)의 기울기 조정이 완료되면 스마트 리딩 기기(200)의 카메라(201)를 이용한 영상 촬영을 통해 영상 컨텐츠를 제작할 수 있다. 컨텐츠 제작부(406)는 음성 기반 인터페이스를 통해 컨텐츠 제작과 관련된 사용자 명령을 수신할 수 있으며, 사용자 명령에 따라 카메라(201)를 통해 촬영된 영상을 이용하여 컨텐츠를 제작할 수 있다. 그리고, 컨텐츠 제작부(406)는 영상 컨텐츠의 제작이 완료되면 사용자의 요청에 따라 네트워크(160)를 통해 사전에 정해진 외부 서버로 업로드할 수 있다. 컨텐츠 제작부(406)는 SNS 서버, 클라우드 서버 등 사용자가 영상 컨텐츠를 게재하기 위해 사전에 정해놓은 외부 서버로 영상 컨텐츠를 자동 업로드할 수 있다.

상기한 스마트 리딩 제어 방법(S1010 내지 S1030)에 따른 시나리오 예시는 다음과 같다.

1. 사용자가 스마트 리딩 기기(200)를 통해 '카메라 켜줘'와 같이 발화하는 경우 스마트 리딩 기기(200)는 컨텐츠 제작을 위한 요청으로 인식하여 카메라(201)와 마이크 등을 포함한 대화 기반 인터페이스를 활성화시킬 수 있다.

2. 스마트 리딩 기기(200)는 대화 기반 인터페이스를 활성화시킨 후 '카메라 켰어. 준비되면 말해줘.'와 같이 가이드를 발화한 후 컨텐츠 제작을 위한 대기 상태를 유지할 수 있다.

3. 사용자가 '동영상 시작'과 같이 발화하는 경우 스마트 리딩 기기(200)는 카메라(201)를 통해 동영상 촬영을 시작할 수 있고, 이후 동영상 촬영 도중에 사용자가 '동영상 종료'와 같이 발화하는 경우 스마트 리딩 기기(200)는 '동영상 종료' 발화 시점 이전까지 촬영된 동영상을 제작 컨텐츠로서 저장할 수 있다.

4. 사용자가 '내 SNS 채널에 올려줘'와 같이 발화하는 경우 스마트 리딩 기기(200)는 미리 설정해 놓은 사용자의 SNS 채널에 해당 동영상 컨텐츠를 업로드할 수 있다.

이처럼 본 발명의 실시예들에 따르면, 책이나 카드 등 모든 인쇄물을 스캔하여 읽어주는 기기로서 카메라와 조명, 그리고 AI 스피커가 결합된 스탠드 타입의 스마트 리딩 기기를 제공할 수 있으며, 이를 통해 단순히 텍스트나 이미지를 인식하여 읽어주는 기능뿐만 아니라, 사용자가 원하는 목소리로 읽어주는 기능, 목소리를 녹음하여 읽어주는 목소리로 활용하는 기능, 사용자가 원하는 언어로 번역하여 읽어주는 기능, 악보를 인식하여 다양한 악기로 자동 연주해주는 기능, CCTV 용도로 활용하여 커뮤니케이션을 제공하는 기능, 영상 기반의 컨텐츠를 제작하는 기능 등을 제공할 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

컴퓨터 장치로 구현된 스마트 리딩 기기에서 실행되는 스마트 리딩 제어 방법에 있어서,
상기 스마트 리딩 기기는 카메라와 조명 및 스피커가 결합된 스탠드 타입의 디바이스로서, 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고,
상기 스마트 리딩 제어 방법은,
상기 적어도 하나의 프로세서에 의해, 대화 기반 인터페이스를 통해 사용자의 음성 명령을 인식하는 단계;
상기 적어도 하나의 프로세서에 의해, 상기 카메라를 이용하여 상기 카메라로 촬영된 인쇄물의 텍스트를 인식하는 단계; 및
상기 적어도 하나의 프로세서에 의해, 상기 음성 명령에 대한 응답으로 상기 인식된 텍스트를 음성 발화하여 읽어주는 기능을 제공하는 단계
를 포함하고,
상기 음성 명령을 인식하는 단계는,
상기 음성 명령을 상기 스마트 리딩 기기에서 제공 가능한 복수의 기능 중 어느 하나의 기능을 위한 요청으로 구분하여 인식하고,
상기 텍스트를 인식하는 단계는,
상기 음성 명령이 상기 복수의 기능 중 상기 읽어주는 기능을 위한 요청에 해당되는 경우 상기 음성 명령에 따라 상기 인쇄물을 스캔하여 텍스트를 인식하고,
상기 스마트 리딩 제어 방법은,
상기 적어도 하나의 프로세서에 의해, 상기 스마트 리딩 기기에 구비된 조도센서 또는 상기 카메라 내에 구비된 센서를 통해 획득한 주변 정보에 따라 상기 조명의 밝기를 조절하는 단계
를 더 포함하는 스마트 리딩 제어 방법.
제1항에 있어서,
상기 텍스트를 인식하는 단계는,
OCR(optical character reader)을 통해 상기 인쇄물을 스캔하여 상기 텍스트를 인식하는 것
을 특징으로 하는 스마트 리딩 제어 방법.
컴퓨터 장치로 구현된 스마트 리딩 기기에서 실행되는 스마트 리딩 제어 방법에 있어서,
상기 스마트 리딩 기기는 카메라와 조명 및 스피커가 결합된 스탠드 타입의 디바이스로서, 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고,
상기 스마트 리딩 제어 방법은,
상기 적어도 하나의 프로세서에 의해, 대화 기반 인터페이스를 통해 사용자의 음성 명령을 인식하는 단계;
상기 적어도 하나의 프로세서에 의해, 상기 카메라를 이용하여 상기 카메라로 촬영된 인쇄물의 텍스트를 인식하는 단계; 및
상기 적어도 하나의 프로세서에 의해, 상기 음성 명령에 대한 응답으로 상기 인식된 텍스트를 음성 발화하여 읽어주는 기능을 제공하는 단계
를 포함하고,
상기 음성 명령을 인식하는 단계는,
상기 음성 명령을 상기 스마트 리딩 기기에서 제공 가능한 복수의 기능 중 어느 하나의 기능을 위한 요청으로 구분하여 인식하고,
상기 텍스트를 인식하는 단계는,
상기 음성 명령이 상기 복수의 기능 중 상기 읽어주는 기능을 위한 요청에 해당되는 경우 상기 음성 명령에 따라 상기 인쇄물을 스캔하여 텍스트를 인식하고,
상기 스마트 리딩 제어 방법은,
상기 적어도 하나의 프로세서에 의해, 음성 분석을 통해 현재 사용자를 파악하여 현재 사용자에 따라 상기 조명의 색온도를 조절하는 단계
를 더 포함하는 스마트 리딩 제어 방법.
제1항에 있어서,
상기 읽어주는 기능을 제공하는 단계는,
적어도 하나의 추천 목소리를 제공하는 단계; 및
상기 추천 목소리 중에서 상기 사용자에 의해 선택된 목소리에 매칭된 목소리 특징을 음성 합성에 이용하여 상기 인식된 텍스트에 대한 음성 발화를 출력하는 단계
를 포함하는 스마트 리딩 제어 방법.
제1항에 있어서,
상기 스마트 리딩 제어 방법은,
상기 적어도 하나의 프로세서에 의해, 녹음 기능을 통해 특정인의 음성을 녹음하여 상기 녹음된 음성으로부터 목소리 데이터를 추출하는 단계
를 더 포함하고,
상기 읽어주는 기능을 제공하는 단계는,
상기 목소리 데이터를 이용하여 상기 인식된 텍스트를 상기 특정인의 목소리로 음성 발화하는 것
을 특징으로 하는 스마트 리딩 제어 방법.
제1항에 있어서,
상기 읽어주는 기능을 제공하는 단계는,
상기 인식된 텍스트를 상기 사용자에 의해 특정된 목적 언어로 번역한 후 상기 목적 언어로 번역된 텍스트를 음성 발화하는 단계
를 포함하는 스마트 리딩 제어 방법.
제1항에 있어서,
상기 스마트 리딩 제어 방법은,
상기 적어도 하나의 프로세서에 의해, 이미지 분석을 통해 상기 카메라로 촬영된 사물 자체 혹은 상기 인쇄물의 이미지를 인식하는 단계; 및
상기 적어도 하나의 프로세서에 의해, 인식 결과를 음성 발화하여 읽어주는 기능을 제공하는 단계
를 더 포함하는 스마트 리딩 제어 방법.
제1항에 있어서,
상기 스마트 리딩 제어 방법은,
상기 적어도 하나의 프로세서에 의해, 상기 음성 명령이 상기 복수의 기능 중 악보 연주 기능을 위한 요청에 해당되는 경우 상기 카메라로 촬영된 인쇄물의 악보를 인식하는 단계; 및
상기 적어도 하나의 프로세서에 의해, 상기 인식된 악보를 상기 사용자에 의해 특정된 악기로 연주하여 악보 연주 기능을 제공하는 단계
를 더 포함하는 스마트 리딩 제어 방법.
제1항에 있어서,
상기 스마트 리딩 제어 방법은,
상기 적어도 하나의 프로세서에 의해, 상기 음성 명령이 상기 복수의 기능 중 커뮤니케이션 기능을 위한 요청에 해당되는 경우 상기 카메라를 통해 입력되는 영상을 네트워크를 통해 사전에 정해진 타 사용자의 전자 기기로 전송하는 단계
를 더 포함하는 스마트 리딩 제어 방법.
제1항에 있어서,
상기 스마트 리딩 제어 방법은,
상기 적어도 하나의 프로세서에 의해, 상기 음성 명령이 상기 복수의 기능 중 컨텐츠 제작 기능을 위한 요청에 해당되는 경우 상기 카메라를 이용한 영상 촬영을 통해 영상 컨텐츠를 제작하는 단계; 및
상기 적어도 하나의 프로세서에 의해, 상기 영상 컨텐츠를 네트워크를 통해 사전에 정해진 외부 서버 상의 상기 사용자와 관련된 채널에 업로드하는 단계
를 더 포함하는 스마트 리딩 제어 방법.
제1항 내지 제10항 중 어느 한 항의 스마트 리딩 제어 방법을 컴퓨터에 실행시키기 위한 프로그램이 기록되어 있는 비-일시적인 컴퓨터 판독 가능한 기록 매체.
컴퓨터 장치로 구현된 스마트 리딩 기기에 있어서,
카메라와 조명 및 스피커가 결합된 스탠드 타입의 디바이스로 구성되고,
메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고,
상기 적어도 하나의 프로세서는,
대화 기반 인터페이스를 통해 사용자의 음성 명령이 인식되는 경우 상기 카메라를 이용하여 상기 카메라로 촬영된 인쇄물의 텍스트를 인식하는 인식부; 및
상기 음성 명령에 대한 응답으로 상기 인식된 텍스트를 음성 발화하여 읽어주는 기능을 제공하는 음성 발화부
를 포함하고,
상기 인식부는,
상기 음성 명령을 상기 스마트 리딩 기기에서 제공 가능한 복수의 기능 중 어느 하나의 기능을 위한 요청으로 구분하여 인식하고,
상기 음성 명령이 상기 복수의 기능 중 상기 읽어주는 기능을 위한 요청에 해당되는 경우 상기 음성 명령에 따라 상기 인쇄물을 스캔하여 텍스트를 인식하고,
상기 적어도 하나의 프로세서는,
상기 스마트 리딩 기기에 구비된 조도센서 또는 상기 카메라 내에 구비된 센서를 통해 획득한 주변 정보에 따라 상기 조명의 밝기를 조절하는 것
을 특징으로 하는 스마트 리딩 기기.
컴퓨터 장치로 구현된 스마트 리딩 기기에 있어서,
카메라와 조명 및 스피커가 결합된 스탠드 타입의 디바이스로 구성되고,
메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고,
상기 적어도 하나의 프로세서는,
대화 기반 인터페이스를 통해 사용자의 음성 명령이 인식되는 경우 상기 카메라를 이용하여 상기 카메라로 촬영된 인쇄물의 텍스트를 인식하는 인식부; 및
상기 음성 명령에 대한 응답으로 상기 인식된 텍스트를 음성 발화하여 읽어주는 기능을 제공하는 음성 발화부
를 포함하고,
상기 인식부는,
상기 음성 명령을 상기 스마트 리딩 기기에서 제공 가능한 복수의 기능 중 어느 하나의 기능을 위한 요청으로 구분하여 인식하고,
상기 음성 명령이 상기 복수의 기능 중 상기 읽어주는 기능을 위한 요청에 해당되는 경우 상기 음성 명령에 따라 상기 인쇄물을 스캔하여 텍스트를 인식하고,
상기 적어도 하나의 프로세서는,
음성 분석을 통해 현재 사용자를 파악하여 현재 사용자에 따라 상기 조명의 색온도를 조절하는 것
을 특징으로 하는 스마트 리딩 기기.
제12항에 있어서,
상기 음성 발화부는,
적어도 하나의 추천 목소리를 제공하고,
상기 추천 목소리 중에서 상기 사용자에 의해 선택된 목소리에 매칭된 목소리 특징을 음성 합성에 이용하여 상기 인식된 텍스트에 대한 음성 발화를 출력하는 것
을 특징으로 하는 스마트 리딩 기기.
제12항에 있어서,
상기 적어도 하나의 프로세서는,
녹음 기능을 통해 특정인의 음성을 녹음하여 상기 녹음된 음성으로부터 목소리 데이터를 추출하고,
상기 음성 발화부는,
상기 목소리 데이터를 이용하여 상기 인식된 텍스트를 상기 특정인의 목소리로 음성 발화하는 것
을 특징으로 하는 스마트 리딩 기기.
제12항에 있어서,
상기 적어도 하나의 프로세서는,
상기 인식된 텍스트를 상기 사용자에 의해 특정된 목적 언어로 번역하는 번역 처리부
를 더 포함하고,
상기 음성 발화부는,
상기 목적 언어로 번역된 텍스트를 음성 발화하는 것
을 특징으로 하는 스마트 리딩 기기.
제12항에 있어서,
상기 인식부는,
이미지 분석을 통해 상기 카메라로 촬영된 사물 자체 혹은 상기 인쇄물의 이미지를 인식하고,
상기 음성 발화부는,
상기 이미지 분석을 통한 인식 결과를 음성 발화하여 읽어주는 기능을 제공하는 것
을 특징으로 하는 스마트 리딩 기기.
제12항에 있어서,
상기 인식부는,
상기 음성 명령이 상기 복수의 기능 중 악보 연주 기능을 위한 요청에 해당되는 경우 상기 카메라로 촬영된 인쇄물의 악보를 인식하고,
상기 적어도 하나의 프로세서는,
상기 인식된 악보를 상기 사용자에 의해 특정된 악기로 연주하여 악보 연주 기능을 제공하는 연주 제공부
를 더 포함하는 스마트 리딩 기기.
제12항에 있어서,
상기 적어도 하나의 프로세서는,
상기 음성 명령이 상기 복수의 기능 중 커뮤니케이션 기능을 위한 요청에 해당되는 경우 상기 카메라를 통해 입력되는 영상을 네트워크를 통해 사전에 정해진 타 사용자의 전자 기기로 전송하는 커뮤니케이션부
를 더 포함하는 스마트 리딩 기기.
제12항에 있어서,
상기 적어도 하나의 프로세서는,
상기 음성 명령이 상기 복수의 기능 중 컨텐츠 제작 기능을 위한 요청에 해당되는 경우 상기 카메라를 이용한 영상 촬영을 통해 영상 컨텐츠를 제작하여 상기 영상 컨텐츠를 네트워크를 통해 사전에 정해진 외부 서버 상의 상기 사용자와 관련된 채널에 업로드하는 컨텐츠 제작부
를 더 포함하는 스마트 리딩 기기.