WO2021132786A1

WO2021132786A1 - 고령자를 위한 휴먼케어 로봇의 학습 데이터 처리 시스템

Info

Publication number: WO2021132786A1
Application number: PCT/KR2019/018759
Authority: WO
Inventors: 유태준; 안준환; 서상원; 윤서영; 최홍섭
Original assignee: 주식회사 마인즈랩
Priority date: 2019-12-23
Filing date: 2019-12-31
Publication date: 2021-07-01
Also published as: KR102330811B1; KR20210081186A

Abstract

본 발명의 일 실시예에 따른 고령자를 위한 휴먼케어 로봇의 음성 처리를 위한 인공 신경망의 학습에 사용되는 음성 데이터를 수집하는 방법은, 획득하고자 하는 음성에 대응되는 제1 텍스트 데이터를 포함하는 제1 데이터를 사용자 단말에 전송하는 단계; 상기 사용자 단말로부터 상기 제1 텍스트 데이터의 독음 데이터를 포함하는 제2 데이터를 수신하는 단계; 상기 독음 데이터로부터 생성된 제2 텍스트 데이터 및 상기 제1 텍스트 데이터를 비교하여 상기 독음 데이터의 유효성을 검증하는 단계; 및 유효한 것으로 판단된 상기 독음 데이터와 상기 제1 텍스트 데이터를 대응시켜 학습 데이터로 저장하는 단계;를 포함할 수 있다.

Description

고령자를 위한 휴먼케어 로봇의 학습 데이터 처리 시스템

본 발명의 실시예들은 고령자를 위한 휴먼케어 로봇의 학습 데이터 처리 시스템에 관한 것으로, 휴먼케어 로봇의 음성 처리를 위한 인공 신경망의 학습에 사용되는 데이터를 수집하는 시스템에 관한 것이다.

고령 사회의 빠른 도래와 독거노인 가구의 급증으로 인해 고령자의 삶의 질 저하와 고령자 지원을 위한 사회 공공지출의 급격한 증가가 예상되고 있다. 이러한 사회 문제에 대한 해결책의 하나로 휴먼케어 로봇이 고령자와 함께 생활하는 방법이 떠오르고 있다. 따라서 고령자를 이해하고 정서적으로 교류하면서 상황에 맞는 건강, 생활, 인지, 정서 서비스를 제공해 주기 위해 필요한 휴먼케어 로봇 관련 기술의 개발이 요구되고 있는 실정이다.

휴먼케어 로봇은 고령자와의 심리적, 정서적 교감을 기반으로 하는 개인 맞춤형 돌봄 서비스 제공이 가능하고, 기존의 u-Heathcare 기술과 접목하여 적극적인 의료건강 및 생활지원 서비스에 활용이 가능하다.

한편 이와 같은 휴먼케어 로봇의 활용을 위해서는 로봇이 고령자의 말을 이해할 수 있도록 하는 것이 필요하며, 이를 위해서는 음성 처리를 위한 인공 신경망의 학습이 필요하다. 종래기술에서는 고령자의 특성을 반영하지 못하는 일반적인 음성 처리 방식을 사용하여, 휴먼케어 로봇의 효용성을 저하시키는 문제점이 있었다.

본 발명은 상술한 문제점을 해결하기 위한 것으로, 고령자의 케어에 보다 적합한 휴먼케어 로봇을 구현하고자 한다.

상기 제1 데이터는 학습된 제1 인공 신경망을 이용하여 상기 제1 텍스트 데이터를 음성으로 변환한 음성 데이터를 더 포함하고, 상기 사용자 단말은 상기 제1 텍스트 데이터 및 상기 음성 데이터 중 적어도 하나를 사용자에게 제공하고, 상기 제1 인공 신경망은 입력 텍스트 데이터를 상기 입력 텍스트 데이터에 대응되는 음성 데이터로 변환하도록 학습된 신경망일 수 있다.

상기 제2 데이터는 상기 사용자 단말을 사용하는 사용자에 대한 메타 데이터를 더 포함하고, 상기 대응시켜 저장하는 단계는 상기 유효한 것으로 판단된 상기 독음 데이터, 상기 제1 텍스트 데이터 및 상기 메타 데이터를 대응시켜 저장할 수 있다.

본 발명의 일 실시예에 따른 음성 데이터 수집 방법은, 상기 학습 데이터로 저장하는 단계 이후에, 갱신된 음성 데이터 수집 현황을 상기 사용자 단말에 전송하는 단계;를 더 포함할 수 있다.

상기 갱신된 음성 데이터 수집 현황을 상기 사용자 단말에 전송하는 단계는 상기 독음 데이터의 시간 길이를 확인하는 단계; 상기 확인된 시간 길이를 기 획득된 독음 데이터의 시간 길이에 누적하여 누적 시간 길이를 산출하는 단계; 및 상기 누적 시간 길이 및 목표 시간 길이를 포함하는 상기 음성 데이터 수집 현황을 생성하는 단계;를 포함할 수 있다.

상기 유효성을 검증하는 단계는 학습된 제2 인공 신경망을 이용하여 상기 독음 데이터로부터 상기 제2 텍스트 데이터를 생성하는 단계; 상기 제1 텍스트 데이터와 상기 제2 텍스트 데이터의 유사도를 산출하는 단계; 및 상기 유사도가 소정의 임계 유사도 이상인 독음 데이터를 유효한 데이터로 판정하는 단계;를 포함할 수 있다. 이때 상기 제2 인공 신경망은 입력 독음 데이터를 상기 입력 독음 데이터에 대응되는 텍스트 데이터로 변환하도록 학습된 신경망일 수 있다.

상기 판정하는 단계는 상기 유사도가 상기 소정의 임계 유사도 미만인 독음 데이터를 판단 보류 독음 데이터로 결정하는 단계;를 포함할 수 있다. 이때 본 발명의 일 실시예에 따른 음성 데이터 수집 방법은 상기 학습 데이터로 저장하는 단계 이후에, 상기 판단 보류 독음 데이터를 상기 판단 보류 독음 데이터에 대응되는 제1 텍스트 데이터와 함께 관리자 단말에 전송하고, 상기 관리자 단말로부터 유효성 판단 결과를 수신하는 단계;를 더 포함할 수 있다.

본 발명의 일 실시예에 따른 음성 데이터 수집 방법은, 상기 유효성 판단 결과를 수신하는 단계 이후에, 상기 유효성 판단 결과 유효하지 않은 것으로 판단되는 독음 데이터에 대응되는 제1 텍스트 데이터를 상기 사용자 단말에 전송하여 상기 제1 텍스트 데이터에 대한 재독음 데이터를 수신하는 단계;를 더 포함할 수 있다.

상기 제1 데이터를 사용자 단말에 전송하는 단계는 상기 사용자 단말에서 상기 제1 텍스트가 표시되는 크기를 제어하는 폰트 크기 제어 신호를 포함할 수 있다.

본 발명의 일 실시예에 따른 음성 데이터 수집 방법은 상기 학습 데이터로 저장하는 단계 이후에, 상기 학습 데이터를 이용하여 입력 텍스트 데이터를 상기 입력 텍스트 데이터에 대응되는 음성 데이터로 변환하는 제1 인공 신경망을 학습시키는 단계; 및 입력 독음 데이터를 상기 입력 독음 데이터에 대응되는 텍스트 데이터로 변환하는 제2 인공 신경망을 학습시키는 단계;를 더 포함할 수 있다.

본 발명에 따르면 고령자의 케어에 보다 적합한 휴먼케어 로봇을 구현할 수 있다.

특히 본 발명에 따르면 고령자로부터 인공 신경망의 학습을 위한 독음 데이터를 수집함으로써, 인공 신경망의 부합도를 향상시킬 수 있다.

또한 본 발명에 따르면 고령자도 쉽게 조작할 수 있는 형태로 인공 신경망의 학습을 위한 텍스트를 고령자에게 제공함으로써, 고령자에 적합한 학습 데이터를 용이하게 획득할 수 있다.

또한 본 발명에 따르면 학습된 인공신경망을 이용하여 수집된 데이터의 유효성을 판단함으로써, 데이터의 수집 과정에 있어서 인간의 개입을 최소화할 수 있다.

또한 본 발명에 따르면 유효지 않은 것으로 판단되는 데이터들을 관리자에게 별도로 제공하여, 데이터의 수집에 있어서 인간의 개입을 최소화하면서도, 높은 품질을 유지할 수 있도록 한다.

도 1은 본 발명의 일 실시예에 따른 고령자를 위한 휴먼케어 로봇의 인공 신경망 학습 시스템의 구성을 개략적으로 도시한 도면이다.

도 2는 본 발명의 일 실시예에 따른 서버(100)에 구비되는 음성 데이터 수집 장치(110)의 구성을 개략적으로 도시한 도면이다.

도 3 및 도 4는 음성 데이터 수집 장치(110)를 포함하는 서버(100)에 의해 수행되는 음성 데이터 수집 방법을 설명하기 위한 흐름도이다.

도 5는 본 발명의 일 실시예에 따른 사용자 단말(200)에 제1 텍스트 데이터가 표시된 화면(500)의 예시이다.

도 6은 관리자 단말(300)에 표시되는 예시적인 화면(600)을 도시한 도면이다.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 본 발명의 효과 및 특징, 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 다양한 형태로 구현될 수 있다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명하기로 하며, 도면을 참조하여 설명할 때 동일하거나 대응하는 구성 요소는 동일한 도면부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.

이하의 실시예에서, 제1, 제2 등의 용어는 한정적인 의미가 아니라 하나의 구성 요소를 다른 구성 요소와 구별하는 목적으로 사용되었다. 이하의 실시예에서, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 이하의 실시예에서, 포함하다 또는 가지다 등의 용어는 명세서상에 기재된 특징, 또는 구성요소가 존재함을 의미하는 것이고, 하나 이상의 다른 특징들 또는 구성요소가 부가될 가능성을 미리 배제하는 것은 아니다. 도면에서는 설명의 편의를 위하여 구성 요소들이 그 크기가 과장 또는 축소될 수 있다. 예컨대, 도면에서 나타난 각 구성의 크기 및 형태는 설명의 편의를 위해 임의로 나타내었으므로, 본 발명이 반드시 도시된 바에 한정되지 않는다.

본 발명의 일 실시예에 따른 인공 신경망 학습 시스템은 인공 신경망의 학습 데이터 중 일부를 사용자 단말에 전송하고, 사용자 단말로부터 학습 데이터의 나머지 일부인 응답 데이터를 수신하여 완성된 학습 데이터를 생성할 수 있다. 가령 본 발명의 일 실시예에 따른 시스템은, 사용자 단말로 텍스트 데이터를 전송하고 그에 대한 응답으로 사용자가 텍스트 데이터를 독음한 독음 데이터를 수신하여 텍스트 데이터와 독음 데이터를 포함하는 학습 데이터를 생성할 수 있다. 이와 같은 인공 신경망 학습 시스템은 도 1에 도시된 바와 같이 서버(100), 사용자 단말(200), 관리자 단말(300) 및 통신망(400)을 포함할 수 있다.

본 발명의 일 실시예에 따른 사용자 단말(200) 및 관리자 단말(300)은 사용자 및 관리자 각각이 서버(100)에 의해 제공되는 다양한 서비스를 이용할 수 있도록 사람과 서버(100)를 매개하는 다양한 형태의 장치를 의미할 수 있다. 가령 사용자 단말(200)은 서버(100)로부터 수신된 텍스트 데이터를 화면에 표시하고, 사용자가 화면상에 표시된 텍스트 데이터를 독음하도록 할 수 있다. 또한 사용자의 텍스트 데이터 독음에 따라 독음 데이터를 획득하여 다시 서버(100)로 전송할 수 있다.

본 발명의 일 실시예에 따른 관리자 단말(300)은 서버(100)로부터 판단 보류 독음 데이터를 수신하여 표시 및/또는 재생하고, 이에 대한 관리자의 입력을 획득하여 서버(100)로 전송할 수 있다.

이와 같은 단말(200, 300)은 가령 도 1에 도시된 사용자 단말(200)과 같이 휴대용 단말(201, 202, 203)을 의미할 수도 있고, 컴퓨터(204)를 의미할 수도 있다.

본 발명의 일 실시예에 따른 단말(200, 300)은 상술한 기능을 수행하기 위해 콘텐츠 등을 표시하기 위한 표시수단, 이러한 콘텐츠에 대한 사용자의 입력을 획득하기 위한 입력수단을 구비할 수 있다. 이 때 입력수단 및 표시수단은 다양하게 구성될 수 있다. 가령 입력수단은 키보드, 마우스, 트랙볼, 마이크, 버튼, 터치패널 등을 포함할 수 있으나 이에 한정되지 않는다.

도 1에는 사용자 단말(200)과 관리자 단말(300)이 모두 단수개인 것으로 도시되었지만, 이와 같은 수량은 예시적인것으로 본 발명의 사상이 이에 한정되는 것은 아니다. 따라서 사용자 단말(200) 및 관리자 단말(300)은 복수일 수도 있다.

본 발명의 일 실시예에 따른 통신망(400)은 시스템의 각 구성 간의 데이터 송수신을 매개하는 통신망을 의미할 수 있다. 가령 통신망(400)은 LANs(Local Area Networks), WANs(Wide Area Networks), MANs(Metropolitan Area Networks), ISDNs(Integrated Service Digital Networks) 등의 유선 네트워크나, 무선 LANs, CDMA, 블루투스, 위성 통신 등의 무선 네트워크를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.

본 발명의 일 실시예에 따른 서버(100)는 인공 신경망의 학습 데이터 중 일부를 사용자 단말(200)에 전송하고, 사용자 단말(200)로부터 학습 데이터의 나머지 일부인 응답 데이터를 수신하여 완성된 학습 데이터를 생성할 수 있다. 가령 본 발명의 일 실시예에 따른 서버(100)는 사용자 단말(200)로 텍스트 데이터를 전송하고 그에 대한 응답으로 사용자가 텍스트 데이터를 독음한 독음 데이터를 수신하여 텍스트 데이터와 독음 데이터를 포함하는 학습 데이터를 생성할 수 있다.

또한 본 발명의 일 실시예에 따른 서버(100)는 관리자의 확인이 필요한 판단 보류 독음 데이터를 관리자 단말(300)에 전송하고, 관리자 단말(300)로부터 판단 보류 독음 데이터에 대한 유효성 판단 결과를 수신할 수도 있다.

도 2는 본 발명의 일 실시예에 따른 서버(100)에 구비되는 음성 데이터 수집 장치(110)의 구성을 개략적으로 도시한 도면이다. 도 2를 참조하면, 본 발명의 일 실시예에 따른 음성 데이터 수집 장치(110)는 통신부(111), 제어부(112) 및 메모리(113)를 포함할 수 있다. 또한 도면에는 도시되지 않았으나, 본 실시예에 따른 음성 데이터 수집 장치(110)는 입/출력부, 프로그램 저장부 등을 더 포함할 수 있다.

통신부(111)는 음성 데이터 수집 장치(110)가 단말(200, 300)과 같은 다른 네트워크 장치와 유무선 연결을 통해 제어 신호 또는 데이터 신호와 같은 신호를 송수신하기 위해 필요한 하드웨어 및 소프트웨어를 포함하는 장치일 수 있다.

제어부(112)는 프로세서(Processor)와 같이 데이터를 처리할 수 있는 모든 종류의 장치를 포함할 수 있다. 여기서, '프로세서(Processor)'는, 예를 들어 프로그램 내에 포함된 코드 또는 명령으로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다. 이와 같이 하드웨어에 내장된 데이터 처리 장치의 일 예로써, 마이크로프로세서(Microprocessor), 중앙처리장치(Central Processing Unit: CPU), 프로세서 코어(Processor Core), 멀티프로세서(Multiprocessor), ASIC(Application-Specific Integrated Circuit), FPGA(Field Programmable Gate Array) 등의 처리 장치를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.

메모리(113)는 음성 데이터 수집 장치(110)가 처리하는 데이터를 일시적 또는 영구적으로 저장하는 기능을 수행한다. 메모리는 자기 저장 매체(Magnetic Storage Media) 또는 플래시 저장 매체(Flash Storage Media)를 포함할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다. 가령 메모리(113)는 생성된 학습 데이터를 일시적 및/또는 영구적으로 저장할 수 있다.

이하에서는 도 3 내지 도 4를 함께 참조하여 음성 데이터 수집 장치(110)를 포함하는 서버(100)에 의해 수행되는 음성 데이터 수집 방법을 중심으로 설명한다.

본 발명의 일 실시예에 따른 서버(100)는 제1 텍스트 데이터를 포함하는 제1 데이터를 사용자 단말(200)에 전송할 수 있다.(S310) 이때 제1 텍스트 데이터는 음성(또는 사용자의 독음)을 획득하고자 하는 텍스트 데이터일 수 있다. 가령 서버는 "안녕하세요"를 포함하는 제1 데이터를 사용자 단말(200)에 전송할 수 있다.

선택적 실시예에서, 단계 S310에서 전송되는 제1 데이터는 제1 텍스트 데이터를 음성으로 변환한 음성 데이터를 더 포함할 수 있다. 이때 음성 데이터는 다양한 방식으로 서버(100)에 의해 생성된 것 일 수 있다. 가령 서버(100)는 입력 텍스트를 입력 텍스트에 대응되는 음성 데이터로 변환하도록 학습된 제1 인공 신경망을 이용하여 제1 텍스트 데이터로부터 음성 데이터를 생성할 수 있다. 물론 서버(100)는 다른 사용자나 관리자가 제1 텍스트 데이터를 독음한 데이터에 기초하여 음성 데이터를 생성할 수도 있다.

선택적 실시예에서, 단계 S310에서 전송되는 제1 데이터는 사용자 단말(200)에서 제1 텍스트 데이터가 표시되는 크기를 제어하는 폰트 크기 제어 신호를 더 포함할 수도 있다. 가령 제1 데이터는 제1 텍스트 데이터가 30포인트 이상으로 표시되도록 제어하는 폰트 크기 제어 신호를 포함할 수 있다.

본 발명의 일 실시예에 따른 사용자 단말(200)은 단계 S310에서 서버(100)로부터 수신한 제1 데이터를 사용자에게 제공할 수 있다. 또한 사용자 단말(200)은 제1 텍스트 데이터의 독음 데이터를 생성할 수도 있다.(S320)

도 5를 참조하면, 화면(500)은 진행중인 작업의 식별정보가 표시되는 영역(510), 제1 텍스트 데이터에 대한 음성 데이터를 청취하기 위한 인터페이스(520), 제1 텍스트 데이터의 표시 영역(530), 음성 데이터 수집 현황 표시 영역(540), 독음 시작을 위한 인터페이스(550) 및 안내사항이 표시되는 영역(560)을 포함할 수 있다.

본 발명의 일 실시예에서, 사용자 단말(200)은 화면(500)의 영역(530)상에 제1 텍스트 데이터를 표시하여 사용자가 독음하도록 할 수 있다. 이때 사용자 단말(200)은 제1 데이터에 포함된 폰트 크기 제어 신호에 따라 제1 텍스트 데이터에 따라 표시되는 텍스트의 크기를 조절할 수 있다.

또한 본 발명의 일 실시예에서, 사용자 단말(200)은 인터페이스(520)에 대한 사용자의 입력을 획득하여, 사용자에게 음성 데이터를 제공할 수 있다. 가령 사용자는 녹음의 시작 이전에 인터페이스(520)에 대한 입력을 수행하여, 자신이 읽어야 하는 텍스트에 대한 예제 음성을 들어볼 수 있다. 이와 같은 과정에 따라 시력에 문제가 있거나, 문자를 읽지 못하는 사용자로부터도 독음 데이터를 획득할 수 있다.

사용자는 영역(530)에 표시되는 제1 텍스트 데이터 및/또는 인터페이스(520)에 대한 입력에 따라 제공되는 음성 데이터를 참조하여, 제1 텍스트에 대한 독음 데이터를 생성할 수 있다. 가령 사용자는 독음 시작을 위한 인터페이스(550)에 대한 입력을 수행하여 녹음을 시작하고, 텍스트를 읽음으로써 독음 데이터를 생성할 수 있다.

한편 사용자는 독음 데이터를 생성함에 있어서 안내사항이 표시되는 영역(560)상에 표시되는 안내사항을 참조하여 독음 데이터를 생성할 수도 있다.

본 발명의 일 실시예에 따른 사용자 단말(200)은 전술한 과정에 따라 생성된 독음 데이터를 포함하는 제2 데이터를 서버(100)로 전송할 수 있다. 바꾸어말하면, 본 발명의 일 실시예에 따른 서버(100)는 사용자 단말(200)로부터 제1 텍스트 데이터의 독음 데이터를 포함하는 제2 데이터를 수신할 수 있다.(S330)

선택적 실시예에서, 제2 데이터는 사용자 단말(200)을 사용하는 사용자에 대한 메타 데이터를 더 포함할 수 있다. 이때 메타 데이터는 사용자의 연령, 사용자의 성별, 사용자의 거주 지역, 사용자의 교육 정도와 같이 사용자의 특성을 나타낼 수 있는 다양한 항목이 포함할 수 있다.

본 발명의 일 실시예에 따른 서버(100)는 단계 S330에서 수신된 독음 데이터의 유효성을 검증할 수 있다.(S340) 가령 서버(100)는 독음 데이터로부터 생성된 제2 텍스트 데이터와 제1 텍스트 데이터를 비교하는 방식으로 독음 데이터의 유효성을 검증할 수 있다.

본 발명의 일 실시예에서, 서버(100)는 학습된 제2 인공 신경망을 이용하여 독음 데이터로부터 제2 텍스트 데이터를 생성할 수 있다. 이때 제2 인공 신경망은 입력 독음 데이터를 입력 독음 데이터에 대응되는 텍스트 데이터로 변환하도록 학습된 신경망일 수 있다.

또한 본 발명의 일 실시예에 따른 서버(100)는 제1 텍스트 데이터와 제2 텍스트 데이터의 유사도를 산출하고, 산출된 유사도가 소정의 임계 유사도 이상인 독음 데이터를 유효한 데이터로 판정할 수 있다.

가령 제1 텍스트 데이터가 도 5에 도시된 바와 같이 "나 고혈압 예방하게 운동 추천해줄래요?"이고, 제2 인공 신경망에 의해 생성된 제2 텍스트가 "라 고혈안 내방하게 운동 추천해줄라요?"인 경우를 가정해보자. 이러한 경우 서버(100)는 두 텍스트 데이터 간의 유사도를 47%로 산출하고, 산출된 유사도가 임계 유사도(임계유사도를 80%라고 가정한다) 미만이므로, 독음 데이터를 유효하지 않은 데이터로 판정할 수 있다.

본 발명의 일 실시예에서, 서버(100)는 다양한 방식으로 두 텍스트 데이터 간의 유사도를 산출할 수 있다. 가령 서버(100)는 각각의 텍스트에 대한 특징 벡터를 생성하고, 생성된 벡터간의 거리에 기초하여 유사도를 산출할 수 있다. 다만 이와 같은 방법은 예시적인것으로 본 발명의 사상이 이에 한정되는 것은 아니다.

본 발명의 일 실시예에 따른 서버(100)는 단계 S340에서 독음 데이터가 유효하지 않은 것으로 판단된 경우, 해당 독음 데이터를 판단 보류 독음 데이터로 결정할 수 있다.(S370) 서버(100)가 판단 보류 독음 데이터를 처리하는 구체적인 방법은 단계 S390 및 S400을 참조하여 후술한다.

본 발명의 일 실시예에 따른 서버(100)는 단계 S340에서 독음 데이터가 유효한 것으로 판단된 경우, 독음 데이터와 제1 텍스트 데이터를 대응시켜 학습 데이터로 저장할 수 있다.(S350)

선택적 실시예에서, 서버(100)는 독음 데이터 및 제1 텍스트 데이터 외에, 사용자 단말(200)의 사용자의 메타 데이터를 함께 대응시켜 학습 데이터로 저장할 수도 있다. 이때 메타 데이터는 전술한 단계 S330에서 수신되는 제2 데이터에 포함된 데이터 일 수 있다.

본 발명의 일 실시예에 따른 서버(100)는 단계 S350에서 생성된 학습 데이터를 고려하여, 갱신된 음성 데이터 수집 현황 갱신하고(S360), 갱신된 음성 데이터 수집 현황을 사용자 단말(200)에 전송할 수 있다.(S380)

본 발명의 일 실시예에 따른 서버(100)는 학습 데이터에 포함되는 독음 데이터의 시간 길이를 확인할 수 있다. 가령 서버(100)는 "안녕하세요"에 대한 독음 데이터의 시간 길이를 1초로 확인할 수 있다.

본 발명의 일 실시예에 따른 서버(100)는 기 획득된 독음 데이터의 시간 길이에 누적하여 누적 시간 길이를 산출할 수 있다. 가령 사용자 단말(200)의 사용자가 과거에 수행했던 독음 데이터의 총 시간 길이가 3시간 20분 50초인 경우, 서버(100)는 이와 같은 총 시간 길이에 1초를 누적하여 3시간 20분 51초를 누적 시간 길이로 산출할 수 있다.

본 발명의 일 실시예에서, 서버(100)는 사용자 별로 누적 시간 길이를 누적하여 관리할 수 있다.

선택적 실시예에서, 서버(100)는 시간 길이가 아닌 독음 건수로 음성 데이터 수집 현황을 관리할 수도 있다. 이러한 경우 서버(100)는 '300건 중 230건 진행'과 같이 음성 데이터 수집 현황을 관리할 수 있다.

사용자 단말(200)에 전송된 음성 데이터 수집 현황은 사용자에게 제공될 수 있다. 가령 사용자 단말(200)은 도 5의 음성 데이터 수집 현황 표시 영역(540)에 음성 데이터 수집 현황을 표시하여 사용자에게 제공할 수 있다.

본 발명의 일 실시예에 따른 서버(100)는 단계 S370에서 결정된 판단 보류 독음 데이터를 관리자 단말(300)에 전송할 수 있다.(S390)

관리자 단말(300)은 서버(100)로부터 수신된 판단 보류 독음 데이터를 관리자에게 제공하고, 관리자의 유효성 판단 결과에 대응되는 입력을 획득하여 다시 서버로 전송할 수 있다. 이에 따라 서버(100)는 관리자 단말(300)로부터 판단 보류 독음 데이터에 대한 유효성 판단 결과를 수신할 수 있다.(S400)

도 6을 참조하면, 화면(600)은 관리자의 식별 정보가 표시되는 영역(610), 판단 보류 독음 데이터 리스트가 표시되는 영역(620)을 포함할 수 있다.

한편 리스트가 표시되는 영역(620)에 표시되는 리스트는 사용자의 독음 데이터로부터 생성된 제2 텍스트 데이터 항목(621), 독음 데이터 항목(622), 유사도 항목(623) 및 판정 항목(624)을 포함할 수 있다.

관리자는 가령 제2 텍스트 데이터 항목(621)을 읽어보고, 독음 데이터 항목(622)을 청취해봄으로써 해당 판단 보류 독음 데이터에 대 유효성 판단을 수행할 수 있다. 또한 관리자는 첫 번째 판단 보류 독음 데이터에 대한 판정 항목(624)에서 '사용'에 대한 입력을 수행함으로써 해당 데이터가 유효한 것으로 판정할 수도 있고, '재녹음'에 대한 입력을 수행함으로써 해당 데이터가 유효하지 않으며 재녹음이 필요한 것으로 판정할 수도 있다.

이와 같이 본 발명은 음성 데이터의 수집에 있어서 인간의 개입을 최소화하면서도, 높은 품질을 유지할 수 있도록 한다.

본 발명의 일 실시예에 따른 서버(100)는 단계 S400에서 수신된 판단 결과에 기초하여, 해당 판단 보류 독음 데이터가 유효성을 판단할 수 있다.(S410)

가령 단계 S400에서 판단 보류 독음 데이터가 유효하다는 관리자의 판단을 관리자 단말(300)로부터 수신한 경우, 서버(100)는 해당 판단 보류 데이터를 유효한 것으로 판단할 수 있다. 물론 판단 보류 독음 데이터가 유효하지 않고 재녹음이 필요하다는 관리자의 판단을 수신한 경우, 서버(100)는 해당 판단 보류 데이터를 유효하지 않은 것으로 판단할 수 있다.

본 발명의 일 실시예에 따른 서버(100)는 단계 S410에서 유효하지 않은 것으로 판단된 판단 보류 독음 데이터에 대응되는 제1 텍스트 데이터를 포함하는 제1 데이터를 다시 사용자 단말(200)에 전송하고(S420), 사용자 단말(200)로부터 제1 텍스트 데이터에 대한 재독음 데이터를 수신할 수 있다.(S430)

사용자 단말(200)에 텍스트 데이터를 전송하고, 사용자 단말(200)로부터 독음 데이터를 수신하는 내용에 대한 설명은 단계 S310 내지 S330에 대한 설명으로 갈음한다.

선택적 실시예에서, 서버(100)는 단계 S420에서 사용자 단말(200)에 전송되는 제1 데이터에 제1 텍스트 데이터가 재독음 텍스트라는 안내 메시지를 포함시킬 수 있다. 이러한 경우 사용자 단말(200)은 사용자에게 재독음 텍스트 안내 메시지를 제공할 수 있다.

본 발명의 일 실시예에 따른 서버(100)는 단계 S430에서 수신한 재독음 데이터 또는 단계 S410에서 유효한 것으로 판단된 독음 데이터와 제1 텍스트 데이터를 대응시켜 학습 데이터로 저장할 수 있다.(S440)

가령 서버(100)는 단계 S410에서 유효한 것으로 판단된 독음 데이터와 그에 대한 제1 텍스트 데이터를 대응시켜 학습 데이터로 저장할 수도 있다. 또한 서버(100)는 단계 S430에서 수산한 재독음 데이터 및 그에 대한 제1 텍스트 데이터를 대응시켜 학습 데이터로 저장할 수도 있다.

이어서 본 발명의 일 실시예에 따른 서버(100)는 음성 데이터 수집 현황을 갱신하고(S450), 갱신된 음성 데이터 수집 현황을 사용자 단말(200)에 전송할 수 있다.(S460) 이에 대한 상세한 설명은 단계 S360 및 S380에 대한 설명으로 갈음한다.

본 발명의 일 실시예에 따른 서버(100)는 상술한 과정에 의해 생성된 학습 데이터를 이용하여, 고령자를 위한 휴먼케어 로봇의 음성 처리를 위한 인공 신경망을 학습시킬 수 있다.

본 발명의 일 실시예에서 서버(100)는 입력 텍스트 데이터를 입력 텍스트 데이터에 대응되는 음성 데이터로 변환하는 제1 인공 신경망을 학습시킬 수 있다. 또한 서버(100)는 입력 독음 데이터를 입력 독음 데이터에 대응되는 텍스트 데이터로 변환하는 제2 인공 신경망을 학습시킬 수도 있다.

이때 제1 인공 신경망은 단계 S310에서 제1 텍스트 데이터와 함께 전송되는 음성 데이터를 생성하는 신경망과 동일한 신경망일 수도 있고, 구분되는 신경망일 수도 있다.

또한 제2 인공 신경망은 단계 S340에서 제1 텍스트 데이터의 유효성을 판단하는데 사용되는 제2 텍스트 데이터를 생성하는 신경망과 동일한 신경망일 수도 있고, 구분되는 신경망일 수도 있다.

이상 설명된 본 발명에 따른 실시예는 컴퓨터 상에서 다양한 구성요소를 통하여 실행될 수 있는 컴퓨터 프로그램의 형태로 구현될 수 있으며, 이와 같은 컴퓨터 프로그램은 컴퓨터로 판독 가능한 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 저장하는 것일 수 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다.

한편, 상기 컴퓨터 프로그램은 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 프로그램의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함될 수 있다.

본 발명에서 설명하는 특정 실행들은 일 실시 예들로서, 어떠한 방법으로도 본 발명의 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다. 또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다. 또한, "필수적인", "중요하게" 등과 같이 구체적인 언급이 없다면 본 발명의 적용을 위하여 반드시 필요한 구성 요소가 아닐 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.

Claims

고령자를 위한 휴먼케어 로봇의 음성 처리를 위한 인공 신경망의 학습에 사용되는 음성 데이터를 수집하는 방법에 있어서

획득하고자 하는 음성에 대응되는 제1 텍스트 데이터를 포함하는 제1 데이터를 사용자 단말에 전송하는 단계;

상기 사용자 단말로부터 상기 제1 텍스트 데이터의 독음 데이터를 포함하는 제2 데이터를 수신하는 단계;

상기 독음 데이터로부터 생성된 제2 텍스트 데이터 및 상기 제1 텍스트 데이터를 비교하여 상기 독음 데이터의 유효성을 검증하는 단계; 및

유효한 것으로 판단된 상기 독음 데이터와 상기 제1 텍스트 데이터를 대응시켜 학습 데이터로 저장하는 단계;를 포함하는, 음성 데이터 수집 방법.
청구항 1에 있어서

상기 제1 데이터는

학습된 제1 인공 신경망을 이용하여 상기 제1 텍스트 데이터를 음성으로 변환한 음성 데이터를 더 포함하고,

상기 사용자 단말은

상기 제1 텍스트 데이터 및 상기 음성 데이터 중 적어도 하나를 사용자에게 제공하고,

상기 제1 인공 신경망은

입력 텍스트 데이터를 상기 입력 텍스트 데이터에 대응되는 음성 데이터로 변환하도록 학습된 신경망인, 음성 데이터 수집 방법.
청구항 1에 있어서

상기 제2 데이터는

상기 사용자 단말을 사용하는 사용자에 대한 메타 데이터를 더 포함하고,

상기 대응시켜 저장하는 단계는

상기 유효한 것으로 판단된 상기 독음 데이터, 상기 제1 텍스트 데이터 및 상기 메타 데이터를 대응시켜 저장하는, 음성 데이터 수집 방법.
청구항 1에 있어서

상기 음성 데이터 수집 방법은

상기 학습 데이터로 저장하는 단계 이후에,

갱신된 음성 데이터 수집 현황을 상기 사용자 단말에 전송하는 단계;를 더 포함하는, 음성 데이터 수집 방법.
청구항 4에 있어서

상기 갱신된 음성 데이터 수집 현황을 상기 사용자 단말에 전송하는 단계는

상기 독음 데이터의 시간 길이를 확인하는 단계;

상기 확인된 시간 길이를 기 획득된 독음 데이터의 시간 길이에 누적하여 누적 시간 길이를 산출하는 단계; 및

상기 누적 시간 길이 및 목표 시간 길이를 포함하는 상기 음성 데이터 수집 현황을 생성하는 단계;를 포함하는, 음성 데이터 수집 방법.
청구항 1에 있어서

상기 유효성을 검증하는 단계는

학습된 제2 인공 신경망을 이용하여 상기 독음 데이터로부터 상기 제2 텍스트 데이터를 생성하는 단계;

상기 제1 텍스트 데이터와 상기 제2 텍스트 데이터의 유사도를 산출하는 단계; 및

상기 유사도가 소정의 임계 유사도 이상인 독음 데이터를 유효한 데이터로 판정하는 단계;를 포함하고,

상기 제2 인공 신경망은

입력 독음 데이터를 상기 입력 독음 데이터에 대응되는 텍스트 데이터로 변환하도록 학습된 신경망인, 음성 데이터 수집 방법.
청구항 6에 있어서

상기 판정하는 단계는

상기 유사도가 상기 소정의 임계 유사도 미만인 독음 데이터를 판단 보류 독음 데이터로 결정하는 단계;를 포함하고,

상기 음성 데이터 수집 방법은

상기 학습 데이터로 저장하는 단계 이후에,

상기 판단 보류 독음 데이터를 상기 판단 보류 독음 데이터에 대응되는 제1 텍스트 데이터와 함께 관리자 단말에 전송하고, 상기 관리자 단말로부터 유효성 판단 결과를 수신하는 단계;를 더 포함하는, 음성 데이터 수집 방법.
청구항 7에 있어서

상기 음성 데이터 수집 방법은

상기 유효성 판단 결과를 수신하는 단계 이후에,

상기 유효성 판단 결과 유효하지 않은 것으로 판단되는 독음 데이터에 대응되는 제1 텍스트 데이터를 상기 사용자 단말에 전송하여 상기 제1 텍스트 데이터에 대한 재독음 데이터를 수신하는 단계;를 더 포함하는, 음성 데이터 수집 방법.
청구항 1에 있어서

상기 제1 데이터를 사용자 단말에 전송하는 단계는

상기 사용자 단말에서 상기 제1 텍스트가 표시되는 크기를 제어하는 폰트 크기 제어 신호를 포함하는, 음성 데이터 수집 방법.
청구항 1에 있어서

상기 음성 데이터 수집 방법은

상기 학습 데이터로 저장하는 단계 이후에,

상기 학습 데이터를 이용하여

입력 텍스트 데이터를 상기 입력 텍스트 데이터에 대응되는 음성 데이터로 변환하는 제1 인공 신경망을 학습시키는 단계; 및

입력 독음 데이터를 상기 입력 독음 데이터에 대응되는 텍스트 데이터로 변환하는 제2 인공 신경망을 학습시키는 단계;를 더 포함하는, 음성 데이터 수집 방법.