KR20220018462A

KR20220018462A - 사용자의 목소리를 분석하여 이벤트를 생성하는 방법 및 그 시스템

Info

Publication number: KR20220018462A
Application number: KR1020210141583A
Authority: KR
Inventors: 이동경; 남창환
Original assignee: 주식회사 엠제이티
Priority date: 2021-04-16
Filing date: 2021-10-22
Publication date: 2022-02-15
Also published as: KR20220018461A; KR102318642B1; KR20220018463A; KR20220018464A

Abstract

본 발명은 인공지능에 기반하는 음성 분석 기술에 관한 것이다.
또한 본 발명의 일 실시예는 사용자의 목소리를 분석하여 이벤트를 생성하는 방법 및 그 시스템에 관한 것이다.

Description

사용자의 목소리를 분석하여 이벤트를 생성하는 방법 및 그 시스템 {Method and system for generating event by analyzing user's voice}

본 발명은 인공지능에 기반하는 음성 분석 기술에 관한 것이다.

또한 본 발명의 일 실시예는 사용자의 목소리를 분석하여 이벤트를 생성하는 방법 및 그 시스템에 관한 것이다.

또한 본 발명의 일 실시예는 음성 인식 매칭 알고리즘 기반의 서비스에 관한 것이다.

또한 본 발명의 일 실시예는 소정의 미션(또는 이벤트)을 수행하는 사용자에게 핸드폰 요금과 관련되는 보상을 제공하는 기술에 관한 것이다.

인공지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 Rule 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 Rule 기반 스마트 시스템은 점차 딥러닝 기반 인공지능 시스템으로 대체되고 있다. 인공지능 기술은 기계학습(딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다.

기계학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.

한편 대화형 음성 인터페이스의 활용 범위는 점차 넓어지고 있다. 생활형 기기, 전문가용 기기 뿐만 아니라 사용자와의 상호작용을 위한 인터페이스로서 기존의 인터페이스를 대체 또는 보완하고 있다.

자연어 처리를 위한 인공 지능과 대화형 음성 인터페이스가 결합된 서비스는 사용자와의 일상 대화를 통해 명령을 인식하고, 사용자가 원하는 동작을 수행할 수 있다. 소위 '인공지능 음성비서'로 불리는 대화형 음성 인터페이스 기반 서비스는 사용자에게 지식 검색, 뉴스 안내, 음악 재생, 음악 추천, 통번역, 주문, 예약, 가전 제품의 제어 등의 다양한 기능들을 제공하고 있고, 대화형 음성 인터페이스를 활용한 인공지능 플랫폼의 개발도 활발하게 이루어지고 있다. 이에, 대화형 음성 인터페이스를 응용한 기법 또는 서비스의 연구가 요구된다.

한편, 모바일 단말에서의 광고는 사용자의 외면을 받기 쉬우며, 광고를 보는데 대해 보상받는 방법은 사용자의 동기를 자극하기는 하나 광고 효과면에서는 보상에 대한 관심으로 보상 정도에 따라 관심을 보일 뿐, 광고 자체에 대한 관심도의 향상을 이루기가 힘들어 충분한 광고 효과를 거두기가 어렵다.

통신기술이 발달함에 따라 모바일 단말에는 여러 가지 종류의 콘텐츠가 제공되고 있다. 이러한 콘텐츠 중 광고는 광고 서버가 광고주가 의뢰한 광고를 모바일 단말의 어플리케이션 실행시 모바일 단말 화면에 일방적으로 출력하고, 출력된 광고가 클릭 선택되어 노출됨에 따라 광고주에게 광고의 노출정보가 전송되는 방식으로 이루어지고 있다.

이 모바일 단말을 이용한 광고기술은, 모바일 단말 사용자의 연령, 성별 등을 전혀 고려하지 않고 광고 서버가 광고주가 의뢰한 광고를 일방적으로 모바일 단말에 푸쉬(push)하기 때문에, 모바일 단말 사용자에게 맞춤 광고를 제공할 수 없다는 문제점을 가진다.

또한, 이 모바일 단말을 이용한 광고기술은, 모바일 단말에 출력된 광고가 클릭 선택됨으로써 광고가 노출된 경우 광고주에게 광고의 노출정보가 전송되기 때문에 광고주가 광고의 노출을 확인할 수 있으나, 광고를 클릭한 모바일 단말 사용자 정보를 확인할 수 없다는 문제점을 가진다.

또한, 이 모바일 단말을 이용한 광고기술은, 모바일 단말이 광고를 광고 서버로부터 실시간으로 수신하기 때문에, 모바일 단말과 광고 서버를 연결하는 네트워크의 연결 상태가 정상적인 경우 광고가 정상적으로 모바일 단말에 전송될 수 있지만, 비정상적인 경우 광고가 모바일 단말에 정상적으로 전송될 수 없다는 문제점을 가진다.

본 발명은 이런 단점을 보완한, 핸드폰에서 사용자가 소정의 미션을 수행하고 보상을 받는 방법에 관한 것이다.

등록특허공보 제10-2222462호 (2021.02.24) 국내특허공보 제10-2001-0083438호 (2001.09.01)

본 발명의 일 실시예는 인공지능 기반의 음성 분석을 수행하고, 음성 분석 결과를 토대로 소정의 온라인 서비스를 제공하는 온라인 플랫폼을 제공하는데 그 목적이 있다.

또한 본 발명의 일 실시예는 음성 인식 매칭 알고리즘 기반의 서비스를 제공하는데 그 목적이 있다.

또한 본 발명의 일 실시예는 소정의 미션(또는 이벤트)을 수행하는 사용자에게 핸드폰 요금과 관련되는 보상을 제공하는데 그 목적이 있다.

본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 발명의 일 실시예는 음성 분석 결과를 이용하는 온라인 플랫폼을 운용하는 서버에 있어서, 상기 온라인 플랫폼을 운용하는 프로세서(processor); 및 송수신기(transceiver); 를 포함하고, 상기 프로세서는, 보이스 정보를 사용자 단말로부터 수신하고, 상기 보이스 정보를 전처리(pre-processing)함으로써 복수의 슬라이스(slice)들을 추출하고, 상기 복수의 슬라이스 각각에 대하여 복수의 성분 정보(feature information)들을 추출하고, 상기 복수의 성분 정보가 소정의 기준을 만족시키는지 여부에 기반하여 이벤트 정보를 생성하고, 상기 이벤트 정보를 상기 사용자 단말에게 전송하도록 상기 송수신기를 제어하는 서버를 제안한다.

상기 프로세서는, 상기 보이스 정보를 상기 복수의 슬라이스(slice)들로 분할하고, 상기 보이스 정보를 인식함으로써, 상기 인식된 보이스 정보에 상응하는 텍스트 데이터를 생성하는 것을 특징으로 할 수 있다.

상기 프로세서는, 상기 인식된 보이스 정보에 상응하는 텍스트 데이터에 뉴럴 네트워크 모델(Neural Network Model)을 적용함으로써, 적어도 하나의 연관 키워드(associated keyword)를 생성하고, 상기 적어도 하나의 연관 키워드를 인터리빙하여 인터리빙된 프레임(interleaved frame)을 생성하는 것을 특징으로 할 수 있다.

상기 인터리빙된 프레임(interleaved frame)은 헤더(header) 및 적어도 하나의 서브-프레임(sub-frame)들을 포함하고, 상기 헤더(header)는 상기 복수의 슬라이스들의 개수를 나타내는 정보 및 상기 적어도 하나의 서브-프레임들의 개수를 나타내는 정보를 포함할 수 있다.

상기 프로세서는, 상기 보이스 정보, 상기 텍스트 데이터, 상기 적어도 하나의 연관 키워드 중 적어도 어느 하나에 기반하여, 상기 보이스 정보의 장르(genre)를 나타내는 정보, 상기 보이스 정보와 관련된 역사 자료를 나타내는 정보, 상기 보이스 정보와 관련된 심리 자료를 나타내는 정보, 상기 보이스 정보와 관련된 사건을 나타내는 정보, 상기 보이스 정보와 유사한 보이스 정보 중 적어도 어느 하나를 생성하는 것을 특징으로 할 수 있다.

본 발명의 일 실시예는 음성 분석 결과를 이용하는 온라인 플랫폼을 운용하는 서버의 동작 방법에 있어서, 상기 서버가, 보이스 정보를 사용자 단말로부터 수신하는 단계; 상기 서버가, 상기 보이스 정보를 전처리(pre-processing)함으로써 복수의 슬라이스(slice)들을 추출하는 단계; 상기 서버가, 상기 복수의 슬라이스 각각에 대하여 복수의 성분 정보(feature information)들을 추출하는 단계; 상기 서버가, 상기 복수의 성분 정보가 소정의 기준을 만족시키는지 여부에 기반하여 이벤트 정보를 생성하는 단계; 및 상기 서버가, 상기 이벤트 정보를 상기 사용자 단말에게 전송하도록 상기 송수신기를 제어하는 단계; 를 포함하는 동작 방법을 제안한다.

본 발명의 일 실시예는 상기 동작 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체를 제안한다.

본 발명의 일 실시예는 상기 동작 방법을 실행시키기 위해 컴퓨터 판독 가능한 기록 매체에 기록된 프로그램을 제안한다.

본 발명의 일 실시예에 따른 음성 인식 자동화 매칭을 통하여 고유 음성과 가장 근접하고 유사한 매칭율 기술 구현을 통하여 서비스에 기술을 접목하고, 다양한 적립형태의 서비스를 운영할 수 있다.

본 발명의 일 실시예에 따른 인공지능을 이용한 음성 인식 방법은 인터리빙된 프레임(interleaved frame)의 구성과 인공신경망 구조로 인해, 적은 양의 키워드를 추출하고도 사용자의 음성을 종합적으로 분석할 수 있다.

본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 발명의 특정한 바람직한 실시예들의 상기에서 설명한 바와 같은 또한 다른 측면들과, 특징들 및 이득들은 첨부 도면들과 함께 처리되는 하기의 설명으로부터 보다 명백하게 될 것이다.
도 1은 본 발명의 일 실시예에 따른 음성 분석 결과를 이용하는 온라인 플랫폼을 운용하는 시스템을 나타내는 개념도이다.
도 2는 본 발명의 일 실시예에 따른 음성 분석 방법을 나타내는 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 음성 분석 결과를 이용하여 소정의 이벤트 정보를 제공하는 방법을 나타내는 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 음성 분석 결과를 이용하는 온라인 플랫폼을 운용하는 서버를 나타내는 블록도이다.
도 5는 본 발명의 일 실시예에 따른 전처리부를 나타내는 블록도이다.
도 6은 본 발명의 일 실시예에 따른 보이스 정보를 복수의 슬라이스(slice)들로 분할한 것의 예시를 나타내는 도면이다.
도 7은 본 발명의 일 실시예에 따른 슬라이스로부터 복수의 키워드를 추출하는 과정을 나타내는 도면이다.
도 8은 본 발명의 일 실시예에 따른 보이스 정보와 연관된 필요 정보를 생성하기 위한 뉴럴 네트워크 모델(Neural Network Model)을 나타내는 도면이다.
도 9는 본 발명의 일 실시예에 따라 보이스 정보를 보완하기 위한 제안 정보를 생성하는 과정을 나타내는 도면이다.
도 10은 본 발명의 일 실시예에 따른 시스템을 나타내는 블록도이다.
상기 도면들을 통해, 유사 참조 번호들은 동일한 혹은 유사한 엘리먼트들과, 특징들 및 구조들을 도시하기 위해 사용된다는 것에 유의해야만 한다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

실시예를 설명함에 있어서 본 발명이 속하는 기술 분야에 익히 알려져 있고 본 발명과 직접적으로 관련이 없는 기술 내용에 대해서는 설명을 생략한다. 이는 불필요한 설명을 생략함으로써 본 발명의 요지를 흐리지 않고 더욱 명확히 전달하기 위함이다.

마찬가지 이유로 첨부 도면에 있어서 일부 구성요소는 과장되거나 생략되거나 개략적으로 도시되었다. 또한, 각 구성요소의 크기는 실제 크기를 전적으로 반영하는 것이 아니다. 각 도면에서 동일한 또는 대응하는 구성요소에는 동일한 참조 번호를 부여하였다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

이때, 처리 흐름도 도면들의 각 블록과 흐름도 도면들의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수 있음을 이해할 수 있을 것이다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 흐름도 블록(들)에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 흐름도 블록(들)에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 흐름도 블록(들)에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.

또한, 각 블록은 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실행 예들에서는 블록들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.

이 때, 본 실시 예에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA(field-Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)과 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.

본 발명의 실시예들을 구체적으로 설명함에 있어서, 특정 시스템의 예를 주된 대상으로 할 것이지만, 본 명세서에서 청구하고자 하는 주요한 요지는 유사한 기술적 배경을 가지는 여타의 통신 시스템 및 서비스에도 본 명세서에 개시된 범위를 크게 벗어나지 아니하는 범위에서 적용 가능하며, 이는 당해 기술분야에서 숙련된 기술적 지식을 가진 자의 판단으로 가능할 것이다.

본 발명의 일 실시예에 따른 단말 및/또는 서버는 IoT 기술 및/또는 ICT 기술에 기반하여 획득되거나 생성될 수 있는 정보를 출력(output)할 수 있다. 여기서 IoT는 사물인터넷(Internet of Things)을 나타낼 수 있다. IoT(사물인터넷)는 세상의 모든 사물들이 네트워크로 '연결'되어 서로 소통하는 차세대 기술을 의미할 수 있다. 4차 산업혁명은 사물인터넷으로 빅데이터를 얻고, 그것을 클라우드에 저장해, 인공지능으로 분석하고 활용하는 것이다. 사물인터넷은 지능화되어 스마트 자동차, 스마트 홈, 스마트 시티 등 스마트 세계를 만들어 낼 수 있다.

예를 들면, 완전 자율 자동차나 스마트 홈, 스마트 빌딩, 헬스 케어 서비스 등 모든 분야에 인터넷이 연결되는 세상이 되어, 마치 인터넷이 공기와 같이 되는데 굳이 인터넷이 따로 있을 필요가 없을 수 있다. 사물인터넷이 가능하기 위해서는 인터넷만 있어서는 안 된다. 센서와 네트워크 기술, 빅데이터, 클라우드 컴퓨팅, 인공지능, 3D 프린팅 등의 다양한 기반 기술이 함께 어우러져야 한다. 특히 4차 산업혁명은 사물인터넷으로 빅데이터를 얻고, 그것을 클라우드(cloud)에 저장해, 인공지능으로 분석하고 활용하는 흐름을 보여준다.

또한 ICT는 정보통신기술(Information and Communication Technology)을 나타낼 수 있다. ICT(Information & Communication Technology)는 정보 기술(Information Technology, IT)과 통신 기술(Communication Technology, CT)의 합성어로 정보기기의 하드웨어 및 이들 기기의 운영 및 정보 관리에 필요한 소프트웨어 기술과 이들 기술을 이용하여 정보를 수집, 생산, 가공, 보존, 전달, 활용하는 모든 방법을 의미한다. ICT 패러다임의 변화는 콘텐츠(C)-플랫폼(P)-네트워크(N)-디바이스(D) 가치사슬 상의 각 부문간 상호의존 심화 관점에서 이해할 수 있다.

일반적으로 C-PN-T(터미널) 가치사슬이 방송플랫폼을 설명하는데 많이 활용되었으나, 스마트폰, 태블릿 등 사실상 컴퓨터에 해당되는 기기를 감안하면 C-P-N-D라는 표현이 ICT를 설명하는데 좀 더 유용할 수 있다. 콘텐츠(C) 부문을 살펴보면, 인터넷상에서는 더 이상 사진, 서적, 음악, 동영상 등의 구분이 무의미하다는 점을 상기할 필요가 있다. 이들 모든 종류의 콘텐츠는 디지털화되면서 플랫폼 제공자에 의해서 이용자에 제공되며 콘텐츠 보유자는 구글, 애플, 아마존과 같은 플랫폼 제공자와 제휴하거나 직접 플랫폼을 구성하여 콘텐츠를 제공한다. 플랫폼 부문은 C-P-N-D 가치사슬에서 중요한 역할을 담당할 수 있다.

인터넷 상에서 콘텐츠는 소프트웨어에 의해 축적, 처리, 저장, 제공될 수 있다. 이는 소프트웨어 기술력을 보유한 ICT 기업이 주도권을 잡게 됨을 의미하는데, 특히 소프트웨어 기술력과 클라우드 인프라를 보유한 클라우드 서비스 제공자가 대표적인 플랫폼 제공자로 부상하고 있다. 그 과정에서 전통적인 네트워크 전송 서비스 제공자의 위상은 상대적으로 약화될 가능성이 있다. 반면 원천 콘텐츠를 보유한 기업은 플랫폼 제공자와 대등한 관계의 설정도 가능할 것이다. 디지털 융합시대의 네트워크는 IP망, 즉 인터넷이다. 서킷방식 전화망과 같은 전통적인 네트워크는 네트워크 보유자가 자체적으로 이용자 식별 등의 지능적 서비스를 제공하지만 인터넷의 경우에는 아카마이와 같은 다양한 서비스 제공기업들이 서버 클러스터를 통하여 효율적 트래픽 전송, 보안 등 네트워크의 다양한 기능을 경쟁 시장에서 제공한다.

이러한 지능형 네트워크 서비스 제공기업도 일종의 플랫폼 제공기업이라는 의미에서 사실상 플랫폼과 네트워크의 구분은 어렵다. 또한 통신망을 보유한 사업자들이 직접 플랫폼 서비스를 제공한다는 점도 중요하다. 디바이스 부문은 언제나 인터넷과 연결되고, iOS와 같은 범용 운영체제를 갖춘 디바이스 내부의 소프트웨어 프로그램이 플랫폼과 연결되어 서비스를 완결한다. 애플은 플랫폼 제공자가 동시에 디바이스 제공자인 대표적인 예라 할 수 있으며, 구글과 안드로이드폰의 제조사간의 제휴관계를 감안하면 과거보다 플랫폼 부문과 디바이스 부문의 관계가 보다 밀접한, 상호의존적인 관계임을 알 수 있다. 콘텐츠 부문과 플랫폼 부문의 제휴, 디바이스 부문의 플랫폼과의 연계, 플랫폼 부문과 네트워크 부문의 경계 모호 등은 모두 C-P-N-D 각 부문의 상호의존성 심화를 의미할 수 있다.

도 1은 본 발명의 일 실시예에 따른 음성 분석 결과를 이용하는 온라인 플랫폼을 운용하는 시스템을 나타내는 개념도이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 음성 분석 결과를 이용하는 온라인 플랫폼을 운용하는 시스템(10)은 서버(110)와 제1 단말(120)을 포함할 수 있으며, 서버(110)는 '중앙 서버', '메인 서버', '관리 서버' 등으로 호칭될 수 있다. 또한 단말(120)은 '제1 단말', '제1 사용자 단말', '고객 단말' 등으로 호칭될 수 있다.

이때 음성 분석 결과를 이용하는 온라인 플랫폼은, 상기 온라인 플랫폼과 연결되는 단말(120)에 상응하는 요금 및/또는 요금제와 관련되는 것으로써, 단말(120)의 사용자가 소정의 미션(및/또는 절차)을 수행하는 경우 핸드폰 요금(즉, 단말(120)에 상응하는 이용 요금)과 관련되는 보상(및/또는 리워드, 포인트)을 제공하는 기능을 포함할 수 있다. 상기 온라인 플랫폼은 상기 서버(110) 및/또는 후술하는 외부 서버(140)에 의해 제어(및/또는 운용)되는 모바일앱 및/또는 웹사이트이거나 또는 이를 통하여 구현되는 것일 수 있다.

한편 본 발명에서 음성 분석 방법은 음성 분석 결과를 이용하는 온라인 플랫폼에 적용되는 것일 수 있다.

또한 도 1을 참조하면, 본 발명의 일 실시예에 따른 음성 분석 결과를 이용하는 온라인 플랫폼을 운용하는 시스템(10)은, 선택적으로, 제2 단말(130) 및/또는 외부 서버(140)를 더 포함할 수도 있다. 제2 단말(130)은 '제2 사용자 단말', '다른 사용자의 단말', '다른 고객의 단말', '광고주 단말', 등으로 호칭될 수 있으며, 외부 서버(140)는 '인터넷 서버', '온라인 서버', '클라우드 서버', 'SNS 서버', '데이터베이스' 등에 상응할 수 있다.

단말(120, 130)는 예를 들어, 통신 가능한 데스크탑 컴퓨터(desktop computer), 랩탑 컴퓨터(laptop computer), 노트북(notebook), 스마트폰(smart phone), 태블릿 PC(tablet PC), 모바일폰(mobile phone), 스마트 워치(smart watch), 스마트 글래스(smart glass), e-book 리더기, PMP(portable multimedia player), 휴대용 게임기, 네비게이션(navigation) 장치, 디지털 카메라(digital camera), DMB(digital multimedia broadcasting) 재생기, 디지털 음성 녹음기(digital audio recorder), 디지털 음성 재생기(digital audio player), 디지털 동영상 녹화기(digital video recorder), 디지털 동영상 재생기(digital video player), PDA(Personal Digital Assistant) 등일 수 있다.

본 발명의 사용자(또는 고객)는 제1 단말(120)의 입력 모듈(1230)을 통하여 사용자의 신규 보이스 정보(150)를 입력할 수 있으며, 상기 제1 단말(120)은 상기 신규 보이스 정보(150)를 서버(110)에게 업로드(및/또는 전송)하거나 상기 서버(110)를 통하여 외부 서버(140)에 업로드(전송)할 수 있다.

서버(110)는 신규 보이스 정보(150)를 단말(120)로부터 수신하고, 수신한 신규 보이스 정보(150)를 전처리(pre-processing)하거나, 신규 보이스 정보(150) 내의 텍스트 데이터 등으로부터 키워드(keyword)를 추출함으로써, 복수의 음성 성분 정보를 추출(및/또는 생성)할 수 있다. 이때 서버(110)는 복수의 음성 성분 정보를 추출(및/또는 생성)하는데 있어서 뉴럴 네트워크 모델(Neural Network Model)을 이용할 수도 있으며, 외부 서버(140)에게 보이스 정보를 전달하여 상기 외부 서버(140)에 의해 추출(및/또는 생성)되는 복수의 음성 성분 정보를 다운로드(및/또는 수신)할 수도 있다.

도 2는 본 발명의 일 실시예에 따른 음성 분석 방법을 나타내는 흐름도이다.

이하 설명되는 단계들 이전에, 사용자가 본 발명의 온라인 플랫폼에 접속(및/또는 실행)하기 위한 절차들이 구현될 수 있으며, 고객 인증(및/또는 사용자 본인 확인)을 위한 절차 등이 더 구현될 수도 있다. 또한 소정의 이벤트(및/또는 미션)를 위한 페이지가 상기 온라인 플랫폼을 통하여 표시(및/또는 출력)될 수 있으며, 그 이후에 다음과 같은 단계(및/또는 절차)들이 구현되도록 상기 서버(110)의 제1 제어 모듈(1110) 및/또는 단말(120)의 제2 제어 모듈(1210)이 제어하도록 설정(setting)될 수 있다.

도 2를 참조하면, 본 발명의 일 실시예에 따른 방법은 신규 보이스 정보를 제1 단말로부터 수신하는 단계를 포함할 수 있다(S210).

서버(110) 및/또는 단말(120)은 사용자로부터 사용자의 신규 보이스 정보(150)를 수신할 수 있다. 신규 보이스 정보(150)는 '제1 보이스 정보'로 호칭될 수도 있다. 또한 신규 보이스 정보(150)는 예를 들어, 완성된 보이스 정보의 형태일 수도 있고, 미완성의 보이스 정보의 형태일 수도 있고, 중간 완성 형태의 보이스 정보일 수도 있다.

예를 들면, 본 발명의 일 실시예에 따른 온라인 플랫폼(및/또는 어플리케이션)이 상기 단말(120)에서 실행될 수 있으며, 상기 온라인 플랫폼(및/또는 어플리케이션)이 실행된 상태에서 사용자는 단말(120)의 입력 모듈(1230)을 통하여 자신의 목소리, 즉 신규 보이스 정보(150)를 입력할 수 있다. 상기 온라인 플랫폼(및/또는 어플리케이션)은 상기 서버(110) 및/또는 외부 서버(140)에 의해 운용되는 것일 수 있다.

한편, 상기 신규 보이스 정보(150)에는 사용자의 목소리 이외의 정보가 더 포함될 수도 있으며, 이 경우 신규 보이스 정보는 '신규 정보'로 호칭될 수 있다.

본 발명의 일 실시예에 따른 방법은 신규 보이스 정보를 전처리하는 과정을 통하여 복수의 음성 성분 정보를 추출하는 단계를 포함할 수 있다(S220).

서버(110)는, 예를 들면, 단말(120)로부터 사용자의 신규 보이스 정보(150)를 데이터 형태로 수신할 수 있다. 서버(110)는, 예를 들면, 신규 보이스 정보(150)를 인공지능 모듈(또는 뉴럴 네트워크 모델 등)을 이용하여 신규 보이스 정보를 분석하고, 신규 보이스 정보와 관련된 정보(예를 들어, 관련된 자료, 관련 보이스 정보에 대한 정보, 신규 보이스 정보에서 추출되는 키워드에 대한 정보, 신규 보이스 정보와 비교대상 정보 사이의 유사도를 나타내는 정보 등)를 단말(120)에게 전송할 수 있다.

본 발명의 일 실시예에 따라 신규 보이스 정보를 전처리하는 과정을 통하여 복수의 음성 성분 정보를 추출하는 과정은 도 4 내지 도 10을 참조하여 구체적으로 후술하도록 한다.

본 발명의 일 실시예에 따른 방법은 복수의 음성 성분 정보가 소정의 기준을 만족시키는지 여부를 판단하는 단계를 포함할 수 있다(S230).

상기 소정의 기준은, 예를 들면, 보이스 정보와 비교대상 정보 사이의 유사도에 기반하는 것일 수 있다. 이를 위해, 비교대상 정보는 제1 단말(120) 또는 제2 단말(130)을 통하여 입력되거나, 및/또는 서버(110, 140)의 저장 모듈(1150)에 기 저장될 수 있다.

본 발명의 일 실시예는 신규 보이스 정보를 제1 단말로부터 수신(및/또는 수집)하는 것과 관련하여 아래와 같은 특징을 더 포함할 수도 있다.

예를 들면, 서버(110)는, ① 음성 데이터(신규 보이스 정보)의 수집과 관련한 요구 사항을 포함하는 사용자 입력을 단말(120)을 통하여 수신하고, ② 사용자 데이터베이스에 기초하여, 복수의 사용자들 중에서 상기 요구 사항에 매칭되는 사용자를 탐색하고, ③ 상기 단말(120)에 상기 음성 데이터(신규 보이스 정보)의 녹음을 요청하기 위한 요청 메시지를 전송하고, ④ 상기 단말로부터 상기 사용자에 의해 녹음된 음성 데이터(신규 보이스 정보)를 수신하고, ⑤ 상기 수신한 음성 데이터(신규 보이스 정보)를 저장할 수 있다.

또한 서버(110)는 상기 수신한 음성 데이터(신규 보이스 정보)를 저장할 때, ⓐ 상기 녹음된 음성 데이터(신규 보이스 정보)를 상기 녹음된 음성 데이터(신규 보이스 정보)에 대응하는 텍스트로 변환하고, ⓑ 상기 변환된 텍스트가 상기 요구 사항에 포함된 요청 텍스트와 일치하는지 여부에 기초하여 음성 데이터(신규 보이스 정보)가 정상적으로 녹음되었는지 여부를 판단하고, ⓒ 상기 사용자가 녹음한 음성 데이터(신규 보이스 정보)가 정상이 아닌 것으로 판단된 경우, 상기 단말(120)에 음성 데이터의 재녹음을 요청하기 위한 요청 메시지를 재전송하는 것을 특징으로 할 수 있다,

상기 요청 메시지는, 챗봇 메시지, 메신저 메시지 및 메일 중 어느 하나의 형태를 가지고, 상기 사용자의 선택에 의해 음성 데이터(신규 보이스 정보)에 대한 녹음 인터페이스를 활성화시킬 수 있는 선택 창을 포함할 수 있다.

상기 단말(120)은, 상기 녹음된 음성 데이터(신규 보이스 정보)를 상기 녹음된 음성 데이터(신규 보이스 정보)에 대응하는 텍스트로 변환하고, 상기 변환된 텍스트가 상기 요구 사항에 기재된 요청 텍스트와 일치하는지 여부에 기초하여 음성 데이터(신규 보이스 정보)가 정상적으로 녹음되었는지 여부를 판단하고, 음성 데이터(신규 보이스 정보)가 정상적으로 녹음되지 않은 것으로 판단된 경우 상기 사용자에게 음성 데이터의 재녹음을 요청할 수 있다.

본 발명의 일 실시예는 아래와 같은 특징을 더 포함할 수도 있다.

본 발명의 음성 분석 결과를 이용하는 온라인 플랫폼을 통하여 소정의 미션을 수행하여 핸드폰 요금과 관련되는 보상(또는 리워드, 포인트, 할인 등)을 받고자 하는 사용자는 단말(120)을 통하여 음성 데이터(신규 보이스 정보) 수집과 관련한 요구 사항을 상기 온라인 플랫폼 및/또는 서버(110)에 입력할 수 있다. 요구 사항은, 예를 들어 수집하고자 하는 음성 데이터의 텍스트, 녹음 횟수, 음성 데이터의 파일 포맷, 사용자를 정의하기 위한 사용자 정보, 음성 데이터의 수집 기간, 및 음성 데이터 녹음 환경 중 적어도 하나에 대한 조건 사항을 포함할 수 있다.

서버(110)는 사용자 데이터베이스에 기초하여 복수의 사용자들 중에서 요구 사항에 매칭되고, 음성 데이터(신규 보이스 정보) 수집에 동의한 사용자를 탐색할 수 있다.

서버(110)는 네트워크를 통해 탐색된 단말(120)에게 음성 데이터(신규 보이스 정보)의 녹음을 요청하기 위한 요청 메시지를 전송할 수 있다. 요청 메시지는, 예를 들어, 본 발명의 온라인 플랫폼을 통하여 소정의 미션을 수행하여 핸드폰 요금과 관련되는 보상(또는 리워드, 포인트, 할인 등)을 받을 것을 제안하는 메시지를 포함할 수 있으며, 또한 챗봇 메시지, 초대 메시지, 메신저 메시지, 메일을 포함하여 다양한 형태일 수 있다.

일 실시예에서, 요청 메시지는 음성 데이터(신규 보이스 정보)의 녹음을 가이드하기 위한 가이드 정보와 사용자의 선택에 의해 음성 데이터(신규 보이스 정보)에 대한 녹음 인터페이스를 활성화시킬 수 있는 선택 창을 포함할 수 있다. 사용자는 선택 창을 통해 녹음 인터페이스를 활성화시킨 후 사용자의 단말(130)의 마이크를 활용하여 음성 데이터(신규 보이스 정보)를 녹음하고, 사용자나 단말(120)은 녹음된 음성 데이터를 확인하여 음성 데이터가 정상적으로 녹음되었는지 여부를 판단할 수 있다. 실시예에 따라 음성 데이터가 정상적으로 녹음되었는지 여부를 판단하는 과정은 생략될 수 있다.

음성 데이터(신규 보이스 정보)가 정상적으로 녹음되었는지 여부를 판단하는 과정이 실행되는 경우, 단말(120)은 STT(speech to text) 기술을 이용하여 녹음된 음성 데이터를 이에 대응하는 텍스트로 변환하고, 변환된 텍스트가 요구 사항에 기재된 요청 텍스트와 일치하는지 여부에 기초하여 음성 데이터가 정상적으로 녹음되었는지 여부를 판단할 수 있다. 음성 데이터가 정상적으로 녹음이 되지 않은 것으로 판단된 경우, 단말(120)은 사용자에게 음성 데이터의 재녹음을 요청할 수 있다.

음성 데이터(신규 보이스 정보)가 정상적으로 녹음된 것으로 판단된 경우, 단말(120)은 녹음된 음성 데이터를 저장하고, 네트워크를 통해 서버(110)로 녹음한 음성 데이터를 전송할 수 있다.

사용자는 서버(110)를 통해 단말(120)로부터 사용자에 의해 녹음된 음성 데이터(신규 보이스 정보)를 수신할 수 있다. 사용자는 단말(120)로부터 수신한 음성 데이터의 정상 여부를 판단할 수 있고, 수신한 음성 데이터가 정상이 아닌 것으로 판단되면 해당 음성 데이터를 전송한 단말(120)에 음성 데이터의 재녹음을 요청하기 위한 요청 메시지를 전송할 수 있다. 사용자는 수신한 음성 데이터가 정상이라고 판단되면, 해당 음성 데이터를 서버(110)를 통해 저장할 수 있다.

일 실시예에서, 서버(110)는 저장한 음성 데이터(신규 보이스 정보)를 녹음하여 사용자에게 제공한 사용자에게 보상을 제공하기 위한 이벤트를 활성화시킬 수도 있다. 음성 데이터 제공에 따른 보상은, 예를 들어 기프트콘, 게임 캐쉬, 쿠폰 등일 수 있다.

위와 같은 본 발명은 음성 인공지능 모델 학습을 위한 음성 데이터(신규 보이스 정보) 수집의 어려움을 해결하기 위한 것으로, 음성 데이터의 수집과 편집 과정에 소요되는 시간과 노력을 절감시킬 수 있는 효과를 제공한다. 음성 데이터를 수집하고자 하는 사용자는 서버(110)를 통해 복수의 사용자들 중 자신이 원하는 조건의 음성 데이터를 제공할 사용자를 탐색하고, 탐색된 사용자가 녹음한 음성 데이터를 간편하게 수집할 수 있다. 음성 데이터를 제공하고자 하는 사용자도 본 발명에서 제안된 시스템(100)을 통해 음성 데이터를 보다 편리하게 녹음하고 사용자에게 전송할 수 있다.

또한 서버(110)는 음성 데이터(신규 보이스 정보)의 수집과 관련한 요구 사항을 포함하는 사용자 입력을 수신할 수 있다. 여기서, 요구 사항은 서버(110)가 사용자로부터 녹음된 음성 데이터를 수신하고 이를 저장할 때, 음성 데이터를 분류하는 기준이 될 수 있다. 요구 사항은 수집하고자 하는 음성 데이터의 텍스트, 음성 데이터의 파일 포맷, 사용자를 정의하기 위한 사용자 정보, 음성 데이터의 수집 기간 음성 데이터 녹음 환경, 녹음 횟수 중 적어도 하나에 관한 조건 사항을 포함할 수 있다. 예를 들어, 음성 데이터의 파일 포맷에 대한 조건 사항은 wav, mp3 등이 될 수 있고, 사용자를 정의하기 위한 사용자 정보에 대한 조건 사항은 성별, 연령, 사는 지역 등의 을 포함할 수 있다. 또한, 음성 데이터 녹음 환경에 대한 조건 사항은 시끄러운 환경, 조용한 환경 등이 될 수 있다.

그리고, 서버(110)는 사용자 데이터베이스에 기초하여, 복수의 사용자들 중에서 사용자 입력에 포함된 요구 사항에 매칭되는 사용자를 탐색할 수 있다. 일 실시예에서, 서버(110)는 음성 데이터(신규 보이스 정보)의 수집에 동의한 사용자들 중에서 해당 요구 사항에 매칭되는 사용자를 탐색할 수 있다.

그리고, 사용자의 단말에 음성 데이터의 녹음을 요청하기 위한 요청 메시지를 전송할 수 있다. 요청 메시지는, 챗봇 메시지, 초대 메시지, 메신저 메시지, 메일을 포함하여 다양한 형태일 수 있고, 음성 데이터의 녹음을 가이드하기 위한 가이드 정보와 사용자 선택에 의해 음성 데이터에 대한 녹음 인터페이스를 활성화시키기 위한 선택 창을 포함할 수 있다.

가이드 정보는, 음성 데이터(신규 보이스 정보)의 녹음을 위한 예상 소요 시간, 사용자가 말할 텍스트, 음성 데이터의 제공에 따른 보상 및 녹음 가능 기간 중 적어도 하나에 대한 정보를 포함할 수 있다. 사용자가 선택 창의 선택을 통해 활성화시킬 수 있는 녹음 인터페이스는, 사용자 선택에 의해 녹음 기능, 다시 듣기 기능 및 다시 녹음 기능을 수행하기 위한 아이콘들을 포함할 수 있다. 사용자가 녹음 기능 아이콘을 선택하고 사용자의 단말의 마이크를 활용하여 음성 데이터를 녹음하면, 녹음 인터페이스는 녹음 결과 상태를 분석하고, 분석한 결과를 디스플레이할 수 있다.

그리고, 서버(110)는 사용자의 단말로부터 사용자에 의해 녹음된 음성 데이터(신규 보이스 정보)를 수신할 수 있다. 서버(110)는 요청 메시지에 대한 응답으로, 사용자의 단말로부터 음성 데이터를 수신할 수 있다. 또한, 서버(110)는 수신한 음성 데이터를 저장할 수 있다.

일 실시예에 따르면, 음성 데이터(신규 보이스 정보)를 수집하고자 하는 사용자(사용자)는 사용자가 녹음한 음성 데이터를 직접 확인하여 정상인지 여부를 판단할 수 있다. 여기서, 사용자가 녹음한 음성 데이터가 정상이 아닌 것으로 판단된 경우, 서버(110)는 정상이 아닌 것으로 판단된 음성 데이터를 녹음한 사용자의 단말에 음성 데이터 재녹음을 요청하기 위한 요청 메시지를 전송할 수 있다. 음성 데이터가 정상인 것으로 판단된 경우, 서버(110)는 정상으로 판단된 음성 데이터를 녹음한 사용자에게 보상을 제공하기 위한 이벤트를 활성화시킬 수 있다.

또한 서버(110)는 음성 데이터(신규 보이스 정보)의 수집과 관련한 요구 사항을 포함하는 사용자 입력을 수신할 수 있다. 여기서, 요구 사항은 서버(110)가 사용자로부터 녹음된 음성 데이터를 수신하고 이를 저장할 때, 음성 데이터를 분류하는 기준이 될 수 있다. 요구 사항은 수집하고자 하는 음성 데이터의 텍스트, 음성 데이터의 파일 포맷, 사용자를 정의하기 위한 사용자 정보, 음성 데이터의 수집 기간 음성 데이터 녹음 환경, 녹음 횟수 중 적어도 하나에 대한 조건 사항을 포함할 수 있다.

그리고, 서버(110)는 사용자 데이터베이스에 기초하여 복수의 사용자들 중에서 요구 사항에 매칭되는 사용자를 탐색할 수 있다. 일 실시예에서, 서버(110)는 음성 데이터(신규 보이스 정보)의 수집에 동의한 사용자들 중에서 사용자를 탐색할 수 있다.

그리고, 서버(110)는 단말(120)에 음성 데이터 수집을 위한 요청 메시지를 전송할 수 있다. 요청 메시지는 챗봇 메시지, 초대 메시지, 메신저 메시지, 메일을 포함하여 다양한 형태를 가질 수 있다. 요청 메시지, 음성 데이터의 녹음을 가이드하기 위한 가이드 정보와 사용자 선택에 의해 음성 데이터에 대한 녹음 인터페이스를 활성화시키기 위한 선택 창을 포함할 수 있다.

가이드 정보는, 예를 들어 음성 데이터(신규 보이스 정보)의 녹음을 위한 예상 소요 시간, 사용자가 말할 텍스트, 음성 데이터의 제공에 따른 보상 및 녹음 가능 기간 중 적어도 하나에 대한 정보를 포함할 수 있다. 사용자가 선택 창의 선택을 통해 활성화시킬 수 있는 녹음 인터페이스는, 사용자 선택에 의해 녹음 기능, 다시 듣기 기능 및 다시 녹음 기능을 수행하기 위한 아이콘들을 포함할 수 있다. 사용자가 녹음 기능 아이콘을 선택하고 사용자의 단말의 마이크를 활용하여 음성 데이터를 녹음하면, 녹음 인터페이스는 녹음 결과 상태를 분석하고, 분석한 결과를 디스플레이할 수 있다.

단말(120)이 서버(110)으로부터 요청 메시지를 수신한 경우, 사용자는 요청 메시지에 포함되어 있는 음성 데이터(신규 보이스 정보)에 대한 녹음 인터페이스를 활성화시키기 위한 선택 창을 선택하여 녹음 인터페이스를 활성화시킬 수 있다. 사용자는 녹음 인터페이스가 포함하고 있는 녹음 아이콘을 선택하여 음성 데이터를 녹음할 수 있다.

다른 실시예에 따르면, 음성 데이터(신규 보이스 정보)를 녹음한 사용자나 단말(120)은 녹음된 음성 데이터를 확인하여 음성 데이터가 정상적으로 녹음되었는지 여부를 판단할 수 있다.

단말(120)은 STT(speech to text) 기술을 이용하여 녹음된 음성 데이터(신규 보이스 정보)를 이에 대응하는 텍스트로 변환하고, 변환된 텍스트를 요구 사항에 기재된 요청 텍스트와 일치하는지 여부에 기초하여 음성 데이터가 정상적으로 녹음되었는지 여부를 판단할 수 있다. 만약, 변환된 텍스트가 요청 텍스트와 일치하지 않는다면, 단말(120)은 음성 데이터가 정상적으로 녹음되지 않은 것으로 판단하고, 사용자에게 음성 데이터의 재녹음을 요청할 수 있다.

그리고, 단말(120)은 서버(110)에 사용자가 녹음한 음성 데이터를 전송할 수 있다.

서버(110)가 단말(120)로부터 녹음된 음성 데이터를 수신한 경우, 서버(110)는 수신한 음성 데이터를 저장할 수 있다.

일 실시예에 따르면, 사용자는 단말(120)로부터 수신한 음성 데이터(신규 보이스 정보)를 직접 확인하여 정상인지 여부를 판단할 수 있다. 단말(120)로부터 수신한 음성 데이터가 정상이 아닌 것으로 판단된 경우, 사용자는 서버(110)를 통해 음성 데이터를 녹음한 사용자의 단말에 음성 데이터의 재녹음을 요청하기 위한 요청 메시지를 전송할 수 있다. 음성 데이터가 정상인 것으로 판단된 경우에는, 사용자는 서버(110)를 통해 정상으로 판단된 음성 데이터를 저장할 수 있다.

그리고, 서버(110)는 저장된 음성 데이터(신규 보이스 정보)를 녹음한 사용자에게 보상을 제공하기 위한 이벤트를 활성화시켜 단말(120) 보상을 제공하도록 요청할 수 있다. 데이터를 녹음한 사용자가 받는 보상은 기프트콘, 핸드폰 요금 할인, 게임 캐쉬, 쿠폰 등이 될 수 있다.

도 3은 본 발명의 일 실시예에 따른 음성 분석 결과를 이용하여 소정의 이벤트 정보를 제공하는 방법을 나타내는 흐름도이다.

도 3을 참조하면, 본 발명의 일 실시예에 따른 방법은 비교대상 보이스 정보를 제2 단말로부터 수신하는 단계를 포함할 수 있다(S310).

제1 단말(120) 및/또는 제2 단말(130)은 비교대상 보이스 정보를 입력 받을 수 있다. 비교대상 보이스 정보는 '제2 보이스 정보'로 호칭될 수도 있다. 또한 비교대상 보이스 정보는 예를 들어, 완성된 보이스 정보의 형태일 수도 있고, 미완성의 보이스 정보의 형태일 수도 있고, 중간 완성 형태의 보이스 정보일 수도 있다.

비교대상 보이스 정보는, 예를 들면, 보이스 정보가 될 수 있는 컨텐츠(contents)를 의미할 수 있다. 일 예로, 비교대상 보이스 정보는, 사용자가 직접 발성한 음성/노래 이외에도, 파일(및/또는 데이터) 형태로 업로드된 음악, 영화, OST, 영상, 악보 등을 의미할 수 있다.

비교대상 보이스 정보는, 예를 들면, 음악 데이터(music data, 또는 음성 데이터), 비디오 데이터(video data), 텍스트 데이터(text data) 등을 의미할 수 있다.

음악 데이터(music data) 또는 음성 데이터(voice data)는 보이스 정보의 형태가소리의 형태(또는 소리를 다루는 파일 등)으로 구성된 것을 의미한다. 예를 들어, 음악 데이터 또는 음성 데이터는 가요, 음악, 소리상표, 효과음, 배경음악, 비트, 영화 OST 등을 의미할 수 있다. 음악 데이터 또는 음성 데이터는 예를 들어, 상술한 텍스트 데이터의 대상이 음성으로 표현된 것을 포함할 수 있다.

비디오 데이터(video data)는 저작물의 형태가 비디오의 형태로 구성된 것을 의미한다. 예를 들어, 비디오 데이터는 영화, 드라마, 영상, 플래시 작품, 단편 영화, 다큐멘터리, 강의 영상 등을 포함할 수 있다. 비디오 데이터는 VR/AR 비디오 데이터를 포함할 수 있다.

텍스트 데이터(text data)는 보이스 정보의 형태가 텍스트(text) 또는 문자열(string)의 형태로 구성된 것을 의미한다. 예를 들어, 텍스트 데이터는 일반 소설, 수필, 드라마의 각본, 영화의 각본, 음악의 가사, 시놉시스, 시, 비문학, 전공 지식을 담는 글, 대사, 컴퓨터 프로그램 코드 등의 일부 또는 전부를 의미할 수 있다.

본 발명의 일 실시예에 따른 방법은 비교대상 보이스 정보를 전처리하는 과정을 통하여 복수의 제2 음성 성분 정보를 추출하는 단계를 포함할 수 있다(S320).

서버(110)는, 예를 들면, 제1 단말(120) 및/또는 제2 단말(130)로부터 비교대상 보이스 정보를 데이터 형태로 수신할 수 있다. 서버(110)는, 예를 들면, 비교대상 보이스 정보를 인공지능 모듈(또는 뉴럴 네트워크 모델 등)을 이용하여 신규 보이스 정보를 분석하고, 비교대상 보이스 정보와 관련된 정보(예를 들어, 관련된 자료, 관련 보이스 정보에 대한 정보, 비교대상 보이스 정보에서 추출되는 키워드에 대한 정보, 신규 보이스 정보와 비교대상 정보 사이의 유사도를 나타내는 정보 등)를 단말(120)에게 전송할 수 있다.

본 발명의 일 실시예에 따라 비교대상 보이스 정보를 전처리하는 과정을 통하여 복수의 음성 성분 정보를 추출하는 과정은 도 4 내지 도 10을 참조하여 설명되는 음성 성분 정보를 추출 방법에 준용될 수 있다.

본 발명의 일 실시예에 따른 방법은 신규 보이스 정보를 제1 단말로부터 수신하는 단계를 포함할 수 있다(S330).

본 발명의 일 실시예에 따른 방법은 신규 보이스 정보를 전처리하는 과정을 통하여 복수의 제1 음성 성분 정보를 추출하는 단계를 포함할 수 있다(S340).

본 발명의 일 실시예에 따른 방법은 비교대상 보이스 정보와 신규 보이스 정보가 소정의 기준을 만족하는지 여부를 판단하는 단계를 포함할 수 있다(S350).

서버(110)는, 예를 들면, 비교대상 보이스 정보에서 추출되는 정보(및/또는 값)과 신규 보이스 정보에서 추출되는 정보(및/또는 값)에 기반하여 소정의 기준이 만족하는지 여부를 판단할 수도 있다. 상기 소정의 기준은 비교대상 보이스 정보에서 추출되는 정보(및/또는 값)과 신규 보이스 정보에서 추출되는 정보(및/또는 값) 사이의 유사도가 소정의 임계치(또는 임계 비율) 이상인지 여부를 나타낼 수 있다.

서버(110)는, 예를 들면, 비교대상 보이스 정보에서 추출되는 주파수 정보와 신규 보이스 정보에서 추출되는 주파수 정보에 기반하여 소정의 기준이 만족하는지 여부를 판단할 수도 있다. 상기 소정의 기준은 비교대상 보이스 정보에서 추출되는 주파수 정보와 신규 보이스 정보에서 추출되는 주파수 정보 사이의 유사도가 소정의 임계치(또는 임계 비율) 이상인지 여부를 나타낼 수 있다.

서버(110)는, 예를 들면, 비교대상 보이스 정보에서 추출되는 복수의 음성 성분 정보(및/또는 복수의 키워드)와 신규 보이스 정보에서 추출되는 복수의 음성 성분 정보(및/또는 복수의 키워드)에 기반하여 소정의 기준이 만족하는지 여부를 판단할 수도 있다. 상기 소정의 기준은 비교대상 보이스 정보에서 추출되는 복수의 음성 성분 정보(및/또는 복수의 키워드)와 신규 보이스 정보에서 추출되는 복수의 음성 성분 정보(및/또는 복수의 키워드) 사이의 유사도가 소정의 임계치(또는 임계 비율) 이상인지 여부를 나타낼 수 있다.

본 발명의 일 실시예에 따른 방법은 판단 결과에 기반하여 소정의 이벤트 정보를 생성하는 단계를 포함할 수 있다(S360).

서버(110)는, 예를 들면, 비교대상 보이스 정보와 신규 보이스 정보가 소정의 기준을 만족한 경우에 상응하는 제1 이벤트와 만족하지 않은 경우에 상응하는 제2 이벤트를 상이하게 생성(및/또는 설정)할 수 있다.

본 발명의 일 실시예에 따른 방법은 이벤트 정보를 제1 단말에게 전달하는 단계를 포함할 수 있다(S370).

서버(110)는, 예를 들면, 비교대상 보이스 정보와 신규 보이스 정보가 소정의 기준을 만족하지 않은 경우, 보이스 정보의 완성도를 높이기 위하여, 보이스 정보 제작 또는 보완에 필요한 정보를 제공할 수도 있고, 보이스 정보 완성을 위해 일부 보완을 제안(및/또는 지도)할 수 있다. 이때 서버(110)는 보이스 정보에 관한 정보, 보이스 정보와 연관된 필요 정보, 보이스 정보의 보완을 위한 정보를 단말(120)에게 전달(및/또는 제공)할 수 있다.

도 2은 본 발명의 일 실시예에 따른 음성 분석 결과를 이용하는 온라인 플랫폼을 운용하는 서버를 나타내는 블록도이다.

본 발명의 일 실시예에 따른 인공지능을 이용한 음성 분석 방법을 운용하는 서버(110)는 예를 들어, 도 1에 나타난 서버(110)를 의미할 수 있다.

본 발명의 일 실시예에 따른 인공지능을 이용한 음성 분석 방법을 운용하는 서버(110)는 본 발명의 일 실시예에 따른 보이스 정보를 수신할 수 있다. 서버(110)는 보이스 정보를 수신하고, 이들에 기초하여 필요 정보(205a) 및/또는 보이스 정보 보완 제안 정보(170)를 생성하고, 이들을 본 발명의 일 실시예에 따른 단말 장치에게 전송할 수 있다. 이때 보이스 정보는 도 1의 신규 보이스 정보(150) 및/또는 비교대상 보이스 정보를 의미할 수 있다.

본 발명의 일 실시예에 따른 인공지능을 이용한 음성 분석 방법을 운용하는 서버(110)는 예를 들어, 수신부(410), 전처리부(420), 키워드 추출부(430), 검색부(440), 정보제공부(450), 제안부(460), 및/또는 매칭부(470)를 포함할 수 있다. 한편 수신부(410)는 후술하는 통신 모듈(1120)에 상응할 수 있다.

수신부(410)는, 본 발명의 일 실시예에 따른 보이스 정보(예; 신규 보이스 정보, 비교대상 보이스 정보)를 본 발명의 일 실시예에 따른 제1 단말(120) 및/또는 제2 단말(130)로부터 수신할 수 있다. 수신부(410)는, 본 발명의 일 실시예에 따른 보이스 정보를 수신하여 이를 전처리부(420)로 전달할 수 있다.

전처리부(420)는, 본 발명의 일 실시예에 따른 보이스 정보를 전처리(pre-process)한다. 전처리부(420)는 예를 들어, 보이스 정보를 텍스트 또는 문자열의 형태의 데이터로 변환한다.

예를 들어, 전처리부(420)는 음악 데이터(music data) 또는 음성 데이터(voice data)의 보이스 정보를 음성 인식(Voice Recognition) 방법에 기초하여 음성을 인식하고, 이들을 텍스트 데이터로 변환할 수 있다. 다른 예로, 전처리부(420)는 음악 데이터(music data) 또는 음성 데이터(voice data)의 보이스 정보가 가요 등을 나타낸다면, 해당 가요를 인터넷 서버로부터 검색하고, 해당 가요의 가사를 텍스트 데이터로 변환할 수 있다.

전처리부(420)는 음악 데이터(music data) 또는 음성 데이터(voice data)를 텍스트 데이터로 변환하기 위하여, 인공지능 신경망 구조를 이용할 수 있다. 예를 들어, 전처리부(420)는 음악 데이터(music data) 또는 음성 데이터(voice data)를 텍스트 데이터로 변환하기 위한, RNN(Recurrent Neural Network) 모델 및/또는 LSTM(Long Short-Term Model)에 기초한 인공신경망 구조를 포함할 수 있다.

예를 들어, 전처리부(420)는 이미지 데이터(image data)의 보이스 정보 및/또는 비디오 데이터(video data)의 보이스 정보로부터 구성 요소를 추출하고, 해당 구성 요소들의 이름 또는 속성(attribute)들을 텍스트 데이터로 변환할 수 있다.

전처리부(420)는 이미지 데이터(image data)의 보이스 정보 및/또는 비디오 데이터(video data)의 보이스 정보로부터 구성 요소를 추출하기 위하여, 인공지능 신경망 구조를 이용할 수 있다. 예를 들어, 전처리부(420)는 이미지 데이터(image data)의 보이스 정보 및/또는 비디오 데이터(video data)의 보이스 정보로부터 구성요소를 추출하기 위한, CNN(Convolutional Neural Network) 모델 등에 기초한 인공신경망 구조를 포함할 수 있다.

키워드 추출부(430)는, 본 발명의 일 실시예에 따른 전처리된 보이스 정보 즉, 변환된 텍스트 데이터로부터 유의미한 키워드를 추출한다. 유의미한 키워드는 예를 들어, 보이스 정보에 텍스트 데이터 내 보이스 정보와 관련된 유의미한 단어 또는 어구를 의미할 수 있다. 유의미한 키워드는, 예를 들어, 비교대상 보이스 정보에 포함되는 노래 가사에 상응하거나, 텍스트 데이터의 일부 부분(예를 들어, 슬라이스(slice) 등) 또는 전체의 분위기를 나타내는 문구일 수도 있고, 보이스 정보의 내용상 중요한 물건 또는 인물일 수 있다.

유의미한 키워드는 예를 들어 단어의 빈도수를 활용한 알고리즘을 이용하여 추출될 수 있다.

1) 텍스트 데이터 내 단어 별로 용어 빈도수 tf(t,d) 값을 도출한다.

본 발명의 일 실시예에 따른 서버는 용어 빈도수 tf(t, d) 는 예를 들어, 아래와 같은 방법들 중 적어도 하나에 기초하여 도출할 수 있다.

제1 방법:

제2 방법:

제3 방법:

여기서, 본 발명의 일 실시예에 따른 보이스 정보의 텍스트 데이터를 단어 별로 분리하여 집합으로 나타낸 집합을 d라고 하고, d에 포함된 특정 단어를 t라고 한다. f _t,d 는 텍스트 데이터 내에서 단어 t가 포함되는 개수를 나타낸다.

2) 단어 별로 문서 빈도수 값 df(t,D) 를 도출한다.

여기서, D 는 보이스 정보의 텍스트 데이터만이 아닌 전체 문서에 대한 단어의 집합을 의미한다. D 는 예를 들어, 서버(110)가 임의로 보유하는 문서일 수도 있다. 문서 빈도수 값은 아래와 같은 수식에 기초하여 도출할 수 있다.

3) 단어 별로, 위 1)과정에서 도출한 용어 빈도수 tf(t,d) 값에, 위 2)과정에서 도출한 문서 빈도수 값 df(t,D) 를 나눈다.

4) 단어 별로 위 3)에서 도출한

의 값이 임계치(threshold) 값과 비교하여, 임계치(threshold) 값보다 높은 단어를 키워드 정보에 포함한다.

임계치 값은 예를 들어, 사용자에 의해 설정되거나, 시스템에 의해 설정될 수도 있다.

본 발명의 일 실시예에 따른 키워드 추출부(430)는, 보이스 정보의 텍스트 데이터를 복수의 슬라이스(slice)들로 분할하고, 각 슬라이스 별로 슬라이스에 대한 키워드들을 추출할 수 있다.

슬라이스(slice)는 선형(linear)적인 보이스 정보의 텍스트 데이터를 특정 길이 단위 또는 특정 길이 만큼으로 분할한 것을 의미한다. 즉, 변환된 텍스트 데이터는 복수의 슬라이스들을 포함한다. 본 발명의 일 실시예에 따른 슬라이스는 기 설정된 길이만큼 본 발명의 일 실시예에 따른 서버가 분할할 수도 있고, 사용자의 설정에 의해 결정된 분할 비율대로 분할할 수도 있다. 각 슬라이스는 서로 다른 길이를 가질 수 있다.

예를 들어, 보이스 정보가 소설인 경우, 키워드 추출부(430)는 전개 방법에 따라 슬라이스를 분할될 수 있다. 보이스 정보가 소설인 경우, 슬라이스는 하나의 챕터(chapter)가 될 수도 있고, 한 페이지가 될 수도 있다. 예를 들어, 보이스 정보가 음악 또는 영상인 경우, 몇 초(second) 또는 몇 분(minutes) 단위의 길이에 해당하는 만큼을 단위로 복수의 슬라이스로 분할할 수 있다.

검색부(440)는 본 발명의 일 실시예에 따른 키워드 추출부(430)으로부터 추출한 복수의 키워드들을 이용하여, 연관 키워드(associated keyword)들을 생성할 수 있다. 연간 키워드(associated keyword)란, 추출된 복수의 키워드들로부터 추론되는, 해당 보이스 정보를 대표할 수 있는 키워드를 의미할 수 있다. 예를 들어, 연간 키워드는, 해당 보이스 정보의 전체적인 분위기를 나타내는 키워드일 수도 있고, 해당 보이스 정보에서 중요한 역할을 하는 단어 또는 인물을 의미할 수도 있고, 해당 보이스 정보의 표현 기법 또는 서술 기법 또는 구조적 특성을 나타내는 단어 또는 구문일 수도 있다.

본 발명의 일 실시예에 따른 검색부(440)는 키워드 추출부(430)으로부터 추출한 복수의 키워드들을 인터넷 서버(140) 또는 자체 데이터베이스(database)(예; 저장 모듈(1150))로부터 검색하여, 연관 키워드(associated keyword)를 생성할 수 있다. 본 발명의 일 실시예에 따른 검색부(440)는 키워드 추출부(430)으로부터 추출한 복수의 키워드들을 입력 받아 연관 키워드를 출력하는 인공신경망 구조의 모델에 기초하여, 연관 키워드들을 출력할 수 있다.

본 발명의 일 실시예에 따른 검색부(440)는, 분할된 슬라이스(slice)들 별로 본 발명의 일 실시예에 따른 검색 동작을 수행할 수 있다. 예를 들어, 검색부(440)는 하나의 슬라이스 내에서, 키워드 추출부(430)에 의해 추출된 복수의 키워드들로부터, 해당 슬라이스에 대한 연관 키워드(associated keywords)들을 생성할 수 있다. 예를 들어, 검색부(440)는, 각 슬라이스 별로, 보이스 정보 내 해당 슬라이스가 나타내는 분위기, 보이스 정보 내 해당 슬라이스의 표현 기법/서술 기법, 해당 슬라이스의 구조적 특성 등을 생성할 수 있다.

정보제공부(450)는, 본 발명의 일 실시예에 따른 키워드 추출부(430)으로부터 추출된 복수의 키워드들 및/또는 검색부(440)에 의해 생성된 연관 키워드들을 본 발명의 일 실시예에 따른 단말(120, 130) 장치에게 전송하여, 사용자에게 보이스 정보에 대한 정보를 제공할 수 있다.

정보제공부(450)는, 키워드 추출부(430)에 의해 생성된 복수의 키워드들 및/또는 검색부(440)에 의해 생성된 연관 키워드들을 다시 검색하여 도출된 검색 결과를 단말(120, 130)에게 전송하여, 사용자에 보이스 정보에 대한 정보를 심도 있게 더 제공할 수 있다.

예를 들어, 정보제공부(450)는, 보이스 정보의 분위기를 나타내는 연관 키워드를 다시 검색하여, 해당 보이스 정보의 분위기와 유사한 분위기를 자아내는 다른 보이스 정보들에 대한 정보(예를 들어, 제목, 작가 등)를 제공할 수도 있다. 또한, 정보제공부(450)는, 보이스 정보의 분위기를 나타내는 연관 키워드를 다시 검색하여, 해당 보이스 정보와 어울리는 다른 종류의 보이스 정보들 또는 관련 음악/노래에 대한 정보를 제공할 수도 있다.

정보제공부(450)는, 보이스 정보 전체에 대하여 또는 슬라이스(slice) 별로, 보이스 정보에 대한 비평(critics) 정보를 제공해줄 수도 있다. 정보제공부(450)는, 보이스 정보 전체에 대하여 또는 슬라이스(slice) 별로, 해당 보이스 정보와 유사한 보이스 정보에 대한 비평(critics)들을 사용자에게 제공해줄 수도 있다.

제안부(460)는 키워드 추출부(430)에 의해 생성된 복수의 키워드들 및/또는 검색부(440)에 의해 생성된 연관 키워드들에 기초하여, 신규 보이스 정보를 보완할 수 있는 방법을 제안할 수 있다. 예를 들어, 제안부(460)는 특정 슬라이스 구간 내에서, 음악 보이스 정보의 가사와 해당 구간의 음악이 맞지 않거나 박자가 맞지 않는 경우라면 해당 구간 부분을 보정할 것을 제안할 수 있다.

매칭부(470)는 키워드 추출부(430)에 의해 생성된 복수의 키워드들 및/또는 검색부(440)에 의해 생성된 연관 키워드들에 기초하여, 신규 보이스 정보의 완성도를 높이거나 보완할 수 있도록, 신규 보이스 정보와 관련이 있는 어드바이저(들)(예; 음악 강사)을 추천 및/또는 사용자와 매칭할 수 있다.

매칭부(470)는 적어도 하나의 가수 및/또는 음악에 대한 프로필 정보(180)를 저장할 수 있다. 프로필 정보는, 예를 들면, 가수의 이름 정보, 나이 정보, 장르를 나타내는 정보 등을 포함할 수 있다. 매칭부(470)는 본 발명의 일 실시예에 따른 프로필 정보(180)를 단말(120, 130)에게 전송할 수 있다. 사용자가, 단말(120, 130)을 통하여, 해당 가수 및/또는 음악에 대한 프로필들 중 하나 또는 그 이상의 가수 및/또는 음악을 선택하여 매칭 요청(request)를 서버(110)에게 전송하면, 서버(110)의 매칭부(470)는 해당 요청에 응답으로, 선택된 하나 또는 그 이상의 가수(및/또는 음악 관련 담당자)에게 매칭 여부를 문의하는 메시지를 전송할 수 있다. 서버(110)는 선택된 하나 또는 그 이상의 가수(및/또는 음악 관련 담당자)로부터 매칭 가능 응답을 수신하면, 응답한 가수(및/또는 음악 관련 담당자)에 대한 연락처 정보 등을 사용자에게 전송할 수 있다.

매칭부(470)는 키워드 추출부(430)에 의해 생성된 복수의 키워드들 및/또는 검색부(440)에 의해 생성된 연관 키워드들 및/또는 이들과 유사한 키워드들을 검색하면 프로필 정보가 추출되는 데이터베이스(database)(예; 서버(110, 140)의 저장 모듈(1150))에 의해 프로필 정보를 추출할 수도 있다.

매칭부(470)는 더 나아가, 본 발명의 일 실시예에 따른 보이스 정보들에 대한 권리를 보호하는데 일조할 수 있는 법률전문가 (예를 들어, 변리사, 변호사 등) 도 사용자에게 매칭할 수 있다. 매칭부(470)는 더 나아가, 신규 보이스 정보의 저작권 등록을 보조할 수 있도록 안내 정보, 등록에 필요한 서지 정보를 수신하여 지적재산권 등록을 보조할 수 있다.

도 5는 본 발명의 일 실시예에 따른 전처리부를 나타내는 블록도이다.

본 발명의 일 실시예에 따른 전처리부(420)는, 본 발명의 일 실시예에 따른 사용자 단말 장치로부터 보이스 정보(400)를 수신한다. 보이스 정보(400)는 예를 들어, 신규 보이스 정보(150) 및/또는 비교대상 보이스 정보를 의미할 수 있다. 전처리부(420)는 보이스 정보(400)를 수신하고, 이들을 전처리하여 변환된 텍스트 데이터(190)를 출력한다.

도 5를 참조하면, 본 발명의 일 실시예에 따른 전처리부(420)는, 음성 인식부(510), 구성요소 추출부(302), 텍스트 처리부(530) 및/또는 데이터 압축부(540)를 포함할 수 있다.

음성 인식부(510)는, 본 발명의 일 실시예에 따른 보이스 정보가 음악 보이스 정보(또는 음성 보이스 정보, 음반 보이스 정보 등)인 경우, 음성/음악 데이터 내의 음성을 인식하고, 이들을 텍스트로 변환할 수 있다.

예를 들어, 음성 인식부(510)는 가요 데이터의 경우 해당 가요의 가사를 인식하여 이들을 텍스트로 변환할 수 있다. 음성 인식부(510)는, 소설 등 글들을 음성으로 낭독한 음성 데이터의 음성을 인식하여 텍스트 데이터로 변환할 수 있다.

음성 인식부(510)는, 예를 들어 음악 데이터를 수신하고 해당 음악이 어떤 음악인지 검색하여, 해당 음악에 대한 정보를 포함하는 텍스트 데이터를 생성할 수도 있다. 예를 들어, 음성 인식부(510)는, 특정 가요 음악 데이터를 수신하면, 해당 가요 음악의 가사, 노래 제목, 가수 정보 등을 추출/검색하여 이들을 텍스트 형태로 변환할 수 있다.

음성 인식부(510)는, 예를 들어 음성 인식(voice recognition)을 수행할 수 있는 인공지능 모델(예를 들어, RNN 모델, LSTM 모델, 비터비 알고리즘을 사용하는 모델 등)일 수 있다.

구성요소 추출부(520)는, 보이스 정보가 이미지 또는 비디오 데이터로 구성되는 경우, 해당 이미지 또는 비디오 데이터로부터 구성요소(component)들을 추출할 수 있다.

구성요소(component)란, 이미지 데이터 및/또는 비디오 데이터 내에서 의미있는(meaningful) 영역 또는 일부 신(scene)을 의미할 수 있다. 예를 들어, 이미지 보이스 정보(이미지 데이터)에서 구성요소는, 이미지 내 인물, 물건 등을 의미할 수 있다. 예를 들어, 비디오 데이터에서 구성요소는, 영상 데이터 내 특정 장면, 특성 프레임(frame) 또는, 일부 영역의 영상, 일부 영역의 프레임 등을 의미할 수 있다.

구성요소 추출부(520)는, 하나의 이미지 데이터 내에서 복수 개의 영역(region)들을 구성 요소로 추출할 수 있다. 복수 개의 영역들은 서로 중첩될 수도 있다. 구성요소 추출부(520)는, 하나의 비디오 데이터 내에서 복수 개의 영역(region)들 또는 복수 개의 시간 구간을 구성 요소로 추출할 수 있다. 복수 개의 영역들은 서로 영역 또는 시간적으로 중첩될 수도 있다.

텍스트 처리부(530)는, 보이스 정보의 텍스트 데이터, 음성 인식부(510)에 의해 텍스트 데이터로 변환된 음악(음성) 보이스 정보, 및/또는 구성요소 추출부(520)에 의해 텍스트 데이터로 변환된 이미지/비디오 보이스 정보를 처리한다. 다시 말해, 텍스트 처리부(530)는 텍스트 데이터를 수신한다. 텍스트 처리부(530)는 텍스트 내에서 의미가 없거나 불필요한 단어를 제거할 수 있다.

텍스트 처리부(530)는, 텍스트 내에서 불필요한 단어나 어구, 문자 등을 제거함으로써, 본 발명의 일 실시예에 따른 키워드 추출부가 키워드를 올바르게 추출할 수 있게 한다.

텍스트 처리부(530)는, 수신한 텍스트 데이터를 토큰화(Tokenization), 정제화(Cleaning), 및/또는 어간 및 표제어 추출(Stemming and Lemmatization) 동작 등을 수행할 수 있다.

토큰화(Tokenization)란, 수신한 텍스트 데이터를 의미를 갖는 문자열/단어 (즉, 토큰) 단위로 자르고, 구두점(punctuation)과 같은 문자들 중 필요가 없는 문자는 제외할 수 있다. 텍스트 처리부(530)는, 이러한 토큰화 작업을 수행함으로써, 보이스 정보 또는 보이스 정보 내 슬라이스 단위로 키워드를 용이하게 추출할 수 있다.

정제화(Cleansing)는, 토큰화된 텍스트 데이터들 내 토큰들 내에 포함된 노이즈 데이터를 제거한다. 정제화는 본 발명의 일 실시예에 따른 토큰화 동작에 방해가 되는 단어/문자 또는 노이즈들을 줄일 수 있고, 토큰화 동작 이후에도 여전히 남아있는 노이즈들을 제거할 수 있다. 예를 들어, 정제화(Cleansing)는 토큰화된 텍스트 데이터들 내에서 통합이 필요한 단어들의 대/소문자 등을 통합한다. 정제화(Cleansing)는 또한, 등장 빈도가 적은 단어나, 길이가 짧은 단어들을 제거할 수 있다. 텍스트 처리부(530)는, 이러한 정제화 동작을 수행함으로써, 신규 보이스 정보의 분석을 빠르고 효율적으로 수행할 수 있게 한다.

데이터 압축부(540)는, 텍스트 처리부(530)에 의해 텍스트 처리된 보이스 정보 데이터를 압축(compress)할 수 있다. 데이터 압축부(540)는, 선택적으로 전처리부(420) 내에 존재할 수 있다. 데이터 압축부(540)는, 텍스트 처리부(530)에 의해 텍스트 처리된 보이스 정보 데이터를 인코딩(encoding)하여 비트스트림 형태로 출력한다.

데이터 압축부(540)는, 보이스 정보의 텍스트 데이터, 음성 인식부(510)에 의해 텍스트 데이터로 변환된 음악(음성) 보이스 정보, 및/또는 구성요소 추출부(520)에 의해 텍스트 데이터로 변환된 이미지/비디오 보이스 정보를, 복수의 슬라이스(slice)들로 분할할 수 있다.

도 6은 본 발명의 일 실시예에 따른 보이스 정보를 복수의 슬라이스(slice)들로 분할한 것의 예시를 나타내는 도면이다.

도 6은 보이스 정보 중 본 발명의 일 실시예에 따른 음악(음성, 소리) 보이스 정보 및/또는 텍스트 데이터 형태의 보이스 정보를 복수의 슬라이스(slice)들로 분할하는 것을 나타낸다.

도 6을 참조하면, 음악 보이스 정보 및/또는 텍스트 보이스 정보는 선형적인 구조를 가질 수 있다. 예를 들어, 음악 보이스 정보(가요, 음성 등)은 시간(time)의 흐름에 따라 음성/소리의 변화를 가진다. 따라서, 이 경우 슬라이스는 일정 시간 간격(또는 특정 시간 구간) 별로 슬라이스(slice)를 분할할 수 있다. 예를 들어, 텍스트 보이스 정보도 선형적인 구조를 가질 수 있다. 따라서, 이 경우에도 슬라이스는 일정 문자수의 간격, 챕터의 간격 등으로 슬라이스를 분할할 수 있다.

도 7은 본 발명의 일 실시예에 따른 슬라이스로부터 복수의 키워드를 추출하는 과정을 나타내는 도면이다.

도 7은 복수(N개)의 슬라이스들로 분할된 보이스 정보 데이터(800)에서, 슬라이스(710) 별로 복수의 키워드들(720)을 추출하는 동작 및/또는 연관 키워드들(730)을 추출하는 동작을 나타낸다.

도 7을 참조하면, 복수의 키워드들(720)을 추출하는 동작은 도 1에 나타난 서버(110), 도 4의 키워드 추출부(430)에서 수행될 수 있다. 연관 키워드들(730)을 추출하는 동작은 도 1에 나타난 서버(110), 도 4의 키워드 추출부(430) 또는 검색부(440)에서 수행될 수 있다.

도 7에 나타난 보이스 정보 데이터(800)는, 신규 보이스 정보가 텍스트 데이터로 변환되고, 복수(N개)의 슬라이스(slice)로 분할된 데이터를 의미할 수 있다. 도 7에 나타난 보이스 정보 데이터(800)는 예를 들어, 도 4에 나타난 전처리부(420)에 의해 전처리된 보이스 정보, 도 5의 전처리부(420)가 출력하는 데이터(190)를 의미하거나, 및/또는 도 6에 나타난 방법에 의해 복수 개의 슬라이스로 분할된 보이스 정보를 의미할 수 있다. 보이스 정보 데이터(800)는 복수 개의 슬라이스(slice, 500a)들을 포함한다. 슬라이스(710)는, 도 1 내지 도 6에서 설명한 본 발명의 일 실시예에 따른 슬라이스를 의미한다.

본 발명의 일 실시예에 따른 키워드 추출부/검색부(예를 들어, 도 4의 키워드 추출부(430) 및/또는 검색부(440))는, 분할된 각 슬라이스로부터 복수의 키워드들(720) 추출하고, 연관 키워드(associated keywords, 730)들을 생성한다.

키워드(720)는, 텍스트 데이터로 변환된 보이스 정보 내에 포함된 단어, 어구, 및/또는 문자로, 해당 슬라이스(또는 해당 보이스 정보) 내에서 의미 있는 것을 의미할 수 있다. 예를 들어 키워드(720)는 도 4에서 설명한 유의미한 키워드를 의미한다. 유의미한 키워드는 예를 들어, 보이스 정보의 텍스트 데이터 내 보이스 정보와 관련된 유의미한 단어 또는 어구를 의미할 수 있다. 예를 들어, 유의미한 키워드는 텍스트 데이터의 일부 부분(예를 들어, 슬라이스(slice) 등) 또는 전체의 분위기를 나타내는 문구일 수도 있고, 보이스 정보의 내용상 중요한 물건 또는 인물일 수 있다.

본 발명의 일 실시예에 따른 키워드 추출부는, 도 4를 설명하는 단락들에서 상술한 바와 같이, 키워드(720)를 단어의 빈도수를 활용한 알고리즘을 이용하여 추출될 수 있다.

연관 키워드(associated keywords, 730)는 해당 슬라이스(또는 해당 보이스 정보)과 관련된 단어, 어구, 및/또는 문자를 의미할 수 있다. 예를 들어, 연관 키워드는 해당 슬라이스(또는 해당 보이스 정보)의 전체적인 분위기를 나타내는 단어, 전체적인 구조를 나타내는 단어, 짜임새를 나타내는 단어를 의미할 수 있다. 연관 키워드는 해당 슬라이스(또는 해당 보이스 정보)을 요약할 수 있는 중요한 핵심 단어를 의미할 수 있다.

본 발명의 일 실시예에 따른 키워드 추출부/검색부는, 각 슬라이스 별로 본 발명의 일 실시예에 따른 키워드(720)들로부터 연관 키워드(730)를 도출할 수 있다. 본 발명의 일 실시예에 따른 키워드 추출부는, 슬라이스 별 본 발명의 일 실시예에 따른 키워드(720)들을 입력 받아 연관 키워드(730)를 출력하도록 학습된 인공신경망 구조(또는 인공지능 모델)를 포함할 수 있다. 즉, 본 발명의 일 실시예에 따른 키워드 추출부는 복수의 키워드(720)들을 입력 받아, 해당 복수의 키워드(720)들과 연관성이 높은 단어, 어구, 문구, 문자 등을 출력(즉, 연관 키워드, 730)할 수 있는 인공지능 모델을 포함할 수 있다.

본 발명의 일 실시예에 따른 키워드 추출부/검색부는, 슬라이스 별로 본 발명의 일 실시예에 따른 키워드(720)들을 인터넷 서버에 검색하여 출력되는 단어들 중 하나 또는 그 이상을 연관 키워드(730)로 출력할 수 있다.

예를 들어, 본 발명의 일 실시예에 따른 키워드 추출부/검색부는 0번째 슬라이스로부터 '그녀', '약속', '선물', '상황', '분위기', '데이트' 등의 키워드(720)를 추출할 수 있다. 본 발명의 일 실시예에 따른 키워드 추출부/검색부는 추출된 키워드(720)를 기반으로, 0번째 슬라이스를 대표할 수 있는 단어들인 '데이트', '호감' 등의 연간 키워드(730)들을 생성할 수 있다.

예를 들어, 본 발명의 일 실시예에 따른 키워드 추출부/검색부는 1번째 슬라이스로부터 '심장', '두근두근', '호감', '웃음', '고백', '미소' 등의 키워드(720)를 추출할 수 있다. 본 발명의 일 실시예에 따른 키워드 추출부/검색부는 추출된 키워드(720)를 기반으로, 1번째 슬라이스를 대표할 수 있는 단어들인 '사랑', '희망' 등의 연간 키워드(730)들을 생성할 수 있다.

본 발명의 일 실시예에 따른 키워드 추출부/검색부는 슬라이스 별로 복수의 키워드들 및/또는 연관 키워드들을 포함하는 슬라이스 키워드 데이터를 생성할 수 있다.

도 8은 본 발명의 일 실시예에 따른 보이스 정보와 연관된 필요 정보를 생성하기 위한 뉴럴 네트워크 모델(Neural Network Model)을 나타내는 도면이다.

도 8은 본 발명의 일 실시예에 따른 슬라이스 별 복수의 키워드들 및 연관 키워드들을 입력 받아(810) 사용자에게 필요한 필요 정보(예를 들어, 보이스 정보에 관한 정보, 보이스 정보와 연관된 필요 정보 등, 820)를 생성하는 인공신경망 모델(800)을 나타낸다. 도 8에 나타난 동작들은 도 1의 서버(110), 도 4의 정보제공부(450)에서 수행될 수 있다.

도 8을 참조하면, 사용자에게 필요한 필요 정보(820)는, 가수 정보, 장르 정보, 가사 정보 중 적어도 어느 하나를 포함할 수 있다.

인공신경망 모델(800)은 하나 또는 그 이상의 은닉 레이어(hidden layer, 830)들을 포함할 수 있다. 하나 또는 그 이상의 은닉 레이어(hidden layer, 830)는 예를 들어, 단순 선형으로 구성된 레이어일 수도 있고, CNN(Convolutional Neural Network), RNN(Recurrent Neural Network) 및/또는 LSTM(Long Short-Term Memory Model)로 구성된 레이어들의 집합일 수도 있다.

인공신경망 모델(800)은 슬라이스들 내에 포함된 키워드들 및/또는 연관 키워드들을 입력(810) 받고, 사용자에게 필요한 필요 정보(예를 들어, 보이스 정보에 관한 정보, 보이스 정보와 연관된 필요 정보 등, 820)를 출력한다.

본 발명의 일 실시예는 이러한 인공신경망 구조로 인해, 적은 양의 키워드를 추출하고도 보이스 정보를 종합적으로 분석할 수 있다. 예를 들어, 본 발명의 일 실시예에 따른 인공지능을 이용한 음성 분석 방법 및 그 장치가 송수신 환경 및/또는 처리 환경 등에 따라 지연이 발생할 수 있는 경우, 본 발명의 일 실시예에 따른 인공지능을 이용한 음성 분석 방법 및 그 장치는 복수의 슬라이스 중 적은 수의 슬라이스만을 이용하여 보이스 정보를 종합적으로 분석할 수 있다.

도 9는 본 발명의 일 실시예에 따라 보이스 정보를 보완하기 위한 제안 정보를 생성하는 과정을 나타내는 도면이다.

도 9에 나타난 동작들 일부 또는 전부는 본 발명의 일 실시예에 따른 제안부에서 수행될 수 있으며, 이는 사용자(고객)가 잘못된 가사(및/또는 대사)를 읊는 경우에 대한 피드백을 위한 것일 수 있다. 본 발명의 일 실시예에 따른 제안부는, 도 1의 서버(110) 내에 포함될 수 있으며, 도 4의 제안부(460)를 의미할 수 있다.

본 발명의 일 실시예에 따른 제안부는, 본 발명의 일 실시예에 따른 보이스 정보들 내 슬라이스들 중, 본 발명의 일 실시예에 따른 키워드 추출부에 의해 추출된 키워드들을 다른 단어로 수정하도록 제안할 수 있다. 예를 들어, 도 9를 참조하면, 0번째 슬라이스 내에 포함된 ‘항상 함께 만나며＇이라는 키워드는, 서버(110, 140) 및/또는 저장 모듈(1150)에 기록된 데이터(예; 비교대상 보이스 정보)에 기초하여 ‘자주 함께 만나며＇로 수정할 것을 제안할 수 있다.

본 발명의 일 실시예에 따른 제안부는, 특정 키워드의 수정할 다른 단어를 결정하기 위하여, 해당 슬라이스 내의 연관 키워드(associated keyword)들을 이용할 수 있다. 예를 들어, 본 발명의 일 실시예에 따른 제안부는, 시소러스(thesaurus)부를 포함할 수 있다. 시소러스부는, 특정 단어를 입력 받아, 해당 특정 단어의 사전적 유의어를 출력한다. 시소러스부는 예를 들어, 자연어 처리를 위한 워드넷(WordNet)일 수 있다.

본 발명의 일 실시예에 따른 제안부는, 수정을 제안하려는 키워드와 연관 키워드를, 시소러스부에 입력하여, 수정을 제안하려는 키워드 및 연관 키워드와 가장 유사한 단어를 결정하여, 단어를 제안할 수 있다.

본 발명의 일 실시예에 따른 제안부는, 각 슬라이스 내에 포함된 키워드들 및/또는 연관 키워드들로부터 가장 적절한 일러스트 및/또는 배경음악을 제안할 수 있다. 예를 들어 본 발명의 일 실시예에 따른 제안부는, 각 슬라이스 내에 포함된 키워드들 및/또는 연관 키워드들 중 감정 표현을 나타내는 키워드들을 추출한다. 본 발명의 일 실시예에 따른 제안부는, 추출된 감정 표현을 나타내는 키워드들을 이용하여, 감정 표현을 나타내는 키워드들에 따라 기 분류된 음악 데이터들 내에서 해당 키워드에 대응하는 음악 데이터를 검색한다. 본 발명의 일 실시예에 따른 제안부는, 검색된 음악 데이터를 사용자에게 사용 여부를 제안할 수 있고, 저작권 구매 여부도 제안할 수 있다.

본 발명의 일 실시예에 따른 제안부는, 각 슬라이스 내에 포함된 키워드들 및/또는 연관 키워드들을 이용하여, 해당 슬라이스 내에서 보완할 점들을 지적하여 수정을 제안할 수 있다. 예를 들어, 제안부(460)는 특정 슬라이스 구간 내에서, 음악 보이스 정보의 가사와 해당 구간의 음악이 맞지 않거나 박자가 맞지 않는 경우라면 해당 구간 부분을 보정할 것을 제안할 수 있다.

또한 본 발명의 일 실시예는 다음과 같은 특징을 더 포함할 수도 있다.

예를 들면, 서버(110)는 가수의 음색에 대한 분석값을 가수별로 저장해 둔 상태에서, 사용자의 신규 보이스 정보(150)(예; 노래 음성)을 분석하여 사용자의 음색에 대한 분석값을 생성하고, 사용자의 음색에 대한 분석값과 가수별 음색에 대한 분석값을 비교하는 기능을 수행할 수 있다.

한편, 스마트폰 등의 이동통신단말기인 제1 단말(120)은 사용자로부터 입력받은 신규 보이스 정보(150)(예; 노래 음성)을 서버(110)에 송신하는 기능을 수행하고, 서버(110)가 분석한 사용자 음색의 분석 결과를 서버(110)로부터 수신한다.

본 발명의 일 실시예에 따른 서버(110)는 통신 모듈(1120), 저장 모듈(1150), 분석부, 연산부, 검색부(440)를 포함할 수 있다. 분석부 및/또는 연산부는 i) 도 10을 참조하여 후술하는 제어 모듈(1110)에 의해 구현되거나, ii) 도 4를 참조하여 전술한 전처리부(420), 키워드 추출부(430), 정보제공부(450), 제안부(460) 및/또는 매칭부(470)에 의해 구현될 수 있다.

먼저, 서버(110)의 통신 모듈(1120)는 가수별 노래 오디오 파일이 저장되어 있는 외부 서버로부터 가수별 노래 오디오 파일을 수신하며, 제1 단말(120)로부터 사용자의 신규 보이스 정보(150)(예; 노래 음성)을 수신한다.

한편, 서버(110)의 저장 모듈(1150)에는 통신 모듈(1120)이 수신한 가수별 노래 오디오 파일, 및 사용자의 노래 음성이 저장되어 있다.

서버(110)의 분석부는 저장 모듈(1150)에 저장되어 있는 가수의 오디오 파일로부터 가수의 보컬 사운드 데이터를 추출한 다음, 보컬 트랙을 별도로 생성하며, 해당 보컬 트랙을 분석함으로써, 각 가수의 음색에 대한 다양한 분석값을 생성한다.

또한, 서버(110)의 분석부는 저장 모듈(1150)에 저장되어 있는 사용자의 노래 음성으로부터 보컬 사운드 데이터를 추출한 다음, 보컬 트랙을 별도로 생성하며, 해당 보컬 트랙을 분석함으로써, 사용자의 음색에 대한 다양한 분석값을 생성한다.

한편, 서버(110)의 연산부는 사용자 음색에 대한 분석값과 각 가수별 음색에 대한 분석값을 비교함으로써, 사용자 음색의 각 가수별 음색과의 유사율(또는 비유사율)을 산출한다.

서버(110)의 검색부(440)는 사용자의 음색과 유사율이 가장 높은 것으로 판단된 가수의 노래 정보를 저장 모듈(1150)에서 검색하며, 검색된 노래 정보를 추천 선곡 정보로서 사용자에게 제공하는 기능을 수행한다.

이하에서는 본 발명의 일 실시예에 따른 사용자의 음색 분석 방법의 실행 과정을 설명하기로 한다.

먼저, 서버(110)의 분석부는 저장 모듈(1150)에 저장되어 있는 가수의 오디오 파일에서 보컬 사운드 데이터만을 반주 데이터와 분리하여 추출한다. 분석부는 이와 같이 추출된 보컬 사운드 데이터를 이용하여 보컬 트랙을 별도로 생성한 다음, 해당 보컬 트랙에 대한 다양한 분석을 실행한다.

구체적으로, 서버(110)의 분석부는 가수의 보컬 트랙에 대해 이퀄라이저(equalizer:EQ) 분석(그래픽 이퀄라이저 분석 또는 파라메트릭 이퀄라이저 분석)을 실행하며, 이퀄라이저 분석에 따라 생성된 분석 데이터인 가수별 EQ 데이터는 저장 모듈(1150)에 저장된다.

아울러, 서버(110)의 분석부는 가수의 보컬 트랙에 대한 주파수(frequency) 분석을 실행하고, 분석된 주파수 대역에 따라 고음, 중음, 저음 중 어느 하나로 해당 분석값을 생성하며, 생성된 분석 데이터인 가수별 주파수 대역 데이터를 저장 모듈(1150)에 저장할 수도 있을 것이다.

아울러, 서버(110)의 분석부는 가수의 보컬 트랙에 대한 파형(wave) 분석을 실행하고, 가수의 음성 파형들 간의 간격, 밀도, 파형의 굴곡부에서의 첨예도, 파형의 길이 또는 폭 등의 파형 정보를 수치함으로써 분석 데이터를 생성하며, 이와 같이 생성된 분석 데이터인 가수별 파형 데이터를 저장 모듈(1150)에 저장할 수도 있을 것이다.

그 다음, 서버(110)의 통신 모듈(1120)는 제1 단말(120)로부터 사용자의 노래 음성을 수신하며, 수신된 사용자 노래 음성은 저장 모듈(1150)에 사용자별로 저장된다.

이에 서버(110)의 분석부는 저장 모듈(1150)에 저장되어 있는 사용자의 오디오 파일에서 보컬 사운드 데이터를 반주 데이터와 분리하여 추출한다. 분석부는 이와 같이 추출된 사용자의 보컬 사운드 데이터를 이용하여 사용자별 보컬 트랙을 별도로 생성한 다음, 해당 보컬 트랙에 대한 다양한 분석을 실행하고, 그에 따라 사용자의 음색에 대한 다양한 음색 분석값을 생성한다.

한편, 서버(110)의 분석부가 사용자의 보컬 트랙에 대한 음색 분색을 실행함에 있어서는, 전술한 이퀄라이저 분석, 주파수 분석, 파형 분석을 동일한 방식으로 실행함이 바람직할 것이며, 그에 따라 생성된 사용자의 음색에 대한 EQ 데이터, 주파수 대역 데이터, 파형 데이터는 저장 모듈(1150)에 저장된다.

이와 같이 사용자의 음색에 대한 EQ 데이터, 주파수 대역 데이터, 파형 데이터 중 적어도 하나를 포함하는 음색 분석값의 생성이 완료된 다음, 서버(110)의 연산부는 전술한 S320 단계에서 저장 모듈(1150)에 저장된 가수별 음색 분석값과 전술한 S350 단계에서 생성된 음색 분석값을 수치 비교하며, 수치 비교값에 기초하여 사용자의 음색과 각 가수별 음색과의 유사 정도를 수치화한 유사율을 산출한다.

구체적으로, 다음의 표 1에서와 같이 서버(110)의 연산부는 사용자의 EQ 데이터와 각 가수별 EQ 데이터의 일치 정도를 수치화하고, 사용자의 주파수 대역 데이터와 각 가수별 주파수 대역 데이터의 일치 정도를 수치화하며, 사용자의 파형 데이터와 각 가수별 파형 데이터의 일치 정도를 수치화한 상태에서 사용자의 음색의 가수의 음색과의 유사율을 각 가수별로 산출한다.

	가수 A	가수 B	가수 C
EQ 일치도	80%	50%	50%
주파수 대역 일치도	70%	60%	60%
파형 일치도	60%	70%	40%
평균값(유사율)	70%	60%	50%

상기 표 1에서와 같이 서버(110)의 연산부는 가수 A를 사용자의 음색과 가장 유사한 음색을 갖고 있는 가수로 선정하게 되며, 그에 따라 서버(110)의 통신 모듈(1120)는 제1 단말(120)에 "당신의 음색은 가수 A와 유사하군요"와 같은 유사 음색 가수 알림 메시지를 송신하게 된다.한편, 본 발명을 실시함에 있어서, 서버(110)가 노래방 장비(200)에 유사 음색 가수 알림 메시지를 송신하는 경우에, 노래방 장비(200)를 통해 사용자가 선택한 곡목의 가수와의 표 1에서의 EQ 데이터 일치도, 주파수 대역 데이터 일치도, 파형 데이터 일치도 및 이들의 평균값 정보를 함께 송신할 수도 있을 것이다.

이에 따라 노래방 장비(200)는 서버(110)로부터 수신한, 사용자가 선곡한 노래를 부른 가수와 사용자와의 EQ 데이터 일치도, 주파수 대역 데이터 일치도, 파형 데이터 일치도 및 이들의 평균값 정보를 반영하여, 사용자의 노래 점수를 보다 정밀하게 산출할 수 있다.

예를 들어, 노래방 장비(200)는 기 산출된 사용자의 노래 점수와 서버(110)로부터 수신한 평균값의 산술 평균값을 원곡 가수와의 음색 일치율을 반영한 사용자의 노래 점수로서 산출할 수 있을 것이다.

한편, 본 발명을 실시함에 있어서, 사용자의 음색을 가수의 음색과 비교 분석함에 있어서, 상술한 EQ 데이터 분석, 주파수 대역 데이터 분석, 파형 데이터 분석 중 어느 하나만을 사용할 수도 있고, 필요에 따라서는 표 1에서와 같이 종합 분석을 실행할 수도 있으며, 바람직하게는, 음색의 유사 여부를 결정하는 기여 정도에 따른 각 가중치를 각 분석 데이터에 대해 개별적으로 부여한 상태에서 종합 분석을 실행할 수도 있을 것이다.

한편, 전술한 S370 단계에서 서버(110)의 연산부가 사용자의 음색과 가장 유사한 음색을 갖는 가수를 선정한 경우에, 검색부(440)는 저장 모듈(1150)에 저장되어 있는 가수별 노래 목록들 중에서 해당 가수의 노래 목록을 검색하고, 통신 모듈(1120)는 검색된 노래 목록을 제1 단말(120)에게 추천 노래 목록 정보로서 송신함이 바람직할 것이다.

아울러, 본 발명을 실시함에 있어서, 연산부는 상기 표 1에서의 데이터를 활용하여 사용자의 음색과 가수별 음색과의 비유사율을 산출함으로써, 사용자의 음성의 기존 가수의 음성들로부터 독창적인 정도를 수치화한 유니크율(unique value)을 산출할 수도 있을 것이다.

구체적으로, 표 1에서와 같이 사용자와 가수 A와의 유사율 평균값이 70%인 경우에 가수 A와의 비유사율은 30%로 산출되고, 가수 B와의 유사율 평균값이 60%인 경우에 가수 A와의 비유사율은 40%로 산출되며, 가수 C와의 유사율 평균값이 50%인 경우에 가수 A와의 비유사율은 50%로 산출된다.

그에 따라, 서버(110)의 연산부는 가수별 비유사율의 평균값을 40%로 산출하게 되며, 해당 수치는 사용자의 음성의 기존 가수의 음성들로부터 독창적인 정도를 수치화한 유니크율이 된다.

이와 같이 산출된 사용자 음색의 유니크율은 서버(110)의 통신 모듈(1120)를 통해 제1 단말(120)에게 송신되며, 그에 따라 사용자는 자신의 음색의 독창성 정도를 가늠할 수 있게 된다.

도 10은 본 발명의 일 실시예에 따른 시스템을 나타내는 블록도이다.

도 10을 참조하면, 본 발명은 일 실시예에 따라 음성 분석 결과를 이용하는 온라인 플랫폼을 운용하는 시스템(10)은 본 발명의 서버(110), 단말(120, 130) 및/또는 SNS 서버(140)를 포함할 수 있다. 이때 서버(110)는 '관리 서버', '중앙 서버', '메인 서버', '제1 서버' 등으로 호칭될 수 있으며, SNS 서버(140)는 '외부 서버', '제2 서버' 등으로 호칭될 수 있다.

또한 본 발명의 서버(110, 140)는 제1 제어 모듈(1110), 제1 통신 모듈(1120), 제1 입력 모듈(1130), 제1 출력 모듈(1140) 및/또는 저장 모듈(1150)을 포함할 수 있으며, 본 발명의 단말(120, 130)은 제2 제어 모듈(1210), 제2 통신 모듈(1220), 제2 입력 모듈(1230), 제2 출력 모듈(1240) 및/또는 내부배터리(1250)를 포함할 수 있다.

제어 모듈(1110, 1210)은 본 발명의 일 실시예에 따른 동작/단계/과정을 구현할 수 있도록 본 발명의 서버(110, 140) 및/또는 단말(120, 130)을 직/간접적으로 제어할 수 있다. 또한 제어 모듈(1110, 1210)은 적어도 하나의 프로세서(processor)를 포함할 수 있으며, 일 예로, 프로세서는 적어도 하나의 중앙 처리 유닛(CPU) 및/또는 적어도 하나의 그래픽 처리 디바이스(GPU)를 포함할 수 있다.

통신 모듈(1120, 1220)은 본 발명의 서버(110, 140) 및/또는 단말(120, 130) 등과 각종 데이터, 신호, 정보를 송수신할 수 있다. 또한, 통신 모듈(1120, 1220)은 무선 통신 모듈(예: 셀룰러 통신 모듈, 근거리 무선 통신 모듈, 또는 GNSS(global navigation satellite system) 통신 모듈) 또는 유선 통신 모듈(예: LAN(local area network) 통신 모듈, 또는 전력선 통신 모듈)을 포함할 수 있다. 또한, 통신 모듈(1120, 1220)은 제1 네트워크(예: 블루투스, WiFi direct 또는 IrDA(infrared data association) 같은 근거리 통신 네트워크) 또는 제2 네트워크(예: 셀룰러 네트워크, 인터넷, 또는 컴퓨터 네트워크(예: LAN 또는 WAN)와 같은 원거리 통신 네트워크)를 통하여 외부 전자 장치와 통신할 수 있다. 이런 여러 종류의 통신 모듈들은 하나의 구성 요소(예: 단일 칩)으로 통합되거나, 또는 서로 별도의 복수의 구성 요소들(예: 복수 칩들)로 구현될 수 있다.

입력 모듈(1130, 1230)은 본 발명의 서버(110, 140) 및/또는 단말(120, 130)의 구성요소(예: 제어 모듈(1110, 1210) 등)에 사용될 명령 또는 데이터를 본 발명의 서버(110, 140) 및/또는 단말(120, 130)의 외부(예: 단말(120)의 제1 사용자, 단말(130)의 제2 사용자, 서버(110, 140)의 관리자 등)로부터 수신할 수 있다.

또한, 입력 모듈(1130, 1230)은 본 발명의 서버(110, 140) 및/또는 단말(120, 130)에 설치된 터치인식가능 디스플레이, 터치패드, 버튼형 인식 모듈, 음성인식센서, 마이크, 마우스, 또는 키보드 등을 포함할 수 있다. 여기서 터치인식가능 디스플레이, 터치패드, 버튼형 인식 모듈은 감압식 및/또는 정전식 방식을 통하여 사용자의 신체(예; 손가락)를 통한 터치를 인식할 수 있다.

출력 모듈(1140, 1240)은 본 발명의 서버(110, 140) 및/또는 단말(120, 130)의 제어 모듈(1110, 1210)에 의해 생성되거나 통신 모듈(1120, 1220)을 통하여 획득된 신호(예; 음성 신호), 정보, 데이터, 이미지, 및/또는 각종 객체(object) 등을 표시하는 모듈이다. 예를 들면, 출력 모듈(1140, 1240)은 디스플레이, 스크린, 표시부(displaying unit), 스피커 및/또는 발광장치(예; LED 램프) 등을 포함할 수 있다.

저장 모듈(storage module)(1150)은, 예를 들면, 본 발명의 서버(110, 140) 및/또는 단말(120, 130)의 동작을 위한 기본 프로그램, 응용 프로그램, 설정 정보 등의 데이터를 저장한다. 또한, 저장 모듈(1150)은 플래시 메모리 타입(Flash Memory Type), 하드 디스크 타입(Hard Disk Type), 멀티미디어 카드 마이크로 타입(Multimedia Card Micro Type), 카드 타입의 메모리(예를 들면, SD 또는 XD 메모리 등), 자기 메모리, 자기 디스크, 광디스크, 램(Random Access Memory, RAM), SRAM(Static Random Access Memory), 롬(Read-Only Memory, ROM), PROM(Programmable Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory) 중 적어도 하나의 저장매체를 포함할 수 있다.

또한 저장 모듈(1150)은 본 발명의 서버(110, 140) 및/또는 단말(120, 130)을 사용하는 제1 사용자, 제2 사용자 및/또는 관리자의 개인정보를 포함할 수 있다. 여기서 개인정보는 이름, 아이디(ID; identifier), 패스워드, 주민등록번호, 도로명 주소, 전화 번호, 휴대폰 번호, 및/또는 이메일 주소 등을 포함할 수 있다. 또한 제어 모듈(1110, 1210)은 저장 모듈(1150)에 저장된 각종 프로그램, 컨텐츠, 데이터 등을 이용하여 다양한 동작을 수행할 수 있다.

또한 본 발명의 일 실시예에 따른 서버(110)는, 적어도 하나의 프로세서(processor); 및/또는 적어도 하나의 프로세서가 적어도 하나의 단계를 수행하도록 지시하는 명령어들(instructions)을 저장하는 저장 모듈(1150)을 포함할 수 있다.

실시예들에 따르면, 적어도 하나의 단계는, 단말(120, 130)로부터 보이스 정보를 수신하는 단계; 보이스 정보를 전처리하는 단계, 전처리된 보이스 정보는 복수의 슬라이스(slice)를 포함함; 각 슬라이스 별로, 보이스 정보로부터 복수의 키워드(keyword)들을 추출하는 단계; 복수의 키워드들로부터 보이스 정보와 연관된 필요 정보를 생성하는 단계; 및/또는 보이스 정보와 연관된 필요 정보를 단말(120, 130)에 전송하는 단계; 를 포함할 수 있다.

본 발명의 일 실시예에 따른 전처리하는 단계는: 보이스 정보가 음성 데이터, 이미지 데이터 또는 비디오 데이터인 경우, 보이스 정보를 텍스트 데이터로 변환하는 단계; 및/또는 텍스트 데이터를 복수의 슬라이스(slice)들로 분할하는 단계; 를 포함할 수 있다. 보이스 정보가 음성 데이터인 경우, 음성 데이터를 인식하고, 인식된 음성 데이터를 나타내는 텍스트 데이터를 생성할 수 있다. 보이스 정보가 이미지 데이터 또는 비디오 데이터인 경우, 이미지 데이터 또는 비디오 데이터로부터 구성요소들을 추출하고, 구성요소들을 나타내는 텍스트 데이터를 생성할 수 있다.

나아가 본 발명의 일 실시예에 따른 키워드들을 추출하는 단계는, 각 슬라이스 별로, 보이스 정보로부터 추출된 키워드들에 기초하여 적어도 하나의 연관 키워드(associated keyword)를 생성하는 단계; 및/또는 복수의 키워드들 및 적어도 하나의 연관 키워드를 인터리빙하여 인터리빙된 프레임(interleaved frame)을 생성하는 단계; 를 포함할 수 있다.

나아가, 연관 키워드를 생성하는 단계는 뉴럴 네트워크 모델(Neural Network Model)에 기초하여 연관 키워드를 생성한다.

더 나아가, 본 발명의 일 실시예에 따른 인터리빙된 프레임(interleaved frame)은 헤더(header) 및 복수의 서브-프레임(sub-frame)들을 포함할 수 있다. 헤더(header)는 복수의 슬라이스들의 개수를 나타내는 정보 및 하나 또는 그 이상의 서브-프레임들의 개수를 나타내는 정보를 포함할 수 있고, 서브-프레임은, 각 슬라이스에 포함된 키워드들 중 하나 또는 그 이상의 키워드 및 각 슬라이스에 포함된 연관 키워드를 포함할 수 있다. 각 서브-프레임 내 포함된 하나 또는 그 이상의 키워드 및 연관 키워드는 슬라이스의 오름차순 순서로 정렬될 수 있다.

더 나아가, 본 발명의 일 실시예에 따른 필요 정보를 생성하는 단계는 제2 뉴럴 네트워크 모델(Neural Network Model)을 이용하여, 서브-프레임에 포함된 키워드들로부터 보이스 정보와 연관된 필요 정보를 생성할 수 있다. 나아가, 보이스 정보와 연관된 필요 정보는, 보이스 정보의 장르(genre)를 나타내는 정보, 보이스 정보와 유사한 보이스 정보를 나타내는 정보를 포함할 수 있다.

더 나아가, 본 발명의 일 실시예에 따른 적어도 하나의 단계는, 단말(120, 130)에 필요 정보에 기초하여 보이스 정보를 보완하기 위한 제안 정보를 생성하는 단계; 및/또는, 제안 정보를 전송하는 단계; 를 포함할 수 있다.

나아가, 본 발명의 일 실시예에 따른 보이스 정보를 보완하기 위한 제안 정보는, 각 슬라이스 별로, 각 슬라이스 내 포함된 키워드를 포함하는 음악, 이미지 또는 비디오에 대한 정보를 포함할 수 있다.

나아가, 본 발명의 일 실시예에 따른 제안 정보를 생성하는 단계는 제1 슬라이스 내 키워드들 중 심리와 관련된 키워드들을 탐색하고, 탐색된 키워드들이 임계 값보다 적은 경우, 필요 정보는 제1 슬라이스 내 심리와 관련된 단어의 추가를 제안하는 메시지를 더 포함할 수 있다.

또한 본 발명의 일 실시예에 따른 온라인 플랫폼을 운용하는 서버의 동작 방법은, 서버(110)가 수행 이벤트(및/또는 미션) 조건이 포함된 이벤트(및/또는 미션) 콘텐츠를 생성하고, 적어도 하나 이상의 제1 사용자 단말(120)로부터 사용자 계정 정보를 수집하여 이벤트(및/또는 미션) 참여 신청을 수신하는 이벤트(및/또는 미션) 개최 단계; 제1 사용자 단말(120)이 이벤트(및/또는 미션) 콘텐츠에 대한 액션을 발생시키는 이벤트(및/또는 미션) 수행 단계; 서버(110)가 상기 액션이 수행 이벤트(및/또는 미션) 조건에 부합하는지 여부를 검증하여, 부합하는 경우 상기 액션에 대응하는 사용자 계정으로 제1 보상을 지급하는 제1 보상 지급 단계; 제1 보상을 지급 받은 제1 사용자 단말(120)에 한하여 서버(110)로 제2 보상 지급을 신청하는 제2 보상 신청 단계; 및 서버(110)가 기설정된 규칙에 따라, 제2 보상을 신청한 각각의 사용자 계정에 배분될 보상을 결정하고, 각 사용자 계정으로 제2 보상을 지급하는 제2 보상 지급 단계를 포함하는 온라인 광고 플랫폼을 이용한 장학금 지급 방법에 의해 달성될 수 있다.

또한 본 발명의 일 실시예에 따르면, 상기 이벤트(및/또는 미션) 개최 단계 이전에 제1 사용자 단말(120)이 대학교 이메일 계정 정보 또는 학생증 캡쳐 정보를 포함하는 사용자 인증 정보를 서버(110)에 전달하여 사용자 계정의 생성을 요청하는 회원가입 신청 단계를 더 포함하고, 서버(110)는 대학교 이메일 계정 정보 또는 학생증 캡쳐 정보를 검증하여, 유효한 대학생 신분인증이 이루어지지 않는 경우 회원가입 신청을 거절할 수 있다.

또한 본 발명의 일 실시예에 따르면, 상기 이벤트(및/또는 미션) 개최 단계에 있어서 서버(110)는 수집된 사용자 계정 정보를 데이터베이스에 저장된 블랙리스트 정보와 비교하여, 매칭하는 블랙리스트 정보가 존재하는 경우 이벤트(및/또는 미션) 참여 신청을 거절할 수 있다.

또한 본 발명의 일 실시예에 따르면, 상기 액션은 하나 이상의 온라인 플랫폼의 유저 인터페이스에서 제공하는 게시물에 대한 선호도 표시, 게시물 공유, 게시물 댓글, 다른 사용자계정 태그, 해시태그 부여, 게시글 작성, 텍스트 업로드, 사진 업로드 및 동영상 업로드 중 적어도 하나의 액션을 포함할 수 있다.

또한 본 발명의 일 실시예에 따르면, 상기 수행 이벤트(및/또는 미션) 조건은 사용자 계정으로부터 발생한 액션이 특정한 위치 정보를 포함한 액션일 것 또는 특정한 시간대에 발생할 것을 필수조건으로 포함할 수 있다.

또한 본 발명의 일 실시예에 따르면, 상기 제1 보상 지급 단계 이전에 광고주 단말이 서버(110)로 보상 지급 방식 정보를 전달하여 광고주 계정별로 보상 지급 방식을 설정하는 보상 지급방식 설정 단계를 더 포함하고, 서버(110)는 상기 보상 지급 방식 정보에 따라 제1 보상 및 제2 보상을 지급할 수 있다.

또한 본 발명의 일 실시예에 따르면, 보상 지급 방식 정보는 광고주 계정별로 설정된 즉시 지급액 정보를 포함하며, 제1 보상 지급 단계에 있어서, 서버(110)는 액션이 수행 이벤트(및/또는 미션) 조건에 부합하는 경우 사용자 계정 정보에 포함된 포인트 계좌 또는 은행 계좌로 즉시 지급액 정보에 해당하는 포인트 또는 현금 장학금을 제1 보상으로 지급할 수 있다.

또한 본 발명의 일 실시예에 따르면, 보상 지급 방식 정보는 광고주 계정별로 설정된 통합 지급액 정보를 포함하며, 제2 보상 지급 단계에 있어서, 서버(110)는 각각의 광고주 계정별로 할당된 통합 지급액을 합산하여, 제2 보상을 요청한 사용자 계정에 보상 지급 방식 정보에 따라 합산된 통합 지급액을 배분하여 제2 보상을 결정할 수 있다.

또한 본 발명의 일 실시예에 따르면, 상기 제1 보상은 제2 보상 신청 응모권을 포함하며, 제2 보상의 규모는 사용자 계정별로 부여된 제2 보상 신청 응모권의 개수에 따라 비례 배분하여 결정될 수 있다.

또한 본 발명의 일 실시예에 따르면, 제1 보상 지급 단계 또는 제2 보상 지급 단계 이후에, 제1 사용자 단말(120)이, 기설정된 양식에 따라 작성된 사용자 리뷰 정보를 서버(110)로 전달하고, 서버(110)는 사용자 리뷰 정보를 통계 정보로 변환하여 광고주 단말에 제공하는 사용자 리뷰 단계를 더 포함할 수 있다.

또한 본 발명의 일 실시예에 따른 온라인 플랫폼(및/또는 시스템, 방법)은 서버(110)가 광고주 단말로부터 즉시 지급액 정보와 통합 지급액 정보를 포함하는 보상 지급 방식 정보, 광고 콘텐츠, 및 수행 이벤트(및/또는 미션) 조건을 수신하는 단계; 서버(110)가 상기 광고 콘텐츠를 기초로 상기 수행 이벤트(및/또는 미션) 조건이 포함된 이벤트(및/또는 미션) 콘텐츠를 생성하는 단계; 서버(110)가 적어도 하나의 제1 사용자 단말(120)로부터 이벤트(및/또는 미션) 참가 신청을 수신하는 단계; 서버(110)가 상기 제1 사용자 단말(120)의 사용자 계정을 분석하여 이벤트(및/또는 미션) 참가의 허용 여부를 결정하는 단계; 상기 이벤트(및/또는 미션) 참가가 허용된 제1 사용자 단말(120)이 이벤트(및/또는 미션) 콘텐츠에 대한 액션을 발생시키는 단계; 서버(110)가 상기 액션이 상기 수행 이벤트(및/또는 미션) 조건에 부합하는지 여부를 검증하는 단계; 상기 액션이 상기 수행 이벤트(및/또는 미션) 조건에 부합하지 않는 경우, 상기 사용자에 의해 상기 수행 이벤트(및/또는 미션) 조건에 부합되는 액션이 다시 수행되도록 서버(110)가 제1 사용자 단말(120)에 안내하는 단계; 상기 액션이 상기 수행 이벤트(및/또는 미션) 조건에 부합하는 경우, 서버(110)가 상기 액션에 대응하는 사용자 계정으로 상기 즉시 지급액 정보에 따라 제1 보상을 지급하는 단계; 상기 제1 보상을 지급 받은 제1 사용자 단말(120)이 상기 제1 보상에 포함된 제2 보상 신청 응모권을 이용하여 서버(110)로 제2 보상의 지급을 신청하는 단계; 및 서버(110)가 상기 통합 지급액 정보를 기초로 광고주 계정별로 할당된 통합 지급액을 합산하고, 합산된 통합 지급액을 보상 지급 방식 정보에 따라 상기 제2 보상을 신청한 각 사용자 계정에 배분될 보상을 결정하고, 각 사용자 계정으로 상기 제2 보상을 지급하는 단계를 포함할 수 있다.

예를 들어, 상기 제1 보상은 상기 액션이 상기 수행 이벤트(및/또는 미션) 조건에 부합되면 즉각적으로 지급되는 보상이고, 상기 제2 보상은 상기 수행 이벤트(및/또는 미션) 조건에 부합되는 액션이 수행되는 횟수에 따라 차등적으로 지급되는 보상일 수 있다.

상기 제2 보상의 지급을 신청하는 단계는, 예를 들면, 상기 제2 보상 신청 응모권을 가진 제1 사용자 단말(120)만이 상기 제2 보상의 지급을 신청할 수 있으며, 상기 제2 보상의 지급을 신청할 때 상기 제2 보상 신청 응모권이 소모되는 것을 특징으로 할 수 있다.

상기 제2 보상을 지급하는 단계는, 예를 들면, 합산된 통합 지급액을 사용자 계정별로 부여된 상기 보상 신청 응모권의 개수에 따라 비례 배분하여 상기 제2 보상을 지급하는 것을 특징으로 할 수 있다.

또한 본 발명의 일 실시예에 따른 음성 분석 결과를 이용하는 온라인 플랫폼을 운용하는 서버의 동작 방법은, (a) 서버(110)가, 제1 사용자 단말(120)로부터 이벤트(및/또는 미션) 등록 신청을 수신하는 단계; (b) 상기 서버(110)가, 상기 제1 사용자 단말(120)로부터 이벤트(및/또는 미션) 수행 정보를 수신하는 단계; (c) 상기 서버(110)가, 상기 이벤트(및/또는 미션) 수행 정보에 기초하여 제1 사용자에게 지급되는 보상을 산정(및/또는 산출, 설정)하는 단계; (d) 상기 서버(110)가, 상기 제1 사용자에게 지급된 보상에 대한 다른 사용자와의 공유 신청을 상기 제1 사용자 단말(120)로부터 수신하는 단계; 및 (e) 상기 서버(110)가, 제2 사용자 단말(130)로부터 상기 보상에 대한 지급 신청을 수신하는 단계를 포함할 수 있다.

상기 (d) 단계에서의 상기 공유 신청에는 상기 보상의 공유 대상자가 소지하고 있는 사용자 단말의 고유 식별 정보, 상기 제1 사용자에게 지급된 보상 중 다른 사용자와 공유하기로 결정된 보상인 공유 보상 정보, 상기 공유 대상자의 인원수 정보, 및 상기 공유 대상자 1인당 공유 보상의 사용 한도가 포함될 수 있다.

상기 (e) 단계에서의 상기 지급 신청에는 상기 제2 사용자 단말(130)의 고유 식별 정보, 및 지급 요청 보상 정보가 포함될 수 있다.

상기 동작 방법은, (f) 상기 서버(110)가, 상기 공유 신청에 포함된 고유 식별 정보와 상기 지급 신청에 포함된 고유 식별 정보에 기초하여 제2 사용자의 공유 자격을 판단하는 단계; 및 (g) 상기 서버(110)가, 상기 제2 사용자에게 지급된 상기 보상에 상응하여, 상기 보상을 상기 제2 사용자와 공유한 상기 제1 사용자에게 지급되는 현금 보상액을 산정(및/또는 산출, 설정)하는 단계; 를 더 포함할 수 있다.

상기 동작 방법은, 상기 (d) 단계 이후, 상기 (e) 단계 이전에, 상기 서버(110)가, 상기 공유 신청에 포함된 공유 보상이 상기 제1 사용자에게 지급된 보상 이하인 경우에 상기 공유 보상을 등록하는 단계; 및 상기 서버(110)가, 상기 제2 사용자 단말(130)로 공유 보상의 지급 신청 안내 메시지를 송신하는 단계; 를 더 포함할 수 있다.

상기 동작 방법은, 상기 (f) 단계 이후, 상기 (g) 단계 이전에, 상기 서버(110)가, 상기 지급 신청에 포함된 지급 요청 보상이 상기 1인당 공유 보상의 사용 한도를 초과하지 않고, 상기 지급 요청 보상이 상기 공유 보상 중 다른 공유 대상자에게 선지급됨에 따라 남겨진 잔여 공유 보상을 초과하지 않는 경우에 상기 제2 사용자 단말(130)의 고유 식별 정보를 포함하는 공유 보상 지급 승인 요청을 상기 제1 사용자 단말(120)로 송신하는 단계; 상기 서버(110)가, 상기 제1 사용자 단말(120)로부터 공유 보상 지급 승인 메시지를 수신하는 경우에, 상기 제2 사용자가 상기 제1 사용자로부터 지급받은 보상 정보를 상기 제2 사용자의 계정에 상기 제1 사용자 단말(120)의 고유 식별 정보와 연관 저장하는 단계; 및 상기 서버(110)가, 상기 제2 사용자가 상기 제1 사용자로부터 지급받은 보상을 이용한 상품 대금 결제를 승인 처리한 결제 서버(또는 외부 서버(140))로부터 공유 보상 사용 정보를 수신하는 단계; 를 더 포함할 수 있다.

상기 동작 방법은, 상기 (g) 단계에서, 상기 서버(110)는 상기 공유 보상 사용 정보에 포함되어 있는, 상품 대금 결제에 사용된 보상 정보에 기초하여 상기 제1 사용자에게 지급되는 현금 보상액을 산정(및/또는 산출, 설정)하는 것을 특징으로 할 수 있다.

본 문서의 다양한 실시예들에 따른 사용자 단말(120, 130) 및/또는 서버(110, 140) 등은 이하 전자 장치로써 설명될 수 있다. 또한 전자 장치는, 예를 들면, 스마트폰, 태블릿 PC, 이동 전화기, 영상 전화기, 전자책 리더기, 데스크탑 PC, 랩탑 PC, 넷북 컴퓨터, 워크스테이션, 서버, PDA, PMP(portable multimedia player), MP3 플레이어, 의료기기, 카메라, 또는 웨어러블 장치 중 적어도 하나를 포함할 수 있다. 웨어러블 장치는 액세서리형(예: 시계, 반지, 팔찌, 발찌, 목걸이, 안경, 콘택트 렌즈, 또는 머리 착용형 장치(head-mounted-device(HMD)), 직물 또는 의류 일체형(예: 전자 의복), 신체 부착형(예: 스킨 패드 또는 문신), 또는 생체 이식형 회로 중 적어도 하나를 포함할 수 있다. 어떤 실시예들에서, 전자 장치는, 예를 들면, 텔레비전, DVD(digital video disk) 플레이어, 오디오, 냉장고, 에어컨, 청소기, 오븐, 전자레인지, 세탁기, 공기 청정기, 셋톱 박스, 홈 오토매이션 컨트롤 패널, 보안 컨트롤 패널, 미디어 박스(예: 삼성 HomeSync^TM, 애플TV^TM, 또는 구글 TV^TM), 게임 콘솔(예: Xbox^TM, PlayStation^TM), 전자 사전, 전자 키, 캠코더, 또는 전자 액자 중 적어도 하나를 포함할 수 있다.

다른 실시예에서, 전자 장치는, 각종 의료기기(예: 각종 휴대용 의료측정기기(혈당 측정기, 심박 측정기, 혈압 측정기, 또는 체온 측정기 등), MRA(magnetic resonance angiography), MRI(magnetic resonance imaging), CT(computed tomography), 촬영기, 또는 초음파기 등), 네비게이션 장치, 위성 항법 시스템(GNSS(global navigation satellite system)), EDR(event data recorder), FDR(flight data recorder), 자동차 인포테인먼트 장치, 선박용 전자 장비(예: 선박용 항법 장치, 자이로 콤파스 등), 항공 전자기기(avionics), 보안 기기, 차량용 헤드 유닛(head unit), 산업용 또는 가정용 로봇, 드론(drone), 금융 기관의 ATM, 상점의 POS(point of sales), 또는 사물 인터넷 장치 (예: 전구, 각종 센서, 스프링클러 장치, 화재 경보기, 온도조절기, 가로등, 토스터, 운동기구, 온수탱크, 히터, 보일러 등) 중 적어도 하나를 포함할 수 있다. 어떤 실시예에 따르면, 전자 장치는 가구, 건물/구조물 또는 자동차의 일부, 전자 보드(electronic board), 전자 사인 수신 장치(electronic signature receiving device), 프로젝터, 또는 각종 계측 기기(예: 수도, 전기, 가스, 또는 전파 계측 기기 등) 중 적어도 하나를 포함할 수 있다. 다양한 실시예에서, 전자 장치는 플렉서블하거나, 또는 전술한 다양한 장치들 중 둘 이상의 조합일 수 있다. 본 문서의 실시예에 따른 전자 장치는 전술한 기기들에 한정되지 않는다. 본 문서에서, 사용자라는 용어는 전자 장치를 사용하는 사람 또는 전자 장치를 사용하는 장치(예: 인공지능 전자 장치)를 지칭할 수 있다.

또한 전자 장치는 버스, 프로세서, 메모리, 입출력 인터페이스, 디스플레이, 및 통신 인터페이스를 포함할 수 있다. 어떤 실시예에서는, 전자 장치는, 구성요소들 중 적어도 하나를 생략하거나 다른 구성요소를 추가적으로 구비할 수 있다. 버스는 구성요소들을 서로 연결하고, 구성요소들 간의 통신(예: 제어 메시지 또는 데이터)을 전달하는 회로를 포함할 수 있다. 프로세서는, 중앙처리장치, 어플리케이션 프로세서, 또는 커뮤니케이션 프로세서(communication processor(CP)) 중 하나 또는 그 이상을 포함할 수 있다. 프로세서는, 예를 들면, 전자 장치의 적어도 하나의 다른 구성요소들의 제어 및/또는 통신에 관한 연산이나 데이터 처리를 실행할 수 있다.

메모리는, 휘발성 및/또는 비휘발성 메모리를 포함할 수 있다. 메모리는, 예를 들면, 전자 장치의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 저장할 수 있다. 한 실시예에 따르면, 메모리는 소프트웨어 및/또는 프로그램을 저장할 수 있다. 프로그램은, 예를 들면, 커널, 미들웨어, 어플리케이션 프로그래밍 인터페이스(API), 및/또는 어플리케이션 프로그램(또는 "어플리케이션") 등을 포함할 수 있다. 커널, 미들웨어, 또는 API의 적어도 일부는, 운영 시스템으로 지칭될 수 있다. 커널은, 예를 들면, 다른 프로그램들(예: 미들웨어, API, 또는 어플리케이션 프로그램)에 구현된 동작 또는 기능을 실행하는 데 사용되는 시스템 리소스들(예: 버스, 프로세서, 또는 메모리 등)을 제어 또는 관리할 수 있다. 또한, 커널은 미들웨어, API, 또는 어플리케이션 프로그램에서 전자 장치의 개별 구성요소에 접근함으로써, 시스템 리소스들을 제어 또는 관리할 수 있는 인터페이스를 제공할 수 있다.

미들웨어는, 예를 들면, API 또는 어플리케이션 프로그램이 커널과 통신하여 데이터를 주고받을 수 있도록 중개 역할을 수행할 수 있다. 또한, 미들웨어는 어플리케이션 프로그램으로부터 수신된 하나 이상의 작업 요청들을 우선 순위에 따라 처리할 수 있다. 예를 들면, 미들웨어는 어플리케이션 프로그램 중 적어도 하나에 전자 장치의 시스템 리소스(예: 버스, 프로세서, 또는 메모리 등)를 사용할 수 있는 우선 순위를 부여하고, 상기 하나 이상의 작업 요청들을 처리할 수 있다. API는 어플리케이션이 커널 또는 미들웨어에서 제공되는 기능을 제어하기 위한 인터페이스로, 예를 들면, 파일 제어, 창 제어, 영상 처리, 또는 문자 제어 등을 위한 적어도 하나의 인터페이스 또는 함수(예: 명령어)를 포함할 수 있다. 입출력 인터페이스는, 예를 들면, 사용자 또는 다른 외부 기기로부터 입력된 명령 또는 데이터를 전자 장치의 다른 구성요소(들)에 전달하거나, 또는 전자 장치의 다른 구성요소(들)로부터 수신된 명령 또는 데이터를 사용자 또는 다른 외부 기기로 출력할 수 있다.

디스플레이는, 예를 들면, 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이, 유기 발광 다이오드(OLED) 디스플레이, 또는 마이크로 전자기계 시스템(MEMS) 디스플레이, 또는 전자종이(electronic paper) 디스플레이를 포함할 수 있다. 디스플레이는, 예를 들면, 사용자에게 각종 콘텐츠(예: 텍스트, 이미지, 비디오, 아이콘, 및/또는 심볼 등)을 표시할 수 있다. 디스플레이는, 터치 스크린을 포함할 수 있으며, 예를 들면, 전자 펜 또는 사용자의 신체의 일부를 이용한 터치, 제스쳐, 근접, 또는 호버링 입력을 수신할 수 있다. 통신 인터페이스는, 예를 들면, 전자 장치와 외부 장치(예: 제1 외부 전자 장치, 제2 외부 전자 장치, 또는 서버) 간의 통신을 설정할 수 있다. 예를 들면, 통신 인터페이스는 무선 통신 또는 유선 통신을 통해서 네트워크에 연결되어 외부 장치(예: 제2 외부 전자 장치 또는 서버)와 통신할 수 있다.

무선 통신은, 예를 들면, LTE, LTE-A(LTE Advance), CDMA(code division multiple access), WCDMA(wideband CDMA), UMTS(universal mobile telecommunications system), WiBro(Wireless Broadband), 또는 GSM(Global System for Mobile Communications) 등 중 적어도 하나를 사용하는 셀룰러 통신을 포함할 수 있다. 한 실시예에 따르면, 무선 통신은, 예를 들면, WiFi(wireless fidelity), 블루투스, 블루투스 저전력(BLE), 지그비(Zigbee), NFC(near field communication), 자력 시큐어 트랜스미션(Magnetic Secure Transmission), 라디오 프리퀀시(RF), 또는 보디 에어리어 네트워크(BAN) 중 적어도 하나를 포함할 수 있다. 한실시예에 따르면, 무선 통신은 GNSS를 포함할 수 있다. GNSS는, 예를 들면, GPS(Global Positioning System), Glonass(Global Navigation Satellite System), Beidou Navigation Satellite System(이하 "Beidou") 또는 Galileo, the European global satellite-based navigation system일 수 있다. 이하, 본 문서에서는, "GPS"는 "GNSS"와 상호 호환적으로 사용될 수 있다. 유선 통신은, 예를 들면, USB(universal serial bus), HDMI(high definition multimedia interface), RS-232(recommended standard232), 전력선 통신, 또는 POTS(plain old telephone service) 등 중 적어도 하나를 포함할 수 있다. 네트워크는 텔레커뮤니케이션 네트워크, 예를 들면, 컴퓨터 네트워크(예: LAN 또는 WAN), 인터넷, 또는 텔레폰 네트워크 중 적어도 하나를 포함할 수 있다.

제1 및 제2 외부 전자 장치 각각은 전자 장치와 동일한 또는 다른 종류의 장치일 수 있다. 다양한 실시예에 따르면, 전자 장치에서 실행되는 동작들의 전부 또는 일부는 다른 하나 또는 복수의 전자 장치(예: 전자 장치, 또는 서버에서 실행될 수 있다. 한 실시예에 따르면, 전자 장치가 어떤 기능이나 서비스를 자동으로 또는 요청에 의하여 수행해야 할 경우에, 전자 장치는 기능 또는 서비스를 자체적으로 실행시키는 대신에 또는 추가적으로, 그와 연관된 적어도 일부 기능을 다른 장치(예: 전자 장치, 또는 서버)에게 요청할 수 있다. 다른 전자 장치(예: 전자 장치, 또는 서버)는 요청된 기능 또는 추가 기능을 실행하고, 그 결과를 전자 장치로 전달할 수 있다. 전자 장치는 수신된 결과를 그대로 또는 추가적으로 처리하여 요청된 기능이나 서비스를 제공할 수 있다. 이를 위하여, 예를 들면, 클라우드 컴퓨팅, 분산 컴퓨팅, 또는 클라이언트-서버 컴퓨팅 기술이 이용될 수 있다.

전자 장치는 하나 이상의 프로세서(예: AP), 통신 모듈, (가입자 식별 모듈, 메모리, 센서 모듈, 입력 장치, 디스플레이, 인터페이스, 오디오 모듈, 카메라 모듈, 전력 관리 모듈, 배터리, 인디케이터, 및 모터를 포함할 수 있다. 프로세서는, 예를 들면, 운영 체제 또는 응용 프로그램을 구동하여 프로세서에 연결된 다수의 하드웨어 또는 소프트웨어 구성요소들을 제어할 수 있고, 각종 데이터 처리 및 연산을 수행할 수 있다. 프로세서는, 예를 들면, SoC(system on chip)로 구현될 수 있다. 한 실시예에 따르면, 프로세서는 GPU(graphic processing unit) 및/또는 이미지 신호 프로세서를 더 포함할 수 있다. 프로세서는 다른 구성요소들(예: 비휘발성 메모리) 중 적어도 하나로부터 수신된 명령 또는 데이터를 휘발성 메모리에 로드)하여 처리하고, 결과 데이터를 비휘발성 메모리에 저장할 수 있다.

통신 모듈(예: 통신 인터페이스)와 동일 또는 유사한 구성을 가질 수 있다. 통신 모듈은, 예를 들면, 셀룰러 모듈, WiFi 모듈, 블루투스 모듈, GNSS 모듈, NFC 모듈 및 RF 모듈을 포함할 수 있다. 셀룰러 모듈은, 예를 들면, 통신망을 통해서 음성 통화, 영상 통화, 문자 서비스, 또는 인터넷 서비스 등을 제공할 수 있다. 한 실시예에 따르면, 셀룰러 모듈은 가입자 식별 모듈(예: SIM 카드)을 이용하여 통신 네트워크 내에서 전자 장치의 구별 및 인증을 수행할 수 있다. 한 실시예에 따르면, 셀룰러 모듈은 프로세서가 제공할 수 있는 기능 중 적어도 일부 기능을 수행할 수 있다. 한 실시예에 따르면, 셀룰러 모듈은 커뮤니케이션 프로세서(CP)를 포함할 수 있다. 어떤 실시예에 따르면, 셀룰러 모듈, WiFi 모듈, 블루투스 모듈, GNSS 모듈 또는 NFC 모듈 중 적어도 일부(예: 두 개 이상)는 하나의 integrated chip(IC) 또는 IC 패키지 내에 포함될 수 있다. RF 모듈은, 예를 들면, 통신 신호(예: RF 신호)를 송수신할 수 있다. RF 모듈은, 예를 들면, 트랜시버, PAM(power amp module), 주파수 필터, LNA(low noise amplifier), 또는 안테나 등을 포함할 수 있다. 다른 실시예에 따르면, 셀룰러 모듈, WiFi 모듈, 블루투스 모듈, GNSS 모듈 또는 NFC 모듈 중 적어도 하나는 별개의 RF 모듈을 통하여 RF 신호를 송수신할 수 있다. 가입자 식별 모듈은, 예를 들면, 가입자 식별 모듈을 포함하는 카드 또는 임베디드 SIM을 포함할 수 있으며, 고유한 식별 정보(예: ICCID(integrated circuit card identifier)) 또는 가입자 정보(예: IMSI(international mobile subscriber identity))를 포함할 수 있다.

메모리(예: 메모리)는, 예를 들면, 내장 메모리 또는 외장 메모리를 포함할 수 있다. 내장 메모리는, 예를 들면, 휘발성 메모리(예: DRAM, SRAM, 또는 SDRAM 등), 비휘발성 메모리(예: OTPROM(one time programmable ROM), PROM, EPROM, EEPROM, mask ROM, flash ROM, 플래시 메모리, 하드 드라이브, 또는 솔리드 스테이트 드라이브(SSD) 중 적어도 하나를 포함할 수 있다. 외장 메모리는 플래시 드라이브(flash drive), 예를 들면, CF(compact flash), SD(secure digital), Micro-SD, Mini-SD, xD(extreme digital), MMC(multi-media card) 또는 메모리 스틱 등을 포함할 수 있다. 외장 메모리는 다양한 인터페이스를 통하여 전자 장치와 기능적으로 또는 물리적으로 연결될 수 있다.

센서 모듈은, 예를 들면, 물리량을 계측하거나 전자 장치의 작동 상태를 감지하여, 계측 또는 감지된 정보를 전기 신호로 변환할 수 있다. 센서 모듈은, 예를 들면, 제스처 센서, 자이로 센서, 기압 센서, 마그네틱 센서, 가속도 센서, 그립 센서, 근접 센서, 컬러(color) 센서(예: RGB(red, green, blue) 센서), 생체 센서, 온/습도 센서, 조도 센서, 또는 UV(ultra violet) 센서 중의 적어도 하나를 포함할 수 있다. 추가적으로 또는 대체적으로, 센서 모듈은, 예를 들면, 후각(e-nose) 센서, 일렉트로마이오그라피(EMG) 센서, 일렉트로엔씨팔로그램(EEG) 센서, 일렉트로카디오그램(ECG) 센서, IR(infrared) 센서, 홍채 센서 및/또는 지문 센서를 포함할 수 있다. 센서 모듈은 그 안에 속한 적어도 하나 이상의 센서들을 제어하기 위한 제어 회로를 더 포함할 수 있다. 어떤 실시예에서는, 전자 장치는 프로세서의 일부로서 또는 별도로, 센서 모듈을 제어하도록 구성된 프로세서를 더 포함하여, 프로세서가 슬립(sleep) 상태에 있는 동안, 센서 모듈을 제어할 수 있다.

입력 장치는, 예를 들면, 터치 패널, (디지털) 펜 센서, 키, 또는 초음파 입력 장치를 포함할 수 있다. 터치 패널은, 예를 들면, 정전식, 감압식, 적외선 방식, 또는 초음파 방식 중 적어도 하나의 방식을 사용할 수 있다. 또한, 터치 패널은 제어 회로를 더 포함할 수도 있다. 터치 패널은 택타일 레이어(tactile layer)를 더 포함하여, 사용자에게 촉각 반응을 제공할 수 있다. (디지털) 펜 센서는, 예를 들면, 터치 패널의 일부이거나, 별도의 인식용 쉬트를 포함할 수 있다. 키는, 예를 들면, 하드웨어 버튼, 광학식 키, 또는 키패드를 포함할 수 있다. 초음파 입력 장치는 마이크를 통해, 입력 도구에서 발생된 초음파를 감지하여, 상기 감지된 초음파에 대응하는 데이터를 확인할 수 있다.

디스플레이는 패널, 홀로그램 장치, 프로젝터, 및/또는 이들을 제어하기 위한 제어 회로를 포함할 수 있다. 패널은, 예를 들면, 유연하게, 투명하게, 또는 착용할 수 있게 구현될 수 있다. 패널은 터치 패널과 하나 이상의 모듈로 구성될 수 있다. 한 실시예에 따르면, 패널은 사용자의 터치에 대한 압력의 세기를 측정할 수 있는 압력 센서(또는 포스 센서)를 포함할 수 있다. 상기 압력 센서는 터치 패널과 일체형으로 구현되거나, 또는 터치 패널과는 별도의 하나 이상의 센서로 구현될 수 있다. 홀로그램 장치는 빛의 간섭을 이용하여 입체 영상을 허공에 보여줄 수 있다. 프로젝터는 스크린에 빛을 투사하여 영상을 표시할 수 있다. 스크린은, 예를 들면, 전자 장치의 내부 또는 외부에 위치할 수 있다. 인터페이스는, 예를 들면, HDMI, USB, 광 인터페이스(optical interface), 또는 D-sub(D-subminiature)(278)를 포함할 수 있다. 추가적으로 또는 대체적으로, 인터페이스는, 예를 들면, MHL(mobile high-definition link) 인터페이스, SD카드/MMC(multi-media card) 인터페이스, 또는 IrDA(infrared data association) 규격 인터페이스를 포함할 수 있다.

오디오 모듈은, 예를 들면, 소리와 전기 신호를 쌍방향으로 변환시킬 수 있다. 오디오 모듈은, 예를 들면, 스피커, 리시버, 이어폰, 또는 마이크 등을 통해 입력 또는 출력되는 소리 정보를 처리할 수 있다. 카메라 모듈은, 예를 들면, 정지 영상 및 동영상을 촬영할 수 있는 장치로서, 한 실시예에 따르면, 하나 이상의 이미지 센서(예: 전면 센서 또는 후면 센서), 렌즈, 이미지 시그널 프로세서(ISP), 또는 플래시(예: LED 또는 xenon lamp 등)를 포함할 수 있다. 전력 관리 모듈은, 예를 들면, 전자 장치의 전력을 관리할 수 있다. 한 실시예에 따르면, 전력 관리 모듈은 PMIC(power management integrated circuit), 충전 IC, 또는 배터리 또는 연료 게이지를 포함할 수 있다. PMIC는, 유선 및/또는 무선 충전 방식을 가질 수 있다. 무선 충전 방식은, 예를 들면, 자기공명 방식, 자기유도 방식 또는 전자기파 방식 등을 포함하며, 무선 충전을 위한 부가적인 회로, 예를 들면, 코일 루프, 공진 회로, 또는 정류기 등을 더 포함할 수 있다. 배터리 게이지는, 예를 들면, 배터리의 잔량, 충전 중 전압, 전류, 또는 온도를 측정할 수 있다. 배터리는, 예를 들면, 충전식 전지 및/또는 태양 전지를 포함할 수 있다.

인디케이터는 전자 장치 또는 그 일부(예: 프로세서)의 특정 상태, 예를 들면, 부팅 상태, 메시지 상태 또는 충전 상태 등을 표시할 수 있다. 모터는 전기적 신호를 기계적 진동으로 변환할 수 있고, 진동, 또는 햅틱 효과 등을 발생시킬 수 있다. 전자 장치는, 예를 들면, DMB(digital multimedia broadcasting), DVB(digital video broadcasting), 또는 미디어플로(mediaFlo^TM) 등의 규격에 따른 미디어 데이터를 처리할 수 있는 모바일 TV 지원 장치(예: GPU)를 포함할 수 있다. 본 문서에서 기술된 구성요소들 각각은 하나 또는 그 이상의 부품(component)으로 구성될 수 있으며, 해당 구성요소의 명칭은 전자 장치의 종류에 따라서 달라질 수 있다. 다양한 실시예에서, 전자 장치(예: 전자 장치)는 일부 구성요소가 생략되거나, 추가적인 구성요소를 더 포함하거나, 또는, 구성요소들 중 일부가 결합되어 하나의 개체로 구성되되, 결합 이전의 해당 구성요소들의 기능을 동일하게 수행할 수 있다.

본 발명의 다양한 실시예에서, 전자 장치(또는, 전자 장치)는, 전면, 후면 및 상기 전면과 상기 후면 사이의 공간을 둘러싸는 측면을 포함하는 하우징을 포함할 수도 있다. 터치스크린 디스플레이(예: 디스플레이)는, 상기 하우징 안에 배치되며, 상기 전면을 통하여 노출될 수 있다. 마이크는, 상기 하우징 안에 배치되며, 상기 하우징의 부분을 통하여 노출될 수 있다. 적어도 하나의 스피커는, 상기 하우징 안에 배치되며, 상기 하우징의 다른 부분을 통하여 노출될 수 있다. 하드웨어 버튼(예: 키)는, 상기 하우징의 또 다른 부분에 배치되거나 또는 상기 터치스크린 디스플레이 상에 표시하도록 설정될 수 있다. 무선 통신 회로(예: 통신 모듈)은, 상기 하우징 안에 위치할 수 있다. 상기 프로세서(또는, 프로세서)는, 상기 하우징 안에 위치하며, 상기 터치스크린 디스플레이, 상기 마이크, 상기 스피커 및 상기 무선 통신 회로에 전기적으로 연결될 수 있다. 상기 메모리(또는, 메모리)는, 상기 하우징 안에 위치하며, 상기 프로세서에 전기적으로 연결될 수 있다.

본 발명의 다양한 실시예에서, 상기 메모리는, 텍스트 입력을 수신하기 위한 제1 사용자 인터페이스를 포함하는 제1 어플리케이션 프로그램을 저장하도록 설정되고, 상기 메모리는, 실행 시에, 상기 프로세서가, 제1 동작과 제2 동작을 수행하도록 야기하는 인스트럭션들을 저장하고, 상기 제1 동작은, 상기 제1 사용자 인터페이스가 상기 터치스크린 디스플레이 상에 표시되지 않는 도중에, 상기 버튼을 통하여 제1 타입의 사용자 입력을 수신하고, 상기 제1 타입의 사용자 입력을 수신한 이후에, 상기 마이크를 통하여 제1 사용자 발화를 수신하고, 자동 스피치 인식(ASR: automatic speech recognition) 및 지능 시스템(intelligence system)을 포함하는 외부 서버로 상기 제1 사용자 발화에 대한 제1 데이터를 제공하고, 상기 제1 데이터를 제공한 이후에, 상기 외부 서버로부터 상기 제1 사용자 발화에 응답하여 상기 지능 시스템에 의하여 생성되는 태스크를 수행하도록 하는 적어도 하나의 명령을 수신하고, 상기 제2 동작은, 상기 터치스크린 디스플레이 상에 상기 제1 사용자 인터페이스가 표시되는 도중에 상기 버튼을 통하여 상기 제1 사용자 입력을 수신하고, 상기 제1 타입의 사용자 입력을 수신한 이후에, 상기 마이크를 통하여 제2 사용자 발화를 수신하고, 상기 외부 서버로 상기 제2 사용자 발화에 대한 제2 데이터를 제공하고, 상기 제2 데이터를 제공한 이후에, 상기 서버로부터, 상기 제2 사용자 발화로부터 상기 자동 스피치 인식에 의하여 생성된 텍스트에 대한 데이터를 수신하지만, 상기 지능 시스템에 의하여 생성되는 명령은 수신하지 않고, 상기 제1 사용자 인터페이스에 상기 텍스트를 입력할 수 있다.

본 발명의 다양한 실시예에서, 상기 버튼은, 상기 하우징의 상기 측면에 위치하는 물리적인 키를 포함할 수 있다.

본 발명의 다양한 실시예에서, 상기 제1 타입의 사용자 입력은, 상기 버튼에 대한 1회 누름, 상기 버튼에 대한 2회 누름, 상기 버튼에 대한 3회 누름, 상기 버튼에 대한 1회 누른 이후에 누름 유지, 또는 상기 버튼에 대한 2회 누름 및 누름 유지 중 하나일 수 있다.

본 발명의 다양한 실시예에서, 상기 인스트럭션들은, 상기 프로세서가 상기 제1 사용자 인터페이스를 가상 키보드와 함께 표시하도록 더 야기할 수 있다. 상기 버튼은, 상기 가상 키보드의 일부가 아닐 수 있다.

본 발명의 다양한 실시예에서, 상기 인스트럭션들은, 상기 프로세서가, 상기 외부 서버로부터, 상기 제1 동작 내에서의 상기 제1 사용자 발화로부터 ASR에 의하여 생성되는 텍스트에 대한 데이터를 수신하도록 더 야기할 수 있다.

본 발명의 다양한 실시예에서, 상기 제1 어플리케이션 프로그램은, 노트 어플리케이션 프로그램, 이메일 어플리케이션 프로그램, 웹 브라우저 어플리케이션 프로그램 또는 달력 어플리케이션 프로그램 중 적어도 하나를 포함할 수 있다.

본 발명의 다양한 실시예에서, 상기 제1 어플리케이션 프로그램은, 메시지 어플리케이션을 포함하고, 상기 인스트럭션들은, 상기 프로세서가, 상기 텍스트를 입력한 이후에 선택된 시간 기간이 초과하면, 상기 무선 통신 회로를 통하여 자동으로 입력된 텍스트를 송신하도록 더 야기할 수 있다.

본 발명의 다양한 실시예에서, 상기 인스트럭션들은, 상기 프로세서가, 제3 동작을 수행하도록 더 야기하고, 상기 제3 동작은, 상기 터치스크린 디스플레이 상에 상기 제1 사용자 인터페이스를 표시하는 도중에, 상기 버튼을 통하여 제2 타입의 사용자 입력을 수신하고, 상기 제2 타입의 사용자 입력을 수신한 이후에, 상기 마이크를 통하여 제3 사용자 발화를 수신하고, 상기 외부 서버로 상기 제3 사용자 발화에 대한 제3 데이터를 제공하고, 상기 제3 데이터를 제공한 이후에, 상기 제3 사용자 발화에 응답하여 상기 지능 시스템에 의하여 생성된 태스크를 수행하기 위한 적어도 하나의 명령을 상기 외부 서버로부터 수신할 수 있다.

본 발명의 다양한 실시예에서, 상기 인스트럭션들은, 상기 프로세서가, 제4 동작을 수행하도록 더 야기하고, 상기 제4 동작은, 상기 터치스크린 디스플레이 상에 상기 제1 사용자 인터페이스가 표시되지 않는 도중에, 상기 버튼을 통하여 상기 제2 타입의 사용자 입력을 수신하고, 상기 제2 타입의 사용자 입력을 수신한 이후에, 상기 마이크를 통하여 제4 사용자 발화를 수신하고, 상기 제4 사용자 발화에 대한 제4 데이터를 상기 외부 서버로 제공하고, 상기 제4 데이터를 제공한 이후에, 상기 제4 사용자 발화에 응답하여, 상기 지능 시스템에 의하여 생성된 태스크를 수행하기 위한 적어도 하나의 명령을 상기 외부 서버로부터 수신하고, 상기 마이크를 통하여 제5 사용자 발화를 수신하고, 상기 외부 서버로, 상기 제5 사용자 발화에 대한 제5 데이터를 제공하고, 및 상기 제5 데이터를 제공한 이후에, 상기 제5 사용자 발화에 응답하여 상기 지능 시스템에 의하여 생성된 태스크를 수행하기 위한 적어도 하나의 명령을 상기 외부 서버로부터 수신할 수 있다.

본 발명의 다양한 실시예에서, 상기 제1 타입의 사용자 입력 및 상기 제2 타입의 사용자 입력은 서로 다르며, 상기 버튼에 대한 1회 누름, 상기 버튼에 대한 2회 누름, 상기 버튼에 대한 3회 누름, 상기 버튼에 대한 1회 누른 이후에 누름 유지, 또는 상기 버튼에 대한 2회 누름 및 누름 유지 중 하나로부터 선택될 수 있다.

본 발명의 다양한 실시예에서, 상기 메모리는, 텍스트 입력을 수신하기 위한 제2 사용자 인터페이스를 포함하는 제2 어플리케이션 프로그램을 저장하도록 더 설정되며, 상기 인스트럭션들은, 실행 시에, 상기 프로세서가, 제3 동작을 수행하도록 더 야기하고, 상기 제3 동작은, 상기 제2 사용자 인터페이스를 표시하는 도중에 상기 버튼을 통하여 상기 제1 타입의 사용자 입력을 수신하고, 상기 제1 타입의 사용자 입력이 수신된 이후에, 상기 마이크를 통하여 제3 사용자 발화를 수신하고, 상기 외부 서버로, 상기 제3 사용자 발화에 대한 제3 데이터를 제공하고, 상기 제3 데이터를 제공한 이후에, 상기 외부 서버로부터, 상기 제3 사용자 발화로부터 ASR에 의하여 생성된 텍스트에 대한 데이터를 수신하면서, 상기 지능 시스템에 의하여 생성되는 명령은 수신하지 않고, 상기 제2 사용자 인터페이스에 상기 텍스트를 입력하고, 및 상기 텍스트를 입력하고, 선택된 시간 기간이 초과하면, 상기 무선 통신 회로를 통하여 상기 입력된 텍스트를 자동으로 송신할 수 있다.

본 발명의 다양한 실시예에서, 상기 메모리는, 텍스트 입력을 수신하기 위한 제1 사용자 인터페이스를 포함하는 제1 어플리케이션 프로그램을 저장하도록 설정되고, 상기 메모리는, 실행 시에, 상기 프로세서가, 제1 동작과 제2 동작을 수행하도록 야기하는 인스트럭션들을 저장하고, 상기 제1 동작은, 상기 버튼을 통하여 제1 타입의 사용자 입력을 수신하고, 상기 제1 타입의 사용자 입력을 수신한 이후에, 상기 마이크를 통하여 제1 사용자 발화를 수신하고, 자동 스피치 인식(ASR: automatic speech recognition) 및 지능 시스템(intelligence system)을 포함하는 외부 서버로, 상기 제1 사용자 발화에 대한 제1 데이터를 제공하고, 및 상기 제1 데이터를 제공한 이후에, 상기 제1 사용자 발화에 응답하여 상기 지능 시스템에 의하여 생성된 태스크를 수행하기 위한 적어도 하나의 명령을 상기 외부 서버로부터 수신하고, 상기 제2 동작은, 상기 버튼을 통하여 제2 타입의 사용자 입력을 수신하고, 상기 제2 타입의 사용자 입력을 수신한 이후에, 상기 마이크를 통하여 제2 사용자 발화를 수신하고, 상기 외부 서버로 상기 제2 사용자 발화에 대한 제2 데이터를 제공하고, 상기 제2 데이터를 제공한 이후에, 상기 서버로부터, 상기 제2 사용자 발화로부터 ASR에 의하여 생성된 텍스트에 대한 데이터를 수신하면서, 상기 지능 시스템에 의하여 생성되는 명령은 수신하지 않으며, 상기 제1 사용자 인터페이스에 상기 텍스트를 입력할 수 있다.

본 발명의 다양한 실시예에서, 상기 인스트럭션들은, 상기 프로세서가 상기 제1 사용자 인터페이스를 가상 키보드와 함께 표시하도록 더 야기할 수 있으며, 상기 버튼은, 상기 가상 키보드의 일부가 아닐 수 있다.

본 발명의 다양한 실시예에서, 상기 인스트럭션들은, 상기 프로세서가, 상기 외부 서버로부터 상기 제1 동작 내에서 상기 제1 사용자 발화로부터 상기 ASR에 의하여 생성되는 텍스트에 대한 데이터를 수신하도록 더 야기할 수 있다.

본 발명의 다양한 실시예에서, 상기 인스트럭션들은, 상기 프로세서가 상기 제1 사용자 인터페이스의 상기 디스플레이 상에 표시와 독립적으로 상기 제1 동작을 수행하도록 더 야기할 수 있다.

본 발명의 다양한 실시예에서, 상기 인스트럭션들은, 상기 프로세서가, 상기 전자 장치가 잠금 상태에 있거나 또는 상기 터치스크린 디스플레이가 턴 오프된 것 중 적어도 하나인 경우에, 상기 제2 동작을 수행하도록 더 야기할 수 있다.

본 발명의 다양한 실시예에서, 상기 인스트럭션들은, 상기 프로세서가, 상기 터치스크린 디스플레이 상에 상기 제1 사용자 인터페이스를 표시하는 도중에, 상기 제2 동작을 수행하도록 더 야기할 수 있다.

본 발명의 다양한 실시예에서, 상기 메모리는, 실행 시에, 상기 프로세서가, 상기 마이크를 통하여 사용자 발화를 수신하고, 자동 스피치 인식(automatic speech recognition: ASR) 또는 자연어 이해(natural language understanding: NLU) 중 적어도 하나를 수행하는 외부 서버로, 상기 사용자 발화에 대한 데이터와 함께, 상기 사용자 발화에 대한 데이터에 대하여 상기 ASR을 수행하여 획득된 텍스트에 대하여 상기 자연어 이해를 수행할지 여부와 연관된 정보를 송신하고, 상기 정보가 상기 자연어 이해를 수행하지 않을 것을 나타내면, 상기 외부 서버로부터 상기 사용자 발화에 대한 데이터에 대한 상기 텍스트를 수신하고, 상기 정보가 상기 자연어 이해를 수행할 것을 나타내면, 상기 외부 서버로부터 상기 텍스트에 대한 상기 자연어 이해 수행 결과 획득된 명령을 수신하도록 야기하는 인스트럭션을 저장할 수 있다.

한 실시예에 따르면, 프로그램 모듈(예: 프로그램)은 전자 장치(예: 전자 장치)에 관련된 자원을 제어하는 운영 체제 및/또는 운영 체제 상에서 구동되는 다양한 어플리케이션(예: 어플리케이션 프로그램)을 포함할 수 있다. 운영 체제는, 예를 들면, Android^TM, iOS^TM, Windows^TM, Symbian^TM, Tizen^TM, 또는 Bada^TM를 포함할 수 있다. 프로그램 모듈은 커널(예: 커널), 미들웨어(예: 미들웨어), (API(예: API), 및/또는 어플리케이션(예: 어플리케이션 프로그램)을 포함할 수 있다. 프로그램 모듈의 적어도 일부는 전자 장치 상에 프리로드 되거나, 외부 전자 장치(예: 전자 장치, 서버 등)로부터 다운로드 가능하다.

커널은, 예를 들면, 시스템 리소스 매니저 및/또는 디바이스 드라이버를 포함할 수 있다. 시스템 리소스 매니저는 시스템 리소스의 제어, 할당, 또는 회수를 수행할 수 있다. 한 실시예에 따르면, 시스템 리소스 매니저는 프로세스 관리부, 메모리 관리부, 또는 파일 시스템 관리부를 포함할 수 있다. 디바이스 드라이버는, 예를 들면, 디스플레이 드라이버, 카메라 드라이버, 블루투스 드라이버, 공유 메모리 드라이버, USB 드라이버, 키패드 드라이버, WiFi 드라이버, 오디오 드라이버, 또는 IPC(inter-process communication) 드라이버를 포함할 수 있다. 미들웨어는, 예를 들면, 어플리케이션이 공통적으로 필요로 하는 기능을 제공하거나, 어플리케이션이 전자 장치 내부의 제한된 시스템 자원을 사용할 수 있도록 API를 통해 다양한 기능들을 어플리케이션으로 제공할 수 있다. 한 실시예에 따르면, 미들웨어는 런타임 라이브러리, 어플리케이션 매니저, 윈도우 매니저, 멀티미디어 매니저, 리소스 매니저, 파워 매니저, 데이터베이스 매니저, 패키지 매니저, 커넥티비티 매니저, 노티피케이션 매니저, 로케이션 매니저, 그래픽 매니저, 또는 시큐리티 매니저 중 적어도 하나를 포함할 수 있다.

런타임 라이브러리는, 예를 들면, 어플리케이션이 실행되는 동안에 프로그래밍 언어를 통해 새로운 기능을 추가하기 위해 컴파일러가 사용하는 라이브러리 모듈을 포함할 수 있다. 런타임 라이브러리는 입출력 관리, 메모리 관리, 또는 산술 함수 처리를 수행할 수 있다. 어플리케이션 매니저는, 예를 들면, 어플리케이션의 생명 주기를 관리할 수 있다. 윈도우 매니저는 화면에서 사용되는 GUI 자원을 관리할 수 있다. 멀티미디어 매니저는 미디어 파일들의 재생에 필요한 포맷을 파악하고, 해당 포맷에 맞는 코덱을 이용하여 미디어 파일의 인코딩 또는 디코딩을 수행할 수 있다. 리소스 매니저는 어플리케이션의 소스 코드 또는 메모리의 공간을 관리할 수 있다. 파워 매니저는, 예를 들면, 배터리의 용량 또는 전원을 관리하고, 전자 장치의 동작에 필요한 전력 정보를 제공할 수 있다. 한 실시예에 따르면, 파워 매니저는 바이오스(BIOS: basic input/output system)와 연동할 수 있다. 데이터베이스 매니저는, 예를 들면, 어플리케이션에서 사용될 데이터베이스를 생성, 검색, 또는 변경할 수 있다. 패키지 매니저는 패키지 파일의 형태로 배포되는 어플리케이션의 설치 또는 갱신을 관리할 수 있다.

커넥티비티 매니저는, 예를 들면, 무선 연결을 관리할 수 있다. 노티피케이션 매니저는, 예를 들면, 도착 메시지, 약속, 근접성 알림 등의 이벤트를 사용자에게 제공할 수 있다. 로케이션 매니저는, 예를 들면, 전자 장치의 위치 정보를 관리할 수 있다. 그래픽 매니저는, 예를 들면, 사용자에게 제공될 그래픽 효과 또는 이와 관련된 사용자 인터페이스를 관리할 수 있다. 보안 매니저는, 예를 들면, 시스템 보안 또는 사용자 인증을 제공할 수 있다. 한 실시예에 따르면, 미들웨어는 전자 장치의 음성 또는 영상 통화 기능을 관리하기 위한 통화(telephony) 매니저 또는 전술된 구성요소들의 기능들의 조합을 형성할 수 있는 하는 미들웨어 모듈을 포함할 수 있다. 한 실시예에 따르면, 미들웨어는 운영 체제의 종류 별로 특화된 모듈을 제공할 수 있다. 미들웨어는 동적으로 기존의 구성요소를 일부 삭제하거나 새로운 구성요소들을 추가할 수 있다. API는, 예를 들면, API 프로그래밍 함수들의 집합으로, 운영 체제에 따라 다른 구성으로 제공될 수 있다. 예를 들면, 안드로이드 또는 iOS의 경우, 플랫폼 별로 하나의 API 셋을 제공할 수 있으며, 타이젠의 경우, 플랫폼 별로 두 개 이상의 API 셋을 제공할 수 있다.

어플리케이션은, 예를 들면, 홈, 다이얼러, SMS/MMS, IM(instant message), 브라우저, 카메라, 알람, 컨택트, 음성 다이얼, 이메일, 달력, 미디어 플레이어, 앨범, 와치, 헬스 케어(예: 운동량 또는 혈당 등을 측정), 또는 환경 정보(예: 기압, 습도, 또는 온도 정보) 제공 어플리케이션을 포함할 수 있다. 한 실시예에 따르면, 어플리케이션은 전자 장치와 외부 전자 장치 사이의 정보 교환을 지원할 수 있는 정보 교환 어플리케이션을 포함할 수 있다. 정보 교환 어플리케이션은, 예를 들면, 외부 전자 장치에 특정 정보를 전달하기 위한 노티피케이션 릴레이 어플리케이션, 또는 외부 전자 장치를 관리하기 위한 장치 관리 어플리케이션을 포함할 수 있다. 예를 들면, 알림 전달 어플리케이션은 전자 장치의 다른 어플리케이션에서 발생된 알림 정보를 외부 전자 장치로 전달하거나, 또는 외부 전자 장치로부터 알림 정보를 수신하여 사용자에게 제공할 수 있다. 장치 관리 어플리케이션은, 예를 들면, 전자 장치와 통신하는 외부 전자 장치의 기능(예: 외부 전자 장치 자체(또는, 일부 구성 부품)의 턴-온/턴-오프 또는 디스플레이의 밝기(또는, 해상도) 조절), 또는 외부 전자 장치에서 동작하는 어플리케이션을 설치, 삭제, 또는 갱신할 수 있다. 한 실시예에 따르면, 어플리케이션은 외부 전자 장치의 속성에 따라 지정된 어플리케이션(예: 모바일 의료 기기의 건강 관리 어플리케이션)을 포함할 수 있다. 한 실시예에 따르면, 어플리케이션은 외부 전자 장치로부터 수신된 어플리케이션을 포함할 수 있다. 프로그램 모듈의 적어도 일부는 소프트웨어, 펌웨어, 하드웨어(예: 프로세서), 또는 이들 중 적어도 둘 이상의 조합으로 구현(예: 실행)될 수 있으며, 하나 이상의 기능을 수행하기 위한 모듈, 프로그램, 루틴, 명령어 세트 또는 프로세스를 포함할 수 있다.

본 명세서와 도면에 개시된 본 발명의 실시예들은 본 발명의 기술 내용을 쉽게 설명하고 본 발명의 이해를 돕기 위해 특정 예를 제시한 것일 뿐이며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 즉 본 발명의 기술적 사상에 바탕을 둔 다른 변형예들이 실시 가능하다는 것은 본 발명의 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다. 또한 상기 각각의 실시예는 필요에 따라 서로 조합되어 운용할 수 있다. 예컨대, 본 발명의 모든 실시예는 일부분들이 서로 조합되어 본 발명의 시스템, 서버 및/또는 단말에 의해 구현될 수 있다.

또한, 본 발명의 시스템, 서버 및/또는 단말을 제어하는 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다.

이와 같이, 본 발명의 다양한 실시예들은 특정 관점에서 컴퓨터 리드 가능 기록 매체(computer readable recording medium)에서 컴퓨터 리드 가능 코드(computer readable code)로서 구현될 수 있다. 컴퓨터 리드 가능 기록 매체는 컴퓨터 시스템에 의해 리드될 수 있는 데이터를 저장할 수 있는 임의의 데이터 저장 디바이스이다. 컴퓨터 리드 가능 기록 매체의 예들은 읽기 전용 메모리(read only memory: ROM)와, 랜덤-접속 메모리(random access memory: RAM)와, 컴팩트 디스크- 리드 온니 메모리(compact disk-read only memory: CD-ROM)들과, 마그네틱 테이프(magnetic tape)들과, 플로피 디스크(floppy disk)들과, 광 데이터 저장 디바이스들, 및 캐리어 웨이브(carrier wave)들(인터넷을 통한 데이터 송신 등)을 포함할 수 있다. 컴퓨터 리드 가능 기록 매체는 또한 네트워크 연결된 컴퓨터 시스템들을 통해 분산될 수 있고, 따라서 컴퓨터 리드 가능 코드는 분산 방식으로 저장 및 실행된다. 또한, 본 발명의 다양한 실시예들을 성취하기 위한 기능적 프로그램들, 코드, 및 코드 세그먼트(segment)들은 본 발명이 적용되는 분야에서 숙련된 프로그래머들에 의해 쉽게 해석될 수 있다.

또한 본 발명의 다양한 실시예들에 따른 장치 및 방법은 하드웨어, 소프트웨어 또는 하드웨어 및 소프트웨어의 조합의 형태로 실현 가능하다는 것을 알 수 있을 것이다. 이러한 소프트웨어는 예를 들어, 삭제 가능 또는 재기록 가능 여부와 상관없이, ROM 등의 저장 장치와 같은 휘발성 또는 비휘발성 저장 장치, 또는 예를 들어, RAM, 메모리 칩, 장치 또는 집적 회로와 같은 메모리, 또는 예를 들어 콤팩트 디스크(compact disk: CD), DVD, 자기 디스크 또는 자기 테이프 등과 같은 광학 또는 자기적으로 기록 가능함과 동시에 기계(예를 들어, 컴퓨터)로 읽을 수 있는 저장 매체에 저장될 수 있다. 본 발명의 다양한 실시예들에 따른 방법은 제어부 및 메모리를 포함하는 컴퓨터 또는 휴대 단말에 의해 구현될 수 있고, 이러한 메모리는 본 발명의 실시예들을 구현하는 명령들을 포함하는 프로그램 또는 프로그램들을 저장하기에 적합한 기계로 읽을 수 있는 저장 매체의 한 예임을 알 수 있을 것이다.

따라서, 본 발명은 본 명세서의 청구항에 기재된 장치 또는 방법을 구현하기 위한 코드를 포함하는 프로그램 및 이러한 프로그램을 저장하는 기계(컴퓨터 등)로 읽을 수 있는 저장 매체를 포함한다. 또한, 이러한 프로그램은 유선 또는 무선 연결을 통해 전달되는 통신 신호와 같은 임의의 매체를 통해 전자적으로 이송될 수 있고, 본 발명은 이와 균등한 것을 적절하게 포함한다.

본 명세서와 도면에 개시된 본 발명의 실시 예들은 본 발명의 기술 내용을 쉽게 설명하고, 본 발명의 이해를 돕기 위해 특정 예를 제시한 것일 뿐이며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 또한 앞서 설명된 본 발명에 따른 실시예들은 예시적인 것에 불과하며, 당해 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 범위의 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 다음의 특허청구범위에 의해서 정해져야 할 것이다.

Claims

사용자의 목소리를 분석하여 이벤트를 생성하는 방법.