KR102208822B1

KR102208822B1 - 음성 인식 장치, 방법 그리고 이를 위한 사용자 인터페이스 표시 방법

Info

Publication number: KR102208822B1
Application number: KR1020160169745A
Authority: KR
Inventors: 이강태; 김진한; 윤성인
Original assignee: 주식회사 케이티
Priority date: 2016-12-13
Filing date: 2016-12-13
Publication date: 2021-01-27
Also published as: KR20180068113A

Abstract

본 발명은 적어도 하나의 프로세서에 의해 동작하는 음성 인식 장치의 음성 인식 방법으로서, 적어도 하나의 콘텐츠 정보에서 각 콘텐츠를 식별하는 적어도 하나의 키워드를 추출하는 단계, 상기 추출한 키워드를 해당 콘텐츠를 음성으로 선택하기 위한 콘텐츠 선택 음성 명령어로 매핑하는 단계, 사용자로부터 상기 콘텐츠 선택 음성 명령어를 포함하는 음성 신호를 수신하는 단계, 그리고 상기 콘텐츠 선택 음성 명령어에 대응하는 상기 특정 콘텐츠를 제공하는 단계를 포함한다.

Description

음성 인식 장치, 방법 그리고 이를 위한 사용자 인터페이스 표시 방법{APPARATUS, METHOD FOR RECOGNIZING VOICE AND METHOD OF DISPLAYING USER INTERFACE THEREFOR}

본 발명은 음성 인식 장치, 방법 그리고 이를 위한 사용자 인터페이스 표시 방법에 관한 것이다.

음성 인식 기술은 사용자 등이 입력하는 음성을 수집하여 획득한 음성 신호를 소정 언어에 대응하는 신호로 인식하는 기술로서, 다양한 산업 분야에서 활용되고 있다. 특히, 음성 인식 기술은 손가락 등을 통해 특정 버튼을 누르는 등의 종래의 입력 방식에 비해 간편하기 때문에, 종래 리모컨을 대체하는 수단으로 TV에서 활용되고 있다.

예를 들어, 사용자가 "채널 올려","7번","KBS"와 같은 특정 단어를 음성으로 입력하면, TV 또는 셋탑박스(SET-TOP BOX) 내의 음성 인식 엔진을 통해 사용자의 음성 신호를 인식하여 채널 조정을 수행할 수 있다.

최근 통신망 발달에 따라 사용자가 필요로 하는 영상을 원하는 시간에 제공해주는 주문형 비디오 조회 시스템(Video on demand, VOD) 제공 서비스가 늘고 있다. 비디오 콘텐츠는 제목이 짧은 단어로 구성될 수도 있지만, 비교적 긴 문장으로 구성될 수도 있다. VOD 제공 서비스에서도 음성 인식 기술을 적용하기 위하여 비교적 긴 문장을 정확하게 인식할 수 있는 다양한 연구가 지속 되고 있다.

하지만, 점차 다양해지는 콘텐츠(특히, 콘텐츠 제목이 특이한 사용자 제작 콘텐츠(User Created Contents, UCC))의 길고 복잡한 제목을 지원하기에는 한계가 있다.

본 발명이 해결하고자 하는 과제는 복잡한 제목을 갖는 콘텐츠 제목에서 콘텐츠를 선택할 수 있는 명령어를 추출하고, 적어도 하나 이상의 음성 명령어를 이용하여 콘텐츠를 선택하는 음성 인식 장치, 음성 인식 방법, 그리고 음성 인식 방법을 제공하기 위한 사용자 인터페이스를 제공하는 것이다.

본 발명의 한 실시예에 따른 적어도 하나의 프로세서에 의해 동작하는 음성 인식 장치의 음성 인식 방법은 적어도 하나의 콘텐츠 정보에서 각 콘텐츠를 식별하는 적어도 하나의 키워드를 추출하는 단계, 상기 추출한 키워드를 해당 콘텐츠를 음성으로 선택하기 위한 콘텐츠 선택 음성 명령어로 매핑하는 단계, 사용자로부터 상기 콘텐츠 선택 음성 명령어를 포함하는 음성 신호를 수신하는 단계, 그리고 상기 콘텐츠 선택 음성 명령어에 대응하는 상기 특정 콘텐츠를 제공하는 단계를 포함한다.

상기 음성 명령어 목록을 추출하는 단계는 상기 콘텐츠 정보에 포함된 콘텐츠 제목을 형태소 분석하여 상기 적어도 하나의 키워드를 추출하는 단계, 그리고 상기 추출된 키워드 중에서 중복되는 항목은 제거하고, 상기 키워드를 상기 개별 음성 명령어로 매핑하는 단계를 포함할 수 있다.

상기 적어도 하나의 콘텐츠의 썸네일, 그리고 상기 콘텐츠 선택 음성 명령어를 대응시켜 디스플레이 화면에 출력하는 단계를 더 포함하고, 상기 콘텐츠 선택 음성 명령어는 상기 콘텐츠 제목과 구분할 수 있도록 글자 크기, 글자 색상, 글자 굵기, 글자체 중 어느 하나 이상이 다르게 표시될 수 있다.

상기 디스플레이 화면에 출력하는 단계는 상기 콘텐츠 항목이 복수 개이면, 상기 복수의 콘텐츠 항목을 화면 분할 방식으로 한 화면에 출력하고, 상기 복수의 콘텐츠 항목에 부여된 일련 번호를 함께 표시할 수 있다.

상기 콘텐츠 선택 음성 명령어로 매핑하는 단계는 상기 일련번호를 추가 음성 명령어로 매핑할 수 있다.

본 발명의 한 실시예에 따른 적어도 하나의 프로세서에 의해 동작하는 음성 인식 장치에서 음성 인식을 수행하기 위한 사용자 인터페이스(User Interface)화면을 표시하는 방법은 콘텐츠 서버로부터 복수 콘텐츠의 표시 정보를 수신하는 단계, 상기 표시 정보에서 각 콘텐츠를 식별하는 적어도 하나의 키워드를 추출하고, 추출한 키워드를 해당 콘텐츠를 음성으로 선택하기 위한 콘텐츠 선택 음성 명령어로 매핑하는 단계, 그리고 콘텐츠별로 상기 표시 정보에 포함된 썸네일과 상기 콘텐츠 선택 음성 명령어를 대응시켜 디스플레이 화면에 출력하는 단계를 포함한다.

상기 콘텐츠 선택 음성 명령어로 매핑하는 단계는 상기 복수 콘텐츠마다 상기 콘텐츠 정보에 포함된 콘텐츠 제목을 형태소 분석하여 상기 적어도 하나의 키워드를 추출하는 단계, 그리고 상기 추출된 키워드 중 중복되는 항목은 제거하여, 콘텐츠 선택 음성 명령어로 매핑하는 단계를 포함할 수 있다.

상기 디스플레이 화면에 출력하는 단계는 상기 콘텐츠 제목을 더 출력하고, 상기 콘텐츠 선택 음성 명령어는 상기 콘텐츠 제목과 구분할 수 있도록 글자 크기, 글자 색상, 글자 굵기, 글자체 중 어느 하나 이상이 다르게 표시될 수 있다.

상기 디스플레이 화면에 출력하는 단계는 상기 복수 콘텐츠에 대응하는 일련번호를 더 표시하고, 상기 콘텐츠 선택 음성 명령어로 매핑하는 단계는 상기 일련번호를 구성된 추가 음성 명령어로 매핑할 수 있다.

상기 콘텐츠 서버로 콘텐츠 정보 요청 메시지를 전송하는 단계를 더 포함하고, 상기 콘텐츠 정보 요청 메시지는 콘텐츠의 종류, 콘텐츠의 장르, 콘텐츠와 관련된 키워드, 콘텐츠의 제목에 포함된 단어, 콘텐츠에 등장하는 인물의 이름, 콘텐츠의 제작사 제목, 그리고 복수의 콘텐츠를 포함하는 분류 기준과 같은 명령어 중 어느 하나를 포함할 수 있다.

본 발명의 한 실시예에 따른 적어도 하나의 프로세서에 의해 동작하는 음성 인식 장치는 콘텐츠 서버로부터 복수의 콘텐츠 정보를 수신하는 콘텐츠 정보 수신부, 상기 콘텐츠 정보에서 각 콘텐츠를 식별하는 적어도 하나의 키워드를 추출하고, 추출한 키워드를 해당 콘텐츠를 음성으로 선택하기 위한 콘텐츠 선택 음성 명령어로 매핑하는 콘텐츠 선택 음성 명령어 생성부, 그리고 콘텐츠별로 상기 콘텐츠 정보에 포함된 썸네일과 상기 콘텐츠 선택 음성 명령어를 대응시켜 디스플레이 화면에 표시하는 유저 인터페이스 구성부를 포함한다.

상기 콘텐츠 선택 음성 명령어 생성부는 상기 콘텐츠 정보에 포함된 콘텐츠 제목을 형태소 분석하여 상기 적어도 하나의 키워드를 추출하고, 상기 추출된 키워드 중에서 중복되는 항목은 제거하여, 상기 콘텐츠 선택 음성 명령어로 매핑할 수 있다.

상기 유저 인터페이스 구성부는 상기 콘텐츠 선택 음성 명령어를 상기 콘텐츠 제목과 구분할 수 있도록 글자 크기, 글자 색상, 글자 굵기, 글자체 중 어느 하나 이상을 다르게 표시할 수 있다.

상기 유저 인터페이스 구성부는 상기 복수의 콘텐츠 항목을 화면 분할 방식으로 한 화면에 출력하고, 상기 복수의 콘텐츠 항목에 부여된 일련번호를 함께 표시할 수 있다.

상기 콘텐츠 선택 음성 명령어 생성부는 상기 일련번호를 추가 음성 명령어로 매핑할 수 있다.

본 발명의 실시예에 따르면 복잡한 단어의 조합으로 구성된 콘텐츠 제목을 간단한 음성 명령어를 이용하여 사용자가 입력할 수 있도록 할 수 있다.

본 발명의 실시예에 따르면 사용자는 복잡한 콘텐츠 명칭 전체를 입력어로 할 필요 없이, 간단한 음성 명령어를 이용하여 콘텐츠를 선택할 수 있다.

도 1은 본 발명의 한 실시예에 따른 음성 인식 시스템의 구성도이다.
도 2는 본 발명의 한 실시예에 따른 음성 인식 시스템의 상세 구성도이다.
도 3은 본 발명의 한 실시예에 따른 음성 인식 장치가 구성한 유저 인터페이스 화면의 예시이다.
도 4a 내지 도 4c는 본 발명의 한 실시예에 따른 음성 인식을 통해 콘텐츠를 선택하는 사용자 인터페이스 화면의 예시이다.
도 5는 본 발명의 다른 실시예에 따른 음성 인식 시스템의 구성도이다.
도 6은 본 발명의 한 실시예에 따른 음성 인식 장치가 음성 인식을 수행하여 콘텐츠를 선택하는 방법의 흐름도이다.
도 7은 본 발명의 다른 실시예에 따른 음성 인식 장치가 음성 인식을 수행하여 콘텐츠를 선택하는 방법의 흐름도이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

다음에서, 음성 인식 장치는 음성 인식 대상 제목이 복잡한 단어들의 조합으로 구성된 경우 복잡한 제목에서 음성 인식 대상을 대표할 수 있는 간단한 키워드를 추출하고, 사용자가 키워드만으로 구성된 음성 신호를 입력할 수 있도록 제공하는 것을 그 예로 들었으나, 본 발명은 반드시 이에 한정하는 것은 아니며, 음성 인식 대상 제목이 한 음절로 구성되거나 대상 제목이 자음 또는 모음만으로 구성되는 등 음성 인식하기 어려운 제목으로 구성된 경우, 사용자가 발음할 수 있는 명령어를 구성하는 것으로도 확장 가능하다.

다음에서, 음성 인식 장치는 셋탑 박스로서, 다양한 제목을 갖는 콘텐츠를 선택하는 것을 그 예로 들었으나, 본 발명은 반드시 이에 한정하는 것은 아니며 오디오, 차량 이내에 설치되어 음악을 재생하기 위한 음성 인식 방법에도 확장 가능하다.

도 1은 본 발명의 한 실시예에 따른 음성 인식 시스템의 구성도이다.

도 1을 참고하면, 음성 인식 시스템(1000)은 음성 인식 장치(100), 서버(200), 그리고 표시 장치(300)를 포함한다.

음성 인식 장치(100)는 사용자로부터 복수의 콘텐츠 중 특정 콘텐츠를 선택하기 위한 음성 명령어를 수신하고, 음성 명령어를 이용하여 서버(200)로 특정 콘텐츠를 요청하며, 서버(200)로부터 수신한 특정 콘텐츠를 표시 장치(300)를 통해 출력할 수 있다.

본 실시예에서 음성 인식 장치(100)는 표시 장치(300)와 별도의 장치로 구성되는 것을 그 예로 들었으나, 음성 인식 장치(100)는 내부에 디스플레이를 포함하여 자체적으로 사용자가 콘텐츠를 선택할 수 있는 인터페이스를 제공하고, 서버(200)로부터 제공받은 콘텐츠를 표시할 수도 있다.

앞으로, 음성 인식 장치(100)에서의 부하 및 처리 성능을 고려하여, 음성 인식 장치(100)가 서버(200)로부터 음성 명령어 목록을 수신한다고 주로 설명하나, 음성 인식 장치(100)는 서버(200)로부터 일부 도움을 받아 음성 명령어 목록을 제공하거나, 서버(200)와의 통신 없이 독자적으로 음성 명령어 목록을 제공할 수 있다. 이 경우, 음성 인식 장치(100)는 서버(200)의 일부 기능을 수행할 수 있는 명령어들을 포함하거나, 음성 인식 장치(100)가 서버(200)의 모든 기능을 수행할 수 있는 명령어들을 포함할 수 있다. 한편, 사용자가 호출하는 대표적인 명령어는 텔레비전 프로그램 제목과 같은 콘텐츠 제목이므로, 앞으로 음성 인식 장치(100)에 포함된 프로그램은 사용자가 음성 명령어를 호출하면 음성 명령어에 대응하는 콘텐츠를 재생하는 콘텐츠 재생 프로그램으로 설명하나, 본 발명은 콘텐츠 재생 프로그램뿐만 아니라, 사용자가 음성 명령어를 호출하면 음성 명령어에 대응하여 연산을 수행할 수 있는 다양한 음성 인식 프로그램에 적용될 수 있다.

음성 인식 장치(100)는 컴퓨터 판독 가능한 저장 매체, 프로세서, 메모리, 통신 모듈 등의 하드웨어를 포함한다. 저장 매체에는 음성 인식을 통해 명령어를 호출하는 음성 인식 프로그램이 저장된다. 메모리는 음성 인식 프로그램의 음성 명령어 목록을 저장하고 있거나, 저장 장치로부터 음성 인식 프로그램의 명령어들을 로드하여 일시 저장한다. 프로세서는 메모리에 저장되어 있거나 로드된 명령어들을 실행하여 본 발명의 음성 인식 프로그램을 구동한다. 통신 모듈은 통신망을 통해 서버(200)와 통신한다.

음성 인식 장치(100)는 다양한 형태로 구현될 수 있고, 예를 들면 스마트 폰과 같은 모바일 단말, 스마트 패드와 같은 패드형 단말, 랩탑 컴퓨터 등 각종 형태의 컴퓨터, 웨어러블 디바이스, TV 단말, 셋톱 박스 등의 형태로 구현될 수 있다.

음성 인식 프로그램은 사용자 인터페이스 화면에 포함된 복잡한 콘텐츠 제목에서 콘텐츠를 대표할 수 있는 키워드를 추출하여 음성 명령어로 설정할 수 있다. 음성 인식 프로그램은 단독 어플리케이션으로 구현될 수 있으나, 설명을 위해 콘텐츠 선택 프로그램에 통합된 것으로 가정한다.

도 2는 본 발명의 한 실시예에 따른 음성 인식 시스템의 상세 구성도이다.

도 2를 참고하면, 본 발명의 한 실시예에 따른 음성 인식 장치(100)는 적어도 하나의 프로세서에 의해 동작하고, 음성 신호 수신부(110), 음성 명령어 인식부(120), 콘텐츠 정보 수신부(140), 콘텐츠 식별 음성 명령어 생성부(150), 그리고 유저 인터페이스 구성부(160)를 포함한다.

음성 신호 수신부(110)는 사용자의 음성 신호를 수신한다. 음성 신호 수신부(110)는 음성 인식 장치(100)에 포함된 마이크를 통해 구현될 수 있고, 또는 원격 장치에 포함된 마이크를 통해 수집한 음성 명령어를 수신할 수도 있다.

음성 명령어 인식부(120)는 음성 명령어를 수신하여 음성 인식 처리를 수행한다. 음성 인식 기능은 음성 명령어를 얻어 음성 명령어에 해당하는 실행 명령어로 변환하는 일련의 과정으로써 음성 명령어 인식부(120)는 공지의 다양한 음성 인식 방법에 따라 음성 명령어를 언어 데이터로 변환하여 출력할 수 있다.

음성 신호 수신부(110)를 통해 수신되는 음성 명령어는 음성 인식을 목표로 하는 사용자의 음성 이외에 다양한 노이즈 성분을 포함할 수 있으므로, 음성 명령어 인식부(120)는 주파수 분석 등의 전처리 과정을 통해 사용자의 음성 성분만을 추출하고, 추출된 음성 성분에 기초하여 음성 인식 처리를 수행할 수 있다. 음성 명령어 인식부(120)를 통한 음성 인식 방법은 공지의 다양한 방법이 존재하므로, 이에 대한 설명은 생략하기로 한다.

음성 명령어 인식부(120)는 음성 인식 장치(100)의 내부에 마련되는 임베디드형 엔진으로 구현될 수 있으며, 별도의 하드웨어로 구현하거나, 프로세서에 의해 실행되는 소프트웨어로 구현될 수도 있다.

콘텐츠 정보 요청부(130)는 음성 명령어 인식부(120)에서 인식한 음성 명령어가 콘텐츠 정보를 요청하는 음성 명령어이면 서버(200)로 콘텐츠 정보를 요청한다. 콘텐츠 정보를 요청하는 음성 명령어는 사용자가 선택할 수 있는 복수의 콘텐츠 정보를 요청하기 위한 명령어일 수 있다. 예를 들어, 콘텐츠 정보를 요청하는 음성 명령어는 "최신 영화", "메이크업", "헬스", "정우성" 등과 같이 콘텐츠의 종류, 콘텐츠의 장르, 콘텐츠와 관련된 키워드, 콘텐츠의 제목에 포함된 단어, 콘텐츠에 등장하는 인물의 이름, 콘텐츠의 제작사 제목, 그리고 복수의 콘텐츠를 포함하는 분류 기준과 같은 명령어 들을 포함할 수 있다.

콘텐츠 정보 수신부(140)는 서버(200)로부터 콘텐츠 정보를 수신한다. 서버(200)는 콘텐츠 정보 요청부(130)의 요청에 따라 사용자가 선택할 수 있는 적어도 하나 이상의 콘텐츠 정보를 추출하고, 추출한 콘텐츠 정보를 음성 인식 장치(100)로 제공할 수 있다. 콘텐츠 정보는 콘텐츠의 제목, 썸네일을 포함하고, 기타 콘텐츠에 관한 부가 정보를 더 포함할 수도 있다.

예를 들어, 사용자가 음성 명령어로 "메이크업"을 입력한 경우, 서버(200)는 "메이크업"과 관련한 주문형 비디오 리스트인 콘텐츠 목록을 추출할 수 있다. 예를 들면 서버(200)는 표 1과 같은 콘텐츠 목록을 추출하고, 추출한 콘텐츠 목록을 음성 인식 장치(100)로 전송할 수 있다.

기본 명령어	콘텐츠 제목
메이크업	선미 메이크업 따라하기
	할로윈 데이 메이크업
	마스크팩 리얼 후기
	전주 갈 때, 필수 메이크업
	여신이란 이런 것

콘텐츠 식별 음성 명령어 생성부(150)는 콘텐츠 정보를 이용하여 사용자가 특정 콘텐츠를 식별할 수 있는 음성 명령어를 생성한다.

콘텐츠 식별 음성 명령어 생성부(150)는 콘텐츠 정보, 예를 들어 콘텐츠 제목을 형태소 분석하여 적어도 하나의 명사를 추출할 수 있다. 예를 들면, 표 2와 같은 명사를 추출한다고 가정한다.

콘텐츠 제목	추출된 명사
선미 메이크업 따라하기	선미, 메이크업
할로윈 데이 메이크업	할로윈, 메이크업
마스크팩 리얼 후기	마스크팩, 리얼
전주 갈 때, 필수 메이크업	전주, 필수, 메이크업
여신이란 이런 것	여신

그리고 콘텐츠 식별 음성 명령어 생성부(150)는 추출된 명사 중에서 중복되는 명사를 제거할 수 있다. 예를 들면, 표 3과 같이 중복되는 명사인 "메이크업"을 제거할 수 있다.

콘텐츠 제목	음성 명령어
선미 메이크업 따라하기	선미
할로윈 데이 메이크업	할로윈
마스크팩 리얼 후기	마스크팩, 리얼
전주 갈 때, 필수 메이크업	전주, 필수
여신이란 이런 것	여신

콘텐츠 식별 음성 명령어 생성부(150)는 추출된 명사 중 적어도 하나 이상을 해당 콘텐츠를 지칭하기 위한 개별 음성 명령어로 매핑할 수 있다.

본 실시예에서 콘텐츠 식별 음성 명령어 생성부(150)는 콘텐츠 제목에서 키워드를 추출하고, 추출한 키워드를 해당 콘텐츠를 지칭하기 위한 개별 음성 명령어로 설정하는 것을 그 예로 들었으나, 본 발명은 반드시 이에 한하는 것은 아니다. 즉, 콘텐츠 식별 음성 명령어 생성부(150)는 콘텐츠 부가 정보에서 추출한 키워드를 기초로 해당 콘텐츠를 지칭하기 위한 콘텐츠 선택 음성 명령어로 설정할 수도 있다.

한편, 유저 인터페이스 구성부(160)는 사용자가 복수의 콘텐츠 중 어느 하나의 콘텐츠를 선택할 수 있는 선택 화면을 생성하여 사용자에게 제공할 수 있다.

유저 인터페이스 구성부(160)는 서버(200)에서 제공된 콘텐츠 정보에 포함된 콘텐츠 썸네일, 그리고 콘텐츠 선택 음성 명령어를 대응시켜 디스플레이 화면에 출력할 수 있도록 선택 화면을 구성할 수 있다.

유저 인터페이스 구성부(160)는 복수의 콘텐츠를 화면 분할 방식으로 하나의 화면에 출력할 수 있는데, 이때 화면에 표시된 순서대로 복수의 콘텐츠에 일련번호가 부여될 수 있다. 콘텐츠 식별 음성 명령어 생성부(150)는 복수의 콘텐츠에 해당하는 일련번호를 추가 음성 명령어로 설정할 수 있다. 예를 들면, 표 4와 같이 콘텐츠에 해당하는 일련번호를 추가 음성 명령어로 설정할 수 있다.

콘텐츠 제목	음성 명령어	추가 음성 명령어
선미 메이크업 따라하기	선미	일번
할로윈 데이 메이크업	할로윈	이번
마스크팩 리얼 후기	마스크팩, 리얼	삼번
전주 갈 때, 필수 메이크업	전주, 필수	사번
여신이란 이런 것	여신	오번

유저 인터페이스 구성부(160)는 개별 음성 명령어가 콘텐츠 제목과 구분될 수 있도록 글자 크기, 글자 색상, 글자 굵기, 글자체 중 어느 하나 이상이 다르게 표시되도록 선택 화면을 구성할 수 있다.

도 3은 본 발명의 한 실시예에 따른 음성 인식 장치가 구성한 유저 인터페이스 화면의 예시이다.

도 3을 참고하면, 본 발명의 한 실시예에 따른 음성 인식 장치(100)는 음성 명령어를 수신하고, 음성 명령어를 기초로 콘텐츠를 선택하는 프로그램을 실행할 수 있다. 즉, 음성 인식 장치(100)는 방송 프로그램 제목과 같은 콘텐츠 제목을 인식하기 위하여 사용자가 음성 명령어를 호출하면 음성 명령어에 대응하는 콘텐츠를 재생하는 콘텐츠 재생 프로그램을 실행할 수 있다.

음성 인식 장치(100)는 네트워크를 통해 연결된 서버(200)로부터 사용자가 선택할 수 있는 적어도 하나의 콘텐츠 정보를 수신한다. 이때, 서버(200)는 음성 인식 장치(100)로부터 전송된 콘텐츠 정보 요청 메시지를 이용하여 데이터베이스에서 추출하여 사용자가 선택할 수 있는 콘텐츠 목록을 제공할 수 있다.

음성 인식 장치(100)는 수신한 콘텐츠 정보에서 각 콘텐츠를 식별하는 적어도 하나의 키워드를 추출하고, 추출한 키워드를 해당 콘텐츠를 음성으로 선택하기 위한 개별 음성 명령어로 매핑 할 수 있다.

음성 인식 장치(100)는 복수의 콘텐츠를 하나의 화면에 분할 방식으로 표시하고, 사용자로 하여금 개별 음성 명령어를 이용하여 복수의 콘텐츠로부터 하나의 콘텐츠를 선택하도록 할 수 있다. 이때, 음성 인식 장치(100)는 복수의 콘텐츠에 일련 번호를 부여하고, 복수의 콘텐츠를 인식하기 위한 일련번호를 추가 음성 명령어로 설정할 수 있다.

그리고 음성 인식 장치(100)는 도 3에 도시된 바와 같이 음성 명령어가 콘텐츠 제목과 구분될 수 있도록 글자 크기, 글자 색상, 글자 굵기, 글자체 중 어느 하나 이상이 다르게 표시되도록 선택 화면을 구성할 수 있다.

도 4a 내지 도 4c는 본 발명의 한 실시예에 따른 음성 인식을 통해 콘텐츠를 선택하는 사용자 인터페이스 화면의 예시이다.

도 4a 내지 도 4c를 참고하면, 본 발명의 한 실시예에서 음성 인식 장치(100)가 TV 등의 표시 장치이면, 음성 인식 장치(100)에 구비된 디스플레이에서 사용자 인터페이스 화면을 제공할 수 있다. 본 발명의 다른 실시예에서 음성 인식 장치(100)가 셋톱 박스인 경우, 음성 인식 장치(100)와 연결된 디스플레이에서 사용자 인터페이스 화면을 제공할 수 있다.

음성 인식 장치(100)는 서버(200)로부터 콘텐츠 정보를 수신한다. 서버(200)는 음성 인식 장치(100)로부터 전송된 콘텐츠 정보 요청 메시지에 따라 콘텐츠 정보를 음성 인식 장치(100)로 전송할 수 있다.

콘텐츠 정보 요청 메시지는 콘텐츠의 종류, 콘텐츠의 장르, 콘텐츠와 관련된 키워드, 콘텐츠의 제목에 포함된 단어, 콘텐츠에 등장하는 인물의 이름, 콘텐츠의 제작사 제목, 그리고 복수의 콘텐츠를 포함하는 분류 기준 중 어느 하나 이상으로 구성되는 콘텐츠 요청 명령어를 포함할 수 있다. 서버(200)는 콘텐츠 요청 명령어에 따라 사용자가 선택할 수 있는 적어도 하나 이상의 콘텐츠 정보를 추출하고, 추출한 콘텐츠 정보를 음성 인식 장치(100)로 전송할 수 있다.

예를 들면 서버(200)는 표 5와 같이 콘텐츠 요청 명령어에 대응하여 복수의 콘텐츠 정보를 제공할 수 있는 데이터 베이스를 포함할 수 있다.

메뉴명	제1 콘텐츠 요청 명령어	제2 콘텐츠 요청 명령어	코드
메뉴 열기	메뉴 열기	메뉴	M01
카테고리	카테고리		C01
쇼핑하기	쇼핑하기	쇼핑	S01
전체 보기	전체 보기	전체	F01
인기 동영상	인기 동영상	인기	F04
더 보기	더 보기	다음	NEXT

도 4a를 참고하면, 사용자가 사용자 인터페이스 화면에서 콘텐츠를 선택하기 위한 콘텐츠 요청 명령어인 "인기 동영상"을 입력할 수 있다. 이때, 사용자 인터페이스 화면은 사용자가 입력할 수 있는 콘텐츠 요청 명령어들을 표시할 수도 있고, 표시되지 않을 수도 있다. 한편, 사용자는 음성을 통해 콘텐츠 요청 명령어를 호출할 수도 있고, 리모콘과 같은 별도의 입력 장치를 이용하여 콘텐츠 요청 명령어를 호출할 수도 있다.

음성 인식 장치(100)는 서버(200)로 콘텐츠 요청 명령어를 포함하는 콘텐츠 정보 요청 메시지를 전송한다. 그리고 음성 인식 장치(100)는 서버(200)로부터 "인기 동영상"과 관련된 콘텐츠 표시 정보를 수신할 수 있다. 예를 들면 표 6과 같은 관련 정보를 수신한다고 가정한다.

콘텐츠 ID	콘텐츠 제목
CID1	아이폰 6S KT 최대 지원금
CID2	니콜생지르 남셔츠 4종
CID3	왁스배쏙티
CID4	크리스탈 선스프레이
CID5	휠라 남성 드로즈
CID6	풍기 인견 여성 란제리
CID7	갤럭시 S6 엣지
CID8	마조네뜨
CID9	KT 홈IoT 월4000원
CID10	커버퀸
...
CIDn

도 4b를 참고하면, 음성 인식 장치(100)는 서버(200)로부터 수신한 콘텐츠 제목으로부터 각 콘텐츠를 식별할 수 있는 적어도 하나의 키워드를 추출하고, 추출한 키워드를 사용자가 해당 콘텐츠를 음성으로 선택하기 위한 음성 명령어로 매핑한다. 그리고 음성 인식 장치(100)는 적어도 하나의 콘텐츠 썸네일과 해당 음성 명령어를 대응하여 디스플레이 화면에 출력할 수 있다. 이때 화면에 표시된 순서대로 복수의 콘텐츠에 일련번호가 부여될 수 있다. 음성 인식 장치(100)는 각 콘텐츠에 해당하는 일련번호를 추가 음성 명령어로 설정할 수 있다. 예를 들면, 표 7과 같이 콘텐츠에 해당하는 일련번호를 추가 음성 명령어로 설정할 수 있다.

콘텐츠 ID	콘텐츠 제목	제1 음성 명령어	제2 음성 명령어
CID1	아이폰 6S KT 최대 지원금	아이폰	일번
CID2	니콜생지르 남셔츠 4종	니콜생지르	이번
CID3	왁스배쏙티	왁스	삼번
CID4	크리스탈 선스프레이	크리스탈	사번
CID5	휠라 남성 드로즈	휠라	오번

도 4c를 참고하면, 사용자가 "더보기"를 선택하여 사용자가 콘텐츠를 선택하기 위한 다음 선택 화면을 출력한 예시이다. 이때 사용자가 선택할 수 있는 다음 콘텐츠 목록들은 새로운 일련번호를 부여받을 수 있다. 예를 들면 표 8과 같이 콘텐츠에 해당하는 일련번호를 새롭게 설정될 수 있다.

콘텐츠 ID	콘텐츠 제목	제1 음성 명령어	제2 음성 명령어
CID6	풍기 인견 여성 란제리	란제리	일번
CID7	갤럭시 S6 엣지	갤럭시	이번
CID8	마조네뜨	마조네뜨	삼번
CID9	KT 홈IoT 월4000원	KT	사번
CID10	커버퀸	커버퀸	오번

도 5는 본 발명의 다른 실시예에 따른 음성 인식 시스템의 구성도이다.

도 5를 참고하면, 본 발명의 다른 실시예에 따른 음성 인식 시스템(1000')은 음성 인식 장치(100'), 서버(200'), 그리고 표시 장치(300')를 포함한다.

본 발명의 다른 실시예에 따른 음성 인식 장치(100')는 적어도 하나의 프로세서에 의해 동작하고, 음성 신호 수신부(110'), 음성 명령어 인식부(120'), 콘텐츠 정보 수신부(140'), 콘텐츠 식별 음성 명령어 생성부(150'), 그리고 유저 인터페이스 구성부(160')를 포함한다.

이때, 도 2에서 설명한 내용과 중복하는 내용은 생략한다.

음성 신호 수신부(110')는 사용자의 음성 신호를 수신한다.

음성 명령어 인식부(120')는 음성 명령어를 수신하여 음성 인식 처리를 수행한다.

콘텐츠 정보 요청부(130')는 음성 명령어 인식부(120')에서 인식한 음성 명령어가 콘텐츠 정보를 요청하는 음성 명령어이면 서버(200')로 콘텐츠 정보를 요청한다.

콘텐츠 정보 수신부(140')는 서버(200')로부터 콘텐츠 정보를 수신한다. 서버(200')는 콘텐츠 정보 요청부(130')의 요청에 따라 사용자가 선택할 수 있는 적어도 하나 이상의 콘텐츠 정보를 추출하고, 추출한 콘텐츠 정보를 음성 인식 장치(100)로 제공할 수 있다. 콘텐츠 정보는 콘텐츠의 제목, 썸네일, 그리고 각 콘텐츠를 선택하기 위한 콘텐츠 선택 음성 명령어를 포함하고, 기타 콘텐츠에 관한 부가 정보를 더 포함할 수도 있다.

유저 인터페이스 구성부(160')는 사용자가 복수의 콘텐츠 중 어느 하나의 콘텐츠를 선택할 수 있는 선택 화면을 생성하여 사용자에게 제공할 수 있다.

유저 인터페이스 구성부(160')는 서버(200')에서 제공된 콘텐츠 정보에 포함된 콘텐츠 썸네일, 그리고 개별 음성 명령어를 대응시켜 디스플레이 화면에 출력할 수 있도록 선택 화면을 구성할 수 있다.

유저 인터페이스 구성부(160')는 복수의 콘텐츠를 화면 분할 방식으로 하나의 화면에 출력할 수 있는데, 이때 화면에 표시된 순서대로 복수의 콘텐츠에 일련번호가 부여될 수 있다. 콘텐츠 식별 음성 명령어 생성부(150')는 복수의 콘텐츠에 해당하는 일련번호를 추가 음성 명령어로 설정할 수 있다.

도 6은 본 발명의 한 실시예에 따른 음성 인식 장치가 음성 인식을 수행하여 콘텐츠를 선택하는 방법의 흐름도이다.

도 6을 참고하면, 음성 인식 장치(100)는 콘텐츠 정보 요청 메시지를 서버(200)로 전송한다(S110).

콘텐츠 정보 요청 메시지는 사용자로부터 수신한 콘텐츠 정보 요청 명령어를 포함할 수 있다. 콘텐츠 정보 요청 명령어는 콘텐츠의 종류, 콘텐츠의 장르, 콘텐츠와 관련된 키워드, 콘텐츠의 제목에 포함된 단어, 콘텐츠에 등장하는 인물의 이름, 콘텐츠의 제작사 제목, 그리고 복수의 콘텐츠를 포함하는 분류 기준(예를 들면, 인기 콘텐츠, 최신 콘텐츠) 중 어느 하나일 수 있다.

서버(200)는 수신한 콘텐츠 정보 요청 명령어를 이용하여 적어도 하나 이상의 콘텐츠를 포함하는 콘텐츠 목록을 추출한다(S120).

서버(200)는 음성 인식 장치(100)로부터 수신한 콘텐츠 정보 요청 명령어를 이용하여 데이터베이스에서 콘텐츠 정보 요청 명령어와 관련된 복수의 콘텐츠를 추출할 수 있다.

서버(200)는 콘텐츠 썸네일, 콘텐츠 제목, 그리고 기타 콘텐츠와 관련된 부가 정보를 포함하는 콘텐츠 정보를 음성 인식 장치(100)로 전달한다(S130).

음성 인식 장치(100)는 콘텐츠 정보에서 특정 콘텐츠를 선택하기 위한 음성 명령어를 추출한다(S140).

예를 들어, 음성 인식 장치(100)는 콘텐츠 제목을 형태소 분석하고, 콘텐츠 제목에 포함된 적어도 하나 이상의 키워드를 추출한다. 그리고 추출된 키워드 중에서 중복되는 단어를 제거한 다음, 추출된 키워드 중 적어도 하나 이상을 콘텐츠를 지칭하기 위한 콘텐츠 선택 음성 명령어로 매핑할 수 있다.

음성 인식 장치(100)는 콘텐츠 썸네일과 콘텐츠 선택 음성 명령어를 대응시켜 표시하는 사용자 인터페이스 화면을 구성한다(S150). 음성 인식 장치(100)는 도 3에서 설명한 바와 같이, 사용자 인터페이스 화면에 콘텐츠 썸네일, 콘텐츠 제목, 음성 명령어를 표시하여 사용자로 하여금 복수의 콘텐츠 중에서 어느 하나의 콘텐츠를 선택할 수 있도록 선택 화면을 제공할 수 있다. 이때, 음성 인식 장치(100)는 음성 명령어가 콘텐츠 제목과 구분될 수 있도록 글자 크기, 글자 색상, 글자 굵기, 글자체 중 어느 하나 이상이 다르게 표시되도록 선택 화면을 구성할 수 있다.

음성 인식 장치(100)는 사용자로부터 입력된 음성 명령어에 대응하는 콘텐츠를 서버(200)로 요청한다(S160). 음성 인식 장치(100)는 사용자의 음성 신호를 수신하고, 음성 인식 처리하여 음성 명령어에 대응하는 콘텐츠를 서버(200)로 요청하는 메시지를 전송할 수 있다.

서버(200)는 음성 인식 장치(100)의 요청에 대응하여 사용자가 선택한 콘텐트를 음성 인식 장치(100)로 전송한다(S170).

도 7은 본 발명의 다른 실시예에 따른 음성 인식 장치가 음성 인식을 수행하여 콘텐츠를 선택하는 방법의 흐름도이다.

도 7을 참고하면, 음성 인식 장치(100)는 서버(200)로부터 콘텐츠 제목을 포함하는 콘텐츠 목록을 수신한다(S210). 서버(200)는 데이터 베이스에 저장된 복수의 콘텐츠의 제목, 그리고 썸네일을 포함하는 콘텐츠 목록을 음성 인식 장치(100)로 전송할 수 있다.

음성 인식 장치(100)는 콘텐츠 제목을 형태소 분석하여 콘텐츠 제목에 포함된 적어도 하나의 키워드를 추출한다(S220). 음성 인식 장치(100)는 내부적으로 구축된 데이터베이스를 이용하여 콘텐츠 제목에서 키워드를 추출할 수 있다.

음성 인식 장치(100)는 추출된 명사 중 중복하는 단어를 제거하여, 콘텐츠를 선택할 수 있는 콘텐츠 선택 음성 명령어로 설정한다(S230).

이때, 음성 인식 장치(100)는 사용자에게 표시하는 콘텐츠 개수에 따라 복수의 콘텐츠에 일련번호를 부여하고, 일련번호를 추가 음성 명령어로 설정할 수도 있다.

그리고 음성 인식 장치(100)는 콘텐츠 썸네일, 콘텐츠 제목, 그리고 콘텐츠 선택 음성 명령어를 포함하는 사용자 인터페이스 화면을 구성한다(S240).

즉, 음성 인식 장치(100)는 사용자로 하여금 복수의 콘텐츠 중에서 어느 하나의 콘텐츠를 선택할 수 있도록 선택 화면을 제공할 수 있다. 음성 인식 장치(100)는 음성 명령어가 콘텐츠 제목과 구분될 수 있도록 글자 크기, 글자 색상, 글자 굵기, 글자체 중 어느 하나 이상이 다르게 표시되도록 선택 화면을 구성할 수 있다.

이와 같이, 본 발명의 실시예에 따르면 복잡한 단어의 조합으로 구성된 콘텐츠 제목을 간단한 음성 명령어를 이용하여 사용자가 입력할 수 있도록 할 수 있다. 즉, 본 발명의 실시예에 따르면 사용자는 복잡한 콘텐츠 이름을 모두 입력어로 할 필요 없이, 간단한 음성 명령어를 이용하여 콘텐츠를 선택할 수 있다.

이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims

적어도 하나의 프로세서에 의해 동작하는 음성 인식 장치의 음성 인식 방법으로서,
콘텐츠 정보에 포함된 콘텐츠 제목에서 각 콘텐츠를 식별하는 적어도 하나의 키워드를 추출하는 단계,
상기 추출한 키워드를, 해당 콘텐츠를 음성으로 선택하기 위한 콘텐츠 선택 음성 명령어로 매핑하는 단계,
각 콘텐츠의 썸네일에 해당 콘텐츠의 콘텐츠 선택 음성 명령어를 대응시켜 디스플레이 화면에 출력하는 단계,
사용자로부터 특정 콘텐츠 선택 음성 명령어를 포함하는 음성 신호를 수신하는 단계, 그리고
상기 특정 콘텐츠 선택 음성 명령어에 대응하는 특정 콘텐츠를 제공하는 단계를 포함하는 음성 인식 방법.
제1항에서,
상기 적어도 하나의 키워드를 추출하는 단계는
상기 콘텐츠 정보에 포함된 콘텐츠 제목을 형태소 분석하여 상기 적어도 하나의 키워드를 추출하는, 음성 인식 방법.
제2항에서,
상기 콘텐츠 선택 음성 명령어는 상기 콘텐츠 제목과 구분할 수 있도록 글자 크기, 글자 색상, 글자 굵기, 글자체 중 어느 하나 이상이 다르게 표시되는 음성 인식 방법.
제3항에서,
상기 디스플레이 화면에 출력하는 단계는
상기 디스플레이 화면에 출력되는 콘텐츠의 수가 복수 개이면
복수의 콘텐츠들을 화면 분할 방식으로 한 화면에 출력하고, 상기 복수의 콘텐츠들에 부여된 일련번호를 함께 표시하는 음성 인식 방법.
제4항에서,
상기 콘텐츠 선택 음성 명령어로 매핑하는 단계는
상기 일련번호를 추가 음성 명령어로 매핑하는 음성 인식 방법.
적어도 하나의 프로세서에 의해 동작하는 음성 인식 장치에서 음성 인식을 수행하기 위한 사용자 인터페이스(User Interface)화면을 표시하는 방법에 있어서,
콘텐츠 서버로부터 복수 콘텐츠의 표시 정보를 수신하는 단계,
상기 표시 정보에 포함된 콘텐츠 제목에서 각 콘텐츠를 식별하는 적어도 하나의 키워드를 추출하고, 추출한 키워드를 해당 콘텐츠를 음성으로 선택하기 위한 콘텐츠 선택 음성 명령어로 매핑하는 단계, 그리고
콘텐츠별로 상기 표시 정보에 포함된 썸네일과 상기 콘텐츠 선택 음성 명령어를 대응시켜 디스플레이 화면에 출력하는 단계를 포함하는 사용자 인터페이스 화면 표시 방법.
제6항에서,
상기 콘텐츠 선택 음성 명령어로 매핑하는 단계는
상기 복수 콘텐츠마다 상기 표시 정보에 포함된 콘텐츠 제목을 형태소 분석하여 상기 적어도 하나의 키워드를 추출하는 단계, 그리고
상기 추출된 키워드 중 중복되는 항목은 제거하여, 콘텐츠 선택 음성 명령어로 매핑하는 단계를 포함하는 사용자 인터페이스 화면 표시 방법.
제6항에서,
상기 디스플레이 화면에 출력하는 단계는
상기 콘텐츠 제목을 더 출력하고,
상기 콘텐츠 선택 음성 명령어는 상기 콘텐츠 제목과 구분할 수 있도록 글자 크기, 글자 색상, 글자 굵기, 글자체 중 어느 하나 이상이 다르게 표시되는 사용자 인터페이스 화면 표시 방법.
제6항에서,
상기 디스플레이 화면에 출력하는 단계는
상기 복수 콘텐츠에 대응하는 일련번호를 더 표시하고,
상기 콘텐츠 선택 음성 명령어로 매핑하는 단계는
상기 일련번호를 구성된 추가 음성 명령어로 매핑하는 사용자 인터페이스 화면 표시 방법.
제6항에서,
상기 콘텐츠 서버로 콘텐츠 정보 요청 메시지를 전송하는 단계를 더 포함하고,
상기 콘텐츠 정보 요청 메시지는 콘텐츠의 종류, 콘텐츠의 장르, 콘텐츠와 관련된 키워드, 콘텐츠의 제목에 포함된 단어, 콘텐츠에 등장하는 인물의 이름, 콘텐츠의 제작사 제목, 그리고 복수의 콘텐츠를 포함하는 분류 기준과 같은 명령어 중 어느 하나를 포함하는 사용자 인터페이스 화면 표시 방법.
적어도 하나의 프로세서에 의해 동작하는 음성 인식 장치로서,
콘텐츠 서버로부터 복수의 콘텐츠 정보를 수신하는 콘텐츠 정보 수신부,
상기 콘텐츠 정보에 포함된 콘텐츠 제목에서 각 콘텐츠를 식별하는 적어도 하나의 키워드를 추출하고, 추출한 키워드를 해당 콘텐츠를 음성으로 선택하기 위한 콘텐츠 선택 음성 명령어로 매핑하는 콘텐츠 선택 음성 명령어 생성부, 그리고
콘텐츠별로 상기 콘텐츠 정보에 포함된 썸네일과 상기 콘텐츠 선택 음성 명령어를 대응시켜 디스플레이 화면에 표시하는 유저 인터페이스 구성부를 포함하는 음성 인식 장치.
제11항에서,
상기 콘텐츠 선택 음성 명령어 생성부는
상기 콘텐츠 정보에 포함된 콘텐츠 제목을 형태소 분석하여 상기 적어도 하나의 키워드를 추출하고, 상기 추출된 키워드 중에서 중복되는 항목은 제거하여, 상기 콘텐츠 선택 음성 명령어로 매핑하는 음성 인식 장치.
제12항에서,
상기 유저 인터페이스 구성부는
상기 콘텐츠 선택 음성 명령어를 상기 콘텐츠 제목과 구분할 수 있도록 글자 크기, 글자 색상, 글자 굵기, 글자체 중 어느 하나 이상을 다르게 표시하는 음성 인식 장치.
제13항에서,
상기 유저 인터페이스 구성부는
상기 복수의 콘텐츠 항목을 화면 분할 방식으로 한 화면에 출력하고, 상기 복수의 콘텐츠 항목에 부여된 일련번호를 함께 표시하는 음성 인식 장치.
제14항에서,
상기 콘텐츠 선택 음성 명령어 생성부는
상기 일련번호를 추가 음성 명령어로 매핑하는 음성 인식 장치.