KR20180106817A - 전자 장치 및 제어 방법 - Google Patents
전자 장치 및 제어 방법 Download PDFInfo
- Publication number
- KR20180106817A KR20180106817A KR1020170125802A KR20170125802A KR20180106817A KR 20180106817 A KR20180106817 A KR 20180106817A KR 1020170125802 A KR1020170125802 A KR 1020170125802A KR 20170125802 A KR20170125802 A KR 20170125802A KR 20180106817 A KR20180106817 A KR 20180106817A
- Authority
- KR
- South Korea
- Prior art keywords
- data
- keyword
- content data
- unit
- domain
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 51
- 238000012800 visualization Methods 0.000 claims description 17
- 238000010801 machine learning Methods 0.000 abstract description 25
- 238000013473 artificial intelligence Methods 0.000 abstract description 20
- 238000013135 deep learning Methods 0.000 abstract description 8
- 230000000875 corresponding effect Effects 0.000 description 56
- 238000010586 diagram Methods 0.000 description 36
- 238000011156 evaluation Methods 0.000 description 24
- 230000006870 function Effects 0.000 description 20
- 238000007781 pre-processing Methods 0.000 description 20
- 238000004891 communication Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 18
- 238000004458 analytical method Methods 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 13
- 239000000284 extract Substances 0.000 description 13
- 238000000605 extraction Methods 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 8
- 230000000007 visual effect Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 5
- 230000000306 recurrent effect Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/438—Presentation of query results
-
- G06F17/3005—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/61—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/64—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/74—Browsing; Visualisation therefor
- G06F16/745—Browsing; Visualisation therefor the internal structure of a single video sequence
-
- G06F17/30775—
-
- G06F17/30852—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 개시는 딥러닝 등의 기계 학습 알고리즘을 활용하는 인공지능(AI) 시스템 및 그 응용에 관련된 것이다. 본 개시는 컨텐츠 데이터를 입력받는 입력부, 컨텐츠 데이터에 대한 정보를 저장하는 메모리, 컨텐츠 데이터를 출력하는 음성 출력부 및 입력된 컨텐츠 데이터를 분석하여 복수의 데이터 키워드를 획득하고, 획득된 복수의 키워드 각각에 대응되는 컨텐츠 데이터의 타임스탬프를 매칭하여 저장하며, 사용자 명령이 입력되는 경우 저장된 데이터 키워드 중 입력된 사용자 명령에 대응되는 데이터 키워드를 검색하고, 검색된 데이터 키워드에 대응되는 타임스탬프를 기초로 컨텐츠 데이터를 재생하는 프로세서를 포함하는 전자 장치를 제공한다.
Description
본 개시는 전자 장치 및 제어 방법에 관한 것으로, 더욱 상세하게는 컨텐츠 데이터 내용을 분석하여 사용자가 원하는 컨텐츠 데이터의 특정 부분을 재생하는 전자 장치 및 제어 방법에 관한 것이다.
또한, 본 문서는 기계 학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 인공 지능(Artificial Intelligence, AI) 시스템 및 그 응용에 관한 것이다.
인공지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 규칙 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 규칙 기반 스마트 시스템은 점차 딥러닝 기반 인공지능 시스템으로 대체되고 있다.
인공지능 기술은 기계학습(딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다.
기계학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.
인공지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.
한편, 기술의 발전에 따라 성능이 향상되고 소형화된 녹음 장치가 개발되고 있다. 녹음 장치가 대중화됨에 따라 다양한 장소에서 녹음을 하고 나중에 녹음된 데이터를 재생하는 경우가 많아지고 있다. 예를 들어, 1회당 한 시간인 강의를 10회 동안 수강한 사용자가 강의를 녹음하는 경우, 총 10시간의 강의 데이터가 녹음될 수 있다. 사용자는 강의 내용 중 특정 주제에 대한 부분을 다시 듣고자 할 수 있다. 그러나, 시간이 지나면 사용자는 다시 듣고 싶은 특정 주제가 전체 강의 데이터 중 어느 부분에 녹음되어 있는지 알기 어렵다.
따라서, 인공지능 기술을 응용하여 사용자의 다시 듣고 싶은 특정 주제를 발화하는 경우, 사용자의 발화에 매칭되는 부분의 컨텐츠 데이터를 재생하는 기술에 대한 필요성이 존재한다.
본 개시의 목적은 컨텐츠 데이터를 분석하고, 사용자의 발화에 매칭되는 컨텐츠 데이터의 특정 부분을 재생할 수 있는 전자 장치 및 제어 방법을 제공함에 있다.
이상과 같은 목적을 달성하기 위한 일 실시 예에 따른 전자 장치는 컨텐츠 데이터를 입력받는 입력부, 상기 컨텐츠 데이터에 대한 정보를 저장하는 메모리, 상기 컨텐츠 데이터를 출력하는 음성 출력부 및 상기 입력된 컨텐츠 데이터를 분석하여 복수의 데이터 키워드를 획득하고, 상기 획득된 복수의 키워드 각각에 대응되는 상기 컨텐츠 데이터의 타임스탬프를 매칭하여 저장하며, 사용자 명령이 입력되는 경우 상기 저장된 데이터 키워드 중 상기 입력된 사용자 명령에 대응되는 데이터 키워드를 검색하고, 상기 검색된 데이터 키워드에 대응되는 타임스탬프를 기초로 상기 컨텐츠 데이터를 재생하는 프로세서를 포함한다.
그리고, 상기 프로세서는 상기 컨텐츠 데이터의 컨텍스트 또는 상기 데이터 키워드의 빈도 중 적어도 하나에 기초하여 상기 데이터 키워드에 가중치를 부여할 수 있다.
또한, 상기 프로세서는 상기 입력된 사용자 명령을 분석하여 명령 키워드를 획득하고, 상기 획득된 명령 키워드에 가중치를 부여하며, 상기 명령 키워드와 매칭되는 상기 데이터 키워드를 식별하고, 상기 식별된 데이터 키워드의 가중치와 상기 명령 키워드의 가중치에 기초하여 스코어를 산출하며, 상기 산출된 스코어를 기초로 최고 스코어를 가지는 데이터 키워드를 검색하고, 상기 검색된 데이터 키워드에 대응되는 타임스탬프를 기초로 상기 컨텐츠 데이터를 재생할 수 있다.
한편, 상기 데이터 키워드는 도메인 키워드 및 서브 키워드를 포함할 수 있다.
그리고, 상기 도메인 키워드는 상기 컨텐츠 데이터에 포함된 문장의 메인 토픽 단어를 포함할 수 있다.
또한, 상기 서브 키워드는 상기 도메인 키워드의 유사 단어, 상기 도메인 키워드의 관련 단어 및 상기 도메인 키워드와 관련된 타 문장에 포함된 단어 중 적어도 하나를 포함할 수 있다.
한편, 전자 장치는 상기 도메인 키워드 및 상기 서브 키워드를 기초로 상기 컨텐츠 데이터의 구조를 시각화 도표로 표시하는 디스플레이를 더 포함할 수 있다.
또한, 상기 프로세서는 상기 시각화 도표에 포함된 데이터 키워드에 대한 선택 명령을 입력받는 경우, 상기 선택된 데이터 키워드에 대응되는 타임스탬프를 기초로 상기 컨텐츠 데이터를 재생할 수 있다.
이상과 같은 목적을 달성하기 위한 일 실시 예에 따른 전자 장치의 제어 방법은 컨텐츠 데이터를 입력받아 저장하는 단계, 상기 입력된 컨텐츠 데이터를 분석하여 복수의 데이터 키워드를 획득하는 단계, 상기 획득된 복수의 키워드 각각에 대응되는 상기 컨텐츠 데이터의 타임스탬프를 매칭하여 저장하는 단계, 사용자 명령이 입력되는 경우 상기 저장된 데이터 키워드 중 상기 입력된 사용자 명령에 대응되는 데이터 키워드를 검색하는 단계 및 상기 검색된 데이터 키워드에 대응되는 타임스탬프를 기초로 상기 컨텐츠 데이터를 재생하는 단계를 포함한다.
그리고, 전자 장치의 제어 방법은 상기 컨텐츠 데이터의 컨텍스트 또는 상기 데이터 키워드의 빈도 중 적어도 하나에 기초하여 상기 데이터 키워드에 가중치를 부여하는 단계를 더 포함할 수 있다.
한편, 상기 데이터 키워드를 검색하는 단계는 상기 입력된 사용자 명령을 분석하여 명령 키워드를 획득하고, 상기 획득된 명령 키워드에 가중치를 부여하며, 상기 명령 키워드와 매칭되는 상기 데이터 키워드를 식별하고, 상기 식별된 데이터 키워드의 가중치와 상기 명령 키워드의 가중치에 기초하여 스코어를 산출하며, 상기 산출된 스코어를 기초로 최고 스코어를 가지는 데이터 키워드를 검색할 수 있다.
한편, 상기 데이터 키워드는 도메인 키워드 및 서브 키워드를 포함할 수 있다.
그리고, 상기 도메인 키워드는 상기 컨텐츠 데이터에 포함된 문장의 메인 토픽 단어를 포함할 수 있다.
또한, 상기 서브 키워드는 상기 도메인 키워드의 유사 단어, 상기 도메인 키워드의 관련 단어 또는 상기 도메인 키워드와 관련된 타 문장에 포함된 단어 중 적어도 하나를 포함할 수 있다.
한편, 전자 장치의 제어 방법은 상기 도메인 키워드 및 상기 서브 키워드를 기초로 상기 음성 데이터의 구조를 시각화 도표로 표시하는 단계를 더 포함할 수 있다.
또한, 상기 컨텐츠 데이터를 재생하는 단계는 상기 시각화 도표에 포함된 도메인 키워드에 대한 선택 명령을 입력받는 경우, 상기 선택된 데이터 키워드에 대응되는 타임스탬프를 기초로 상기 컨텐츠 데이터를 재생할 수 있다.
이상 설명한 다양한 실시 예에 다르면, 전자 장치 및 제어 방법은 사용자의 발화에 매칭되는 컨텐츠 데이터의 특정 부분을 재생함으로써 사용자는 원하는 컨텐츠의 특정 부분을 용이하게 검색할 수 있다.
도 1은 본 개시의 일 실시 예에 따른 전자 장치의 블록도이다.
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 상세히 설명하기 위한 블록도이다.
도 3은 본 개시의 일부 실시 예에 따른 프로세서의 블록도이다.
도 4a는 본 개시의 일부 실시 예에 따른 데이터 학습부의 블록도이다.
도 4b는 본 개시의 일부 실시 예에 따른 데이터 인식부의 블록도이다.
도 4c는, 본 개시의 일부 실시 예에 따른 전자 장치 및 외부의 서버의 연동 동작을 설명하기 위한 블록도이다.
도 5는 본 개시의 일 실시 예에 따른 지능형 검색 시스템을 설명하는 도면이다.
도 6은 본 개시의 일 실시 예에 따른 데이터 키워드를 추출하는 과정을 설명하는 도면이다.
도 7은 본 개시의 일 실시 예에 따른 데이터 키워드를 분석하는 과정을 설명하는 도면이다.
도 8은 본 개시의 일 실시 예에 따른 타임 스탬프가 매핑된 데이터 키워드를 설명하는 도면이다.
도 9는 본 개시의 일 실시 예에 따른 시각적 도표로 나타낸 데이터 키워드를 설명하는 도면이다.
도 10은 본 개시의 일 실시 예에 따른 시각적 도표를 이용하여 컨텐츠 데이터의 특정 부분을 선택하는 과정을 설명하는 도면이다.
도 11a 내지 도 11c는 본 개시의 일 실시 예에 따른 검색 기능으로 컨텐츠 데이터를 재생하는 과정을 설명하는 도면이다.
도 12는 본 개시의 일 실시 예에 따른 전자 장치 제어 방법의 흐름도이다.
도 13 및 도 14는 본 개시의 다양한 실시예에 따른, 데이터 인식 모델을 이용하는 네트워크 시스템의 시퀀스도이다.
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 상세히 설명하기 위한 블록도이다.
도 3은 본 개시의 일부 실시 예에 따른 프로세서의 블록도이다.
도 4a는 본 개시의 일부 실시 예에 따른 데이터 학습부의 블록도이다.
도 4b는 본 개시의 일부 실시 예에 따른 데이터 인식부의 블록도이다.
도 4c는, 본 개시의 일부 실시 예에 따른 전자 장치 및 외부의 서버의 연동 동작을 설명하기 위한 블록도이다.
도 5는 본 개시의 일 실시 예에 따른 지능형 검색 시스템을 설명하는 도면이다.
도 6은 본 개시의 일 실시 예에 따른 데이터 키워드를 추출하는 과정을 설명하는 도면이다.
도 7은 본 개시의 일 실시 예에 따른 데이터 키워드를 분석하는 과정을 설명하는 도면이다.
도 8은 본 개시의 일 실시 예에 따른 타임 스탬프가 매핑된 데이터 키워드를 설명하는 도면이다.
도 9는 본 개시의 일 실시 예에 따른 시각적 도표로 나타낸 데이터 키워드를 설명하는 도면이다.
도 10은 본 개시의 일 실시 예에 따른 시각적 도표를 이용하여 컨텐츠 데이터의 특정 부분을 선택하는 과정을 설명하는 도면이다.
도 11a 내지 도 11c는 본 개시의 일 실시 예에 따른 검색 기능으로 컨텐츠 데이터를 재생하는 과정을 설명하는 도면이다.
도 12는 본 개시의 일 실시 예에 따른 전자 장치 제어 방법의 흐름도이다.
도 13 및 도 14는 본 개시의 다양한 실시예에 따른, 데이터 인식 모델을 이용하는 네트워크 시스템의 시퀀스도이다.
이하에서는 본 개시의 바람직한 실시 예가 첨부된 도면을 참조하여 다양한 실시 예를 보다 상세히 설명한다. 본 개시를 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단된 경우 그 상세한 설명은 생략한다. 그리고 후술되는 용어들은 본 개시에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되지는 않는다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 개시의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 항목들의 조합 또는 복수의 관련된 항목들 중의 어느 하나의 항목을 포함한다.
본 명세서에서 사용한 용어는 실시 예를 설명하기 위해 사용된 것으로, 본 개시를 제한 및/또는 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, 포함하다 또는 가지다 등의 용어는 명세서상에 기재된 특징, 숫자, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
실시 예에 있어서 '모듈' 혹은 '부'는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어 또는 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 '모듈' 혹은 복수의 '부'는 특정한 하드웨어로 구현될 필요가 있는 '모듈' 혹은 '부'를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서로 구현될 수 있다.
이하에서는 첨부된 도면을 이용하여 본 개시에 대하여 구체적으로 설명한다.
도 1은 본 개시의 일 실시 예에 따른 전자 장치의 블록도이다. 도 1에 도시된 바와 같이, 전자 장치(100)는 단독으로 지능형 검색 서비스를 제공할 수 있다. 다른 예로, 전자 장치(100)는 서버와 연동하여 사용자에게 지능형 검색 서비스를 제공할 수도 있다.
본 명세서에서 사용되는 용어 '지능형 검색'은, 인공지능 기술과 음성 인식 기술의 결합으로 사용자의 언어를 이해하고 사용자가 원하는 컨텐츠의 특정 부분을 인식하여 인식된 특정 부분을 재생하는 소프트웨어 어플리케이션을 말한다. 예를 들어, 지능형 검색 서비스는 딥러닝을 포함하는 머신러닝, 음성 인식, 문장 분석, 상황 인지와 같은 인공지능 기능을 수행할 수 있다. 지능형 검색 서비스는 사용자의 습관 또는 패턴을 학습하여 개인에 필요한 맞춤형 서비스를 제공할 수 있다.
전자 장치(100)는 스마트폰, 타블렛 PC와 같은 모바일 장치일 수 있으나, 이는 일 실시 예에 불과할 뿐, 녹음 장치, 음성 인식 장치, 웨어러블 장치, 홈네트워크의 허브, 전자 액자, 인간형 로봇, 오디오 장치 등 컨텐츠를 녹음 또는 저장하여 재생하는 동작을 수행할 수 있는 모든 장치로 구현될 수 있다.
도 1을 참조하면, 전자 장치(100)는 입력부(110), 음성 출력부(130), 프로세서(140), 메모리(160)를 포함한다.
입력부(110)는 컨텐츠 데이터를 입력받는다. 예를 들어, 컨텐츠 데이터는 음성 데이터일 수 있다. 입력부(110)는 강의 또는 회의에서 화자에 의해 발화되는 음성 데이터를 입력받을 수 있다. 즉, 입력부(110)는 사용자의 음성을 입력받을 수 있다. 일 실시 예로서, 입력부(100)는 마이크일 수 있다.
메모리(160)는 컨텐츠 데이터에 대한 정보를 저장한다. 먼저, 입력부(110)에서 입력된 컨텐츠 데이터는 메모리(160)에 저장될 수 있다. 컨텐츠 데이터가 음성 데이터인 경우, 입력된 컨텐츠 데이터는 메모리(160)에 녹음될 수 있다. 그리고, 메모리(160)는 전자 장치(100)의 다양한 기능을 수행하는 프로그램, 데이터 등을 저장할 수 있다.
예를 들어, 메모리(160)는 플래시 메모리, 하드 디스크, SSD, SDD, 멀티미디어 카드, 램, 롬, EEPROM 또는 USB 메모리 등의 저장매체를 포함할 수 있다. 한편, 전자 장치(100)는 인터넷 상에서 메모리(160)의 저장 기능을 수행하는 웹 스토리지와 관련되어 동작될 수도 있다.
프로세서(140)는 입력된 컨텐츠 데이터를 분석하여 복수의 데이터 키워드를 획득한다. 예를 들어, 프로세서(140)는 녹음된 컨텐츠 데이터를 분석하여 주요 내용을 요약할 수 있다. 즉, 프로세서(140)는 컨텐츠 데이터에 대한 컨텍스트 분석을 진행할 수 있다. 프로세서(140)는 녹음된 컨텐츠를 텍스트로 변환하고, 변환된 텍스트를 기초로 컨텐츠 데이터에 대한 컨텍스트 분석을 진행할 수 있다. 컨텍스트 분석은 딥러닝을 포함하는 머신러닝, 문장 분석, 상황 인지와 같은 인공지능 기능에 기초하여 수행될 수 있다. 프로세서(140)는 컨텍스트 분석을 통해 복수의 키워드를 획득한다.
그리고, 프로세서(140)는 획득된 복수의 키워드 각각에 대응되는 컨텐츠 데이터의 타임스탬프를 매칭하여 저장한다. 예를 들어, 컨텐츠 데이터가 머신러닝(machine learning)의 역사, 배경, 기술이론 등에 관한 강의라면, 프로세서(140)는 머신러닝, 역사, 배경, 기술이론이란 키워드를 획득하고, 획득된 각각의 키워드에 대응되는 지점의 타임스탬프를 생성할 수 있다. 프로세서(140)는 획득된 키워드와 대응되는 타임스탬프를 매칭하여 저장한다.
예를 들어, 머신러닝의 제1 강의의 전체 길이(duration)가 1시간이고, 전체 강의 중 15분 지점부터 21분 지점까지 머신러닝의 역사, 21분 지점부터 27분 지점까지 머신러닝의 배경, 27분 지점부터 34분 지점까지 머신러닝의 기본이론이라고 가정한다. 프로세서(140)는 머신러닝, 역사, 배경, 기본이론이라는 키워드를 추출하고, 15분, 21분, 27분이라는 타임스탬프를 생성할 수 있다. 그리고, 프로세서(140)는 머신러닝 제1강에는 역사, 배경, 기본이론이라는 키워드를 연결시키고, 역사에는 15분이라는 타임스탬프를 연결시키며, 배경에는 21분이라는 타임스탬프를 연결시키고, 기본이론에는 27분이라는 타임스탬프를 연결시킬 수 있다.
사용자는 녹음된 강의 컨텐츠 중 특정 부분을 음성으로 검색할 수 있다. 프로세서(140)는 사용자 명령이 입력되는 경우 저장된 데이터 키워드 중 입력된 사용자 명령에 대응되는 데이터 키워드를 검색한다. 그리고, 프로세서(140)는 검색된 데이터 키워드에 대응되는 타임스탬프를 기초로 컨텐츠 데이터를 재생한다.
예를 들어, 사용자는 머신러닝, 역사라는 음성으로 전자 장치(100)에 명령을 발화할 수 있다. 입력부(110)는 발화된 사용자의 명령을 입력받을 수 있다. 프로세서(140)는 입력된 사용자 명령을 분석하고 인식할 수 있다. 프로세서(140)는 인식된 머신러닝, 역사와 대응되는 키워드를 검색할 수 있다. 그리고, 프로세서(140)는 검색된 키워드인 머신러닝의 역사에 매칭된 15분이라는 타임스탬프에 기초하여 머신러닝의 제1 강의의 15분 지점부터 재생한다.
음성 출력부(130)는 컨텐츠 데이터를 출력한다. 즉, 상술한 예에서, 음성 출력부(130)는 머신러닝의 제1 강의의 15분 지점의 강의 데이터를 출력할 수 있다. 예를 들어, 음성 출력부(130)는 스피커일 수 있다.
상술한 실시 예에 따르면, 전자 장치(100)는 딥러닝을 포함하는 머신러닝, 음성 인식, 문장 분석, 상황 인지와 같은 인공지능 기능에 기초하여 입력된 컨텐츠 데이터를 분석하여 키워드 및 타임스탬프와 함께 저장할 수 있다. 그리고, 전자 장치(100)는 사용자의 명령에 따라 대응되는 타임스탬프 지점의 컨텐츠 데이터를 검색하여 출력하는 지능형 검색을 수행함으로써 사용자에게 검색의 편리함을 제공할 수 있다.
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 상세히 설명하기 위한 블록도이다.
도 2를 참조하면, 전자 장치(100)는 입력부(110), 디스플레이(120), 음성 출력부(130), 프로세서(140), 통신부(150) 및 메모리(160)을 포함할 수 있다. 도 2의 실시 예에 도시된 구성 요소 이외에도 전자 장치(100)는 영상 수신부(미도시), 영상 처리부(미도시), 전원부(미도시), 유선 인터페이스(미도시) 등 다양한 구성을 포함할 수 있다. 또한 전자 장치(100)가 반드시 도 2에 도시된 구성을 모두 포함하도록 구현되는 것으로 한정되지 않음은 물론이다.
입력부(110)는 컨텐츠 데이터를 입력받는다. 일 실시 예로서, 입력부(100)는 마이크일 수 있다. 마이크는 다양한 형태로 구현되어 사용자의 음성을 입력받는 기능을 수행한다. 마이크는 잡음 제거를 위해 다양한 음향 필터(acoustic filter)를 포함할 수도 있다.
한편, 입력부(110)는 버튼, 모션 인식 장치, 터치 패드 등으로 구현될 수도 있다. 또한, 입력부(110)는 터치 패드로 구현되는 경우, 디스플레이(120)와 결합하여 상호 레이어 구조를 이루는 터치 스크린의 형태로 구현될 수 있다. 터치 스크린은 터치 입력 위치, 면적, 터치 압력 등을 검출할 수 있다.
디스플레이(120)는 전자 장치(100)에서 제공되는 각종 영상 컨텐츠, 정보, UI 등을 표시할 수 있다. 예를 들어, 디스플레이(120)는 사용자의 음성에 대응한 응답 정보 제공 화면을 표시할 수 있다. 디스플레이(120)는 액정 표시 장치(Liquid Crystal Display: LCD), 유기 전기 발광 다이오드(Organic Light Emitting Display: OLED) 또는 플라즈마 표시 패널(Plasma Display Panel: PDP) 등으로 구현되어 전자 장치(100)를 통해 제공 가능한 다양한 화면을 표시할 수 있다.
디스플레이(120)는 프로세서(140)의 컨텐츠 데이터의 키워드에 대응되는 시각화 도표를 표시할 수 있다. 예를 들어, 프로세서(140)는 컨테츠 데이터의 도메인 키워드 및 서브 키워드를 기초로 컨텐츠 데이터의 구조를 생성할 수 있다. 그리고, 디스플레이(120)는 사용자의 명령에 대응하여 생성된 컨텐츠 데이터의 구조를 시각화 도표로 표시할 수 있다. 예를 들어, 도메인 키워드는 컨텐츠 데이터의 문장 또는 단락의 핵심 키워드일 수 있다. 또는, 도메인 키워드는 컨텐츠 데이터에 포함된 문장의 메인 토픽 단어일 수 있다. 서브 키워드는 도메인 키워드와 유사한 환경에서 사용된 단어, 도메인 키워드가 사용된 문맥에 있는 단어 또는 도메인 키워드의 의미와 관련된 단어, 도메인 키워드의 유사 단어, 도메인 키워드의 관련 단어, 도메인 키워드와 관련된 타 문장에 포함된 단어 등을 포함할 수 있다. 디스플레이(120)는 사용자가 입력한 사용자 명령 또는 검색된 부분에 대응되는 컨텐츠 데이터 정보 등을 표시할 수 있다.
음성 출력부(130)는 음성을 출력할 수 있다. 음성 출력부(130)는 각종 오디오 데이터 뿐만 아니라 알림음이나 음성 메시지를 출력할 수 있다. 본 개시의 일 실시 예에 따른 전자 장치(100)는 검색된 컨텐츠 데이터를 재생하기 위한 출력부의 하나로 스피커를 포함할 수 있다. 스피커를 통해 전자 장치(100)는 사용자에게 지능형 검색 기능에 의해 검색된 컨텐츠 데이터를 출력할 수 있다. 스피커는 전자 장치(100)에 내장될 수 있고, 잭 등과 같은 출력 포트의 형태로 구현될 수도 있다.
통신부(150)는 외부 장치와 통신을 수행한다. 예를 들어, 외부 장치는 서버, 클라우드 저장소, 네트워크 등으로 구현될 수 있다. 통신부(150)는 외부 장치에 음성 인식 결과를 전송하고 대응되는 정보를 외부 장치로부터 수신할 수 있다. 통신부(150)는 음성 인식을 위한 언어 모델을 외부 장치로부터 수신할 수도 있다.
이를 위해, 통신부(150)는 근거리 무선 통신 모듈(미도시), 무선 통신 모듈(미도시) 등과 같은 다양한 통신 모듈을 포함할 수 있다. 여기에서, 근거리 무선 통신 모듈이란 블루투스(BLUETOOTH), 지그비(Zigbee) 등과 같은 근거리 무선 통신 방식에 따라, 근거리에 위치한 외부 기기와 통신을 수행하기 위한 모듈이다. 또한, 무선 통신 모듈이란 WiFi, WiFi direct, IEEE 등과 같은 무선 통신 프로토콜에 따라 외부 네트워크에 연결되어 통신을 수행하는 모듈이다. 이 밖에 무선 통신 모듈은 3G, 3GPP, LTE, LTE-A 등과 같은 다양한 이동 통신 규격에 따라 이동 통신망에 접속하여 통신을 수행하는 이동 통신 모듈을 더 포함할 수도 있다.
메모리(160)는 전자 장치(100)를 구동하기 위한 다양한 모듈, 소프트웨어, 데이터를 저장할 수 있다. 예를 들어, 메모리(160)에는 사용자의 음성을 인식하는데 이용될 수 있는 음향 모델(acoustic model) 및 언어 모델(language model) 및 컨텐츠 데이터의 컨텍스트 및 키워드 추출에 이용될 수 있는 컨텍스트 모델(context model)이 저장될 수 있다. 그리고, 메모리(160)에는 사용자 입력을 기초로 후보 동작을 결정하기 위한 정보 온톨로지(또는, 태스크 네트워크)가 저장될 수 있다. 또한, 메모리(160)에는 컨텐츠 데이터로부터 추출된 도메인 키워드, 서브 키워드 및 키워드에 대응되는 타임스탬프가 저장될 수 있다.
메모리(160)는 전자 장치(100)를 동작시키기 위해 필요한 각종 프로그램 등이 저장되는 저장매체로서, 플래쉬 메모리, HDD(Hard Disk Drive), SSD(Solid State Drive) 등의 형태로 구현 가능하다. 예를 들어, 메모리(160)는 전자 장치(100)의 동작 수행을 위한 프로그램을 저장하기 위한 ROM, 전자 장치(100)의 동작 수행에 따른 데이터를 일시적으로 저장하기 위한 RAM을 구비할 수 있다. 메모리(160)에는 디스플레이(120)에 표시될 각종 화면을 구성하기 위한 프로그램 및 데이터가 저장될 수 있다. 또한, 메모리(160)에는 특정 서비스를 수행하기 위한 프로그램, 어플리케이션 및 데이터가 저장될 수 있다.
프로세서(140)는 입력된 컨텐츠 데이터를 분석하여 복수의 데이터 키워드를 획득할 수 있다. 데이터 키워드는 도메인 키워드 및 서브 키워드를 포함한다. 프로세서(140)는 도메인 키워드 및 서브 키워드를 각각 복수 개 획득할 수 있다. 프로세서(140)는 획득된 복수의 키워드 각각에 대응되는 컨텐츠 데이터의 타임스탬프를 매칭하여 메모리(160)에 저장할 수 있다. 그리고, 프로세서(140)는 사용자 명령이 입력되는 경우, 입력된 사용자 명령을 인식할 수 있다. 예를 들어, 사용자 명령은 음성 명령일 수 있다. 즉, 프로세서(140)는 메모리(160)에 저장된 음향 모델 및 언어 모델을 이용하여 사용자의 음성을 인식할 수 있다. 그리고, 프로세서(140)는 메모리(160)에 저장된 컨텍스트 모델을 이용하여 키워드를 추출할 수 있다.
프로세서(140)는 저장된 데이터 키워드 중에서 인식된 사용자 명령에 대응되는 데이터 키워드를 검색할 수 있다. 프로세서(140)는 검색된 데이터 키워드에 대응되는 타임스탬프를 기초로 컨텐츠 데이터를 재생할 수 있다.
더욱 구체적인 동작은 이하에서 예시 도면과 함께 다시 설명한다.
도 3은 본 개시의 일부 실시 예에 따른 프로세서의 블록도이다.
도 3을 참조하면, 일부 실시 예에 따른 프로세서(140)는 데이터 학습부(141) 및 데이터 인식부(142) 중 적어도 하나를 포함할 수 있다.
데이터 학습부(141)는 컨텐츠 데이터 분석, 데이터 키워드 추출, 음성 인식, 언어 이해를 위한 기준을 학습할 수 있다. 구체적으로, 데이터 학습부(141)는 컨텐츠 데이터로부터 데이터 키워드를 추출하는 키워드 추출 기준을 학습할 수 있다. 또한, 데이터 학습부(141)는 추출된 키워드의 활용 여부에 따라 키워드 추출 기준을 학습할 수 있다. 즉, 데이터 학습부(141)는 키워드 추출 기준 데이터 및 학습 데이터에 기초하여 새로운 키워드 추출 기준을 생성, 학습 또는 업데이트할 수 있다.
이때, 데이터 학습부(141)는 컨텐츠 데이터의 유형에 따라 상이한 키워드를 추출하도록 키워드 추출 기준을 학습할 수 있다. 예를 들어, 데이터 학습부(141)는 컨텐츠 데이터에서 사용자가 한 명인 경우에는 반복되는 키워드를 추출하는 키워드 추출 기준을 학습할 수 있다. 또는, 데이터 학습부(141)는 컨텐츠 데이터에서 사용자가 여러 명인 경우에는 복수의 사용자들이 공통적으로 발화하는 키워드를 추출하는 키워드 추출 기준을 학습할 수도 있다.
프로세서(140)는 학습된 기준에 따라 컨텐츠 데이터를 분석하여 주요 데이터 키워드를 판단할 수 있고, 입력된 사용자 음성을 분석하여 사용자의 발화 의도를 판단할 수 있다. 그리고 프로세서(140)는 컨텐츠 데이터에 대응되는 적절한 데이터 키워드를 추출할 수 있다. 데이터 학습부(141)는 컨텐츠 데이터 분석 및 사용자 음성을 인식하기 위하여 어떠한 데이터를 이용할 것인지 결정할 수 있다. 데이터 학습부(141)는 학습에 이용될 데이터를 획득하고, 획득된 데이터를 후술할 데이터 인식 모델에 적용함으로써 컨텐츠 데이터 분석, 데이터 키워드 추출, 음성 인식을 위한 기준을 학습할 수 있다.
데이터 인식부(142)는 학습된 데이터 인식 모델을 이용하여, 소정의 데이터로부터 상황을 인식할 수 있다. 데이터 인식부(142)는 학습에 의한 기설정된 기준에 따라 소정의 데이터를 획득하고, 획득된 데이터를 입력 값으로 하여 데이터 인식 모델을 이용할 수 있다. 예를 들어, 학습된 컨텍스트 모델 등을 이용하여 데이터 인식부(142)는 입력되는 컨텐츠 데이터를 분석하고 데이터 키워드를 추출할 수 있다. 또한, 학습된 음향 모델 및 언어 모델을 이용하여, 데이터 인식부(142)는 입력된 사용자 음성을 인식할 수 있다. 그리고 인식된 사용자 음성에 기초하여, 데이터 인식부(142)는 사용자의 발화로부터 수행하고자 하는 동작이 무엇인지를 판단할 수 있다.
데이터 인식부(142)는 입력된 컨텐츠 데이터 및 추출된 데이터 키워드를 재차 입력 값으로 이용하여 데이터 인식 모델을 갱신할 수 있다. 또한, 각 사용자에 대한 음성 인식 및 후보 동작 결정 결과로 획득된 데이터를 재차 입력 값으로 이용하여, 데이터 인식부(142)는 데이터 인식 모델을 갱신할 수 있다. 이와 같이, 데이터 인식부(142)는 컨텐츠 데이터 분석, 데이터 키워드 추출, 음성 인식 및 실행 가능한 동작 결정 등에 빅데이터를 이용할 수 있다. 프로세서(140)는 빅데이터로 학습된 정보 온톨로지를 사용할 수도 있다.
데이터 학습부(141)의 적어도 일부 및 데이터 인식부(142)의 적어도 일부는, 소프트웨어 모듈로 구현되거나 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 학습부(141) 및 데이터 인식부(142) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치 또는 컨텐츠 데이터 재생 장치에 탑재될 수도 있다. 이때, 인공 지능을 위한 전용 하드웨어 칩은 확률 연산에 특화된 전용 프로세서로서, 기존의 범용 프로세서보다 병렬처리 성능이 높아 기계 학습과 같은 인공 지능 분야의 연산 작업을 빠르게 처리할 수 있다. 데이터 학습부(141) 및 데이터 인식부(142)가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 이 경우, 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.
도 3의 실시 예에서는 데이터 학습부(141) 및 데이터 인식부(142)가 모두 전자 장치(100)에 탑재된 경우를 도시하였으나, 이들은 각각 별개의 장치에 탑재될 수도 있다. 예를 들어, 데이터 학습부(141) 및 데이터 인식부(142) 중 하나는 전자 장치(100)에 포함되고, 나머지 하나는 서버(200)에 포함될 수 있다. 또한, 데이터 학습부(141) 및 데이터 인식부(142)는 서로 유선 또는 무선으로 연결되어, 데이터 학습부(141)가 구축한 모델 정보가 데이터 인식부(142)로 제공될 수 있고, 데이터 인식부(142)로 입력된 데이터가 추가 학습 데이터로 데이터 학습부(141)로 제공될 수도 있다.
도 4a는 본 개시의 일부 실시 예에 따른 데이터 학습부(141)의 블록도이다.
도 4a를 참조하면, 일부 실시 예에 따른 데이터 학습부(141)는 데이터 획득부(141-1) 및 모델 학습부(141-4)를 포함할 수 있다. 또한, 데이터 학습부(141)는 전처리부(141-2), 학습 데이터 선택부(141-3) 및 모델 평가부(141-5) 중 적어도 하나를 선택적으로 더 포함할 수 있다.
데이터 획득부(141-1)는 상황 판단에 필요한 데이터를 획득할 수 있다. 예를 들어, 데이터 획득부(141-1)는 입력부(110)를 통해 입력된 컨텐츠 데이터 또는 사용자 음성 신호를 디지털 신호로 변환하여 음성 데이터를 획득할 수 있다. 그리고, 데이터 획득부(141-1)는 서버(200) 또는 인터넷과 같은 네트워크에서 학습용 음성 데이터를 수신할 수도 있다.
모델 학습부(131-4)는 학습 데이터에 기초하여 상황을 어떻게 판단할지에 관한 기준을 학습할 수 있다. 또한, 모델 학습부(131-4)는 상황 판단을 위하여 어떤 학습 데이터를 이용해야 하는지에 대한 기준을 학습할 수도 있다.
예를 들어, 모델 학습부(141-4)는 복수의 음성 데이터들을 비교하여 음소, 음절, 모음 등을 구분하는 물리적인 특징들을 학습할 수 있다. 이를 통해 모델 학습부(141-4)는 음소와 같은 소리 단위를 구분하는 음향 모델(AM)을 구축할 수 있다. 또한, 모델 학습부(141-4)는 복수의 음성 데이터들을 비교하여 단어나 어휘적 쓰임새를 학습할 수 있다. 이를 통해 모델 학습부(141-4)는 언어모델(LM)을 구축할 수 있다.
다른 예로, 모델 학습부(141-4)는 인식된 사용자 음성을 기초로 수행 가능한 동작을 판단할 수 있는 정보 온톨로지를 구축할 수 있다.
또한, 모델 학습부(141-4)는 컨텐츠 데이터로부터 음절, 어절, 단어, 품사 등을 학습하고, 문장 또는 단락 간의 컨텍스트를 학습할 수 있다. 모델 학습부(141-4)는 학습을 통해 컨텍스트 모델을 구축할 수 있다. 그리고, 모델 학습부(141-4)는 컨텐츠 데이터에서 키워드를 추출하고, 추출된 키워드를 이용하여 온톨로지를 구축할 수도 있다.
모델 학습부(141-4)는 상황 판단에 이용되는 데이터 인식 모델을 학습 데이터를 이용하여 학습시킬 수 있다. 이 경우, 데이터 인식 모델은 미리 구축된 모델일 수 있다. 예를 들어, 데이터 인식 모델은 기본 학습 데이터(예를 들어, 샘플 컨텐츠 데이터, 샘플 음성 데이터 등)를 입력 받아 미리 구축된 모델일 수 있다. 다른 예로, 데이터 인식 모델은 빅데이터를 이용하여 미리 구축된 컨텍스트 모델. 음향 모델(AM) 또는 언어 모델(LM)일 수 있다.
데이터 인식 모델은, 인식 모델의 적용 분야, 학습의 목적 또는 장치의 컴퓨터 성능 등을 고려하여 구축될 수 있다. 데이터 인식 모델은, 예를 들어, 신경망(Neural Network)을 기반으로 하는 모델일 수 있다. 예컨대, DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network)과 같은 모델이 데이터 인식 모델로서 사용될 수 있으나, 이에 한정되지 않는다.
다양한 실시 예에 따르면, 모델 학습부(141-4)는 미리 구축된 데이터 인식 모델이 복수 개가 존재하는 경우, 입력된 학습 데이터와 기본 학습 데이터의 관련성이 큰 데이터 인식 모델을 학습할 데이터 인식 모델로 결정할 수 있다. 이 경우, 기본 학습 데이터는 데이터의 타입별로 기분류되어 있을 수 있으며, 데이터 인식 모델은 데이터의 타입별로 미리 구축되어 있을 수 있다. 예를 들어, 기본 학습 데이터는 학습 데이터가 생성된 지역, 학습 데이터가 생성된 시간, 학습 데이터의 크기, 학습 데이터의 장르, 학습 데이터의 생성자, 학습 데이터 내의 오브젝트의 종류 등과 같은 다양한 기준으로 기분류되어 있을 수 있다.
또한, 모델 학습부(141-4)는, 예를 들어, 오류 역전파법(error back-propagation) 또는 경사 하강법(gradient descent)을 포함하는 학습 알고리즘 등을 이용하여 데이터 인식 모델을 학습시킬 수 있다.
예를 들어, 모델 학습부(141-4)는 학습 데이터를 입력 값으로 하는 지도 학습(supervised learning)을 통하여 데이터 인식 모델을 학습시킬 수 있다. 다른 예로, 모델 학습부(141-4)는 별도의 지도 없이 상황 판단을 위해 필요한 데이터의 종류를 스스로 학습함으로써 상황 판단을 위한 기준을 발견하는 비지도 학습(unsupervised learning)을 통하여, 데이터 인식 모델을 학습시킬 수 있다. 또 다른 예로, 모델 학습부(141-4)는 학습에 따른 상황 판단의 결과가 올바른지에 대한 피드백을 이용하는 강화 학습(reinforcement learning)을 통하여, 데이터 인식 모델을 학습시킬 수 있다.
또한, 데이터 인식 모델이 학습되면, 모델 학습부(141-4)는 학습된 데이터 인식 모델을 저장할 수 있다. 이 경우, 모델 학습부(141-4)는 학습된 데이터 인식 모델을 전자 장치(100)의 메모리(160)에 저장할 수 있다. 또는, 모델 학습부(141-4)는 학습된 데이터 인식 모델을 전자 장치(100)와 유선 또는 무선 네트워크로 연결되는 서버(200)의 메모리에 저장할 수도 있다.
이 경우, 학습된 데이터 인식 모델이 저장되는 메모리(160)는 전자 장치(100)의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 함께 저장할 수도 있다. 또한, 메모리(160)는 소프트웨어 및/또는 프로그램을 저장할 수도 있다. 예를 들어, 프로그램은 커널, 미들웨어, 어플리케이션 프로그래밍 인터페이스(API) 및/또는 어플리케이션 프로그램(또는 "어플리케이션") 등을 포함할 수 있다.
데이터 학습부(141)는 데이터 인식 모델의 결과를 향상시키거나, 데이터 인식 모델의 생성에 필요한 자원 또는 시간을 절약하기 위하여, 전처리부(141-2) 및 학습 데이터 선택부(141-3)를 더 포함할 수도 있다.
전처리부(141-2)는 상황 판단을 위한 학습에 획득된 데이터가 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 전처리부(141-2)는 모델 학습부(141-4)가 상황 판단을 위한 학습을 위하여 획득된 데이터를 이용할 수 있도록, 획득된 데이터를 기설정된 포맷으로 가공할 수 있다.
예를 들어, 전처리부(141-2)는 입력된 컨텐츠 데이터의 일부 구간 또는 입력된 사용자 음성에 대해 인식 대상이 되는 구간을 추출할 수 있다. 그리고, 전처리부(141-2)는 잡음 제거, 특징 추출 등을 수행하여 음성 데이터를 생성할 수 있다.
다른 예로, 전처리부(141-2)는 입력된 컨텐츠 데이터 또는 입력된 사용자 음성의 주파수 성분을 분석하여 일부 주파수 성분을 강화하고, 나머지 주파수 성분을 억제하는 방식으로 음성 인식에 적합하도록 음성 데이터를 생성할 수도 있다. 또는, 전처리부(141-2)는 입력된 음성 컨텐츠 데이터를 텍스트 컨텐츠 데이터로 변환할 수도 있다.
학습 데이터 선택부(141-3)는 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 선택된 데이터는 모델 학습부(141-4)로 제공될 수 있다. 학습 데이터 선택부(141-3)는 상황 판단을 위한 기설정된 기준에 따라, 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 또한, 학습 데이터 선택부(141-3)는 모델 학습부(141-4)에 의한 학습에 의해 기설정된 기준에 따라 데이터를 선택할 수도 있다.
예를 들어, 학습 초기에는 학습 데이터 선택부(141-3)가 전처리된 컨텐츠 데이터들을 음절 단위로 자르거나 조사 등을 제거할 수 있다. 또는, 학습 데이터 선택부(141-3)는 전처리된 음성 데이터들 중 유사도가 높은 음성 데이터를 제거할 수 있다. 즉, 초기 학습을 위하여 학습 데이터 선택부(141-3)는 구분하기 쉬운 기준을 학습하도록 데이터를 선택할 수 있다.
다른 예로, 학습 데이터 선택부(141-3)는 명사 등과 같은 특정 품사가 포함된 데이터만을 선택할 수 있다. 학습 데이터 선택부(141-3)는 특정 컨텍스트에 대응되는 데이터만을 선택할 수도 있다. 특정 품사 또는 특정 컨텍스트의 데이터를 선택함으로써, 학습 데이터 선택부(141-3)는 모델 학습부(141-4)가 선택한 특정 품사 또는 특정 컨텍스트에 적합한 기준을 학습하도록 할 수 있다.
또는, 학습 데이터 선택부(141-3)는 특정 언어로 발화된 음성 데이터만을 선택할 수 있다. 언어별로 발화 특성이 상이하기 때문에 특정 언어로 발화된 음성 데이터 세트를 선택함으로써, 학습 데이터 선택부(141-3)는 모델 학습부(141-4)가 선택된 특정 언어에 적합한 기준을 학습하도록 할 수 있다.
반대로, 학습 데이터 선택부(141-3)는 여러 품사 또는 여러 컨텍스트의 데이터를 선택할 수도 있다. 이를 통해, 모델 학습부(141-4)는 컨텐츠 데이터가 어떤 품사 또는 어떤 컨텍스트를 포함하고 있는지에 대한 기준을 학습할 수 있다. 또한, 학습 데이터 선택부(141-3)는 각 언어의 특징이 반영된 음성 데이터를 선택할 수도 있다. 이를 통해, 모델 학습부(141-4)는 음성 데이터가 어떠한 언어에 해당하는지에 대한 기준을 학습할 수 있다.
한편, 학습 데이터 선택부(141-3)는 특정 사용자의 음성 데이터만을 선택하여 화자 종속(speaker dependent) 또는 화자 적응(speaker adoption) 인식을 위한 기준을 모델 학습부(141-4)가 학습하도록 할 수 있다.
그리고, 학습 데이터 선택부(141-3)는 학습에 의해 기설정된 기준 중 하나를 공통으로 만족하는 전처리된 음성 데이터들을 선택할 수 있다. 이를 통해, 모델 학습부(141-4)는 이미 학습된 기준과는 상이한 다른 기준을 학습할 수 있다.
데이터 학습부(141)는 데이터 인식 모델의 출력 결과를 향상시키기 위하여, 모델 평가부(141-5)를 더 포함할 수도 있다.
모델 평가부(141-5)는 데이터 인식 모델에 평가 데이터를 입력하고, 평가 데이터로부터 출력되는 인식 결과가 소정 기준을 만족하지 못하는 경우, 모델 학습부(141-4)로 하여금 다시 학습하도록 할 수 있다. 이 경우, 평가 데이터는 데이터 인식 모델을 평가하기 위한 기설정된 데이터일 수 있다.
초기 인식 모델 구성 단계에서, 평가 데이터는 물리적 특징이 상이한 음소를 포함하는 음성 데이터일 수 있다. 또는, 평가 데이터는 단어, 컨텍스트 등이 상이한 데이터일 수 있다. 이후에 평가 데이터는 유사도가 점점 일치하는 음성 데이터 세트 또는 데이터 세트로 대체될 수 있다. 이를 통해 모델 평가부(141-5)는 데이터 인식 모델의 성능을 점차적으로 검증할 수 있다.
예를 들어, 모델 평가부(141-5)는 평가 데이터에 대한 학습된 데이터 인식 모델의 인식 결과 중에서, 인식 결과가 정확하지 않은 평가 데이터의 개수 또는 비율이 미리 설정된 임계치를 초과하는 경우 소정 기준을 만족하지 못한 것으로 평가할 수 있다. 예컨대, 소정 기준이 비율 2%로 정의되는 경우, 학습된 데이터 인식 모델이 총 1000개의 평가 데이터 중의 20개를 초과하는 평가 데이터에 대하여 잘못된 인식 결과를 출력하는 경우, 모델 평가부(141-5)는 학습된 데이터 인식 모델이 적합하지 않은 것으로 평가할 수 있다.
한편, 학습된 데이터 인식 모델이 복수 개가 존재하는 경우, 모델 평가부(141-5)는 각각의 학습된 동영상 인식 모델에 대하여 소정 기준을 만족하는지를 평가하고, 소정 기준을 만족하는 모델을 최종 데이터 인식 모델로서 결정할 수 있다. 이 경우, 소정 기준을 만족하는 모델이 복수 개인 경우, 모델 평가부(141-5)는 평가 점수가 높은 순으로 미리 설정된 어느 하나 또는 소정 개수의 모델을 최종 데이터 인식 모델로서 결정할 수 있다.
한편, 데이터 학습부(141) 내의 데이터 획득부(141-1), 전처리부(141-2), 학습 데이터 선택부(141-3), 모델 학습부(141-4) 및 모델 평가부(141-5) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 획득부(141-1), 전처리부(141-2), 학습 데이터 선택부(141-3), 모델 학습부(141-4) 및 모델 평가부(141-5) 중 적어도 하나는 인공지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예를 들어, CPU 또는 application processor) 또는 특정 기능을 위한 IP의 일부로 제작되어 전술한 각종 전자 장치(100)에 탑재될 수도 있다.
또한, 데이터 획득부(141-1), 전처리부(141-2), 학습 데이터 선택부(141-3), 모델 학습부(141-4) 및 모델 평가부(141-5)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(141-1), 전처리부(141-2), 학습 데이터 선택부(141-3), 모델 학습부(141-4) 및 모델 평가부(141-5) 중 일부는 전자 장치(100)에 포함되고, 나머지 일부는 서버(200)에 포함될 수 있다.
한편, 데이터 획득부(141-1), 전처리부(141-2), 학습 데이터 선택부(141-3), 모델 학습부(141-4) 및 모델 평가부(141-5) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(141-1), 전처리부(141-2), 학습 데이터 선택부(141-3), 모델 학습부(141-4) 및 모델 평가부(141-5) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션을 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 비일시적 컴퓨터 판독가능 기록매체에 저장될 수 있다. 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 어플리케이션에 의해 제공될 수 있다. 또는 적어도 하나의 소프트웨어 모듈 중 일부는 OS에 의해 제공되고, 나머지 일부는 소정의 어플리케이션에 의해 제공될 수도 있다.
도 4b는 본 개시의 일부 실시 예에 따른 데이터 인식부(142)의 블록도이다. 도 4b를 참조하면, 일부 실시 예에 따른 데이터 인식부(142)는 데이터 획득부(142-1) 및 인식 결과 제공부(142-4)를 포함할 수 있다. 또한, 데이터 인식부(142)는 전처리부(142-2), 인식 데이터 선택부(142-3) 및 모델 갱신부(142-5) 중 적어도 하나를 선택적으로 더 포함할 수 있다
데이터 획득부(142-1)는 상황 판단에 필요한 데이터를 획득할 수 있다. 인식 결과 제공부(142-4)는 선택된 데이터를 데이터 인식 모델에 적용하여 상황을 판단할 수 있다. 인식 결과 제공부(142-4)는 데이터의 인식 목적에 따른 인식 결과를 제공할 수 있다. 인식 결과 제공부(142-4)는 인식 데이터 선택부(142-3)에 의해 선택된 데이터를 입력 값으로 이용함으로써, 선택된 데이터를 데이터 인식 모델에 적용할 수 있다. 또한, 인식 결과는 데이터 인식 모델에 의해 결정될 수 있다.
예를 들어, 인식 결과 제공부(142-4)는 입력된 컨텐츠 데이터 또는 입력된 사용자 발화를 데이터 인식 모델에서 결정된 구분 기준에 따라 인식할 수 있다. 그리고 인식된 컨텐츠 데이터에 기초하여 컨텍스트를 판단할 수 있도록 한다. 또한, 사용자 음성을 기초와 정보 온톨로지를 이용하여 프로세서(140)가 사용자가 실행하고자 의도한 동작이 무엇인지 판단할 수 있도록 한다. 다른 예로, 인식 결과 제공부(142-4)는 데이터 인식 모델을 이용하여 입력된 컨텐츠 데이터에서 데이터 키워드를 인식할 수 있다. 또한, 인식 결과 제공부(142-4)는 입력된 사용자 발화에서 핵심어를 인식할 수 있다. 데이터 키워드를 기초로 프로세서(140)는 타임스탬프를 생성하여 데이터 키워드와 매칭시킬 수 있고, 인식된 핵심어를 기초로 프로세서(140)는 후보 동작을 결정할 수 있다.
데이터 인식부(142)는 데이터 인식 모델의 출력 결과를 향상시키거나, 출력 결과의 제공을 위한 자원 또는 시간을 절약하기 위하여, 전처리부(142-2) 및 인식 데이터 선택부(142-3)를 더 포함할 수도 있다.
전처리부(142-2)는 상황 판단을 위해 획득된 데이터가 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 전처리부(142-2)는 인식 결과 제공부(142-4)가 상황 판단을 위하여 획득된 데이터를 이용할 수 있도록, 획득된 데이터를 기설정된 포맷으로 가공할 수 있다.
인식 데이터 선택부(142-3)는 전처리된 데이터 중에서 상황 판단에 필요한 데이터를 선택할 수 있다. 선택된 데이터는 인식 결과 제공부(142-4)에게 제공될 수 있다. 인식 데이터 선택부(142-3)는 상황 판단을 위한 기설정된 기준에 따라, 전처리된 데이터 중에서 일부 또는 전부를 선택할 수 있다. 또한, 인식 데이터 선택부(142-3)는 모델 학습부(141-4)에 의한 학습에 의해 기설정된 기준에 따라 데이터를 선택할 수도 있다.
모델 갱신부(142-5)는 인식 결과 제공부(142-4)에 의해 제공되는 인식 결과에 대한 평가에 기초하여, 데이터 인식 모델이 갱신되도록 제어할 수 있다. 예를 들어, 모델 갱신부(142-5)는 인식 결과 제공부(142-4)에 의해 제공되는 인식 결과를 모델 학습부(141-4)에게 제공함으로써, 모델 학습부(141-4)가 데이터 인식 모델을 갱신하도록 할 수 있다.
한편, 데이터 인식부(142) 내의 데이터 획득부(142-1), 전처리부(142-2), 인식 데이터 선택부(142-3), 인식 결과 제공부(142-4) 및 모델 갱신부(142-5) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 획득부(142-1), 전처리부(142-2), 인식 데이터 선택부(142-3), 인식 결과 제공부(142-4) 및 모델 갱신부(142-5) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예를 들어, CPU 또는 application processor) 또는 특정 기능을 위한 IP의 일부로 제작되어 전술한 각종 전자 장치(100)에 탑재될 수도 있다.
또한, 데이터 획득부(142-1), 전처리부(142-2), 인식 데이터 선택부(142-3), 인식 결과 제공부(142-4) 및 모델 갱신부(142-5) 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(142-1), 전처리부(142-2), 인식 데이터 선택부(142-3), 인식 결과 제공부(142-4) 및 모델 갱신부(142-5) 중 일부는 전자 장치(100)에 포함되고, 나머지 일부는 서버(200)에 포함될 수 있다.
한편, 데이터 획득부(142-1), 전처리부(142-2), 인식 데이터 선택부(142-3), 인식 결과 제공부(142-4) 및 모델 갱신부(142-5) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(142-1), 전처리부(142-2), 인식 데이터 선택부(142-3), 인식 결과 제공부(142-4) 및 모델 갱신부(142-5) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션을 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 비일시적 컴퓨터 판독가능 기록매체에 저장될 수 있다. 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 어플리케이션에 의해 제공될 수 있다. 또는 적어도 하나의 소프트웨어 모듈 중 일부는 OS에 의해 제공되고, 나머지 일부는 소정의 어플리케이션에 의해 제공될 수도 있다.
도 4c는, 일 실시 예에 따른 전자 장치(100) 및 외부의 서버(S)가 서로 연동함으로써 데이터를 학습하고 데이터 인식 결과를 제공하는 예시를 나타내는 도면이다.
도 4c를 참조하면, 외부의 서버(S)는 컨텐츠 데이터로부터 키워드를 획득하기 위한 데이터 인식 모델을 학습할 수 있으며, 전자 장치(100)는 서버(S)에 의한 학습 결과에 기초하여 데이터 인식 결과를 제공할 수 있다.
이 경우, 서버(S)의 모델 학습부(141-4)는 도 4a에 도시된 데이터 학습부(141)의 기능을 수행할 수 있다. 서버(S)의 모델 학습부(141-4)는 데이터 인식을 어떻게 할지에 관한 기준을 학습할 수 있다.
또한, 전자 장치(100)의 인식 결과 제공부(142-4)는 인식 데이터 선택부(142-3)에 의해 선택된 인식 데이터를 서버(S)에 의해 생성된 데이터 인식 모델에 적용하여 컨텐츠 데이터에 대한 데이터 인식 결과를 획득할 수 있다. 또는, 전자 장치(100)의 인식 결과 제공부(142-4)는 서버(S)에 의해 생성된 데이터 인식 모델을 서버(S)로부터 수신하고, 수신된 데이터 인식 모델을 이용하여 데이터 인식 결과를 생성할 수 있다. 이 경우, 전자 장치(100)의 인식 결과 제공부(142-4)는 인식 데이터 선택부(142-3)에 의해 선택된 인식 데이터를 서버(S)로부터 수신된 데이터 인식 모델에 적용하여, 컨텐츠 데이터에 대한 데이터 인식 결과를 획득할 수 있다.
도 5는 본 개시의 일 실시 예에 따른 지능형 검색 시스템을 설명하는 도면이다.
도 5를 참조하면, 지능형 검색 시스템(1000)은 전자 장치(100) 및 서버(200)를 포함할 수 있다.
전자 장치(100)는 입력된 컨텐츠 데이터를 인식하고, 컨텐츠 데이터의 컨텍스트를 이해할 수 있다. 또한, 전자 장치(100)는 사용자가 발화한 사용자 음성을 인식하고, 언어를 이해할 수 있다. 전자 장치(100)는 인식된 컨텐츠 데이터의 컨텍스트 또는 인식된 사용자 음성을 기초로 대응 동작을 제공할 수 있다.
서버(200)는 전자 장치(100)가 입력된 컨텐츠 데이터 또는 사용자와의 대화를 관리하고 응답을 생성할 때 필요한 정보를 제공할 수 있다. 또한, 서버(200)는 전자 장치(100)에서 이용하는 컨텍스트 모델, 언어 모델 또는 정보 온톨로지를 제공하거나 갱신할 수 있다. 이와 같이, 전자 장치(100)와 서버(200)가 연동하여 지능형 검색 기능을 제공할 수 있다.
다른 예로, 전자 장치(100)는 단순히 컨텐츠 데이터를 입력받고 가이드를 제공하는 입출력장치로서의 역할만을 수행할 수 있다. 또는, 전자 장치(100)는 단순히 사용자의 음성을 수신하고 가이드를 제공하는 입출력장치로서의 역할만을 수행할 수 있다. 이 경우, 서버(200)가 지능형 검색 서비스의 대부분을 처리하는 형태로 구현될 수도 있다.
아래에서는 지능형 검색 서비스의 구체적인 실시 예를 설명한다.
도 6은 본 개시의 일 실시 예에 따른 데이터 키워드를 추출하는 과정을 설명하는 도면이다.
도 6을 참조하면 문장으로부터 서브 키워드를 추출하는 과정이 도시되어 있다. 전자 장치(100)는 컨텐츠 데이터를 입력받는다. 예를 들어, 입력받은 컨텐츠 데이터는 음성 데이터일 수 있다. 전자 장치(100)는 입력받은 음성 데이터를 텍스트 데이터로 변환할 수 있다. 전자 장치(100)는 변환된 텍스트 데이터를 저장할 수 있다. 즉, 전자 장치는 오디오 형태의 컨텐츠 데이터를 텍스트 형태의 컨텐츠 데이터로 변환하여 저장할 수 있다.
전자 장치(100)는 컨텐츠 데이터를 문장 단위로 나눌 수 있다. 전자 장치(100)는 각 문장 별로 제1 단어(11)를 추출할 수 있다. 전자 장치(100)는 추출된 제1 단어(11)의 연관성 및 컨텍스트를 참조하여 제2 단어(13)를 추출할 수 있다. 그리고, 추출된 적어도 하나의 제2 단어(13) 및 컨텍스트를 참조하여 도메인 키워드(15)를 추출할 수 있다. 전자 장치(100)는 도메인 키워드(15) 및 추출된 제1 단어(11), 제2 단어(13) 등을 참조하여 서브 키워드를 추출할 수 있다. 예를 들어, 도메인 키워드는 문장의 핵심 단어일 수 있다. 그리고, 서브 키워드는 도메인 키워드와 유사한 환경에서 쓰인 단어, 도메인 키워드가 사용된 컨텍스트에 사용된 단어 또는 도메인 키워드의 의미와 관련있는 단어, 도메인 키워드 및 다른 서브 키워드와 동의어 등일 수 있다.
상술한 바와 같이, 전자 장치(100)가 도메인 키워드 및 서브 키워드를 추출하는 과정은 딥러닝을 포함하는 머신러닝, 음성 인식, 문장 분석, 상황 인지 등의 과정을 통해 수행될 수 있다. 전자 장치(100)는 머신러닝 등의 과정을 통해 데이터 인식 모델을 구축하고, 구축된 데이터 인식 모델을 이용하여 도메인 키워드 및 서브 키워드를 추출할 수 있다. 그리고, 데이터 인식 모델은 인식 모델의 적용 분야, 학습의 목적 또는 장치의 컴퓨터 성능 등을 고려하여 구축될 수 있다. 데이터 인식 모델은, 예를 들어, 신경망(Neural Network)을 기반으로 하는 모델일 수 있다. 예컨대, DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network)과 같은 모델이 데이터 인식 모델로서 사용될 수 있다.
도 7은 본 개시의 일 실시 예에 따른 데이터 키워드를 분석하는 과정을 설명하는 도면이다.
도 7을 참조하면, 시간축에 따른 도메인 키워드의 빈도를 나타낸 도면이 도시되어 있다. 컨텐츠 데이터는 특정 주제에 대한 스토리일 수 있고, 수많은 문장을 포함할 수 있다. 그리고, 도메인 키워드는 문장의 핵심 단어이므로 하나의 컨텐츠 데이터는 동일한 도메인 키워드를 포함할 수 있다.
전자 장치(100)는 도메인 키워드를 시간축에 따라 정렬하고 분석할 수 있다. 전자 장치(100)는 시간에 따른 도메인 키워드의 빈도에 기초하여 시간 그룹핑을 할 수 있다. 그리고, 추출된 주요 키워드 태깅할 수 있다.
즉, 전자 장치(100)는 도메인 키워드의 빈도에 따라 시간을 그룹핑하고, 그룹핑된 시간 그룹 내의 도메인 키워드 및 도메인 키워드와 관련된 서브 키워드를 태깅할 수 있다. 예를 들어, 전자 장치(100)는 제일 첫번째 시간 그룹을 제1 도메인 키워드가 핵심 키워드라고 판단할 수 있다. 그리고, 전자 장치(100)는 제일 첫번째 시간 그룹의 시작 시간 및 길이(duration)를 타임스탬프로 설정할 수 있다. 또한, 제1 도메인과 관련된 적어도 하나의 서브 키워드를 태깅할 수 있다. 한편, 동일 그룹 내의 서브 키워드도 빈도 차이가 있을 수 있다. 따라서, 전자 장치(100)는 서브 키워드에 가중치를 적용할 수 있다. 예를 들어, 제일 첫번째 시간 그룹의 핵심 키워드는 제1 도메인 키워드이고 제1 도메인 키워드와 관련된 서브 키워드는 제1-1 서브 키워드, 제1-2 서브 키워드일 수 있다. 그리고, 제1-1 서브 키워드의 빈도는 60%, 제1-2 서브 키워드의 빈도는 40%인 경우, 전자 장치(100)는 제1-1 서브 키워드에 6, 제1-2 서브 키워드에 4라는 가중치를 설정할 수 있다.
또는, 전자 장치(100)는 머신러닝 과정을 이용하여 시간 그룹, 도메인 키워드, 서브 키워드 간의 거리를 산출할 수 있다. 도메인 키워드와 서브 키워드 간의 거리는 문장 또는 단락의 컨텍스트에 기초하여 도메인 키워드와 서브 키워드 간의 상대적 관련성을 의미할 수 있다. 예를 들어, 제1 도메인 키워드와 직접 관련있는 서브 키워드는 제1 도메인 키워드와의 거리가 가깝고, 제1 도메인 키워드에 부가적인 서브 키워드는 제1 도메인 키워드와의 거리가 멀다고 설정될 수 있다. 그리고, 키워드 간의 거리는 수치화하여 숫자로 나타낼 수 있다. 즉, 제1 도메인 키워드와 제1-1 서브 키워드 간의 거리는 4, 제1 도메인 키워드와 제1-2 서브 키워드 간의 거리는 2라면, 전자 장치(100)는 제1-1 서브 키워드에 2, 제1-2 서브 키워드에 4라는 가중치를 설정할 수도 있다. 즉, 전자 장치(100)는 컨텐츠 데이터의 컨텍스트 또는 데이터 키워드의 빈도 등에 기초하여 데이터 키워드에 가중치를 부여할 수 있다.
그리고, 전자 장치(100)는 컨텐츠 데이터 중에서 도메인 키워드와 서브 키워드가 관련된 부분의 타임스탬프를 추출할 수 있다. 전자 장치(100)는 음성 컨텐츠 데이터, 텍스트 컨텐츠 데이터, 토픽, 도메인 키워드, 서브 키워드, 가중치, 타임스탬프 등을 저장할 수 있다.
이후 사용자 명령이 입력되는 경우, 전자 장치(100)는 입력된 사용자 명령을 분석하여 명령 키워드를 획득할 수 있다. 전자 장치(100)가 명령 키워드를 획득하는 과정은 딥러닝을 포함하는 머신러닝, 음성 인식, 문장 분석, 상황 인지와 같은 인공지능 기능을 통해 수행될 수 있다. 전자 장치(100)는 적어도 하나의 명령 키워드를 획득할 수 있다. 그리고, 전자 장치(100)는 획득된 명령 키워드에 가중치를 부여할 수 있다. 전자 장치(100)는 명령 키워드에 매칭되는 데이터 키워드를 식별할 수 있다. 그리고, 전자 장치(100)는 식별된 데이터 키워드의 가중치, 명령 키워드의 가중치에 기초하여 스코어를 산출할 수 있다.
전자 장치(100)는 산출된 스코어를 기초로 최고 시코어를 가지는 데이터 키워드를 식별할 수 있다. 그리고, 전자 장치(100)는 식별된 데이터 키워드에 대응되는 타임스탬프를 기초로 컨텐츠 데이터를 재생할 수 있다.
도 8은 본 개시의 일 실시 예에 따른 타임 스탬프가 매핑된 데이터 키워드를 설명하는 도면이다.
도 8을 참조하면 전자 장치(100)에 저장된 데이터 구조의 일 실시 예가 도시되어 있다. 상술한 바와 같이, 전자 장치(100)는 컨텐츠 데이터, 키워드, 타임스탬프 등을 저장할 수 있다. 예를 들어, 전자 장치(100)에 저장되는 파일 데이터는 헤더, 오디오 데이터, 서브타이틀 데이터를 포함할 수 있다. 헤더는 파일 데이터의 정보를 포함한다. 그리고, 오디오 데이터는 컨텐츠 데이터를 의미한다. 서브타이틀 데이터는 도메인 키워드, 서브 키워드, 타임스탬프 등의 정보가 저장될 수 있다.
일 실시 예로서, 타임스탬프는 시간 그룹의 시작 시간, 길이 및 인덱스 번호를 포함할 수 있다. 시작 시간은 전체 컨텐츠 데이터 중 해당 구간이 시작하는 시간을 의미한다. 길이는 해당 구간의 지속 시간을 의미한다. 인덱스 번호는 저장 구간의 일련 번호를 의미한다.
타임스탬프는 도메인 키워드 및 서브 키워드를 포함할 수 있다. 그리고, 도메인 키워드와 서브 키워드는 해당 키워드가 포함된 저장 구간의 인덱스 번호와 태깅되어 저장될 수 있다. 예를 들어, 제1 도메인 키워드가 인덱스 번호 1, 3과 태깅되어 있다면, 인덱스 번호 1 및 3에 해당하는 시간 그룹에 제1 도메인 키워드가 포함되어 있다는 것을 의미한다. 또한, 사용자의 명령에 따라 전자 장치(100)는 키워드 및 인덱스 번호에 기초하여 대응되는 부분의 컨텐츠 데이터를 재생한다.
한편, 전자 장치(100)는 저장된 파일 구조에 기초하여 사용자에게 시각적인 데이터 구조 도표를 표시할 수 있다.
도 9는 본 개시의 일 실시 예에 따른 시각적 도표로 나타낸 데이터 키워드를 설명하는 도면이다.
도 9를 참조하면 시각화 도표가 도시되어 있다. 전자 장치(100)에 저장된 파일 구조는 도 8에서 설명한 바와 동일하다. 전자 장치(100)는 도메인 키워드와 서브 키워드 간의 연결관계를 판단할 수 있다. 그리고, 전자 장치(100)는 도메인 키워드 및 서브 키워드를 시각적 도표로 디스플레이에 표시할 수 있다.
도 9에 도시된 바와 같이, 전체 컨텐츠 데이터의 핵심 키워드인 메인 키워드가 존재할 수 있다. 그리고, 메인 도메인 키워드와 연관된 적어도 하나의 도메인 키워드가 존재할수 있다. 또한, 각 도메인 키워드는 적어도 하나의 서브 키워드를 포함할 수 있다. 경우에 따라, 서브 키워드는 하위 계층으로 제2 서브 키워드를 포함할 수도 있다.
일 실시 예로서, 전자 장치(100)는 메인 도메인 키워드와 연관된 도메인 키워드를 표시하고, 도메인 키워드와 연관된 서브 키워드를 표시할 수 있다. 그리고, 전자 장치(100)는 우측 상단을 기준으로 시계 방향으로 돌아가면서 시간 순서대로 도메인 키워드 및 서브 키워드를 배치할 수 있다. 전자 장치(100)는 각 도메인 키워드 내의 서브 키워드도 동일한 방식으로 배치할 수 있다. 상술한 방식으로, 전자 장치(100)는 도메인 키워드 및 서브 키워드를 기초로 컨텐츠 데이터의 구조를 시각화 도표로 표시할 수 있다.
한편, 전자 장치(100)는 시각화 도표 상에서 사용자 명령을 입력받고 대응되는 동작을 수행할 수 있다.
도 10은 본 개시의 일 실시 예에 따른 시각적 도표를 이용하여 컨텐츠 데이터의 특정 부분을 선택하는 과정을 설명하는 도면이다.
도 10을 참조하면, 표시된 도메인 키워드 상에서 사용자의 명령을 입력받는 도면이 도시되어 있다. 전자 장치(100)는 도메인 키워드 및 서브 키워드를 포함하는 컨텐츠 데이터 구조를 표시할 수 있다. 그리고, 각 도메인 키워드 및 서브 키워드는 사용자로부터 선택 명령을 입력받을 수 있다. 사용자가 제1 도메인 키워드를 선택하는 경우, 전자 장치(100)는 선택된 제1 도메인 키워드의 제일 앞의 인덱스 번호에 대응되는 컨텐츠 데이터를 재생할 수 있다. 또는, 사용자가 제1 도메인 키워드의 제1 서브 키워드를 선택하는 경우, 전자 장치(100)는 선택된 제1 서브 키워드의 제일 앞의 인덱스 번호에 대응되는 컨텐츠 데이터를 재생할 수 있다. 전자 장치(100)는 인덱스 번호에 대응되는 타임 스탬프에 기초하여 컨텐츠 데이터를 재생할 수 있다.
즉, 전자 장치(100)는 시각화 도표에 포함된 데이터 키워드에 대한 선택 명령을 입력받는 경우, 선택된 데이터 키워드에 대응되는 타임스탬프를 기초로 컨텐츠 데이터를 재생할 수 있다. 한편, 전자 장치(100)는 사용자의 음성 입력, 시각화 도표 상에서 입력 방식 외에 다른 방식으로 컨텐츠 데이터를 재생할 수 있다.
도 11a 내지 도 11c는 본 개시의 일 실시 예에 따른 검색 기능으로 컨텐츠 데이터를 재생하는 과정을 설명하는 도면이다.
도 11a를 참조하면, 전자 장치(100)의 화면이 도시되어 있다. 전자 장치(100)는 저장된 컨텐츠 데이터를 재생하는 화면을 표시할 수 있다. 일반적인 재생, 뒤로 감기, 빨리 감기 버튼이 선택되면, 전자 장치(100)는 대응되는 동작을 수행할 수 있다. 또한, 전자 장치(100)는 구간 반복, 재생 속도 조절 등의 메뉴를 포함할 수 있고, 선택 명령이 입력되면 대응되는 동작을 수행할 수 있다.
전자 장치(100)는 검색 메뉴를 더 포함할 수 있다. 전자 장치(100)는 사용자에 의해 검색 메뉴가 선택되면 컨텐츠 데이터의 도메인 키워드를 표시할 수 있다. 또는, 전자 장치(100)는 다른 화면에서 검색 메뉴를 이용하여 컨텐츠 데이터의 키워드 표시 화면으로 전환할 수 있다.
도 11b를 참조하면, 저장된 컨텐츠 데이터가 리스트 형식으로 표시된 전자 장치(100)가 도시되어 있다. 전자 장치(100)는 컨텐츠 데이터가 리스트 형식으로 표시된 화면 상에도 검색 메뉴를 표시할 수 있다. 검색 메뉴가 선택되면, 전자 장치(100)는 현재 화면을 컨텐츠 데이터의 도메인 키워드를 표시하는 화면으로 전환할 수 있다.
도 11c를 참조하면, 도메인 키워드가 표시된 전자 장치(100)가 도시되어 있다. 전자 장치(100)는 도메인 키워드 리스트 또는 하나의 도메인 키워드와 포함된 서브 키워드를 표시할 수 있다. 사용자는 표시된 화면에서 기 설정된 명령을 입력하면 전자 장치(100)는 대응되는 컨텐츠 데이터를 재생할 수 있다.
일 실시 예로서, 사용자의 검색에 기초하여 전자 장치(100)는 특정 도메인 키워드 관련 화면을 표시할 수 있다. 사용자는 화면 상에서 길게 터치 명령을 입력할 수 있다. 전자 장치(100)는 화면에 표시된 도메인 키워드에 대응되는 컨텐츠 데이터를 재생할 수 있다.
상술한 방식으로 전자 장치(100)는 용이하게 도메인 키워드 또는 서브 키워드에 대응되는 컨텐츠 데이터를 재생할 수 있다.
지금까지 전자 장치(100)의 다양한 실시 예를 설명하였다. 아래에서는 전자 장치의 제어 방법을 설명한다.
도 12는 본 개시의 일 실시 예에 따른 전자 장치 제어 방법의 흐름도이다.
전자 장치는 컨텐츠 데이터를 입력받아 저장한다(S1210). 예를 들어, 컨텐츠 데이터는 음성 데이터일 수 있다. 그리고, 전자 장치는 입력된 음성 데이터를 텍스트 데이터로 변환하여 저장할 수 있다.
전자 장치는 입력된 컨텐츠 데이터를 분석하여 복수의 데이터 키워드를 획득한다(S1220). 데이터 키워드는 도메인 키워드 및 서브 키워드를 포함할 수 있다. 도메인 키워드는 컨텐츠 데이터에 포함된 문장의 메인 토픽 단어를 포함할 수 있다. 서브 키워드는 도메인 키워드의 유사 단어, 도메인 키워드의 관련 단어 또는 도메인 키워드와 관련된 타 문장에 포함된 단어 등을 포함할 수 있다. 전자 장치는 컨텐츠 데이터의 컨텍스트 또는 데이터 키워드의 빈도 중 적어도 하나에 기초하여 데이터 키워드에 가중치를 부여할 수 있다.
전자 장치는 획득된 복수의 키워드 각각에 대응되는 컨텐츠 데이터의 타임스탬프를 매칭하여 저장한다(S1230). 전자 장치는 사용자 명령이 입력되는 경우 저장된 데이터 키워드 중 입력된 사용자 명령에 대응되는 데이터 키워드를 검색한다(S1240). 전자 장치는 입력된 사용자 명령을 분석하여 명령 키워드를 획득하고, 획득된 명령 키워드에 가중치를 부여할 수 있다. 전자 장치는 명령 키워드와 매칭되는 데이터 키워드를 식별할 수 있다. 그리고, 전자 장치는 식별된 데이터 키워드의 가중치와 명령 키워드의 가중치에 기초하여 스코어를 산출할 수 있다. 전자 장치는 산출된 스코어를 기초로 최고 스코어를 가지는 데이터 키워드를 검색할 수 있다.
전자 장치는 검색된 데이터 키워드에 대응되는 타임스탬프를 기초로 컨텐츠 데이터를 재생한다(S1250). 한편, 전자 장치는 도메인 키워드 및 서브 키워드를 기초로 음성 데이터의 구조를 시각화 도표로 표시할 수 있다. 그리고, 전자 장치는 시각화 도표에 포함된 데이터 키워드에 대한 선택 명령을 입력받는 경우, 선택된 데이터 키워드에 대응되는 타임스탬프를 기초로 컨텐츠 데이터를 재생할 수 있다. 또는, 사용자는 저장 컨텐츠 데이터 리스트 화면 등에서 검색 기능을 통해 하나의 데이터 키워드를 선택할 수 있고, 전자 장치는 선택된 데이터 키워드에 대응되는 타임스탬프를 기초로 컨텐츠 데이터를 재생할 수 있다.
도 13 및 도 14는 본 개시의 다양한 실시예에 따른, 데이터 인식 모델을 이용하는 네트워크 시스템의 시퀀스도이다.
도 13 및 도 14에서, 데이터 인식 모델을 이용하는 네트워크 시스템은 제1 구성 요소(1301,1401), 제2 구성 요소(1302,1402) 및 제3 구성 요소(1403) 중 적어도 두 개를 포함할 수 있다.
여기서, 제1 구성 요소(1301,1401)는 전자 장치(100)이고, 제2 구성 요소(1302,1402)는 텍스트 요약 모델이 저장된 서버가 될 수 있다. 또는, 제1 구성 요소(1301,1401)는 범용 프로세서이고, 제2 구성 요소(1302,1402)는 인공 지능 전용 프로세서가 될 수 있다. 또는, 제1 구성 요소(1301,1401)는 적어도 하나의 어플리케이션이 될 수 있고, 제2 구성 요소(1302,1402)는 운영 체제(operating system, OS)가 될 수 있다. 즉, 제2 구성 요소(1302,1402)는 제1 구성 요소(1301,1401)보다 더 집적화되거나, 전용화되거나, 딜레이(delay)가 작거나, 성능이 우세하거나 또는 많은 리소스를 가진 구성 요소로서 문서 요약 모델의 생성, 갱신 또는 적용 시에 요구되는 많은 연산을 제1 구성 요소(1301,1401)보다 신속하고 효과적으로 처리 가능한 구성 요소가 될 수 있다.
이 경우, 제1 구성 요소(1301,1401) 및 제2 구성 요소(1302,1402) 간에 데이터를 송/수신하기 위한 인터페이스가 정의될 수 있다.
예로, 문서 요약 모델에 적용할 학습 데이터를 인자 값(또는, 매개 값 또는 전달 값)으로 갖는 API(application program interface)가 정의될 수 있다. API는 어느 하나의 프로토콜(예로, 전자 장치(100)에서 정의된 프로토콜)에서 다른 프로토콜(예로, 서버에서 정의된 프로토콜)의 어떤 처리를 위해 호출할 수 있는 서브 루틴 또는 함수의 집합으로 정의될 수 있다. 즉, API를 통하여 어느 하나의 프로토콜에서 다른 프로토콜의 동작이 수행될 수 있는 환경을 제공될 수 있다.
한편, 제3 구성 요소(1403)는 제1 구성 요소(1401) 및 제2 구성 요소(1402) 중 적어도 하나로부터 사용자 명령을 수신하고, 수신된 사용자 명령으로부터 명령 키워드를 획득하여 제공할 수 있다.
일 실시 예로, 도 13에서, 제1 구성 요소(1301)는 컨텐츠 데이터를 입력받아 저장할 수 있다(S1310). 이때, 컨텐츠 데이터는 오디오 데이터를 포함하는 데이터일 수 있다.
제1 구성 요소(1301)는 UI를 표시할 수 있다(S1320). 이때, UI는 컨텐츠 데이터의 특정 시점을 검색하기 위한 UI로서, 사용자에게 발화를 요구하는 UI일 수 있다.
제1 구성 요소(1301)는 사용자 명령을 입력받을 수 있다(S1330). 이때, UI를 통해 입력된 사용자 명령은 컨텐츠 데이터에 포함된 키워드 중 하나일 수 있다. 다만, 이에 한정되는 것은 아니며, 컨텐츠 데이터에 포함되지 않은 키워드라도 후술할 제2 구성 요소(1302)에서 컨텐츠 데이터에 포함된 키워드로 확장될 수 있다.
제1 구성 요소(1301)는 제2 구성 요소(1302)로 컨텐츠 데이터 및 사용자 명령을 전송할 수 있다(S1340).
제2 구성 요소(1302)는 컨텐츠 데이터를 분석하여 복수의 데이터 키워드를 획득할 수 있다. 구체적으로, 제2 구성 요소(1302)는 학습된 데이터 인식 모델에 기초하여 컨텐츠 데이터로부터 복수의 데이터 키워드를 획득할 수 있다.
제2 구성 요소(1302)는 획득된 복수의 키워드 각각에 대응되는 컨텐츠 데이터 타임스탬프를 매칭하여 저장할 수 있다(S1360).
그리고, 제2 구성 요소(1302)는 저장된 데이터 키워드 중 사용자 명령에 대응되는 데이터 키워드를 검색할 수 있다(S1370). 여기서, 사용자 명령에 대응되는 데이터 키워드는 사용자 명령과 동일한 데이터 키워드 뿐만 아니라 사용자 명령에 관련된 데이터 키워드를 포함할 수 있다.
제2 구성 요소(1302)는 검색된 키워드 및 대응되는 타임스탬프를 제1 구성 요소(1301)로 전송할 수 있다(S1380).
제1 구성 요소(1301)는 검색된 데이터 키워드에 대응되는 타임스탬프를 기초로 컨텐츠 데이터를 재생할 수 있다(S1390).
다른 실시 예로, 도 14에서는, 제1 구성 요소(1401)는 컨텐츠 데이터를 입력받아 저장하고(S1405), UI를 표시할 수 있다(S1410). 그리고, 제1 구성 요소(1401)는 UI를 통해 사용자 명령을 입력받고(S1415), 제2 구성 요소(1402)로 컨텐츠 데이터 및 사용자 명령을 전송할 수 있다(S1420). 도 14의 S1405 단계 내지 S1420 단계는 도 13의 S1310 단계 내지 S1340 단계에 대응되므로, 중복되는 설명은 생략한다.
제2 구성 요소(1402)는 제3 구성 요소(1403)로 사용자 명령을 전송할 수 있다(S1425).
제3 구성 요소(1403)는 사용자 명령을 분석하여 명령 키워드를 획득할 수 있다(S1460). 예를 들어, 제3 구성 요소(1403)는 사용자 명령 내에 포함된 명사를 추출하고, 추출된 명사 중 학습된 사용자 명령 분석 모델에 기초하여 사용자 명령에 대응되는 명령 키워드를 획득할 수 있다. 여기서, 사용자 명령 분석 모델은 제3 구성 요소(1403)에 의해 학습된 모델로서, 제3 구성 요소(1403)는 사용자 명령으로부터 가장 적절한 명령 키워드를 도출할 수 있는 사용자 명령 분석 모델을 학습하고, 추출된 명령 키워드의 활용도에 기초하여 사용자 명령 분석 모델을 업데이트할 수 있다.
제3 구성 요소(1403)는 명령 키워드를 제2 구성 요소(1402)로 전송할 수 있다(S1435).
제2 구성 요소(1402)는 컨텐츠 데이터를 분석하여 복수의 데이터 키워드를 획득하고(S1440), 명령 키워드와 매칭되는 데이터 키워드를 식별할 수 있다(S1445).
그리고, 제2 구성 요소(1402)는 명령 키워드 및 데이터 키워드에 가중치를 부여할 수 있다(S1450). 예를 들어, 제2 구성 요소(1402)는 컨텐츠 데이터 내의 데이터 키워드의 빈도에 기초하여 데이터 키워드에 가중치를 부여할 수 있다. 그리고, 제2 구성 요소(1402)는 명령 키워드와 데이터 키워드의 매칭 정도에 기초하여 명령 키워드에 가중치를 부여할 수 있다. 즉, 제2 구성 요소(1402)는 데이터 키워드가 명령 키워드와 동일하지 않고 관련만 있는 경우보다 명령 키워드가 데이터 키워드와 완전 동일한 경우에 높은 가중치를 부여할 수 있다.
그리고, 제2 구성 요소(1402)는 명령 키워드의 가중치와 데이터 키워드의 가중치에 기초하여 스코어를 산출하고(S1455), 데이터 키워드, 대응되는 타임스탬프 및 스코어를 제1 구성 요소(1401)로 전송할 수 있다(S1460).
제1 구성 요소(1401)는 최고 스코어를 가지는 데이터 키워드에 대응되는 타임스탬프를 기초로 컨텐츠 데이터를 재생할 수 있다. 다만, 이에 한정되는 것은 아니며, 제1 구성 요소(1401)는 최고 스코어를 가지는 데이터 키워드에 대응되는 타임스탬프를 기초로 컨텐츠 데이터를 재생하며, 일측에 최고 스코어를 갖지 않는 다른 데이터 키워드를 제공할 수도 있다. 이 경우, 사용자는 자신의 의도에 부합하는 다른 데이터 키워드 중 하나를 선택하여, 제1 구성 요소(1401)가 선택된 다른 데이터 키워드에 대응되는 타임스탬프를 기초로 컨텐츠 데이터를 재생하도록 할 수 있다. 이 경우, 제1 구성 요소(1401)는 변경된 재생 정보를 제2 구성 요소(1402) 및 제3 구성 요소(1403)으로 제공하고, 제2 구성 요소(1402) 및 제3 구성 요소(1403)는 수신된 정보에 기초하여 각각 데이터 인식 모델 및 사용자 명령 분석 모델을 업데이트할 수 있다.
상술한 전자 장치의 제어 방법은 프로그램으로 구현되어 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
또한, 이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
1000: 지능형 검색 시스템
100: 전자 장치 200: 서버
110: 입력부 120: 디스플레이
130: 음성 출력부 140: 프로세서
150: 통신부 160: 메모리
100: 전자 장치 200: 서버
110: 입력부 120: 디스플레이
130: 음성 출력부 140: 프로세서
150: 통신부 160: 메모리
Claims (16)
- 컨텐츠 데이터를 입력받는 입력부;
상기 컨텐츠 데이터에 대한 정보를 저장하는 메모리;
상기 컨텐츠 데이터를 출력하는 음성 출력부; 및
상기 입력된 컨텐츠 데이터를 분석하여 복수의 데이터 키워드를 획득하고, 상기 획득된 복수의 키워드 각각에 대응되는 상기 컨텐츠 데이터의 타임스탬프를 매칭하여 저장하며, 사용자 명령이 입력되는 경우 상기 저장된 데이터 키워드 중 상기 입력된 사용자 명령에 대응되는 데이터 키워드를 검색하고, 상기 검색된 데이터 키워드에 대응되는 타임스탬프를 기초로 상기 컨텐츠 데이터를 재생하는 프로세서;를 포함하는 전자 장치. - 제1항에 있어서,
상기 프로세서는,
상기 컨텐츠 데이터의 컨텍스트 또는 상기 데이터 키워드의 빈도 중 적어도 하나에 기초하여 상기 데이터 키워드에 가중치를 부여하는, 전자 장치. - 제2항에 있어서,
상기 프로세서는,
상기 입력된 사용자 명령을 분석하여 명령 키워드를 획득하고, 상기 획득된 명령 키워드에 가중치를 부여하며, 상기 명령 키워드와 매칭되는 상기 데이터 키워드를 식별하고, 상기 식별된 데이터 키워드의 가중치와 상기 명령 키워드의 가중치에 기초하여 스코어를 산출하며, 상기 산출된 스코어를 기초로 최고 스코어를 가지는 데이터 키워드를 검색하고, 상기 검색된 데이터 키워드에 대응되는 타임스탬프를 기초로 상기 컨텐츠 데이터를 재생하는, 전자 장치. - 제1항에 있어서,
상기 데이터 키워드는 도메인 키워드 및 서브 키워드를 포함하는, 전자 장치. - 제4항에 있어서,
상기 도메인 키워드는 상기 컨텐츠 데이터에 포함된 문장의 메인 토픽 단어를 포함하는, 전자 장치. - 제4항에 있어서,
상기 서브 키워드는 상기 도메인 키워드의 유사 단어, 상기 도메인 키워드의 관련 단어 및 상기 도메인 키워드와 관련된 타 문장에 포함된 단어 중 적어도 하나를 포함하는, 전자 장치. - 제4항에 있어서,
상기 도메인 키워드 및 상기 서브 키워드를 기초로 상기 컨텐츠 데이터의 구조를 시각화 도표로 표시하는 디스플레이;를 더 포함하는 전자 장치. - 제7항에 있어서,
상기 프로세서는,
상기 시각화 도표에 포함된 데이터 키워드에 대한 선택 명령을 입력받는 경우, 상기 선택된 데이터 키워드에 대응되는 타임스탬프를 기초로 상기 컨텐츠 데이터를 재생하는, 전자 장치. - 컨텐츠 데이터를 입력받아 저장하는 단계;
상기 입력된 컨텐츠 데이터를 분석하여 복수의 데이터 키워드를 획득하는 단계;
상기 획득된 복수의 키워드 각각에 대응되는 상기 컨텐츠 데이터의 타임스탬프를 매칭하여 저장하는 단계;
사용자 명령이 입력되는 경우 상기 저장된 데이터 키워드 중 상기 입력된 사용자 명령에 대응되는 데이터 키워드를 검색하는 단계; 및
상기 검색된 데이터 키워드에 대응되는 타임스탬프를 기초로 상기 컨텐츠 데이터를 재생하는 단계;를 포함하는 전자 장치의 제어 방법. - 제9항에 있어서,
상기 컨텐츠 데이터의 컨텍스트 또는 상기 데이터 키워드의 빈도 중 적어도 하나에 기초하여 상기 데이터 키워드에 가중치를 부여하는 단계;를 더 포함하는 전자 장치의 제어 방법. - 제10항에 있어서,
상기 데이터 키워드를 검색하는 단계는,
상기 입력된 사용자 명령을 분석하여 명령 키워드를 획득하고, 상기 획득된 명령 키워드에 가중치를 부여하며, 상기 명령 키워드와 매칭되는 상기 데이터 키워드를 식별하고, 상기 식별된 데이터 키워드의 가중치와 상기 명령 키워드의 가중치에 기초하여 스코어를 산출하며, 상기 산출된 스코어를 기초로 최고 스코어를 가지는 데이터 키워드를 검색하는, 전자 장치의 제어 방법. - 제1항에 있어서,
상기 데이터 키워드는 도메인 키워드 및 서브 키워드를 포함하는, 전자 장치의 제어 방법. - 제12항에 있어서,
상기 도메인 키워드는 상기 컨텐츠 데이터에 포함된 문장의 메인 토픽 단어를 포함하는, 전자 장치의 제어 방법. - 제12항에 있어서,
상기 서브 키워드는 상기 도메인 키워드의 유사 단어, 상기 도메인 키워드의 관련 단어 또는 상기 도메인 키워드와 관련된 타 문장에 포함된 단어 중 적어도 하나를 포함하는, 전자 장치의 제어 방법. - 제12항에 있어서,
상기 도메인 키워드 및 상기 서브 키워드를 기초로 상기 음성 데이터의 구조를 시각화 도표로 표시하는 단계;를 더 포함하는 전자 장치의 제어 방법. - 제15항에 있어서,
상기 컨텐츠 데이터를 재생하는 단계는,
상기 시각화 도표에 포함된 도메인 키워드에 대한 선택 명령을 입력받는 경우, 상기 선택된 데이터 키워드에 대응되는 타임스탬프를 기초로 상기 컨텐츠 데이터를 재생하는, 전자 장치의 제어 방법.
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP18772526.2A EP3550454A4 (en) | 2017-03-20 | 2018-01-22 | ELECTRONIC DEVICE AND CONTROL METHOD |
PCT/KR2018/000947 WO2018174397A1 (ko) | 2017-03-20 | 2018-01-22 | 전자 장치 및 제어 방법 |
CN201880019396.0A CN110431547A (zh) | 2017-03-20 | 2018-01-22 | 电子设备和控制方法 |
US16/477,978 US11257482B2 (en) | 2017-03-20 | 2018-01-22 | Electronic device and control method |
US17/581,370 US11881209B2 (en) | 2017-03-20 | 2022-01-21 | Electronic device and control method |
KR1020230056604A KR102666316B1 (ko) | 2017-03-20 | 2023-04-28 | 전자 장치 및 제어 방법 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170034600 | 2017-03-20 | ||
KR20170034600 | 2017-03-20 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020230056604A Division KR102666316B1 (ko) | 2017-03-20 | 2023-04-28 | 전자 장치 및 제어 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20180106817A true KR20180106817A (ko) | 2018-10-01 |
KR102529262B1 KR102529262B1 (ko) | 2023-05-08 |
Family
ID=63877452
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170125802A KR102529262B1 (ko) | 2017-03-20 | 2017-09-28 | 전자 장치 및 제어 방법 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP3550454A4 (ko) |
KR (1) | KR102529262B1 (ko) |
CN (1) | CN110431547A (ko) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200064490A (ko) * | 2018-11-29 | 2020-06-08 | 주식회사 로켓펀치 | 프로필 자동생성서버 및 방법 |
EP3800634A1 (en) * | 2019-10-01 | 2021-04-07 | BlackBerry Limited | Intelligent recording and action system and method |
KR102357313B1 (ko) * | 2021-04-05 | 2022-02-08 | 주식회사 비욘드더드림 | 비디오 콘텐츠에 포함된 오디오 데이터를 기반으로 색인어를 설정하는 전자 장치의 콘텐츠 인덱싱 방법 |
KR102610999B1 (ko) * | 2023-09-04 | 2023-12-07 | 라이트하우스(주) | 인공지능 기반 데이터베이스화된 동영상 강의의 검색 및 추천 서비스 제공 방법, 장치 및 시스템 |
WO2024143616A1 (ko) * | 2022-12-29 | 2024-07-04 | 엘지전자 주식회사 | 영상표시장치 및 그 동작방법 |
WO2024143615A1 (ko) * | 2022-12-29 | 2024-07-04 | 엘지전자 주식회사 | 영상표시장치 및 그 동작방법 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11996094B2 (en) * | 2020-07-15 | 2024-05-28 | Google Llc | Automated assistant with audio presentation interaction |
CN115482809B (zh) * | 2022-09-19 | 2023-08-11 | 北京百度网讯科技有限公司 | 关键词检索方法、装置、电子设备以及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110037115A (ko) * | 2009-10-05 | 2011-04-13 | 에스케이텔레콤 주식회사 | 키워드가 삽입된 녹음파일 생성 및 재생 방법과 그 휴대기기 |
KR20110053397A (ko) * | 2009-11-15 | 2011-05-23 | 에스케이텔레콤 주식회사 | 검색 키워드를 이용한 멀티미디어 파일 검색 방법 및 그 휴대기기 |
KR20150052600A (ko) * | 2013-11-06 | 2015-05-14 | 주식회사 시스트란인터내셔널 | 녹취된 음성 데이터에 대한 핵심어 추출 기반 발화 내용 파악 시스템과, 이 시스템을 이용한 인덱싱 방법 및 발화 내용 파악 방법 |
WO2015167074A1 (ko) * | 2014-04-28 | 2015-11-05 | 숭실대학교산학협력단 | 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버 |
KR101590078B1 (ko) * | 2014-11-27 | 2016-02-01 | 성균관대학교산학협력단 | 음성 아카이빙 장치 및 방법 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0715369D0 (en) * | 2007-08-07 | 2007-09-19 | Aurix Ltd | Methods and apparatus relating to searching of spoken audio data |
CN101382937B (zh) * | 2008-07-01 | 2011-03-30 | 深圳先进技术研究院 | 基于语音识别的多媒体资源处理方法及其在线教学系统 |
CN103365849B (zh) * | 2012-03-27 | 2016-06-15 | 富士通株式会社 | 关键词检索方法和设备 |
CN103699625B (zh) * | 2013-12-20 | 2017-05-10 | 北京百度网讯科技有限公司 | 基于关键词进行检索的方法及装置 |
CN103956166A (zh) * | 2014-05-27 | 2014-07-30 | 华东理工大学 | 一种基于语音关键词识别的多媒体课件检索系统 |
-
2017
- 2017-09-28 KR KR1020170125802A patent/KR102529262B1/ko active IP Right Grant
-
2018
- 2018-01-22 CN CN201880019396.0A patent/CN110431547A/zh active Pending
- 2018-01-22 EP EP18772526.2A patent/EP3550454A4/en not_active Ceased
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110037115A (ko) * | 2009-10-05 | 2011-04-13 | 에스케이텔레콤 주식회사 | 키워드가 삽입된 녹음파일 생성 및 재생 방법과 그 휴대기기 |
KR20110053397A (ko) * | 2009-11-15 | 2011-05-23 | 에스케이텔레콤 주식회사 | 검색 키워드를 이용한 멀티미디어 파일 검색 방법 및 그 휴대기기 |
KR20150052600A (ko) * | 2013-11-06 | 2015-05-14 | 주식회사 시스트란인터내셔널 | 녹취된 음성 데이터에 대한 핵심어 추출 기반 발화 내용 파악 시스템과, 이 시스템을 이용한 인덱싱 방법 및 발화 내용 파악 방법 |
WO2015167074A1 (ko) * | 2014-04-28 | 2015-11-05 | 숭실대학교산학협력단 | 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버 |
KR101590078B1 (ko) * | 2014-11-27 | 2016-02-01 | 성균관대학교산학협력단 | 음성 아카이빙 장치 및 방법 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200064490A (ko) * | 2018-11-29 | 2020-06-08 | 주식회사 로켓펀치 | 프로필 자동생성서버 및 방법 |
EP3800634A1 (en) * | 2019-10-01 | 2021-04-07 | BlackBerry Limited | Intelligent recording and action system and method |
KR102357313B1 (ko) * | 2021-04-05 | 2022-02-08 | 주식회사 비욘드더드림 | 비디오 콘텐츠에 포함된 오디오 데이터를 기반으로 색인어를 설정하는 전자 장치의 콘텐츠 인덱싱 방법 |
WO2024143616A1 (ko) * | 2022-12-29 | 2024-07-04 | 엘지전자 주식회사 | 영상표시장치 및 그 동작방법 |
WO2024143615A1 (ko) * | 2022-12-29 | 2024-07-04 | 엘지전자 주식회사 | 영상표시장치 및 그 동작방법 |
KR102610999B1 (ko) * | 2023-09-04 | 2023-12-07 | 라이트하우스(주) | 인공지능 기반 데이터베이스화된 동영상 강의의 검색 및 추천 서비스 제공 방법, 장치 및 시스템 |
Also Published As
Publication number | Publication date |
---|---|
KR102529262B1 (ko) | 2023-05-08 |
EP3550454A4 (en) | 2019-12-11 |
EP3550454A1 (en) | 2019-10-09 |
CN110431547A (zh) | 2019-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102529262B1 (ko) | 전자 장치 및 제어 방법 | |
KR102666316B1 (ko) | 전자 장치 및 제어 방법 | |
KR102502220B1 (ko) | 전자 장치, 그의 사용자 발화 의도 판단 방법 및 비일시적 컴퓨터 판독가능 기록매체 | |
KR102315732B1 (ko) | 음성 인식 방법, 디바이스, 장치, 및 저장 매체 | |
US10521723B2 (en) | Electronic apparatus, method of providing guide and non-transitory computer readable recording medium | |
RU2699399C2 (ru) | Система и способ обнаружения орфанных высказываний | |
KR102484257B1 (ko) | 전자 장치, 그의 문서 표시 방법 및 비일시적 컴퓨터 판독가능 기록매체 | |
KR102429583B1 (ko) | 전자 장치, 그의 가이드 제공 방법 및 비일시적 컴퓨터 판독가능 기록매체 | |
KR100446627B1 (ko) | 음성대화 인터페이스를 이용한 정보제공장치 및 그 방법 | |
KR102656620B1 (ko) | 전자 장치, 그의 제어 방법 및 비일시적 컴퓨터 판독가능 기록매체 | |
EP4125029B1 (en) | Electronic apparatus, controlling method of thereof and non-transitory computer readable recording medium | |
US11769492B2 (en) | Voice conversation analysis method and apparatus using artificial intelligence | |
US10586528B2 (en) | Domain-specific speech recognizers in a digital medium environment | |
CN112825248B (zh) | 语音处理方法、模型训练方法、界面显示方法及设备 | |
US10224030B1 (en) | Dynamic gazetteers for personalized entity recognition | |
KR20150081981A (ko) | 회의 내용 구조화 장치 및 방법 | |
Doumbouya et al. | Using radio archives for low-resource speech recognition: towards an intelligent virtual assistant for illiterate users | |
KR20200084260A (ko) | 전자 장치 및 이의 제어 방법 | |
KR20150077580A (ko) | 음성 인식 기반 서비스 제공 방법 및 그 장치 | |
KR102221963B1 (ko) | 화상 정보를 제공하는 인공 지능 장치 및 그 방법 | |
CN112581937A (zh) | 一种语音指令的获得方法及装置 | |
US10282417B2 (en) | Conversational list management | |
KR102226427B1 (ko) | 호칭 결정 장치, 이를 포함하는 대화 서비스 제공 시스템, 호칭 결정을 위한 단말 장치 및 호칭 결정 방법 | |
KR20210085182A (ko) | 사용자 발화 의도 인식을 위한 시스템, 서버 및 방법 | |
US11955120B1 (en) | Systems and methods for integrating voice controls into applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right |