KR102279505B1 - 음성 일기 장치 - Google Patents
음성 일기 장치 Download PDFInfo
- Publication number
- KR102279505B1 KR102279505B1 KR1020190157012A KR20190157012A KR102279505B1 KR 102279505 B1 KR102279505 B1 KR 102279505B1 KR 1020190157012 A KR1020190157012 A KR 1020190157012A KR 20190157012 A KR20190157012 A KR 20190157012A KR 102279505 B1 KR102279505 B1 KR 102279505B1
- Authority
- KR
- South Korea
- Prior art keywords
- text
- diary
- information
- user
- voice
- Prior art date
Links
- 230000008451 emotion Effects 0.000 claims abstract description 99
- 238000004458 analytical method Methods 0.000 claims abstract description 72
- 238000013500 data storage Methods 0.000 claims abstract description 42
- 238000006243 chemical reaction Methods 0.000 claims abstract description 10
- 238000007557 optical granulometry Methods 0.000 claims description 15
- 230000002996 emotional effect Effects 0.000 claims description 11
- 238000000034 method Methods 0.000 claims description 11
- 238000013473 artificial intelligence Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 206010037180 Psychiatric symptoms Diseases 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000036651 mood Effects 0.000 description 3
- 235000015277 pork Nutrition 0.000 description 3
- 208000019901 Anxiety disease Diseases 0.000 description 2
- 241000219112 Cucumis Species 0.000 description 2
- 235000015510 Cucumis melo subsp melo Nutrition 0.000 description 2
- FJJCIZWZNKZHII-UHFFFAOYSA-N [4,6-bis(cyanoamino)-1,3,5-triazin-2-yl]cyanamide Chemical compound N#CNC1=NC(NC#N)=NC(NC#N)=N1 FJJCIZWZNKZHII-UHFFFAOYSA-N 0.000 description 2
- 230000036506 anxiety Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Tourism & Hospitality (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Child & Adolescent Psychology (AREA)
- Economics (AREA)
- Signal Processing (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
음성 일기 장치에 관한 것이며, 음성 일기 장치는, 사용자로부터 발성된 소리를 입력받은 수신부, 상기 소리를 인식하고 상기 소리를 텍스트 데이터로 변환하는 데이터 변환부, 상기 텍스트 데이터에 기반하여 사용자의 감정 분석을 수행하는 감정 정보 분석부, 상기 감정 분석 결과를 고려하여 복수의 콘텐츠 중 적어도 어느 하나의 콘텐츠를 추천하는 콘텐츠 추천부, 상기 콘텐츠 추천부에서 추천된 콘텐츠와 상기 텍스트 데이터를 연계하여 일기장 어플리케이션에 저장하는 데이터 저장부 및 사용자의 선택 정보에 기반하여 상기 일기장 어플리케이션에 저장된 데이터를 출력하는 데이터 출력부를 포함할 수 있다.
Description
본원은 음성 일기 장치에 관한 것이다.
최근 휴대폰이 개인마다 보급되면서 휴대폰을 이용하여 일기장, 메모 가계부 등과 같은 개인기록을 휴대폰에 저장할 수 있게 되었다.
이때, 사용자가 일정관리기능이나 개인기록을 저장할 경우 키패드 또는 터치패드를 이용하여 날짜를 선택하고 내용을 입력해야 하는 번거로움이 존재한다.
음성 인식(Speech Recognition)이란 사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 문자 데이터로 전환하는 처리를 말한다. STT(Speech-to-Text)라고 하며, 키보드 대신 문자를 입력하는 방식으로 주목을 받고 있다. 로봇, 텔레매틱스 등 음성으로 기기 제어, 정보검색이 필요한 경우에 응용된다. 대표적인 알고리즘은 HMM(Hidden Markov Model)으로서, 다양한 화자들이 발성한 음성들을 통계적으로 모델링하여 음향모델을 구성하며 말뭉치 수집을 통하여 언어모델을 구성한다.
본원의 배경이 되는 기술은 한국공개특허공보 제 10-2006-0073574호에 개시되어 있다.
본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 기록된 일기를 날짜, 키워드로 검색할 수 있으며, 스마트폰 외에 AI 스피커를 통해서도 음성을 인식하고, 어플리케이션과 연동하여 텍스트 기반의 일기를 작성할 수 있는 음성 일기 장치를 제공하려는 것을 목적으로 한다.
다만, 본원의 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본원의 일 실시예에 따른 음성 일기 장치는, 사용자로부터 발성된 소리를 입력받은 수신부, 상기 소리를 인식하고 상기 소리를 텍스트 데이터로 변환하는 데이터 변환부, 상기 텍스트 데이터에 기반하여 사용자의 감정 분석을 수행하는 감정 정보 분석부, 상기 감정 분석 결과를 고려하여 복수의 콘텐츠 중 적어도 어느 하나의 콘텐츠를 추천하는 콘텐츠 추천부, 상기 콘텐츠 추천부에서 추천된 콘텐츠와 상기 텍스트 데이터를 연계하여 일기장 어플리케이션에 저장하는 데이터 저장부 및 사용자의 선택 정보에 기반하여 상기 일기장 어플리케이션에 저장된 데이터를 출력하는 데이터 출력부를 포함할 수 있다.
또한, 상기 감정 정보 분석부는, 상기 텍스트 데이터 및 상기 소리의 특징을 고려하여 사용자의 감정 분석을 수행하고, 감정 분석 결과를 포함하는 감정 정보를 생성하되, 상기 콘텐츠 추천부는, 상기 감정 정보에 기반하여 복수의 콘텐츠 중 적어도 어느 하나의 콘텐츠를 추천할 수 있다.
또한, 상기 데이터 저장부는, 상기 감정 정보를 고려하여, 텍스트의 특징 정보를 생성하고, 상기 텍스트 데이터를 상기 텍스트의 특징 정보와 연계하여 상기 일기장 어플리케이션에 저장할 수 있다.
또한, 상기 데이터 저장부는, 상기 텍스트 데이터에 미리 설정된 부정적 키워드가 포함된 경우, 해당 텍스트 데이터에 대한 공개 여부를 판단하고, 상기 일기장 어플리케이션에 상기 텍스트 데이터를 저장할 수 있다.
또한, 상기 콘텐츠 추천부는, 상기 감정 정보를 고려하여, 외부 서버로부터 수집된 복수의 콘텐츠 중 적어도 어느 하나의 콘텐츠를 추천할 수 있다.
또한, 상기 데이터 저장부는, 상기 텍스트 데이터에 구매와 관련된 특정 키워드가 포함되는 경우, 웹 사이트 정보와 연계하여 일기장 어플리케이션에 해당 텍스트 데이터를 저장하되, 상기 웹 사이트에 사용자의 구매 이력이 존재하는 경우, 결제 내역 정보와 상기 해당 텍스트 데이터를 연계하여 상기 일기장 어플리케이션에 저장할 수 있다.
또한, 음성 일기 장치는, 상기 텍스트 데이터가 수집된 날짜에 기반하여 앨범 어플리케이션으로부터 사진 정보를 수집하고, 상기 사진 정보를 분석하는 사진 정보 분석부를 더 포함하되, 상기 데이터 저장부는, 상기 텍스트 데이터에 상기 사진 정보 분석 결과와 연관된 텍스트가 포함되지 않은 경우, 상기 사진 분석 결과와 연관된 텍스트와 상기 사진 정보를 연계하여 상기 일기장 어플리케이션에 상기 사진 분석 결과와 연관된 텍스트 데이터를 저장할 수 있다.
또한, 음성 일기 시스템은, 사용자로부터 발성된 소리를 입력받는 AI 스피커 및 상기 소리를 인식하고, 상기 소리를 텍스트 데이터로 변환하여 사용자의 감정 분석을 수행하는 음성 일기 장치를 포함하되, 상기 AI 스피커는, 상기 음성 일기 장치에서 수행된 사용자의 감정 분석 수행 결과에 기반하여, 외부 서버로부터 수집되는 콘텐츠 중 어느 하나의 음성 콘텐츠를 출력하고, 상기 음성 일기 장치는, 상기 AI 스피커에서 출력한 음성 콘텐츠를 상기 텍스트 데이터와 연계하여 일기장 어플리케이션에 저장하고, 사용자의 선택 정보에 기반하여 상기 일기장 어플리케이션에 저장된 데이터를 디스플레이에 출력할 수 있다.
또한, 상기 음성 일기 장치는, 상기 텍스트 데이터 및 상기 소리의 특징을 고려하여 사용자의 감정 분석을 수행하고, 감정 분석 결과를 포함하는 감정 정보를 생성하되, 상기 AI 스피커는, 상기 감정 정보에 기반하여 복수의 콘텐츠 중 적어도 어느 하나의 콘텐츠를 출력할 수 있다.
또한, 상기 AI스피커는, 상기 음성 콘텐츠를 출력하며, 상기 사용자로부터 발성된 소리를 입력받되, 상기 음성 일기 장치는, 상기 AI 스피커에서 출력되는 음성 콘텐츠 및 상기 사용자로부터 발성된 소리를 텍스트 데이터로 변환하여 상기 일기장 어플리케이션에 저장할 수 있다.
또한, 상기 AI 스피커는, 외부 서버로부터 수집된 복수의 콘텐츠 및 상기 감정 정보를 입력으로 하는 인공지능 학습 결과에 기반하여 수집된 복수의 콘텐츠 중 적어도 어느 하나의 콘텐츠를 출력할 수 있다.
또한, 상기 음성 일기 장치는, 상기 텍스트 데이터가 수집된 날짜에 기반하여 앨범 어플리케이션으로부터 사진 정보를 수집하고, 상기 사전 정보를 분석하되, 상기 AI 스피커는, 상기 사진 분석 결과와 연관된 텍스트를 더 고려하여, 복수의 콘텐츠 중 적어도 어느 하나의 콘텐츠를 출력할 수 있다.
상술한 과제 해결 수단은 단지 예시적인 것으로서, 본원을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 추가적인 실시예가 존재할 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 사용자의 음성과 입력된 음성에 따른 텍스트로부터 사용자의 감정을 파악하고, 연동된 AI 스피커를 이용해서 현재 감정에 어울리는 배경음을 재생하거나, 사용자의 기분에 따른 사용자 맞춤형 콘텐츠(음악, 라디오, 글)를 함께 출력하거나, 일기의 상황에 맞는 콘텐츠를 추천하여 텍스트와 함께 제공해서 일기장 콘텐츠를 응용해서 사용자에게 서비스를 제공할 수 있는 효과가 있다.
다만, 본원에서 얻을 수 있는 효과는 상기된 바와 같은 효과들로 한정되지 않으며, 또 다른 효과들이 존재할 수 있다.
도 1은 본원의 일 실시예에 따른 음성 일기 시스템의 개략적인 구성도이다.
도 2는 본원의 일 실시예에 따른 음성 일기 장치의 개략적인 블록도이다.
도 3은 본원의 일 실시예에 따른 음성 일기 장치에서 소리를 입력받는 과정을 설명하기 위한 도면이다.
도 4는 본원의 일 실시예에 따른 음성 일기 장치에서 소리를 텍스트로 변환하는 과정을 설명하기 위한 도면이다.
도 5는 본원의 일 실시예에 따른 음성 일기 장치의 일기장 어플리케이션을 설명하기 위한 도면이다.
도 2는 본원의 일 실시예에 따른 음성 일기 장치의 개략적인 블록도이다.
도 3은 본원의 일 실시예에 따른 음성 일기 장치에서 소리를 입력받는 과정을 설명하기 위한 도면이다.
도 4는 본원의 일 실시예에 따른 음성 일기 장치에서 소리를 텍스트로 변환하는 과정을 설명하기 위한 도면이다.
도 5는 본원의 일 실시예에 따른 음성 일기 장치의 일기장 어플리케이션을 설명하기 위한 도면이다.
아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본원 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결" 또는 "간접적으로 연결"되어 있는 경우도 포함한다.
본원 명세서 전체에서, 어떤 부재가 다른 부재 "상에", "상부에", "상단에", "하에", "하부에", "하단에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.
본원 명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.
도 1은 본원의 일 실시예에 따른 음성 일기 시스템의 개략적인 구성도이다.
도 1을 참조하면, 음성 일기 시스템(1)은 음성 일기 장치(10) 및 AI 스피커(20)를 포함할 수 있다. 또한, 음성 일기 장치(10) 및 AI 스피커(20)는 네트워크를 통해 연동될 수 있다. 다만, 음성 일기 시스템(1)의 구성이 이에 한정되는 것은 아니다. 예를 들어, 음성 일기 장치(10)는 날씨 서버, 웹 서버, 사용자의 SNS 서버 등과 네트워크를 통해 연동될 수 있다.
본원의 일 실시예에 따르면, 음성 일기 장치(10)는 사용자 단말에 설치되는 프로그램 또는 어플리케이션(application)의 형태로 구현되는 장치일 수 있다. 달리 말해, 음성 일기 장치(10)를 통해 제공되는 음성 일기 장치의 구동 방법은 일예로 프로그램 또는 어플리케이션의 형태로 구현될 수 있다.
음성 일기 장치(10)는 AI 스피커(20)와 데이터, 콘텐츠, 각종 통신 신호를 네트워크를 통해 송수신하고, 데이터 저장 및 처리의 기능을 가지는 모든 종류의 서버, 단말, 또는 디바이스를 포함할 수 있다.
음성 일기 장치(10)는 네트워크를 통해 AI 스피커(20)와 연동되는 디바이스로서, 예를 들면, 스마트폰(Smartphone), 스마트패드(Smart Pad), 태블릿 PC 등과 PCS(Personal Communication System), GSM(Global System for Mobile communication), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말기 같은 모든 종류의 무선 통신 장치 및 데스크탑 컴퓨터, 스마트 TV와 같은 고정용 단말기일 수 있으나, 이에 한정되는 것은 아니다.
음성 일기 장치(10) 및 AI 스피커(20) 간의 정보 공유를 위한 네트워크의 일 예로는 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, 5G 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 유무선 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 블루투스(Bluetooth) 네트워크, Wifi 네트워크, NFC(Near Field Communication) 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함될 수 있으며, 이에 한정된 것은 아니다.
본원의 일 실시예에 따르면, 음성 일기 장치(10)는 AI 스피커(20)로부터 제공받은 소리를 인식하고, 소리를 텍스트 데이터로 변환하여 사용자의 감정을 분석할 수 있다. 음성 일기 장치(10)는 AI 스피커(20)로부터 제공받은 소리(음성)를 텍스트로 작성(STT: Speech To Text)할 수 있다. 음성 일기 장치(10)는 텍스트로 작성(STT: Speech To Text)된 데이터를 기반으로 사용자의 감정을 분석할 수 있다.
또한, 음성 일기 장치(10)는 텍스트 데이터 및 소리의 특징을 고려하여 사용자의 감정 분석을 수행하고, 감정 분석 결과를 포함하는 감정 정보를 생성할 수 있다. 일예로, 소리의 특징은, 음색, 피치, 속도, 악센트, 크기, 발음 중 적어도 어느 하나를 포함할 수 있다. 달리 말해, 음성 일기 장치(10)는 단순히 텍스트 데이터만을 고려하여 사용자의 감정 분석을 수행하는 것이 아니라, 사용자의 소리의 특징을 더 고려하여 감정 분석 결과를 포함하는 감정 정보를 생성함으로써, 보다 더 정확한 사용자의 감정을 분석할 수 있다.
또한, 음성 일기 장치(10)는 AI 스피커(20)에서 출력되는 음성 콘텐츠 및 사용자로부터 발성된 소리를 텍스트 데이터로 변환하여 일기장 어플리케이션에 저장할 수 있다. 음성 일기 장치(10)는 날짜를 기반으로, AI 스피커(20)에서 출력되는 음성 콘텐츠 및 사용자로부터 발성된 소리를 텍스트 데이터로 변환하여 일기장 어플리케이션에 저장할 수 있다. 일예로, 일기는 날마다 그날그날 겪은 일이나 생각, 느낌 따위를 적는 개인의 기록이다. 일기장 어플리케이션은, 날짜를 기반으로 AI 스피커(20)를 통해 사용자가 음성으로 기록한 개인의 기록들을 텍스트 데이터 변환하여 저장한 데이터를 포함할 수 있다.
또한, 음성 일기 장치(10)는 텍스트 데이터가 수집된 날짜에 기반하여 앨범 어플리케이션으로부터 사진 정보를 수집하고, 사진 정보를 분석할 수 있다. 음성 일기 장치(10)는 텍스트 데이터에 사진 정보 분석 결과와 연관된 텍스트가 포함되지 않은 경우, 사진 분석 결과와 연관된 텍스트와 사진 정보를 연계하여 일기장 어플리케이션에 저장할 수 있다. 이때, AI 스피커(20)는 사진 분석 결과와 연관된 텍스트를 더 고려하여 복수의 콘텐츠 중 적어도 어느 하나의 콘텐츠를 출력할 수 있다.
본원의 일 실시예에 따르면, AI 스피커(20)는 사용자로부터 발성된 소리를 입력받을 수 있다. 일예로, AI 스피커(20)에 구비된 마이크를 통해 사용자로부터 발성된 소리를 입력받을 수 있다. AI 스피커(20)란 스마트 스피커라 불리며, 무선 스피커의 일종으로서, 하나 이상의 인상적인 말의 도움을 받아 상호작용 동작과 핸즈프리 활성화를 제공하는 가상 비서가 내장된 보이스 커맨드 디바이스이다. AI 스피커(20)는 블루투스, NFC, 스피커폰 기능을 가지고 있으며 앱(어플리케이션)으로도 제어가 가능하다.
또한, AI 스피커(20)는 음성 일기 장치(10)에서 수행된 사용자의 감정 수행 결과에 기반하여, 외부 서버(미도시)로부터 수집되는 콘텐츠 중 어느 하나의 음성 콘텐츠를 출력할 수 있다. 달리 말해, AI 스피커(20)는 음성 일기 장치(10)에서 수행된 감정 분석 결과를 포함하는 감정 정보를 생성 정보에 기반하여, 외부 서버(미도시)로부터 수집되는 복수의 콘텐츠 중 적어도 어느 하나의 콘텐츠를 출력할 수 있다. 일예로, 외부 서버(미도시)는 디지털 음원 스트리밍 서비스 사이트(예를 들어, 멜론, 벅스, 지니 등), 동영상 공유 사이트(예를 들어, You Tube, 데일리 모션, 메가 비디오 등), 라디오 사이트(예를 들어, KBS, SBS, MBC 라디오 등) 등을 포함할 수 있다.
또한, AI 스피커(20)는 외부 서버(미도시)로부터 수집된 복수의 콘텐츠 및 감정 정보를 입력으로 하는 인공지능 학습 결과에 기반하여 수집된 복수의 콘텐츠 중 적어도 어느 하나의 콘텐츠를 출력할 수 있다. 예시적으로, 인공지능 학습은 딥 러닝 기반의 학습일 수 있으나, 이에만 한정되는 것은 아니며, 기 개발되었거나 향후 개발되는 다양한 신경망 체계를 적용할 수 있다.
또한, AI 스피커(20)는 음성 일기 장치(10)에서 수행된 사용자의 감정 수행 결과에 기반하여, 외부 서버(미도시)로부터 수집되는 콘텐츠 중 어느 하나의 음성 콘텐츠를 출력하며, 사용자로부터 발성되는 소리를 입력받을 수 있다. 달리 말해, AI 스피커(20)는 음성 콘텐츠를 출력하는 동시에, 사용자로부터 발성되는 소리를 입력받을 수 있다. AI 스피커(20)는 사용자의 현재 감정에 어울리는 배경음 또는 맞춤형 콘텐츠(예를 들어, 라디오, 글)를 출력함과 동시에, 사용자로부터 발성되는 소리를 입력받을 수 있다. 여기서, 음성 일기 장치(10)는 AI 스피커(20)에서 출력되는 음성 콘텐츠 및 사용자로부터 발성된 소리를 텍스트 데이터로 변환하여 일기장 어플리케이션에 저장할 수 있다.
본원의 일 실시예에 따르면, 음성 일기 장치(10)는 날씨 서버, 웹 서버, 사용자의 SNS 서버 등과 네트워크를 통해 연동되어, 날짜를 기반으로 일기장 어플리케이션에 저장할 수 있다. 달리 말해, 음성 일기 장치(10)는 특정 날짜에 AI 스피커(20)를 통해 사용자로부터 발성된 소리가 수집되는 경우, 특정 날짜에 수집된 날씨 정보, 웹 정보, 사용자의 SNS 정보 등을 소리를 변환하여 생성한 텍스트 데이터와 연계하여, 해당 정보들을 일기장 어플리케이션에 저장할 수 있다.
도 1은 음성 일기 장치(10)와 AI 스피커(20)가 네트워크로 연동되어, AI 스피커(20)가 입력받은 소리를 음성 일기 장치(10)에서 텍스트 데이터로 변환하여 사용자의 감정 분석을 수행하는 것으로 예시하였으나, 이하 도 2에서는 음성 일기 장치(10)에서 사용자의 소리를 입력받아, 텍스트 데이터로 변환하여 사용자의 감정 분석을 수행하는 일 예를 설명하고자 한다.
도 2는 본원의 일 실시예에 따른 음성 일기 장치의 개략적인 블록도이고, 도 3은 본원의 일 실시예에 따른 음성 일기 장치에서 소리를 입력받는 과정을 설명하기 위한 도면이고, 도 4는 본원의 일 실시예에 따른 음성 일기 장치에서 소리를 텍스트로 변환하는 과정을 설명하기 위한 도면이고, 도 5는 본원의 일 실시예에 따른 음성 일기 장치의 일기장 어플리케이션을 설명하기 위한 도면이다.
도 2를 참조하면, 음성 일기 장치(10)는 수신부(11), 데이터 변환부(12), 감정 정보 분석부(13), 콘텐츠 분석부(14), 사진 정보 분석부(15), 데이터 저장부 (16) 및 데이터 출력부(17)를 포함할 수 있다. 다만, 음성 일기 장치(10)의 구성이 이에 한정되는 것은 아니며, 데이터 제공부(미도시)를 더 포함할 수 있다. 일예로, 데이터 제공부(미도시)는 메뉴 항목, 녹음 항목, 달력 항목, 질문 항목 등 사용자로부터 입력받기 위한 다양한 항목들을 제공할 수 있다. 데이터 출력부(17)는 데이터 제공부(미도시)에서 제공받은 복수의 항목들을 디스플레이부에 출력할 수 있다.
본원의 일 실시예에 따르면, 수신부(11)는 사용자로부터 발성된 소리를 입력받을 수 있다. 수신부(11)는 마이크를 통해 사용자로부터 발성된 소리를 입력받을 수 있다. 일예로, 수신부(11)는 마이크를 통해 외부의 소음이 아닌 사용자로부터 발성된 소리만을 입력받을 수 있다. 수신부(11)는 기존에 저장된 제1사용자의 고유의 소리 특징을 고려하여, 제1사용자로부터 발성된 소리를 입력받을 수 있다.
예시적으로, 도 3을 참조하면, 데이터 출력부(17)는 사용자 단말의 디스플레이 화면에 도 3의 (a)와 같이 사용자로부터 발성된 소리를 입력받기 위한 녹음 시작 화면을 출력할 수 있다. 음성 일기 장치(10)는 녹음 아이콘을 선택한 사용자의 입력 정보를 수신할 수 있다. 수신부(11)는 사용자의 입력 정보에 기반하여, 사용자로부터 발성된 소리를 입력받을 수 있다. 다른 예로, 도 3의 (b)를 참조하면, 데이터 출력부(17)는 질문 항목(3)을 제공할 수 있다. 일예로, 질문 항목(3)은 안녕 오늘 하루는 어땠어? , 오늘은 어떤 기분이었니? , 오늘은 무엇을 먹었니? 등과 같이 사용자에게 질문을 제공하기 위한 복수의 항목들을 포함할 수 있다. 데이터 제공부(미도시)에서 사용자에게 질문 항목(3)을 제공함으로써, 떠올리는 순간만을 기록하는 것보다 더 구체적으로 하루의 일과, 일상 등을 기록할 수 있다. 또 다른 일예로, 데이터 제공부(미도시)는 감정 정보를 고려하여, 질문 항목(3)을 달리 제공할 수 있다. 데이터 제공부(미도시)는 감정 정보가 부정적일 경우, 질문 항목(3)에 사용자가 부정적으로 생각할 수 있는 항목(예를 들어, 오늘은 어떤 기분이었니?)을 제거하고, 복수의 질문 항목을 제공할 수 있다.
본원의 일 실시예에 따르면, 데이터 변환부(12)는 소리를 인식하고 소리를 텍스트 데이터로 변환할 수 있다. 데이터 변환부(12)는 음향학적 신호(acoustic speech signal)를 단어나 문장으로 변환시키는 기술인 STT(Speech To Text)를 기반으로 소리를 텍스트 데이터로 변환할 수 있다. 데이터 변환부(12)는 수신부(11)에서 입력받은 소리(음성)를 인식하고, 해당 소리(음성)를 텍스트 데이터로 변환할 수 있다. 예시적으로 도 5를 참조하면, 데이터 변환부(12)는 도 5의 (a)에 도시된 바와 같이 소리의 정보를 도 5의 (b)에 도시된 바와 같이 텍스트 데이터로 변환할 수 있다.
본원의 다른 일 실시예에 따르면, 텍스트 변환부(12)는 수신부(11)로부터 제공받은 소리를 텍스트 데이터로 변환을 수행하되, 인식 불가능한 소리 또는 표준 단어 서버에 포함되지 않은 데이터가 포함된 경우, 사진 정보 분석부(15)에서 분석된 사진 정보 분석 결과에 기반하여 텍스트 데이터의 대체 단어를 생성할 수 있다. 예를 들어, 사용자가 발성한 소리는 "건대"이나, 텍스트 변환부(12)에서 "겅대"로 소리를 텍스트 데이터로 변환하는 경우가 발생할 수 있다. 텍스트 변환부(12)는 "겅대"라는 텍스트가 표준 단어 서버에 포함되지 않은 데이터라고 판단할 수 있다. 텍스트 변환부(12)는 사진 정보 분석부(15)에서 분석한 사진 정보 분석 결과에 "건국대학교"라는 텍스트가 포함되는 경우 또는 사진 정보에 포함된 위치 정보에 건국대학교에 포함되는 경우, 사진 정보 분석 결과에 기반하여 "겅대"의 텍스트 데이터의 대체 단어인 "건대, 건국대학교"를 생성할 수 있다.
본원의 일 실시예에 따르면, 감정 정보 분석부(13)는 텍스트 데이터에 기반하여 사용자의 감정 분석을 수행할 수 있다. 감정 정보 분석부(13)는 감정별로 구분하여 저장된 미리 설정된 키워드(단어)의 매칭을 통해 사용자의 감정 분석을 수행할 수 있다. 예를 들어, 감정은 기쁨, 우울 등으로 구분될 수 있다. 기쁨을 기준으로 미리 설정된 키워드(단어)는 즐거움, 설렘, 희망, 만족, 행복 등을 포함할 수 있다. 또한, 우울을 기준으로 미리 설정된 키워드(단어)는 분노, 슬픔, 불안, 침울, 무기력, 좌절, 외로움 등을 포함할 수 있다. 달리 말해, 감정 정보 분석부(13)는 텍스트 데이터에 미리 설정된 키워드(단어)가 매칭 또는 유사한 경우를 판단하고, 사용자의 감정을 분석할 수 있다.
또한, 감정 정보 분석부(13)는 텍스트 데이터 및 소리의 특징을 고려하여 사용자의 감정 분석을 수행하고, 감정 분석 결과를 포함하는 감정 정보를 생성할 수 있다. 예시적으로, 소리의 특징은 음색, 피치, 속도, 악센트, 크기 및 발음 중 적어도 어느 하나를 포함할 수 있다. 달리 말해, 감정 정보 분석부(13)는 수신부(11)에서 입력받은 소리를 기반으로, 소리의 특징을 분석할 수 있다. 일예로, 감정 정보 분석부(13)는 미리 설정된 사용자의 기본 소리의 특징을 기준으로 하여, 기쁨의 소리의 특징, 우울의 소리의 특징을 구분하여 감정 분석을 수행할 수 있다.
또한, 감정 정보 분석부(13)는 텍스트 데이터 및 소리의 특징을 고려하여 사용자의 감정 분석을 수행하되, 텍스트 데이터의 감정 분석 결과에 가중치를 두어, 감정 정보를 생성할 수 있다. 예를 들어, 텍스트 데이터에 기쁨에 해당하는 키워드가 3개 존재하고, 소리의 특징의 분석 결과에 기쁨에 해당하는 특징이 1개, 우울에 해당하는 특징이 2개 존재하더라도, 감정 정보 분석부(13)는 텍스트 데이터의 감정 분석 결과에 가중치를 두어, 감정 정보를 생성할 수 있다.
본원의 다른 일 실시예에 따르면, 감정 정보 분석부(13)는 기존에 수집된 텍스트 데이터 및 소리를 입력으로 하는 인공지능 학습을 통해 구축된 학습모델에 신규 소리를 입력하여 감정 분석을 수행할 수 있다. 여기서, 학습모델은 딥 러닝 신경망 기반으로 구축된 것일 수 있으나, 이에만 한정되는 것은 아니며, 기 개발되었거나 향후 개발되는 다양한 신경망 체계를 적용할 수 있다.
다른 예로, 감정 정보 분석부(13)는 사용자의 SNS정보를 기반으로 사용자의 감정 분석을 수행할 수 있다. 감정 정보 분석부(13)는 사용자의 SNS에 기재된 게시글(텍스트)을 분석하여 사용자의 감정을 분석할 수 있다. 감정 정보 분석부(13)는 사용자의 SNS에 기재된 게시글에 감정별로 구분하여 저장된 미리 설정된 키워드(단어)의 매칭을 통해 사용자의 감정 분석을 수행할 수 있다. 예를 들어, 감정은 기쁨, 우울 등으로 구분될 수 있다. 기쁨을 기준으로 미리 설정된 키워드(단어)는 즐거움, 설렘, 희망, 만족, 행복 등을 포함할 수 있다. 또한, 우울을 기준으로 미리 설정된 키워드(단어)는 분노, 슬픔, 불안, 침울, 무기력, 좌절, 외로움 등을 포함할 수 있다. 달리 말해, 감정 정보 분석부(13)는 사용자의 SNS에 기재된 게시글(텍스트)에 미리 설정된 키워드(단어)가 매칭 또는 유사한 경우를 판단하고, 사용자의 감정을 분석할 수 있다. 참고로, 감정 정보 분석부(13)는 텍스트 데이터, 소리의 특징, SNS 정보 중 적어도 어느 하나를 고려하여 사용자의 감정 분석을 수행하고, 감정 분석 결과를 포함하는 감정 정보를 생성할 수 있다.
음성 일기 장치(10)는 단순히 사용자가 발성한 소리를 텍스트 데이터로 변환하여 일기장 어플리케이션에 저장하는 것이 아니라, 감정 정보 분석부(13)에서 사용자의 감정을 분석하여 감정 정보를 생성함으로써, 사용자 감정(기분)을 고려한 맞춤형 콘텐츠를 추천할 수 있다.
본원의 일 실시예에 따르면, 콘텐츠 추천부(14)는 감정 분석 결과를 고려하여 복수의 콘텐츠 중 적어도 어느 하나의 콘텐츠를 추천할 수 있다. 또한, 콘텐츠 추천부(14)는 감정 분석 결과를 고려하여, 외부 서버(미도시)에서 수집되는 복수의 콘텐츠 중 적어도 어느 하나의 콘텐츠를 추천할 수 있다. 일예로, 외부 서버(미도시)는 디지털 음원 스트리밍 서비스 사이트(예를 들어, 멜론, 벅스, 지니 등), 동영상 공유 사이트(예를 들어, You Tube, 데일리 모션, 메가 비디오 등), 라디오 사이트(예를 들어, KBS, SBS, MBC 라디오 등) 등을 포함할 수 있다. 예를 들어, 복수의 콘텐츠는 이미지(사진), 음악, 동영상, 라디오, 글, 이모티콘 등을 포함할 수 있다.
본원의 일 실시예에 따르면, 사진 정보 분석부(15)는 텍스트 데이터가 수집된 날짜에 기반하여 앨범 어플리케이션으로부터 사진 정보를 수집하고, 사진 정보를 분석할 수 있다. 예를 들어, 사진 정보 분석부(15)는 텍스트 데이터가 11.26일에 수집된 경우, 앨범 어플리케이션으로부터 11.26에 저장된 사진 정보를 수집할 수 있다. 사진 정보 분석부(15)는 인공신경망을 이용하여 수집된 사진 정보를 분석할 수 있다. 사진 정보 분석부(15)는 분석된 사진 정보를 텍스트 데이터로 도출할 수 있다. 사진 정보 분석부(15)는 앨범 어플리케이션으로부터 사진 정보를 수집하고, 분석 결과 돈가스가 도출할 수 있다. 데이터 저장부(16)는 텍스트 데이터에 사진 정보 분석 결과와 연관된 텍스트가 포함되지 않은 경우, 사진 분석 결과와 연관된 텍스트를 사진 정보와 연계하여 일기장 어플리케이션에 저장할 수 있다. 달리 말해, 데이터 저장부(16)는 텍스트 데이터에 돈가스라는 텍스트가 포함되지 않은 경우, 사진 분석 결과인 돈가스를 사진 정보(이미지)와 연계하여 일기장 어플리케이션에 저장할 수 있다. 즉, 사진 정보 분석부(15)는 앨범 어플리케이션으로부터 수집된 사진 정보를 분석하고, 데이터 저장부(16)는 데이터 변환부(12)에서 변환한 텍스트 데이터에 해당 사진 분석 결과(사진에 대한 텍스트)가 포함되지 않은 경우, 사진 분석 결과의 텍스트를 사진과 연계하여 일기장 어플리케이션에 저장할 수 있다. 또한, 데이터 저장부(16)는 사진 정보에 포함된 위치 정보, 텍스트 데이터, 사진 정보, 사진 분석 결과와 연관된 텍스트를 일기장 어플리케이션에 저장할 수 있다. 사진 정보에 포함된 위치 정보는, GPS 정보일 수 있다.
본원의 일 실시예에 따르면, 데이터 저장부(16)는 콘텐츠 추천부(14)에서 추천된 콘텐츠와 텍스트 데이터를 연계하여 일기장 어플리케이션에 저장할 수 있다. 예를 들어, 데이터 저장부(16)는 특정 날짜에 수집된 텍스트 데이터와 해당 텍스트 데이터의 감정 분석을 통해 추천된 콘텐츠를 연계하여 일기장 어플리케이션에 저장할 수 있다. 일예로, 콘텐츠 추천부(14)에서 추천된 콘텐츠가 영상인 경우, 해당 영상의 사이트 주소와 텍스트 데이터를 연계하여 일기장 어플리케이션에 저장할 수 있다.
또한, 데이터 저장부(16)는 날짜에 기반하여 수집되는 텍스트 데이터를 일기장 어플리케이션에 저장할 수 있다. 데이터 저장부(16)는 동일한 날짜에 복수개의 텍스트 데이터가 수집되는 경우, 시간을 고려하여 일기장 어플리케이션에 저장할 수 있다.
또한, 데이터 저장부(16)는 감정 정보를 고려하여, 텍스트 데이터의 특징 정보를 생성할 수 있다. 또한, 데이터 저장부(16)는 텍스트 데이터를 텍스트 데이터의 특징 정보와 연계하여 일기장 어플리케이션에 저장할 수 있다. 예를 들어, 텍스트 특징 정보는, 텍스트 크기, 첫 글자 크기, 초성 크기, 폰트, 색상 중 적어도 어느 하나를 포함할 수 있다. 데이터 저장부(16)는 감정 정보(예를 들어, 진지하다, 진중하다)를 고려하여, 글씨체를 궁서체, 글꼴 색을 검정색 등으로 결정하여 텍스트 데이터를 일기장 어플리케이션에 저장할 수 있다. 또한, 데이터 저장부(16)는 소리의 특징을 고려하여, 텍스트 데이터의 특징 정보를 생성할 수 있다. 예를 들어, 데이터 저장부(16)는 사용자의 소리의 특징 중 악센트에 기반하여, 텍스트 데이터의 특징 정보를 생성할 수 있다. 데이터 저장부(16)는 사용자가 발성한 소리의 악센트가 발생한 경우, 악센트가 발생한 단어의 텍스트 크기, 텍스트의 볼딕 표시 등을 달리하여 텍스트 데이터의 특징 정보를 생성하고, 해당 텍스트 데이터를 일기장 어플리케이션에 저장할 수 있다.
또한, 데이터 저장부(16)는 텍스트 데이터에 미리 설정된 부정적 키워드가 포함된 경우, 해당 텍스트 데이터에 대한 공개 여부를 판단할 수 있다. 데이터 저장부(16)는 공개 여부 판단 결과에 기반하여 해당 텍스트 데이터를 일기장 어플리케이션에 저장할 수 있다. 예를 들어, 부정적 키워드는, 우울, 슬픔, 분노, 좌절, 무기력, 외로움 등을 포함할 수 있다. 데이터 저장부(16)는 부정적 키워드가 포함된 경우, 해당 날짜에 저장되는 텍스트 데이터를 비공개로 지정하여 일기장 어플리케이션에 저장할 수 있다. 미리 설정된 부정적 키워드는 사용자가 미리 지정한 키워드를 포함할 수 있다. 또한, 데이터 저장부(16)는 사용자가 미리 설정한 키워드가 포함된 텍스트 데이터인 경우, 해당 날짜에 수집된 텍스트 데이터를 비공개로 설정하여 일기장 어플리케이션에 저장할 수 있다. 비공개로 저장된 텍스트 데이터는, 비밀번호를 입력한 후 해달 날짜에 기록된 데이터를 확인할 수 있다.
또한, 데이터 저장부(16)는 텍스트 데이터에 구매와 관련된 특정 키워드가 포함되는 경우, 웹 사이트 정보와 연계하여 일기장 어플리케이션에 해당 텍스트 데이터를 저장할 수 있다. 데이터 저장부(16)는 해당 웹 사이트에 사용자의 구매 이력이 존재하는 경우, 결제 내역 정보와 해당 텍스트 데이터를 연계하여 일기장 어플리케이션에 저장할 수 있다. 일예로, 데이터 저장부(16)는 텍스트 데이터에 구매와 관련된 특정 키워드(예를 들어, 쿠팡에서 옷을 구매했다)가 포함되는 경우, 웹 사이트 정보 (예를 들어, 쿠팡)와 연계하여 해당 텍스트 데이터를 일기장 어플리케이션에 저장할 수 있다. 또한, 데이터 저장부(16)는 해당 웹 사이트(예를 들어, 쿠팡)에 사용자의 구매 이력(예를 들어, 옷을 산 구매 이력)이 존재하는 경우, 결제 내역 정보(예를 들어, 쿠팡에서 옷을 산 결제 내역 정보)와 해당 텍스트 데이터(예를 들어, 쿠팡에서 옷을 구매했다)를 연계하여 일기장 어플리케이션에 저장할 수 있다.
달리 말해, 데이터 저장부(16)는 텍스트 데이터에 "쿠팡에서 옷을 구매했다."와 같이 구매와 관련된 특정 키워드가 포함되는 경우, 해당 텍스트 데이터와 일기장 어플리케이션에 쿠팡의 사이트 주소를 연계하여 일기자 어플리케이션에 저장할 수 있다. 또한, 데이터 저장부(16)는 텍스트 데이터가 수집될 날짜에 쿠팡에서 옷을 구매한 이력이 존재하는 경우, 결제 내역 정보와 함께 해당 텍스트 데이터를 연계하여 일기장 어플리케이션에 저장할 수 있다. 한편, 데이터 저장부(16)는 결제 내역 정보가 존재하는 경우, 가계부 어플리케이션에 해당 결제 내역 정보를 저장할 수 있다.
본원의 다른 일 실시예에 따르면, 데이터 저장부(16)는 텍스트 데이터에 특정 키워드가 포함된 경우, 일기장 어플리케이션, 메모 어플리케이션, 가계부 어플리케이션, 일정관리 어플리케이션 중 적어도 어느 하나에 텍스트 데이터를 저장할 수 있다. 예를 들어, 데이터 저장부(16)는 오늘이 11월 26일이나, 텍스트 데이터에 11월 30일에는이라는 키워드가 포함된 경우, 일정관리 어플리케이션에 해당 텍스트 데이터를 저장할 수 있다. 또한, 데이터 저장부(16)는 오늘 장을 봐야 할 목록이라는 키워드가 포함된 경우, 메모 어플리케이션에 해당 텍스트 데이터를 저장할 수 있다. 데이터 저장부(16)는 일기장 어플리케이션뿐만 아니라, 미리 설정된 키워드에 대응하는 어플리케이션에 해당 텍스트 데이터를 저장함으로써, 사용자가 보다 더 간편하게 음성으로 기록하고, 데이터를 확인할 수 있는 환경을 제공할 수 있다.
본원의 일 실시예에 따르면, 데이터 출력부(17)는 사용자의 선택 정보에 기반하여 일기장 어플리케이션에 저장된 데이터를 출력할 수 있다. 데이터 출력부(17)는 사용자 단말의 디스플레이를 통해, 날짜별로 구분되어 저장된 일기장 어플리케이션에 저장된 데이터를 출력할 수 있다. 일예로, 사용자의 선택 정보는, 날짜 또는 키워드의 검색 결과 정보를 포함할 수 있다. 달리 말해, 데이터 출력부(17)는 특정 날짜를 선택한 사용자의 선택 정보에 기반하여 일기장 어플리케이션에 저장된 데이터를 출력할 수 있다. 또한, 데이터 출력부(17)는 특정 키워드를 입력한 사용자의 선택 정보에 기반하여 일기장 어플리케이션에 저장된 데이터를 출력할 수 있다. 일기장 어플리케이션에 저장된 데이터는, 사용자가 발성한 소리 정보, 텍스트 데이터, 콘텐츠 정보, 감정 분석 정보, 사진 분석 정보, 구매 이력 정보 중 적어도 어느 하나를 포함할 수 있다.
예시적으로 도 5를 참조하면, 데이터 출력부(17)는 특정 날짜(2)를 선택하는 사용자의 선택 정보에 기반하여 일기장 어플리케이션에 저장된 데이터를 출력할 수 있다. 데이터 출력부(17)는 해당 날짜에 저장된 텍스트 데이터, 텍스트 데이터와 연계된 콘텐츠 정보, 감정 분석 정보, 사진 분석 정보, 구매 이력 정보 등을 포함하는 일기장 어플리케이션을 디스플레이를 통해 출력할 수 있다.
예를 들어, 데이터 출력부(17)는 화면(디스플레이)을 통해, 텍스트, 이모티콘, 이미지 영상 중 적어도 어느 하나를 출력하고, 스피커를 통해 추천된 콘텐츠에 포함된 음성을 출력할 수 있다.
한편, 데이터 출력부(17)는 음성 일기 장치(10)와 AI 스피커(20)가 연동된 경우, 화면(디스플레이)을 통해, 텍스트, 이모티콘, 이미지 영상 중 적어도 어느 하나를 출력하고, AI 스피커(20) 스피커를 통해 추천된 콘텐츠에 포함된 음성을 출력할 수 있다.
본원의 일 실시예에 따르면, 음성 일기 시스템(1)은 스마트폰의 어플리케이션을 통해 입력된 음성 또는 AI 스피커를 통해서 음성을 인식하여 텍스트로 작성 (STT: speech to text)되는 음성 일기장에 관한 것이며, 기록된 일기를 날짜, 키워드로 검색할 수 있으며, 어플리케이션과 연동하여 텍스트 기반의 일기를 작성할 수 있다.
또한, 음성 일기 시스템(1)은 사용자의 음성과 입력된 음성에 따른 텍스트로부터 사용자의 감정을 파악하고, 연동된 AI 스피커를 이용해서 현재 감정에 어울리는 배경음을 재생하거나, 사용자의 기분에 따른 사용자 맞춤형 콘텐츠(음악, 라디오, 글)를 함께 출력하거나, 일기의 상황에 맞는 콘텐츠를 추천하여 텍스트와 함께 제공할 수 있다.
전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.
1: 음성 일기 시스템
10: 음성 일기 장치
11: 수신부 12: 데이터 변환부
13: 감정 정보 분석부 14: 콘텐츠 분석부
15: 사진 정보 분석부 16: 데이터 저장부
17: 데이터 출력부
20: AI 스피커
10: 음성 일기 장치
11: 수신부 12: 데이터 변환부
13: 감정 정보 분석부 14: 콘텐츠 분석부
15: 사진 정보 분석부 16: 데이터 저장부
17: 데이터 출력부
20: AI 스피커
Claims (12)
- 음성 일기 장치에 있어서,
사용자로부터 발성된 소리를 입력받은 수신부;
상기 소리를 인식하고 상기 소리를 텍스트 데이터로 변환하는 데이터 변환부;
상기 텍스트 데이터 및 상기 소리의 특징을 고려하여 사용자의 감정 분석 결과를 포함하는 감정 정보를 생성하는 감정 정보 분석부;
분석된 상기 감정 정보를 고려하여 외부 서버로부터 수집된 복수의 콘텐츠 중 적어도 어느 하나의 콘텐츠를 추천하는 콘텐츠 추천부;
상기 콘텐츠 추천부에서 추천된 콘텐츠와 상기 텍스트 데이터를 연계하여 일기장 어플리케이션에 저장하는 데이터 저장부; 및
사용자의 선택 정보에 기반하여 상기 일기장 어플리케이션에 저장된 데이터를 출력하는 데이터 출력부;
를 포함하되,
상기 콘텐츠 추천부는, 분석된 사용자의 감정 정보에 대응하는 사용자 맞춤형 콘텐츠를 추천하되, 상기 복수의 콘텐츠는 이미지, 음악, 동영상, 라디오를 포함하고,
상기 데이터 저장부는,
상기 감정 정보를 고려하여 글씨체 및 폰트 색상 중 어느 하나를 달리하여 텍스트 특징 정보를 생성하고,
상기 소리 특징을 고려하여, 악센트가 발생한 단어의 텍스트 크기 및 텍스트의 볼딕 표시를 달리하는 텍스트 특징 정보를 생성하여,
생성된 텍스트의 특징 정보와 상기 텍스트 데이터를 연계하여 상기 일기장 어플리케이션에 저장하는 것인, 음성 일기 장치. - 삭제
- 삭제
- 제1항에 있어서,
상기 데이터 저장부는,
상기 텍스트 데이터에 미리 설정된 부정적 키워드가 포함된 경우, 해당 텍스트 데이터에 대한 공개 여부를 판단하고, 상기 일기장 어플리케이션에 상기 텍스트 데이터를 저장하는 것인, 음성 일기 장치. - 삭제
- 제1항에 있어서,
상기 데이터 저장부는,
상기 텍스트 데이터에 구매와 관련된 특정 키워드가 포함되는 경우, 웹 사이트 정보와 연계하여 일기장 어플리케이션에 해당 텍스트 데이터를 저장하되, 상기 웹 사이트에 사용자의 구매 이력이 존재하는 경우, 결제 내역 정보와 상기 해당 텍스트 데이터를 연계하여 상기 일기장 어플리케이션에 저장하는 것인, 음성 일기 장치. - 제1항에 있어서,
상기 텍스트 데이터가 수집된 날짜에 기반하여 앨범 어플리케이션으로부터 사진 정보를 수집하고, 상기 사진 정보를 분석하는 사진 정보 분석부를 더 포함하되,
상기 데이터 저장부는,
상기 텍스트 데이터에 상기 사진 정보 분석 결과와 연관된 텍스트가 포함되지 않은 경우, 상기 사진 분석 결과와 연관된 텍스트와 상기 사진 정보를 연계하여 상기 일기장 어플리케이션에 상기 사진 분석 결과와 연관된 텍스트 데이터를 저장하는 것인, 음성 일기 장치. - 음성 일기 시스템에 있어서,
사용자로부터 발성된 소리를 입력받는 AI 스피커; 및
상기 소리를 인식하고, 상기 소리를 텍스트 데이터로 변환하여 사용자의 감정 분석을 수행하는 음성 일기 장치,
를 포함하되,
상기 AI 스피커는,
상기 음성 일기 장치에서 수행된 사용자의 감정 분석 수행 결과에 기반하여, 외부 서버로부터 수집되는 콘텐츠 중 어느 하나의 음성 콘텐츠를 출력하고,
상기 음성 일기 장치는,
상기 AI 스피커에서 출력한 음성 콘텐츠를 상기 텍스트 데이터와 연계하여 일기장 어플리케이션에 저장하고, 사용자의 선택 정보에 기반하여 상기 일기장 어플리케이션에 저장된 데이터를 디스플레이에 출력하되,
상기 음성 일기 장치는,
인공지능 학습을 통해 텍스트 데이터 및 소리를 입력으로 하여 구축된 학습 모델에 신규 소리를 입력하여 감정 분석을 수행하고, 분석된 사용자의 감정 결과에 대응하는 사용자 맞춤형 콘텐츠를 추천하되, 상기 복수의 콘텐츠는 이미지, 음악, 동영상, 라디오를 포함하고,
상기 감정 정보를 고려하여 글씨체 및 폰트 색상 중 어느 하나를 달리하여 텍스트 특징 정보를 생성하고, 상기 소리 특징을 고려하여, 악센트가 발생한 단어의 텍스트 크기 및 텍스트의 볼딕 표시를 달리하여 텍스트 특징 정보를 생성하여, 생성된 텍스트의 특징 정보와 상기 텍스트 데이터를 연계하여 상기 일기장 어플리케이션에 저장하는 것인, 음성 일기 시스템. - 제8항에 있어서,
상기 음성 일기 장치는,
상기 텍스트 데이터 및 상기 소리의 특징을 고려하여 사용자의 감정 분석을 수행하고, 감정 분석 결과를 포함하는 감정 정보를 생성하되,
상기 AI 스피커는,
상기 감정 정보에 기반하여 복수의 콘텐츠 중 적어도 어느 하나의 콘텐츠를 출력하는 것인, 음성 일기 시스템. - 제9항에 있어서,
상기 AI 스피커는,
상기 음성 콘텐츠를 출력하며, 상기 사용자로부터 발성된 소리를 입력받되,
상기 음성 일기 장치는,
상기 AI 스피커에서 출력되는 음성 콘텐츠 및 상기 사용자로부터 발성된 소리를 텍스트 데이터로 변환하여 상기 일기장 어플리케이션에 저장하는 것인, 음성 일기 시스템. - 제10항에 있어서,
상기 AI 스피커는,
외부 서버로부터 수집된 복수의 콘텐츠 및 상기 감정 정보를 입력으로 하는 인공지능 학습 결과에 기반하여 수집된 복수의 콘텐츠 중 적어도 어느 하나의 콘텐츠를 출력하는 것인, 음성 일기 시스템. - 제11항에 있어서,
상기 음성 일기 장치는,
상기 텍스트 데이터가 수집된 날짜에 기반하여 앨범 어플리케이션으로부터 사진 정보를 수집하고, 상기 사진 정보를 분석하되,
상기 AI 스피커는,
상기 사진 분석 결과와 연관된 텍스트를 더 고려하여, 복수의 콘텐츠 중 적어도 어느 하나의 콘텐츠를 출력하는 것인, 음성 일기 시스템.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190157012A KR102279505B1 (ko) | 2019-11-29 | 2019-11-29 | 음성 일기 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190157012A KR102279505B1 (ko) | 2019-11-29 | 2019-11-29 | 음성 일기 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210067426A KR20210067426A (ko) | 2021-06-08 |
KR102279505B1 true KR102279505B1 (ko) | 2021-07-19 |
Family
ID=76399324
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190157012A KR102279505B1 (ko) | 2019-11-29 | 2019-11-29 | 음성 일기 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102279505B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11971920B1 (en) | 2022-10-13 | 2024-04-30 | Actionpower Corp. | Method for determining content associated with voice signal |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102414878B1 (ko) * | 2021-11-17 | 2022-07-01 | 주식회사 마링 | 완구 및 통신단말기를 이용한 고객 맞춤형 멘탈케어 시스템 및 방법 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101754093B1 (ko) * | 2016-09-01 | 2017-07-05 | 성기봉 | 기록이 자동으로 분류되어 저장되는 개인기록 관리 시스템 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090017149A (ko) * | 2007-08-14 | 2009-02-18 | 주식회사 케이티 | 감정 콘텐츠 제공 시스템 및 방법 |
-
2019
- 2019-11-29 KR KR1020190157012A patent/KR102279505B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101754093B1 (ko) * | 2016-09-01 | 2017-07-05 | 성기봉 | 기록이 자동으로 분류되어 저장되는 개인기록 관리 시스템 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11971920B1 (en) | 2022-10-13 | 2024-04-30 | Actionpower Corp. | Method for determining content associated with voice signal |
Also Published As
Publication number | Publication date |
---|---|
KR20210067426A (ko) | 2021-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9916825B2 (en) | Method and system for text-to-speech synthesis | |
KR102582291B1 (ko) | 감정 정보 기반의 음성 합성 방법 및 장치 | |
Schalkwyk et al. | “Your word is my command”: Google search by voice: A case study | |
CN106201424B (zh) | 一种信息交互方法、装置及电子设备 | |
US20190370398A1 (en) | Method and apparatus for searching historical data | |
RU2494476C2 (ru) | Способ и система для предоставления речевого интерфейса | |
Neustein | Advances in speech recognition: mobile environments, call centers and clinics | |
US20180218728A1 (en) | Domain-Specific Speech Recognizers in a Digital Medium Environment | |
MX2012011426A (es) | Utilizar informacion de contexto para facilitar el procesamiento de comandos en un asistente virtual. | |
CN109313649B (zh) | 用于聊天机器人的基于语音的知识共享的方法和装置 | |
Shen et al. | Kwickchat: A multi-turn dialogue system for aac using context-aware sentence generation by bag-of-keywords | |
US11881209B2 (en) | Electronic device and control method | |
JP2020067658A (ja) | 音声を認識する装置及び方法、音声認識モデルをトレーニングする装置及び方法 | |
Kaushik et al. | Automatic sentiment detection in naturalistic audio | |
KR102279505B1 (ko) | 음성 일기 장치 | |
US20230341950A1 (en) | Intelligent Keyboard | |
KR20200069264A (ko) | 사용자 맞춤형 음성 선택이 가능한 음성 출력 시스템 및 그 구동방법 | |
Titarmare et al. | Interactive Zira Voice Assistant-A Personalized Desktop Application | |
CN117828065A (zh) | 一种数字人客服方法、系统、装置及储存介质 | |
Tsujino et al. | Speech Recognition and Spoken Language Understanding for Mobile Personal Assistants: A Case Study of" Shabette Concier" | |
CN112151072A (zh) | 语音处理方法、装置和介质 | |
US11726656B2 (en) | Intelligent keyboard | |
Basu et al. | Real time challenges to handle the telephonic speech recognition system | |
Kuanyshbay et al. | Speech data collection system for Kazakh language | |
JP7166370B2 (ja) | 音声記録のための音声認識率を向上させる方法、システム、およびコンピュータ読み取り可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |