KR101643808B1 - 어플리케이션과 서버 간의 연동을 이용한 음성 서비스 제공 방법 및 그 시스템 - Google Patents

어플리케이션과 서버 간의 연동을 이용한 음성 서비스 제공 방법 및 그 시스템 Download PDF

Info

Publication number
KR101643808B1
KR101643808B1 KR1020140025414A KR20140025414A KR101643808B1 KR 101643808 B1 KR101643808 B1 KR 101643808B1 KR 1020140025414 A KR1020140025414 A KR 1020140025414A KR 20140025414 A KR20140025414 A KR 20140025414A KR 101643808 B1 KR101643808 B1 KR 101643808B1
Authority
KR
South Korea
Prior art keywords
communication terminal
voice
data
message
server
Prior art date
Application number
KR1020140025414A
Other languages
English (en)
Other versions
KR20150103855A (ko
Inventor
조세나
김용태
Original Assignee
주식회사 엘지유플러스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엘지유플러스 filed Critical 주식회사 엘지유플러스
Priority to KR1020140025414A priority Critical patent/KR101643808B1/ko
Publication of KR20150103855A publication Critical patent/KR20150103855A/ko
Application granted granted Critical
Publication of KR101643808B1 publication Critical patent/KR101643808B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Abstract

본 발명의 실시예는 음성 인식 서비스를 제공하기 위한 방법과 그 시스템에 관한 것이다. 음성 서비스 제공 방법에 있어서, 통신 단말기에 설치된 어플리케이션에서 사용자로부터 수신한 음성을 녹음하여 녹음 데이터를 생성하는 단계; 상기 녹음 데이터를 서버로 전송하는 단계; 상기 서버로부터 상기 녹음 데이터에 대한 결과 값을 수신하는 단계; 및 상기 결과 값에 따라 상기 통신 단말기를 동작시키는 단계를 포함하는 음성 서비스 제공 방법이 제공될 수 있다.

Description

어플리케이션과 서버 간의 연동을 이용한 음성 서비스 제공 방법 및 그 시스템{METHOD AND SYSTEM OF PROVIDING VOICE SERVICE USING INTEROPERATION BETWEEN APPLICATION AND SERVER}
본 발명의 실시예는 통신 단말기에서 음성 인식 서비스를 제공하기 위한 방법과 그 시스템에 관한 것이다.
최근의 디지털 기술의 발달과 함께 휴대폰, 태블릿 PC 등의 전자 기기들이 보편화되고 있으며, 이러한 전자 기기들은 음성 통화, 영상 통화, 메시지 송수신, 동영상 재생, 인터넷, 전자상거래 음악 재생, 소셜 네트워크 서비스(SNS) 등의 다양한 기능을 실행할 수 있다.
전자 기기의 사용자로 하여금 더욱 편리하게 사용할 수 있도록 디지털 기술이 발전하고 있는 바, 음성 인식 서비스도 나날이 그 정확도와 편의성이 증대되고 있다.
이에, 전자 기기에 음성 인식 기술을 도입하고 있으며, 이미 세계의 주요 IT 기업이 핵심 제품과 서비스에 음성 인식 기술을 적용하고 있다.
이전의 음성 인식 기술은 인식률이 낮아 통신 기기의 제어에 사용되기 어려운 점이 있었으나 관련 기술의 지속적인 발전으로 음성 인식률이 상당 부분 제고되었다. 이를 통해 음성 인식을 이용하여 사용자의 통신 단말기에 대한 물리적 조작 없이 통신 단말기를 조작할 수 있으며, 이동 및 작업 중 음성을 통한 정보 입력이 더욱 쉬워 지고 있다.
이와 관련하여, 한국공개특허 제2012-0035059호는 단말기의 음성인식을 통한 어학학습 방법 및 시스템을 개시하고 있다.
본 발명의 실시예는 음성 인식 서비스를 제공하는데 있어서, 보다 안정화된 서비스를 제공하기 위해 통신 단말기 내 어플리케이션과 음성인식 서버 간의 최적화된 연동을 통한 음성 인식 서비스를 제공한다.
본 발명의 일실시예에 따른 음성 서비스 제공 방법은, 통신 단말기에 설치된 어플리케이션에서 사용자로부터 수신한 음성을 녹음하여 녹음 데이터를 생성하는 단계; 상기 녹음 데이터를 서버로 전송하는 단계; 상기 서버로부터 상기 녹음 데이터에 대한 결과 값을 수신하는 단계; 및 상기 결과 값에 따라 상기 통신 단말기를 동작시키는 단계를 포함한다.
일측에 따르면, 상기 음성 서비스 제공 방법은 상기 어플리케이션을 슬립 모드로 설정하는 단계; 및 상기 통신 단말기에 수신되는 음성이 미리 정해진 시작 명령 음성인 경우, 상기 어플리케이션을 웨이크 업 하는 단계를 포함할 수 있다.
상기 음성 서비스 제공 방법에서, 상기 결과 값에 따라 상기 통신 단말기를 동작시키는 단계는, 상기 결과 값이 전화 걸기 동작에 대응하는 경우 전화 걸기 동작을 수행하는 단계; 및 상기 결과 값이 메시지 발송 동작에 대응하는 경우 메시지 발송 동작을 수행하는 단계를 포함할 수 있다.
상기 음성 서비스 제공 방법에서, 상기 녹음 데이터를 서버로 전송하는 단계는, 상기 통신 단말기에 저장된 연락처 정보 또는 통화 기록 정보를 상기 녹음 데이터와 함께 서버로 전송하는 단계를 포함할 수 있다.
일측에 따르면, 상기 음성 서비스 제공 방법은 상기 통신 단말기에서 호(call) 수신이 감지되는 경우, 상기 호의 연결 여부에 관하여 상기 통신 단말기의 사용자에게 문의하는 음성 데이터를 출력하는 단계를 더 포함하고, 상기 사용자로부터 수신한 음성을 녹음하여 녹음 데이터를 생성하는 단계는, 상기 사용자로부터의 상기 문의에 대한 응답으로 수신한 음성을 녹음하여 상기 녹음 데이터를 생성하는 단계를 포함할 수 있다
또 다른 일측에 따르면, 상기 음성 서비스 제공 방법은, 상기 통신 단말기에서 문자 메시지 수신이 감지되는 경우, 문자 메시지 읽기 여부에 관하여 상기 통신 단말기의 사용자에게 문의하는 음성 데이터를 출력하는 단계를 더 포함하고, 상기 녹음 데이터를 생성하는 단계는, 상기 사용자로부터의 상기 문의에 대한 응답으로 수신한 음성을 녹음하여 상기 녹음 데이터를 생성하는 단계를 더 포함할 수 있다.
또 다른 일측에 따르면, 상기 음성 서비스 제공 방법은, 상기 통신 단말기에서 상기 통신 단말기에 설치된 인스턴트 메시징 어플리케이션에서의 IM 메시지 수신이 감지되는 경우, IM 메시지 읽기 여부에 관하여 상기 통신 단말기의 사용자에게 문의하는 음성 데이터를 출력하는 단계를 더 포함하고, 상기 녹음 데이터를 생성하는 단계는, 상기 사용자로부터의 상기 문의에 대한 응답으로 수신한 음성을 녹음하여 상기 녹음 데이터를 생성하는 단계를 더 포함할 수 있다.
또 다른 일측에 따르면, 상기 음성 서비스 제공 방법에서, 상기 결과 값에 따라 상기 통신 단말기를 동작시키는 단계는, 상기 통신 단말기의 주변 소음 크기를 측정하는 단계; 상기 주변 소음 크기 및 상기 통신 단말기의 스피커 볼륨 크기를 비교하는 단계; 및 상기 스피커 볼륨 크기를 상기 주변 소음 크기보다 일정 수준 높은 크기로 조절하는 단계를 포함할 수 있다.
또 다른 일측에 따르면, 상기 음성 서비스 제공 방법에서, 상기 결과 값에 따라 상기 통신 단말기를 동작시키는 단계는, 상기 서버로부터 수신된 상기 결과 값으로 상기 사용자로부터 수신한 음성에 대한 텍스트 데이터의 길이를 측정하는 단계; 및 상기 텍스트 데이터를 상기 통신 단말기의 화면에 디스플레이 하되, 상기 화면 상에서 상기 텍스트 데이터를 구별되도록 표시하는 창의 크기를 상기 텍스트 데이터의 길이에 따라 적응적으로 조절하는 단계를 포함할 수 있다.
또 다른 일측에 따르면, 상기 음성 서비스 제공 방법에서, 상기 결과 값에 따라 상기 통신 단말기를 동작시키는 단계는, 상기 결과 값으로 통신 단말기가 사용자로부터 부재중 전화를 확인하라는 음성이 수신된 경우, 부재중 전화 목록에 대해서 음성 안내하고, 상기 부재중 전화 목록을 리스트 업 하는 단계를 포함할 수 있다.
본 발명의 실시예는 통신 단말기에서 음성 인식 서비스를 제공하는데 있어서, 보다 안정화된 서비스를 제공하기 위해 통신 단말기 내 어플리케이션과 음성인식 서버 간의 최적화된 연동을 통한 음성 인식 서비스를 제공할 수 있다.
도 1은 본 발명의 일실시예에 있어서, 전화 및 문자 메시지 전송을 위한 어플리케이션과 서버 간의 연동을 이용한 음성 서비스 제공 방법에 대해 설명하기 위한 흐름도이다.
도 2는 본 발명의 일실시예에 있어서, 전화 수신을 위한 어플리케이션과 서버 간의 연동을 이용한 음성 서비스 제공 방법에 대해 설명하기 위한 흐름도이다.
도 3은 본 발명의 일실시예에 있어서, 문자 메시지 수신을 위한 어플리케이션과 서버 간의 연동을 이용한 음성 서비스 제공 방법에 대해 설명하기 위한 흐름도이다.
도 4는 본 발명의 일실시예에 있어서, 통신 단말기 내 인스턴트 메시징 어플리케이션을 통한 IM 메시지 수신과 관련된 실시예를 설명하기 위한 도면이다.
이하, 어플리케이션과 서버 간의 연동을 이용한 음성 서비스 제공 방법에 대해서 첨부된 도면을 참조하여 자세히 설명한다.
도 1은 본 발명의 일실시예에 있어서, 전화 및 문자 메시지 전송을 위한 어플리케이션과 서버 간의 연동을 이용한 음성 서비스 제공 방법에 대해 설명하기 위한 흐름도이다.
도 1에 도시된 일실시예는, 통신 단말기는 입력된 사용자의 음성을 녹음한 녹음 데이터를 서버로 전송하고, 서버는 녹음 데이터를 텍스트 데이터로 변환하여 변환된 텍스트 데이터를 통신 단말기로 전송하며, 통신 단말기는 서버로부터 전송된 텍스트 데이터를 수신하여 미리 정해진 동작을 수행하는 방법에 관한 것이다.
단계(110)에서, 통신 단말기에 설치된 본 발명의 일측에 따른 음성 인식 서비스를 제공하기 위한 어플리케이션에서 통신 단말기의 사용자로부터 미리 정해진 시작 명령 음성을 수신하고, 수신된 시작 명령 음성에 따라 어플리케이션을 웨이크 업(Wake up)시킬 수 있다.
실시예에 있어서, 통신 단말기의 마이크 등의 입력 수단을 통해 ‘하이유와’라는 사용자의 음성이 입력되면, 통신 단말기는 소정의 로직에 따라 입력된 음성이 미리 정해진 시작 명령 음성('하이유와')와 대응 여부를 판단하고, 입력된 음성 및 미리 정해진 시작 명령 음성이 대응된다고 판단하는 경우, 어플리케이션이 웨이크 업 되도록 제어한다. 실시예에 있어서, 어플리케이션은 슬립 모드로 백그라운드로 동작하거나, 실행되고 있지 않던 상태에서 웨이크 업 될 수 있다. 이때, 어플리케이션은 음성 서비스를 제공하기 위한 것으로 통신 단말기의 디스플레이의 일부 영역에 사용자의 음성을 입력 받기 위한 마이크 아이콘 또는 ‘무엇을 도와드릴까요?’ 등의 음성 입력 요청 메시지가 함께 표시될 수 있다.
단계(120)에서, 어플리케이션은 사용자로부터 음성을 수신하고, 수신된 음성을 녹음하여 녹음 데이터를 생성할 수 있다. 사용자로부터 수신된 음성은 전화, 문자 송신, 또는 다른 어플리케이션의 실행 명령 등을 포함하는 음성일 수 있다.
단계(130)에서, 상기 녹음 데이터는 서버로 전송될 수 있다. 서버는 STT(Speech to text) 기술을 이용하여 상기 녹음 데이터의 음성 데이터를 텍스트 데이터로 변환할 수 있다. 상기 녹음 데이터는 유무선 네트워크를 통해 서버로 전송될 수 있다.
단계(140)에서, 서버는 녹음 데이터로부터 텍스트 데이터를 생성할 수 있다. 텍스트 데이터를 생성할 때에, 서버는 녹음 데이터를 분석하여 녹음 데이터에 포함된 사용자 음성 데이터의 특징을 추출하여 이를 로그 값으로 저장함으로써 이후 전송되는 녹음 데이터에 대한 사용자 음성 데이터 인식 시 참조 값으로 사용할 수 있다. 서버는 텍스트 데이터로 변환된 상기 녹음 데이터를 삭제할 수 있다.
단계(150)에서, 서버는 통신 단말기로 텍스트 파일을 전송한다. 통신 단말기의 어플리케이션은 녹음 데이터에 대한 결과 값으로 서버로부터 전송된 텍스트 데이터를 수신할 수 있다.
단계(160)에서, 어플리케이션은 수신된 텍스트 데이터에 따라 통신 단말기를 동작시킬 수 있다. 이에 따른 통신 단말기의 동작은 전화 발신, 문자 작성 및 송신, 다른 어플리케이션의 실행 중 어느 하나일 수 있다.
일측에 따르면, 단계(130)에서, 통신 단말기는 녹음 데이터를 서버로 전송할 때, 통신 단말기에 저장된 연락처 정보 또는 통화 기록 정보를 녹음 데이터와 함께 서버로 전송할 수 있다. 다른 일측에 따르면, 상기 연락처 정보 또는 통화 기록 정보는 녹음 데이터와 별도로 서버로 전송될 수도 있다. 이 경우, 단계(150)에서, 서버는 녹음 데이터와 함께 전송된 연락처 정보 또는 통화 기록 정보를 이용하여 텍스트 데이터를 가공할 수 있다. 본 실시예에 따른 사용자 시나리오를 설명하면 아래와 같다.
<음성 인식의 정확도 제고>
단계(140)에서, 서버는 통신 단말기로부터 전송된 연락처 정보 또는 통화 기록 정보를 이용하여, 음성-텍스트 변환 시 정확도를 높일 수 있다. 음성-텍스트 변환 시 유사 음성을 가지는 텍스트에 대해서, 통신 단말기로부터 전송된 연락처 정보 또는 통화 기록 정보를 이용하여 텍스트 변환을 정밀하게 할 수 있다.
예를 들어, 사용자로부터 '김영희에게 문자 보내줘'라는 음성이 입력된 경우, 서버는 연락처 정보 또는 통화 기록 정보를 참조하여, '김영희'와 유사한 ‘김명희’ 또는 ‘김영미’ 등의 텍스트를 검색하고, 이를 텍스트 데이터로 변환하여 통신 단말기로 전송할 수 있다. 통신 단말기는 서버로부터 수신한 텍스트 데이터에 따라, 화면에 유사한 음성으로 분류된 하나 이상의 연락처 정보를 표시할 수 있다.
<변형 시나리오들>
일측에 따르면, 서버는 사용자로부터 입력된 음성 데이터 변환 결과, 연락처 정보 상에 동일한 텍스트 데이터로 변환된 대상자가 둘 이상(동명이인)인 경우, 텍스트 데이터에 둘 이상의 대상자에 대한 연락처 정보를 포함시킬 수 있다. 이 경우, 서버는 통화 기록 정보를 참조하여, 둘 이상의 대상자에 대한 정보를 최근 통화 순 또는 자주 통화하는 순으로 소팅하여 통신 단말기에게 제공할 수 있다.
다른 일측에 따르면, 서버는 사용자로부터 입력된 음성 데이터 변환 결과, 연락처 정보 상에 대상자의 연락처가 둘 이상(집 전화, 휴대 전화 등)인 경우, 통화 기록 정보를 참조하여, 자주 통화한 연락처를 선택하여 텍스트 데이터로 변환할 수 있다. 또한, 서버는 둘 이상의 연락처를 모두 포함하여 텍스트 데이터로 변환할 수 있고, 통신 단말기는 화면 상에 둘 이상의 연락처를 리스트 형태로 표시할 수 있다.
다른 일측에 따르면, 서버는 사용자로부터 입력된 음성 데이터 변환 결과, 통신 단말기가 사용자로부터 부재중 전화를 확인하라는 음성이 확인되는 경우, 통신 단말기 내의 부재중 전화가 있는지 확인 받아 한 통 이상 있는 경우, 서버는 사용자가 확인할 수 있도록 음성 안내와 함께 리스트 업(List up)시키거나, 음성으로 발신 안내와 함께 부재중 전화의 발신자에게 자동으로 전화를 발신할 수 있다.
또 다른 일측에 따르면, 통신 단말기의 어플리케이션은 상기 서버로부터 수신된 텍스트 데이터를 화면 상에 출력할 수 있다. 이때 어플리케이션은 상기 텍스트 데이터의 길이를 측정하여, 상기 텍스트 데이터가 통신 단말기의 화면 상에 출력될 때 텍스트 데이터를 화면 상에서 구분되게 표시하는 말풍선 형태의 창(window)의 크기를 적응적으로 조절할 수 있다. 예를 들어, 텍스트 데이터의 길이가 클수록 창의 크기를 크게 하고, 작을 수로 창의 크기를 줄여서 창 내에 배치되는 텍스트 데이터가 적절한 여백으로 배치될 수 있도록 할 수 있다.
<전화 발신 시나리오>
본 발명의 다른 실시예에 있어서, 사용자가 전화 발신을 하고자 할 때에 대해서 도 1을 참조하여 설명하도록 한다.
먼저, 단계(110)에서 통신 단말기에 설치된 어플리케이션에서 통신 단말기의 사용자로부터 미리 정해진 음성을 수신하고, 어플리케이션을 웨이크 업(Wake up)시킬 수 있다. 어플리케이션이 실행되면, 통신 단말기 디스플레이의 일부 영역에 음성을 입력하라는 아이콘 및/또는 요청 메시지가 함께 표시될 수 있고, 사용자는 이를 확인하여 전화 발신을 포함하는 명령어를 통신 단말기에 구비된 마이크 등의 입력 수단을 통해 음성으로 입력할 수 있다.
단계(120)에서, 통신 단말기는 사용자로부터 수신되는 음성을 녹음 데이터로 생성한다. 단계(130)에서, 통신 단말기는 녹음 데이터를 서버로 전송한다. 녹음 데이터를 서버로 전송할 때, 통신 단말기에 저장된 연락처 정보 또는 통화 기록 정보를 녹음 데이터와 함께 서버로 전송할 수 있다. 녹음 데이터를 서버로 전송할 때에, 연락처 정보 또는 통화 기록 정보는 녹음 데이터와 별도로 전송될 수도 있다.
서버에서는, 단계(140)에서 녹음 데이터를 분석하여 녹음 데이터에 포함되어 있는 ‘전화 발신’에 대한 텍스트 데이터를 생성할 수 있다. 서버는 텍스트 데이터로 변환된 녹음 데이터를 삭제할 수 있다. 통신 단말기에 저장된 연락처 정보 또는 통화 기록 정보를 수신한 서버는 전화 발신의 발신자에 대한 정보를 녹음 데이터, 연락처 정보 또는 통화 기록 정보로부터 획득하여 텍스트 데이터를 가공할 수 있다.
단계(150)에서, 서버는 변환된 텍스트 데이터를 통신 단말기로 전송한다.
단계(160)에서, 어플리케이션은 서버로부터 수신된 텍스트 데이터를 인식하여 전화 발신 동작을 수행할 수 있다.
다른 실시예에 있어서, 통신 단말기는 발신자를 포함하는 전화 발신 음성이 녹음된 녹음 데이터를 서버로 전송하고, 서버로부터 수신한 텍스트 데이터에 포함된 발신자를 통신 단말기 내 연락처에서 검색하여 해당 발신자에게 전화 호가 연결되도록 할 수 있다. 또 다른 실시예에 있어서, 녹음 데이터에 발신자가 포함되지 않은 경우 서버로부터 텍스트 데이터를 수신한 어플리케이션은 통신 단말기의 디스플레이에 다이얼 창을 띄울 수 있으며, 또는 발신자를 요청하는 메시지를 출력할 수도 있다.
<문자 메시지 송신 시나리오>
통신 단말기에서 문자 메시지(SMS/MMS)를 송신하고자 할 때에 대해서 설명한다.
‘홍길동에게 밥 먹자고 문자 보내줘’라고 음성을 입력하면, 서버는 해당 음성에 대응하는 녹음 데이터를 텍스트 데이터로 변환하고, 통신 단말기는 서버로부터 텍스트 데이터를 수신하여 홍길동에게 "밥 먹자"라는 문자를 발송할 수 있다. 본 실시예에서, 사용자로부터 입력된 음성에 문자 발신자가 없거나 문자의 내용이 없는 경우, 예를 들면, 사용자로부터 ‘홍길동에게 문자 보내줘’라고 음성이 입력된 경우, 서버로부터 텍스트 데이터를 수신한 통신 단말기는 발신자를 선택해 달라는 메시지를 출력하거나, 발송할 문자를 입력하기 위한 윈도우를 디스플레이하도록 동작할 수 있다.
<전화 수신 시나리오>
도 2는 본 발명의 일실시예에 있어서, 전화 수신을 위한 어플리케이션과 서버 간의 연동을 이용한 음성 서비스 제공 방법에 대해 설명하기 위한 흐름도이다.
이하의 설명은 통신 단말기로 호(Call)가 수신되었을 때에 수행되는 본 발명의 실시예에 대한 것이다. 통신 단말기에 호 수신이 감지되는 경우, 통신 단말기는 백그라운드로 동작하거나, 실행되고 있지 않던 상태의 어플리케이션을 웨이크 업 시킬 수 있다. 웨이크 업된 어플리케이션을 통해 음성 서비스가 제공될 수 있다.
단계(210)에서는 통신 단말기에서 호 수신이 감지되는 경우, 호의 연결 여부에 관하여 통신 단말기의 사용자에게 문의하는 음성 데이터를 스피커를 통해 출력할 수 있다. 수신된 호를 연결할 것인지에 대해서 사용자의 의견을 묻기 위한 것이다.
실시예에 있어서, 통신 단말기에서 호 수신이 감지되는 경우, 호의 발신 번호에 대응하는 발신자의 명칭을 통신 단말기에 저장된 연락처 정보로부터 검색하고, 검색된 발신자의 명칭의 제1 음성 데이터와 미리 정해진 호 수신 음성 데이터가 결합된 제2 음성 데이터를 출력할 수 있다. 예컨대, 발신자의 명칭이 ‘홍길동’인 경우, ‘홍길동’에 해당하는 음성 데이터와 ‘~에게 전화가 왔습니다. 연결할까요?’ 등의 안내 메시지에 해당하는 음성 데이터를 함께 출력하여 사용자에게 호 수신을 알릴 수 있다.
실시예에 따라서는, 통신 단말기는 발신자의 텍스트 명칭을 음성 데이터로 변환하기 위해 TTS(Text to Speech) 기능을 구비할 수 있고, 실시예에 따라 통신 단말기와 유무선으로 연결되는 서버에 TTS 기능이 구비되어 통신 단말기에서 전송된 텍스트 데이터를 음성 데이터로 변환할 수 있다.
서버를 통해 텍스트 데이터를 음성 데이터로 생성하기 위해, 호 수신이 감지되면 통신 단말기는 호의 발신 번호(Caller ID 등) 및 통신 단말기에 저장된 연락처 정보 또는 통화 기록 정보를 서버로 전송할 수 있다. 서버는 통신 단말기로부터 전송된 발신 번호 및 연락처 정보 또는 통화 기록 정보를 참조하여, 호 수신 음성 데이터를 생성할 수 있다. 예를 들어, 전화번호가 010-111-1111인 홍길동으로부터 호가 수신된 경우, 통신 단말기는 전화번호 및 통신 단말기에 저장된 연락처 정보 또는 통화 기록 정보를 서버로 전송한다. 서버는 해당 전화번호 및 연락처 정보를 참조하여 홍길동으로부터 수신된 호임을 확인하고, "홍길동 님으로부터 전화가 왔습니다. 받으시겠습니까?" 등의 음성 데이터를 생성하여 생성된 음성 데이터를 통신 단말기로 전송한다.
이후 통신 단말기는 사용자로부터 상기 음성 데이터에 대한 확인 입력을 대기한다. 여기서 확인 입력은 호 연결 요청에 대한 긍정 또는 부정에 대한 응답이 될 수 있다.
단계(220)에서, 사용자로부터 확인 입력이 음성으로 수신되면, 해당 음성을 녹음하여 녹음 데이터를 생성할 수 있다.
단계(230)에서, 통신 단말기는 생성된 녹음 데이터를 서버로 전송한다. 단계(240)에서, 서버는 녹음 데이터로부터 텍스트 데이터를 생성할 수 있다. 서버는 STT(Speech to text) 기술을 이용하여 녹음 데이터를 텍스트 데이터로 변환할 수 있다. 텍스트 데이터를 생성할 때에, 서버는 녹음 데이터의 음성 데이터를 분석하여 텍스트 데이터로 변환할 수 있고, 녹음 데이터에 포함된 사용자 음성 데이터로부터 특징을 추출하여 추출된 특징에 대해서 로그 값으로 저장함으로써 이후 전송되는 녹음 데이터에 대한 사용자 음성 데이터 인식 시 참조 값으로 사용할 수 있다. 서버는 텍스트 데이터로 변환된 녹음 데이터를 삭제할 수 있다.
단계(250)에서, 서버는 생성된 텍스트 데이터를 통신 단말기로 전송할 수 있다. 이에 통신 단말기의 어플리케이션은 녹음 데이터에 대한 결과 값으로서 서버로부터 전송된 텍스트 데이터를 수신할 수 있다. 여기서, 텍스트 데이터는 호 연결 긍정을 의미하는 ‘네’, ‘예’, ‘응’, ‘그래’ 등의 텍스트가 포함되거나 호 연결 부정을 의미하는 ‘아니’, ‘싫어’, ‘안돼’ 등의 텍스트가 포함될 수 있다.
단계(260)에서, 통신 단말기의 어플리케이션은 상기 호 연결 긍정 및 호 연결 부정에 관한 텍스트 데이터를 인식하여 호 연결 요청을 수락하거나 거부할 수 있다. 실시예에 있어서, 어플리케이션에는 호 연결 긍정 및 부정에 대한 텍스트 데이터 각각에 대응하는 동작이 미리 지정되어 있을 수 있다. 따라서, 호 연결 긍정의 경우 수신된 전화를 연결하고, 호 연결 부정의 경우 호를 끊거나 호를 연결하지 않은 상태로 그대로 유지할 수 있다.
<문자 메시지 수신 시나리오>
도 3은 본 발명의 일실시예에 따른 문자 메시지 수신을 위한 어플리케이션과 서버 간의 연동을 이용한 음성 서비스 제공 방법에 대해 설명하기 위한 흐름도이다. 통신 단말기로 문자 메시지가 수신되면 이하에 설명하는 실시예의 단계들이 수행될 수 있다.
위에서 설명한 전화를 수신하는 실시예와 유사하게, 단계(310)에서 통신 단말기는 문자 메시지의 수신에 기초하여 어플리케이션을 웨이크 업시킨다.
통신 단말기는 문자 메시지의 발신 번호(Caller ID 등) 및 통신 단말기에 저장된 연락처 정보 또는 통화 기록 정보를 서버로 전송할 수 있다. 서버는 통신 단말기로부터 전송된 발신 번호 및 연락처 정보 또는 통화 기록 정보를 참조하여, 문자 메시지 수신 음성 데이터를 생성할 수 있다. 예를 들어, 전화번호가 010-111-1111인 홍길동으로부터 문자 메시지가 수신된 경우, 통신 단말기는 상기 전화번호 및 통신 단말기에 저장된 연락처 정보 또는 통화 기록 정보를 서버로 전송한다. 서버는 상기 전화번호 및 연락처 정보를 참조하여 홍길동으로부터 수신된 문자 메시지임을 확인하고, "홍길동 님으로부터 문자 메시지가 왔습니다. 읽을까요?" 등의 음성 데이터를 생성하여 생성된 음성 데이터를 통신 단말기로 전송한다.
이후 통신 단말기는 사용자로부터 상기 음성 데이터에 대한 확인 입력을 대기한다. 여기서 확인 입력은 문자 메시지 열람 요청에 대한 긍정 또는 부정에 대한 응답이 될 수 있다.
단계(320)에서, 사용자로부터 확인 입력이 음성으로 수신되면, 해당 음성을 녹음하여 녹음 데이터를 생성할 수 있다.
단계(330)에서, 통신 단말기는 생성된 녹음 데이터를 서버로 전송한다.
단계(340)에서, 서버는 녹음 데이터로부터 텍스트 데이터를 생성할 수 있다. 서버는 STT(Speech to text) 기술을 이용하여 녹음 데이터를 텍스트 데이터로 변환할 수 있다. 텍스트 데이터를 생성할 때에, 서버는 녹음 데이터의 음성 데이터를 분석하여 텍스트 데이터로 변환할 수 있고, 녹음 데이터에 포함된 사용자 음성 데이터로부터 특징을 추출하여 추출된 특징에 대해서 로그 값으로 저장함으로써 이후 전송되는 녹음 데이터에 대한 사용자 음성 데이터 인식 시 참조 값으로 사용할 수 있다. 서버는 텍스트 데이터로 변환된 녹음 데이터를 삭제할 수 있다.
단계(350)에서, 서버는 생성된 텍스트 데이터를 통신 단말기로 전송할 수 있다. 이에 통신 단말기의 어플리케이션은 녹음 데이터에 대한 결과 값으로서 서버로부터 전송된 텍스트 데이터를 수신할 수 있다. 여기서, 텍스트 데이터는 문자 메시지 읽기에 대한 긍정을 의미하는 ‘네’, ‘예’, ‘응’, ‘그래’ 등의 텍스트가 포함되거나 문자 메시지 읽기에 대한 부정을 의미하는 ‘아니’, ‘싫어’, ‘안돼’ 등의 텍스트가 포함될 수 있다.
단계(360)에서, 통신 단말기의 어플리케이션은 상기 문자 메시지 읽기 긍정 및 부정에 관한 텍스트 데이터를 인식하여 텍스트 데이터가 문자 메시지 읽기 긍정에 대응하는지 문자 메시지 읽기 부정에 대응하는지에 따라 통신 단말기를 동작시킬 수 있다.
만약, 서버로부터 수신된 텍스트 데이터가 문자 메시지 읽기 부정에 대응하는 경우, 통신 단말기는 아무 동작도 수행하지 않고 다시 대기 상태로 돌아가 다른 문자 메시지 수신을 대기할 수 있다. 반면, 문자 메시지 읽기 긍정에 대응하는 경우, 수신된 문자 메시지의 텍스트를 음성으로 사용자에게 출력될 수 있도록 아래의 단계(370) 내지 단계(390)가 수행될 수 있다.
단계(370)에서, 통신 단말기는 수신된 문자 메시지의 텍스트 데이터를 서버로 전송할 수 있다.
단계(380)에서, 서버는 문자 메시지의 텍스트 데이터로부터 음성 데이터를 생성할 수 있다. 서버는 STT 기능을 통해 문자 메시지의 텍스트 데이터를 음성 데이터로 변환할 수 있으며, 서버는 생성된 음성 데이터를 다시 통신 단말기로 전송할 수 있다. 실시예에 따르면, 상기 STT 기능을 수행하는 서버는 TTS 기능을 수행하는 서버와 물리적으로 별개의 서버로 구현될 수 있고, 물리적으로 하나의 서버로 구현될 수 있다.
단계(390)에서, 어플리케이션은 서버로부터 수신된 음성 데이터를 통신 단말기의 스피커로 출력되도록 한다. 통신 단말기가 수신된 문자 메시지를 음성 데이터를 출력함으로써, 운전 중이거나 운동 중과 같이 통신 단말기를 조작하기 어려운 상황에서도 사용자는 수신된 문자 메시지를 쉽게 확인할 수 있다.
<3 rd party 인스턴트 메시징 어플리케이션의 IM 메시지 시나리오>
다른 실시예에 따르면, 통신 단말기에 설치되어 있는 제3자 제작 인스턴트 메시징 어플리케이션을 통해 수신되는 IM(Instant Messaging) 메시지에 대해서도 도 3에서 설명한 단계가 수행될 수 있다. 일례로, 인스턴트 메시징 어플리케이션이 카카오톡 등의 제3자 어플리케이션인 경우, 인스턴트 메시징 어플리케이션의 설정에서 IM 메시지의 도착 알림 및 미리 보기 설정이 On으로 된 경우에 본 실시예가 적용될 수 있다. 일례로, 통신 단말기에 설치된 인스턴트 메시징 어플리케이션에 대해 사용자가 IM 메시지 도착 알림 및 미리 보기 설정을 On으로 해 둔 경우, 인스턴트 메시징 어플리케이션을 통해 수신된 IM 메시지는 통신 단말기의 대기 화면 등에 팝업 윈도우 형태로 출력될 수 있다. 통신 단말기의 어플리케이션은, 팝업 윈도우 형태로 출력된 IM 메시지에서 텍스트를 파싱하고, 파싱된 텍스트와 메시지 발신자에 대한 정보를 서버로 전송할 수 있다. 이후 단계는 도 3을 참조하여 설명한 문자 메시지 수신 구성과 대동소이하므로 상세한 설명은 생략한다.
도 4는 본 발명의 일실시예에 있어서, 통신 단말기 내 인스턴트 메시징 어플리케이션을 통한 IM 메시지 수신과 관련하여 제공되는 실시예를 설명하기 위한 도면이다.
화면(401)에서, 어플리케이션이 인스턴트 메시징 어플리케이션을 통해 수신되는 IM 메시지(410)가 팝업, 또는 푸시 알림 되는 경우, IM 메시지의 발신자를 인스턴트 메시징 어플리케이션을 통해 검색할 수 있다. 도 3을 참조하여 설명한 실시예와 동일하게, IM 메시지에 포함된 텍스트 데이터에 대응하는 음성 데이터(420)가 통신 단말기의 출력 수단을 통해 출력될 수 있다. 도 4에 도시된 음성 데이터(420)는 음성 출력과 함께 화면에 노출될 수도 있다.
이에, 사용자가 메시지 읽기 긍정에 대한 음성을 통신 단말기로 입력하면, 화면(402)과 같이, 화면(401)에 도착한 메시지를 음성 데이터로 출력할 수 있다. 만약 이때, 통신 단말기의 인스턴트 메시징 어플리케이션에서 동일한 발신자로부터 또 다른 메시지를 팝업, 또는 푸시 알림으로 수신한 경우, 앞서 설명한 바와 같이, 다시 메시지 읽기 여부를 확인하지 않고 화면(403)과 같이 음성 데이터로 바로 출력할 수 있다. 이후, 화면(404)과 같이, 다른 발신자로부터 메시지가 수신된 경우, 화면(401)과 같이, 메시지 읽기 여부에 대해서 확인하기 위해 음성을 출력할 수 있다.
도 4를 참조하여 설명한 실시예는, 인스턴트 메시징 어플리케이션에 한정되지 않으며, 통신 단말기의 문자(SMS/MMS) 수신에 대해서 동일하게 적용될 수 있다. 또한, 위에서 설명한 실시예의 구현을 위하여 어플리케이션에서 어느 IM 또는 문자 메시지까지 음성 데이터로 출력했는지에 대해서 히스토리를 기록하고, 미처 음성 데이터로 출력되지 않은, 읽지 않은 IM 또는 문자 메시지를 음성 데이터로 출력하도록 서버와 연동할 수 있다.
<스피커 출력의 적응적 조절 시나리오>
실시예에 따른 음성 데이터를 통신 단말기의 스피커 등의 출력 수단을 통해 출력할 때에, 스피커의 출력 볼륨의 레벨이 자동으로 조절될 수 있다. 실시예에서, 통신 단말기의 마이크를 통해 입력되는 주변 소음 크기를 측정하고, 측정된 주변 소음 크기에 따라서 통신 단말기의 스피커의 볼륨을 적응적으로 조절할 수 있다.
이때, 어플리케이션은 주변 소음 크기와 통신 단말기의 스피커의 볼륨 크기의 수치를 비교할 수 있고, 비교 결과 주변 소음 크기가 스피커의 설정된 볼륨 크기보다 더 큰 경우, 통신 단말기의 스피커 볼륨 크기를 주변 소음 크기보다 높도록 조절할 수 있다. 반대로, 비교 결과, 주변 소음 크기가 스피커의 볼륨 크기 보다 더 작은 경우, 통신 단말기의 스피커 볼륨의 크기를 낮출 수 있다.
일측에 따르면, 주변 소음 크기가 미리 정해진 스피커 볼륨의 한계치보다 큰 경우, 통신 단말기에 설치된 어플리케이션은 음성 데이터의 출력을 하지 않을 수도 있다.
< 어플리케이션 종료 시나리오>
본 발명의 실시예에 있어서, 어플리케이션의 음성 서비스가 제공되고 있는 상태에서 미리 정해져 있는 종료 명령 음성을 감지하면, 어플리케이션이 자동으로 종료될 수 있다. 예컨대, ‘굿바이유와’라는 사용자의 종료 명령 음성을 감지하면, 어플리케이션이 종료되고, 음성 서비스 또한 종료될 수 있다.
상술한 본 발명의 실시예는 음성 인식 서비스를 제공하는데 있어서, 보다 안정화된 서비스를 제공하기 위해 통신 단말기 내 어플리케이션과 음성인식 서버 간의 최적화된 연동을 통하여 음성 인식 서비스를 제공할 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (26)

  1. 음성 서비스 제공 방법에 있어서,
    통신 단말기에서 상기 통신 단말기에 설치된 제3자(3rd party) 인스턴트 메시징 어플리케이션의 도착 알림을 통하여 상기 제3자 인스턴트 메시징 어플리케이션에서의 IM(Instant Messaging) 메시지의 수신을 감지하는 단계;
    상기 제3자 인스턴트 메시징 어플리케이션에서의 상기 IM 메시지의 수신이 감지되는 경우, 상기 IM 메시지의 팝업 윈도우의 텍스트를 파싱(Parsing)하는 단계-상기 IM 메시지의 팝업 윈도우는 상기 제3자 인스턴트 메시징 어플리케이션의 미리 보기 설정이 ON인 경우 출력됨-;
    상기 IM 메시지의 읽기 여부에 관하여 상기 통신 단말기의 사용자에게 문의하는 음성 데이터를 출력하는 단계;
    상기 통신 단말기에 설치된 어플리케이션에서 사용자로부터 수신한 음성을 녹음하여 녹음 데이터를 생성하는 단계;
    상기 녹음 데이터를 서버로 전송하는 단계;
    상기 서버로부터 상기 녹음 데이터에 대한 결과 값을 수신하는 단계; 및
    상기 결과 값에 따라 상기 통신 단말기를 동작시키는 단계
    를 포함하고,
    상기 팝업 윈도우의 텍스트를 파싱하는 단계는
    상기 팝업 윈도우에 출력된 정보 중 텍스트 형태의 발신자 정보 및 텍스트 형태의 메시지 내용 정보를 구분하여 추출하는 단계
    를 포함하는 음성 서비스 제공 방법.
  2. 제1항에 있어서,
    상기 어플리케이션을 슬립 모드로 설정하는 단계; 및
    상기 통신 단말기에 수신되는 음성이 미리 정해진 시작 명령 음성인 경우, 상기 어플리케이션을 웨이크 업 하는 단계
    를 포함하는 음성 서비스 제공 방법.
  3. 제1항에 있어서,
    상기 결과 값에 따라 상기 통신 단말기를 동작시키는 단계는,
    상기 결과 값이 전화 걸기 동작에 대응하는 경우 전화 걸기 동작을 수행하는 단계; 및
    상기 결과 값이 메시지 발송 동작에 대응하는 경우 메시지 발송 동작을 수행하는 단계
    를 포함하는 음성 서비스 제공 방법.
  4. 제1항에 있어서,
    상기 녹음 데이터를 서버로 전송하는 단계는,
    상기 통신 단말기에 저장된 연락처 정보 또는 통화 기록 정보를 상기 녹음 데이터와 함께 서버로 전송하는 단계
    를 포함하는 음성 서비스 제공 방법.
  5. 제4항에 있어서,
    상기 결과 값에 따라 상기 통신 단말기를 동작시키는 단계는,
    상기 결과 값으로 상기 연락처 정보에서 명칭이 동일한 둘 이상의 대상이 검색된 경우, 상기 통화 기록 정보에 가장 최근에 기록된 순서로 상기 통신 단말기의 화면에 리스트 업 하는 단계
    를 포함하는 음성 서비스 제공 방법.
  6. 제4항에 있어서,
    상기 결과 값에 따라 상기 통신 단말기를 동작시키는 단계는,
    상기 결과 값으로 상기 연락처 정보에서 상기 사용자로부터 수신된 음성과 유사한 음성을 가지는 둘 이상의 대상이 검색된 경우, 상기 유사한 음성을 가지는 대상을 모두 상기 통신 단말기의 화면에 리스트 업 하는 단계
    를 포함하는 음성 서비스 제공 방법.
  7. 제4항에 있어서,
    상기 결과 값에 따라 상기 통신 단말기를 동작시키는 단계는,
    상기 결과 값으로 상기 연락처 정보에서 대상의 연락처가 둘 이상이 검색되는 경우, 상기 대상의 연락처 중 대표 번호를 우선하여 소팅(Sorting) 하는 단계
    를 포함하는 음성 서비스 제공 방법.
  8. 제1항에 있어서,
    상기 통신 단말기에서 호(call) 수신이 감지되는 경우, 상기 호의 연결 여부에 관하여 상기 통신 단말기의 사용자에게 문의하는 음성 데이터를 출력하는 단계
    를 더 포함하고,
    상기 사용자로부터 수신한 음성을 녹음하여 녹음 데이터를 생성하는 단계는,
    상기 사용자로부터의 상기 문의에 대한 응답으로 수신한 음성을 녹음하여 상기 녹음 데이터를 생성하는 단계
    를 포함하는 음성 서비스 제공 방법.
  9. 제8항에 있어서,
    상기 통신 단말기의 사용자에게 문의하는 상기 음성 데이터를 출력하는 단계는,
    상기 통신 단말기에서 호(call) 수신이 감지되는 경우, 상기 통신 단말기에 저장된 연락처 정보 또는 통화 기록 정보를 상기 서버로 전송하는 단계;
    상기 서버로부터 상기 연락처 정보 또는 상기 통화 기록 정보에서 상기 호의 발신 번호에 대응하는 상대방의 명칭과 연관된 음성 데이터와 미리 정해진 호 수신 음성 데이터가 결합된 안내 음성 데이터를 수신하는 단계; 및
    상기 안내 음성 데이터를 출력하는 단계
    를 포함하는 음성 서비스 제공 방법.
  10. 제8항에 있어서,
    상기 통신 단말기의 사용자에게 문의하는 상기 음성 데이터를 출력하는 단계는,
    상기 통신 단말기에서 호(call) 수신이 감지되는 경우, 상기 호의 발신 번호에 대응하는 상대방의 명칭을 상기 통신 단말기에 저장된 연락처 정보로부터 검색하는 단계; 및
    상기 검색된 상대방의 명칭에 대응하는 음성 데이터와 미리 정해진 호 수신 음성 데이터가 결합된 안내 음성 데이터를 출력하는 단계
    를 포함하는 음성 서비스 제공 방법.
  11. 제8항에 있어서,
    상기 결과 값에 따라 상기 통신 단말기를 동작시키는 단계는,
    상기 결과 값이 호 연결 긍정에 대응하는 경우 호 연결 동작을 수행하는 단계
    를 포함하는 음성 서비스 제공 방법.
  12. 제1항에 있어서,
    상기 통신 단말기에서 문자 메시지 수신이 감지되는 경우, 문자 메시지 읽기 여부에 관하여 상기 통신 단말기의 사용자에게 문의하는 음성 데이터를 출력하는 단계
    를 더 포함하고,
    상기 녹음 데이터를 생성하는 단계는,
    상기 사용자로부터의 상기 문의에 대한 응답으로 수신한 음성을 녹음하여 상기 녹음 데이터를 생성하는 단계
    를 더 포함하는 음성 서비스 제공 방법.
  13. 제12항에 있어서,
    상기 문자 메시지 읽기 여부에 관하여 상기 통신 단말기의 사용자에게 문의하는 음성 데이터를 출력하는 단계는,
    상기 통신 단말기에서 문자 메시지 수신이 감지되는 경우, 상기 통신 단말기에 저장된 연락처 정보 또는 통화 기록 정보를 상기 서버로 전송하는 단계;
    상기 서버로부터 상기 연락처 정보 또는 상기 통화 기록 정보에서 상기 메시지의 발신 번호에 대응하는 상대방의 명칭과 연관된 음성 데이터와 미리 정해진 호 수신 음성 데이터가 결합된 안내 음성 데이터를 수신하는 단계; 및
    상기 안내 음성 데이터를 출력하는 단계
    를 포함하는 음성 서비스 제공 방법.
  14. 제12항에 있어서,
    상기 결과 값에 따라 상기 통신 단말기를 동작시키는 단계는,
    상기 결과 값이 메시지 읽기 긍정에 대응하는 경우 메시지 읽기 동작을 수행하는 단계
    를 포함하는 음성 서비스 제공 방법.
  15. 제14항에 있어서,
    상기 결과 값이 문자 메시지 읽기 긍정에 대응하는 경우 메시지 읽기 동작을 수행하는 단계는,
    상기 문자 메시지의 텍스트 데이터를 상기 서버로 전송하는 단계;
    상기 서버로부터 상기 텍스트 데이터와 연관된 음성 데이터를 수신하는 단계; 및
    상기 수신한 음성 데이터를 상기 통신 단말기로 출력하는 단계
    를 포함하는 음성 서비스 제공 방법.
  16. 제1항에 있어서,
    상기 녹음 데이터를 생성하는 단계는,
    상기 사용자로부터의 상기 문의에 대한 응답으로 수신한 음성을 녹음하여 상기 녹음 데이터를 생성하는 단계
    를 더 포함하는 음성 서비스 제공 방법.
  17. 제16항에 있어서,
    상기 IM 메시지 읽기 여부에 관하여 상기 통신 단말기의 상기 사용자에게 문의하는 상기 음성 데이터를 출력하는 단계는,
    상기 통신 단말기에서 상기 IM 메시지 수신이 감지되는 경우, 상기 통신 단말기에 저장된 연락처 정보를 상기 서버로 전송하는 단계;
    상기 서버로부터 상기 연락처 정보에서 상기 메시지의 발신 번호에 대응하는 상대방의 명칭과 연관된 음성 데이터와 미리 정해진 호 수신 음성 데이터가 결합된 안내 음성 데이터를 수신하는 단계; 및
    상기 안내 음성 데이터를 출력하는 단계
    를 포함하는 음성 서비스 제공 방법.
  18. 제16항에 있어서,
    상기 결과 값에 따라 상기 통신 단말기를 동작시키는 단계는,
    상기 결과 값이 IM 메시지 읽기 긍정에 대응하는 경우 IM 메시지 읽기 동작을 수행하는 단계
    를 포함하는 음성 서비스 제공 방법.
  19. 제18항에 있어서,
    상기 결과 값이 IM 메시지 읽기 긍정에 대응하는 경우 IM 메시지 읽기 동작을 수행하는 단계는,
    상기 통신 단말기에 표시된 상기 IM 메시지의 텍스트 데이터를 상기 서버로 전송하는 단계;
    상기 서버로부터 상기 텍스트 데이터와 연관된 음성 데이터를 수신하는 단계; 및
    상기 음성 데이터를 상기 통신 단말기로 출력하는 단계
    를 포함하는 음성 서비스 제공 방법.
  20. 제19항에 있어서,
    상기 결과 값이 IM 메시지 읽기 긍정에 대응하는 경우 IM 메시지 읽기 동작을 수행하는 단계는,
    상기 IM 메시지를 송신한 발신자와 동일한 발신자로부터 수신한 다음 IM 메시지가 있는지 판단하는 단계;
    상기 다음 IM 메시지가 있는 경우, 상기 다음 IM 메시지의 읽기 여부에 관하여 상기 통신 단말기의 사용자에게 문의하는 동작을 수행하지 않고, 상기 다음 IM 메시지의 텍스트 데이터를 상기 서버로 전송하는 단계;
    상기 서버로부터 상기 텍스트 데이터와 연관된 음성 데이터를 수신하는 단계; 및
    상기 음성 데이터를 상기 통신 단말기로 출력하는 단계
    를 더 포함하는 음성 서비스 제공 방법.
  21. 제1항에 있어서,
    상기 결과 값에 따라 상기 통신 단말기를 동작시키는 단계는,
    상기 통신 단말기의 주변 소음 크기를 측정하는 단계;
    상기 주변 소음 크기 및 상기 통신 단말기의 스피커 볼륨 크기를 비교하는 단계; 및
    상기 스피커 볼륨 크기를 상기 주변 소음 크기보다 일정 수준 높은 크기로 조절하는 단계
    를 포함하는 음성 서비스 제공 방법.
  22. 제1항에 있어서,
    상기 결과 값에 따라 상기 통신 단말기를 동작시키는 단계는,
    상기 서버로부터 수신된 상기 결과 값으로 상기 사용자로부터 수신한 음성에 대한 텍스트 데이터의 길이를 측정하는 단계; 및
    상기 텍스트 데이터를 상기 통신 단말기의 화면에 디스플레이 하되, 상기 화면 상에서 텍스트 데이터를 구별되도록 표시하는 창의 크기를 상기 텍스트 데이터의 길이에 따라 적응적으로 조절하는 단계
    를 포함하는 음성 서비스 제공 방법.
  23. 제1항에 있어서,
    상기 결과 값에 따라 상기 통신 단말기를 동작시키는 단계는,
    상기 결과 값으로 통신 단말기가 사용자로부터 부재중 전화를 확인하라는 음성이 수신된 경우, 부재중 전화 목록에 대해서 음성 안내하고, 상기 부재중 전화 목록을 리스트 업 하는 단계
    를 포함하는 음성 서비스 제공 방법.
  24. 제1항에 있어서,
    상기 통신 단말기에 수신되는 음성이 미리 정해진 종료 명령 음성인 경우, 상기 어플리케이션을 종료시키는 단계
    를 더 포함하는 음성 서비스 제공 방법.
  25. 제1항에 있어서,
    상기 서버는,
    상기 통신 단말기로부터 수신된 상기 녹음 데이터를 분석하여 상기 녹음된 음성에 대응하는 텍스트 데이터를 생성하고,
    상기 녹음 데이터로부터 특징 값을 추출하여 로그로 저장하고 상기 녹음 데이터를 삭제하는,
    음성 서비스 제공 방법.
  26. 제1항에 있어서,
    상기 서버는,
    상기 통신 단말기로부터 호 수신, 문자 수신 및 인스턴트 메시징 어플리케이션의 메시지 수신 중 하나에 대한 발신자의 발신 번호와, 상기 통신 단말기에 저장된 연락처 정보 또는 통화 기록 정보를 수신하고
    상기 발신 번호에 대응하는 발신자의 명칭을 상기 통신 단말기에 저장된 연락처 정보 또는 통화 기록 정보에서 검색하여 상기 통신 단말기로 전송하는,
    음성 서비스 제공 방법.
KR1020140025414A 2014-03-04 2014-03-04 어플리케이션과 서버 간의 연동을 이용한 음성 서비스 제공 방법 및 그 시스템 KR101643808B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140025414A KR101643808B1 (ko) 2014-03-04 2014-03-04 어플리케이션과 서버 간의 연동을 이용한 음성 서비스 제공 방법 및 그 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140025414A KR101643808B1 (ko) 2014-03-04 2014-03-04 어플리케이션과 서버 간의 연동을 이용한 음성 서비스 제공 방법 및 그 시스템

Publications (2)

Publication Number Publication Date
KR20150103855A KR20150103855A (ko) 2015-09-14
KR101643808B1 true KR101643808B1 (ko) 2016-07-29

Family

ID=54243862

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140025414A KR101643808B1 (ko) 2014-03-04 2014-03-04 어플리케이션과 서버 간의 연동을 이용한 음성 서비스 제공 방법 및 그 시스템

Country Status (1)

Country Link
KR (1) KR101643808B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019112181A1 (ko) * 2017-12-08 2019-06-13 삼성전자 주식회사 오디오 데이터에 포함된 음소 정보를 이용하여 어플리케이션을 실행하기 위한 전자 장치 및 그의 동작 방법

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021006386A1 (ko) * 2019-07-10 2021-01-14 엘지전자 주식회사 차량 제어 방법 및 차량을 제어하는 지능형 컴퓨팅 디바이스
KR102280690B1 (ko) 2019-08-15 2021-07-22 엘지전자 주식회사 지능적 음성 출력 방법, 음성 출력 장치 및 지능형 컴퓨팅 디바이스
KR20220037299A (ko) 2020-09-17 2022-03-24 삼성전자주식회사 전자 장치 및 그 제어 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101212126B1 (ko) * 2012-07-09 2012-12-14 다이알로이드(주) 음성인식 서버, 음성인식 클라이언트 및 그 음성인식 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100977742B1 (ko) * 2003-06-24 2010-08-24 삼성전자주식회사 이동통신단말기의 이브이디오 통화 중 음성 호 처리에 관한 동작 제어 방법
KR101450188B1 (ko) * 2006-08-09 2014-10-14 삼성전자주식회사 휴대용 단말기의 음성 제어 장치 및 방법
KR101951417B1 (ko) * 2012-03-09 2019-02-22 엘지전자 주식회사 휴대 전자기기 및 이의 제어 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101212126B1 (ko) * 2012-07-09 2012-12-14 다이알로이드(주) 음성인식 서버, 음성인식 클라이언트 및 그 음성인식 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019112181A1 (ko) * 2017-12-08 2019-06-13 삼성전자 주식회사 오디오 데이터에 포함된 음소 정보를 이용하여 어플리케이션을 실행하기 위한 전자 장치 및 그의 동작 방법
US11495223B2 (en) 2017-12-08 2022-11-08 Samsung Electronics Co., Ltd. Electronic device for executing application by using phoneme information included in audio data and operation method therefor

Also Published As

Publication number Publication date
KR20150103855A (ko) 2015-09-14

Similar Documents

Publication Publication Date Title
US10080111B2 (en) Techniques for communication using audio stickers
US9799080B2 (en) Method and apparatus for providing a contact address
CN117271010A (zh) 提供具有可选择的可遍历的状态机的个人辅助模块
US9936070B2 (en) User device detection and integration for an IVR system
US9661133B2 (en) Electronic device and method for extracting incoming/outgoing information and managing contacts
US20180103376A1 (en) Device and method for authenticating a user of a voice user interface and selectively managing incoming communications
KR20130132765A (ko) 상태-종속 쿼리 응답
KR101944416B1 (ko) 영상 통화 분석 서비스를 제공하기 위한 방법 및 그 전자 장치
US20170064084A1 (en) Method and Apparatus for Implementing Voice Mailbox
US8331268B2 (en) Methods, systems, and computer-readable media for providing an event alert
KR101643808B1 (ko) 어플리케이션과 서버 간의 연동을 이용한 음성 서비스 제공 방법 및 그 시스템
KR101584887B1 (ko) 통신 단말기에서 음성 인식 서비스의 멀티태스킹을 지원하는 방법 및 시스템
KR102217301B1 (ko) 개인 일정 및 라이프 스타일을 반영한 인공지능의 컨텍 제어
TW202022849A (zh) 語音資料的識別方法、裝置及系統
CN103973542B (zh) 一种语音信息处理方法及装置
US8868419B2 (en) Generalizing text content summary from speech content
JP2023093714A (ja) コンタクト制御プログラム、端末およびコンタクト制御方法
CN107026929A (zh) 应用通知的提示方法、装置及电子设备
KR101379405B1 (ko) 키워드 음성 인식을 통해 관련 어플리케이션을 실행시키는 음성 통화 처리 방법 및 이를 실행하는 모바일 단말
EP2830264B1 (en) Electronic device and method for transmitting data by using messenger application
KR20150088532A (ko) 통화 중 서비스 제공 장치 및 이를 이용하는 방법
KR101621136B1 (ko) 조도 센서를 이용한 음성 인식 서비스 제공 방법 및 음성 인식 서비스를 제공하는 통신 단말기
WO2020051881A1 (zh) 信息提示方法及相关产品
WO2022213943A1 (zh) 消息发送方法、消息发送装置、电子设备和存储介质
CN104503736A (zh) 一种信息提示方法及装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E902 Notification of reason for refusal
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190611

Year of fee payment: 6