KR102081495B1 - 계정 추가 방법, 단말, 서버, 및 컴퓨터 저장 매체 - Google Patents

계정 추가 방법, 단말, 서버, 및 컴퓨터 저장 매체 Download PDF

Info

Publication number
KR102081495B1
KR102081495B1 KR1020177033958A KR20177033958A KR102081495B1 KR 102081495 B1 KR102081495 B1 KR 102081495B1 KR 1020177033958 A KR1020177033958 A KR 1020177033958A KR 20177033958 A KR20177033958 A KR 20177033958A KR 102081495 B1 KR102081495 B1 KR 102081495B1
Authority
KR
South Korea
Prior art keywords
account
information
character string
voiceprint information
voiceprint
Prior art date
Application number
KR1020177033958A
Other languages
English (en)
Other versions
KR20170139650A (ko
Inventor
둥청 쉬
Original Assignee
텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 filed Critical 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Publication of KR20170139650A publication Critical patent/KR20170139650A/ko
Application granted granted Critical
Publication of KR102081495B1 publication Critical patent/KR102081495B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4594Address books, i.e. directories containing contact information about correspondents
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/52User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/3226Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using a predetermined code, e.g. password, passphrase or PIN
    • H04L9/3231Biological data, e.g. fingerprint, voice or retina
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/20Services signaling; Auxiliary data signalling, i.e. transmitting data via a non-traffic channel
    • H04W4/21Services signaling; Auxiliary data signalling, i.e. transmitting data via a non-traffic channel for social networking applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/04Real-time or near real-time messaging, e.g. instant messaging [IM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Telephone Function (AREA)

Abstract

계정 추가 방법, 단말, 서버, 및 컴퓨터 저장 매체가 개시된다. 방법은 단말이 보이스 정보를 수집하는 단계(101); 보이스 정보를 파싱하여, 문자 스트링 정보 및 성문 정보를 추출하는 단계(102); 문자 스트링 정보 및 성문 정보를 서버에 송신하는 단계(103); 서버에 의해 송신되고 문자 스트링 정보 및 성문 정보에 대응하고 있는 계정을 수신하는 단계(104); 및 계정을 계정 리스트에 추가하는 단계(105)를 포함한다.

Description

계정 추가 방법, 단말, 서버, 및 컴퓨터 저장 매체
관련 출원
본 특허 출원은 Tencent Technology (Shenzhen) Company Limited에 의해 2015년 11월 17일에 출원된 발명이 "ACCOUNT ADDING METHOD, TERMINAL, AND SERVER"인 중국 특허 출원 제201510791070.8호에 대한 우선권을 주장하며, 이 중국 특허 출원은 전체적으로 참조로 포함된다.
기술분야
본 출원은 소셜 분야에서의 계정 관리 기술들에 관한 것으로, 특히 계정 추가 방법, 단말, 서버, 및 컴퓨터 저장 매체에 관한 것이다.
소셜 네트워크들의 급격한 발달에 따라, 증가하는 사용자들은 정보를 교환하기 위해 소셜 애플리케이션들(APP, application)을 자주 사용한다. 소셜 APP들이 사용되고 있을 때, 친구들은 통상 연락처 리스트에 추가될 필요가 있다. 가장 일반적이고 직접적인 친구 추가 방법은 소셜 번호를 상대방에게 문의하고 있다. 상대방이 상대방의 소셜 번호를 명시할 때, 사용자는 친구 추가 페이지 상에 많은 문자들을 입력할 필요가 있고, 때때로 입력된 문자들이 정확한지를 반복적으로 확인할 필요가 있다. 특히 상대방의 소셜 번호가 비교적 길고 복잡할 때, 나쁜 기억력을 갖는 사용자는 통상 문자를 놓치거나 문자를 잘못 입력한다.
게다가, 상이한 사람들은 상이한 스피치 속도들(speech rates)을 갖고, 일부 사람들은 비표준 억양들(non-standard intonations)로 말하거나 방언들 또는 어투들로 말한다. 이것은 사용자가 문자들을 입력하는 것을 어렵게 한다. 더욱이, 소셜 번호는 일반적으로 글자, 숫자, 및 특수 문자를 포함한다. 이동 디바이스에 대해, 그것은 통상 알파벳 키보드와 수치 기호 키보드 사이에 스위치를 필요로 하여, 친구 추가 동작을 매우 불편하게 한다.
본 출원의 실시예들은 계정 추가 방법, 단말, 서버, 및 컴퓨터 저장 매체를 제공한다.
본 출원의 일 실시예는 계정 추가 방법을 제공하며, 계정 추가 방법은,
보이스 정보를 수집하는 단계;
보이스 정보를 파싱하고, 문자 스트링 정보 및 성문 정보를 추출하는 단계;
문자 스트링 정보 및 성문 정보를 서버에 송신하는 단계;
문자 스트링 정보 및 성문 정보와 매칭하고 서버에 의해 송신되는 계정을 수신하는 단계; 및
계정을 계정 리스트에 추가하는 단계를 포함한다.
본 출원의 다른 실시예는 계정 추가 방법을 제공하며, 계정 추가 방법은,
단말에 의해 송신되는 문자 스트링 정보 및 성문 정보를 수신하는 단계;
문자 스트링 정보 및 성문 정보와 매칭하는 계정에 대해 데이터베이스를 검색하는 단계; 및
단말이 계정을 계정 리스트에 추가하도록 문자 스트링 정보 및 성문 정보와 매칭하는 계정을 단말에 송신하는 단계를 포함한다.
본 출원의 일 실시예는 단말을 제공하며, 단말은,
보이스 정보를 수집하도록 구성되는 수집 유닛;
보이스 정보를 파싱하고, 문자 스트링 정보 및 성문 정보를 추출하도록 구성되는 추출 유닛;
문자 스트링 정보 및 성문 정보를 서버에 송신하도록 구성되는 송신 유닛;
문자 스트링 정보 및 성문 정보와 매칭하고 서버에 의해 송신되는 계정을 수신하도록 구성되는 수신 유닛; 및
계정을 계정 리스트에 추가하도록 구성되는 추가 유닛을 포함한다.
본 출원의 일 실시예는 서버를 제공하며, 서버는,
단말에 의해 송신되는 문자 스트링 정보 및 성문 정보를 수신하도록 구성되는 수신 유닛;
문자 스트링 정보 및 성문 정보와 매칭하는 계정에 대해 데이터베이스를 검색하도록 구성되는 검색 유닛; 및
단말이 계정을 계정 리스트에 추가하도록 문자 스트링 정보 및 성문 정보와 매칭하는 계정을 단말에 송신하도록 구성되는 송신 유닛을 포함한다.
본 출원의 일 실시예는 컴퓨터 프로그램들을 저장하는 컴퓨터 저장 매체를 제공하며, 컴퓨터 프로그램들은 상술한 계정 추가 방법을 실행하기 위해 사용된다.
도 1은 본 출원의 실시예 1에 따른 계정 추가 방법의 개략 흐름도이다.
도 2는 본 출원의 실시예 2에 따른 계정 추가 방법의 개략 흐름도이다.
도 3은 본 출원의 실시예 3에 따른 계정 추가 방법의 개략 흐름도이다.
도 4는 본 출원의 일 실시예에 따른 계정에 대응하는 성문 정보를 결합하는 개략 흐름도이다.
도 5는 본 출원의 일 실시예에 따른 단말의 개략 구조 구성도이다.
도 6은 본 출원의 일 실시예에 따른 서버의 개략 구조 구성도이다.
본 출원의 실시예들의 특징들 및 기술적 내용의 더 좋은 이해를 위해, 이하는 첨부 도면들을 참조하여 본 출원의 실시예들을 설명한다. 첨부 도면들은 참조만을 위해 제공되고, 본 출원의 실시예들을 제한하도록 의도되지 않는다.
본 출원의 실시예들은 스피치 인식 기술에 기초하여 친구의 계정의 추가를 구현한다. 스피치 인식 기술에 기초한 제품들은 위챗에서의 스피치 입력, 스피치 투 텍스트 등을 포함한다. 스피치 인식 기술에서, 숫자들, 글자들 등은 비교적 정확히 인식될 수 있다. 스피치가 지역 방언들 또는 개인 스피치 습관들에 영향을 받을지라도, 스피치는 스피치 인식 기술을 사용함으로써 잘 인식될 수 있다. 본 출원의 실시예들에서, 스피치 인식 기술은 친구 추가 동안 복잡한 계정을 입력하는 것을 회피하기 위해 스피치로부터 개인 계정(또한 소셜 번호로 언급됨)을 추출하기 위해 사용되어, 친구를 추가하는 것을 더 편리하게 한다. 본 출원의 실시예들에서의 기술적 해결법들은 친필을 용이하게 사용하지 못하는 사람들, 예컨대 노인들, 장애인들, 및 어린이들에게 특히 적절하다.
기존 기술에서 스피치에 의해 친구를 추가하는 것과 비교하여, 본 출원의 실시예들에서, 성문 정보는 스피치로부터 더 특별히 추출된다. 계정이 스피치에 의해 인식되는 문자 스트링 정보를 사용함으로써 고유하게 결정될 수 없을 때, 성문 정보는 계정을 고유하게 결정하기 위해 사용될 수 있다. 게다가, 성문 정보는 보이스를 기록하는 사람이 계정의 소유자인지를 결정하기 위해 사용될 수 있다. 보이스를 기록하는 사람이 계정의 소유자이면, 친구 검증이 스킵될 수 있고, 상대방의 계정이 직접 추가될 수 있다.
본 출원의 실시예들의 목적은 소셜 플랫폼을 위해 새로운 계정 추가 방법을 제공하는 것이다. 상대방의 계정이 추가될 필요가 있으면, 단말은 마이크로폰을 사용함으로써, 상대방에 의해 명시되는 계정에 관한 보이스를 수집하거나 상대방에 의해 송신되는 보이스(예를 들어, 비디오 호출)를 직접 수신하고; 사용자에 의해 명시되는 문자 스트링 정보 및 사용자의 성문 정보를 보이스로부터 추출하고; 문자 스트링 정보 및 성문 정보를 서버에 업로딩할 필요만이 있다. 서버는 문자 스트링 정보 및 성문 정보에 따라 매칭된 계정을 검색하고, 계정을 단말에 피드백한다. 이러한 방식으로, 상대방의 계정은 키보드를 사용함으로써 상대방의 계정을 입력할 필요 없이 추가될 수 있다.
본 출원의 실시예들에서의 기술적 해결법들은 2개의 실행 바디들, 즉 단말 및 서버를 주로 수반한다.
단말은 주로 사용자의 계정 정보를 포함하는 보이스 정보를 수집하고; 보이스 정보를 파싱하고, 문자 스트링 정보 및 성문 정보를 추출하고; 문자 스트링 정보 및 성문 정보를 서버에 업로딩한다.
서버는 주로 문자 스트링 정보 및 성문 정보에 따라 매칭된 계정에 대해 데이터베이스를 검색하고, 계정을 단말에 피드백한다.
이하는 본 출원의 실시예들에서의 계정 추가 방법을 특정 처리 프로세스들을 참조하여 상세히 더 설명한다.
도 1은 본 출원의 실시예 1에 따른 계정 추가 방법의 개략 흐름도이다. 이러한 실시예에서의 계정 추가 방법은 단말 측에 적용된다. 도 1에 도시된 바와 같이, 계정 추가 방법은 이하의 단계들을 포함한다:
단계(101): 보이스 정보를 수집한다.
본 출원의 이러한 실시예에서, 단말은 전자 디바이스 예컨대 이동 전화, 태블릿 컴퓨터, 또는 노트북 컴퓨터일 수 있다.
본 출원의 이러한 실시예에서, 소셜 APP는 단말 상에 설치된다. APP는 계정 추가 기능을 갖는다. 특히, 이러한 실시예에서, 계정은 스피치에 의해 APP에 추가된다. 따라서, 새로운 컨트롤은 APP의 인터페이스에 설정된다. 컨트롤은 스피치에 의해 계정을 추가하는 기능을 인에이블하도록 트리거되며, 그것에 의해 보이스 정보를 수집하기 위해 단말의 보이스 수집 기능을 호출한다.
해결법에서, 컨트롤은 이하의 방식들, 즉, 탭, 더블 탭, 제스처, 및 슬라이드로 트리거될 수 있지만, 방식들은 그것에 제한되지 않는다.
본 출원의 이러한 실시예에서, 보이스 정보는 이하의 2개의 방식으로 수집된다:
방식 1: 보이스 정보는 단말의 수집 유닛에 의해 직접 수집된다. 여기서, 수집 유닛은 마이크로폰에 의해 구현될 수 있다. 실제 응용에서, 사용자가 컨트롤을 트리거하고 스피치에 의해 계정을 추가하는 기능을 인에이블할 때, 상대방은 단말의 수집 유닛(예를 들어, 마이크로폰)을 향해 상대방의 계정을 명시한다. 이러한 방식으로, 수집 유닛은 계정을 포함하는 보이스 정보를 획득할 수 있다. 여기서, 계정은 APP에 대응하는 소셜 번호, 즉, APP에서 상대방에 의해 등록되는 소셜 번호이다.
방식 2: 상대방은 상대방의 단말을 사용함으로써 상대방의 계정에 관한 보이스를 기록하고, 보이스 정보를 사용자의 단말에 송신한다. 이러한 방식으로, 사용자의 단말은 상대방에 의해 송신되는 보이스 정보를 수신한다. 이러한 방식은 보이스 호출 또는 비디오 호출 동안 사용될 수 있다. 대안적으로, 상대방은 하나의 보이스 정보를 사용자에게 직접 송신할 수 있다.
단계(102): 보이스 정보를 파싱하고, 문자 스트링 정보 및 성문 정보를 추출한다.
구체적으로, 침묵 억제는 보이스 정보에 대해 수행되고; 프레이밍 처리(framing processing)는 침묵 억제가 수행된 보이스 정보에 대해 수행되고; 사운드 특징값은 프레이밍 처리가 수행된 보이스 정보로부터 추출되며, 추출된 사운드 특징값은 성문 정보를 표현하고; 디코딩 처리는 문자 스트링 정보를 획득하기 위해 추출된 사운드 특징값에 대해 수행된다.
본 출원의 이러한 실시예에서, 보이스 정보가 압축된 포맷 예컨대 동영상 전문가 그룹 오디오 레이어-3(MP3, Moving Picture Experts Group Audio Layer III) 포맷 또는 스트리밍 미디어(WMV, Windows Media Video) 포맷이면, 압축된 포맷인 보이스 정보는 비압축된 포맷 예컨대 펄스 코드 변조(PCM, Pulse Code Modulation) 포맷 또는 웨이브(WAV, wave) 포맷인 풀 웨이브 파일로 변환될 필요가 있다. 파일 헤더 외에, WAV 파일에 저장되는 나머지 부분은 사운드 파형의 포인트 데이터이다.
본 출원의 이러한 실시예에서, 보이스 정보를 파싱하는 것은 보이스 정보를 인식하고 있다. 보이스 정보가 인식되기 전에, 보이스 정보의 시작 및 끝에서의 침묵은 후속 단계들에 관한 간섭을 감소시키기 위해 우선 제거될 필요가 있다. 침묵 제거 동작은 침묵 억제(보이스 액티비티 검출(VAD, Voice Activity Detection)로 언급되고, 신호 처리 기술이 사용될 필요가 있다.
침묵이 제거된 후에, 프레이밍이 수행될 필요가 있다. 구체적으로, 프레이밍 동작은 통상 무빙 윈도우 기능을 사용함으로써 구현된다. 프레이밍이 수행되기 전에, 일부 동작들 예컨대 프리엠퍼시스가 수행될 필요가 더 있다. 프레임 오버래핑이 존재한다. 일반적으로, 각각의 프레임은 25 ms를 포함하고, 2개의 프레임 사이의 프레임 시프트는 10 ms이다. 따라서, 2개의 프레임은 15 ms만큼 오버랩된다. 예를 들어, 0 내지 25 ms, 10 ms 내지 35 ms, 20 ms 내지 45 ms ...는 제1 프레임, 제2 프레임, 제3 프레임, ...이다.
프레이밍이 수행된 후에, 각각의 프레임 파형이 변환된다. 예를 들어, 멜 주파수 셉스트럴 계수(MFCC, mel-frequency cepstral coefficient) 특징은 각각의 프레임 파형을 12차원 벡터로 변환하기 위해 추출된다. 12 포인트들은 인간 귀들의 생리적 특성들에 따라 추출되고, 12 포인트들은 이러한 프레임에서 모든 보이스 정보를 포함한다. 이러한 프로세스는 또한 사운드 특징값 추출로 언급된다. 실제 응용에서, 사운드 특징값 추출은 많은 동작들, 예컨대 차분, 평균-분산 정규화, 가우스화, 및 차원 감소 및 리던던시 제거를 더 포함한다. 사운드 특징값은 사용자의 성문 정보이다. 사운드 특징값이 추출된 후에, 보이스 정보는 12 행들(사운드 특징값이 12 차원들을 갖는 것을 가정함) 및 N 열들을 갖는 행렬이 되고, 관찰 시퀀스로 언급된다. 여기서, N은 프레임들의 전체 양이다.
스피치 인식의 코어는 사운드 특징값에 의해 표현되는 프레임을 상태로 인식하고, 상태 인식을 음소들로 조합하고, 음소들을 단어로 조합하고 있다. 구체적으로, 수개의 프레임들은 하나의 상태에 대응하고, 모든 3개의 상태들은 하나의 음소로 조합되고, 수개의 음소들은 하나의 단어로 조합된다. 각각의 음소에 대응하는 상태는 음소가 상태에 대응하는 가장 큰 확률에 의해 결정된다. 확률은 음향 모델에 기초하여 결정된다. 음향 모델은 파라미터들을 저장하고, 각각의 상태에 대응하는 확률은 파라미터들을 사용함으로써 결정될 수 있다. 상태 네트워크는 은닉 마르코프 모델(HMM, Hidden Markov Model)을 사용함으로써 설정된다. 스피치 인식 프로세스에서, 최적 경로는 상태 네트워크에서 발견될 수 있으며, 이러한 경로의 확률은 가장 크다. 이러한 프로세스는 디코딩 처리로 언급된다. 디코딩 처리가 수행된 후에, 보이스 정보에 대응하는 문자 스트링 정보가 획득된다.
본 출원의 이러한 실시예에서, 계정은 통상 26 글자들 및 10 숫자들 중 일부만을 포함하기 때문에(그들 중 일부는 특수 문자들일 수 있음), 본 출원의 이러한 실시예에서의 스피치 인식의 적중률은 일반적 인식 예컨대 스피치 입력 또는 스피치 투 텍스트의 것보다 훨씬 더 높다. 여기서, 스트링의 중간 내의 수개의 문자들이 인식될 수 없는 것이 가능하다. 따라서, 완전한 문자 스트링 정보는 인식에 의해 획득될 수 없고, 문자 스트링들의 수개의 세그먼트들은 최종적으로 인식에 의해 획득될 수 있다. 예를 들어, "185021?1234"에 대해, 중간 내의 하나의 문자가 인식될 수 없기 때문에, 문자 스트링들의 2개의 세그먼트 "185021" 및 "1234"는 인식에 의해 획득될 수 있다.
본 출원의 이러한 실시예에서, 계정에 대한 제약 규칙이 일반적으로 APP에 설정된다. 추출된 문자 스트링 정보가 무효 문자(제약 규칙을 충족하지 않음)를 포함하면, 보이스 정보가 다시 수집된다.
단계(103): 문자 스트링 정보 및 성문 정보를 서버에 송신한다.
본 출원의 이러한 실시예에서, 보이스 정보로부터 문자 스트링 정보 및 성문 정보를 추출한 후에, 단말은 2개의 정보를 서버에 송신한다.
본 출원의 이러한 실시예에서, 단말은 문자 스트링 정보 및 성문 정보의 보안을 보장하기 위해 문자 스트링 정보 및 성문 정보를 암호화하고, 그 다음에 암호화된 문자 스트링 정보 및 성문 정보를 서버에 송신할 수 있다. 대응적으로, 정보를 수신한 후에, 서버는 문자 스트링 정보 및 성문 정보를 획득하기 위해 복호화를 수행할 필요가 있다. 여기서, 암호화 및 복호화는 이하의 알고리즘들, 즉 고급 암호화 표준(AES, Advanced Encryption Standard), 데이터 암호화 표준(DES, Data Encryption Standard), 및 공개 키 암호화 알고리즘(RSA, Ron Rivest-Adi Shamir-Leonard Adleman)을 사용함으로써 수행될 수 있지만, 알고리즘들은 그것에 제한되지 않는다.
단계(104): 문자 스트링 정보 및 성문 정보와 매칭하고 서버에 의해 송신되는 계정을 수신한다.
본 출원의 이러한 실시예에서, 단말에 의해 송신되는 문자 스트링 정보 및 성문 정보를 수신한 후에, 서버는 매칭에 의해, 문자 스트링 정보 및 성문 정보에 따라 데이터베이스로부터 최적 계정을 획득하고, 계정을 단말에 피드백한다. 서버는 우선 문자 스트링 정보에 따라 초기 계정 매칭을 수행하고, 그 다음에 성문 정보에 따라 정확한 계정 매칭을 수행한다.
여기서, 성문(Voiceprint)은 스피치 정보를 반송하고 전기 음향 기구 상에 디스플레이되는 사운드 웨이브 스펙트럼이다. 사람들은 상이한 생리적 특성들 예컨대 혀, 후두강, 및 비강을 갖고, 사람들의 사운드 웨이브들은 상이하다. 일반적으로, 어떠한 많은 변경이 없고, 특정 유사성은 발병 또는 수술 시에도 여전히 존재한다. 다수의 계정들이 문자 스트링 정보(다수의 필드들을 포함할 수 있음)를 사용함으로써 매칭에 의해 획득될 때, 매칭된 계정들이 성문 정보에 결합되면, 유사성 비교는 각각의 계정에 대응하는 성문 정보 및 보이스 정보로부터 추출되는 성문 정보에 대해 수행된다. 구체적으로, 유사성 비교는 특징값들에 수행된다. 유사성이 제1 사전 설정된 임계값 이상이면, 2개의 성문 정보가 동일한 사람에 속하고, 계정이 단말에 직접 반환되는 것으로 결정될 수 있다. 유사성이 제1 사전 설정된 임계값 이상이 아니면, 극히 낮은 유사성에 대응하는 계정은 폐기되고, 유사성이 제2 사전 설정된 임계값 이상인 계정만이 단말에 송신된다. 대안적으로, 계정 리스트는 문자 스트링 매칭 결과를 참조하여 사용자에게 반환된다.
본 출원의 이러한 실시예에서, 문자 스트링들의 수개의 세그먼트들이 단말에 의해 추출되면(문자 스트링들의 수개의 세그먼트들의 발생에 대한 이유는 일부 문자들(제1 및 마지막 문자들을 배제함)이 인식될 수 없고 극히 긴 공간이 문자들 사이에 존재한다는 것일 수 있음), 서버는 정규 표현을 사용함으로써 계정 매칭을 수행할 필요가 있다. 게다가, 서버는 성문 정보에 결합되는 계정에 대해 매칭을 수행하는 것이 바람직하다.
본 출원의 이러한 실시예에서, 하나의 매칭된 계정을 발견할 때, 서버는 성문 정보 및 매칭된 계정에 대응하는 성문 정보에 대해 유사성 비교를 수행하고; 유사성이 제1 사전 설정된 임계값 이상일 때, 계정을 성문 정보와 매칭하는 계정으로서 사용한다. 사용자의 설정들에 따르면, 친구 검증 동작이 스킵되도록 허용되지 않는 것으로 설정되면, 계정은 단말에 송신되고, 사용자는 "친구로 추가" 또는 친구를 "팔로우"하는 것을 선택할 수 있고; 친구 검증 동작이 스킵되도록 허용되는 것으로 설정되면, 계정은 친구 추가를 완료하기 위해 계정 리스트에 직접 추가된다. 여기서, 제1 사전 설정된 임계값은 유사성을 정의하기 위해 사용된다. 제1 사전 설정된 임계값 이상인 것은 비교적 높은 유사성을 표시하고, 2개의 성문 정보가 동일한 사람에 속하는 것으로 결정될 수 있다.
본 출원의 이러한 실시예에서, 2개 이상의 매칭된 계정들을 발견할 때, 서버는 문자 스트링 정보 및 성문 정보와 매칭하는 계정으로서, 2개 이상의 매칭된 계정들로부터 성문 정보와 매칭하는 계정을 검색한다. 구체적으로, 유사성 비교는 성문 정보 및 2개 이상의 매칭된 계정들에 대응하는 각각의 성문 정보에 대해 수행되고; 유사성이 제1 사전 설정된 임계값 이상인 계정이 존재할 때, 계정은 성문 정보와 매칭하는 계정으로서 사용된다. 유사성이 제1 사전 설정된 임계값 이상인 계정이 존재하지 않을 때, 유사성이 제2 사전 설정된 임계값 이상인 계정은 단말에 송신되며, 제2 사전 설정된 임계값은 제1 사전 설정된 임계값 미만이다. 여기서, 제2 사전 설정된 임계값은 큰 유사성들에 대응하는 계정들을 포함하는 계정 리스트를 단말에 송신하기 위해 극히 작은 유사성에 대응하는 계정을 제거하는데 사용된다. 사용자는 "친구로 추가" 또는 "팔로우"하기 위해 계정 리스트를 탭핑하고 체킹하고, 계정들 중 하나를 선택할 수 있다.
단계(105): 계정을 계정 리스트에 추가한다.
본 출원의 이러한 실시예에서, 사용자가 친구를 추가할 필요가 있을 때, 사용자는 마이크로폰을 사용함으로써, 상대방에 의해 명시되는 계정에 관한 보이스를 기록함으로써만 계정을 추가하고, 키보드를 사용함으로써 상대방의 계정을 수동으로 입력할 필요가 없다. 보이스가 수집된 후에, 문자 스트링 정보 및 성문 정보가 추출된다. 서버는 문자 스트링 정보 및 성문 정보와 매칭하는 계정을 발견하고 계정을 단말에 피드백한다. 성문 정보의 매칭 속도는 문자 스트링 정보의 것보다 더 느리고, 적절한 계정들의 범위는 문자 스트링 정보에 따라 매칭에 의해 획득되고, 그 다음에 매칭은 성문 정보에 따라 계정들의 범위 상에 수행된다. 사운드가 계정의 소유자에 속하는지는 성문 정보에 따라 결정될 수 있고, 그 다음에 친구를 추가하는 프로세스를 결정하는 것은 스킵될 수 있다. 사용자 및 상대방은 친구들이 직접 되고, 채팅을 시작할 수 있다. 기존 기술에서 스피치에 의해 친구를 추가하는 것과 비교하여, 본 출원의 이러한 실시예에서, 성문 정보 매칭 동작이 추가되어, 계정 매칭의 적중률을 개선한다. 입력된 성문 정보와 계정에 결합되는 성문 정보 사이의 유사성이 임계값보다 더 클 때, 친구 검증 프로세스는 스킵될 수 있고 2명의 사람들은 친구들이 직접 될 수 있어, 단계들을 단순화한다. 이것은 사용자가 소셜 APP 내의 복잡하고 지루한 소셜 번호, 특히 특수 문자를 포함하는 지루한 경우-민감 소셜 번호에 진입하는 것을 방지한다. 본 출원의 이러한 실시예에서의 기술적 해결법은 특히 다중 언어 환경에서 그리고 장애인들, 노인들, 어린이들 등에게 적용가능하다.
본 출원의 이러한 실시예에서의 기술적 해결법의 많은 적용 시나리오들은 이하와 같다:
(1) 2명의 사용자가 서로 친구로 추가하기를 원할 때, 2명의 사용자들은 친구 추가 페이지에서 "스피치에 의한 친구 추가" 기능을 사용하는 것을 선택한다. 사용자는 다른 상대방이 계정을 명시한 후에 스피치 입력을 완료하기 위해 속도 입력 키를 탭핑한다. 그 다음, 사용자는 마이크로폰에 의해 수집되는 보이스 정보를 처리하여, 문자 스트링 정보 및 성문 정보를 추출한다. 사용자는 문자 스트링 정보 및 성문 정보를 서버에 업로딩한다. 서버는 매칭에 의해 데이터베이스로부터 적절한 계정을 획득한다.
(2) 일부 특별한 사람들 또는 조직들의 계정 정보(보이스 정보)는 공중 네트워크에 포스팅될 수 있다. 다른 사람들은 계정 정보(보이스 정보)에 따라 이러한 계정들을 친구들로 빠르게 추가하고 이러한 계정들을 팔로우할 수 있다.
도 2는 본 출원의 실시예 2에 따른 계정 추가 방법의 개략 흐름도이다. 이러한 실시예에서의 계정 추가 방법은 서버 측에 적용된다. 도 2에 도시된 바와 같이, 계정 추가 방법은 이하의 단계들을 포함한다:
단계(201): 단말에 의해 송신되는 문자 스트링 정보 및 성문 정보를 수신한다.
본 출원의 이러한 실시예에서, 단말은 전자 디바이스 예컨대 이동 전화, 태블릿 컴퓨터, 또는 노트북 컴퓨터일 수 있다. 소셜 APP는 단말 상에 설치된다. APP는 계정 추가 기능을 갖는다. 특히, 이러한 실시예에서, 계정은 스피치에 의해 APP에 추가된다. 따라서, 새로운 컨트롤은 APP의 인터페이스에 설정된다. 컨트롤은 스피치에 의해 계정을 추가하는 기능을 인에이블하도록 트리거되며, 그것에 의해 보이스 정보를 수집하기 위해 단말의 보이스 수집 기능을 호출한다. 단말은 보이스 정보를 파싱하고, 문자 스트링 정보 및 성문 정보를 추출한다. 구체적으로, 단말은 보이스 정보에 대해 침묵 억제를 수행하고; 침묵 억제가 수행된 보이스 정보에 대해 프레이밍 처리를 수행하고; 프레이밍 처리가 수행된 보이스 정보로부터 사운드 특징값을 추출하며, 추출된 사운드 특징값은 성문 정보를 표현하고; 문자 스트링 정보를 획득하기 위해 추출된 사운드 특징값에 대해 디코딩 처리를 수행한다.
서버는 단말에 의해 송신되는 문자 스트링 정보 및 성문 정보를 수신한다.
단계(202): 문자 스트링 정보 및 성문 정보와 매칭하는 계정에 대해 데이터베이스를 검색한다.
본 출원의 이러한 실시예에서, 단말에 의해 송신되는 문자 스트링 정보 및 성문 정보를 수신한 후에, 서버는 매칭에 의해, 문자 스트링 정보 및 성문 정보에 따라 데이터베이스로부터 최적 계정을 획득하고, 계정을 단말에 피드백한다. 서버는 우선 문자 스트링 정보에 따라 초기 계정 매칭을 수행하고, 그 다음에 성문 정보에 따라 정확한 계정 매칭을 수행한다.
여기서, 성문(Voiceprint)은 스피치 정보를 반송하고 전기 음향 기구 상에 디스플레이되는 사운드 웨이브 스펙트럼이다. 사람들은 상이한 생리적 특성들 예컨대 혀, 후두강, 및 비강을 갖고, 사람들의 사운드 웨이브들은 상이하다. 일반적으로, 어떠한 많은 변경이 없고, 특정 유사성은 발병 또는 수술 시에도 여전히 존재한다. 다수의 계정들이 문자 스트링 정보(다수의 필드들을 포함할 수 있음)를 사용함으로써 매칭에 의해 획득될 때, 매칭된 계정들이 성문 정보에 결합되면, 유사성 비교는 각각의 계정에 대응하는 성문 정보 및 보이스 정보로부터 추출되는 성문 정보에 대해 수행된다. 구체적으로, 유사성 비교는 특징값들에 수행된다. 유사성이 제1 사전 설정된 임계값 이상이면, 2개의 성문 정보가 동일한 사람에 속하고, 계정이 단말에 직접 반환되는 것으로 결정될 수 있다. 유사성이 제1 사전 설정된 임계값 이상이 아니면, 극히 낮은 유사성에 대응하는 계정이 폐기되고, 유사성이 제2 사전 설정된 임계값 이상인 계정만이 단말에 송신된다. 대안적으로, 계정 리스트는 문자 스트링 매칭 결과를 참조하여 사용자에게 반환된다.
본 출원의 이러한 실시예에서, 문자 스트링들의 수개의 세그먼트들이 단말에 의해 추출되면(문자 스트링들의 수개의 세그먼트들의 발생에 대한 이유는 일부 문자들(제1 및 마지막 문자들을 배제함)이 인식될 수 없고 극히 긴 공간이 문자들 사이에 존재한다는 것일 수 있음), 서버는 정규 표현을 사용함으로써 계정 매칭을 수행할 필요가 있다. 게다가, 서버는 성문 정보에 결합되는 계정에 대해 매칭을 수행하는 것이 바람직하다.
본 출원의 이러한 실시예에서, 하나의 매칭된 계정을 발견할 때, 서버는 성문 정보 및 매칭된 계정에 대응하는 성문 정보에 대해 유사성 비교를 수행하고; 유사성이 제1 사전 설정된 임계값 이상일 때, 계정을 성문 정보와 매칭하는 계정으로서 사용한다. 사용자의 설정들에 따라, 친구 검증 동작이 스킵되도록 허용되지 않는 것으로 설정되면, 계정은 단말에 송신되고, 사용자는 "친구로 추가" 또는 친구를 "팔로우"하는 것을 선택할 수 있고; 친구 검증 동작이 스킵되도록 허용되는 것으로 설정되면, 계정은 친구 추가를 완료하기 위해 계정 리스트에 직접 추가된다. 여기서, 제1 사전 설정된 임계값은 유사성을 정의하기 위해 사용된다. 제1 사전 설정된 임계값 이상인 것은 비교적 높은 유사성을 표시하고, 2개의 성문 정보가 동일한 사람에 속하는 것으로 결정될 수 있다.
본 출원의 이러한 실시예에서, 2개 이상의 매칭된 계정들을 발견할 때, 서버는 문자 스트링 정보 및 성문 정보와 매칭하는 계정으로서, 2개 이상의 매칭된 계정들로부터 성문 정보와 매칭하는 계정을 검색한다. 구체적으로, 유사성 비교는 성문 정보 및 2개 이상의 매칭된 계정들에 대응하는 각각의 성문 정보에 대해 수행되고; 유사성이 제1 사전 설정된 임계값 이상인 계정이 존재할 때, 계정은 성문 정보와 매칭하는 계정으로서 사용된다. 유사성이 제1 사전 설정된 임계값 이상인 계정이 존재하지 않을 때, 유사성이 제2 사전 설정된 임계값 이상인 계정은 단말에 송신되며, 제2 사전 설정된 임계값은 제1 사전 설정된 임계값 미만이다. 여기서, 제2 사전 설정된 임계값은 큰 유사성들에 대응하는 계정들을 포함하는 계정 리스트를 단말에 송신하기 위해 극히 작은 유사성에 대응하는 계정을 제거하는데 사용된다. 사용자는 "친구로 추가" 또는 "팔로우"하기 위해 계정 리스트를 탭핑하고 체킹하고, 계정들 중 하나를 선택할 수 있다.
단계(203): 단말이 계정을 계정 리스트에 추가하도록 문자 스트링 정보 및 성문 정보와 매칭하는 계정을 단말에 송신한다.
본 출원의 이러한 실시예는 상대방을 친구로 추가하는 직관적이고, 빠르고, 효과적인 방법을 사용자에게 제공한다. 친구가 추가될 때, "스피치에 의한 친구 추가" 기능이 인에이블되고, 친구 추가는 상대방이 상대방의 계정을 명시한 후에 완료될 수 있다. 게다가, 계정 보안을 위해, 현재 계정의 사용자가 계정의 소유자인지는 성문 정보를 사용함으로써 결정된다. 명시된 번호의 성문 정보가 계정의 성문 정보와 매칭하면, 친구 검증 프로세스는 직접 스킵될 수 있고, 상대방은 친구로 직접 추가될 수 있다.
도 3은 본 출원의 실시예 3에 따른 계정 추가 방법의 개략 흐름도이다. 이러한 실시예에서의 계정 추가 방법은 단말 및 서버에 적용된다. 도 3에 도시된 바와 같이, 계정 추가 방법은 이하의 단계들을 포함한다:
단계(301): 단말은 보이스 정보를 수집한다.
본 출원의 이러한 실시예에서, 단말은 전자 디바이스 예컨대 이동 전화, 태블릿 컴퓨터, 또는 노트북 컴퓨터일 수 있다.
본 출원의 이러한 실시예에서, 소셜 APP는 단말 상에 설치된다. APP는 계정 추가 기능을 갖는다. 특히, 이러한 실시예에서, 계정은 스피치에 의해 APP에 추가된다. 따라서, 새로운 컨트롤은 APP의 인터페이스에 설정된다. 컨트롤은 스피치에 의해 계정을 추가하는 기능을 인에이블하도록 트리거되며, 그것에 의해 보이스 정보를 수집하기 위해 단말의 보이스 수집 기능을 호출한다.
해결법에서, 컨트롤은 이하의 방식들, 즉 탭, 더블 탭, 제스처, 및 슬라이드로 트리거될 수 있지만, 방식들은 그것에 제한되지 않는다.
본 출원의 이러한 실시예에서, 보이스 정보는 이하의 2개의 방식으로 수집된다:
방식 1: 보이스 정보는 단말의 수집 유닛에 의해 직접 수집된다. 여기서, 수집 유닛은 마이크로폰에 의해 구현될 수 있다. 실제 응용에서, 사용자가 컨트롤을 트리거하고 스피치에 의해 계정을 추가하는 기능을 인에이블할 때, 상대방은 단말의 수집 유닛(예를 들어, 마이크로폰)을 향해 상대방의 계정을 명시한다. 이러한 방식으로, 수집 유닛은 계정을 포함하는 보이스 정보를 획득할 수 있다. 여기서, 계정은 APP에 대응하는 소셜 번호, 즉 APP에서 상대방에 의해 등록되는 소셜 번호이다.
방식 2: 상대방은 상대방의 단말을 사용함으로써 상대방의 계정에 관한 보이스를 기록하고, 보이스 정보를 사용자의 단말에 송신한다. 이러한 방식으로, 사용자의 단말은 상대방에 의해 송신되는 보이스 정보를 수신한다. 이러한 방식은 보이스 호출 또는 비디오 호출 동안 사용될 수 있다. 대안적으로, 상대방은 하나의 보이스 정보를 사용자에게 직접 송신할 수 있다.
단계(302): 단말은 보이스 정보를 파싱하고, 문자 스트링 정보 및 성문 정보를 추출한다.
구체적으로, 침묵 억제는 보이스 정보에 대해 수행되고; 프레이밍 처리는 침묵 억제가 수행된 보이스 정보에 대해 수행되고; 사운드 특징값은 프레이밍 처리가 수행된 보이스 정보로부터 추출되며, 추출된 사운드 특징값은 성문 정보를 표현하고; 디코딩 처리는 문자 스트링 정보를 획득하기 위해 추출된 사운드 특징값에 대해 수행된다.
본 출원의 이러한 실시예에서, 보이스 정보가 압축된 포맷 예컨대 MP3 포맷 또는 WMV 포맷이면, 압축된 포맷인 보이스 정보는 비압축된 포맷 예컨대 PCM 포맷 또는 WAV 포맷인 풀 웨이브 파일로 변환될 필요가 있다. 파일 헤더 외에, WAV 파일에 저장되는 나머지 부분은 사운드 파형의 포인트 데이터이다.
본 출원의 이러한 실시예에서, 보이스 정보를 파싱하는 것은 보이스 정보를 인식하고 있다. 보이스 정보가 인식되기 전에, 보이스 정보의 시작 및 끝에서의 침묵은 후속 단계들에 관한 간섭을 감소시키기 위해 우선 제거될 필요가 있다. 침묵 제거 동작은 VAD로 언급되고, 신호 처리 기술이 사용될 필요가 있다.
침묵이 제거된 후에, 프레이밍이 수행될 필요가 있다. 구체적으로, 프레이밍 동작은 통상 무빙 윈도우 기능을 사용함으로써 구현된다. 프레이밍이 수행되기 전에, 일부 동작들 예컨대 프리엠퍼시스가 수행될 필요가 더 있다. 프레임 오버래핑이 존재한다. 일반적으로, 각각의 프레임은 25 ms를 포함하고, 2개의 프레임들 사이의 프레임 시프트는 10 ms이다. 따라서, 2개의 프레임들은 15 ms만큼 오버랩된다. 예를 들어, 0 내지 25 ms, 10 ms 내지 35 ms, 20 ms 내지 45 ms ...은 제1 프레임, 제2 프레임, 제3 프레임, ...이다.
프레이밍이 수행된 후에, 각각의 프레임 파형이 변환된다. 예를 들어, 멜 주파수 셉스트럴 계수(MFCC, mel-frequency cepstral coefficient) 특징은 각각의 프레임 파형을 12차원 벡터로 변환하기 위해 추출된다. 12 포인트들은 인간 귀들의 생리적 특성들에 따라 추출되고, 12 포인트들은 이러한 프레임에서 모든 보이스 정보를 포함한다. 이러한 프로세스는 또한 사운드 특징값 추출로 언급된다. 실제 응용에서, 사운드 특징값 추출은 많은 동작들, 예컨대 차분, 평균-분산 정규화, 가우스화, 및 차원 감소 및 리던던시 제거를 더 포함한다. 사운드 특징값은 사용자의 성문 정보이다. 사운드 특징값이 추출된 후에, 보이스 정보는 12 행들(사운드 특징값이 12 차원들을 갖는 것을 가정함) 및 N 열들을 갖는 행렬이 되고, 관찰 시퀀스로 언급된다. 여기서, N은 프레임들의 전체 양이다.
스피치 인식의 코어는 사운드 특징값에 의해 표현되는 프레임을 상태로 인식하고, 상태 인식을 음소들로 조합하고, 음소들을 단어로 조합하고 있다. 구체적으로, 수개의 프레임들은 하나의 상태에 대응하고, 모든 3개의 상태들은 하나의 음소로 조합되고, 수개의 음소들은 하나의 단어로 조합된다. 각각의 음소에 대응하는 상태는 음소가 상태에 대응하는 가장 큰 확률에 의해 결정된다. 확률은 음향 모델에 기초하여 결정된다. 음향 모델은 파라미터들을 저장하고, 각각의 상태에 대응하는 확률은 파라미터들을 사용함으로써 결정될 수 있다. 상태 네트워크는 HMM을 사용함으로써 설정된다. 스피치 인식 프로세스에서, 최적 경로는 상태 네트워크에서 발견될 필요가 있으며, 이러한 경로의 확률은 가장 크다. 이러한 프로세스는 디코딩 처리로 언급된다. 디코딩 처리가 수행된 후에, 보이스 정보에 대응하는 문자 스트링 정보가 획득된다.
본 출원의 이러한 실시예에서, 계정은 통상 26 글자들 및 10 숫자들 중 일부만을 포함하기 때문에(그들 중 일부는 특수 문자들일 수 있음), 본 출원의 이러한 실시예에서의 스피치 인식의 적중률은 일반적 인식 예컨대 스피치 입력 또는 스피치 투 텍스트의 것보다 훨씬 더 높다. 여기서, 수개의 문자들(제1 및 마지막 문자들을 배제함)이 인식될 수 없는 것이 가능하다. 따라서, 완전한 문자 스트링 정보는 인식에 의해 획득될 수 없고, 문자 스트링들의 수개의 세그먼트들은 최종적으로 인식에 의해 획득될 수 있다. 예를 들어, "185021?1234"에 대해, 중간 내의 하나의 문자가 인식될 수 없기 때문에, 문자 스트링들의 2개의 세그먼트들 "185021" 및 "1234"는 인식에 의해 획득될 수 있다.
본 출원의 이러한 실시예에서, 계정에 대한 제약 규칙은 일반적으로 APP에 설정된다. 추출된 문자 스트링 정보가 무효 문자(제약 규칙을 충족하지 않음)를 포함하면, 보이스 정보가 다시 수집된다.
단계(303): 단말은 문자 스트링 정보 및 성문 정보를 서버에 송신한다.
본 출원의 이러한 실시예에서, 보이스 정보로부터 문자 스트링 정보 및 성문 정보를 추출한 후에, 단말은 2개의 정보를 서버에 송신한다.
본 출원의 이러한 실시예에서, 단말은 문자 스트링 정보 및 성문 정보의 보안을 보장하기 위해 문자 스트링 정보 및 성문 정보를 암호화하고, 그 다음에 암호화된 문자 스트링 정보 및 성문 정보를 서버에 송신할 수 있다. 대응적으로, 정보를 수신한 후에, 서버는 문자 스트링 정보 및 성문 정보를 획득하기 위해 복호화를 수행할 필요가 있다. 여기서, 암호화 및 복호화는 이하의 알고리즘들, 즉 AES, DES, 및 RSA를 사용함으로써 수행될 수 있지만, 알고리즘들은 그것에 제한되지 않는다.
단계(304): 서버는 문자 스트링 정보 및 성문 정보와 매칭하는 계정에 대해 데이터베이스를 검색한다.
본 출원의 이러한 실시예에서, 단말에 의해 송신되는 문자 스트링 정보 및 성문 정보를 수신한 후에, 서버는 매칭에 의해, 문자 스트링 정보 및 성문 정보에 따라 데이터베이스로부터 최적 계정을 획득하고, 계정을 단말에 피드백한다. 서버는 우선 문자 스트링 정보에 따라 초기 계정 매칭을 수행하고, 그 다음에 성문 정보에 따라 정확한 계정 매칭을 수행한다.
여기서, 성문은 스피치 정보를 반송하고 전기 음향 기구 상에 디스플레이되는 사운드 웨이브 스펙트럼이다. 사람들은 상이한 생리적 특성들 예컨대 혀, 후두강, 및 비강을 갖고, 사람들의 사운드 웨이브들은 상이하다. 일반적으로, 어떠한 많은 변경이 없고, 특정 유사성은 발병 또는 수술 시에도 여전히 존재한다. 다수의 계정들이 문자 스트링 정보(다수의 필드들을 포함할 수 있음)를 사용함으로써 매칭에 의해 획득될 때, 매칭된 계정들이 성문 정보에 결합되면, 유사성 비교는 각각의 계정에 대응하는 성문 정보 및 보이스 정보로부터 추출되는 성문 정보에 대해 수행된다. 구체적으로, 유사성 비교는 특징값들에 수행된다. 유사성이 제1 사전 설정된 임계값 이상이면, 2개의 성문 정보가 동일한 사람에 속하고, 계정이 단말에 직접 반환되는 것으로 결정될 수 있다. 유사성이 제1 사전 설정된 임계값 이상이 아니면, 극히 낮은 유사성에 대응하는 계정이 폐기되고, 유사성이 제2 사전 설정된 임계값 이상인 계정만이 단말에 송신된다. 대안적으로, 계정 리스트는 문자 스트링 매칭 결과를 참조하여 사용자에게 반환된다.
본 출원의 이러한 실시예에서, 문자 스트링들의 수개의 세그먼트들이 단말에 의해 추출되면(문자 스트링들의 수개의 세그먼트들의 발생에 대한 이유는 일부 문자들(제1 및 마지막 문자들을 배제함)이 인식될 수 없거나 극히 긴 공간이 문자들 사이에 존재한다는 것일 수 있음), 서버는 정규 표현을 사용함으로써 계정 매칭을 수행할 필요가 있다. 게다가, 서버는 성문 정보에 결합되는 계정에 대해 매칭을 수행하는 것이 바람직하다.
본 출원의 이러한 실시예에서, 하나의 매칭된 계정을 발견할 때, 서버는 성문 정보 및 매칭된 계정에 대응하는 성문 정보에 대해 유사성 비교를 수행하고; 유사성이 제1 사전 설정된 임계값 이상일 때, 계정을 성문 정보와 매칭하는 계정으로서 사용한다. 사용자의 설정들에 따르면, 친구 검증 동작이 스킵되도록 허용되지 않는 것으로 설정되면, 계정은 단말에 송신되고, 사용자는 "친구로 추가" 또는 친구를 "팔로우"하는 것을 선택할 수 있고; 친구 검증 동작이 스킵되도록 허용되는 것으로 설정되면, 계정은 친구 추가를 완료하기 위해 계정 리스트에 직접 추가된다. 여기서, 제1 사전 설정된 임계값은 유사성을 정의하기 위해 사용된다. 제1 사전 설정된 임계값 이상인 것은 비교적 높은 유사성을 표시하고, 2개의 성문 정보가 동일한 사람에 속하는 것으로 결정될 수 있다.
본 출원의 이러한 실시예에서, 2개 이상의 매칭된 계정들을 발견할 때, 서버는 문자 스트링 정보 및 성문 정보와 매칭하는 계정으로서, 2개 이상의 매칭된 계정들로부터 성문 정보와 매칭하는 계정을 검색한다. 구체적으로, 유사성 비교는 성문 정보 및 2개 이상의 매칭된 계정들에 대응하는 각각의 성문 정보에 대해 수행되고; 유사성이 제1 사전 설정된 임계값 이상인 계정이 존재할 때, 계정은 성문 정보와 매칭하는 계정으로서 사용된다. 유사성이 제1 사전 설정된 임계값 이상인 계정이 존재하지 않을 때, 유사성이 제2 사전 설정된 임계값 이상인 계정은 단말에 송신되며, 제2 사전 설정된 임계값은 제1 사전 설정된 임계값 미만이다. 여기서, 제2 사전 설정된 임계값은 큰 유사성들에 대응하는 계정들을 포함하는 계정 리스트를 단말에 송신하기 위해 극히 작은 유사성에 대응하는 계정을 제거하는데 사용된다. 사용자는 "친구로 추가" 또는 "팔로우"하기 위해 계정 리스트를 탭핑하고 체킹하고, 계정들 중 하나를 선택할 수 있다.
단계(305): 서버는 문자 스트링 정보 및 성문 정보와 매칭하는 계정을 단말에 송신한다.
단계(306): 단말은 계정을 계정 리스트에 추가한다.
본 출원의 이러한 실시예에서의 기술적 해결법은 계정을 성문 정보에 결합하는 단계를 수반한다. 계정이 성문 정보에 결합된 후에, 성문 정보 매칭은 스피치 인식에 의해 계정에 대해 수행되어, 매칭 결과를 더 정확하게 한다. 게다가, 계정이 성문 정보에 결합된 후에, 계정은 더 안전하다. 이하는 계정에 대응하는 성문 정보를 결합하는 프로세스를 상세히 설명한다.
도 4는 본 출원의 일 실시예에 따른 계정에 대응하는 성문 정보를 결합하는 개략 흐름도이다. 도 4에 도시된 바와 같이, 계정에 대응하는 성문 정보를 결합하는 프로세스는 이하의 단계들을 포함한다:
단계(401): APP에 로그인하기 위해 계정을 입력하고, 성문 결합 기능을 인에이블한다.
단계(402): 계정의 각각의 문자의 보이스를 기록한다.
단계(403): 보이스에서 성문 정보를 추출한다.
단계(404): 성문 정보를 서버에 업로딩한다.
단계(405): 성문 정보가 처음으로 업로딩될 때 단계(402)를 수행하고; 새로운 성문 정보가 업로딩될 때 단계(406)를 수행한다.
단계(406): 서버는 성문 정보 및 마지막 업로딩된 성문 정보에 대해 일관성 체킹을 수행하고, 체킹 결과가 일관성을 표시할 때 계정을 성문 정보에 결합한다.
도 5는 본 출원의 일 실시예에 따른 단말의 개략 구조 구성도이다. 도 5에 도시된 바와 같이, 단말은,
보이스 정보를 수집하도록 구성되는 수집 유닛(51);
보이스 정보를 파싱하고, 문자 스트링 정보 및 성문 정보를 추출하도록 구성되는 추출 유닛(52);
문자 스트링 정보 및 성문 정보를 서버에 송신하도록 구성되는 송신 유닛(53);
문자 스트링 정보 및 성문 정보와 매칭하고 서버에 의해 송신되는 계정을 수신하도록 구성되는 수신 유닛(54); 및
계정을 계정 리스트에 추가하도록 구성되는 추가 유닛(55)을 포함한다.
추출 유닛(52)은,
보이스 정보에 대해 침묵 억제를 수행하도록 구성되는 침묵 억제 서브유닛(521);
침묵 억제가 수행된 보이스 정보에 대해 프레이밍 처리를 수행하도록 구성되는 프레이밍 서브유닛(522);
프레이밍 처리가 수행된 보이스 정보로부터 사운드 특징값을 추출하도록 구성되는 특징값 추출 유닛(523) - 추출된 사운드 특징값은 성문 정보를 표현함 -; 및
문자 스트링 정보를 획득하기 위해 추출된 사운드 특징값에 대해 디코딩 처리를 수행하도록 구성되는 디코딩 유닛(524)을 포함한다.
본 기술분야의 통상의 기술자는 도 5에 도시된 단말의 유닛들에 의해 구현되는 기능들이 계정 추가 방법의 관련된 설명들을 참조하여 이해될 수 있는 것을 이해해야 한다. 도 5에 도시된 단말의 유닛들의 기능들은 프로세서에서 실행하는 프로그램을 사용함으로써 구현될 수 있거나, 특정 논리 회로를 사용함으로써 구현될 수 있다.
도 6은 본 출원의 일 실시예에 따른 서버의 개략 구조 구성도이다. 도 6에 도시된 바와 같이, 서버는,
단말에 의해 송신되는 문자 스트링 정보 및 성문 정보를 수신하도록 구성되는 수신 유닛(61);
문자 스트링 정보 및 성문 정보와 매칭하는 계정에 대해 데이터베이스를 검색하도록 구성되는 검색 유닛(62); 및
단말이 계정을 계정 리스트에 추가하도록 문자 스트링 정보 및 성문 정보와 매칭하는 계정을 단말에 송신하도록 구성되는 송신 유닛(63)을 포함한다.
검색 유닛(62)은,
문자 스트링 정보와 매칭하는 계정에 대해 데이터베이스를 검색하도록 구성되는 제1 검색 서브유닛(621); 및
2개 이상의 매칭된 계정이 발견될 때, 문자 스트링 정보 및 성문 정보와 매칭하는 계정으로서, 2개 이상의 매칭된 계정들로부터 성문 정보와 매칭하는 계정을 검색하도록 구성되는 제2 검색 서브유닛(622)을 포함한다.
데이터베이스는 2개 이상의 매칭된 계정들에 대응하는 성문 정보를 저장한다.
제2 검색 서브유닛(622)은 성문 정보 및 2개 이상의 매칭된 계정들에 대응하는 각각의 성문 정보에 대해 유사성 비교를 수행하고; 유사성이 제1 사전 설정된 임계값 이상인 계정이 존재할 때, 계정을 성문 정보에 매칭하는 계정으로 사용하도록 더 구성된다.
송신 유닛(63)은 유사성이 제1 사전 설정된 임계값 이상인 계정이 존재하지 않을 때, 유사성이 제2 사전 설정된 임계값 이상인 계정을 단말에 송신하도록 더 구성되며, 제2 사전 설정된 임계값은 제1 사전 설정된 임계값 미만이다.
제2 검색 서브유닛(622)은 하나의 매칭된 계정이 발견될 때, 성문 정보 및 매칭된 계정에 대응하는 성문 정보에 대해 유사성 비교를 수행하고; 유사성이 제1 사전 설정된 임계값 이상일 때, 계정을 성문 정보와 매칭하는 계정으로서 사용하도록 더 구성된다.
본 기술분야의 통상의 기술자는 도 6에 도시된 서버의 유닛들에 의해 구현되는 기능들이 계정 추가 방법의 관련된 설명들을 참조하여 이해될 수 있는 것을 이해해야 한다. 도 6에 도시된 서버의 유닛들의 기능들은 프로세서에서 실행하는 프로그램을 사용함으로써 구현될 수 있거나, 특정 로직 회로를 사용함으로써 구현될 수 있다.
본 출원의 실시예들에서의 통합된 모듈들이 소프트웨어 기능 모듈의 형태로 구현되고 독립 제품으로 판매되거나 사용될 때, 모듈들은 컴퓨터 판독가능 저장 매체에 저장될 수 있다. 이것에 기초하여, 본 기술분야의 통상의 기술자는 본 출원의 실시예들이 방법, 시스템, 또는 컴퓨터 프로그램 제품으로 제공될 수 있는 것을 이해해야 한다. 따라서, 본 출원은 하드웨어 실시예, 소프트웨어 실시예, 또는 소프트웨어 및 하드웨어를 조합하는 일 실시예의 형태를 사용할 수 있다. 게다가, 본 출원은 컴퓨터 민감 프로그램 코드를 포함하는 하나 이상의 컴퓨터 민감 저장 매체들 상에 구현되는 컴퓨터 프로그램 제품의 형태를 사용할 수 있다. 저장 매체는 USB 드라이브, 이동 하드 디스크, 판독 전용 메모리(ROM, Read-Only Memory), 랜덤 액세스 메모리(RAM, Random Access Memory), 자기 디스크 저장 디바이스, CD-ROM, 광 메모리 등을 포함하지만 이들에 제한되지 않는다.
본 출원은 본 출원의 실시예들에서 방법, 디바이스(시스템), 및 컴퓨터 프로그램 제품의 흐름도들 및/또는 블록도들을 참조하여 설명된다. 컴퓨터 프로그램 명령어들은 흐름도들 및/또는 블록도들 내의 각각의 프로세스 및/또는 블록 및 흐름도들 및/또는 블록도들 내의 프로세스들 및/또는 블록들의 조합을 구현할 수 있다는 점이 이해되어야 한다. 이러한 컴퓨터 프로그램 명령어들은 흐름도들 내의 하나 이상의 프로세스들 및/또는 블록도들 내의 하나 이상의 블록들에 특정되는 기능들을 구현하도록 구성되는 장치가 일반 목적 컴퓨터 또는 다른 프로그램가능 데이터 처리 디바이스의 프로세서에 의해 실행되는 명령어들을 사용함으로써 발생되기 위해 머신을 발생시키도록 일반 목적 컴퓨터, 전용 컴퓨터, 내장 프로세서, 또는 다른 프로그램가능 데이터 처리 디바이스의 프로세서에 제공될 수 있다.
이러한 컴퓨터 프로그램 명령어들은 또한 컴퓨터 판독가능 메모리에 저장되는 명령어들이 명령어 장치를 포함하는 아티팩트를 발생시키도록 컴퓨터 또는 임의의 다른 프로그램가능 데이터 처리 디바이스에 특징 방식으로 작업하라고 명령할 수 있는 컴퓨터 판독가능 메모리에 저장될 수 있다. 명령어 장치는 흐름도들 내의 하나 이상의 프로세스들 및/또는 블록도들 내의 하나 이상의 블록들에서 특정 기능을 구현한다.
이러한 컴퓨터 프로그램 명령어들은 일련의 동작들 및 단계들이 컴퓨터 또는 다른 프로그램가능 디바이스 상에 수행되며, 그것에 의해 컴퓨터 구현 처리를 발생시키도록 컴퓨터 또는 다른 프로그램가능 데이터 처리 디바이스로 대안적으로 로딩될 수 있다. 따라서, 컴퓨터 또는 다른 프로그램가능 디바이스 상에 실행되는 명령어들은 흐름도들 내의 하나 이상의 프로세스들 및/또는 블록도들 내의 하나 이상의 블록들에서 특정 기능을 구현하는 단계들을 제공한다.
본 출원의 바람직한 실시예들이 설명되었지만, 본 기술분야의 통상의 기술자가 기본 창의적 개념을 습득하면, 다른 변형들 및 수정들이 실시예들에 이루어질 수 있다. 따라서, 첨부된 청구항들은 바람직한 실시예들 및 본 출원의 범위 내에 있는 모든 변형들 및 수정들을 포함하는 것으로 해석되도록 의도된다.
대응적으로, 본 출원의 일 실시예는 컴퓨터 프로그램을 저장하는 컴퓨터 저장 매체를 더 제공하며, 컴퓨터 프로그램은 본 출원의 실시예들에서 계정 추가 방법을 실행하기 위해 사용된다.
본 출원의 실시예들의 기술적 해결법들은 충돌없는 조건으로 임의로 조합될 수 있다.
본 출원에 제공되는 수개의 실시예들에서, 개시된 방법 및 스마트 디바이스는 다른 방식들로 구현될 수 있다는 점이 이해되어야 한다. 설명된 디바이스 실시예는 일 예일 뿐이다. 예를 들어, 유닛 분할은 논리 기능 분할일 뿐이고 실제 구현에서 다른 분할일 수 있다. 예를 들어, 복수의 유닛들 또는 구성요소들은 다른 시스템으로 조합되거나 통합될 수 있거나, 일부 특징들은 무시되거나 수행되지 않을 수 있다. 게다가, 구성요소들 사이의 디스플레이되거나 논의된 상호 결합들 또는 직접 결합들 또는 통신 연결들은 일부 인터페이스들을 사용함으로써 구현될 수 있다. 디바이스들 또는 유닛들 사이의 간접 결합들 또는 통신 연결들은 전자, 기계, 또는 다른 형태들로 구현될 수 있다.
개별 부품들로 설명되는 유닛들은 물리적으로 분리될 수 있거나 분리되지 않을 수 있고, 유닛들로 디스플레이되는 부품들은 물리 유닛들일 수 있거나 물리 유닛들이 아닐 수 있으며, 즉 하나의 위치에 위치될 수 있거나, 복수의 네트워크 유닛들 상에 분산될 수 있다. 유닛들의 일부 또는 전부는 실제 요구들에 따라 실시예들의 해결법들의 목적들을 달성하기 위해 선택될 수 있다.
게다가, 본 출원의 실시예들에서의 기능 유닛들은 하나의 처리 유닛으로 통합될 수 있거나, 유닛들 각각은 물리적으로 단독으로 존재할 수 있거나, 2개 이상의 유닛들은 하나의 유닛으로 통합될 수 있다. 통합된 유닛들은 하드웨어의 형태로 구현될 수 있거나, 소프트웨어 기능 유닛의 형태로 구현될 수 있다.
상술한 설명들은 본 출원의 특정 구현들일 뿐이지만, 본 출원의 보호 범위를 제한하도록 의도되지 않는다. 본 출원에 개시되는 기술적 범위 내에서 본 기술분야의 통상의 기술자에 의해 용이하게 이해되는 임의의 변형 또는 대체는 본 출원의 보호 범위 내에 있어야 한다.

Claims (15)

  1. 계정 추가 방법으로서, 상기 계정 추가 방법은 단말에 의해 수행되며,
    계정에 대한 보이스 정보(voice information)를 수집하는 단계 - 상기 계정에는 계정의 제약 규칙이 설정됨 - ;
    상기 보이스 정보를 파싱(parsing)하고, 문자 스트링 정보(character string information) 및 성문 정보(voiceprint information)를 추출하는 단계 - 상기 문자 스트링 정보가 상기 계정의 무효 문자를 포함하지 말아야하는 제약 규칙을 충족하지 않을 경우 추출된 문자 스트링 정보가 상기 계정의 제약 규칙을 충족할 때까지 상기 계정에 대한 보이스 정보를 다시 수집함 - ;
    상기 문자 스트링 정보 및 상기 성문 정보를 서버에 송신하는 단계;
    상기 문자 스트링 정보 및 상기 성문 정보와 매칭(match)하고 상기 서버에 의해 송신되는 계정을 수신하는 단계; 및
    상기 계정을 계정 리스트에 추가하는 단계
    를 포함하는 계정 추가 방법.
  2. 제1항에 있어서, 상기 보이스 정보를 파싱하고, 문자 스트링 정보 및 성문 정보를 추출하는 단계는,
    상기 보이스 정보에 대해 침묵 억제(silence suppression)를 수행하는 단계;
    침묵 억제가 수행된 상기 보이스 정보에 대해 프레이밍 처리(framing processing)를 수행하는 단계;
    프레이밍 처리가 수행된 상기 보이스 정보로부터 사운드 특징값(sound feature value)을 추출하는 단계 - 상기 추출된 사운드 특징값은 상기 성문 정보를 표현함 -; 및
    상기 문자 스트링 정보를 획득하기 위해 상기 추출된 사운드 특징값에 대해 디코딩 처리를 수행하는 단계를 포함하는 계정 추가 방법.
  3. 계정 추가 방법으로서, 상기 계정 추가 방법은 서버에 의해 수행되며,
    단말에 의해 송신되는 문자 스트링 정보 및 성문 정보를 수신하는 단계 - 상기 문자 스트링 정보는 계정의 무효 문자를 포함하지 말아야하는 제약 규칙을 충족함 - ;
    상기 문자 스트링 정보와 매칭하는 계정에 대해 데이터베이스를 검색하는 단계;
    검색해 낸 매칭 결과에서 상기 성문 정보와 매칭하는 계정을 검색하는 단계; 및
    상기 단말이 상기 계정을 계정 리스트에 추가하도록 상기 문자 스트링 정보 및 상기 성문 정보와 매칭하는 계정을 상기 단말에 송신하는 단계
    를 포함하는 계정 추가 방법.
  4. 제3항에 있어서, 상기 검색해 낸 매칭 결과에서 상기 성문 정보와 매칭하는 계정을 검색하는 단계는,
    상기 검색해 낸 매칭 결과에서 2개 이상의 매칭된 계정이 발견될 때, 상기 문자 스트링 정보 및 상기 성문 정보와 매칭하는 계정으로서, 상기 2개 이상의 매칭된 계정들로부터 상기 성문 정보와 매칭하는 계정을 검색하는 단계를 포함하는 계정 추가 방법.
  5. 제4항에 있어서, 상기 데이터베이스는 상기 2개 이상의 매칭된 계정들에 대응하는 성문 정보를 저장하고,
    상기 2개 이상의 매칭된 계정들로부터 상기 성문 정보와 매칭하는 계정을 검색하는 단계는,
    상기 성문 정보 및 상기 2개 이상의 매칭된 계정들에 대응하는 각각의 성문 정보(each piece of the voiceprint information)에 대해 유사성 비교(similarity comparison)를 수행하는 단계; 및
    유사성이 제1 사전 설정된 임계값 이상인 계정이 존재할 때, 상기 계정을 상기 성문 정보와 매칭하는 계정으로서 사용하는 단계를 포함하는 계정 추가 방법.
  6. 제5항에 있어서, 상기 방법은,
    유사성이 상기 제1 사전 설정된 임계값 이상인 계정이 존재하지 않을 때, 유사성이 제2 사전 설정된 임계값 이상인 계정을 상기 단말에 송신하는 단계를 더 포함하며, 상기 제2 사전 설정된 임계값은 상기 제1 사전 설정된 임계값 미만인 계정 추가 방법.
  7. 제4항에 있어서, 상기 방법은,
    상기 검색해 낸 매칭 결과에서 하나의 매칭된 계정이 발견될 때, 상기 성문 정보 및 상기 매칭된 계정에 대응하는 성문 정보에 대해 유사성 비교를 수행하는 단계; 및
    유사성이 제1 사전 설정된 임계값 이상일 때, 상기 계정을 상기 성문 정보와 매칭하는 계정으로서 사용하는 단계를 더 포함하는 계정 추가 방법.
  8. 단말로서,
    계정에 대한 보이스 정보를 수집하도록 구성되는 수집 유닛 - 상기 계정에는 계정의 제약 규칙이 설정됨 - ;
    상기 보이스 정보를 파싱하고, 문자 스트링 정보 및 성문 정보를 추출하도록 구성되는 추출 유닛 - 상기 문자 스트링 정보가 상기 계정의 무효 문자를 포함하지 말아야하는 제약 규칙을 충족하지 않을 경우 추출된 문자 스트링 정보가 상기 계정의 제약 규칙을 충족할 때까지 상기 계정에 대한 보이스 정보를 다시 수집함 - ;
    상기 문자 스트링 정보 및 상기 성문 정보를 서버에 송신하도록 구성되는 송신 유닛;
    상기 문자 스트링 정보 및 상기 성문 정보와 매칭하고 상기 서버에 의해 송신되는 계정을 수신하도록 구성되는 수신 유닛; 및
    상기 계정을 계정 리스트에 추가하도록 구성되는 추가 유닛
    을 포함하는 단말.
  9. 제8항에 있어서, 상기 추출 유닛은,
    상기 보이스 정보에 대해 침묵 억제를 수행하도록 구성되는 침묵 억제 서브유닛;
    침묵 억제가 수행된 상기 보이스 정보에 대해 프레이밍 처리를 수행하도록 구성되는 프레이밍 서브유닛;
    프레이밍 처리가 수행된 상기 보이스 정보로부터 사운드 특징값을 추출하도록 구성되는 특징값 추출 유닛 - 상기 추출된 사운드 특징값은 상기 성문 정보를 표현함 -; 및
    상기 문자 스트링 정보를 획득하기 위해 상기 추출된 사운드 특징값에 대해 디코딩 처리를 수행하도록 구성되는 디코딩 유닛을 포함하는 단말.
  10. 서버로서,
    단말에 의해 송신되는 문자 스트링 정보 및 성문 정보를 수신하도록 구성되는 수신 유닛 - 상기 문자 스트링 정보는 계정의 무효 문자를 포함하지 말아야하는 제약 규칙을 충족함 - ;
    상기 문자 스트링 정보와 매칭하는 계정에 대해 데이터베이스를 검색하고, 검색해 낸 매칭 결과에서 상기 성문 정보와 매칭하는 계정을 검색하도록 구성되는 검색 유닛; 및
    상기 단말이 상기 계정을 계정 리스트에 추가하도록 상기 문자 스트링 정보 및 상기 성문 정보와 매칭하는 계정을 상기 단말에 송신하도록 구성되는 송신 유닛
    을 포함하는 서버.
  11. 제10항에 있어서, 상기 검색 유닛은,
    상기 검색해 낸 매칭 결과에서 2개 이상의 매칭된 계정이 발견될 때, 상기 문자 스트링 정보 및 상기 성문 정보와 매칭하는 계정으로서, 상기 2개 이상의 매칭된 계정들로부터 상기 성문 정보와 매칭하는 계정을 검색하도록 구성되는 제2 검색 서브유닛을 포함하는 서버.
  12. 제11항에 있어서, 상기 데이터베이스는 상기 2개 이상의 매칭된 계정들에 대응하는 성문 정보를 저장하고,
    상기 제2 검색 서브유닛은, 상기 성문 정보 및 상기 2개 이상의 매칭된 계정들에 대응하는 각각의 성문 정보에 대해 유사성 비교를 수행하고, 유사성이 제1 사전 설정된 임계값 이상인 계정이 존재할 때, 상기 계정을 상기 성문 정보와 매칭하는 계정으로서 사용하도록 더 구성되는 서버.
  13. 제12항에 있어서, 상기 송신 유닛은 유사성이 상기 제1 사전 설정된 임계값 이상인 계정이 존재하지 않을 때, 유사성이 제2 사전 설정된 임계값 이상인 계정을 상기 단말에 송신하도록 더 구성되며, 상기 제2 사전 설정된 임계값은 상기 제1 사전 설정된 임계값 미만인 서버.
  14. 제11항에 있어서, 상기 제2 검색 서브유닛은 상기 검색해 낸 매칭 결과에서 하나의 매칭된 계정이 발견될 때, 상기 성문 정보 및 상기 매칭된 계정에 대응하는 성문 정보에 대해 유사성 비교를 수행하고, 유사성이 제1 사전 설정된 임계값 이상일 때, 상기 계정을 상기 성문 정보와 매칭하는 계정으로서 사용하도록 더 구성되는 서버.
  15. 컴퓨터 저장 매체로서, 상기 컴퓨터 저장 매체는 컴퓨터 실행가능 명령어를 저장하고, 상기 컴퓨터 실행가능 명령어는 제1항 내지 제7항 중 어느 한 항에 따른 계정 추가 방법을 실행하기 위해 사용되는 컴퓨터 저장 매체.
KR1020177033958A 2015-11-17 2016-06-15 계정 추가 방법, 단말, 서버, 및 컴퓨터 저장 매체 KR102081495B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510791070.8 2015-11-17
CN201510791070.8A CN106710593B (zh) 2015-11-17 2015-11-17 一种添加账号的方法、终端、服务器
PCT/CN2016/085789 WO2017084327A1 (zh) 2015-11-17 2016-06-15 一种添加账号的方法、终端、服务器、计算机存储介质

Publications (2)

Publication Number Publication Date
KR20170139650A KR20170139650A (ko) 2017-12-19
KR102081495B1 true KR102081495B1 (ko) 2020-02-25

Family

ID=58717294

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177033958A KR102081495B1 (ko) 2015-11-17 2016-06-15 계정 추가 방법, 단말, 서버, 및 컴퓨터 저장 매체

Country Status (5)

Country Link
US (1) US10270736B2 (ko)
JP (1) JP6469252B2 (ko)
KR (1) KR102081495B1 (ko)
CN (1) CN106710593B (ko)
WO (1) WO2017084327A1 (ko)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106209604A (zh) * 2016-08-26 2016-12-07 北京小米移动软件有限公司 添加好友的方法及装置
CN107580122A (zh) * 2017-08-30 2018-01-12 努比亚技术有限公司 一种信息处理方法、终端和计算机可读存储介质
GB201720418D0 (en) * 2017-11-13 2018-01-24 Cirrus Logic Int Semiconductor Ltd Audio peripheral device
GB201801875D0 (en) * 2017-11-14 2018-03-21 Cirrus Logic Int Semiconductor Ltd Audio processing
CN107734193A (zh) * 2017-11-22 2018-02-23 深圳悉罗机器人有限公司 智能设备系统及智能设备控制方法
CN108320756B (zh) * 2018-02-07 2021-12-03 广州酷狗计算机科技有限公司 一种检测音频是否是纯音乐音频的方法和装置
CN108491379A (zh) * 2018-03-08 2018-09-04 平安科技(深圳)有限公司 快捷键识别方法、装置、设备以及计算机可读存储介质
CN108712729B (zh) * 2018-05-30 2021-03-02 福州米鱼信息科技有限公司 一种主动社交型穿戴设备及其实现方法
CN110798393B (zh) * 2018-08-02 2021-10-26 腾讯科技(深圳)有限公司 声纹气泡的展示方法及使用声纹气泡的终端
CN112447179A (zh) * 2019-08-29 2021-03-05 中国移动通信有限公司研究院 一种语音交互方法、装置、设备及计算机可读存储介质
CN112835900A (zh) * 2021-02-01 2021-05-25 深圳市科荣软件股份有限公司 农村污水智慧运营系统、方法、电子设备及存储介质
CN114363387A (zh) * 2021-12-31 2022-04-15 北京沃东天骏信息技术有限公司 应用拉活方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009508144A (ja) * 2005-05-27 2009-02-26 ポーティカス テクノロジー,インク. 生体測定声紋認証方法および生体測定声紋認証装置
WO2015096503A1 (en) * 2013-12-24 2015-07-02 Tencent Technology (Shenzhen) Company Limited Method, device and system for associating and managing payment accounts

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999000719A1 (en) * 1997-06-27 1999-01-07 Lernout & Hauspie Speech Products N.V. Access-controlled computer system with automatic speech recognition
AU2001295952A1 (en) * 2000-10-19 2002-04-29 Nippon Kayaku Kabushiki Kaisha Novel remedies or preventives for angiostenosis
US20040190688A1 (en) * 2003-03-31 2004-09-30 Timmins Timothy A. Communications methods and systems using voiceprints
KR20010069650A (ko) * 2001-04-25 2001-07-25 백종관 숫자로 구성된 어휘를 인식하고 동시에 발성화자를인증하는 방법 및 그 시스템
KR20040110762A (ko) * 2003-06-20 2004-12-31 주식회사 케이티 버디콜 서비스 시스템 및 그 제공 방법
KR100547858B1 (ko) * 2003-07-07 2006-01-31 삼성전자주식회사 음성인식 기능을 이용하여 문자 입력이 가능한 이동통신단말기 및 방법
JP4387273B2 (ja) * 2004-09-10 2009-12-16 東芝テック株式会社 個人認証装置
JP2008015439A (ja) * 2006-07-07 2008-01-24 Takashi I 音声認識システム
JP4661917B2 (ja) * 2008-07-25 2011-03-30 日産自動車株式会社 駐車支援装置および駐車支援方法
US10680840B2 (en) * 2008-08-28 2020-06-09 Lawrence A. Jonas System for integrating multiple IM networks and social networking websites
US9262612B2 (en) * 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
CN103532916B (zh) * 2012-07-05 2017-04-05 百度在线网络技术(北京)有限公司 通过语音获取信息的方法、移动终端和语音信息系统
CN103581109B (zh) * 2012-07-19 2018-03-02 北京京东尚科信息技术有限公司 声纹登录购物系统和方法
CN103118000A (zh) * 2012-12-07 2013-05-22 大连奥林匹克电子城咨信商行 一种基于声音匹配的在线登陆身份认证方法
US20160065558A1 (en) * 2013-01-08 2016-03-03 Coursera, Inc. Identity verification for online education
US8917848B2 (en) * 2013-03-15 2014-12-23 Telmate, Llc Call management for secure facilities
CN103679452A (zh) * 2013-06-20 2014-03-26 腾讯科技(深圳)有限公司 支付验证方法、装置及系统
CN104092653B (zh) * 2014-01-20 2017-01-25 腾讯科技(深圳)有限公司 一种数据处理的方法和系统
JP2015170215A (ja) * 2014-03-07 2015-09-28 株式会社東芝 保守員認証システム及びプログラム
CN104935713A (zh) * 2014-03-20 2015-09-23 海尔集团公司 通信终端存储电话号码的方法及装置
CN105100028A (zh) * 2014-05-22 2015-11-25 中兴通讯股份有限公司 账号管理方法及装置
CN105306657B (zh) * 2014-06-20 2019-07-26 中兴通讯股份有限公司 身份识别方法、装置及通讯终端
JP2015143866A (ja) * 2015-02-25 2015-08-06 株式会社東芝 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
CN104967622B (zh) * 2015-06-30 2017-04-05 百度在线网络技术(北京)有限公司 基于声纹的通讯方法、装置和系统
US9938882B2 (en) * 2015-07-14 2018-04-10 Hyundai Motor Company Coolant circulation system for turbocharger

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009508144A (ja) * 2005-05-27 2009-02-26 ポーティカス テクノロジー,インク. 生体測定声紋認証方法および生体測定声紋認証装置
WO2015096503A1 (en) * 2013-12-24 2015-07-02 Tencent Technology (Shenzhen) Company Limited Method, device and system for associating and managing payment accounts

Also Published As

Publication number Publication date
CN106710593A (zh) 2017-05-24
US20180013718A1 (en) 2018-01-11
KR20170139650A (ko) 2017-12-19
CN106710593B (zh) 2020-07-14
WO2017084327A1 (zh) 2017-05-26
JP6469252B2 (ja) 2019-02-13
JP2018522303A (ja) 2018-08-09
US10270736B2 (en) 2019-04-23

Similar Documents

Publication Publication Date Title
KR102081495B1 (ko) 계정 추가 방법, 단말, 서버, 및 컴퓨터 저장 매체
US9047868B1 (en) Language model data collection
CN109192202B (zh) 语音安全识别方法、装置、计算机设备及存储介质
JP6651973B2 (ja) 対話処理プログラム、対話処理方法および情報処理装置
WO2020007129A1 (zh) 基于语音交互的上下文获取方法及设备
CN110853615B (zh) 一种数据处理方法、装置及存储介质
EP2609588A1 (en) Speech recognition language model
CN106713111B (zh) 一种添加好友的处理方法、终端及服务器
CN112102850B (zh) 情绪识别的处理方法、装置、介质及电子设备
JPWO2016151699A1 (ja) 学習装置、方法およびプログラム
US9251808B2 (en) Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof
TW201606750A (zh) 使用外國字文法的語音辨識
WO2015103836A1 (zh) 一种语音控制方法及装置
JP2012113542A (ja) 感情推定装置、その方法、プログラム及びその記録媒体
US8868419B2 (en) Generalizing text content summary from speech content
KR102312993B1 (ko) 인공신경망을 이용한 대화형 메시지 구현 방법 및 그 장치
CN114155860A (zh) 摘要记录方法、装置、计算机设备和存储介质
CN114125506B (zh) 语音审核方法及装置
US10282417B2 (en) Conversational list management
KR102536944B1 (ko) 음성 신호 처리 방법 및 장치
JP2018092485A (ja) 文生成装置、文生成方法及びプログラム
CN115150660B (zh) 一种基于字幕的视频编辑方法和相关设备
KR102389995B1 (ko) 자연발화 음성 생성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
JP2021082125A (ja) 対話装置
KR102378895B1 (ko) 음성 인식을 위한 호출어 학습 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant