WO2021051504A1 - 异常通话对象的判断方法、装置、计算机设备和存储介质 - Google Patents

异常通话对象的判断方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
WO2021051504A1
WO2021051504A1 PCT/CN2019/116342 CN2019116342W WO2021051504A1 WO 2021051504 A1 WO2021051504 A1 WO 2021051504A1 CN 2019116342 W CN2019116342 W CN 2019116342W WO 2021051504 A1 WO2021051504 A1 WO 2021051504A1
Authority
WO
WIPO (PCT)
Prior art keywords
call
voice
preset
sound
terminal
Prior art date
Application number
PCT/CN2019/116342
Other languages
English (en)
French (fr)
Inventor
王珏
彭俊清
王健宗
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2021051504A1 publication Critical patent/WO2021051504A1/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/12Detection or prevention of fraud
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/12Detection or prevention of fraud
    • H04W12/121Wireless intrusion detection systems [WIDS]; Wireless intrusion prevention systems [WIPS]
    • H04W12/122Counter-measures against attacks; Protection against rogue devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/12Detection or prevention of fraud
    • H04W12/128Anti-malware arrangements, e.g. protection against SMS fraud or mobile malware

Definitions

  • This application relates to the computer field, and in particular to a method, device, computer equipment and storage medium for judging an abnormal call object.
  • Abnormal calls such as malicious sales, fraudulent calls, phishing calls, etc.
  • abnormal calls have always been a long-standing problem that plagued users, causing billions of dollars in financial losses worldwide every year.
  • the development of artificial intelligence technology has given birth to the rapid maturity of the automatic outbound robot industry.
  • the current market requires only a few thousand yuan to introduce automatic outbound robot products. More and more businesses use outbound robot products. Substituting manual agents to complete telemarketing tasks. Under such circumstances, the problem of abnormal telephone calls becomes more serious.
  • Most of the industry’s handling of abnormal calls adopts the standard “marking-intercepting” method.
  • this application proposes a method for judging an abnormal call object, which is applied to a server, and includes:
  • first call voice is the call voice between the first user terminal and the first target terminal
  • second call voice is the call between the second user terminal and the second target terminal voice
  • first sound data and the second sound data are both electronic sounds, construct a call channel, and the call channel is used to connect the first target terminal and the second target terminal;
  • first mood fluctuation value and the second mood fluctuation value are both less than a preset mood fluctuation threshold, it is determined that the first object end and the second object end are both abnormal call subjects.
  • the method, device, computer equipment, and storage medium for determining an abnormal call object of the present application are used to obtain a first call voice and obtain a second call voice; extract all the voices from the first call voice and the second call voice.
  • FIG. 1 is a schematic flowchart of a method for judging an abnormal call party according to an embodiment of the application
  • FIG. 2 is a schematic block diagram of the structure of a device for judging an abnormal call object according to an embodiment of the application
  • first sound data and the second sound data are both electronic sounds, construct a call channel, where the call channel is used to connect the first object terminal and the second object terminal;
  • S5. Record the conversation content of the first object end and the second object end, and input the conversation content into a preset mood fluctuation recognition model for processing to obtain the first mood fluctuation value of the first object end and The second mood fluctuation value of the second object terminal;
  • the present application constructs a call channel, which is used to connect the first object terminal and the second object terminal, and uses the mood fluctuation value to determine whether the first object terminal and the second object terminal are abnormal call targets, thereby reducing Calculate stress (no need to build and use answering robots) and improve the accuracy of judging abnormal calls (natural persons have mood swings, but robots do not).
  • the idea of the technical solution of this application is to first assume that both the first object end and the second object end are robots, and the speech used by the robot is electronically synthesized sound (electronic sound), and the two robots are connected because the robot’s Mechanically, it will continue to talk for the purpose of malicious promotion or information collection, and the robot has no emotional fluctuations during the conversation, so it can judge whether it is an abnormal conversation partner.
  • the abnormal call object refers to a call object that complies with the judgment method of this application.
  • the first call voice is obtained, and the second call voice is obtained, wherein the first call voice is the call voice between the first user terminal and the first object terminal, and the second call voice is the second user Voice of the call between the terminal and the second party.
  • the first call voice and the second call voice are both acquired during a call that is kept connected at the current time.
  • the first user end and the second user end are the consumer ends of the service provided by the server of this application, and the first object end and the second object end are the objects to be judged by this application.
  • the first sound data of the first object and the second object are extracted from the first call voice and the second call voice, respectively The second sound data of the end. Since the characteristics of human voiceprints are different, they can be used as a basis for identity authentication, and the voices of two callers can also be distinguished, and voice data can be extracted based on this.
  • the voice data extraction method can be any method, for example, including: obtaining the first voiceprint feature corresponding to the first user terminal pre-stored, and obtaining the second voiceprint feature corresponding to the second user terminal pre-stored; according to the preset speech
  • the human clustering technology performs clustering processing on the first call voice, thereby obtaining two first voice sets with different voiceprint characteristics, and removing the first voice sets that do not meet the first voiceprint characteristics Recorded as the first voice data of the first object terminal; clustering the second call voice according to the preset speaker clustering technology, so as to obtain two second voice sets with different voiceprint characteristics,
  • the second voice set that does not meet the second voiceprint feature is recorded as the second voice data of the second object end; the first voice data and the second voice data are extracted.
  • the preset electronic sound judgment method it is judged whether the first sound data is an electronic sound, and it is judged whether the second sound data is an electronic sound.
  • the speech used by the robot is electronically synthesized sound (electronic sound), and the utterance of a natural person is generally distinct from electronic sound. Therefore, if the sound data is determined to be electronic sound, there is reason to suspect that it is an abnormal object.
  • the preset electronic sound judgment method may be any method, for example, the sound data is compared with the electronic sound in a pre-stored electronic sound database, and if the comparison result is similar, the sound data is determined to be an electronic sound.
  • the preset electronic sound judgment method includes: recognizing the first sound data to obtain a text text; using a preset electronic sound to generate a reference voice according to the text text; judging the reference voice and the first sound The degree of similarity of the data; if the degree of similarity is greater than the preset threshold, it is determined that the first sound data is an electronic sound.
  • the degree of similarity can be a degree of similarity that is feasible in any aspect, such as the degree of similarity of voiceprint features, the degree of similarity of waveform graphs, and so on.
  • step S4 if the first sound data and the second sound data are both electronic tones, then a call channel is constructed, and the call channel is used to connect the first object terminal and the second Object side. If the first sound data and the second sound data are both electronic sounds, the first object terminal and the second object terminal may both be robots, and a call channel is constructed accordingly, and the call channel is used To connect the first object end and the second object end. In this way, the content of the call can be obtained without the need to construct and use the answering robot.
  • step S6 it is determined whether the first mood fluctuation value and the second mood fluctuation value are both smaller than a preset mood fluctuation threshold.
  • the magnitude of the emotional change reflected by the mood swing value is associated with a natural person, while the robot does not have mood swings. Therefore, the mood fluctuation value is used as the basis for judging whether it is an abnormal object.
  • step S7 if the first mood fluctuation value and the second mood fluctuation value are both less than the preset mood fluctuation threshold, it is determined that both the first object end and the second object end are abnormal The person you are talking to. If the first mood fluctuation value and the second mood fluctuation value are both less than the preset mood fluctuation threshold, it indicates that neither the first object end nor the second object end has a large emotional change, and accordingly It is determined that the first object end and the second object end are both abnormal call objects.
  • Step S2 of the second sound data of the object terminal includes:
  • S201 Acquire a first voiceprint feature corresponding to a pre-stored first user terminal, and acquire a second voiceprint feature corresponding to a pre-stored second user terminal;
  • the first sound data of the first target terminal and the second sound data of the second target terminal are extracted from the first call voice and the second call voice. Since the first client and the second client are consumers of the server of the present application, the corresponding voiceprint features are stored in the server in advance, and the voices of the first client and the second client can be identified accordingly.
  • the preset speaker clustering technology refers to classifying speech fragments with the same voiceprint characteristics into one category to form a speech set, so that the first call speech mixed with two speakers is separated into two first speeches set.
  • One of the two first voice sets is the first user terminal and the other is the first object terminal.
  • the first voice set that does not meet the first voiceprint feature is the first voice set of the first object terminal. Sound data.
  • the second sound data of the second object terminal can be obtained.
  • the step S3 of judging whether the first sound data is an electronic sound according to a preset electronic sound judgment method includes:
  • H(t) where f(t) is the expression function of the preset electronic sound waveform diagram, and E(t) is the difference function of the function F(t) and the function f(t), Is the differential function of the difference function with respect to time, t is time, and m is a preset error parameter value greater than 0;
  • the waveform diagram has a corresponding function expression, according to which the expression function F(t) of the waveform diagram corresponding to the first sound data is generated.
  • the method includes:
  • the first sound data or the second sound data of the electronic sound will be recorded as suspect sound data, and the suspect sound data The corresponding object end is recorded as the suspect object end;
  • this application uses a preset answering robot to make a call with the suspect terminal, so as to obtain the content of the call. And the suspect is also a robot, then the call between the answering robot and the suspect will be able to proceed without leaking the privacy of the user.
  • the content of the conversation between the suspect object terminal and the preset answering robot is recorded, and the content of the conversation is input into a preset emotion fluctuation recognition model for processing, to obtain the suspect emotion fluctuation value of the suspect object terminal Before step S33, include:
  • S321. Use the answering robot to input a stimulus sound in a call channel, where the stimulus sound includes noise, a sound with a volume greater than a preset volume threshold, or a sound with a frequency greater than a preset frequency threshold;
  • the content of the call is input into a preset mood fluctuation recognition model for processing to obtain the first mood fluctuation value of the first object end and the second mood fluctuation value of the second object end
  • Step S5 includes:
  • the content of the call is input into the preset mood fluctuation recognition model for processing, and the first mood fluctuation value of the first object end and the second mood fluctuation value of the second object end are obtained.
  • S02. Determine whether the phone numbers of the first object terminal and the second object terminal belong to a preset abnormal database
  • the use of pre-judgment is realized to identify the abnormal call terminal.
  • the phone number is marked and stored in the preset abnormal database, it means that the phone number often conducts abnormal calls such as malicious promotion and fraud. At this time, it can be directly determined as an abnormal call object; otherwise, it cannot be determined. Whether it is an abnormal call partner requires further judgment. If the activation time of the phone number is later than the preset time point, it indicates that the phone number is a new network user. Due to lack of sufficient call record information, it may be an abnormal call partner. Therefore, further identification is required, and the call voice acquisition instruction is generated accordingly.
  • the call voice obtaining instruction is used to instruct to obtain the first call voice and to obtain the second call voice.
  • an embodiment of the present application provides a device for judging an abnormal call object, which is applied to a server, and includes:
  • the call voice acquisition unit 10 is configured to obtain a first call voice and a second call voice, where the first call voice is the call voice between the first user terminal and the first object terminal, and the second call voice is the second call voice.
  • the electronic sound judgment unit 30 is configured to judge whether the first sound data is an electronic sound according to a preset electronic sound judgment method, and judge whether the second sound data is an electronic sound;
  • the mood fluctuation threshold judging unit 60 is configured to judge whether the first mood fluctuation value and the second mood fluctuation value are both smaller than a preset mood fluctuation threshold;
  • the sound data extraction unit 20 includes:
  • the second voice data acquisition subunit is used to perform clustering processing on the second call voice according to the preset speaker clustering technology, so as to obtain two second voice sets with different voiceprint characteristics, and will not The second voice set conforming to the second voiceprint feature is recorded as the second voice data of the second object terminal;
  • the sound data extraction subunit is used to extract the first sound data and the second sound data.
  • the electronic sound judgment unit 30 includes:
  • the expression function F(t) generating subunit is used to generate the expression function F(t) of the waveform diagram corresponding to the first sound data according to the first sound data;
  • the device includes:
  • the suspect marking unit is configured to record the first sound data or the second sound data of the electronic sound as suspect sound data if only one of the first sound data and the second sound data is an electronic sound, so The object terminal corresponding to the suspicious voice data is recorded as the suspect object terminal;
  • the suspicious mood fluctuation value acquisition unit is used to record the content of the conversation between the suspect object terminal and the preset answering robot, and input the content of the conversation into the preset emotion fluctuation recognition model for processing, to obtain the suspect emotion fluctuation of the suspect object terminal value;
  • the suspicious mood fluctuation value judgment unit is used to judge whether the suspect mood fluctuation value is less than a preset mood fluctuation threshold
  • the suspicious object terminal judging unit is configured to determine that the suspect object terminal is an abnormal call object if the suspect emotional fluctuation value is less than a preset emotional fluctuation threshold.
  • the device includes:
  • a stimulus sound input unit configured to use the response robot to input a stimulus sound in a call channel, wherein the stimulus sound includes noise, a sound with a volume greater than a preset volume threshold, or a sound with a frequency greater than a preset frequency threshold;
  • the call record instruction generating unit is used to generate a call record instruction, wherein the call record instruction is used to instruct to record the content of the call between the suspected object terminal and the preset answering robot, and the content of the call includes at least The response of the stimulating sound.
  • the call content recording unit 50 includes:
  • a voice segment collection acquiring subunit configured to separate the first voice segment collection of the first object end and the second speech segment collection of the second object end from the conversation content
  • a voice feature data collection subunit configured to collect first voice feature data in the first voice segment set and second voice feature data in the second voice segment set;
  • An abnormal database determining unit configured to determine whether the phone numbers of the first object terminal and the second object terminal belong to a preset abnormal database
  • a time point judging unit configured to determine whether the phone number activation time is later than a preset time point if the phone numbers of the first object end and the second object end do not belong to a preset abnormal database ;
  • an embodiment of the present application also provides a computer device.
  • the computer device may be a server, and its internal structure may be as shown in the figure.
  • the computer equipment includes a processor, a memory, a network interface, and a database connected through a system bus. Among them, the processor designed by the computer is used to provide calculation and control capabilities.
  • the memory of the computer device includes a non-volatile storage medium and an internal memory.
  • the non-volatile storage medium stores an operating system, a computer program, and a database.
  • the memory provides an environment for the operation of the operating system and computer programs in the non-volatile storage medium.
  • the database of the computer equipment is used to store the data used in the judging method of the abnormal call object.
  • the network interface of the computer device is used to communicate with an external terminal through a network connection. When the computer program is executed by the processor, a method for judging an abnormal call object is realized.
  • the above-mentioned processor executes the above-mentioned method for judging an abnormal call object, wherein the steps included in the method respectively correspond to the steps of executing the method for judging an abnormal call object of the foregoing embodiment, and will not be repeated here.
  • An embodiment of the present application also provides a computer-readable storage medium on which a computer program is stored.
  • a method for judging an abnormal call object is realized, wherein the steps included in the method are respectively the same as those in the previous embodiments.
  • the steps of the method for judging abnormal call objects correspond one-to-one, so I won't repeat them here.
  • the computer-readable storage medium is, for example, a non-volatile computer-readable storage medium, or a volatile computer-readable storage medium.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Psychiatry (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一种异常通话对象的判断方法、装置、计算机设备和存储介质,所述方法包括:获取第一通话语音,以及获取第二通话语音;分别提取出所述第一对象端的第一声音数据以及所述第二对象端的第二声音数据;若所述第一声音数据和所述第二声音数据均为电子音,则构建通话通道;记录通话内容,并将所述通话内容输入预设的情绪波动识别模型中进行处理,得到所述第一对象端的第一情绪波动值和所述第二对象端的第二情绪波动值;若所述第一情绪波动值和所述第二情绪波动值均小于预设的情绪波动阈值,则判定所述第一对象端与所述第二对象端均为异常通话对象。从而提高了异常通话对象判断的准确性。

Description

异常通话对象的判断方法、装置、计算机设备和存储介质
本申请要求于2019年9月18日提交中国专利局、申请号为201910882722.7,发明名称为“异常通话对象的判断方法、装置、计算机设备和存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及到计算机领域,特别是涉及到一种异常通话对象的判断方法、装置、计算机设备和存储介质。
背景技术
非正常电话(异常电话),例如恶意推销、诈骗电话、钓鱼电话等等,一直是长期存在的令用户饱受困扰的问题,每年在全世界造成数十亿美元的财务损失。近几年人工智能技术的发展催生了自动外呼机器人产业的快速成熟,据统计目前市场上最低仅需要几千元即可引入自动外呼机器人产品,越来越多的商家使用外呼机器人产品替代人工坐席完成电话销售任务,在这样的情况使非正常电话问题更加严重。业内对于异常通话的处理大多采用“标记——拦截”这种标准的处理方法,虽然可以有效的降低骚扰电话对用户的影响,但是仍然有很多缺陷,比如:无法核实标记的准确性、若标记信息有误,用户可能会遗漏重要电话、面对不同用户很难用统一的指标实施拦截动作。因此目前判断异常通话的准确性较低。
技术问题
本申请的主要目的为提供一种异常通话对象的判断方法、装置、计算机设备和存储介质,旨在提高判断异常通话的准确性。
技术解决方案
为了实现上述发明目的,本申请提出一种异常通话对象的判断方法,应用于服务器,包括:
获取第一通话语音,以及获取第二通话语音,其中所述第一通话语音是第一用户端与第一对象端的通话语音,所述第二通话语音是第二用户端与第二对象端的通话语音;
根据预设的声音数据提取方法,分别从所述第一通话语音和所述第二通话语音中提取出所述第一对象端的第一声音数据以及所述第二对象端的第二声音数据;
根据预设的电子音判断方法,判断所述第一声音数据是否为电子音,并且判断所述第二声音数据是否为电子音;
若所述第一声音数据和所述第二声音数据均为电子音,则构建通话通道,所述通话通道用于接通所述第一对象端和所述第二对象端;
记录所述第一对象端和所述第二对象端的通话内容,并将所述通话内容输入预设的情绪波动识别模型中进行处理,得到所述第一对象端的第一情绪波动值和所述第二对象端的第二情绪波动值;
判断所述第一情绪波动值和所述第二情绪波动值是否均小于预设的情绪波动阈值;
若所述第一情绪波动值和所述第二情绪波动值均小于预设的情绪波动阈值,则判定所述第一对象端与所述第二对象端均为异常通话对象。
有益效果
本申请的异常通话对象的判断方法、装置、计算机设备和存储介质,获取第一通话语音,以及获取第二通话语音;分别从所述第一通话语音和所述第二通话语音中提取出所述第一对象端的第一声音数据以及所述第二对象端的第二声音数据;若所述第一声音数据和所述第二声音数据均为电子音,则构建通话通道,所述通话通道用于接通所述第一对象端和所述第二对象端;记录所述第一对象端和所述第二对象端的通话内容,并将所述通话内容输入预设的情绪波动识别模型中进行处理,得到所述第一对象端的第一情绪波动值和所述第二对象端的第二情绪波动值;若所述第一情绪波动值和所述第二情绪波动值均小于预设的情绪波动阈值,则判定所述第一对象端与所述第二对象端均为异常通话对象。从而提高了异常通话对象判断的准确性。
附图说明
图1为本申请一实施例的异常通话对象的判断方法的流程示意图;
图2为本申请一实施例的异常通话对象的判断装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
本申请的最佳实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种异常通话对象的判断方法,应用于服务器,包括:
S1、获取第一通话语音,以及获取第二通话语音,其中所述第一通话语音是第一用户端与第一对象端的通话语音,所述第二通话语音是第二用户端与第二对象端的通话语音;
S2、根据预设的声音数据提取方法,分别从所述第一通话语音和所述第二通话语音中提取出所述第一对象端的第一声音数据以及所述第二对象端的第二声音数据;
S3、根据预设的电子音判断方法,判断所述第一声音数据是否为电子音,并且判断所述第二声音数据是否为电子音;
S4、若所述第一声音数据和所述第二声音数据均为电子音,则构建通话通道,所述通话通道用于接通所述第一对象端和所述第二对象端;
S5、记录所述第一对象端和所述第二对象端的通话内容,并将所述通话内容输入预设的情绪波动识别模型中进行处理,得到所述第一对象端的第一情绪波动值和所述第二对象端的第二情绪波动值;
S6、判断所述第一情绪波动值和所述第二情绪波动值是否均小于预设的情绪波动阈值;
S7、若所述第一情绪波动值和所述第二情绪波动值均小于预设的情绪波动阈值,则判定所述第一对象端与所述第二对象端均为异常通话对象。
本申请通过构建通话通道,所述通话通道用于接通第一对象端和第二对象端的方式,并利用情绪波动值判断第一对象端和第二对象端是否为异常通话对象,从而减轻了计算压力(无需构建并且使用应答机器人)并且提高了判断异常通话的准确性(自然人具有情绪波动,而机器人没有)。本申请的技术方案的构思是,先假设第一对象端和第二对象端均是机器人,而机器人采用的语音则为电子合成音(电子音),并且将两个机器人接通,因为机器人的机械性,会持续通话以实现恶意推销或者信息采集的目的,并且在通话过程中机器人没有情绪波动,据此判断是否为异常通话对象。其中所述异常通话对象指的是,符合本申请的判断方法的通话对象。
如上述步骤S1所述,获取第一通话语音,以及获取第二通话语音,其中所述第一通话语音是第一用户端与第一对象端的通话语音,所述第二通话语音是第二用户端与第二对象端的通话语音。其中,所述第一通话语音与所述第二通话语音均是在当前时间保持连接的通话中获取的。所述第一用户端与所述第二用户端是本申请的服务器提供的服务的消费端,而所述第一对象端和所述第二对象端是本申请要进行判断的对象。
如上述步骤S2所述,根据预设的声音数据提取方法,分别从所述第一通话语音和所述第二通话语音中提取出所述第一对象端的第一声音数据以及所述第二对象端的第二声音数据。由于人的声纹特征是不同的,可用于身份认证的依据,同样也可以将两个通话对象的声音区别出来,据此可以提取出声音数据。其中,声音数据提取方法可以为任意方法,例如包括:获取预存的第一用户端对应的第一声纹特征,以及获取预存的第二用户端对应的第二声纹特征;根据预设的说话人聚类技术,对所述第一通话语音进行聚类处理,从而得到具有不同声纹特征的两个第一语音集,并将不符合所述第一声纹特征的所述第一语音集记为所述第一对象端的第一声音数据;根据预设的说话人聚类技术,对所述第二通话语音进行聚类处理,从而得到具有不同声纹特征的两个第二语音集,并将不符合所述第二声纹特征的所述第二语音集记为所述第二对象端的第二声音数据;提取所述第一声音数据和所述第二声音数据。
如上述步骤S3所述,根据预设的电子音判断方法,判断所述第一声音数据是否为电子音,并且判断所述第二声音数据是否为电子音。机器人采用的语音为电子合成音(电子音),而自然人的发声一般与电子音具有明显的区别,因此若确定声音数据为电子音,则有理由怀疑为非正常对象端。具体地,预设的电子音判断方法可为任意方法,例如将声音数据与预存的电子音数据库中的电子音进行对比,若对比结果为相似,则判定声音数据为电子音。更具体地,预设的电子音判断方法包括:识别所述第一声音数据得到文字文本;根据所述文字文本采用预设的电子音生成参照语音;判断所述参照语音与所述第一声音数据的相似程度;若相似程度大于预设阈值,则判定所述第一声音数据为电子音。其中相似程度可以为任意方面可行的相似程度,例如声纹特征的相似程度,波形图的相似程度等。
如上述步骤S4所述,若所述第一声音数据和所述第二声音数据均为电子音,则构建通话通道,所述通话通道用于接通所述第一对象端和所述第二对象端。若所述第一声音数据和所述第二声音数据均为电子音,则所述第一对象端和所述第二对象端有可能均为机器人,据此构建通话通道,所述通话通道用于接通所述第一对象端和所述第二对象端。从而在不需要构建应答机器人并且使用应答机器人的前提下,就能获取通话内容。
如上述步骤S5,记录所述第一对象端和所述第二对象端的通话内容,并将所述通话内容输入预设的情绪波动识别模型中进行处理,得到所述第一对象端的第一情绪波动值和所述第二对象端的第二情绪波动值。其中预设的情绪波动识别模型可为任意模型,例如为基于机器学习模型的情绪波动识别模型。所述机器学习模型例如为神经网络模型、卷积神经网络模型、长短期记忆网络模型等,在此不再赘述。所述将所述通话内容输入预设的情绪波动识别模型中进行处理例如为:从所述通话内容中分离出所述第一对象端的第一语音片段集合和所述第二对象端的第二语音片段集合;采集所述第一语音片段集合的第一声音特征数据和所述第二语音片段集合中的第二声音特征数据;根据公式:情绪波动值=(声音特征数据的最大值-声音特征数据的最小值)/声音特征数据的平均值,计算得到所述第一对象端对应的第一情绪波动值和所述第二对象端对应的第二情绪波动值。其中自然人的声音特征是与情绪关联的,例如恼怒时的音量一般大于平静时的音量,从而通过通话内容可以计算出情绪波动值。
如上述步骤S6所述,判断所述第一情绪波动值和所述第二情绪波动值是否均小于预设的情绪波动阈值。情绪波动值反应的情绪变化幅度,这与自然人关联,而机器人不具有情绪波动。因此以情绪波动值作为判断是否为非正常对象端的依据。
如上述步骤S7所述,若所述第一情绪波动值和所述第二情绪波动值均小于预设的情绪波动阈值,则判定所述第一对象端与所述第二对象端均为异常通话对象。若所述第一情绪波动值和所述第二情绪波动值均小于预设的情绪波动阈值,表明所述第一对象端与所述第二对象端均未出现较大的情绪变化,据此判定所述第一对象端与所述第二对象端均为异常通话对象。
在一个实施方式中,所述根据预设的声音数据提取方法,分别从所述第一通话语音和所述第二通话语音中提取出所述第一对象端的第一声音数据以及所述第二对象端的第二声音数据的步骤S2,包括:
S201、获取预存的第一用户端对应的第一声纹特征,以及获取预存的第二用户端对应的第二声纹特征;
S202、根据预设的说话人聚类技术,对所述第一通话语音进行聚类处理,从而得到具有不同声纹特征的两个第一语音集,并将不符合所述第一声纹特征的所述第一语音集记为所述第一对象端的第一声音数据;
S203、根据预设的说话人聚类技术,对所述第二通话语音进行聚类处理,从而得到具有不同声纹特征的两个第二语音集,并将不符合所述第二声纹特征的所述第二语音集记为所述第二对象端的第二声音 数据;
S204、提取所述第一声音数据和所述第二声音数据。
如上所述,实现了从所述第一通话语音和所述第二通话语音中提取出所述第一对象端的第一声音数据以及所述第二对象端的第二声音数据。由于第一用户端与第二用户端是本申请的服务器的消费者,预先在服务器中存储了对应的声纹特征,据此可以识别出第一用户端与第二用户端的语音。其中预设的说话人聚类技术是指将具有相同声纹特征的语音片段归为一类,从而形成语音集,以使混合有两个说话人的第一通话语音分离为两个第一语音集。其中两个第一语音集一者为第一用户端,一者为第一对象端,其中不符合所述第一声纹特征的所述第一语音集即为所述第一对象端的第一声音数据。同理可获取所述第二对象端的第二声音数据。
在一个实施方式中,所述根据预设的电子音判断方法,判断所述第一声音数据是否为电子音的步骤S3,包括:
S301、根据所述第一声音数据,生成所述第一声音数据对应的波形图的表达函数F(t);
S302、根据公式:
Figure PCTCN2019116342-appb-000001
获取函数H(t),其中f(t)为预设的电子音的波形图的表达函数,E(t)为所述函数F(t)与所述函数f(t)的差值函数,
Figure PCTCN2019116342-appb-000002
为所述差值函数对时间的微分函数,t为时间,m为预设的大于0的误差参数值;
S303、获取所述函数H(t)在时间轴上不等于m时的第一时间长度和等于m时的第二时间长度,根据公式:贴合程度值=所述第一时间长度/(所述第一时间长度+所述第二时间长度),计算出所述贴合程度值,并判断所述贴合程度值是否大于预设的贴合阈值;
S304、若所述贴合程度值大于预设的贴合阈值,则判定所述第一声音数据为电子音。
如上所述,实现了判断所述第一声音数据是否为电子音。声音是由机械振动而产生的,其本身具有对应的波形图,而波形图具有相应的函数表达式,据此生成第一声音数据对应的波形图的表达函数F(t)。再根据公式:
Figure PCTCN2019116342-appb-000003
获取函数H(t),获取所述函数H(t)在时间轴上不等于m时的第一时间长度和等于m时的第二时间长度,根据公式:贴合程度值=所述第一时间长度/(所述第一时间长度+所述第二时间长度),计算出所述贴合程度值,并判断所述贴合程度值是否大于预设的贴合阈值;若所述贴合程度值大于预设的贴合阈值,则判定所述第一声音数据为电子音。从而利用函数H(t)以确定第一声音数据与预设的电子音是否相近,据此确定是否为电子音。
在一个实施方式中,所述根据预设的电子音判断方法,判断所述第一声音数据是否为电子音,并且判断所述第二声音数据是否为电子音的步骤S3之后,包括:
S31、若所述第一声音数据和所述第二声音数据中仅有一者为电子音,则将为电子音的第一声音数据或者第二声音数据记为嫌疑声音数据,所述嫌疑声音数据对应对象端记为嫌疑对象端;
S32、构建通话通道以接通所述嫌疑对象端与预设的应答机器人;
S33、记录所述嫌疑对象端与预设的应答机器人的通话内容,并将通话内容输入预设的情绪波动识别模型中进行处理,得到所述嫌疑对象端的嫌疑情绪波动值;
S34、判断嫌疑情绪波动值是否小于预设的情绪波动阈值;
S35、若嫌疑情绪波动值小于预设的情绪波动阈值,则判定所述嫌疑对象端为异常通话对象。
如上所述,实现了对仅存在单个嫌疑对象端时的异常通话对象的判断。若所述第一声音数据和所述第二声音数据中仅有一者为电子音,则无法以接通第一对象端与第二对象端的方式获取通话内容。作为替换,本申请采用预设的应答机器人与嫌疑对象端进行通话,从而获取通话内容。并且嫌疑对象端或也为机器人,那么应答机器人与嫌疑对象端的通话将能够进行下去,并且不会泄漏用户端的隐私。再根据通话内容,判断嫌疑情绪波动值是否小于预设的情绪波动阈值,若嫌疑情绪波动值小于预设的情绪波动阈值,则判定所述嫌疑对象端为异常通话对象。
在一个实施方式中,所述记录所述嫌疑对象端与预设的应答机器人的通话内容,并将通话内容输入预设的情绪波动识别模型中进行处理,得到所述嫌疑对象端的嫌疑情绪波动值的步骤S33之前,包括:
S321、利用所述应答机器人在通话通道中输入刺激声音,其中所述刺激声音包括噪音、音量大于预设音量阈值的声音或者频率高于预设频率阈值的声音;
S322、生成通话记录指令,其中所述通话记录指令用于指示记录所述嫌疑对象端与预设的应答机器人的通话内容,所述通话内容至少包括所述嫌疑对象端针对所述刺激声音的回复。
如上所述,实现了采用输入刺激声音的方式,提高了判断的准确性。若对象端为自然人,并且未发现通话对象为机器人,或者自然人的自制力很强,那么对象端的情绪波动不大,从而造成异常通话对象的判断错误。本申请采用利用所述应答机器人在通话通道中输入刺激声音的方式,使得自然人受激会发生应激反应(例如尖叫),而所述应激反应难以被自然人控制,而机器人却不受此影响,从而提高了自然人的情绪波动值,据此提高了异常通话对象判断的准确性。
在一个实施方式中,所述将所述通话内容输入预设的情绪波动识别模型中进行处理,得到所述第一对象端的第一情绪波动值和所述第二对象端的第二情绪波动值的步骤S5,包括:
S501、从所述通话内容中分离出所述第一对象端的第一语音片段集合和所述第二对象端的第二语音片段集合;
S502、采集所述第一语音片段集合的第一声音特征数据和所述第二语音片段集合中的第二声音特征 数据;
S503、根据公式:情绪波动值=(声音特征数据的最大值-声音特征数据的最小值)/声音特征数据的平均值,计算得到所述第一对象端对应的第一情绪波动值和所述第二对象端对应的第二情绪波动值。
如上所述,实现了将所述通话内容输入预设的情绪波动识别模型中进行处理,得到所述第一对象端的第一情绪波动值和所述第二对象端的第二情绪波动值。其中声音特征数据可为任意数据,例如为音频、音量、语速等等。若情绪平稳,通话时的声音特征数据也应是保持在一定范围内,而情绪激动时,则声音特征数据会有大幅度的变化。因此,根据公式:情绪波动值=(声音特征数据的最大值-声音特征数据的最小值)/声音特征数据的平均值,计算得到所述第一对象端对应的第一情绪波动值和所述第二对象端对应的第二情绪波动值。
在一个实施方式中,所述获取第一通话语音,以及获取第二通话语音,其中所述第一通话语音是第一用户端与第一对象端的通话语音,所述第二通话语音是第二用户端与第二对象端的通话语音的步骤S1之前,包括:
S01、获取所述第一对象端和所述第二对象端的电话号码和电话号码激活时间;
S02、判断所述第一对象端和所述第二对象端的电话号码是否均属于预设的非正常数据库;
S03、若所述第一对象端和所述第二对象端的电话号码均不属于预设的非正常数据库,则判断所述电话号码激活时间是否均晚于预设的时间点;
S04、若所述电话号码激活时间均晚于预设的时间点,则生成通话语音获取指令,所述通话语音获取指令用于指示获取第一通话语音,以及获取第二通话语音。
如上所述,实现了采用预先判断以识别异常通话端。一般而言,若电话号码被标记并存入预设的非正常数据库,则表明该电话号码常进行恶意推销、诈骗等异常通话,此时即可直接判定其为异常通话对象;反之则不能确定其是否为异常通话对象,需要进一步判断。若电话号码激活时间晚于预设的时间点,表明该电话号码是新入网用户,由于缺少足够的通话记录信息,有可能为异常通话对象,因此需要进一步识别,据此生成通话语音获取指令,所述通话语音获取指令用于指示获取第一通话语音,以及获取第二通话语音。
参照图2,本申请实施例提供一种异常通话对象的判断装置,应用于服务器,包括:
通话语音获取单元10,用于获取第一通话语音,以及获取第二通话语音,其中所述第一通话语音是第一用户端与第一对象端的通话语音,所述第二通话语音是第二用户端与第二对象端的通话语音;
声音数据提取单元20,用于根据预设的声音数据提取方法,分别从所述第一通话语音和所述第二通话语音中提取出所述第一对象端的第一声音数据以及所述第二对象端的第二声音数据;
电子音判断单元30,用于根据预设的电子音判断方法,判断所述第一声音数据是否为电子音,并且判断所述第二声音数据是否为电子音;
通话通道构建单元40,用于若所述第一声音数据和所述第二声音数据均为电子音,则构建通话通道,所述通话通道用于接通所述第一对象端和所述第二对象端;
通话内容记录单元50,用于记录所述第一对象端和所述第二对象端的通话内容,并将所述通话内容输入预设的情绪波动识别模型中进行处理,得到所述第一对象端的第一情绪波动值和所述第二对象端的第二情绪波动值;
情绪波动阈值判断单元60,用于判断所述第一情绪波动值和所述第二情绪波动值是否均小于预设的情绪波动阈值;
异常通话对象判定单元70,用于若所述第一情绪波动值和所述第二情绪波动值均小于预设的情绪波动阈值,则判定所述第一对象端与所述第二对象端均为异常通话对象。
其中上述单元分别用于执行的操作与前述实施方式的异常通话对象的判断方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述声音数据提取单元20,包括:
声纹特征获取子单元,用于获取预存的第一用户端对应的第一声纹特征,以及获取预存的第二用户端对应的第二声纹特征;
第一声音数据获取子单元,用于根据预设的说话人聚类技术,对所述第一通话语音进行聚类处理,从而得到具有不同声纹特征的两个第一语音集,并将不符合所述第一声纹特征的所述第一语音集记为所述第一对象端的第一声音数据;
第二声音数据获取子单元,用于根据预设的说话人聚类技术,对所述第二通话语音进行聚类处理,从而得到具有不同声纹特征的两个第二语音集,并将不符合所述第二声纹特征的所述第二语音集记为所述第二对象端的第二声音数据;
声音数据提取子单元,用于提取所述第一声音数据和所述第二声音数据。
其中上述子单元分别用于执行的操作与前述实施方式的异常通话对象的判断方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述电子音判断单元30,包括:
表达函数F(t)生成子单元,用于根据所述第一声音数据,生成所述第一声音数据对应的波形图的表达函数F(t);
函数H(t)获取子单元,用于根据公式:
Figure PCTCN2019116342-appb-000004
获取函数H(t),其中f(t)为预设的电子音的波形图的表达函数,E(t)为所述函数F(t)与所述函数f(t)的差值函数,
Figure PCTCN2019116342-appb-000005
为所述差值函数对时间的微分函数,t为时间,m为预设的大于0的误差参数值;
贴合程度值计算子单元,用于获取所述函数H(t)在时间轴上不等于m时的第一时间长度和等于m时的第二时间长度,根据公式:贴合程度值=所述第一时间长度/(所述第一时间长度+所述第二时间长度),计算出所述贴合程度值,并判断所述贴合程度值是否大于预设的贴合阈值;
电子音判定子单元,用于若所述贴合程度值大于预设的贴合阈值,则判定所述第一声音数据为电子音。
其中上述子单元分别用于执行的操作与前述实施方式的异常通话对象的判断方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述装置,包括:
嫌疑标记单元,用于若所述第一声音数据和所述第二声音数据中仅有一者为电子音,则将为电子音的第一声音数据或者第二声音数据记为嫌疑声音数据,所述嫌疑声音数据对应对象端记为嫌疑对象端;
构建通话通道单元,用于构建通话通道以接通所述嫌疑对象端与预设的应答机器人;
嫌疑情绪波动值获取单元,用于记录所述嫌疑对象端与预设的应答机器人的通话内容,并将通话内容输入预设的情绪波动识别模型中进行处理,得到所述嫌疑对象端的嫌疑情绪波动值;
嫌疑情绪波动值判断单元,用于判断嫌疑情绪波动值是否小于预设的情绪波动阈值;
嫌疑对象端判定单元,用于若嫌疑情绪波动值小于预设的情绪波动阈值,则判定所述嫌疑对象端为异常通话对象。
其中上述单元分别用于执行的操作与前述实施方式的异常通话对象的判断方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述装置,包括:
刺激声音输入单元,用于利用所述应答机器人在通话通道中输入刺激声音,其中所述刺激声音包括噪音、音量大于预设音量阈值的声音或者频率高于预设频率阈值的声音;
通话记录指令生成单元,用于生成通话记录指令,其中所述通话记录指令用于指示记录所述嫌疑对象端与预设的应答机器人的通话内容,所述通话内容至少包括所述嫌疑对象端针对所述刺激声音的回复。
其中上述单元分别用于执行的操作与前述实施方式的异常通话对象的判断方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述通话内容记录单元50,包括:
语音片段集合获取子单元,用于从所述通话内容中分离出所述第一对象端的第一语音片段集合和所述第二对象端的第二语音片段集合;
声音特征数据采集子单元,用于采集所述第一语音片段集合的第一声音特征数据和所述第二语音片段集合中的第二声音特征数据;
情绪波动值计算子单元,用于根据公式:情绪波动值=(声音特征数据的最大值-声音特征数据的最小 值)/声音特征数据的平均值,计算得到所述第一对象端对应的第一情绪波动值和所述第二对象端对应的第二情绪波动值。
其中上述子单元分别用于执行的操作与前述实施方式的异常通话对象的判断方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述装置,包括:
电话号码获取单元,用于获取所述第一对象端和所述第二对象端的电话号码和电话号码激活时间;
非正常数据库判断单元,用于判断所述第一对象端和所述第二对象端的电话号码是否均属于预设的非正常数据库;
时间点判断单元,用于若所述第一对象端和所述第二对象端的电话号码均不属于预设的非正常数据库,则判断所述电话号码激活时间是否均晚于预设的时间点;
通话语音获取指令生成单元,用于若所述电话号码激活时间均晚于预设的时间点,则生成通话语音获取指令,所述通话语音获取指令用于指示获取第一通话语音,以及获取第二通话语音。
其中上述单元分别用于执行的操作与前述实施方式的异常通话对象的判断方法的步骤一一对应,在此不再赘述。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储异常通话对象的判断方法所用数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种异常通话对象的判断方法。
上述处理器执行上述异常通话对象的判断方法,其中所述方法包括的步骤分别与执行前述实施方式的异常通话对象的判断方法的步骤一一对应,在此不再赘述。
本领域技术人员可以理解,图中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现异常通话对象的判断方法,其中所述方法包括的步骤分别与执行前述实施方式的异常通话对象的判断方法的步骤一一对应,在此不再赘述。其中计算机可读存储介质例如为,非易失性的计算机可读存储介质,或者为易失性的计算机可读存储介质。

Claims (20)

  1. 一种异常通话对象的判断方法,应用于服务器,其特征在于,包括:
    获取第一通话语音,以及获取第二通话语音,其中所述第一通话语音是第一用户端与第一对象端的通话语音,所述第二通话语音是第二用户端与第二对象端的通话语音;
    根据预设的声音数据提取方法,分别从所述第一通话语音和所述第二通话语音中提取出所述第一对象端的第一声音数据以及所述第二对象端的第二声音数据;
    根据预设的电子音判断方法,判断所述第一声音数据是否为电子音,并且判断所述第二声音数据是否为电子音;
    若所述第一声音数据和所述第二声音数据均为电子音,则构建通话通道,所述通话通道用于接通所述第一对象端和所述第二对象端;
    记录所述第一对象端和所述第二对象端的通话内容,并将所述通话内容输入预设的情绪波动识别模型中进行处理,得到所述第一对象端的第一情绪波动值和所述第二对象端的第二情绪波动值;
    判断所述第一情绪波动值和所述第二情绪波动值是否均小于预设的情绪波动阈值;
    若所述第一情绪波动值和所述第二情绪波动值均小于预设的情绪波动阈值,则判定所述第一对象端与所述第二对象端均为异常通话对象。
  2. 根据权利要求1所述的异常通话对象的判断方法,其特征在于,所述根据预设的声音数据提取方法,分别从所述第一通话语音和所述第二通话语音中提取出所述第一对象端的第一声音数据以及所述第二对象端的第二声音数据的步骤,包括:
    获取预存的第一用户端对应的第一声纹特征,以及获取预存的第二用户端对应的第二声纹特征;
    根据预设的说话人聚类技术,对所述第一通话语音进行聚类处理,从而得到具有不同声纹特征的两个第一语音集,并将不符合所述第一声纹特征的所述第一语音集记为所述第一对象端的第一声音数据;
    根据预设的说话人聚类技术,对所述第二通话语音进行聚类处理,从而得到具有不同声纹特征的两个第二语音集,并将不符合所述第二声纹特征的所述第二语音集记为所述第二对象端的第二声音数据;
    提取所述第一声音数据和所述第二声音数据。
  3. 根据权利要求1所述的异常通话对象的判断方法,其特征在于,所述根据预设的电子音判断方法,判断所述第一声音数据是否为电子音的步骤,包括:
    根据所述第一声音数据,生成所述第一声音数据对应的波形图的表达函数F(t);
    根据公式:
    H(t)=min(G(t),m),其中
    Figure PCTCN2019116342-appb-100001
    获取函数H(t),其 中f(t)为预设的电子音的波形图的表达函数,E(t)为所述函数F(t)与所述函数f(t)的差值函数,
    Figure PCTCN2019116342-appb-100002
    为所述差值函数对时间的微分函数,t为时间,m为预设的大于0的误差参数值;
    获取所述函数H(t)在时间轴上不等于m时的第一时间长度和等于m时的第二时间长度,根据公式:贴合程度值=所述第一时间长度/(所述第一时间长度+所述第二时间长度),计算出所述贴合程度值,并判断所述贴合程度值是否大于预设的贴合阈值;
    若所述贴合程度值大于预设的贴合阈值,则判定所述第一声音数据为电子音。
  4. 根据权利要求1所述的异常通话对象的判断方法,其特征在于,所述根据预设的电子音判断方法,判断所述第一声音数据是否为电子音,并且判断所述第二声音数据是否为电子音的步骤之后,包括:
    若所述第一声音数据和所述第二声音数据中仅有一者为电子音,则将为电子音的第一声音数据或者第二声音数据记为嫌疑声音数据,所述嫌疑声音数据对应对象端记为嫌疑对象端;
    构建通话通道以接通所述嫌疑对象端与预设的应答机器人;
    记录所述嫌疑对象端与预设的应答机器人的通话内容,并将通话内容输入预设的情绪波动识别模型中进行处理,得到所述嫌疑对象端的嫌疑情绪波动值;
    判断嫌疑情绪波动值是否小于预设的情绪波动阈值;
    若嫌疑情绪波动值小于预设的情绪波动阈值,则判定所述嫌疑对象端为异常通话对象。
  5. 根据权利要求4所述的异常通话对象的判断方法,其特征在于,所述记录所述嫌疑对象端与预设的应答机器人的通话内容,并将通话内容输入预设的情绪波动识别模型中进行处理,得到所述嫌疑对象端的嫌疑情绪波动值的步骤之前,包括:
    利用所述应答机器人在通话通道中输入刺激声音,其中所述刺激声音包括噪音、音量大于预设音量阈值的声音或者频率高于预设频率阈值的声音;
    生成通话记录指令,其中所述通话记录指令用于指示记录所述嫌疑对象端与预设的应答机器人的通话内容,所述通话内容至少包括所述嫌疑对象端针对所述刺激声音的回复。
  6. 根据权利要求1所述的异常通话对象的判断方法,其特征在于,所述将所述通话内容输入预设的情绪波动识别模型中进行处理,得到所述第一对象端的第一情绪波动值和所述第二对象端的第二情绪波动值的步骤,包括:
    从所述通话内容中分离出所述第一对象端的第一语音片段集合和所述第二对象端的第二语音片段集合;
    采集所述第一语音片段集合的第一声音特征数据和所述第二语音片段集合中的第二声音特征数据;
    根据公式:情绪波动值=(声音特征数据的最大值-声音特征数据的最小值)/声音特征数据的平均值,计算得到所述第一对象端对应的第一情绪波动值和所述第二对象端对应的第二情绪波动值。
  7. 根据权利要求1所述的异常通话对象的判断方法,其特征在于,所述获取第一通话语音,以及获取第二通话语音,其中所述第一通话语音是第一用户端与第一对象端的通话语音,所述第二通话语音是第二用户端与第二对象端的通话语音的步骤之前,包括:
    获取所述第一对象端和所述第二对象端的电话号码和电话号码激活时间;
    判断所述第一对象端和所述第二对象端的电话号码是否均属于预设的非正常数据库;
    若所述第一对象端和所述第二对象端的电话号码均不属于预设的非正常数据库,则判断所述电话号码激活时间是否均晚于预设的时间点;
    若所述电话号码激活时间均晚于预设的时间点,则生成通话语音获取指令,所述通话语音获取指令用于指示获取第一通话语音,以及获取第二通话语音。
  8. 一种异常通话对象的判断装置,应用于服务器,其特征在于,包括:
    通话语音获取单元,用于获取第一通话语音,以及获取第二通话语音,其中所述第一通话语音是第一用户端与第一对象端的通话语音,所述第二通话语音是第二用户端与第二对象端的通话语音;
    声音数据提取单元,用于根据预设的声音数据提取方法,分别从所述第一通话语音和所述第二通话语音中提取出所述第一对象端的第一声音数据以及所述第二对象端的第二声音数据;
    电子音判断单元,用于根据预设的电子音判断方法,判断所述第一声音数据是否为电子音,并且判断所述第二声音数据是否为电子音;
    通话通道构建单元,用于若所述第一声音数据和所述第二声音数据均为电子音,则构建通话通道,所述通话通道用于接通所述第一对象端和所述第二对象端;
    通话内容记录单元,用于记录所述第一对象端和所述第二对象端的通话内容,并将所述通话内容输入预设的情绪波动识别模型中进行处理,得到所述第一对象端的第一情绪波动值和所述第二对象端的第二情绪波动值;
    情绪波动阈值判断单元,用于判断所述第一情绪波动值和所述第二情绪波动值是否均小于预设的情绪波动阈值;
    异常通话对象判定单元,用于若所述第一情绪波动值和所述第二情绪波动值均小于预设的情绪波动阈值,则判定所述第一对象端与所述第二对象端均为异常通话对象。
  9. 根据权利要求8所述的异常通话对象的判断装置,其特征在于,所述声音数据提取单元,包括:
    声纹特征获取子单元,用于获取预存的第一用户端对应的第一声纹特征,以及获取预存的第二用户端对应的第二声纹特征;
    第一声音数据获取子单元,用于根据预设的说话人聚类技术,对所述第一通话语音进行聚类处理,从而得到具有不同声纹特征的两个第一语音集,并将不符合所述第一声纹特征的所述第一语音集记为所述第一对象端的第一声音数据;
    第二声音数据获取子单元,用于根据预设的说话人聚类技术,对所述第二通话语音进行聚类处理,从而得到具有不同声纹特征的两个第二语音集,并将不符合所述第二声纹特征的所述第二语音集记为所述第二对象端的第二声音数据;
    声音数据提取子单元,用于提取所述第一声音数据和所述第二声音数据。
  10. 根据权利要求8所述的异常通话对象的判断装置,其特征在于,所述电子音判断单元,包括:
    表达函数F(t)生成子单元,用于根据所述第一声音数据,生成所述第一声音数据对应的波形图的表达函数F(t);
    函数H(t)获取子单元,用于根据公式:
    H(t)=min(G(t),m),其中
    Figure PCTCN2019116342-appb-100003
    获取函数H(t),其中f(t)为预设的电子音的波形图的表达函数,E(t)为所述函数F(t)与所述函数f(t)的差值函数,
    Figure PCTCN2019116342-appb-100004
    为所述差值函数对时间的微分函数,t为时间,m为预设的大于0的误差参数值;
    贴合程度值计算子单元,用于获取所述函数H(t)在时间轴上不等于m时的第一时间长度和等于m时的第二时间长度,根据公式:贴合程度值=所述第一时间长度/(所述第一时间长度+所述第二时间长度),计算出所述贴合程度值,并判断所述贴合程度值是否大于预设的贴合阈值;
    电子音判定子单元,用于若所述贴合程度值大于预设的贴合阈值,则判定所述第一声音数据为电子音。
  11. 根据权利要求8所述的异常通话对象的判断装置,其特征在于,所述装置,包括:
    嫌疑标记单元,用于若所述第一声音数据和所述第二声音数据中仅有一者为电子音,则将为电子音的第一声音数据或者第二声音数据记为嫌疑声音数据,所述嫌疑声音数据对应对象端记为嫌疑对象端;
    构建通话通道单元,用于构建通话通道以接通所述嫌疑对象端与预设的应答机器人;
    嫌疑情绪波动值获取单元,用于记录所述嫌疑对象端与预设的应答机器人的通话内容,并将通话内容输入预设的情绪波动识别模型中进行处理,得到所述嫌疑对象端的嫌疑情绪波动值;
    嫌疑情绪波动值判断单元,用于判断嫌疑情绪波动值是否小于预设的情绪波动阈值;
    嫌疑对象端判定单元,用于若嫌疑情绪波动值小于预设的情绪波动阈值,则判定所述嫌疑对象端为异常通话对象。
  12. 根据权利要求11所述的异常通话对象的判断装置,其特征在于,所述装置,包括:
    刺激声音输入单元,用于利用所述应答机器人在通话通道中输入刺激声音,其中所述刺激声音包括噪音、音量大于预设音量阈值的声音或者频率高于预设频率阈值的声音;
    通话记录指令生成单元,用于生成通话记录指令,其中所述通话记录指令用于指示记录所述嫌疑对象端与预设的应答机器人的通话内容,所述通话内容至少包括所述嫌疑对象端针对所述刺激声音的回复。
  13. 根据权利要求8所述的异常通话对象的判断装置,其特征在于,所述通话内容记录单元,包括:
    语音片段集合获取子单元,用于从所述通话内容中分离出所述第一对象端的第一语音片段集合和所述第二对象端的第二语音片段集合;
    声音特征数据采集子单元,用于采集所述第一语音片段集合的第一声音特征数据和所述第二语音片段集合中的第二声音特征数据;
    情绪波动值计算子单元,用于根据公式:情绪波动值=(声音特征数据的最大值-声音特征数据的最小值)/声音特征数据的平均值,计算得到所述第一对象端对应的第一情绪波动值和所述第二对象端对应的第二情绪波动值。
  14. 根据权利要求8所述的异常通话对象的判断装置,其特征在于,所述装置,包括:
    电话号码获取单元,用于获取所述第一对象端和所述第二对象端的电话号码和电话号码激活时间;
    非正常数据库判断单元,用于判断所述第一对象端和所述第二对象端的电话号码是否均属于预设的非正常数据库;
    时间点判断单元,用于若所述第一对象端和所述第二对象端的电话号码均不属于预设的非正常数据库,则判断所述电话号码激活时间是否均晚于预设的时间点;
    通话语音获取指令生成单元,用于若所述电话号码激活时间均晚于预设的时间点,则生成通话语音获取指令,所述通话语音获取指令用于指示获取第一通话语音,以及获取第二通话语音。
  15. 一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现异常通话对象的判断方法,所述异常通话对象的判断方法,包括:
    获取第一通话语音,以及获取第二通话语音,其中所述第一通话语音是第一用户端与第一对象端的通话语音,所述第二通话语音是第二用户端与第二对象端的通话语音;
    根据预设的声音数据提取方法,分别从所述第一通话语音和所述第二通话语音中提取出所述第一对象端的第一声音数据以及所述第二对象端的第二声音数据;
    根据预设的电子音判断方法,判断所述第一声音数据是否为电子音,并且判断所述第二声音数据是否为电子音;
    若所述第一声音数据和所述第二声音数据均为电子音,则构建通话通道,所述通话通道用于接通所述第一对象端和所述第二对象端;
    记录所述第一对象端和所述第二对象端的通话内容,并将所述通话内容输入预设的情绪波动识别模型中进行处理,得到所述第一对象端的第一情绪波动值和所述第二对象端的第二情绪波动值;
    判断所述第一情绪波动值和所述第二情绪波动值是否均小于预设的情绪波动阈值;
    若所述第一情绪波动值和所述第二情绪波动值均小于预设的情绪波动阈值,则判定所述第一对象端与所述第二对象端均为异常通话对象。
  16. 根据权利要求15所述的计算机设备,其特征在于,所述根据预设的声音数据提取方法,分别从所述第一通话语音和所述第二通话语音中提取出所述第一对象端的第一声音数据以及所述第二对象端的第二声音数据的步骤,包括:
    获取预存的第一用户端对应的第一声纹特征,以及获取预存的第二用户端对应的第二声纹特征;
    根据预设的说话人聚类技术,对所述第一通话语音进行聚类处理,从而得到具有不同声纹特征的两个第一语音集,并将不符合所述第一声纹特征的所述第一语音集记为所述第一对象端的第一声音数据;
    根据预设的说话人聚类技术,对所述第二通话语音进行聚类处理,从而得到具有不同声纹特征的两个第二语音集,并将不符合所述第二声纹特征的所述第二语音集记为所述第二对象端的第二声音数据;
    提取所述第一声音数据和所述第二声音数据。
  17. 根据权利要求15所述的计算机设备,其特征在于,所述根据预设的电子音判断方法,判断所述第一声音数据是否为电子音的步骤,包括:
    根据所述第一声音数据,生成所述第一声音数据对应的波形图的表达函数F(t);
    根据公式:
    H(t)=min(G(t),m),其中
    Figure PCTCN2019116342-appb-100005
    获取函数H(t),其中f(t)为预设的电子音的波形图的表达函数,E(t)为所述函数F(t)与所述函数f(t)的差值函数,
    Figure PCTCN2019116342-appb-100006
    为所述差值函数对时间的微分函数,t为时间,m为预设的大于0的误差参数值;
    获取所述函数H(t)在时间轴上不等于m时的第一时间长度和等于m时的第二时间长度,根据公式:贴合程度值=所述第一时间长度/(所述第一时间长度+所述第二时间长度),计算出所述贴合程度值,并判断所述贴合程度值是否大于预设的贴合阈值;
    若所述贴合程度值大于预设的贴合阈值,则判定所述第一声音数据为电子音。
  18. 一种非易失性的计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现异常通话对象的判断方法,所述异常通话对象的判断方法,包括:
    获取第一通话语音,以及获取第二通话语音,其中所述第一通话语音是第一用户端与第一对象端的通话语音,所述第二通话语音是第二用户端与第二对象端的通话语音;
    根据预设的声音数据提取方法,分别从所述第一通话语音和所述第二通话语音中提取出所述第一对象端的第一声音数据以及所述第二对象端的第二声音数据;
    根据预设的电子音判断方法,判断所述第一声音数据是否为电子音,并且判断所述第二声音数据是否为电子音;
    若所述第一声音数据和所述第二声音数据均为电子音,则构建通话通道,所述通话通道用于接通所述第一对象端和所述第二对象端;
    记录所述第一对象端和所述第二对象端的通话内容,并将所述通话内容输入预设的情绪波动识别模型中进行处理,得到所述第一对象端的第一情绪波动值和所述第二对象端的第二情绪波动值;
    判断所述第一情绪波动值和所述第二情绪波动值是否均小于预设的情绪波动阈值;
    若所述第一情绪波动值和所述第二情绪波动值均小于预设的情绪波动阈值,则判定所述第一对象端与所述第二对象端均为异常通话对象。
  19. 根据权利要求18所述的非易失性的计算机可读存储介质,其特征在于,所述根据预设的声音数据提取方法,分别从所述第一通话语音和所述第二通话语音中提取出所述第一对象端的第一声音数据以及所述第二对象端的第二声音数据的步骤,包括:
    获取预存的第一用户端对应的第一声纹特征,以及获取预存的第二用户端对应的第二声纹特征;
    根据预设的说话人聚类技术,对所述第一通话语音进行聚类处理,从而得到具有不同声纹特征的两个第一语音集,并将不符合所述第一声纹特征的所述第一语音集记为所述第一对象端的第一声音数据;
    根据预设的说话人聚类技术,对所述第二通话语音进行聚类处理,从而得到具有不同声纹特征的两个第二语音集,并将不符合所述第二声纹特征的所述第二语音集记为所述第二对象端的第二声音数据;
    提取所述第一声音数据和所述第二声音数据。
  20. 根据权利要求18所述的非易失性的计算机可读存储介质,其特征在于,所述根据预设的电子音判断方法,判断所述第一声音数据是否为电子音的步骤,包括:
    根据所述第一声音数据,生成所述第一声音数据对应的波形图的表达函数F(t);
    根据公式:
    H(t)=min(G(t),m),其中
    Figure PCTCN2019116342-appb-100007
    获取函数H(t),其中f(t)为预设的电子音的波形图的表达函数,E(t)为所述函数F(t)与所述函数f(t)的差值函数,
    Figure PCTCN2019116342-appb-100008
    为所述差值函数对时间的微分函数,t为时间,m为预设的大于0的误差参数值;
    获取所述函数H(t)在时间轴上不等于m时的第一时间长度和等于m时的第二时间长度,根据公式:贴合程度值=所述第一时间长度/(所述第一时间长度+所述第二时间长度),计算出所述贴合程度值,并判断所述贴合程度值是否大于预设的贴合阈值;
    若所述贴合程度值大于预设的贴合阈值,则判定所述第一声音数据为电子音。
PCT/CN2019/116342 2019-09-18 2019-11-07 异常通话对象的判断方法、装置、计算机设备和存储介质 WO2021051504A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910882722.7 2019-09-18
CN201910882722.7A CN110769425B (zh) 2019-09-18 2019-09-18 异常通话对象的判断方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
WO2021051504A1 true WO2021051504A1 (zh) 2021-03-25

Family

ID=69330162

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/116342 WO2021051504A1 (zh) 2019-09-18 2019-11-07 异常通话对象的判断方法、装置、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN110769425B (zh)
WO (1) WO2021051504A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116886819A (zh) * 2023-08-07 2023-10-13 云南电网有限责任公司 一种多维度话务数据监控方法、装置及存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112735431B (zh) * 2020-12-29 2023-12-22 三星电子(中国)研发中心 模型训练方法和装置及人工智能对话的识别方法和装置
CN112637428A (zh) * 2020-12-29 2021-04-09 平安科技(深圳)有限公司 无效通话判断方法、装置、计算机设备及存储介质
CN114512144B (zh) * 2022-01-28 2024-05-17 中国人民公安大学 一种识别恶意语音信息的方法、装置、介质和设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106714178A (zh) * 2015-07-24 2017-05-24 中兴通讯股份有限公司 异常通话判定方法及装置
CN107154996A (zh) * 2017-06-30 2017-09-12 广东欧珀移动通信有限公司 来电拦截方法、装置、存储介质及终端
CN108280089A (zh) * 2017-01-06 2018-07-13 阿里巴巴集团控股有限公司 识别异常来电的方法及设备
CN109493882A (zh) * 2018-11-04 2019-03-19 国家计算机网络与信息安全管理中心 一种诈骗电话语音自动标注系统及方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10108619B2 (en) * 2013-12-19 2018-10-23 Gracenote, Inc. Station library creaton for a media service
CN106919821A (zh) * 2015-12-25 2017-07-04 阿里巴巴集团控股有限公司 用户验证方法和装置
CN107799120A (zh) * 2017-11-10 2018-03-13 北京康力优蓝机器人科技有限公司 服务机器人识别唤醒方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106714178A (zh) * 2015-07-24 2017-05-24 中兴通讯股份有限公司 异常通话判定方法及装置
CN108280089A (zh) * 2017-01-06 2018-07-13 阿里巴巴集团控股有限公司 识别异常来电的方法及设备
CN107154996A (zh) * 2017-06-30 2017-09-12 广东欧珀移动通信有限公司 来电拦截方法、装置、存储介质及终端
CN109493882A (zh) * 2018-11-04 2019-03-19 国家计算机网络与信息安全管理中心 一种诈骗电话语音自动标注系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116886819A (zh) * 2023-08-07 2023-10-13 云南电网有限责任公司 一种多维度话务数据监控方法、装置及存储介质
CN116886819B (zh) * 2023-08-07 2024-02-02 云南电网有限责任公司 一种多维度话务数据监控方法、装置及存储介质

Also Published As

Publication number Publication date
CN110769425A (zh) 2020-02-07
CN110769425B (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
WO2021051504A1 (zh) 异常通话对象的判断方法、装置、计算机设备和存储介质
US10410636B2 (en) Methods and system for reducing false positive voice print matching
JP2023511104A (ja) ディープ残差ニューラルネットワークを用いたロバストなスプーフィング検出システム
US9412371B2 (en) Visualization interface of continuous waveform multi-speaker identification
US9336778B2 (en) Method and system for using conversational biometrics and speaker identification/verification to filter voice streams
US8515025B1 (en) Conference call voice-to-name matching
WO2015193422A1 (fr) Procede et systeme de filtrage d'appels telephoniques entrants indesirables
CN109873907B (zh) 呼叫处理方法、装置、计算机设备及存储介质
KR101795593B1 (ko) 전화상담원 보호 장치 및 그 방법
US10511712B2 (en) Caller identification in a secure environment using voice biometrics
WO2021184837A1 (zh) 诈骗电话的识别方法、装置、存储介质及终端
CN110349586B (zh) 电信诈骗检测方法及装置
US11699043B2 (en) Determination of transcription accuracy
US20230053277A1 (en) Modified media detection
CN110517697A (zh) 用于交互式语音应答的提示音智能打断装置
CN111179936B (zh) 通话录音监控方法
JP2016053600A (ja) 通話装置、声紋データの判定結果通知方法およびプログラム
JP2010273130A (ja) 詐欺進行度判定装置、辞書生成装置、詐欺進行度判定方法及び辞書生成方法
US9875236B2 (en) Analysis object determination device and analysis object determination method
US11606461B2 (en) Method for training a spoofing detection model using biometric clustering
CN113452847A (zh) 一种骚扰电话的识别方法及相关装置
CN109379499A (zh) 一种语音呼叫方法及装置
KR20180034927A (ko) 통화 음성을 분석하는 통신 단말기
CN114299919A (zh) 文字转语音方法、装置、存储介质及计算机设备
JP2023084571A (ja) 音声処理システム、プログラム、方法、オンライン会議システム、および音声通話装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19945692

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19945692

Country of ref document: EP

Kind code of ref document: A1