KR20220040813A - Computing Detection Device for AI Voice - Google Patents

Computing Detection Device for AI Voice Download PDF

Info

Publication number
KR20220040813A
KR20220040813A KR1020200123985A KR20200123985A KR20220040813A KR 20220040813 A KR20220040813 A KR 20220040813A KR 1020200123985 A KR1020200123985 A KR 1020200123985A KR 20200123985 A KR20200123985 A KR 20200123985A KR 20220040813 A KR20220040813 A KR 20220040813A
Authority
KR
South Korea
Prior art keywords
voice
artificial intelligence
detection device
sound
module
Prior art date
Application number
KR1020200123985A
Other languages
Korean (ko)
Other versions
KR102415519B1 (en
Inventor
장원준
Original Assignee
장원준
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 장원준 filed Critical 장원준
Priority to KR1020200123985A priority Critical patent/KR102415519B1/en
Publication of KR20220040813A publication Critical patent/KR20220040813A/en
Application granted granted Critical
Publication of KR102415519B1 publication Critical patent/KR102415519B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Telephonic Communication Services (AREA)

Abstract

A disclosed invention relates to a computing detection device of an artificial intelligence speech comprising: at least one or more processors; and a memory wherein instructions processed by the processor are stored, wherein provided is the computing detection device of the artificial intelligence speech comprising a speech input part that receives a telephone call speech, a speech analysis part that analyzes a waveform of a call speech inputted to the speech input part to distinguish whether it is an actual speech or an artificial intelligence speech, and an output part that outputs a result distinguished by the speech analysis part. Therefore, the present invention is capable of allowing an appropriate safety measure to be provided to avoid an accidental damage.

Description

인공지능 음성의 컴퓨팅 탐지 장치{Computing Detection Device for AI Voice}Computing Detection Device for AI Voice

본 발명은 인공지능 음성의 컴퓨팅 탐지 장치에 관한 것으로서, 사람의 실제 음성과 기계로 합성된 인공지능 음성을 구별할 수 있고, 인공지능 음성인 경우에 이를 사용자에게 고지함으로써 만일에 발생할 수도 있는 부정행위를 예방할 수 있도록 한다.The present invention relates to a computing detection device for artificial intelligence voice, which can distinguish between a real human voice and a machine-synthesized artificial intelligence voice, and notify the user of the artificial intelligence voice in case of an artificial intelligence voice. to be able to prevent

인공지능(AI) 기술의 발전은 하루가 다르게 발전하고 있다. 2016년 알파고를 통해 인공지능이 전 세계의 관심을 끌게 되었고, 인공지능은 오랜 침체기를 거쳐 클라우드 컴퓨팅 환경의 급속한 발전과 빅데이터가 뒷받침되어 딥러닝이 구현되는 돌파구가 열리면서 전환기를 맞았다.The development of artificial intelligence (AI) technology is advancing day by day. In 2016, through AlphaGo, artificial intelligence attracted the attention of the world, and after a long period of stagnation, the rapid development of the cloud computing environment and the breakthrough of deep learning supported by big data opened up a turning point in artificial intelligence.

인공지능의 연구는 다양한 방면으로 이루어지고 있으며, 그 중 하나로서 스마트폰이나 태블릿, 인공지능 스피커 등에 탑재되는 AI 비서(가상 비서)가 실생활에 깊숙히 접목되고 있다. 예를 들어, 몇 년 전에는 구글 어시스턴트라는 AI 비서가 사용자가 등록한 스케쥴 정보에 기반하여 자동으로 미용실을 예약하는 케이스가 소개된 바 있으며, 놀랍게도 미용실 담당자는 통화 상대방이 AI 비서인지를 인지하지 못하였다.Research on artificial intelligence is conducted in various fields, and one of them is AI assistant (virtual assistant) mounted on smartphones, tablets, and artificial intelligence speakers, which is being deeply integrated into real life. For example, a few years ago, a case was introduced in which an AI assistant called Google Assistant automatically makes a hair salon reservation based on the schedule information registered by the user.

이와 같이, 고도화된 AI 비서와 통화하는 상대방이 마치 인간과 통화하는 것이라고 인식한 것은 튜링 테스트를 통과한 것이라 볼 수 있다. 이는 통화자와 AI 비서의 대화 문맥이 아주 자연스럽게 이어졌고, 통화 음성도 기계 음성으로 느껴지지 않았기 때문이라고 볼 수 있다.In this way, it can be said that the person who is talking to the advanced AI assistant recognized that it was talking to a human being passed the Turing test. This is because the conversational context between the caller and the AI assistant was very natural, and the voice of the call did not feel like a machine voice.

AI 기반 기술의 발전에 힘입어 앞으로는 AI 비서가 스스로 인간에게 전화를 하여 예약 또는 문의를 하는 빈도가 더욱 높아질 것으로 예상된다. 하지만, 인공지능 음성이 인간 목소리에 대한 딥페이크 등에 악용될 우려 또한 제기된다. 예컨대, 재무담당 직원에게 회사 대표의 목소리로 전화가 와서 특정 계좌로 입금을 지시한다거나, 또는 야전 지휘관에게 부대 통수권자로부터 전화가 와서 특정 지역의 공격을 명령한다는 등의 회복하기 어려운 손실과 혼란을 발생시킬 우려도 상상할 수 있다.With the development of AI-based technology, it is expected that the frequency of making reservations or inquiries by AI assistants by calling humans on their own is expected to increase in the future. However, there are also concerns that artificial intelligence voices will be used for deepfakes of human voices. For example, it can cause irreparable losses and confusion, such as a phone call from a company representative to a finance officer and instructing a deposit to a specific account, or a phone call from the commander of the unit to a field commander to order an attack in a specific area. The concerns are imaginable.

이러한 인공지능 음성의 부정행위를 방지하고자 매번 당사자에게 확인 전화를 걸어야 하는 상황은 사회적 비용을 크게 증가시킬 것이며, 전화통신 인프라에 대한 신뢰도 하락으로 이어질 가능성이 크므로, 통신 사업자에게는 큰 위험이 된다.The situation of having to make a confirmation call each time to prevent such fraudulent behavior of artificial intelligence voices will greatly increase social costs, and it is highly likely to lead to a decrease in trust in telephony infrastructure, which is a great risk to telecommunication operators.

따라서, 대화하는 상대방이 인간인지 아닌지 여부를 탐지하고, 인공지능 음성으로 판정되었을 때 이를 고지할 수 있는 기술에 대한 개발이 필요하다.Therefore, it is necessary to develop a technology capable of detecting whether a conversation partner is a human or not, and notifying it when it is determined as an artificial intelligence voice.

한국공개특허 제10-2020-0016516호 (2020.02.17 공개)Korean Patent Publication No. 10-2020-0016516 (published on February 17, 2020)

본 발명은 통신 단말기를 통해 대화하는 상대방이 인간인지 아닌지 여부를 탐지하고, 인공지능 음성으로 판정되었을 때 이를 고지할 수 있는 효과적인 방안을 제공하는데 그 목적이 있다.It is an object of the present invention to provide an effective method for detecting whether or not a person having a conversation through a communication terminal is human and notifying it when it is determined as an artificial intelligence voice.

본 발명은 적어도 하나 이상의 프로세서와, 상기 프로세서에 의해 처리되는 명령어들이 저장된 메모리를 포함하는 인공지능 음성의 컴퓨팅 탐지 장치로서, 전화 통화 음성을 입력받는 음성 입력부;와, 상기 음성 입력부로 입력된 통화 음성의 파형을 분석하여, 실제 음성인지 아니면 인공지능 음성인지를 판별하는 음성 분석부; 및 상기 음성 분석부에서 판별한 결과를 출력하는 출력부;를 포함하는 인공지능 음성의 컴퓨팅 탐지 장치를 제공한다.The present invention provides an artificial intelligence voice computing detection device including at least one processor and a memory in which instructions processed by the processor are stored, a voice input unit for receiving a phone call voice; and a call voice input through the voice input unit a voice analysis unit that analyzes the waveform of , and determines whether it is a real voice or an artificial intelligence voice; and an output unit for outputting a result determined by the voice analysis unit; provides an artificial intelligence voice computing detection device comprising.

본 발명의 일 실시형태에서, 상기 음성 분석부는, 텍스트 파일 및 상기 텍스트 파일을 사람이 낭독하는 음성 파일이 함께 있는 학습 파일을 검색하고 취득하는 탐색 모듈;과, 상기 탐색 모듈이 취득한 텍스트 파일을 인공지능 음성 생성 모듈에 입력하고, 상기 인공지능 음성 생성 모듈에서 출력된 인공지능 음성을 출력하는 인공지능 음성 출력 모듈; 및 상기 음성 파일과 인공지능 음성을 입력받고, 이들 사이의 파형상의 차이에 대해 기계학습하는 인공지능 모듈;을 포함한다.In one embodiment of the present invention, the voice analysis unit, a search module for searching and acquiring a text file and a learning file including a voice file read by a person from the text file; And, artificially analyze the text file acquired by the search module an artificial intelligence voice output module input to the intelligent voice generating module and outputting the artificial intelligence voice output from the artificial intelligence voice generating module; and an artificial intelligence module that receives the audio file and the artificial intelligence voice and machine-learns about the difference in waveforms therebetween.

그리고, 상기 인공지능 모듈은, 기계학습을 수행한 후, 상기 음성 입력부로 입력된 통화 음성의 파형을 분석하여, 실제 음성인지 아니면 인공지능 음성인지를 판별한다.Then, the artificial intelligence module, after performing machine learning, analyzes the waveform of the call voice input to the voice input unit to determine whether it is an actual voice or an artificial intelligence voice.

여기서, 상기 학습 파일은, 오디오 북 파일이나 연설문 및 그 낭독 파일 등을 포함할 수 있다.Here, the learning file may include an audio book file, a speech, and a reading file thereof.

그리고, 상기 인공지능 음성 생성 모듈은, 통신으로 연결된 외부의 상용화된 어플리케이션 또는 프로그램일 수 있다.In addition, the artificial intelligence voice generating module may be an external commercialized application or program connected by communication.

그리고, 이러한 구성을 가진 인공지능 음성의 컴퓨팅 탐지 장치는, 스마트 단말기의 어플리케이션, 또는 통신사의 기지국이나 중계기의 하드웨어에 탑재되는 프로그램인 형태로 구현될 수 있다.And, the artificial intelligence voice computing detection device having such a configuration may be implemented in the form of a program mounted on a smart terminal application or hardware of a base station or repeater of a telecommunication company.

그리고, 상기 출력부는, 상기 음성 분석부에서 판별한 결과를 앱 알림창, 단문 메시지, 메신저 중의 적어도 어느 하나로서 출력할 수 있다.The output unit may output the result determined by the voice analysis unit as at least one of an app notification window, a short message, and a messenger.

한편, 본 발명의 다른 일 실시형태에 따르면, 상기 음성 분석부는, 상기 음성 입력부로 입력된 통화 음성의 파형을 각 음절마다 복수의 음편으로 분할하는 음편 생성부; 및 상기 음편 생성부에서 만들어진 복수의 음편을 유사한 음편끼리 하나의 음편 그룹으로 묶고, 각 음편 그룹 중의 적어도 어느 한 음편 그룹에 포함된 개체수가 제1 기준치를 초과했을 때 해당 음편 그룹에 포함된 음편 사이의 유사도를 판정하며, 판정된 유사도가 제2 기준치를 초과했을 때 인공지능 음성인 것으로 판정하는 인공지능 모듈;을 포함한다.On the other hand, according to another embodiment of the present invention, the voice analyzer may include: a sound piece generator for dividing a waveform of a call voice input to the voice input unit into a plurality of sound pieces for each syllable; and a plurality of sound recordings generated by the sound recording unit are grouped into one sound group, and when the number of individuals included in at least one of the sound groups exceeds a first reference value, between the records included in the record group and an artificial intelligence module that determines the similarity of

여기서, 상기 인공지능 모듈은, 제3 기준치를 초과하는 복수 개의 음편 그룹에서 제2 기준치를 초과하는 유사도가 나타났을 때 인공지능 음성인 것으로 판정한다.Here, the artificial intelligence module determines that it is an artificial intelligence voice when a similarity exceeding the second reference value appears in a plurality of sound groups exceeding the third reference value.

그리고, 상기 인공지능 모듈은, 상기 음성 입력부로 입력된 통화 음성의 파형 중에 포함된 주변 소음, 호흡음, 침 삼키는 소리, 입맛을 다시는 소리, 혀 차는 소리를 포함하는 비언어적 음향요소의 빈도수가 제4 기준치 미만인 경우, 이 빈도수를 인공지능 음성의 판정에 보조적으로 반영할 수 있다.And, the artificial intelligence module, the frequency of non-verbal sound elements including ambient noise, breathing sound, swallowing sound, licking sound, and tongue-kicking sound included in the waveform of the call voice input to the voice input unit is the second 4 If it is less than the reference value, this frequency can be reflected auxiliaryly in the judgment of artificial intelligence voice.

그리고, 상기 인공지능 모듈은, 상기 음성 입력부로 입력된 통화 음성의 파형을 사전에 정해진 개수의 음절을 포함하는 음절 그룹으로 나누고, 각 음절 그룹의 전달 속도 사이의 표준편차가 제5 기준치 미만인 경우, 이 표준편차를 인공지능 음성의 판정에 보조적으로 반영할 수 있다.And, the artificial intelligence module divides the waveform of the call voice input to the voice input unit into syllable groups including a predetermined number of syllables, and when the standard deviation between the delivery rates of each syllable group is less than a fifth reference value, This standard deviation can be reflected auxiliaryly in the judgment of artificial intelligence voice.

위와 같은 구성을 가진 본 발명의 인공지능 음성의 컴퓨팅 탐지 장치는, 통화자에게 현재 자신이 듣고 있는 음성이 인공지능 음성인지 여부에 대해 고지를 함으로써, 통화자가 중요한 판단과 결정을 내릴 때 불의의 피해와 손해를 받지 않을 적절한 안전책을 제공할 수 있다.The artificial intelligence voice computing detection device of the present invention having the above configuration notifies the caller of whether the voice he or she is currently listening to is an artificial intelligence voice, thereby causing unexpected damage when the caller makes important judgments and decisions. and can provide adequate safety measures to avoid harm.

따라서, 인공지능 음성의 부정행위를 방지하고자 매번 당사자에게 확인 전화를 걸어야 하는 등의 사회적 비용의 증가를 억제하고, 전화통신 인프라에 대한 신뢰도 하락의 위험을 줄일 수 있다.Therefore, it is possible to suppress the increase in social costs such as having to make a confirmation call to the person each time to prevent fraudulent actions of the artificial intelligence voice, and reduce the risk of a decrease in the reliability of the telephony infrastructure.

도 1은 본 발명에 따른 인공지능 음성의 컴퓨팅 탐지 장치의 전체적인 구성을 개략적으로 도시한 도면.
도 2는 본 발명의 제1 실시형태에서의 음성 분석부의 구성을 개략적으로 도시한 도면
도 3은 본 발명의 제2 실시형태에서의 음성 분석부의 구성을 개략적으로 도시한 도면
도 4는 도 3의 음성 분석부에 비언어적 음향요소를 부가적 판단요소로 추가한 실시형태를 개략적으로 도시한 도면.
도 5는 도 3의 음성 분석부에 음절의 전달 속도를 부가적 판단요소로 추가한 실시형태를 개략적으로 도시한 도면.
1 is a diagram schematically showing the overall configuration of an artificial intelligence voice computing detection device according to the present invention.
Fig. 2 is a diagram schematically showing the configuration of a voice analyzer in the first embodiment of the present invention;
Fig. 3 is a diagram schematically showing the configuration of a voice analyzer in a second embodiment of the present invention;
FIG. 4 is a diagram schematically illustrating an embodiment in which a non-verbal sound element is added as an additional judgment element to the voice analysis unit of FIG. 3 .
5 is a diagram schematically illustrating an embodiment in which a syllable transfer speed is added as an additional determining factor to the voice analysis unit of FIG. 3;

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 게시되는 실시 예에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. Advantages and features of the present invention, and a method for achieving them will become apparent with reference to the embodiments described below in detail in conjunction with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but may be implemented in various different forms, and only these embodiments allow the publication of the present invention to be complete, and common knowledge in the technical field to which the present invention pertains. It is provided to fully inform the possessor of the scope of the invention, and the present invention is only defined by the scope of the claims. Like reference numerals refer to like elements throughout.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시 예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.Unless otherwise defined, all terms (including technical and scientific terms) used herein may be used with the meaning commonly understood by those of ordinary skill in the art to which the present invention belongs. In addition, terms defined in a commonly used dictionary are not to be interpreted ideally or excessively unless clearly defined in particular. The terminology used herein is for the purpose of describing the embodiments and is not intended to limit the present invention. In this specification, the singular also includes the plural unless specifically stated otherwise in the phrase.

본 명세서에서 사용되는 "포함한다 (comprises)" 및/또는 "포함하는 (comprising)"은 언급된 구성 요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성 요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.As used herein, “comprises” and/or “comprising” refers to a referenced component, step, operation and/or element of one or more other components, steps, operations and/or elements. The presence or addition is not excluded.

그리고, 본 명세서에서 "컴퓨팅 장치" 또는 "모듈"이라 함은, 예를 들어, 프로세서, 컴퓨터 또는 다중 프로세서나 컴퓨터를 포함하여 데이터를 처리하기 위한 모든 기구, 장치 및 기계를 포함한다. 처리 시스템은, 하드웨어에 부가하여, 예를 들어, 프로세서 펌웨어를 구성하는 코드, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제 또는 이들 중 둘 이상의 조합 등, 컴퓨터 프로그램에 대한 실행 환경을 형성하는 모든 요소를 포함할 수 있다. 프로그램, 소프트웨어, 소프트웨어 애플리케이션, 스크립트 또는 코드 등으로 알려진 컴퓨터 프로그램은 컴파일 되거나 해석된 언어 또는 선험적, 절차적 언어를 포함하는 프로그래밍 언어의 어떠한 형태로도 작성될 수 있으며, 독립형 프로그램이나 모듈, 컴포넌트, 서브루틴의 형태는 물론, 컴퓨터 환경에서 사용하기에 적합한 다른 유닛을 더 포함하는 다양한 형태로 구현될 수 있다.And, "computing device" or "module" as used herein includes, for example, all devices, devices and machines for processing data, including processors, computers, or multiple processors or computers. A processing system includes, in addition to hardware, all elements that form an execution environment for a computer program, such as, for example, code constituting processor firmware, a protocol stack, a database management system, an operating system, or a combination of two or more thereof. can do. A computer program known as a program, software, software application, script or code, etc. may be written in any form of a programming language, including compiled or interpreted language or a priori or procedural language, and may be a stand-alone program, module, component, sub It may be implemented in various forms, including routines, as well as other units suitable for use in a computer environment.

본 발명은 적어도 하나 이상의 프로세서와, 상기 프로세서에 의해 처리되는 명령어들이 저장된 메모리를 포함하는 인공지능 음성의 컴퓨팅 탐지 장치(10)로서 구현될 수 있다. 이하에서는, 첨부된 도면을 참조하여 본 발명에 대해 상세히 설명한다.The present invention may be implemented as a computing detection apparatus 10 for artificial intelligence voice including at least one processor and a memory in which instructions processed by the processor are stored. Hereinafter, the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명에 따른 인공지능 음성의 컴퓨팅 탐지 장치(10)의 전체적인 구성을 개략적으로 도시한 도면이다. 도면을 참조하면, 본 발명은 음성 입력부(100)와, 음성 분석부(200, 200'), 그리고 출력부(300)를 포함한다.1 is a diagram schematically showing the overall configuration of a computing detection apparatus 10 for artificial intelligence voice according to the present invention. Referring to the drawings, the present invention includes a voice input unit 100 , voice analyzers 200 and 200 ′, and an output unit 300 .

음성 입력부(100)는 전화 통화 음성을 입력받는 구성요소이다. 통화 녹음 기능과 같이 전화 통화 음성을 따로 저장하는 기술은 공지의 기술이며, 이러한 기술을 음성 입력부(100)에 활용할 수 있다. The voice input unit 100 is a component for receiving a phone call voice. A technique for separately storing a phone call voice, such as a call recording function, is a well-known technique, and this technique can be utilized for the voice input unit 100 .

음성 분석부(200, 200')는, 음성 입력부(100)로 입력된 통화 음성의 파형을 분석하고, 이를 통해 실제 음성인지 아니면 인공지능 음성인지를 판별하는 구성요소로서, 본 발명에서는 사전에 설계된 인공지능이 담당한다. 음성 분석부(200, 200')의 구체적인 실시형태는 두 가지 방안으로 제시되며, 이에 대해서는 뒤에서 상세히 설명한다.The voice analyzers 200 and 200 ′ are components that analyze the waveform of a call voice input to the voice input unit 100 and determine whether it is an actual voice or an artificial intelligence voice. Artificial intelligence is responsible for Specific embodiments of the voice analyzers 200 and 200' are presented in two ways, which will be described in detail later.

출력부(300)는 음성 분석부(200, 200')에서 판별한 결과를 출력하는 구성요소다. 출력부(300)가 출력하는 판별 결과는 다양한 형태로 제공될 수 있다. 인공지능 음성일 경우 청각적인 경고음을 발생할 수도 있을 것이며, 그외에 기록으로 저장할 수 있는 형태로 출력할 수도 있다. The output unit 300 is a component that outputs the results determined by the voice analyzers 200 and 200'. The determination result output by the output unit 300 may be provided in various forms. In the case of artificial intelligence voice, an audible warning sound may be generated, and in addition, it may be output in a form that can be saved as a record.

예컨대, 본 발명의 인공지능 음성의 컴퓨팅 탐지 장치(10)는 스마트 단말기(예들 들어, 스마트폰, 통화기능이 있는 태블릿이나 스마트 워치 등)의 어플리케이션, 또는 통신사의 기지국이나 중계기의 하드웨어에 탑재되는 프로그램인 형태로 구현될 수 있다. 또한, 출력부(300)의 출력 형태는 본 발명이 탑재되는 대상이나 형태 등에 따라, 달라질 수 있는데, 예컨대 스마트 단말기의 앱 형태로 탑재된다면 출력부(300)는 음성 분석부(200, 200')에서 판별한 결과를 앱 알림창, 단문 메시지, 메신저 중의 적어도 어느 하나로서 출력할 수 있을 것이다.For example, the artificial intelligence voice computing detection device 10 of the present invention is an application of a smart terminal (eg, a smart phone, a tablet with a call function, a smart watch, etc.), or a program mounted on the hardware of a base station or repeater of a telecommunication company It can be implemented in the form of phosphorus. In addition, the output form of the output unit 300 may vary depending on the object or form on which the present invention is mounted. The determined result may be output as at least one of an app notification window, a short message, and a messenger.

도 2는 본 발명의 제1 실시형태에서의 음성 분석부(200)의 구성을 개략적으로 도시한 도면이다.FIG. 2 is a diagram schematically showing the configuration of the voice analyzer 200 in the first embodiment of the present invention.

도 2에 도시된 제1 실시형태에서, 음성 분석부(200)는 탐색 모듈(210), 인공지능 음성 출력 모듈(220), 인공지능 음성 생성 모듈(230) 및 인공지능 모듈(240)을 포함한다.In the first embodiment shown in FIG. 2 , the voice analysis unit 200 includes a search module 210 , an artificial intelligence voice output module 220 , an artificial intelligence voice generation module 230 , and an artificial intelligence module 240 . do.

탐색 모듈(210)은 일종의 "봇"으로서, 텍스트 파일 및 상기 텍스트 파일을 사람이 낭독하는 음성 파일이 함께 있는 학습 파일을 검색하고 취득하는 역할을 한다. 여기서, 학습 파일이란 기계학습에 사용되도록 탐색 모듈(210)이 취득한 파일을 의미하며, 탐색 모듈(210)은 인터넷 상에서 텍스트 파일과 그 음성 파일이 함께 있는 파일을 자동으로 탐색하고 수집한다.The search module 210 is a kind of "bot", and serves to search for and acquire a text file and a learning file including a voice file in which a person reads the text file. Here, the learning file means a file acquired by the search module 210 to be used for machine learning, and the search module 210 automatically searches for and collects a file including a text file and its audio file on the Internet.

여기서, 중요한 것은, 탐색 모듈(210)이 수집하는 학습 파일이 텍스트 파일과 그 음성 파일을 함께 구할 수 있는 것으로 특정되어 있다는 것이다. 탐색 모듈(210)이 수집한 텍스트 파일은 인공지능 음성 출력 모듈(220)에서 사용된다.Here, what is important is that the learning file collected by the search module 210 is specified as being able to obtain both a text file and an audio file. The text file collected by the search module 210 is used in the artificial intelligence voice output module 220 .

인공지능 음성 출력 모듈(220)은 탐색 모듈(210)이 취득한 텍스트 파일을 인공지능 음성 생성 모듈(230)에 입력하고, 인공지능 음성 생성 모듈(230)에서 출력된 인공지능 음성을 출력하는 역할을 한다. 즉, 인공지능 음성 출력 모듈(220)은, 텍스트 입력 기반의 인공지능 음성 생성 모듈(230)에 대해 탐색 모듈(210)이 취득한 텍스트 파일을 입력하고, 그 결과로서 만들어진 인공지능 음성을 출력하고 저장한다.The artificial intelligence voice output module 220 serves to input the text file acquired by the search module 210 to the artificial intelligence voice generation module 230 and output the artificial intelligence voice output from the artificial intelligence voice generation module 230 . do. That is, the artificial intelligence voice output module 220 inputs the text file acquired by the search module 210 to the text input-based artificial intelligence voice generation module 230, and outputs and stores the artificial intelligence voice created as a result. do.

그리고, 인공지능 모듈(240)은 사람이 직접 발성한 음성 파일과, 인공지능 음성 출력 모듈(220)에서 생성된 인공지능 음성을 함께 입력받고, 이들 사이의 파형상의 차이에 대해 기계학습을 수행하는 구성요소이다.And, the artificial intelligence module 240 receives the voice file directly uttered by a person and the artificial intelligence voice generated by the artificial intelligence voice output module 220 together, and performs machine learning on the difference in the waveform between them. is a component

제1 실시형태에서의 인공지능 모듈(240)은 기계학습 중에서 지도학습 모델이라고 할 수 있다. 즉, 사람의 음성인지 인공지능 음성인지 그 정답을 아는 상태에서, 다양한 파일을 입력받아 사람의 음성과 인공지능 음성 사이에 나타나는 파형상의 차이에 대해 학습을 수행함으로써, 기계학습을 마친 후에는 임의의 전화 통화 음성을 입력받았을 때 그 파형상의 특징이 어디에 해당하는지를 판단할 수 있는 것이다.The artificial intelligence module 240 in the first embodiment may be referred to as a supervised learning model in machine learning. That is, in the state of knowing the correct answer whether it is a human voice or an artificial intelligence voice, it receives various files and learns about the difference in waveforms that appear between the human voice and the artificial intelligence voice. When a phone call voice is input, it is possible to determine where the characteristics of the waveform correspond to.

여기서 중요한 점은, 본 발명의 인공지능 모듈(240)은 단순히 사람의 음성과 인공지능 음성을 입력받는 것이 아니라, 동일한 텍스트 지문에 대한 사람의 음성과 인공지능 음성을 입력 받기에 기계학습에 필요한 시간을 절감하고 학습결과의 정확도까지 향상시킬 수 있다는 것에 있다. 다시 말해, 동일한 텍스트에 대한 사람의 음성과 인공지능 음성의 각 파형을 일대일로 비교하기 때문에 그 차이점을 명확히 파악할 수 있으며, 이로 인해 본 발명의 인공지능 음성의 컴퓨팅 탐지 장치(10)는 인공지능 음성을 상당히 정확하게 판정할 수 있게 된다.The important point here is that the artificial intelligence module 240 of the present invention does not simply receive human voice and artificial intelligence voice, but the time required for machine learning to receive human voice and artificial intelligence voice for the same text fingerprint. It is possible to reduce the cost and improve the accuracy of the learning results. In other words, since each waveform of a human voice and an artificial intelligence voice for the same text is compared one-to-one, the difference can be clearly identified. can be determined fairly accurately.

이와 같이, 탐색 모듈(210)이 취득하는 학습 파일은 텍스트 파일과 그 음성 파일이 함께 있어야 하는데, 예를 든다면 소설 등의 텍스트를 성우가 읽어주는 오디오 북 파일이라든지, 공공행사 등에서 진행된 연설의 연설문 및 그 낭독 파일 등이 학습 파일로 사용될 수 있다.In this way, the learning file acquired by the search module 210 must have a text file and its audio file together. For example, an audio book file in which a voice actor reads text such as a novel, or a speech of a speech conducted at a public event, etc. and a reading file thereof may be used as a learning file.

그리고, 인공지능 음성 생성 모듈(230)은, 인공지능 음성의 컴퓨팅 탐지 장치(10)에 탑재되는 자체적인 모듈일 수도 있지만, 통신으로 연결된 외부의 상용화된 어플리케이션 또는 프로그램을 인공지능 음성 생성 모듈(230)로 사용하는 것이 바람직할 수 있다. 이는 인공지능 음성 생성 모듈(230)을 탑재하면 구동파일의 크기가 커져 실행에 지연이 발생할 수 있고, 상용화된 외부 어플리케이션 또는 프로그램은 주기적으로 업데이트가 이루어져 최신의 인공지능 음성 기술이 반영될 가능성이 높기에 별도의 개발비용을 들이지 않고도 인공지능 모듈(240)의 성능을 계속 향상시키는데 유리한 점이 있기 때문이다.In addition, the artificial intelligence voice generating module 230 may be a self-contained module mounted on the computing detection device 10 for artificial intelligence, but it is possible to use an external commercialized application or program connected by communication to the artificial intelligence voice generating module 230 . ) may be preferable. This is because when the artificial intelligence voice generating module 230 is mounted, the size of the drive file increases, which may cause delay in execution, and the commercialized external application or program is periodically updated to reflect the latest artificial intelligence voice technology. This is because there is an advantage in continuously improving the performance of the artificial intelligence module 240 without incurring a separate development cost.

도 3은 본 발명의 제2 실시형태에서의 음성 분석부(200')의 구성을 개략적으로 도시한 도면이다.Fig. 3 is a diagram schematically showing the configuration of the voice analysis unit 200' in the second embodiment of the present invention.

도 3을 참조하면, 제2 실시형태의 음성 분석부(200')는 음편 생성부(250)와 인공지능 모듈(240')을 포함한다.Referring to FIG. 3 , the voice analyzer 200 ′ according to the second embodiment includes a sound piece generator 250 and an artificial intelligence module 240 ′.

음편 생성부(250)는 음성 입력부(100)로 입력된 통화 음성의 파형을 각 음절마다 복수의 음편으로 분할하는 구성요소다. 여기서, 음편이란 하나의 음절 안에 포함된 최소의 음성요소라 말할 수 있다. 음편은 언어마다 다른데, 우리말은 한 음절을 형성하는 초성, 중성, 종성 각각으로 음편을 나눌 수 있다.The sound recording unit 250 is a component that divides the waveform of the call voice input to the voice input unit 100 into a plurality of sound pieces for each syllable. Here, it can be said that a sound piece is the minimum audio element included in one syllable. Vowels are different for each language, and Korean can be divided into each of the initial, middle, and final consonants that form a syllable.

제2 실시형태의 음성 분석부(200')도 인공지능 모듈(240')을 포함하는데, 그 구조는 제1 실시형태와는 다르다. 제2 실시형태에서의 인공지능 모듈(240')은 먼저 음편 생성부(250)에서 만들어진 복수의 음편을 유사한 음편끼리 하나의 음편 그룹으로 묶는다. 이는 기계학습의 여러 유형 중 비지도학습 모델에 해당한다. 비지도학습 모델은 정답은 없이 수 많은 데이터들을 입력했을 때, 어떤 기준에 따라 데이터를 유형별로 묶는데 사용하기에 적합하다. 예를 들어, 비지도학습 모델을 이용하면 수 많은 종류와 개수의 사진을 입력했을 때, 형태나 색상 등의 기준에 따라 동물 사진, 과일 사진, 풍경 사진, 자동차 사진 등으로 유형화할 수 있다. 본 발명에서는 음편의 파형상 유사성을 기준으로 하여 복수의 음편 그룹으로 유형화한다.The voice analyzer 200' of the second embodiment also includes an artificial intelligence module 240', and its structure is different from that of the first embodiment. In the second embodiment, the artificial intelligence module 240 ′ first groups a plurality of sound pieces created by the sound record generating unit 250 into one sound group. This corresponds to an unsupervised learning model among many types of machine learning. The unsupervised learning model is suitable for grouping data by type according to a certain criterion when a lot of data is input without an answer. For example, using the unsupervised learning model, when a large number of types and numbers of pictures are input, they can be classified into animal pictures, fruit pictures, landscape pictures, car pictures, etc. according to criteria such as shape or color. In the present invention, the sound pieces are classified into a plurality of sound groups based on the waveform similarity of the sound pieces.

음편 생성부(250)에서 만들어진 복수의 음편이 복수의 음편 그룹으로 묶인 다음에는, 각 음편 그룹 중의 적어도 어느 한 음편 그룹에 포함된 개체수가 제1 기준치를 초과했을 때 해당 음편 그룹에 포함된 음편 사이의 유사도를 판정한다. 이는 하나 이상의 음편 그룹 안에 충분한 개수의 표본이 모였을 때 그 음편들 사이의 유사도를 판정한다는 것이며, 그 유사도 판정 개시에 필요한 표본 개수의 문턱값이 제1 기준치에 해당함을 말한다.After the plurality of sound recordings created by the sound recording unit 250 are grouped into a plurality of sound groups, when the number of individuals included in at least one of the sound groups exceeds the first reference value, between the records included in the record group to determine the similarity of This means that when a sufficient number of samples are collected in one or more sound groups, the similarity between the pieces is determined, and the threshold value of the number of samples required to start the similarity determination corresponds to the first reference value.

그리고, 해당 음편 그룹(제1 기준치를 초과한 음편 그룹)에서의 음편 사이의 유사도, 즉 파형상의 유사도가 제2 기준치를 초과한다면, 이를 기준으로 음성 입력부(100)로 입력된 통화 음성을 인공지능 음성으로 판정하게 된다. 이는 해당 음편 그룹으로 묶인 음편들이 얼마나 유사한지를 한층 더 깊게 판단함을 의미한다. 사람의 음성은 동일한 음편을 발음한다고 하여도 통화의 길이가 길어질수록 기계가 아닌 이상 파형상으로는 차이가 발생하기 마련이다. 따라서, 하나의 음편 그룹에 속한 다수의 음편들이 파형상으로 별다른 차이가 없이 매우 유사하다면, 이는 해당 통화가 기계적으로 합성된 인공지능 음성임을 강하게 시사한다고 볼 수 있다.And, if the similarity between the notes in the corresponding sound group (the sound group exceeding the first reference value), that is, the similarity in the waveform exceeds the second reference value, the voice call input to the voice input unit 100 based on this is artificial intelligence judged by voice. This means that it is judged more deeply how similar the songs grouped into the corresponding song group are. Even if the human voice pronounces the same sound, as the length of the call increases, the difference in waveforms tends to occur unless it is a machine. Therefore, if a plurality of sounds belonging to one sound group are very similar in terms of waveforms without any significant difference, this strongly suggests that the corresponding call is a mechanically synthesized artificial intelligence voice.

여기서, 제1 기준치와 제2 기준치는 지도학습 모델의 기계학습을 통해 결정될 수 있다. 즉, 인공지능 모듈(240')의 기계학습 과정 중에는 사람의 음성인지 인공지능 음성인지를 알려준 상태에서 음편의 분석을 수행하게 되고, 이러한 학습 과정 중에 제1 기준치와 제2 기준치에 대한 최적의 값이 결정될 수 있다.Here, the first reference value and the second reference value may be determined through machine learning of the supervised learning model. That is, during the machine learning process of the artificial intelligence module 240', the sound piece analysis is performed in a state in which it is informed whether it is a human voice or an artificial intelligence voice, and during this learning process, the optimal values for the first and second reference values are This can be decided.

또한, 위와 같은 본 발명의 제2 실시형태는, 음편의 유사도 분석에 있어서 제3 기준치를 초과하는 복수 개의 음편 그룹에서 제2 기준치를 초과하는 유사도가 나타났을 때 인공지능 음성인 것으로 판정할 수 있다. 이는 제3 기준치를 초과하는 개수의 여러 음편 그룹에서 제2 기준치를 넘어서는 유사성이 발견되었을 때 좀더 확실히 인공지능 음성일 것이라 판정한다는 것이며, 제3 기준치도 지도학습 모델의 기계학습 과정에서 결정될 수 있다.In addition, in the second embodiment of the present invention as described above, when the similarity exceeding the second reference value is found in a plurality of sound groups exceeding the third reference value in the similarity analysis of the music, it can be determined that the voice is an artificial intelligence voice. . This means that when a similarity exceeding the second reference value is found in several sound groups with a number exceeding the third reference value, it is determined that the voice is more definitely an artificial intelligence voice, and the third reference value can also be determined in the machine learning process of the supervised learning model.

나아가, 제2 실시형태의 인공지능 모듈(240')은 음편이라는 언어적 요소 외에 다른 요소를 부가적인 판단요소로 사용할 수 있으며, 이러한 부가적 판단요소는 인공지능 음성인지의 판단을 강화하는 요소로 기능한다.Furthermore, the artificial intelligence module 240' of the second embodiment may use elements other than the linguistic element of sound as an additional judging element, and this additional judging element is an element for reinforcing the determination of whether it is an artificial intelligence voice. function

도 4는 이러한 부가적 판단요소로서, 비언어적 음향요소를 추가적으로 고려한 음성 분석부(200')의 구성을 개략적으로 보여준다. 도 4의 음성 분석부(200')는, 음성 입력부(100)로 입력된 통화 음성의 파형 중에 포함된 주변 소음, 호흡음, 침 삼키는 소리, 입맛을 다시는 소리, 혀 차는 소리와 같은 비언어적 음향요소의 빈도수가 제4 기준치 미만인 경우, 이 빈도수를 인공지능 음성의 판정에 보조적으로 반영하고 있다.FIG. 4 schematically shows the configuration of the voice analyzer 200' in consideration of non-verbal acoustic elements as such additional judgment elements. The voice analysis unit 200 ′ of FIG. 4 includes non-verbal sounds such as ambient noise, breathing sound, swallowing sound, licking sound, and tongue-kicking sound included in the waveform of the call voice input to the voice input unit 100 . When the frequency of the element is less than the fourth reference value, this frequency is reflected auxiliaryly in the judgment of artificial intelligence voice.

통상적인 통화 환경에는 주변 소음이 섞이는 경우가 비일비재하며, 통화 시간이 길어질수록 인간의 발성 메커니즘상 호흡음, 침 삼키는 소리, 입맛을 다시는 소리, 혀 차는 소리와 같은 비언어적 음향요소가 발생하기 쉽다. 따라서, 이와 같은 비언어적 음향요소가 매우 적게, 다시 말해 비언어적 음향요소의 빈도수가 제4 기준치 미만인 경우라면, 이는 해당 통화가 기계적으로 합성된 인공지능 음성이라는 판단을 강화하는 요소로 작용할 수 있다.In a normal conversation environment, ambient noise is often mixed, and as the talk time increases, non-verbal acoustic elements such as breathing sound, swallowing sound, licking sound, and tongue clicking sound are more likely to occur due to human vocal mechanisms. Therefore, if the non-verbal sound elements are very few, that is, when the frequency of the non-verbal sound elements is less than the fourth reference value, this may act as a factor to reinforce the determination that the call is a mechanically synthesized artificial intelligence voice.

그리고, 도 5는 사람이 복수의 문장을 발성할 때의 말하는 속도(전달 속도)가 일정하기 어렵다는 사실을 또 다른 부가적 판단요소로 반영한 음성 분석부(200')의 실시형태를 도시하고 있다. 즉, 사람은 길게 말하는 동안에 폐에 채워놓은 공기를 많이 써버리면 문장을 끝맺기 위해 말하는 속도가 빨라지는 경향이 있고, 또한 통화 중 감정의 기복에 따라 말하는 속도에 변화가 생기기 마련이다. And, FIG. 5 shows an embodiment of the voice analyzer 200' in which the fact that the speaking speed (transmission speed) when a person utters a plurality of sentences is difficult to be constant is reflected as another additional determining factor. In other words, if a person uses a lot of air in the lungs while speaking for a long time, the speaking speed tends to increase to end a sentence, and also the speaking speed tends to change according to the ups and downs of emotions during a call.

도 5에 도시된 인공지능 모듈(240')은 이러한 특성을 반영한 것으로서, 음성 입력부(100)로 입력된 통화 음성의 파형을 사전에 정해진 개수(예를 들면, 10개나 20개)의 음절을 포함하는 음절 그룹으로 나누고, 각 음절 그룹의 전달 속도 사이의 표준편차가 제5 기준치 미만인 경우라면, 이 표준편차를 인공지능 음성의 판정에 보조적으로 반영할 수 있다.The artificial intelligence module 240 ′ shown in FIG. 5 reflects these characteristics, and includes a preset number of syllables (eg, 10 or 20) in the waveform of the call voice input to the voice input unit 100 . If the standard deviation between the delivery rates of each syllable group is less than the fifth reference value, this standard deviation can be reflected auxiliaryly in the AI voice determination.

각 음절 그룹의 전달 속도 사이의 표준편차가 제5 기준치 미만이라는 것은 말하는 속도가 상당히 일정하다는 것을 의미하는바, 이러한 경우는 해당 통화가 기계적으로 합성된 인공지능 음성이라는 판단을 강화하는데 이용할 수 있다.If the standard deviation between the transmission rates of each syllable group is less than the fifth reference value, it means that the speaking rate is fairly constant, which can be used to reinforce the judgment that the call is a mechanically synthesized artificial intelligence voice.

여기서, 도 4와 도 5의 실시형태를 서로 병렬적으로 양립할 수 있으며, 제4 기준치와 제5 기준치 역시 지도학습 모델의 기계학습 과정에서 결정될 수 있다.Here, the embodiments of FIGS. 4 and 5 may be compatible with each other in parallel, and the fourth reference value and the fifth reference value may also be determined in the machine learning process of the supervised learning model.

이상과 같이 본 명세서에서 기술한 기술적 특징과 이를 실행하는 구현물은 디지털 전자 회로로 구현되거나, 본 명세서에서 기술하는 구조 및 그 구조적인 등가물 등을 포함하는 컴퓨터 소프트웨어, 펌웨어 또는 하드웨어로 구현되거나, 이들 중 하나 이상의 조합으로 구현될 수 있다. 또한 본 명세서에서 기술한 기술적 특징을 실행하는 구현물은 컴퓨터 프로그램 제품, 다시 말해 처리 시스템의 동작을 제어하기 위하여 또는 이것에 의한 실행을 위하여 유형의 프로그램 저장매체 상에 인코딩된 컴퓨터 프로그램 명령어에 관한 모듈로서 구현될 수도 있다.As described above, the technical features described in this specification and the implementation implementing them are implemented as digital electronic circuits, or implemented as computer software, firmware, or hardware including the structures described in this specification and structural equivalents thereof, or any of these It may be implemented in one or more combinations. In addition, an implementation implementing the technical features described in this specification is a computer program product, that is, as a module for computer program instructions encoded on a tangible program storage medium for controlling the operation of a processing system or for execution by it. may be implemented.

본 발명의 장치는 하나 이상의 프로세서를 포함한다. 상기 프로세서는 프로그램의 명령어들을 실행하기 위한 것으로, 디지털 시그널 프로세서(digital signal processor(DSP), 마이크로 프로세서(microprocessor) 등으로 구현될 수 있는 중앙처리 장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러 (controller), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서 (communication processor(CP)), ARM 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration), FPGA(Field Programmable gate array) 형태로 구현될 수 있다.The apparatus of the present invention includes one or more processors. The processor is for executing instructions of a program, and a central processing unit (CPU), which may be implemented as a digital signal processor (DSP), a microprocessor, or the like, a microcontroller (MCU) unit), micro processing unit (MPU), controller, application processor (AP), or communication processor (CP), ARM processor In addition, the processor may be implemented in the form of a system on chip (SoC), large scale integration (LSI), or field programmable gate array (FPGA) having a built-in processing algorithm.

본 발명은 메모리와 스토리지 같은 저장부를 포함할 수 있다. 상기 저장부에는 시스템의 처리 및 제어를 위한 프로그램 명령어와, 처리 과정 및 처리 후의 데이터가 저장될 수 있으며, ROM(Read Only Memory), RAM(Random Access Memory), EPROM(Erasable Programmable Read Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), 플래쉬(flash) 메모리, SRAM(Static RAM), HDD(Hard Disk Drive), SSD(Solid State Drive) 등으로 구현될 수 있다.The present invention may include storage such as memory and storage. The storage unit may store program instructions for processing and control of the system, and data after processing and processing, and includes a ROM (Read Only Memory), a RAM (Random Access Memory), an Erasable Programmable Read Only Memory (EPROM), It may be implemented as an EEPROM (Electrically Erasable Programmable Read-Only Memory), a flash memory, a static RAM (SRAM), a hard disk drive (HDD), a solid state drive (SSD), or the like.

이상 첨부된 도면을 참조하여 본 발명의 실시 예들을 설명하였지만, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.Although embodiments of the present invention have been described with reference to the accompanying drawings, those of ordinary skill in the art to which the present invention pertains can realize that the present invention can be embodied in other specific forms without changing its technical spirit or essential features. you will be able to understand Therefore, it should be understood that the embodiments described above are illustrative in all respects and not restrictive.

10: 인공지능 음성의 컴퓨팅 탐지 장치
100: 음성 입력부
200: 음성 분석부
210: 탐색 모듈
220: 인공지능 음성 출력 모듈
230: 인공지능 음성 생성 모듈
240: 인공지능 모듈
200': 음성 분석부
240': 인공지능 모듈
250: 음편 생성부
300: 출력부
10: Computational detection device of artificial intelligence voice
100: voice input unit
200: voice analysis unit
210: navigation module
220: artificial intelligence voice output module
230: artificial intelligence voice generation module
240: artificial intelligence module
200': voice analysis unit
240': AI module
250: sound recording unit
300: output unit

Claims (13)

적어도 하나 이상의 프로세서와, 상기 프로세서에 의해 처리되는 명령어들이 저장된 메모리를 포함하는 인공지능 음성의 컴퓨팅 탐지 장치로서,
전화 통화 음성을 입력받는 음성 입력부;
상기 음성 입력부로 입력된 통화 음성의 파형을 분석하여, 실제 음성인지 아니면 인공지능 음성인지를 판별하는 음성 분석부; 및
상기 음성 분석부에서 판별한 결과를 출력하는 출력부;
를 포함하는 인공지능 음성의 컴퓨팅 탐지 장치.
An artificial intelligence voice computing detection device comprising at least one processor and a memory in which instructions processed by the processor are stored,
a voice input unit for receiving a phone call voice;
a voice analysis unit that analyzes the waveform of the call voice input to the voice input unit and determines whether it is an actual voice or an artificial intelligence voice; and
an output unit for outputting a result determined by the voice analysis unit;
Computing detection device of artificial intelligence comprising a.
제1항에 있어서,
상기 음성 분석부는,
텍스트 파일과, 상기 텍스트 파일을 사람이 낭독하는 음성 파일이 함께 있는 학습 파일을 검색하고 취득하는 탐색 모듈;
상기 탐색 모듈이 취득한 텍스트 파일을 인공지능 음성 생성 모듈에 입력하고, 상기 인공지능 음성 생성 모듈에서 출력된 인공지능 음성을 출력하는 인공지능 음성 출력 모듈; 및
상기 음성 파일과 인공지능 음성을 입력받고, 이들 사이의 파형상의 차이에 대해 기계학습하는 인공지능 모듈;
을 포함하는 인공지능 음성의 컴퓨팅 탐지 장치.
According to claim 1,
The voice analysis unit,
a search module for searching and acquiring a text file and a learning file including an audio file in which a person reads the text file;
an artificial intelligence voice output module for inputting the text file acquired by the search module into an artificial intelligence voice generating module and outputting an artificial intelligence voice output from the artificial intelligence voice generating module; and
an artificial intelligence module for receiving the voice file and the artificial intelligence voice and machine learning about the difference in waveforms therebetween;
Computing detection device of artificial intelligence comprising a.
제2항에 있어서,
상기 인공지능 모듈은,
기계학습을 수행한 후, 상기 음성 입력부로 입력된 통화 음성의 파형을 분석하여, 실제 음성인지 아니면 인공지능 음성인지를 판별하는,
인공지능 음성의 컴퓨팅 탐지 장치.
3. The method of claim 2,
The artificial intelligence module is
After performing machine learning, analyzing the waveform of the call voice input to the voice input unit to determine whether it is an actual voice or an artificial intelligence voice,
Computational detection device of artificial intelligence voice.
제2항에 있어서,
상기 학습 파일은,
오디오 북 파일, 연설문 및 그 낭독 파일을 포함하는,
인공지능 음성의 컴퓨팅 탐지 장치.
3. The method of claim 2,
The training file is
including audiobook files, speeches and readings thereof;
Computational detection device of artificial intelligence voice.
제2항에 있어서,
상기 인공지능 음성 생성 모듈은,
통신으로 연결된 외부의 상용화된 어플리케이션 또는 프로그램인 것을 특징으로 하는,
인공지능 음성의 컴퓨팅 탐지 장치.
3. The method of claim 2,
The artificial intelligence voice generation module,
Characterized in that it is an external commercialized application or program connected by communication,
Computational detection device of artificial intelligence voice.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 인공지능 음성의 컴퓨팅 탐지 장치는,
스마트 단말기의 어플리케이션, 또는 통신사의 기지국이나 중계기의 하드웨어에 탑재되는 프로그램인 것을 특징으로 하는,
인공지능 음성의 컴퓨팅 탐지 장치.
6. The method according to any one of claims 1 to 5,
The computing detection device of the artificial intelligence voice,
characterized in that it is a program mounted on the hardware of a smart terminal application, or a base station or repeater of a telecommunication company,
Computational detection device of artificial intelligence voice.
제6항에 있어서,
상기 출력부는,
상기 음성 분석부에서 판별한 결과를 앱 알림창, 단문 메시지, 메신저 중의 적어도 어느 하나로서 출력하는,
인공지능 음성의 컴퓨팅 탐지 장치.
7. The method of claim 6,
the output unit,
Outputting the result determined by the voice analysis unit as at least one of an app notification window, a short message, and a messenger,
Computational detection device of artificial intelligence voice.
제1항에 있어서,
상기 음성 분석부는,
상기 음성 입력부로 입력된 통화 음성의 파형을 각 음절마다 복수의 음편으로 분할하는 음편 생성부; 및
상기 음편 생성부에서 만들어진 복수의 음편을 유사한 음편끼리 하나의 음편 그룹으로 묶고, 각 음편 그룹 중의 적어도 어느 한 음편 그룹에 포함된 개체수가 제1 기준치를 초과했을 때 해당 음편 그룹에 포함된 음편 사이의 유사도를 판정하며, 판정된 유사도가 제2 기준치를 초과했을 때 인공지능 음성인 것으로 판정하는 인공지능 모듈;
을 포함하는 인공지능 음성의 컴퓨팅 탐지 장치.
According to claim 1,
The voice analysis unit,
a sound piece generator for dividing the waveform of the voice call input through the voice input unit into a plurality of sound pieces for each syllable; and
A plurality of sound recordings generated by the sound recording unit are grouped together into one sound group, and when the number of individuals included in at least one of the sound groups exceeds the first reference value, between the records included in the record group an artificial intelligence module that determines a degree of similarity, and determines that it is an artificial intelligence voice when the determined degree of similarity exceeds a second reference value;
Computing detection device of artificial intelligence comprising a.
제8항에 있어서,
상기 인공지능 모듈은,
제3 기준치를 초과하는 복수 개의 음편 그룹에서 제2 기준치를 초과하는 유사도가 나타났을 때 인공지능 음성인 것으로 판정하는,
인공지능 음성의 컴퓨팅 탐지 장치.
9. The method of claim 8,
The artificial intelligence module is
Determining that it is an artificial intelligence voice when a similarity exceeding the second reference value appears in a plurality of sound groups exceeding the third reference value,
Computational detection device of artificial intelligence voice.
제8항에 있어서,
상기 인공지능 모듈은,
상기 음성 입력부로 입력된 통화 음성의 파형 중에 포함된 주변 소음, 호흡음, 침 삼키는 소리, 입맛을 다시는 소리, 혀 차는 소리를 포함하는 비언어적 음향요소의 빈도수가 제4 기준치 미만인 경우, 이 빈도수를 인공지능 음성의 판정에 보조적으로 반영하는,
인공지능 음성의 컴퓨팅 탐지 장치.
9. The method of claim 8,
The artificial intelligence module is
When the frequency of non-verbal sound elements including ambient noise, breathing sound, swallowing sound, licking sound, and tongue-kicking sound included in the waveform of the call voice input to the voice input unit is less than the fourth reference value, this frequency Auxiliary reflected in the judgment of artificial intelligence voice,
Computational detection device of artificial intelligence voice.
제8항에 있어서,
상기 인공지능 모듈은,
상기 음성 입력부로 입력된 통화 음성의 파형을 사전에 정해진 개수의 음절을 포함하는 음절 그룹으로 나누고, 각 음절 그룹의 전달 속도 사이의 표준편차가 제5 기준치 미만인 경우, 이 표준편차를 인공지능 음성의 판정에 보조적으로 반영하는,
인공지능 음성의 컴퓨팅 탐지 장치.
9. The method of claim 8,
The artificial intelligence module is
The waveform of the voice call inputted to the voice input unit is divided into syllable groups including a predetermined number of syllables, and when the standard deviation between the transfer rates of each syllable group is less than the fifth reference value, this standard deviation is calculated as that of the artificial intelligence voice. reflected in the adjudication as an auxiliary,
Computational detection device of artificial intelligence voice.
제1항, 제8항 내지 제11항 중 어느 한 항에 있어서,
상기 인공지능 음성의 컴퓨팅 탐지 장치는,
스마트 단말기의 어플리케이션, 또는 통신사의 기지국이나 중계기의 하드웨어에 탑재되는 프로그램인 것을 특징으로 하는,
인공지능 음성의 컴퓨팅 탐지 장치.
12. The method of any one of claims 1, 8 to 11,
The computing detection device of the artificial intelligence voice,
characterized in that it is a program mounted on the hardware of a smart terminal application, or a base station or repeater of a telecommunication company,
Computational detection device of artificial intelligence voice.
제12항에 있어서,
상기 출력부는,
상기 음성 분석부에서 판별한 결과를 앱 알림창, 단문 메시지, 메신저 중의 적어도 어느 하나로서 출력하는,
인공지능 음성의 컴퓨팅 탐지 장치.
13. The method of claim 12,
the output unit,
Outputting the result determined by the voice analysis unit as at least one of an app notification window, a short message, and a messenger,
Computational detection device of artificial intelligence voice.
KR1020200123985A 2020-09-24 2020-09-24 Computing Detection Device for AI Voice KR102415519B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200123985A KR102415519B1 (en) 2020-09-24 2020-09-24 Computing Detection Device for AI Voice

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200123985A KR102415519B1 (en) 2020-09-24 2020-09-24 Computing Detection Device for AI Voice

Publications (2)

Publication Number Publication Date
KR20220040813A true KR20220040813A (en) 2022-03-31
KR102415519B1 KR102415519B1 (en) 2022-07-05

Family

ID=80934953

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200123985A KR102415519B1 (en) 2020-09-24 2020-09-24 Computing Detection Device for AI Voice

Country Status (1)

Country Link
KR (1) KR102415519B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115022087A (en) * 2022-07-20 2022-09-06 中国工商银行股份有限公司 Voice recognition verification processing method and device
KR20240032596A (en) * 2022-09-02 2024-03-12 숭실대학교산학협력단 Synthetic voice detection method based on biological sound, recording medium and apparatus for performing the same

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11190996A (en) * 1997-08-15 1999-07-13 Shingo Igarashi Synthesis voice discriminating system
KR20190131806A (en) * 2018-05-17 2019-11-27 서울시립대학교 산학협력단 Voice recognition system for detecting spoofing in speaker voice authentication service
KR20200016516A (en) 2018-08-07 2020-02-17 주식회사 에스알유니버스 Apparatus and method for synthesizing personalized virtual voice
JP2021078012A (en) * 2019-11-08 2021-05-20 株式会社ハロー Answering machine determination device, method and program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11190996A (en) * 1997-08-15 1999-07-13 Shingo Igarashi Synthesis voice discriminating system
KR20190131806A (en) * 2018-05-17 2019-11-27 서울시립대학교 산학협력단 Voice recognition system for detecting spoofing in speaker voice authentication service
KR20200016516A (en) 2018-08-07 2020-02-17 주식회사 에스알유니버스 Apparatus and method for synthesizing personalized virtual voice
JP2021078012A (en) * 2019-11-08 2021-05-20 株式会社ハロー Answering machine determination device, method and program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Hany Farid et al, ‘Detecting AI-Synthesized Speech Using Bispectral Analysis’, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, 2019, pp. 104-109* *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115022087A (en) * 2022-07-20 2022-09-06 中国工商银行股份有限公司 Voice recognition verification processing method and device
CN115022087B (en) * 2022-07-20 2024-02-27 中国工商银行股份有限公司 Voice recognition verification processing method and device
KR20240032596A (en) * 2022-09-02 2024-03-12 숭실대학교산학협력단 Synthetic voice detection method based on biological sound, recording medium and apparatus for performing the same

Also Published As

Publication number Publication date
KR102415519B1 (en) 2022-07-05

Similar Documents

Publication Publication Date Title
US11922923B2 (en) Optimal human-machine conversations using emotion-enhanced natural speech using hierarchical neural networks and reinforcement learning
CN107680597B (en) Audio recognition method, device, equipment and computer readable storage medium
Zeng et al. Effective combination of DenseNet and BiLSTM for keyword spotting
WO2021128741A1 (en) Voice emotion fluctuation analysis method and apparatus, and computer device and storage medium
US8825479B2 (en) System and method for recognizing emotional state from a speech signal
WO2017076222A1 (en) Speech recognition method and apparatus
US8494853B1 (en) Methods and systems for providing speech recognition systems based on speech recordings logs
US11132993B1 (en) Detecting non-verbal, audible communication conveying meaning
US20140358537A1 (en) System and Method for Combining Speech Recognition Outputs From a Plurality of Domain-Specific Speech Recognizers Via Machine Learning
CN107409061A (en) Voice summarizes program
US9711167B2 (en) System and method for real-time speaker segmentation of audio interactions
CN107810529A (en) Language model sound end determines
JP2017097162A (en) Keyword detection device, keyword detection method and computer program for keyword detection
US11270691B2 (en) Voice interaction system, its processing method, and program therefor
KR102415519B1 (en) Computing Detection Device for AI Voice
CN107591150A (en) Audio recognition method and device, computer installation and computer-readable recording medium
CN111192659A (en) Pre-training method for depression detection and depression detection method and device
CN112992147A (en) Voice processing method, device, computer equipment and storage medium
Trabelsi et al. Evaluation of the efficiency of state-of-the-art Speech Recognition engines
CN112216270B (en) Speech phoneme recognition method and system, electronic equipment and storage medium
JP6712754B2 (en) Discourse function estimating device and computer program therefor
US9355636B1 (en) Selective speech recognition scoring using articulatory features
KR102389995B1 (en) Method for generating spontaneous speech, and computer program recorded on record-medium for executing method therefor
US11398239B1 (en) ASR-enhanced speech compression
Mandel et al. Learning a concatenative resynthesis system for noise suppression

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant