KR101910089B1 - 멀티 모달의 상관관계를 이용한 동영상 특징 벡터 추출 방법 및 시스템 - Google Patents
멀티 모달의 상관관계를 이용한 동영상 특징 벡터 추출 방법 및 시스템 Download PDFInfo
- Publication number
- KR101910089B1 KR101910089B1 KR1020170028561A KR20170028561A KR101910089B1 KR 101910089 B1 KR101910089 B1 KR 101910089B1 KR 1020170028561 A KR1020170028561 A KR 1020170028561A KR 20170028561 A KR20170028561 A KR 20170028561A KR 101910089 B1 KR101910089 B1 KR 101910089B1
- Authority
- KR
- South Korea
- Prior art keywords
- feature vector
- image
- audio
- extracting
- vector
- Prior art date
Links
- 239000013598 vector Substances 0.000 title claims abstract description 297
- 238000000034 method Methods 0.000 title claims abstract description 51
- 239000000284 extract Substances 0.000 claims abstract description 20
- 230000010354 integration Effects 0.000 claims description 40
- 238000000605 extraction Methods 0.000 claims description 38
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 9
- 239000002356 single layer Substances 0.000 claims description 6
- 238000011176 pooling Methods 0.000 abstract description 8
- 238000013527 convolutional neural network Methods 0.000 description 24
- 238000004422 calculation algorithm Methods 0.000 description 16
- 239000010410 layer Substances 0.000 description 15
- 238000010801 machine learning Methods 0.000 description 10
- 241000282414 Homo sapiens Species 0.000 description 9
- 238000009826 distribution Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000007635 classification algorithm Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G06F17/30784—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G06K9/00744—
-
- G06K9/481—
-
- G06K9/6267—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G06N99/005—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/469—Contour-based spatial representations, e.g. vector-coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
Description
도 2는 피어슨 상관계수에 따른 선형관계를 설명하는 그래프이다.
도 3은 AlexNet의 구조도이다.
도 4는 GoogLeNet 의 구조도이다.
도 5는 본 발명의 바람직한 실시예에 따른 동영상에 대한 특징 벡터 추출 시스템을 전체적으로 도시한 블록도이다.
300 : 이미지/오디오 추출 모듈
310 : 이미지 특징 벡터 추출 모듈
312 : 오디오 특징 벡터 추출 모듈
320 : 차원 일치 모듈
330 : 정규화 모듈
340 : 벡터 통합 모듈
Claims (11)
- 이미지와 오디오로 이루어지는 동영상의 특징 벡터 추출 방법에 있어서,
(a) 상기 동영상의 이미지에 대한 이미지 특징 벡터를 추출하는 단계;
(b) 상기 동영상의 오디오에 대한 오디오 특징 벡터를 추출하는 단계;
(c) 상기 이미지 특징 벡터 및 상기 오디오 특징 벡터를 각각 단위 벡터를 이용하여 정규화시키는 단계;
(d) 정규화된 이미지 특징 벡터와 정규화된 오디오 특징 벡터를 통합하여 상기 동영상에 대한 특징 벡터를 생성하는 단계;
를 구비하여 동영상을 대표하는 단일의 특징 벡터를 추출하는 동영상의 특징 벡터 추출 방법. - 제1항에 있어서, 상기 (d) 단계는, 상기 정규화된 이미지 특징 벡터와 오디오 특징 벡터에 대한 상관 계수를 추출하고, 상기 상관 계수를 가중값으로 이용하여 상기 정규화된 이미지 특징 벡터와 오디오 특징 벡터를 상관 관계 통합하여 상기 동영상에 대한 특징 벡터를 생성하는 것을 특징으로 하는 동영상의 특징 벡터 추출 방법.
- 제2항에 있어서, 상기 상관 계수는 상기 정규화된 이미지 특징 벡터와 오디오 특징 벡터에 대한 피어슨 상관 계수인 것을 특징으로 하는 동영상의 특징 벡터 추출 방법.
- 제2항에 있어서, 상기 (d) 단계는 상기 정규화된 이미지 특징 벡터와 오디오 특징 벡터에 대하여 평균 통합을 하여 상기 동영상에 대한 특징 벡터를 생성하되, 상기 상관 계수를 가중값으로 사용하는 것을 특징으로 하는 동영상의 특징 벡터 추출 방법.
- 제1항에 있어서, 상기 (c) 단계는
단일 계층 신경망을 사용하여 상기 (a) 단계에서 추출된 이미지 특징 벡터의 차원과 상기 (b) 단계에서 추출된 오디오 특징 벡터의 차원을 일치시키고, 서로 일치된 차원을 갖는 이미지 특징 벡터와 오디오 특징 벡터를 단위 벡터를 이용하여 정규화시키는 것을 특징으로 하며,
상기 단위 벡터는 이미지 특징 벡터와 오디오 특징 벡터의 속성은 그대로 유지하면서 크기가 1인 벡터인 것을 특징으로 하는 동영상의 특징 벡터 추출 방법. - 제1항 내지 제5항 중 어느 한 항에 따른 동영상의 특징 벡터 추출 방법에 의해 추출된 동영상을 대표하는 단일의 특징 벡터를 이용하여 동영상에 대한 이벤트를 분류하는 것을 특징으로 하는 동영상 분류 방법.
- 동영상으로부터 이미지와 오디오를 각각 추출하는 이미지/오디오 추출 모듈;
상기 이미지/오디오 추출 모듈로부터 추출된 이미지에 대한 이미지 특징 벡터를 추출하는 이미지 특징 벡터 추출 모듈;
상기 이미지/오디오 추출 모듈로부터 추출된 오디오에 대한 오디오 특징 벡터를 추출하는 오디오 특징 벡터 추출 모듈;
단일 계층 신경망을 이용하여 상기 이미지 특징 벡터 추출 모듈에 의해 추출된 이미지 특징 벡터의 차원과 상기 오디오 특징 벡터 추출 모듈에 의해 추출된 오디오 특징 벡터의 차원을 서로 일치시키는 차원 일치 모듈;
상기 차원 일치 모듈에 의해 차원이 일치된 이미지 특징 벡터 및 오디오 특징 벡터를 단위 벡터를 이용하여 각각 정규화시키는 정규화 모듈;
정규화된 이미지 특징 벡터와 오디오 특징 벡터를 통합시켜 동영상을 대표하는 하나의 특징 벡터를 추출하는 벡터 통합 모듈;
을 구비하여, 동영상을 대표하는 단일을 특징 벡터를 추출하여 제공하는 동영상의 특징 벡터 추출 시스템. - 제7항에 있어서, 상기 벡터 통합 모듈은, 상기 정규화된 이미지 특징 벡터와 오디오 특징 벡터에 대한 상관 계수를 추출하고, 상기 상관 계수를 가중값으로 이용하여 상기 정규화된 이미지 특징 벡터와 오디오 특징 벡터를 상관 관계 통합하여 상기 동영상에 대한 특징 벡터를 생성하는 것을 특징으로 하는 동영상의 특징 벡터 추출 시스템.
- 제8항에 있어서, 상기 상관 계수는 상기 정규화된 이미지 특징 벡터와 오디오 특징 벡터에 대한 피어슨 상관 계수인 것을 특징으로 하는 동영상의 특징 벡터 추출 시스템.
- 제8항에 있어서, 상기 벡터 통합 모듈은, 상기 정규화된 이미지 특징 벡터와 오디오 특징 벡터에 대하여 평균 통합을 하여 상기 동영상에 대한 특징 벡터를 생성하되, 상기 상관 계수를 가중값으로 사용하는 것을 특징으로 하는 동영상의 특징 벡터 추출 시스템.
- 제7항 내지 제10항 중 어느 한 항에 따른 동영상의 특징 벡터 추출 시스템에 의해 추출된 동영상을 대표하는 단일의 특징 벡터를 이용하여 동영상에 대한 이벤트를 분류하는 것을 특징으로 하는 동영상 분류 시스템.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170028561A KR101910089B1 (ko) | 2017-03-06 | 2017-03-06 | 멀티 모달의 상관관계를 이용한 동영상 특징 벡터 추출 방법 및 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170028561A KR101910089B1 (ko) | 2017-03-06 | 2017-03-06 | 멀티 모달의 상관관계를 이용한 동영상 특징 벡터 추출 방법 및 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20180101959A KR20180101959A (ko) | 2018-09-14 |
KR101910089B1 true KR101910089B1 (ko) | 2018-10-19 |
Family
ID=63599697
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170028561A KR101910089B1 (ko) | 2017-03-06 | 2017-03-06 | 멀티 모달의 상관관계를 이용한 동영상 특징 벡터 추출 방법 및 시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101910089B1 (ko) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113361301A (zh) * | 2020-03-04 | 2021-09-07 | 上海分众软件技术有限公司 | 一种基于深度学习的广告视频识别方法 |
KR20220107575A (ko) * | 2021-01-25 | 2022-08-02 | 삼성전자주식회사 | 멀티 모달 데이터를 처리하는 전자 장치 및 그 동작 방법 |
KR102649947B1 (ko) | 2021-01-28 | 2024-03-22 | 국민대학교산학협력단 | 이미지와 텍스트 통합 데이터에 대한 딥러닝 기반 심층 상황 이해 시스템 및 방법 |
KR102279797B1 (ko) * | 2021-03-05 | 2021-07-21 | 전남대학교산학협력단 | 멀티모달 데이터 융합 시스템 및 방법 |
WO2023059000A1 (ko) * | 2021-10-08 | 2023-04-13 | 삼성전자주식회사 | 학습을 보조하기 위한 방법 및 장치 |
CN117639986B (zh) * | 2023-11-29 | 2024-08-06 | 东营市无线电监测站 | 一种应用于市域监测的基于深度学习的调频广播信号频谱监测方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100792016B1 (ko) | 2006-07-25 | 2008-01-04 | 한국항공대학교산학협력단 | 오디오 및 비디오 정보를 이용한 등장인물 기반 비디오요약 장치 및 그 방법 |
KR20070107628A (ko) | 2007-08-15 | 2007-11-07 | (주)코인미디어 랩 | 동영상 샷의 분류 |
-
2017
- 2017-03-06 KR KR1020170028561A patent/KR101910089B1/ko active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
KR20180101959A (ko) | 2018-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101910089B1 (ko) | 멀티 모달의 상관관계를 이용한 동영상 특징 벡터 추출 방법 및 시스템 | |
Zhou et al. | A compact representation of visual speech data using latent variables | |
CN112446476A (zh) | 神经网络模型压缩的方法、装置、存储介质和芯片 | |
Kumar et al. | Artificial Emotional Intelligence: Conventional and deep learning approach | |
Danisman et al. | Intelligent pixels of interest selection with application to facial expression recognition using multilayer perceptron | |
Abebe et al. | A long short-term memory convolutional neural network for first-person vision activity recognition | |
CN106971145A (zh) | 一种基于极限学习机的多视角动作识别方法及装置 | |
Lian et al. | Investigation of multimodal features, classifiers and fusion methods for emotion recognition | |
Lu et al. | Automatic lip reading using convolution neural network and bidirectional long short-term memory | |
John et al. | Real-time hand posture and gesture-based touchless automotive user interface using deep learning | |
Guo et al. | Facial expression recognition: A review | |
Morade et al. | Comparison of classifiers for lip reading with CUAVE and TULIPS database | |
Chelali | Bimodal fusion of visual and speech data for audiovisual speaker recognition in noisy environment | |
Hina et al. | Multimodal emotion recognition using deep learning architectures | |
Sindhura et al. | Convolutional neural networks for predicting words: A lip-reading system | |
Kini et al. | A survey on video summarization techniques | |
Bisot et al. | Nonnegative feature learning methods for acoustic scene classification | |
Kang et al. | Pivot correlational neural network for multimodal video categorization | |
Zhao et al. | Learning saliency features for face detection and recognition using multi-task network | |
Micheal et al. | Automatic age and gender estimation using deep learning and extreme learning machine | |
Gantayat et al. | Study of algorithms and methods on emotion detection from facial expressions: a review from past research | |
Ghaleb et al. | Multimodal fusion based on information gain for emotion recognition in the wild | |
Capozzi et al. | Toward vehicle occupant-invariant models for activity characterization | |
Le Cornu et al. | Voicing classification of visual speech using convolutional neural networks | |
Huu et al. | Two-stream convolutional network for dynamic hand gesture recognition using convolutional long short-term memory networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20170306 |
|
PA0201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20180822 |
|
PG1501 | Laying open of application | ||
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20181015 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20181016 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20211001 Start annual number: 4 End annual number: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20220922 Start annual number: 5 End annual number: 5 |
|
PR1001 | Payment of annual fee |
Payment date: 20230829 Start annual number: 6 End annual number: 6 |
|
PR1001 | Payment of annual fee |
Payment date: 20240819 Start annual number: 7 End annual number: 7 |