KR102650138B1 - 디스플레이장치, 그 제어방법 및 기록매체 - Google Patents
디스플레이장치, 그 제어방법 및 기록매체 Download PDFInfo
- Publication number
- KR102650138B1 KR102650138B1 KR1020180162230A KR20180162230A KR102650138B1 KR 102650138 B1 KR102650138 B1 KR 102650138B1 KR 1020180162230 A KR1020180162230 A KR 1020180162230A KR 20180162230 A KR20180162230 A KR 20180162230A KR 102650138 B1 KR102650138 B1 KR 102650138B1
- Authority
- KR
- South Korea
- Prior art keywords
- data
- audio
- data group
- display device
- convolution operation
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000008569 process Effects 0.000 claims abstract description 30
- 230000000694 effects Effects 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims description 26
- 238000003860 storage Methods 0.000 claims description 23
- 230000004913 activation Effects 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 15
- 238000013135 deep learning Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 abstract description 24
- 238000004891 communication Methods 0.000 description 42
- 238000013473 artificial intelligence Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 18
- 238000005516 engineering process Methods 0.000 description 15
- 230000005236 sound signal Effects 0.000 description 15
- 238000004590 computer program Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 7
- 238000011176 pooling Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 4
- 230000033001 locomotion Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000007654 immersion Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 239000002041 carbon nanotube Substances 0.000 description 1
- 229910021393 carbon nanotube Inorganic materials 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000002772 conduction electron Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 239000002159 nanocrystal Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000013341 scale-up Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/44—Receiver circuitry for the reception of television signals according to analogue transmission standards
- H04N5/60—Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
- H04N5/62—Intercarrier circuits, i.e. heterodyning sound and vision carriers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09G—ARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
- G09G3/00—Control arrangements or circuits, of interest only in connection with visual indicators other than cathode-ray tubes
- G09G3/20—Control arrangements or circuits, of interest only in connection with visual indicators other than cathode-ray tubes for presentation of an assembly of a number of characters, e.g. a page, by composing the assembly by combination of individual elements arranged in a matrix no fixed position being assigned to or needed to be assigned to the individual characters or partial characters
- G09G3/22—Control arrangements or circuits, of interest only in connection with visual indicators other than cathode-ray tubes for presentation of an assembly of a number of characters, e.g. a page, by composing the assembly by combination of individual elements arranged in a matrix no fixed position being assigned to or needed to be assigned to the individual characters or partial characters using controlled light sources
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/434—Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
- H04N21/4341—Demultiplexing of audio and video streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Controls And Circuits For Display Device (AREA)
Abstract
본 발명은 디스플레이장치, 그 제어방법 및 기록매체에 관한 것으로서, 디스플레이장치는, 영상을 표시할 수 있는 디스플레이; 오디오를 출력할 수 있는 오디오출력부; 및 프레임 단위로 입력되는 오디오 스트림의 데이터에 대하여, 미리 정해진 수의 프레임 동안의 데이터 그룹에서 분할된 데이터 블록 별로 미리 학습된 필터를 이용한 연산을 순차적으로 수행하고, 순차적으로 수행된 연산에 기초하여, 데이터 그룹 별로 오디오특성을 식별하고, 데이터 그룹에 대응하여 출력되는 오디오가 식별된 오디오특성에 대응하는 오디오효과를 가지도록 오디오 스트림의 데이터를 처리하는 프로세서를 포함한다. 이에 의하여, 분할된 데이터 블록 별로 연산을 분산하여 수행하여, 피크 연산량을 자연스럽게 감소시켜 줌으로써, 일시적인 과부하를 방지할 수 있다.
Description
본 발명은 디스플레이장치, 그 제어방법 및 기록매체에 관한 것으로서, 보다 상세하게는 AI 학습 기반으로 오디오신호를 처리할 수 있는 디스플레이장치, 그 제어방법 및 기록매체에 관한 것이다.
인공지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 Rule 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 Rule 기반 스마트 시스템은 점차 AI 학습 기반 인공지능 시스템으로 대체되고 있다.
인공지능 기술은 머신러닝(기계학습), 딥러닝과 같은 학습기반 처리 및 학습을 활용한 요소 기술들로 구성된다.
학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 머신러닝, 딥러닝 등의 학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.
인공지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.
인공지능 기술에 대한 관심이 높아지면서, 이 기술을 텔레비전(TV)이나 스마트폰과 같은 단말장치 등의 제품에 임베디드 방식으로 적용하여, 온디바이스 환경에서 동작하도록 하는 시도가 이루어지고 있다.
그런데, 인공지능 기술이 온디바이스 환경에서 동작하게 되면, 별도의 서버에서 연산이 이루어지는 경우와 비교하여, 리소스에 의하여 연산량에 제약이 존재하게 된다. 그에 따라, 특정 시점에서 일시적으로 연산량이 증가하게 되면, 과부하에 의한 시스템 오류가 발생될 수 있는 문제점이 있다.
본 발명은, 상기와 같은 문제점을 해결하고자 하는 것으로, AI 학습기반으로 오디오신호를 처리하는데 있어, 연산의 분산처리가 가능하도록 하여 리소스에 제한이 있는 온디바이스 환경에서 과부하를 방지할 수 있는 디스플레이장치, 그 제어방법 및 기록매체를 제공한다.
본 발명 일 실시예에 따른 디스플레이장치는, 영상을 표시할 수 있는 디스플레이; 오디오를 출력할 수 있는 오디오출력부; 및 프레임 단위로 입력되는 오디오 스트림의 데이터에 대하여, 미리 정해진 수의 프레임 동안의 데이터 그룹에서 분할된 데이터 블록 별로 미리 학습된 필터를 이용한 연산을 순차적으로 수행하고, 순차적으로 수행된 연산에 기초하여, 데이터 그룹 별로 오디오특성을 식별하고, 데이터 그룹에 대응하여 출력되는 오디오가 식별된 오디오특성에 대응하는 오디오효과를 가지도록 오디오 스트림의 데이터를 처리하는 프로세서를 포함한다. 이에 의하여, 분할된 데이터 블록 별로 연산을 분산하여 수행하여, 피크 연산량을 자연스럽게 감소시켜 줌으로써, 일시적인 과부하를 방지할 수 있다.
데이터 블록은 각 데이터 그룹의 전체 데이터를 시간 별로 분할한 것에 대응하며, 연산은 데이터 그룹에서 분할된 각 데이터 블록이 입력되는 동안 수행될 수 있다. 이에, 오디오 스트림을 수신하면서 동시에 분산 연산을 실시간으로 처리할 수 있다.
데이터 블록은 각 데이터 그룹의 전체 데이터를 주파수 별로 분할한 것에 대응하며, 프로세서는, 제1 데이터 그룹에 후속되는 제2 데이터 그룹에 대응하는 오디오 스트림의 데이터가 입력되는 동안, 제1 데이터 그룹에서 분할된 데이터 블록 별로 연산을 순차적으로 수행할 수 있다. 이에, 각 데이터 그룹의 오디오 스트림의 데이터가 모두 확보된 상태에서, 데이터 블록을 식별하여 서로 다른 2 이상의 데이터 블록 간의 상관관계를 연산하하므로, 정확도의 감소 없이 신뢰성 높은 연산 결과를 획득할 수 있다.
프로세서는, 데이터 그룹의 서로 다른 2 이상의 분할된 데이터 블록 간의 상관관계에 관한 연산을 수행할 수 있다.
프로세서는, 연산이 순차적으로 수행된 데이터 블록을 병합하고, 병합된 데이터 블록들로 이루어진 데이터 그룹의 패턴을 검출하여 데이터 그룹 별로 오디오 특성을 식별할 수 있다. 이에, 출력되는 오디오에 그 특성에 대응하는 효과가 부여됨으로써, 사용자 만족도가 향상된다.
프로세서는, 병합된 데이터 그룹의 출력 데이터에 대해 활성함수를 적용하고, 활성함수가 적용된 출력 데이터로부터 대표값을 추출하여, 데이터 그룹의 패턴을 검출할 수 있다.
오디오특성은 각 데이터 그룹의 오디오 스트림의 데이터에 대응하는 영상의 장면특성에 대응할 수 있다. 이에, TV 영상을 시청하는 사용자의 몰입도가 향상된다.
학습데이터가 저장된 저장부를 더 포함하고, 프로세서는 학습 데이터에 기반한 심층 학습 알고리즘 모델을 적용하여 연산을 수행할 수 있다. 이에, 온디바이스 환경에서 AI 학습에 따른 오디오신호 처리가 가능하다.
한편, 본 발명 일 실시예에 따른 디스플레이장치를 제어하는 방법은, 프레임 단위로 입력되는 오디오 스트림의 데이터에 대하여, 미리 정해진 수의 프레임 동안의 데이터 그룹에서 분할된 데이터 블록 별로 미리 학습된 필터를 이용한 연산을 순차적으로 수행하는 단계; 순차적으로 수행된 연산에 기초하여, 데이터 그룹 별로 오디오특성을 식별하는 단계; 및 데이터 그룹에 대응하여 출력되는 오디오가 식별된 오디오특성에 대응하는 오디오효과를 가지도록 오디오 스트림의 데이터를 처리하는 단계를 포함한다. 이에 의하여, 분할된 데이터 블록 별로 연산을 분산하여 수행하여, 피크 연산량을 자연스럽게 감소시켜 줌으로써, 일시적인 과부하를 방지할 수 있다.
데이터 블록은 각 데이터 그룹의 전체 데이터를 시간 별로 분할한 것에 대응하며, 연산은 데이터 그룹에서 분할된 각 데이터 블록이 입력되는 동안 수행될 수 있다. 이에, 오디오 스트림을 수신하면서 동시에 분산 연산을 실시간으로 처리할 수 있다.
데이터 블록은 각 데이터 그룹의 전체 데이터를 주파수 별로 분할한 것에 대응하며, 연산을 순차적으로 수행하는 단계는, 제1 데이터 그룹에 후속되는 제2 데이터 그룹에 대응하는 오디오 스트림의 데이터가 입력되는 동안, 제1 데이터 그룹에서 분할된 데이터 블록 별로 연산을 순차적으로 수행하는 단계를 포함할 수 있다. 이에, 각 데이터 그룹의 오디오 스트림의 데이터가 모두 확보된 상태에서, 데이터 블록을 식별하여 서로 다른 2 이상의 데이터 블록 간의 상관관계를 연산하하므로, 정확도의 감소 없이 신뢰성 높은 연산 결과를 획득할 수 있다.
연산을 순차적으로 수행하는 단계는, 데이터 그룹의 서로 다른 2 이상의 분할된 데이터 블록 간의 상관관계에 관한 연산을 수행하는 단계를 포함할 수 있다.
연산이 순차적으로 수행된 데이터 블록을 병합하는 단계; 및 병합된 데이터 블록들로 이루어진 데이터 그룹의 패턴을 검출하여 데이터 그룹 별로 오디오 특성을 식별하는 단계를 더 포함할 수 있다. 이에, 출력되는 오디오에 그 특성에 대응하는 효과가 부여됨으로써, 사용자 만족도가 향상된다.
오디오 특성을 식별하는 단계는, 병합된 데이터 그룹의 출력 데이터에 대해 활성함수를 적용하고, 활성함수가 적용된 출력 데이터로부터 대표값을 추출하여, 데이터 그룹의 패턴을 검출하는 단계를 포함할 수 있다.
오디오특성은 각 데이터 그룹의 오디오 스트림의 데이터에 대응하는 영상의 장면특성에 대응할 수 있다. 이에, TV 영상을 시청하는 사용자의 몰입도가 향상된다.
한편, 본 발명 일 실시예에 따른 디스플레이장치의 프로세서에 의해 실행 가능한 방법의 프로그램이 기록된, 컴퓨터에 의해 독취가능한 비휘발성의 기록매체에 있어서, 방법은, 프레임 단위로 입력되는 오디오 스트림의 데이터에 대하여, 미리 정해진 수의 프레임 동안의 데이터 그룹에서 분할된 데이터 블록 별로 미리 학습된 필터를 이용한 연산을 순차적으로 수행하는 단계; 순차적으로 수행된 연산에 기초하여, 데이터 그룹 별로 오디오특성을 식별하는 단계; 및 데이터 그룹에 대응하여 출력되는 오디오가 식별된 오디오특성에 대응하는 오디오효과를 가지도록 오디오 스트림의 데이터를 처리하는 단계를 포함한다. 이에 의하여, 분할된 데이터 블록 별로 연산을 분산하여 수행하여, 피크 연산량을 자연스럽게 감소시켜 줌으로써, 일시적인 과부하를 방지할 수 있다.
상기한 바와 같은 본 발명의 디스플레이장치, 그 제어방법 및 기록매체에 따르면, 프레임 단위로 입력되는 오디오 스트림의 데이터 그룹에서 분할된 데이터 블록 별로 분산하여 연산을 수행하므로, 각 연산의 피크 연산량을 자연스럽게 줄여 로드를 분산하여 줌으로써, 일시적인 과부하에 따른 동작 오류가 발생하는 것을 방지할 수 있게 된다.
도 1은 본 발명 일 실시예에 의한 디스플레이장치의 구성을 도시한 블록도이다.
도 2는 본 발명 일 실시예에 의한 디스플레이장치의 오디오 프로세서의 구성을 도시한 블록도이다.
도 3은 본 발명 일 실시예에 따른 디스플레이장치를 제어하는 방법을 도시한 블록도이다.
도 4는 본 발명 일 실시예에 따른 디스플레이장치에서 오디오 프로세서로 입력되는 오디오 스트림의 데이터의 일례를 도시한 도면이다.
도 5와 도 6은 본 발명 일 실시예에 따른 디스플레이장치에서, 분할된 데이터 블록들을 검출하는 실시예들을 도시한 도면이다.
도 7은 본 발명 일 실시예에 따른 디스플레이장치에서 데이터 블록 별로 수행되는 컨볼루션 연산을 개념적으로 도시한 것이다.
도 8은 본 발명 일 실시예에 따른 디스플레이장치에서 수행되는 분산된 컨볼루션 연산을 개념적으로 도시한 도면이다.
도 9는 종래의 분산되지 않은 컨볼루션 연산을 개념적으로 도시한 도면이다.
도 10은 본 발명 일 실시예에서 데이터 그룹의 데이터가 시간 별로 분할된 경우, 분산된 컨볼루션 연산이 수행되는 과정을 설명하기 위한 도면이다.
도 11은 본 발명 일 실시예에서 데이터 그룹의 데이터가 주파수 별로 분할된 경우, 분산된 컨볼루션 연산이 수행되는 과정을 설명하기 위한 도면이다.
도 2는 본 발명 일 실시예에 의한 디스플레이장치의 오디오 프로세서의 구성을 도시한 블록도이다.
도 3은 본 발명 일 실시예에 따른 디스플레이장치를 제어하는 방법을 도시한 블록도이다.
도 4는 본 발명 일 실시예에 따른 디스플레이장치에서 오디오 프로세서로 입력되는 오디오 스트림의 데이터의 일례를 도시한 도면이다.
도 5와 도 6은 본 발명 일 실시예에 따른 디스플레이장치에서, 분할된 데이터 블록들을 검출하는 실시예들을 도시한 도면이다.
도 7은 본 발명 일 실시예에 따른 디스플레이장치에서 데이터 블록 별로 수행되는 컨볼루션 연산을 개념적으로 도시한 것이다.
도 8은 본 발명 일 실시예에 따른 디스플레이장치에서 수행되는 분산된 컨볼루션 연산을 개념적으로 도시한 도면이다.
도 9는 종래의 분산되지 않은 컨볼루션 연산을 개념적으로 도시한 도면이다.
도 10은 본 발명 일 실시예에서 데이터 그룹의 데이터가 시간 별로 분할된 경우, 분산된 컨볼루션 연산이 수행되는 과정을 설명하기 위한 도면이다.
도 11은 본 발명 일 실시예에서 데이터 그룹의 데이터가 주파수 별로 분할된 경우, 분산된 컨볼루션 연산이 수행되는 과정을 설명하기 위한 도면이다.
이하에서는 첨부 도면을 참조하여 본 발명의 실시예들을 상세히 설명한다. 도면에서 동일한 참조번호 또는 부호는 실질적으로 동일한 기능을 수행하는 구성요소를 지칭하며, 도면에서 각 구성요소의 크기는 설명의 명료성과 편의를 위해 과장되어 있을 수 있다. 다만, 본 발명의 기술적 사상과 그 핵심 구성 및 작용이 이하의 실시예에 설명된 구성 또는 작용으로만 한정되지는 않는다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다.
본 발명의 실시예에서, 제1, 제2 등과 같이 서수를 포함하는 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용되며, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, 본 발명의 실시예에서, '구성되다', '포함하다', '가지다' 등의 용어는 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 또한, 본 발명의 실시예에서, '모듈' 혹은 '부'는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있으며, 적어도 하나의 모듈로 일체화되어 구현될 수 있다. 또한, 본 발명의 실시예에서, 복수의 요소 중 적어도 하나(at least one)는, 복수의 요소 전부뿐만 아니라, 복수의 요소 중 나머지를 배제한 각 하나 혹은 이들의 조합 모두를 지칭한다.
도 1은 본 발명 일 실시예에 의한 디스플레이장치의 구성을 도시한 블록도이다. 도 2는 본 발명 일 실시예에 의한 디스플레이장치의 오디오 프로세서의 구성을 도시한 블록도이다.
본 발명 일 실시예에 따른 디스플레이장치(100)는 외부의 신호공급원 즉, 영상소스(미도시)으로부터 제공되는 영상신호를 기 설정된 프로세스에 따라 처리하여 영상으로 표시한다.
일 실시예에서 디스플레이장치(100)는 방송국의 송출장비로부터 수신되는 방송신호, 방송정보, 또는 방송데이터 중 적어도 하나에 기초한 방송 영상을 처리하는 텔레비전(TV)으로 구현될 수 있다.
디스플레이장치(100)는, 예를 들면 방송국으로부터 송출되는 RF(radio frequency) 신호 즉, 방송신호를 무선으로 수신할 수 있으며, 이를 위해 방송신호를 수신하는 안테나 및 방송신호를 채널 별로 튜닝하기 위한 튜너를 포함할 수 있다.
디스플레이장치(100)에서, 방송신호는 지상파, 케이블, 위성 등을 통해서 수신 가능하며, 신호공급원은 방송국에 한정되지 않는다. 즉, 셋탑박스나, 블루레이(Blu-ray) 또는 DVD 등의 광디스크가 재생 가능한 플레이어(player)와 같이, 데이터의 송수신 또는 중계가 가능한 장치 또는 스테이션이라면 본 발명의 신호공급원에 포함될 수 있다.
디스플레이장치(100)에서 수신되는 신호의 규격은 장치의 구현 형태에 대응하여 다양한 방식으로 구성될 수 있으며, 예를 들면, HDMI(high definition multimedia interface), 디스플레이 포트(display port, DP), DVI(digital visual interface), 컴포지트(composite) 비디오, 컴포넌트(component) 비디오, 슈퍼 비디오(super video), SCART(Syndicat des Constructeurs d'Appareils Radiorιcepteurs et Tιlιviseurs), USB(universal serial bus) 등에 의하여 유선으로 컨텐트를 수신할 수 있다.
디스플레이장치(100)는 서버 등으로부터 유선 또는 무선 네트워크 통신에 의해 컨텐트를 제공받을 수도 있으며, 통신의 종류는 한정되지 않는다.
일 실시예에서 디스플레이장치(100)는 액세스 포인트(access point, AP)를 통한 무선 통신 또는 AP 없이 타 기기와 다이렉트 연결되는 무선 통신 중 적어도 하나를 수행할 수 있다. 예를 들면, 디스플레이장치(100)는 와이파이(Wi-Fi), 와이파이 다이렉트(Wi-Fi Direct), 블루투스(bluetooth), 블루투스 저에너지(bluetooth low energy), 지그비(Zigbee), UWB(Ultra Wideband), NFC(Near Field Communication) 등의 무선 네트워크 통신을 통해 영상소스로부터 컨텐트를 수신할 수 있다.
다른 실시예에서 디스플레이장치(100)는 이더넷(Ethernet) 등과 같은 유선 네트워크 통신을 통해 컨텐트를 수신할 수 있다.
또한, 일 실시예에서, 디스플레이장치(100)는 스마트폰과 같은 다양한 주변기기가 무선 통신을 수행하도록 하는 AP의 역할을 수행할 수 있다.
디스플레이장치(100)는 상기와 같은 유선 또는 무선 네트워크를 통해 실시간 스트리밍에 따른 파일 형태로 제공되는 컨텐트를 수신할 수 있다.
또한, 디스플레이장치(100)는 내부/외부의 저장매체에 저장된 신호/데이터에 기초한 동영상, 정지영상, 어플리케이션(application), OSD(on-screen display), 다양한 동작 제어를 위한 사용자 인터페이스(user interface, UI)(이하, GUI(graphic user interface) 라고도 한다) 등을 화면에 표시하도록 신호를 처리할 수 있다.
일 실시예에서 디스플레이장치(100)는 스마트 TV 또는 IP TV(Internet Protocol TV)로 동작 가능하다. 스마트 TV는 실시간으로 방송신호를 수신하여 표시할 수 있고, 웹 브라우징 기능을 가지고 있어 실시간 방송신호의 표시와 동시에 인터넷을 통하여 다양한 컨텐츠 검색 및 소비가 가능하고 이를 위하여 편리한 사용자 환경을 제공할 수 있는 텔레비전이다. 또한, 스마트 TV는 개방형 소프트웨어 플랫폼을 포함하고 있어 사용자에게 양방향 서비스를 제공할 수 있다. 따라서, 스마트 TV는 개방형 소프트웨어 플랫폼을 통하여 다양한 컨텐츠, 예를 들어 소정의 서비스를 제공하는 어플리케이션을 사용자에게 제공할 수 있다. 이러한 어플리케이션은 다양한 종류의 서비스를 제공할 수 있는 응용 프로그램으로서, 예를 들어 SNS, 금융, 뉴스, 날씨, 지도, 음악, 영화, 게임, 전자 책 등의 서비스를 제공하는 어플리케이션을 포함한다.
그러나, 본 발명에서 디스플레이장치(100)의 구현 형태는 TV 에 한정되는 것은 아니며, 예를 들면 스마트폰(smart phone)이나 태블릿(tablet)과 같은 스마트패드(smart pad)와 같이, 영상을 표시하고 오디오를 출력할 수 있는 모바일 장치(mobile device) 또는 단말장치(terminal)의 형태로 구현될 수도 있을 것이다.
본 발명 일 실시예에 따른 디스플레이장치(100)는, 도 1에 도시된 바와 같이, 신호수신부(110), 통신부(120), 비디오 프로세서(130), 디스플레이(140), 오디오 프로세서(150), 오디오출력부(160), 저장부(170) 및 제어부(180)를 포함한다. 신호수신부(110)는 접속부(111), 튜너(112), 신호분리부(113)를 포함할 수 있다.
디스플레이장치(100)에 포함되는 구성은 상기한 일 실시예에 의해 한정되지 않고, 일부 구성을 제외 또는 변경하여 구성되거나, 추가적인 다른 구성들을 포함하여 구현될 수 있다.
예를 들어, 디스플레이장치(100)는 전면이나 측면의 일 영역에 설치되며 전원키, 메뉴키 등의 버튼으로 구성된 키패드(또는 입력패널)로 구현되어, 사용자입력을 수신하는 사용자입력부를 더 포함할 수 있다. 일 실시예에서, 사용자입력부는 디스플레이장치(100)를 원격으로 제어 가능하게 기설정된 커맨드/데이터/정보/신호를 생성하여 디스플레이장치(100)로 전송하는 입력장치(예를 들어, 리모컨(remote control), 마우스, 키보드, 디스플레이장치(100)를 원격제어 가능한 어플리케이션이 설치된 스마트폰 등)나, 마이크(microphone)와 같이 사용자로부터 발화된 음성/사운드를 수신하는 음성입력부를 더 포함할 수 있다. 디스플레이장치(100)는 후술하는 통신부(120)를 통해 원격 입력장치로부터 사용자입력에 대응하는 신호를 수신할 수 있다.
신호수신부(110)는 외부로부터 신호를 수신한다. 수신된 신호는 후술하는 신호분리부(113)에 의해 비디오신호와 오디오신호로 분리되어 비디오 프로세서(130)와 오디오 프로세서(140)로 각각 전달되어 처리될 수 있다.
수신되는 신호의 규격은 디스플레이장치(100)의 구현 형태에 대응하여 다양한 방식으로 구성될 수 있다. 예를 들면, 신호수신부(110)는 방송국(미도시)으로부터 송출되는 RF 신호를 무선으로 수신하거나, 컴포지트 비디오, 컴포넌트 비디오, 슈퍼 비디오, SCART, HDMI, 디스플레이 포트(DP) 규격 등에 의한 신호를 유선으로 수신할 수 있다.
신호수신부(110)는 디스플레이장치(100)가 외부 영상소스와 유선 연결되도록 하는 접속부(111)를 포함한다. 일 실시예에서 접속부(111)는 HDMI 케이블을 통해 영상소스에 접속되지만, 접속되는 방식이 HDMI에 한정되는 것은 아니다.
디스플레이장치(100)는, 유선 연결된 접속부(111)를 통해 셋탑박스와 같은 영상소스로부터 컨텐트의 신호를 제공받을 수 있다. 여기서, 컨텐트의 신호는 방송신호를 포함한다. 접속부(111)는 기본적으로는 영상소스로부터 신호를 수신하지만, 양방향으로 신호를 송수신 가능하게 마련될 수 있다.
접속부(111)는 소정 통신 프로토콜에 대응하는 통신모듈(S/W module, chip 등)과 포트(port) 등이 조합된 데이터 입출력 인터페이스를 포함하는 통신회로(communication circuitry)로서 구현될 수 있다.
일 실시예에서 접속부(111)를 통해 디스플레이장치(100)와 유선 연결되는 장치는 셋탑박스와 같은 영상소스가 되지만, 본 발명은 이에 한정되지 않는다. 예를 들면, 다른 실시예로서 디스플레이장치(100)는 접속부(111)를 통해 모바일장치와 유선 연결될 수도 있다.
일 실시예에서 신호수신부(110)는 수신되는 신호가 방송신호인 경우, 이 방송신호를 채널 별로 튜닝하기 위한 튜너(112)를 포함한다. 튜너(112)는 튜닝된 특정 채널의 방송신호를 복조하여 트랜포트스트림(transport stream, TS) 형태의 신호로 출력하는 디모듈레이터를 포함할 수 있다. 다시 말해, 튜너와 디모듈레이터는 통합된 형태의 단일 칩으로 설계되거나, 상호 분리된 2개의 칩으로 각각 구현될 수 있다.
일 실시예에서 신호수신부(110)는 방송신호를 비디오신호, 오디오신호, 각종 부가 데이터와 같은 각 특성 별 신호로 분리하는 신호분리부(113)(디멀티플렉서(demultiplexer) 라고도 한다)를 포함한다. 일 실시예에서, 신호분리부(113)는, 접속부(111)와 튜너(112)를 통해 수신된 방송신호뿐 아니라, 후술하는 통신부(120)를 통해 수신된 방송신호를 비디오신호와 오디오신호로 더 분리할 수 있다.
일 실시예에서 신호분리부(110)에서 분리된 오디오신호는 오디오 스트림의 데이터로서 프레임(frame) 단위로 오디오 프로세서(150)에 입력될 수 있다.
본 발명 일 실시예에 따른 디스플레이장치(100)에서, 신호는 다양한 주변장치로부터 입력될 수 있다. 또한, 신호는 인터넷 등과 같은 네트워크를 통해 수신되는 데이터로부터 기인한 것일 수 있으며, 이 경우 디스플레이장치(100)는, 후술하는 통신부(120)를 통해 신호를 수신할 수 있다.
또한, 신호는 플래시메모리, 하드디스크 등과 같은 비휘발성의 저장부(170)에 저장된 데이터로부터 기인한 것일 수 있다. 저장부(170)는 디스플레이장치(100)의 내부 또는 외부에 마련될 수 있으며, 외부에 마련되는 경우 저장부(170)는 접속부(111)를 통해 디스플레이장치(100)에 연결될 수 있다.
통신부(120)는 적어도 하나의 외부장치와 유선 혹은 무선 통신방식을 사용하여 통신 가능하게 마련된다. 통신부(120)는 유선 및/또는 무선 통신모듈을 포함한다.
통신부(120)는 소정 통신 프로토콜에 대응하는 통신모듈(S/W module, chip 등)을 포함하는 통신회로(communication circuitry)로서 구현될 수 있다.
일 실시예에서 통신부(120)는 무선랜유닛을 포함한다. 무선랜유닛은 제어부(180)의 제어에 따라 AP(access point)를 통해 적어도 하나의 외부장치와 무선으로 통신을 수행할 수 있다. 무선랜유닛은 와이파이(Wi-Fi) 통신모듈을 포함한다.
일 실시예에서 통신부(120)는 블루투스(bluetooth), 블루투스 저에너지(bluetooth low energy), RF(radio frequency) 통신, 와이파이 다이렉트(Wi-Fi Direct), 지그비(Zigbee), UWB(Ultra Wideband), NFC(Near Field Communication), 적외선통신(IrDA, infrared data association) 등의 근거리 통신모듈 중 적어도 하나를 포함한다. 근거리 통신모듈은 AP 없이 무선으로 디스플레이장치(100)와 적어도 하나의 외부장치 사이에 다이렉트로 무선통신을 지원하도록 마련된다.
일 실시예에서 통신부(120)는 이더넷(Ethernet) 등과 같은 유선 통신모듈을 더 포함할 수 있다.
본 발명 실시예에 따른 디스플레이장치(100)의 통신부(120)는 성능에 따라 무선랜유닛, 근거리 통신모듈, 유선통신모듈 중 하나 또는 2 이상의 조합으로 이루어질 수 있다.
비디오 프로세서(130)(영상처리부 라고도 한다)는 신호분리부(113)에서 출력되는 비디오신호(영상신호)에 대해 기 설정된 다양한 영상처리 프로세스를 수행한다. 비디오 프로세서(130)는 이러한 영상처리 프로세스를 수행하여 생성 또는 결합한 출력 신호를 디스플레이(140)에 출력함으로써, 디스플레이(140)에 비디오신호에 대응하는 영상이 표시되게 한다.
비디오 프로세서(130)는 비디오신호를 디스플레이장치(100)의 영상 포맷에 대응하도록 디코드하는 비디오 디코더(decoder)와, 영상신호를 디스플레이(140)의 출력규격에 맞도록 조절 또는 변환하는 스케일링을 수행하는 스케일러(scaler)를 포함할 수 있다.
비디오 디코더는 예를 들어, H.264 디코더인 것을 일례로 하지만 이에 한정되는 것은 아니다. 즉, 본 발명 실시예에 따른 비디오 디코더는 MPEG(Moving Picture Experts Group) 디코더 또는 HEVC(High Efficiency Video Codec) 디코더 등 다양한 압축 표준에 따른 디코더로서 구현 가능하다.
본 발명 일 실시예에 따른 디스플레이장치(100)에서 스케일러는 비디오 즉, 영상의 해상도를 확장하는 해상도 확장 모듈 즉, 스케일링 업 모듈(Scaling-Up Module)로서 구현될 수 있다. 다시 말해, 스케일러는 업 스케일링에 의해 저해상도 영상(Low Resolution Image)으로부터 고해상도 영상(High Resolution Image) 또는 수퍼 해상도 영상(Super Resolution Image)을 생성할 수 있다.
일 실시예에서, 스케일러는 비디오 디코더에 의해 디코딩된 비디오신호를 소정 AI 학습기반 처리에 의해 스케일링 업하는 AI 스케일러로 구현될 수 있다. 여기서, AI 스케일러는 신호공급원 즉, 컨텐츠 제공장치의 인코딩 단에서 사용된 AI 학습 기반처리에 대응하여 비디오신호를 스케일링 업하도록 구현 가능하다.
일 실시예에서 비디오 프로세서(130)는 비디오 디코더로부터 출력된 비디오신호가 AI 스케일러로 전달되도록 하는 전처리(pre-processing)를 수행하는 전처리모듈 또는 AI 스케일러로부터 출력되는 비디오신호에 대해 화질 개선을 위한 후처리(post-processing)를 수행하는 후처리모듈 중 적어도 하나를 더 포함할 수 있다.
일 실시예에서 AI 스케일러는 소정 학습기반 처리 예를 들면, 기계학습 즉, 머신러닝(Machine Learning)이나 딥 러닝(Deep Learning)에 대응하여 비디오신호를 처리하여, 비디오(영상)의 해상도를 조절할 수 있도록 구성될 수 있다.
본 발명의 디스플레이장치(100)에서 비디오 프로세서(130)가 수행하는 프로세스의 종류는 한정되지 않으며, 비디오 프로세서(130)는 예를 들면 인터레이스(interlace) 방식의 방송신호를 프로그레시브(progressive) 방식으로 변환하는 디인터레이싱(de-interlacing), 영상 화질 개선을 위한 노이즈 감소(noise reduction), 디테일 강화(detail enhancement), 프레임 리프레시 레이트(frame refresh rate) 변환, 라인 스캐닝(line scanning) 다양한 프로세스를 수행하기 위한 적어도 하나의 모듈을 더 포함할 수 있다.
비디오 프로세서(130)는 이러한 각 프로세스를 독자적으로 수행할 수 있는 개별적 구성 즉, 모듈의 그룹으로 구현되거나, 또는 여러 기능을 통합시킨 메인 SoC(System-on-Chip)에 포함되는 형태로서 구현 가능하다. 메인 SoC는 후술하는 오디오 프로세서(150)와, 제어부(180)를 구현하는 일례인 마이크로프로세서 또는 CPU 중 적어도 하나를 더 포함할 수 있다.
일 실시예에서 비디오 프로세서(130)는 이러한 각 프로세스를 수행하기 위한 다양한 칩셋, 메모리, 전자부품, 배선 등의 회로 구성이 인쇄회로기판(PCB) 상에 실장된 영상보드로 구현될 수 있다. 이 경우, 디스플레이장치(100)에는 튜너, 비디오 프로세서(130) 및 제어부(180)가 단일의 영상보드에 마련될 수 있다. 물론, 이는 일례에 불과하고 서로 통신 가능하게 연결된 복수의 인쇄회로기판에 배치될 수도 있다.
비디오 프로세서(130)에 의해 처리된 비디오신호는 디스플레이(140)로 출력된다. 디스플레이(140)는 비디오 프로세서(130)로부터 수신된 비디오신호에 대응하는 비디오(영상)을 표시한다.
디스플레이(140)의 구현 방식은 한정되지 않으며, 예를 들면 액정(liquid crystal), 플라즈마(plasma), 발광 다이오드(light-emitting diode), 유기발광 다이오드(organic light-emitting diode), 면전도 전자총(surface-conduction electron-emitter), 탄소 나노 튜브(carbon nano-tube), 나노 크리스탈(nano-crystal) 등의 다양한 디스플레이 방식으로 구현될 수 있다. 일 실시예에서, 디스플레이(140)는 영상을 표시하는 디스플레이 패널을 포함하며, 그 구현 방식에 따라서 부가적인 구성, 예를 들면 구동부(driver)를 더 포함할 수 있다.
오디오 프로세서(150)는 오디오신호(음향신호 또는 음성신호 라고도 한다)를 처리한다. 오디오 프로세서(150)는 디지털 신호 프로세서(DSP)와 같은 마이크로 프로세서로 구현될 수 있다.
오디오 프로세서(150)는 신호분리부(113)에서 분리된 오디오신호 즉, 오디오 스트림 데이터를 프레임 단위로 수신할 수 있다.
일 실시예에서 오디오 프로세서(150)는 오디오 스트림의 데이터에 대하여 오디오특성(속성)이 유사하거나 공통되는 미리 정해진 수의 연속된 프레임 동안 입력되는 데이터를 하나의 데이터 그룹으로 설정할 수 있다.
여기서, 오디오특성(속성)은 해당 오디오 스트림의 데이터에 대응하는 영상(비디오)의 장면(scene)특성에 대응할 수 있다. 장면특성은, 예를 들면, 사람의 목소리(음성), 음악(music), 효과음, 레이싱 등을 포함하며, 본 발명의 오디오특성은 이렇게 나열된 장면특성에 한정되지 않고 다양하게 구분 가능할 것이다.
본 발명 일 실시예에 따른 디스플레이장치(100)에서 하나의 데이터 그룹으로 설정되는 프레임 개수는 7개이고, 각 프레임의 길이는 약 5.3ms 에 대응하는 것을 일례로 한다. 다만, 본 발명은 상기한 실시예에 한정되는 것이 아니므로, 출력되는 오디오의 특성, 디스플레이장치(100)가 설치된 환경 등에 따라 다양한 개수로 설정 가능할 것이다.
본 발명 일 실시예에서 오디오 프로세서(150)는, 도 2에 도시된 바와 같이, 데이터 블록 검출부(210), 컨벌루션 연산부(220), 데이터 병합부(230), 오디오특성 식별부(240)로 구성될 수 있다. 여기서, 오디오 프로세서(150)의 각 구성들(210, 220, 230, 240)은 소프트웨어의 실행에 따른 동작에 의해 구분되는 구성인 것을 일례로 한다.
데이터 블록 검출부(210)는 프레임 단위로 입력되는 오디오 스트림의 데이터에 대하여, 미리 정해진 수의 프레임 동안의 데이터 그룹에서 분할된 데이터 즉, 데이터 블록을 검출한다.
일 실시예에서 데이터 그룹에서 검출되는 데이터는 각 데이터 그룹의 전체 데이터를 시간 별로 구분(분할)한 데이터 블록으로 구성될 수 있다.
다른 실시예에서 데이터 그룹에서 검출되는 데이터는 각 데이터 그룹의 전체 데이터를 주파수 별로 구분(분할)한 데이터 블록으로 구성될 수 있다.
컨벌루션 연산부(220)는 하나의 데이터 그룹이 분할된 각 데이터(데이터 블록) 별로 미리 학습된 필터(filter)를 이용한 연산 즉, 컨볼루션 연산을 순차적으로 수행한다. 여기서, 필터는 오디오 스트림의 특성을 식별하기 위한 특성분석필터가 된다.
데이터 병합부(230)는 각 데이터 그룹 별로 순차적으로 연산이 수행된 데이터 블록들을 병합 즉, 쌓는다.
오디오특성 식별부(240)는 병합된 데이터 블록들로 이루어진 데이터 그룹의 패턴(신호의 패턴)을 검출하고, 검출된 패턴에 대응하는 오디오특성을 식별한다.
오디오 프로세서(150)가 데이터 그룹에서 분할된 데이터를 검출하고, 검출된 각 데이터 별로 연산을 수행하는 구체적인 실시예들은 후술하는 도 3 내지 도 11에서 보다 상세하게 설명하기로 한다.
오디오 프로세서(150)는 각 데이터 그룹에 대응하여 출력되는 오디오가, 상기와 같이 식별된 오디오특성에 대응하는 오디오효과를 가지도록 오디오 스트림의 데이터를 처리하게 된다.
오디오출력부(160)는 오디오 프로세서(150)에서 처리된 오디오신호 즉, 데이터 그룹 별로 식별된 오디오특성에 대응하는 오디오효과를 가지도록 처리된 오디오 스트림의 데이터에 대응하는 오디오를 출력한다.
오디오출력부(160)는 오디오(음향)을 출력 가능한 하나 이상의 스피커(loudspeaker)로 구현될 수 있다. 일 실시예에서 오디오출력부(160)는 복수의 채널(예를 들면, 좌우채널)에 대응하는 복수의 스피커를 포함할 수 있다. 다른 실시예에서 오디오출력부(160)는 본 발명 디스플레이장치(100)의 구현 형태인 TV의 하부에 설치되는 사운드 바(sound bar) 형태의 스피커로 구현될 수 있다.
또한, 디스플레이장치(100)에는 접속부(111) 또는 통신부(120) 중 어느 하나를 통해 별도의 스피커 장치가 연결 가능하며, 이 경우 오디오 프로세서(150)에 의해 처리된 오디오신호가 접속부(111) 또는 통신부(120)를 통해 전송됨으로써, 대응하는 오디오가 해당 스피커 장치를 통해 출력될 수 있게 된다.
저장부(170)는 디스플레이장치(100)의 다양한 데이터를 저장하도록 구성된다. 저장부(170)는 디스플레이장치(100)에 공급되는 전원이 차단되더라도 데이터들이 남아있어야 하며, 변동사항을 반영할 수 있도록 쓰기 가능한 비휘발성 메모리(writable memory)로 구비될 수 있다. 저장부(170)는 하드디스크(HDD), 플래쉬 메모리(flash memory), EPROM 또는 EEPROM 중 적어도 하나를 포함할 수 있다.
저장부(170)는 RAM과 같은 휘발성 메모리(volatile memory)를 더 포함하며, 휘발성 메모리는 디스플레이장치(100)의 읽기 또는 쓰기 속도가 비휘발성 메모리에 비해 빠른 DRAM 또는 SRAM으로 구비될 수 있다. 즉, 본 발명에서 저장부라는 용어는 비휘발성 메모리뿐 아니라, 휘발성 메모리, 제어부(180)의 내부에 마련되는 캐시메모리 등을 포괄하는 용어로서 정의된다.
저장부(170)에 저장되는 데이터는, 예를 들면 디스플레이장치(100)의 구동을 위한 운영체제를 비롯하여, 이 운영체제 상에서 실행 가능한 다양한 어플리케이션, 영상데이터, 부가데이터 등을 포함한다.
구체적으로, 저장부(170)는 제어부(180)의 제어에 따라 각 구성요소들의 동작에 대응되게 입/출력되는 신호 또는 데이터를 저장할 수 있다. 저장부(170)는 디스플레이장치(100)의 제어를 위한 프로그램, 제조사에서 제공되거나 외부로부터 다운로드 받은 어플리케이션과 관련된 UI, UI를 제공하기 위한 이미지들, 사용자 정보, 문서, 데이터베이스들 또는 관련 데이터들을 저장할 수 있다. 여기서, 저장부(170)에 저장된 어플리케이션은 미리 수행된 학습에 기반하여 동작하는 딥 러닝 어플리케이션을 포함할 수 있다.
일 실시예에서 저장부(170)에는 오디오 프로세서(150)가 데이터 블록 별로 미리 학습된 필터를 이용한 연산을 수행할 수 있도록 하는 학습 데이터가 더 저장된다. 오디오 프로세서(150)는 저장부(170)에 저장된 학습 데이터에 기반한 심층 학습 즉, 딥 러닝 알고리즘 모델을 적용하여 각 데이터 그룹에 대해 연산을 수행할 수 있다. 여기서, 연산에는 MLP(Multi-Layer Perception, 다층 퍼셉트론) 구조를 갖는 컨볼루션 신경망(Convolution Neural Networks, CNN) 기반의 딥 러닝 알고리즘이 적용 가능하다.
본 발명 일 실시예에 따른 디스플레이장치(100)는, 상기와 같이 장치 자체에 임베디드된 저장부(170)의 데이터를 기반으로 한 학습 및 그 학습에 따른 알고리즘 모델을 적용하는 연산을 수행하는, 온디바이스 환경에서 AI 동작하도록 구현된다.
또한, 저장부(170)에는 각 데이터 그룹 별로 오디오특성을 식별할 수 있는 패턴(pattern) 정보가 더 저장된다.
제어부(180)는 디스플레이장치(100)의 제반 구성들이 동작하기 위한 제어를 수행한다. 제어부(180)는 제어프로그램이 설치된 비휘발성의 메모리로부터 제어프로그램의 적어도 일부를 휘발성의 메모리로 로드하고, 로드된 제어프로그램을 실행하는 적어도 하나의 범용 프로세서를 포함하며, 예를 들면 CPU(Central Processing Unit), AP(application processor), 또는 마이크로프로세서(microprocessor)로 구현될 수 있다.
제어부(180)는 싱글 코어, 듀얼 코어, 트리플 코어, 쿼드 코어 또는 그 배수로 이루어진 하나 이상의 코어가 탑재된 적어도 하나의 프로세서를 포함할 수 있다. 프로세서는 복수의 프로세서, 예를 들어, 메인 프로세서(main processor) 및 슬립 모드(sleep mode, 예를 들어, 대기 전원만 공급되고 디스플레이장치로서 동작하지 않는)에서 동작하는 서브 프로세서(sub processor)를 포함할 수 있다. 또한, 프로세서, 롬 및 램은 내부 버스(bus)를 통해 상호 연결될 수 있다.
일 실시예에서 제어부(180)는 그래픽 처리를 위한 GPU(Graphic Processing Unit)를 더 포함할 수 있다.
일 실시예에서 제어부(180)는 디스플레이장치(100)에 내장되는 PCB 상에 실장되는 메인 SoC(Main SoC)에 포함되는 형태로서 구현 가능하다. 다른 실시예에서 메인 SoC는 비디오신호를 처리하는 비디오 프로세서(130) 또는 오디오신호를 처리하는 오디오 프로세서(150)를 더 포함할 수 있다.
제어프로그램은, BIOS, 디바이스드라이버, 운영체제, 펌웨어, 플랫폼 및 응용프로그램(어플리케이션) 중 적어도 하나의 형태로 구현되는 프로그램(들)을 포함할 수 있다. 일 실시예로서, 응용프로그램은, 디스플레이장치(100)의 제조 시에 디스플레이장치(100)에 미리 설치 또는 저장되거나, 혹은 추후 사용 시에 외부로부터 응용프로그램의 데이터를 수신하여 수신된 데이터에 기초하여 디스플레이장치(100)에 설치될 수 있다. 응용 프로그램의 데이터는, 예를 들면, 어플리케이션 마켓과 같은 외부 서버로부터 디스플레이장치(100)로 다운로드될 수도 있다. 이와 같은 외부 서버는, 본 발명의 컴퓨터프로그램제품의 일례이나, 이에 한정되는 것은 아니다.
일 실시예로서, 상기와 같은 제어부(180)의 동작은 디스플레이장치(100)와 별도로 마련되는 컴퓨터프로그램제품(미도시)에 저장된 컴퓨터프로그램으로 구현될 수도 있다.
이 경우, 컴퓨터프로그램제품은 컴퓨터프로그램에 해당하는 인스트럭션이 저장된 메모리와, 프로세서를 포함한다. 인스트럭션은, 프로세서에 의해 실행되면, 프레임 단위로 입력되는 오디오 스트림의 데이터에 대하여 미리 정해진 수의 프레임 동안의 데이터 그룹에서 분할된 데이터(데이터 블록) 별로 미리 학습된 필터(filter)를 이용한 연산을 순차적으로 수행하고, 순차적으로 수행된 연산에 기초하여 각 데이터 그룹 별로 오디오특성을 식별하고, 각 데이터 그룹에 대응하여 출력되는 오디오가, 식별된 오디오특성에 대응하는 오디오효과를 가지도록 오디오 스트림의 데이터를 처리하도록 동작할 수 있다. 여기서, 인스트럭션을 실행하는 프로세서는 제어부(180)의 프로세서(예를 들면, CPU)이거나, 또는 오디오 프로세서(150)가 될 수 있다.
즉, 상기한 본 발명의 일 실시예에서는 하드웨어 구성인 오디오 프로세서(150)가 오디오 스트림의 데이터를 처리하는 것을 예로 들어 설명하였으나, 본 발명의 구현 형태는 이에 한정되지 않는다. 다시 말해, 제어부(180)의 소프트웨어 구성에 의해 상기 설명한 오디오 스트림의 데이터가 처리되는 경우도 본 발명의 구현 형태에 포함될 수 있다. 마찬가지로, 비디오 프로세서(150)의 동작의 적어도 일부가 제어부(180)의 소프트웨어 구성에 의해 제어되는 경우도 본 발명에 포함된다.
이에 따라, 디스플레이장치(100)는 별도의 컴퓨터프로그램제품에 저장된 컴퓨터프로그램을 디스플레이장치(100)로 다운로드 및 실행하여, 제어부(180), 오디오 프로세서(150), 또는 비디오 프로세서(150) 중 적어도 하나의 동작을 수행할 수 있다.
또한, 일 실시예로서, 제어부(180)의 동작은 기록매체에 저장되며 컴퓨터가 판독 가능한 프로그램으로 구현될 수도 있다. 기록매체에 저장된 프로그램 즉, 데이터는 제어부(180)에 의해 직접 액세스되어 실행되거나, 컴퓨터 시스템이 상호 결합된 유무선 네트워크를 통해 구현되는 전송매체를 통해 디스플레이장치(100)로 다운로드되어 실행됨으로써, 동작을 수행할 수 있다.
상기와 같은 제어부(180)의 구성들 중 적어도 하나는, 하드웨어 모듈로 구현되거나, 앞서 설명한 컴퓨터프로그램으로 구현될 수 있다. 이하에서 오디오 스트림의 데이터에 대한 처리 동작들은 디스플레이장치(100)의 오디오 프로세서(150)에 의해 수행되는 경우를 기준으로 설명하나, 경우에 따라 CPU와 같은 제어부(180)의 프로세서, 또는 이들의 조합에 의해서도 수행 가능한 것으로 이해될 것이다.
이하, 도면을 참조하여 본 발명 실시예에 따라 수행되는 AI 학습기반으로 오디오신호를 처리하는 과정에 대해서 상세하게 설명하도록 한다.
도 3은 본 발명 일 실시예에 따른 디스플레이장치를 제어하는 방법을 도시한 블록도이다.
도 3에 도시된 바와 같이, 디스플레이장치(100)의 오디오 프로세서(150)에는 신호분리부(113)에서 분리된 오디오신호인 오디오 스트림 데이터가 프레임 단위로 입력 즉, 수신된다(310).
도 4는 본 발명 일 실시예에 따른 디스플레이장치에서 오디오 프로세서로 입력되는 오디오 스트림의 데이터의 일례를 도시한 도면이다.
도 4에 도시된 바와 같이, 오디오 프로세서(150)로 입력되는 오디오 스트림의 데이터는 m x n 매트릭스(행렬) 형태의 2차원(2D) 이미지로 구성된다. 여기서, X축은 시간(Time)을 Y축은 주파수(Frequency)를 각각 나타낸다.
도 4는 하나의 데이터 그룹으로 설정된 오디오 스트림 데이터를 도시한 것으로, 그 크기는 한정되지 않으며, 본 발명에서는 7 x 257 매트릭스인 것을 일례로 한다. 다시 말해, 하나의 데이터 그룹의 입력 오디오 스트림은 주파수 범위가 1~257이며, 7개의 연속된 프레임 동안 입력되는 데이터에 대응할 수 있다.
오디오 프로세서(150)는 프레임 단위로 입력되는 오디오 스트림의 데이터에 대하여, 미리 정해진 수의 프레임 동안의 데이터 그룹에서 분할된 복수의 데이터 블록을 검출한다(320). 여기서, 미리 정해준 수의 프레임 동안이란, 7개의 프레임, 예를 들면 첫번째 프레임에서 7번째 프레임까지 또는 8번째 프레임에서 14번째 프레임까지가 연속적으로 입력/수신되는 시간에 대응할 수 있다. 오디오 프로세서(150)는 상기와 같이 미리 정해진 수의 프레임이 연속적으로 입력되는 시간에 대응하게 설정된 각 데이터 그룹의 오디오 스트림의 데이터가 소정 기준에 따라 분할된 형태인 복수의 데이터 블록들을 검출할 수 있다.
도 5와 도 6은 본 발명 일 실시예에 따른 디스플레이장치에서, 분할된 데이터 블록들을 검출하는 실시예들을 도시한 도면이다.
일 실시예에서 데이터 그룹에서 검출되는 데이터 블록들(501, 502)은, 도 5에 도시된 바와 같이, 각 데이터 그룹의 전체 오디오 스트림의 데이터를 시간 별로 구분(분할)한 것일 수 있다.
구체적으로, 오디오 프로세서(150)는 각 데이터 그룹의 오디오 스트림의 데이터를 k개의 mi x n (i=1~k)의 데이터 블록으로 분할 가능하다.
일 실시예에서, 하나의 데이터 그룹의 데이터가 7 x 256 매트릭스인 경우, 데이터 블록(501, 502)은, 도 5에 도시된 바와 같이, 오디오 스트림의 데이터를 시간 즉, X축을 기준으로 7개로 분할할 수 있으며, 이렇게 분할된 데이터 블록(501)의 개수는 오디오 스트림을 구성하는 데이터 그룹의 프레임 개수에 대응할 수 있다.
오디오 프로세서(150)는 오디오 스트림을 프레임 단위로 순차적으로 수신하기 때문에, 일 실시예와 같이 데이터 블록이 시간 별로 구분된 경우, 오디오 프로세서(150)는 오디오 스트림이 입력되는 매 프레임 마다 당해 프레임에 대응하는 데이터 블록을 실시간으로 검출할 수 있다.
다시 말해, 시각축 입력 분할의 경우, 데이터 그룹의 전체 데이터를 수신하기까지 기다릴 필요 없이, 오디오 스트림의 매 프레임마다 즉시 데이터 블록을 검출할 수 있게 된다.
다른 실시예에서 데이터 그룹에서 검출되는 데이터 블록(601, 602)은, 도 6에 도시된 바와 같이, 각 데이터 그룹의 전체 오디오 스트림의 데이터를 주파수 별로 구분(분할)한 것일 수 있다.
구체적으로, 오디오 프로세서(150)는 각 데이터 그룹의 오디오 스트림의 데이터를 k'개의 m x ni (i=1~k')의 데이터 블록으로 분할 가능하다. 여기서, 하나의 데이터 그룹의 오디오 스트림의 데이터가 7 x 256 매트릭스인 경우, 데이터 블록(601, 602)은, 도 6에 도시된 바와 같이, 오디오 스트림의 데이터를 주파수 즉, Y축을 기준으로 5개로 분할할 수 있으며, 각 분할된 데이터 블록으로 이루어진 데이터 그룹은 수직방향의 칸의 개수가 50 + 50 + 50 + 50 + 57 = 257 로 구성된다.
상기와 같이 데이터 블록이 주파수 별로 구분된 다른 실시예에서는 오디오 프로세서(150)는 하나의 데이터 그룹의 오디오 스트림의 데이터가 모두 수신된 후, 그 수신된 데이터를 복수의 데이터 블록으로 분할함으로써, 각 데이터 블록을 검출할 수 있다.
다시 말해, 주파수축 입력 분할의 경우, 데이터 그룹의 전체 데이터를 모두 수신한 후, 해당 데이터 그룹이 분할된 데이터 블록을 검출하게 된다.
오디오 프로세서(150)는 단계 320에서 데이터 그룹에서 분할된 데이터블록 별로 미리 학습된 필터를 이용한 연산을 순차적으로 수행한다(330). 여기서, 오디오 프로세서(150)는, 하나의 데이터 그룹 내의 서로 다른 2 이상의 데이터 블록들 간의 상관관계에 관한 연산인 컨볼류션(convolution) 즉, 합성곱 연산을 수행하게 된다.
도 7은 본 발명 일 실시예에 따른 디스플레이장치에서 데이터 블록 별로 수행되는 컨볼루션 연산을 개념적으로 도시한 것이다.
컨볼루션은 CNN(Convolution Neural Network)에서 입력 데이터에 하나 이상의 필터(filter)를 적용하여 각 데이터 블록의 이미지 특징(feature)을 추출하기 위한 것이다.
필터는 이미지의 특징을 찾아내기 위한 공용 파라미터(parameter)로서 정의되며, 커널(kernel)이라고도 한다. 필터는, 예를 들면 7 x 7 이나 3 x 3 과 같은 행렬로 이루어진 정사각형 매트릭스로서 정의될 수 있으며, CNN에서 학습의 대상은 필터 파라미터가 된다.
도 7에 도시된 바와 같이, 필터(Convolution Filter)(702)가 분할된 하나의 데이터 블록(예를 들면, 도 6의 601)에 대응하는 입력데이터(Input)(701)를 지정된 간격(예를 들면, 1칸 또는 2칸 등)으로 이동/순회하며 컨볼루션 즉, 합성곱을 하고, 그 합성곱의 합에 대응하는 특징 맵(Feature Map)을 추출하여 출력 데이터(Output)(703)로서 생성한다.
본 발명 실시예에 따른 디스플레이장치(100)에서, 오디오 프로세서(150)는 단계 330에서 각 데이터 그룹의 오디오 스트림의 데이터에 대한 컨볼루션 연산을, 분할된 데이터 블록 별로 분산하여 순차적으로 수행하게 된다.
도 8은 본 발명 일 실시예에 따른 디스플레이장치에서 수행되는 분산된 컨볼루션 연산을 개념적으로 도시한 도면이고, 도 9는 종래의 분산되지 않은 컨볼루션 연산을 개념적으로 도시한 도면이다.
도 8에 도시된 바와 같이, 하나의 데이터 그룹의 오디오 스트림의 데이터가 k개의 mi x n (i=1~k)의 데이터 블록으로 분할된 경우, 오디오 프로세서(150)는 분할된 각 데이터 블록(m1 x n, m2 x n, m3 x n ... mk x n) 각각에 대해 순차적으로 컨볼류션 연산을 수행한다. 여기서, 오디오 프로세서(150)는 오디오 스트림의 데이터가 수신되는 매 프레임(1~n) 마다 각 데이터 블록 (m1 x n, m2 x n, m3 x n ... mk x n) 각각에 대해 순차적으로 컨볼류션 연산을 수행하게 된다.
이와 대비하여, 도 9의 경우, m x n으로 구성된 하나의 데이터 그룹의 오디오 스트림의 데이터가 프레임 단위로 모두 입력된 시점(n)에, 수신된 해당 데이터 그룹의 전제 데이터에 대해 컨볼류션 연산을 수행하게 된다.
다시 말해, 도 9와 같은 종래의 경우, 오디오 스트림이 프레임 단위로 수신되더라도, 하나의 그룹으로 설정된 n개의 프레임에 대응하는 데이터가 모두 수신될 때 까지는 컨벌루션이 수행되지 않는다. 따라서, 특정 데이터 그룹에서 연산량의 갑자기 증가하게 되면 일시적으로 과부하가 발생될 수 있으며, 이는 실시간성이 중요한 오디오처리에 오류가 발생하는 원인이 될 수 있다.
따라서, 본 발명 실시예에 따른 디스플레이장치에서는 도 8에 도시된 바와 같이, 오디오 스트림의 데이터가 프레임 단위로 수신되는 동안, 매 프레임 마다 컨볼류션 연산을 분산하여 수행함으로써, 종래와 같이 일시적인 연산량 증가에 의한 과부하를 방지할 수 있게 된다.
도 10은 본 발명 일 실시예에서 데이터 그룹의 데이터가 시간 별로 분할된 경우, 분산된 컨볼루션 연산이 수행되는 과정을 설명하기 위한 도면이다. 도 11은 본 발명 일 실시예에서 데이터 그룹의 데이터가 주파수 별로 분할된 경우, 분산된 컨볼루션 연산이 수행되는 과정을 설명하기 위한 도면이다.
일 실시예에서, 데이터 블록이 시간 별로 구분된 경우, 컨볼루션 연산은 데이터 그룹의 각 프레임 즉, 데이터 블록이 입력(수신)되는 동안 실시간으로 수행된다.
도 10에 도시된 바와 같이, 하나의 데이터 그룹이 8개의 프레임으로 구성된 경우, 오디오 프로세서(150)에는 제1데이터 그룹의 오디오 스트림의 데이터가 1~8까지 각 프레임 단위로 순차적으로 입력된다.
오디오 프로세서(150)는 단계 320에서 오디오 스트림이 입력되는 매 프레임마다 당해 프레임에 대응하는 데이터 블록을 실시간으로 검출하고, 단계 330에서 그 검출된 데이터 블록 별로 컨볼류션 연산을 순차적으로 수행(1001)할 수 있게 된다.
계속해서 오디오 프로세서(150)에는 제2데이터 그룹의 오디오 스트림의 데이터가 9~16까지 각 프레임 단위로 순차적으로 입력된다.
오디오 프로세서(150)는 마찬가지로 단계 320에서 오디오 스트림이 입력되는 매 프레임마다 당해 프레임에 대응하는 데이터 블록을 실시간으로 검출하고, 단계 330에서 그 검출된 데이터 블록 별로 컨볼류션 연산을 순차적으로 수행(1002)할 수 있게 된다.
상기와 같은 데이터 그룹의 오디오 스트림의 데이터를 시간 별로 분할하는 도 10의 일 실시예에 따르면 오디오 스트림을 수신하면서 동시에 분산된 컨볼루션 연산을 실시간 처리가 가능하다. 다만, 서로 다른 2 이상의 데이터 블록 간의 상관관계를 연산하는 컨볼루션 연산의 특성 상 충분한 데이터가 확보되지 않은 상태에서 연산이 수행되는 것이므로, 도 11의 다른 실시예와 비교하여 결과값의 정확도는 낮을 수 있다.
다른 실시예에서, 데이터 블록이 주파수 별로 구분된 경우, 컨볼루션 연산은 데이터 그룹의 전체 데이터가 수신되면, 해당 데이터 그룹이 분할된 복수의 데이터 블록을 검출하고, 검출된 각 데이터 블록 별로 컨볼류션 연산을 수행한다. 여기서, 데이터 블록 별 컨볼루션 연산은, 당해 데이터 그룹에 이어지는 다음 데이터 그룹의 데이터가 수신되는 동안 수행되게 된다.
도 11에 도시된 바와 같이, 하나의 데이터 그룹이 8개의 프레임으로 구성된 경우, 오디오 프로세서(150)에는 제1데이터 그룹의 오디오 스트림의 데이터가 1~8까지 각 프레임 단위로 순차적으로 입력된다.
오디오 프로세서(150)는 단계 320에서 제1데이터 그룹의 오디오 스트림의 데이터가 입력되면(1~8 프레임), 제1데이터 그룹의 전체 데이터가 주파수 별로 분할된 데이터 블록을 검출하고, 단계 330에서 제1데이터 그룹에 연속된 제2데이터 그룹의 오디오 스트림의 데이터가 입력되는 동안(9~16 프레임) 제1데이터 그룹의 분할된 데이터 블록 별로 컨볼류션 연산을 순차적으로 수행(1101)할 수 있게 된다.
제1데이터 그룹의 데이터 블록 별 컨볼루션 연산이 수행되는 동안, 오디오 프로세서(150)에는 제2데이터 그룹의 오디오 스트림의 데이터가 9~16까지 각 프레임 단위로 순차적으로 입력된다.
오디오 프로세서(150)는 마찬가지로 제2데이터 그룹의 오디오 스트림의 데이터가 입력되면(9~16 프레임), 제2데이터 그룹의 전체 데이터가 주파수 별로 분할된 데이터 블록을 검출하고, 제2데이터 그룹에 연속된 제3데이터 그룹의 오디오 스트림의 데이터가 입력되는 동안(17~24 프레임) 제2데이터 그룹의 분할된 데이터 블록 별로 컨볼류션 연산을 순차적으로 수행할 수 있게 된다.
상기와 같은 데이터 그룹의 오디오 스트림의 데이터를 주파수 별로 분할하는 도 11의 다른 실시예에 따르면 1~8 프레임에서 제1데이터 그룹의 오디오 스트림의 데이터가 모두 확보된 상태에서, 데이터 블록을 식별하여 서로 다른 2 이상의 데이터 블록 간의 상관관계를 연산하는 컨볼루션 연산을 수행하므로, 정확도의 감소 없이 신뢰성 높은 연산 결과를 획득할 수 있다. 다만, 제2데이터 그룹의 오디오 스트림이 입력되는 동안. 제1데이터 그룹의 데이터 블록 별로 컨볼루션 연산을 분산하여 수행하는 것이므로, 하나의 데이터 그룹의 전체 프레임에 대응하는 지연(Latency)가 발생할 수 있다. 그러나, 오디오 스트림 데이터의 각 프레임이 5.3ms라고 할 때, 하나의 데이터 그룹에 대응하는 약 42ms의 지연이 발생하는 것이며, 이는 청취자에게 불편을 초래하지는 않는다.
다시, 도 3을 참조하면, 상기와 같이 단계 330에서 각 데이터 그룹에서 시간 별 또는 주파수 별로 분할된 데이터 블록 별로 분산하여 복수회의 순차적인 컨볼루션 연산을 수행하면, 오디오 프로세서(150)는 순차적으로 수행된 연산에 기초하여 각 데이터 그룹 별로 오디오 특성을 식별한다(340).
여기서, 오디오 특성을 식별하는 과정은, 데이터 그룹 별로 컨볼루션이 수행된 데이터 블록들을 하나의 2차원 이미지의 형태로 병합하고, 그 병합된 데이터 그룹의 출력(이미지)에 대해 액티베이션(activation)과 풀링(pooling)을 수행하는 과정을 포함할 수 있다.
액티베이션은 컨볼류션 연산의 결과에 대해 활성값을 결정하는 것으로, 컨볼루션을 통해 만들어진 데이터 그룹의 출력 데이터(이미지)(feature map)의 행렬에 활성함수를 적용함으로써, 활성값을 결정할 수 있다. 특징 맵(feature map)에 대해 상기와 같이 결정된 활성값이 반영된 출력 데이터(이미지)를 액티베이션 맵(activation map)이라고 한다.
풀링은 활성값이 반영된 출력 데이터(activation map)로부터 대표값을 추출하는 것으로, 출력 데이터의 크기를 줄이거나 특정 데이터를 강조하는 용도로 사용될 수 있다. 풀링은 출력 데이터(activation map)에 대해 소정 크기의 정사각 행렬(예를 들면, 2 x 2)의 영역에서 최대값(max)을 추출하거나, 평균(average)을 구하는 방식 등으로 동작될 수 있다.
오디오 프로세서(150)는, 상기와 같은 액티베이션 및 풀링 과정을 통해 각 데이터 그룹의 특징(feature)을 강화 및 수집함으로써, 도 9에 도시된 바와 같이, 데이터 그룹 별 패턴(pattern)을 검출/결정함으로써 대응되는 오디오특성을 식별할 수 있게 된다.
일 실시예에서, 패턴 정보는 신호의 패턴을 포함하며, 다양한 오디오특성에 대응하여 저장부(170)에 미리 저장되며, 오디오 프로세서(150)는 데이터 그룹 별 결정된 패턴을 저장부(170)에 저장된 데이터와 비교함으로써, 각 데이터 그룹 별로 오디오특성을 결정할 수 있다. 여기서, 오디오특성은 해당 데이터 그룹의 오디오스트림에 대응하는 영상의 장면특성, 예를 들면, 사람의 목소리(음성), 음악(music), 효과음, 레이싱 중 어느 하나로서 결정될 수 있다.
그리고, 오디오 프로세서(150)는, 각 데이터 그룹에 대응하여 오디오출력부(160)를 통해 출력되는 오디오가, 단계 340에서 결정된 오디오특성에 대응하는 오디오 효과를 가지도록 오디오 스트림의 데이터를 처리한다(350). 여기서, 오디오 프로세서(150)는 해당 오디오 특성에 대응하는 렌더링 파라미터(rendering parameter)를 결정하고, 그에 대응하여 오디오 EQ(Equalizer) 또는 이득(Gain)을 조절하거나, 또는 렌더링(rendering) 효과를 부여하는 방식으로, 오디오 스트림의 데이터를 처리함으로써 해당 오디오특성에 대응하는 오디오가 출력될 수 있게 된다.
상기와 같은 본 발명 실시예들에 따르면, 디스플레이장치(100)가 프레임 단위로 입력되는 오디오 스트림의 데이터 그룹에서 분할된 복수의 데이터 블록 각각에 대해 k회 분산하여 컨볼루션 연산을 수행함으로써, 1회 컨볼루션을 위한 데이터 사이즈가 1/k로 감소한다. 그에 따라, 온디바이스 환경에서의 학습 기반 연산에서, 분산된 각 연산의 피크(peak) 연산량을 자연스럽게 줄여 로드를 분산하여 줌으로써, 일시적인 과부하에 따른 동작 오류가 발생하는 것을 방지할 수 있게 된다.
또한, 오디오 스트림이 수신되는 매 프레임 마다 데이터 그룹 식별, 컨볼루션 연산, 데이터 블록 병합, 오디오특성 식별을 위한 액티베이션 및 풀링 등과 같이 서로 다른 동작을 수행할 수 있도록 하는 플렉서블한 동작 설계가 가능하다.
이상, 바람직한 실시예를 통하여 본 발명에 관하여 상세히 설명하였으나, 본 발명은 이에 한정되는 것은 아니며 특허청구범위 내에서 다양하게 실시될 수 있다.
100 : 디스플레이장치 110 : 신호수신부
111 : 접속부 112 : 튜너
113 : 신호분리부 120 : 통신부
130 : 비디오 프로세서 140 : 디스플레이부
150 : 오디오 프로세서 160 : 오디오출력부
170 : 저장부 180 : 제어부
111 : 접속부 112 : 튜너
113 : 신호분리부 120 : 통신부
130 : 비디오 프로세서 140 : 디스플레이부
150 : 오디오 프로세서 160 : 오디오출력부
170 : 저장부 180 : 제어부
Claims (20)
- 디스플레이장치에 있어서,
영상을 표시할 수 있는 디스플레이;
오디오를 출력할 수 있는 오디오출력부; 및
프레임 단위로 입력되는 오디오 스트림의 데이터에 대하여, 미리 정해진 개수의 프레임에 대응하여 설정된 데이터 그룹에서 분할된 복수의 데이터 블록을 검출하고,
상기 분할된 복수의 데이터 블록 각각에 대해 신경망에서의 미리 학습된 필터를 이용한 컨볼루션 연산을 분산하여 순차적으로 수행하고,
상기 컨볼루션 연산이 순차적으로 수행된 상기 복수의 데이터 블록을 상기 데이터 그룹으로 병합하고,
상기 순차적으로 수행된 컨볼루션 연산에 기초하여, 상기 복수의 데이터 블록으로 구성된 상기 병합된 데이터 그룹에 대한 패턴을 검출하여 상기 데이터 그룹의 오디오특성을 식별하고,
상기 데이터 그룹에 대응하여 출력되는 상기 오디오가 상기 식별된 오디오특성에 대응하는 오디오효과를 가지도록 상기 오디오 스트림의 데이터를 처리하는 프로세서를 포함하는 디스플레이장치. - 제1항에 있어서,
상기 컨볼루션 연산은 상기 데이터 그룹에서 분할된 복수의 데이터 블록 각각이 입력되는 동안 수행되는 디스플레이장치. - 제1항에 있어서,
상기 복수의 데이터 블록 각각은 상기 데이터 그룹의 전체 데이터를 시간 별로 분할한 것에 대응하는 디스플레이장치. - 제1항에 있어서,
상기 복수의 데이터 블록 각각은 상기 데이터 그룹의 전체 데이터를 주파수 별로 분할한 것에 대응하는 디스플레이장치. - 제1항에 있어서,
상기 프로세서는,
제1 데이터 그룹에 후속되는 제2 데이터 그룹에 대응하는 오디오 스트림의 데이터가 입력되는 동안, 상기 제1 데이터 그룹에서 분할된 상기 복수의 데이터 블록 각각에 대한 상기 컨볼루션 연산을 순차적으로 수행하는 디스플레이장치. - 제1항에 있어서,
상기 프로세서는,
상기 데이터 그룹의 서로 다른 2 이상의 분할된 데이터 블록 간의 상관관계에 관한 상기 컨볼루션 연산을 수행하는 디스플레이장치. - 삭제
- 제1항에 있어서,
상기 프로세서는,
상기 병합된 데이터 그룹의 출력 데이터에 대해 활성함수를 적용하고, 상기 활성함수가 적용된 출력 데이터로부터 대표값을 추출하여, 상기 데이터 그룹에 대한 패턴을 검출하는 디스플레이장치. - 제1항에 있어서,
상기 오디오특성은 상기 데이터 그룹의 오디오 스트림의 데이터에 대응하는 영상의 장면특성에 대응하는 디스플레이장치. - ◈청구항 10은(는) 설정등록료 납부시 포기되었습니다.◈제1항에 있어서,
학습데이터가 저장된 저장부를 더 포함하고,
상기 프로세서는 상기 학습 데이터에 기반한 심층 학습 알고리즘 모델을 적용하여 상기 컨볼루션 연산을 수행하는 디스플레이장치. - 디스플레이장치를 제어하는 방법에 있어서,
프레임 단위로 입력되는 오디오 스트림의 데이터에 대하여, 미리 정해진 개수의 프레임에 대응하여 설정된 데이터 그룹에서 분할된 복수의 데이터 블록을 검출하는 단계;
상기 분할된 복수의 데이터 블록 각각에 대해 신경망에서의 미리 학습된 필터를 이용한 컨볼루션 연산을 분산하여 순차적으로 수행하는 단계;
상기 컨볼루션 연산이 순차적으로 수행된 상기 복수의 데이터 블록을 상기 데이터 그룹으로 병합하는 단계;
상기 순차적으로 수행된 컨볼루션 연산에 기초하여, 상기 복수의 데이터 블록으로 구성된 상기 병합된 데이터 그룹에 대한 패턴을 검출하여 상기 데이터 그룹의 오디오특성을 식별하는 단계; 및
상기 데이터 그룹에 대응하여 출력되는 상기 오디오가 상기 식별된 오디오특성에 대응하는 오디오효과를 가지도록 상기 오디오 스트림의 데이터를 처리하는 단계를 포함하는 방법. - ◈청구항 12은(는) 설정등록료 납부시 포기되었습니다.◈제11항에 있어서,
상기 컨볼루션 연산은 상기 데이터 그룹에서 분할된 복수의 데이터 블록 각각이 입력되는 동안 수행되는 방법. - ◈청구항 13은(는) 설정등록료 납부시 포기되었습니다.◈제11항에 있어서,
상기 복수의 데이터 블록 각각은 상기 데이터 그룹의 전체 데이터를 시간 별로 분할한 것에 대응하는 방법. - ◈청구항 14은(는) 설정등록료 납부시 포기되었습니다.◈제11항에 있어서,
상기 복수의 데이터 블록 각각은 상기 데이터 그룹의 전체 데이터를 주파수 별로 분할한 것에 대응하는 방법. - ◈청구항 15은(는) 설정등록료 납부시 포기되었습니다.◈제11항에 있어서,
상기 컨볼루션 연산을 순차적으로 수행하는 단계는,
제1 데이터 그룹에 후속되는 제2 데이터 그룹에 대응하는 오디오 스트림의 데이터가 입력되는 동안, 상기 제1 데이터 그룹에서 분할된 상기 복수의 데이터 블록 각각에 대한 상기 컨볼루션 연산을 순차적으로 수행하는 단계를 포함하는 방법. - ◈청구항 16은(는) 설정등록료 납부시 포기되었습니다.◈제11항에 있어서,
상기 컨볼루션 연산을 순차적으로 수행하는 단계는,
상기 데이터 그룹의 서로 다른 2 이상의 분할된 데이터 블록 간의 상관관계에 관한 상기 컨볼루션 연산을 수행하는 단계를 포함하는 방법. - 삭제
- ◈청구항 18은(는) 설정등록료 납부시 포기되었습니다.◈제11항에 있어서,
상기 오디오 특성을 식별하는 단계는,
상기 병합된 데이터 그룹의 출력 데이터에 대해 활성함수를 적용하고, 상기 활성함수가 적용된 출력 데이터로부터 대표값을 추출하여, 상기 데이터 그룹에 대한 패턴을 검출하는 단계를 포함하는 방법. - ◈청구항 19은(는) 설정등록료 납부시 포기되었습니다.◈제11항에 있어서,
상기 오디오특성은 상기 데이터 그룹의 오디오 스트림의 데이터에 대응하는 영상의 장면특성에 대응하는 방법. - 디스플레이장치의 프로세서에 의해 실행 가능한 방법의 프로그램이 기록된, 컴퓨터에 의해 독취가능한 비휘발성의 기록매체에 있어서,
상기 방법은,
프레임 단위로 입력되는 오디오 스트림의 데이터에 대하여, 미리 정해진 개수의 프레임에 대응하여 설정된 데이터 그룹에서 분할된 복수의 데이터 블록을 검출하는 단계;
상기 분할된 복수의 데이터 블록 각각에 대해 신경망에서의 미리 학습된 필터를 이용한 컨볼루션 연산을 분산하여 순차적으로 수행하는 단계;
상기 컨볼루션 연산이 순차적으로 수행된 상기 복수의 데이터 블록을 상기 데이터 그룹으로 병합하는 단계;
상기 순차적으로 수행된 컨볼루션 연산에 기초하여, 상기 복수의 데이터 블록으로 구성된 상기 병합된 데이터 그룹에 대한 패턴을 검출하여 상기 데이터 그룹의 오디오특성을 식별하는 단계; 및
상기 데이터 그룹에 대응하여 출력되는 상기 오디오가 상기 식별된 오디오특성에 대응하는 오디오효과를 가지도록 상기 오디오 스트림의 데이터를 처리하는 단계를 포함하는 기록매체.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180162230A KR102650138B1 (ko) | 2018-12-14 | 2018-12-14 | 디스플레이장치, 그 제어방법 및 기록매체 |
PCT/KR2019/017383 WO2020122554A1 (en) | 2018-12-14 | 2019-12-10 | Display apparatus and method of controlling the same |
US16/713,109 US11373659B2 (en) | 2018-12-14 | 2019-12-13 | Display apparatus and method of controlling the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180162230A KR102650138B1 (ko) | 2018-12-14 | 2018-12-14 | 디스플레이장치, 그 제어방법 및 기록매체 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200080369A KR20200080369A (ko) | 2020-07-07 |
KR102650138B1 true KR102650138B1 (ko) | 2024-03-22 |
Family
ID=71072843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180162230A KR102650138B1 (ko) | 2018-12-14 | 2018-12-14 | 디스플레이장치, 그 제어방법 및 기록매체 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11373659B2 (ko) |
KR (1) | KR102650138B1 (ko) |
WO (1) | WO2020122554A1 (ko) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11404025B2 (en) * | 2019-04-10 | 2022-08-02 | Mediatek Inc. | Video processing system for performing artificial intelligence assisted picture quality enhancement and associated video processing method |
CN113766405A (zh) * | 2021-07-22 | 2021-12-07 | 上海闻泰信息技术有限公司 | 扬声器的杂音检测方法、装置、电子设备和存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110071837A1 (en) * | 2009-09-18 | 2011-03-24 | Hiroshi Yonekubo | Audio Signal Correction Apparatus and Audio Signal Correction Method |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001292491A (ja) * | 2000-02-03 | 2001-10-19 | Alpine Electronics Inc | イコライザ装置 |
KR101037931B1 (ko) * | 2004-05-13 | 2011-05-30 | 삼성전자주식회사 | 2차원 데이터 처리를 이용한 음성 신호 압축 및 복원장치와 그 방법 |
KR20120068050A (ko) * | 2004-08-10 | 2012-06-26 | 소니 주식회사 | 정보 신호 처리 방법 및 정보 신호 처리 장치 |
KR101835327B1 (ko) * | 2011-11-18 | 2018-04-19 | 엘지전자 주식회사 | 디스플레이기기 및 디스플레이기기의 컨텐츠 제공 방법 |
KR101621774B1 (ko) * | 2014-01-24 | 2016-05-19 | 숭실대학교산학협력단 | 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기 |
KR101904423B1 (ko) * | 2014-09-03 | 2018-11-28 | 삼성전자주식회사 | 오디오 신호를 학습하고 인식하는 방법 및 장치 |
US9563825B2 (en) | 2014-11-20 | 2017-02-07 | Adobe Systems Incorporated | Convolutional neural network using a binarized convolution layer |
US9697826B2 (en) | 2015-03-27 | 2017-07-04 | Google Inc. | Processing multi-channel audio waveforms |
WO2018106971A1 (en) * | 2016-12-07 | 2018-06-14 | Interactive Intelligence Group, Inc. | System and method for neural network based speaker classification |
WO2018131875A1 (en) * | 2017-01-11 | 2018-07-19 | Samsung Electronics Co., Ltd. | Display apparatus and method for providing service thereof |
-
2018
- 2018-12-14 KR KR1020180162230A patent/KR102650138B1/ko active IP Right Grant
-
2019
- 2019-12-10 WO PCT/KR2019/017383 patent/WO2020122554A1/en active Application Filing
- 2019-12-13 US US16/713,109 patent/US11373659B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110071837A1 (en) * | 2009-09-18 | 2011-03-24 | Hiroshi Yonekubo | Audio Signal Correction Apparatus and Audio Signal Correction Method |
Also Published As
Publication number | Publication date |
---|---|
KR20200080369A (ko) | 2020-07-07 |
US20200194009A1 (en) | 2020-06-18 |
US11373659B2 (en) | 2022-06-28 |
WO2020122554A1 (en) | 2020-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102622950B1 (ko) | 디스플레이장치, 그 제어방법 및 기록매체 | |
CN115145529B (zh) | 语音控制设备的方法及电子设备 | |
US11308650B2 (en) | Display apparatus, image providing apparatus, and methods of controlling the same | |
CN113016189A (zh) | 识别音频场景的电子设备和方法 | |
US12039693B2 (en) | Apparatus and method of controlling the same | |
KR20190093722A (ko) | 전자장치, 그 제어방법 및 컴퓨터프로그램제품 | |
KR20200092465A (ko) | 추천 컨텐츠 리스트 제공 방법 및 그에 따른 전자 장치 | |
KR20190024249A (ko) | 광고를 제공하는 방법 및 전자 장치 | |
US20220180625A1 (en) | Computing device and operating method therefor | |
CN113965813B (zh) | 直播间内的视频播放方法、系统、设备及介质 | |
KR102650138B1 (ko) | 디스플레이장치, 그 제어방법 및 기록매체 | |
US11205391B2 (en) | Image and audio processing apparatus and operating method of the same | |
CN116097655A (zh) | 显示装置及其操作方法 | |
US20230156265A1 (en) | Method and apparatus for synchronizing audio and video signals of multimedia content | |
CN114642002B (zh) | 显示装置及其操作方法 | |
KR20190061631A (ko) | 서버 및 그 제어방법 | |
US20220014688A1 (en) | Image processing method and display device thereof | |
US20230153419A1 (en) | Display apparatus and operation method thereof | |
KR20240011779A (ko) | 조정 가능한 사용자 인터페이스(ui) 요소를 통한 수화 비디오의 디스플레이 | |
CN117941361A (zh) | 显示设备及其操作方法 | |
KR20240026000A (ko) | 전자 장치 및 그 동작 방법 | |
CN114982225A (zh) | 电子设备及控制其的方法和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |