KR20240004318A - 에지 및 서버 soc를 위한 인공 지능 및 클라우드 기술을 포함하는 시스템 및 방법 - Google Patents

에지 및 서버 soc를 위한 인공 지능 및 클라우드 기술을 포함하는 시스템 및 방법 Download PDF

Info

Publication number
KR20240004318A
KR20240004318A KR1020237035765A KR20237035765A KR20240004318A KR 20240004318 A KR20240004318 A KR 20240004318A KR 1020237035765 A KR1020237035765 A KR 1020237035765A KR 20237035765 A KR20237035765 A KR 20237035765A KR 20240004318 A KR20240004318 A KR 20240004318A
Authority
KR
South Korea
Prior art keywords
digital content
broadcast
models
content
trained
Prior art date
Application number
KR1020237035765A
Other languages
English (en)
Inventor
조슈아 리
Original Assignee
유니퀴파이, 아이엔씨.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from PCT/US2022/027035 external-priority patent/WO2022235517A2/en
Application filed by 유니퀴파이, 아이엔씨. filed Critical 유니퀴파이, 아이엔씨.
Publication of KR20240004318A publication Critical patent/KR20240004318A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/462Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
    • H04N21/4622Retrieving content or additional data from different sources, e.g. from a broadcast channel and the Internet
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/78Architectures of general purpose stored program computers comprising a single central processing unit
    • G06F15/7807System on chip, i.e. computer system on a single chip; System in package, i.e. computer system on one or more chips in a single package
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0495Quantised networks; Sparse networks; Compressed networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • G06N3/065Analogue means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/222Secondary servers, e.g. proxy server, cable television Head-end
    • H04N21/2223Secondary servers, e.g. proxy server, cable television Head-end being a public access point, e.g. for downloading to or uploading from clients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/232Content retrieval operation locally within server, e.g. reading video streams from disk arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/242Synchronization processes, e.g. processing of PCR [Program Clock References]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/254Management at additional data server, e.g. shopping server, rights management server
    • H04N21/2542Management at additional data server, e.g. shopping server, rights management server for selling goods, e.g. TV shopping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • H04N21/4316Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for displaying supplemental content in a region of the screen, e.g. an advertisement in a separate window
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4348Demultiplexing of additional data and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • H04N21/4666Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8126Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
    • H04N21/8133Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Security & Cryptography (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Neurology (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Analysis (AREA)

Abstract

본 개시의 양태는 메모리와 시스템온칩을 포함하는 시스템, 방법, 컴퓨터 명령어, 에지 시스템을 포함한다. 메모리는 하나 이상의 로그 양자화된 매개변수 값으로 표현되는 훈련된 신경망의 형태로 객체 검출/분류 모델을 저장하도록 구성된다. 객체 검출/분류는 훈련된 신경망의 로그 양자화된 매개변수 값들에 따라 하나 이상의 신경망 연산을 통해 이미지 데이터 상의 하나 이상의 객체를 분류하도록 구성된다. 시스템온칩 또는 이에 상응하는 회로/하드웨어/컴퓨터 명령어는, 이미지 데이터를 수신하고; 이미지 데이터와 관련하여 하나 이상의 신경망 연산을 통해 훈련된 하나 이상의 신경망 모델을 실행하고; 이미지 데이터로부터 분류된 하나 이상의 객체에 기초하여 이미지 데이터에 하나 이상의 오버레이를 추가하고; 추가된 오버레이와 함께 이미지 데이터를 출력으로서 제공하도록 구성된다.

Description

에지 및 서버 SOC를 위한 인공 지능 및 클라우드 기술을 포함하는 시스템 및 방법
본 개시는 일반적으로 인공 지능 시스템에 관한 것이며, 보다 구체적으로는 하드웨어 및 소프트웨어에서 인공 지능(AI) 및 클라우드 기술을 포함하는 시스템 및 방법에 관한 것이다.
<관련 출원의 교차 인용>
본 출원은 "Systems and Methods Involving Artificial Intelligence and Cloud Technology for Edge and Server SOC"이라는 명칭으로 2021년 5월 5일에 출원된 미국 가출원 일련번호 63/184,576, "Systems and Methods Involving Artificial Intelligence and Cloud Technology for Edge and Server SOC"이라는 명칭으로 2021년 5월 5일에 출원된 미국 가출원 일련번호 63/184,630 및 "IMPLEMENTATIONS AND METHODS FOR PROCESSING NEURAL NETWORK IN SEMICONDUCTOR HARDWARE"라는 명칭으로 2022년 4월 29일에 출원된 PCT 출원 번호 PCT/US22/27035의 이익 및 우선권을 주장하며, 이들 출원의 개시내용은 본 명세서에 인용에 의해 포함된다.
디지털 콘텐츠에는 다양한 형태가 있다. "디지털 콘텐츠"라는 용어는 소비자가 소비하는 시각적, 청각적 및/또는 언어 콘텐츠를 포함할 수 있다. 예를 들어, 디지털 콘텐츠는 이미지, 비디오, 사운드 및/또는 텍스트로 구성될 수 있다. 디지털 콘텐츠의 전달 메커니즘에는 이더넷, 휴대폰 네트워크, 위성, 케이블, 인터넷, WIFI 등이 포함될 수 있다. 소비자에게 콘텐츠를 전달하기 위해 사용될 수 있는 장치에는 TV, 휴대폰, 자동차 디스플레이, 감시 카메라 디스플레이, 개인용 컴퓨터(PC), 태블릿, 증강 현실(AR) 장치, 가상현실(VR) 장치 및 다양한 객체 인터넷 장치(IoT)가 포함될 수 있다. 디지털 콘텐츠는 생방송 스포츠 이벤트나 기타 생방송 이벤트와 같은 "실시간" 콘텐츠와 영화, 시트콤, 기타 사전 녹화되거나 생방송이 아닌 이벤트와 같은 "준비된" 콘텐츠로 나눌 수 있다.
"실시간" 및 "준비된" 디지털 콘텐츠는 모두 추가 처리나 주석 없이 소비자에게 제공된다. 도 1은 스포츠 이벤트(예를 들어, 농구 경기)를 포함할 수 있는 "실시간" 콘텐츠의 예를 도시한다. 디지털 콘텐츠는 추가 처리나 관련 주석 없이 디스플레이 장치(예: TV)에 디스플레이될 수 있다. 어떤 경우에는 디지털 콘텐츠에 스포츠 이벤트에 관련된 팀의 점수 또는 광고 등 콘텐츠와 관련된 주석이 포함될 수 있지만, 이러한 주석은 디지털 콘텐츠를 소비자에게 방송하는 개체에 의해 선험적으로 포함된다. 그러나 이러한 주석은 디지털 콘텐츠를 처리하고 해당 콘텐츠에 대해 관련 주석을 찾은 결과가 아니다.
본 명세서에 설명된 예시적인 구현은 객체 검출, 객체 분류, 얼굴 인식, 텍스트 검출, 자연어 처리로부터 나오는 정보와 같은 콘텐츠에 관한 지능형 정보를 얻기 위해 디지털 콘텐츠를 처리하고, 클라우드/인터넷/시스템/데이터베이스/사람에서 발견된 적절하고 관련 있는 정보를 소비자에게 제공할 상태가 되도록 처리된 디지털 콘텐츠의 부분과/부분에 연결/보충하는 새로운 접근 방식에 관한 것이다. 예시적인 구현은 처리된 디지털 콘텐츠를 하드웨어, 소프트웨어 또는 이들의 일부 조합으로 구현된 클라우드/인터넷에서 발견된 관련 있고 적절한 정보와/에 연결/주석추가 하는 방법을 제공한다. 제안된 예시적인 구현은 소비자와, 디지털 콘텐츠를 소비하는 동안 소비자 경험을 향상시킬 수 있는 주석이 달린 클라우드/인터넷 정보 및 처리된 디지털 콘텐츠 사이의 상호 작용을 허용할 수 있다.
본 명세서에 설명된 예시적인 구현은 시각 및/또는 오디오 디지털 콘텐츠를 처리할 수 있다. 예를 들어, 디지털 콘텐츠를 처리하는 것은 시각적 및 청각적 디지털 콘텐츠에서 사람, 객체, 개념, 장면, 텍스트 및/또는 언어를 분류, 식별 및/또는 검출하는 것을 수반할 수 있다. 다른 예에서, 디지털 콘텐츠는, 오디오 콘텐츠를 텍스트로 변환하고 변환된 텍스트 내의 관련 정보를 식별하도록, 처리될 수 있다. 분류 또는 식별 처리는, 한 명 이상의 사람(예를 들어 존재 또는 신원), 객체 유형(예를 들어 자동차, 보트, 등), 텍스트나 언어의 의미, 개념 또는 장면을 식별하기 위해 디지털 콘텐츠 내의 이미지, 비디오, 사운드 및/또는 언어를 처리하는 것을 포함한다. 예를 들어, 디지털 콘텐츠 내의 이미지, 비디오 및/또는 언어를 처리하고 분류하기 위해 다양한 AI 모델, 신경망 모델 및/또는 기계 학습 모델이 활용될 수 있지만, 다른 모델이나 알고리즘이 사용될 수도 있다. 디지털 콘텐츠는 클라우드나 인터넷의 적절한 정보를 연결하기 위해 콘텐츠에 대해 유용한 정보를 얻기 위해 처리될 수 있고, 찾은 정보를 처리된 시각 및 오디오 디지털 콘텐츠에 주석을 달 수 있으며, 이후 시각 디지털 콘텐츠를 디스플레이하고 오디오 디지털 콘텐츠를 재생할 수 있는 장치의 소비자에게 제공되도록 준비될 수 있다. 클라우드나 인터넷에는 서버, 데이터베이스, 컴퓨터 메모리, 저장 장치 또는 소비자 장치에 존재하는 모든 정보가 포함될 수 있다.
본 명세서에 설명된 예시적인 구현에서, 네트워크 장치(예를 들어, 서버 또는 허브)는 디지털 콘텐츠와 관련된 관련 클라우드 정보를 연결하기 위해 디지털 콘텐츠를 처리하도록 구성될 수 있다. 네트워크 장치는 시청자를 위해 AI 모델, 신경망 모델 및/또는 기계 학습 모델을 활용하여 디지털 콘텐츠를 처리하여 관련되거나 흥미로운 디지털 콘텐츠 내의 아이템에 대한 디지털 콘텐츠를 검출 및/또는 분석할 수 있다. 네트워크 장치는 처리된 디지털 콘텐츠를 디스플레이 장치를 갖는 에지 장치에 제공할 수 있다. 네트워크 장치는 클라우드 정보 중 적어도 일부가 시청자의 방향에 따라 디지털 콘텐츠와 함께 디스플레이될 수 있도록 디지털 콘텐츠와 관련된 관련 클라우드/인터넷 정보로 디지털 콘텐츠를 보충할 수 있다. 디지털 콘텐츠와 관련된 관련 클라우드/인터넷 정보로 디지털 콘텐츠를 보충하면 디지털 콘텐츠를 소비하는 중에 소비자 경험을 향상시킬 수 있다.
본 명세서에 설명된 예시적인 구현에서, 디스플레이 장치를 갖는 에지 장치는 네트워크 장치로부터 디지털 콘텐츠의 스트림을 수신하도록 구성될 수 있다. 에지 장치는 네트워크 장치에 의해 처리된 클라우드 정보가 보충된 디지털 콘텐츠를 디스플레이할 수 있다. 에지 장치는, 네트워크 장치가 없을 때, 디지털 콘텐츠의 스트림을 처리하도록 구성될 수도 있다. 예를 들어, 에지 장치는 디지털 콘텐츠를 처리하여 사람, 객체, 텍스트, 장면을 식별 및 검출하여 클라우드와 인터넷에서 콘텐츠에 대한 관련 및 보충 정보를 얻을 수 있다. 에지 장치는 클라우드/인터넷으로부터 디지털 콘텐츠와 관련된 관련 정보를 디지털 콘텐츠에 보충하고, 보충된 디지털 콘텐츠를 소비자/시청자에게 제공할 수 있다. 에지 장치는 시청자와 클라우드 정보로 보충된 디지털 콘텐츠 간의 맞춤형 상호작용을 허용하여 시청자에게 상호작용 경험을 허용할 수 있다.
본 개시의 양태는 하나 이상의 로그 양자화된 매개변수 값에 의해 표현되는 훈련된 신경망의 형태로 객체 검출 모델을 저장하도록 구성된 메모리; 및 시스템온칩(SoC)을 포함하는 디지털 콘텐츠를 처리하기 위한 에지 시스템을 포함할 수 있다. 상기 객체 검출 모델은 상기 훈련된 신경망의 상기 로그 양자화된 매개변수 값들에 따라 하나 이상의 신경망 연산을 통해 이미지 데이터 상의 하나 이상의 객체를 분류하도록 구성된다. 상기 시스템온칩은: 이미지/오디오 데이터를 수신하고; 상기 이미지 데이터와 관련하여 상기 하나 이상의 신경망 연산을 통해 훈련된 하나 이상의 훈련된 신경망 모델을 실행하고; 상기 이미지/오디오 데이터로부터 상기 분류된 하나 이상의 객체에 기초하여 상기 이미지 데이터에 하나 이상의 오버레이를 추가하고; 그리고, 상기 추가된 오버레이와 함께 상기 이미지/오디오 데이터를 출력으로서 제공하도록 구성된다.
본 개시의 양태는 디지털 콘텐츠를 처리하기 위한 텔레비전 구현 방법을 포함할 수 있으며, 상기 방법은: 텔레비전 방송을 수신하는 단계; 상기 텔레비전 방송과 관련하여 훈련된 신경망의 하나 이상의 신경망 연산을 통해 하나 이상의 훈련된 신경망 모델을 실행하는 단계; 이미지 데이터로부터 분류된 하나 이상의 객체에 기초하여 상기 텔레비전 데이터에 하나 이상의 오버레이를 추가하는 단계; 그리고, 상기 텔레비전의 디스플레이상에 상기 추가된 오버레이와 함께 상기 텔레비전 데이터를 표시하는 단계를 포함한다.
본 개시의 양태는 메모리 및 시스템온칩을 포함하는, 디지털 콘텐츠를 처리하기 위한 명령어를 저장하는 컴퓨터 프로그램을 포함할 수 있다. 상기 메모리는 하나 이상의 로그 양자화된 매개변수 값에 의해 표현되는 훈련된 신경망의 형태로 객체 검출 모델을 저장하도록 구성되고, 상기 객체 검출 모델은 상기 훈련된 신경망의 상기 로그 양자화된 매개변수 값들에 따라 하나 이상의 신경망 연산을 통해 이미지 데이터 상의 하나 이상의 객체를 분류하도록 구성된다. 상기 시스템온칩은: 이미지 데이터를 수신하고; 상기 이미지 데이터와 관련하여 상기 하나 이상의 신경망 연산을 통해 상기 훈련된 하나 이상의 신경망 모델을 실행하고; 상기 이미지 데이터로부터 상기 분류된 하나 이상의 객체에 기초하여 상기 이미지 데이터에 하나 이상의 오버레이를 추가하고; 상기 추가된 오버레이와 함께 상기 이미지 데이터를 출력으로 제공하도록 구성된다.
본 개시의 양태는 디지털 콘텐츠를 처리하기 위한 에지 시스템을 포함하며, 상기 에지 시스템은: 텔레비전 방송을 수신하기 위한 수단; 상기 텔레비전 방송과 관련하여 훈련된 신경망의 하나 이상의 신경망 연산을 통해 하나 이상의 훈련된 신경망 모델을 실행하는 수단; 이미지 데이터로부터 하나 이상의 분류된 객체에 기초하여 상기 텔레비전 데이터에 하나 이상의 오버레이를 추가하기 위한 수단; 그리고, 상기 텔레비전의 디스플레이상에 상기 추가된 오버레이와 함께 상기 텔레비전 데이터를 디스플레이하기 위한 수단을 포함한다.
본 개시의 양태는 에지 시스템을 포함하며, 상기 에지 시스템은 메모리와 시스템온칩을 포함할 수 있고, 상기 메모리는 하나 이상의 훈련된 인공 지능/신경망(AI/NN) 모델을 저장하도록 구성되고, 상기 시스템온칩은 방송 또는 스트리밍 디지털 콘텐츠를 수신하고, 상기 하나 이상의 훈련된 AI/NN 모델을 사용하여 상기 방송 또는 스트리밍 디지털 콘텐츠를 처리하고, 상기 하나 이상의 훈련된 AI/NN 모델을 사용한 상기 방송 또는 스트리밍 디지털 콘텐츠의 처리에 기초하여 다른 장치에서 획득한 하나 이상의 보충 콘텐츠를 상기 방송 또는 스트리밍 디지털 콘텐츠에 추가하고, 상기 다른 장치에서 획득한 상기 보충 콘텐츠와 함께 상기 방송 또는 스트리밍 디지털 콘텐츠를 출력으로서 제공하도록 구성된다.
본 개시의 양태는 하나 이상의 훈련된 인공 지능/신경망(AI/NN) 모델을 저장하기 위한 메모리 수단; 방송 또는 스트리밍 디지털 콘텐츠를 수신하기 위한 수단; 상기 하나 이상의 훈련된 AI/NN 모델을 사용하여 상기 방송 또는 스트리밍 디지털 콘텐츠를 처리하는 수단; 상기 하나 이상의 훈련된 AI/NN 모델을 이용한 상기 방송 또는 스트리밍 디지털 콘텐츠의 처리에 기초하여 다른 장치에서 획득한 보충 콘텐츠를 상기 방송 또는 스트리밍 디지털 콘텐츠에 추가하기 위한 수단; 그리고, 다른 장치에서 획득한 보충 콘텐츠와 함께 상기 방송 또는 스트리밍 디지털 콘텐츠를 출력으로서 제공하기 위한 수단을 포함한다.
본 개시의 양태는 에지 시스템용 방법을 제공할 수 있으며, 상기 방법은, 방송 또는 스트리밍 디지털 콘텐츠를 수신하는 단계; 하나 이상의 훈련된 AI/NN 모델을 사용하여 상기 방송 또는 스트리밍 디지털 콘텐츠를 처리하는 단계; 상기 하나 이상의 훈련된 AI/NN 모델을 사용한 상기 방송 또는 스트리밍 디지털 콘텐츠의 처리에 기초하여 획득한 보충 콘텐츠를 상기 방송 또는 스트리밍 디지털 콘텐츠에 추가하는 단계; 그리고, 다른 장치에서 획득한 상기 보충 콘텐츠와 함께 상기 방송 또는 스트리밍 디지털 콘텐츠를 출력으로서 제공하는 단계를 포함한다.
본 개시의 양태는 에지 시스템용 컴퓨터 프로그램을 포함할 수 있으며, 상기 컴퓨터 프로그램은, 방송 또는 스트리밍 디지털 콘텐츠를 수신하고: 하나 이상의 훈련된 AI/NN 모델을 사용하여 상기 방송 또는 스트리밍 디지털 콘텐츠를 처리하고; 상기 하나 이상의 훈련된 AI/NN 모델을 사용한 상기 방송 또는 스트리밍 디지털 콘텐츠의 처리에 기초하여 획득한 보충 콘텐츠를 상기 방송 또는 스트리밍 디지털 콘텐츠에 추가하고; 다른 장치에서 획득한 상기 보충 콘텐츠와 함께 상기 방송 또는 스트리밍 디지털 콘텐츠를 출력으로서 제공하는 명령어를 포함한다. 상기 명령어는 비일시적 컴퓨터 판독 가능 매체에 저장되고 하나 이상의 프로세서에 의해 실행될 수 있다.
도 1은 관련 기술에 따른 디지털 콘텐츠의 예를 도시한다.
도 2a 및 도 2b는 예시적인 구현에 따른, AI 에지 SoC에 의해 관련 클라우드/인터넷 정보가 보충된 디지털 콘텐츠의 예를 도시한다.
도 3a 및 도 3b는 예시적인 구현에 따른 AI 에지 장치의 전체 아키텍처의 예를 도시한다.
도 4a 및 도 4b는 예시적인 구현에 따른, 신경망 처리를 갖춘 디지털 콘텐츠 처리 아키텍처의 예를 도시한다.
도 5는 예시적인 구현에 따른, 디지털 콘텐츠 처리 SoC를 위한 전체 데이터 경로 아키텍처를 도시한다.
도 6은 예시적인 구현에 따른, 입력 데이터 프레임을 세분화하는 방법의 예를 도시한다.
도 7a는 예시적인 구현에 따른, AI/신경망 모델에 대한 매개변수 구조의 예를 도시한다.
도 7b는 예시적인 구현에 따른, 액손(예를 들어, 신경망 층의 출력) 구조의 예를 도시한다.
도 8a 내지 도 8d는 예시적인 구현에 따른, 다양한 시스템의 AI 에지 장치의 예를 도시한다.
도 9는 예시적인 구현에 따른, 다양한 신경망 연산을 실행함으로써 디지털 콘텐츠를 처리하기 위한 AI 처리 소자(AIPE)의 예를 도시한다.
도 10은 예시적인 구현에 따른, AIPE 어레이의 예를 예시한다.
도 11a 및 도 11b는 예시적인 구현에 따른, 처리된 디지털 콘텐츠를 사용하는 AI 디지털 콘텐츠 애플리케이션을 위한 소프트웨어 스택의 예를 도시한다.
도 12a 내지 도 12h는 예시적인 구현에 따른, 처리된 디지털 콘텐츠를 활용하는 애플리케이션의 예를 도시한다.
도 13은 예시적인 구현에 따른, 검출 알고리즘을 사용하여 처리된 디지털 콘텐츠의 예를 도시한다.
도 14는 예시적인 구현에 따른, 사람 검출 알고리즘을 사용하여 처리된 디지털 콘텐츠의 예를 도시한다.
도 15는 예시적인 구현에 따른, 사람 자세 추정 알고리즘을 사용하여 처리된 디지털 콘텐츠의 예를 도시한다.
도 16은 예시적인 구현에 따른, 객체 및 사람 분석 알고리즘을 사용하여 처리된 디지털 콘텐츠의 예를 도시한다.
도 17은 예시적인 구현에 따른, 텍스트 검출 및 자연어 처리 알고리즘을 사용하여 처리된 디지털 콘텐츠의 예를 도시한다.
18a 및 18b는 예시적인 구현에 따른, 클라우드, 인터넷, 시스템 및 임의의 데이터베이스에서 발견되는 관련 정보로 보충된 처리된 디지털 콘텐츠의 예를 도시한다.
도 19는 예시적인 구현에 따른, 클라우드, 인터넷, 시스템 및 임의의 데이터베이스에서 발견된 관련 정보로 보충된 처리된 디지털 콘텐츠의 예를 도시한다.
도 20a 및 20b는 예시적인 구현에 따른, 클라우드, 인터넷, 시스템 및 임의의 데이터베이스에서 발견되는 관련 정보로 보충된 처리된 디지털 콘텐츠의 예를 도시한다.
도 21a 및 21b는 예시적인 구현에 따른, 소셜 미디어 플랫폼으로부터의 관련 정보로 보충된 처리된 디지털 콘텐츠의 예를 도시한다.
도 22a 및 22b는 예시적인 구현에 따른, 전자상거래 플랫폼에서 발견된 관련 정보로 보충된 처리된 디지털 콘텐츠의 예를 도시한다.
도 23은 예시적인 구현에 따른, 디지털 콘텐츠로부터 처리된 정보를 사용한 맞춤형 디지털 콘텐츠의 예를 도시한다.
도 24는 예시적인 구현에 따른, 디지털 콘텐츠로부터 처리된 정보를 사용하는 맞춤형 디지털 콘텐츠의 예를 도시한다.
도 25는 예시적인 구현에 따른, 다양한 알고리즘으로 입력 이미지를 처리하기 전의 다양한 입력 이미지 전처리 방법의 예를 도시한다.
다음의 상세한 설명은 본 출원의 도면 및 예시적인 구현의 세부사항을 제공한다. 도면 사이에 중복되는 구성요소에 대한 참조번호 및 설명은 명확성을 위해 생략하였다. 설명 전반에 걸쳐 사용된 용어는 예시로서 제공되며 제한하려는 의도가 아니다. 예를 들어, "자동"이라는 용어의 사용은 완전 자동 구현 또는 본 기술의 구현을 실행하는 당업자의 원하는 구현에 따라 구현의 특정 측면에 대한 사용자 또는 관리자 제어를 포함하는 반자동 구현을 포함할 수 있다. 사용자 인터페이스나 기타 입력 수단을 통해 사용자가 선택할 수도 있고, 원하는 알고리즘을 통해 선택될 수도 있다. 여기에 설명된 예시적인 구현은 단독으로 또는 조합하여 활용될 수 있으며 예시적인 구현의 기능은 원하는 구현에 따른 임의의 수단을 통해 구현될 수 있다.
도 2a 및 2b는 예시적인 구현에 따른, 어떻게 디지털 콘텐츠가 처리되고 클라우드, 인터넷, 시스템, 데이터베이스 및 사람(예: 장치로부터의 입력)으로부터의 관련 정보로 보충되는지의 예를 도시한다. 구체적으로, 도 2b는 도 2a의 예에서 사용되는 관련 정보(relevant information)로 디지털 콘텐츠가 어떻게 보충될 수 있는지의 흐름(flow)을 도시한다. 210에서, 상기 흐름은 하나 이상의 알고리즘으로 디지털 콘텐츠를 처리한다. 예를 들어, 디지털 콘텐츠(202)는 디지털 콘텐츠(202)를 처리하기 위해 인공 지능 처리 소자(intelligence processing element: AIPE)(204)를 갖는 에지 SoC 장치에 제공될 수 있다. SoC(204)는 네트워크의 일부일 수도 있고 독립형 에지 장치(예: 인터넷 지원 TV 등)일 수 있다. SoC(204)는 디지털 콘텐츠(202)를 수신할 수 있고 디지털 콘텐츠(202) 내의 객체를 검출 또는 분류하기 위해 디지털 콘텐츠를 처리할 수 있다. 예를 들어, SoC(204)는 디지털 콘텐츠(202)를 처리하고 디지털 콘텐츠(202)가 농구 선수(player), 농구공, 그리고 농구 골대를 포함하고 있음을 검출한다. 212에서, 상기 흐름은 관련 보충 정보(relevant supplemental information)를 검색하고 찾을 수 있다. SoC(204)는 예를 들어 농구 선수에 대한 정보와 같이, 처리된 디지털 콘텐츠와 관련이 있는 정보를 클라우드/인터넷/시스템/데이터베이스/사람(206)에서 검색하여 찾을 수 있다. 예를 들어, SoC(204)는 실시간 스포츠 이벤트에 참여하는 한 명 이상의 선수는 물론 각 팀을 검출하거나 식별할 수 있다. 클라우드/인터넷/시스템/데이터베이스/사람(206)은 선수에 대한 관련 정보를 포함할 수 있고 SoC(204)는 클라우드/인터넷/시스템/데이터베이스/사람(206)으로부터 획득한 관련 정보로 디지털 콘텐츠(202)를 보충할 수 있다. 214에서, 상기 흐름은 시청(viewing)을 위해 상기 관련 보충 정보와 함께 상기 처리된 디지털 콘텐츠를 제공할 수 있다. 그런 다음 SoC(204)는 클라우드/인터넷/시스템/데이터베이스/사람(206)으로부터의 정보가 주석이 달린 디지털 콘텐츠를 에지 장치(208)에 제공하여 보충 정보와 함께 디지털 콘텐츠를 시청자에게 디스플레이할 수 있다. 216에서, 상기 흐름은 관련 보충 정보가 디지털 콘텐츠와 함께 표시되는 방식으로 맞춤화(customization)를 허용할 수 있다. 예를 들어, 시청자/소비자(viewer/consumer)는 디지털 콘텐츠와 함께 임의의 보충 정보 예를 들어 이에 국한되지 않으며 선수 신원, 선수의 실시간 통계, 이전 게임의 최신 통계, 일정 기간 동안 또는 선수의 경력의 시즌 통계, 선수의 소셜 미디어 콘텐츠, 선수와 관련된 전자상거래 정보를 표시할 수 있는 옵션을 가질 수 있다.
기존의 TV 및 스마트 TV에는 객체 검출, 객체 분류, 얼굴 인식 및 자연어 처리를 사용하여 실시간(예: 초당 60프레임)으로 디지털 콘텐츠를 처리하는 기능이 없다. 기존의 TV 및 스마트 TV는 인터넷(예: 스마트 TV)에서 콘텐츠를 스트리밍 하거나 셋톱 박스를 통해 콘텐츠를 수신하여 소비자에게 디지털 콘텐츠를 전달할 수 있다. 기존의 TV는 사용자 입력(예: 리모컨 입력, 음성 입력 또는 카메라 입력)도 수신하고 처리할 수 있다.
AI TV는 디지털 콘텐츠를 처리하고, 처리된 디지털 콘텐츠의 관련 정보를 클라우드/인터넷/시스템/데이터베이스/사람 등에서 검색하고, 검색한 관련 정보를 디지털 콘텐츠에 보충하여 보충 정보와 함께 디지털 콘텐츠를 실시간(초당 60프레임)으로 소비자/시청자에게 제공하는 TV이다. AI TV가 수행하는 디지털 콘텐츠 처리의 예로, AI TV는 신경망 모델을 이용해 실시간으로 디지털 콘텐츠를 분류, 식별하고, 클라우드/인터넷/시스템/데이터베이스/사람 등에서 관련 정보를 찾아 콘텐츠를 찾은 정보로 보충할 수 있다. AI TV는 디지털 콘텐츠를 처리하고 다양한 신경망/AI 모델 등과 같은 필요한 분류 및 검출 알고리즘을 실행할 수 있다. AI TV는 또한 소비자/시청자와 상호작용하도록 구성될 수 있으며, 이를 통해 소비자는 디지털 콘텐츠와 함께 표시할 보충 정보의 유형, 디스플레이 방식, 디스플레이 위치 및 디스플레이 시기를 선택할 수 있다. 이처럼 AI TV는 사용자가 디지털 콘텐츠를 소비하면서 상호작용적인 경험을 할 수 있게 해준다.
도 3a 및 도 3b는 예시적인 구현에 따른, AI-클라우드 TV SoC의 전체 아키텍처를 도시한다. 구체적으로, 도 3b는 도 3a의 예시에서 사용된 AI-클라우드 TV SoC의 전체 아키텍처의 흐름(flow)을 도시한 것이다. AI-클라우드 TV SoC(302)는 디지털 콘텐츠를 처리하도록 구성될 수 있다. AI-클라우드 TV SoC(302)는 디지털 콘텐츠의 처리에 활용되는 복수의 요소를 포함할 수 있다. 예를 들어, AI-클라우드 TV SoC(302)는 입력/전처리 유닛(input/pre-processing unit: IPU)(304), AI 처리 유닛(APU)(306), 인터넷 인터페이스(308), 메모리 인터페이스(310), 출력 처리 유닛(OPU)(312) 및 컨트롤러 로직(314)을 포함할 수 있다.
320에서, 흐름은 디지털 콘텐츠를 IPU에 입력할 수 있다. IPU(304)는 입력으로서 디지털 콘텐츠(320)를 수신할 수 있다. 322에서, 흐름은 입력 디지털 콘텐츠를 사전 처리하고 준비된 디지털 콘텐츠를 APU(306) 및 메모리 인터페이스(310)로 보낼 수 있다. IPU(304)는 AI 처리 장치 및 메모리 인터페이스에 의해 사용될 디지털 콘텐츠(320)를 준비할 수 있다. 예를 들어, IPU(304)는 복수의 프레임 및 오디오 데이터로서 디지털 콘텐츠(320)를 수신하고, APU에 의해 처리될 복수의 프레임 및 오디오 데이터를 준비할 수 있다. IPU(304)는 준비된 디지털 콘텐츠(320)를 APU(306)에 제공한다. APU(306)는 메모리 인터페이스를 통해 메모리로부터 얻는 다양한 신경망 모델 및 다른 알고리즘을 사용하여 디지털 콘텐츠를 처리한다. 예를 들어, 메모리 인터페이스(310)는 디지털 콘텐츠를 처리하기 위해 APU(306)에 의해 활용될 수 있는 복수의 신경망 모델 및 알고리즘을 포함한다.
324에서, 흐름은 메모리 인터페이스로부터 하나 이상의 AI/신경망 모델을 가져올 수 있다. 메모리 인터페이스(310)는 클라우드/인터넷/시스템/데이터베이스/사람(316)으로부터 신경망 모델 및 알고리즘을 수신할 수 있다. 예를 들어, APU는 메모리 인터페이스로부터 하나 이상의 AI/신경망 모델을 가져올 수 있다. 326에서, 흐름은 하나 이상의 AI/신경망 모델을 사용하여 사전 처리된 입력 디지털 콘텐츠를 처리할 수 있다. 예를 들어, APU(306)는 하나 이상의 AI/신경망 모델을 사용하여 사전 처리된 입력 디지털 콘텐츠를 처리할 수 있다. 328에서, 흐름은 처리된 디지털 콘텐츠의 관련 보충 정보를 검색 및 찾아 메모리 인터페이스에 관련 보충 정보를 제공할 수 있다. 예를 들어, 인터넷 인터페이스(308)는 처리된 디지털 콘텐츠의 관련 보충 정보를 검색하여 찾아 관련 보충 정보를 메모리 인터페이스(310)에 제공할 수 있다. 메모리 인터페이스(310)는 처리된 디지털 콘텐츠와 관련이 있는, 클라우드/인터넷/시스템/데이터베이스/사람(316)으로부터의 정보를 인터넷 인터페이스(308)로부터 수신한다. 330에서, 흐름은 처리된 디지털 콘텐츠 및 관련 보충 정보를 OPU에 제공할 수 있다. 클라우드/인터넷/시스템/데이터베이스/사람(316)으로부터의 정보는 메모리(318)에 저장될 수 있고 또한 OPU(312)에 제공될 수도 있다. 332에서, 흐름은 처리된 디지털 콘텐츠 및 관련 보충 정보가 액세스 가능하도록 포맷할 수 있다. OPU(312)는 클라우드/인터넷/시스템/데이터베이스/사람(316)으로부터의 정보를 활용하여 디지털 콘텐츠를 보충할 수 있고, 보충 정보 및 디지털 콘텐츠를 소비자/시청자에게 제공할 수 있다. 인터넷으로부터의 정보는 메모리(318)에 저장될 수 있고 OPU가 액세스할 수 있다. OPU는 메모리 인터페이스(310)를 통해 메모리(318)에 저장된 정보에 액세스할 수 있다. 메모리(318)는 내부 메모리 또는 외부 메모리일 수 있다. OPU(312)는 디스플레이 장치에 디스플레이될 보충 정보 및 디지털 콘텐츠(322)를 준비한다. 컨트롤러 로직(314)은 IPU(304), APU(306), OPU(312), 인터넷 인터페이스 및 메모리 인터페이스(310)의 동작을 위한 명령어를 포함할 수 있다.
위의 절차는 또한 디지털 콘텐츠(320) 내의 오디오를 처리하는 데 활용될 수 있다. 예를 들어, APU(306)는 디지털 콘텐츠의 오디오 부분을 처리하고 오디오를 텍스트로 변환할 수 있으며, 자연어 처리 신경망 모델 또는 알고리즘을 사용하여 오디오 콘텐츠를 처리한다. 인터넷 인터페이스는 클라우드/인터넷/시스템/데이터베이스/사람에서 관련 정보를 찾고 보충 정보를 생성할 수 있으며, OPU는 복수 프레임에 대해 위에서 설명한 것과 유사한 방식으로 에지 장치에 제공할 보충 정보와 디지털 콘텐츠를 준비한다.
도 4a 및 도 4b는 예시적인 구현에 따른, 신경망/AI 모델을 사용하여 디지털 콘텐츠를 처리하는 방법에 대한 일반적인 아키텍처의 예를 도시한다. 구체적으로, 도 4b는 도 4a의 예에서 사용된 신경망/AI 모델을 이용한 디지털 콘텐츠 처리의 일반적인 아키텍처 흐름을 도시한다. AI 모델 아키텍처(402)는 입력 처리부(input processing)(404), 신경망(406) 및 출력 포맷터(output formatter)(408)를 포함한다. 420에서, 흐름은 디지털 콘텐츠를 수신하고 처리를 위해 디지털 콘텐츠를 준비할 수 있다. AI 모델 아키텍처(402)는 디지털 콘텐츠(410)를 입력으로 수신할 수 있으며, 입력 처리부(404)는 디지털 콘텐츠(410)를 준비한다. 입력 처리부(404)는 디지털 콘텐츠(410)의 비디오를 복수의 프레임으로 준비할 수 있거나 디지털 콘텐츠(410)의 오디오를 준비할 수 있다. 422에서, 흐름은 처리된 디지털 콘텐츠를 신경망에 제공할 수 있다. 예를 들어, 입력 처리부(404)는 준비된 디지털 콘텐츠(410)를 신경망(406)에 제공할 수 있다. 424에서, 흐름은 디지털 콘텐츠에 대해 다중 신경망 연산(operation)을 수행할 수 있다. 신경망(406)은 디지털 콘텐츠(410)에 대해 다중 연산을 수행할 수 있다. 예를 들어, 신경망(406)은 처리된 디지털 콘텐츠 내의 객체를 검출하도록 구성될 수 있다. 예를 들어, 신경망(406)은 디지털 콘텐츠 내에서 사람, 객체, 텍스트 등과 같은 하나 이상의 서로 다른 객체를 탐지할 수 있지만 이에 국한되지는 않는다.
신경망(406)은 다양한 신경망 모델 및 알고리즘을 사용하여 이전에 처리된 디지털 콘텐츠를 추가로 처리할 수 있다. 예를 들어 제1 신경망 모델로 농구 선수를 검출한 경우, 검출된 농구 선수의 이미지를 다른 신경망 모델로 처리하여 신체 부위(얼굴, 손, 발 등)를 검출하거나 얼굴 인식 모델을 사용하여 선수가 누구인지 확인한다.
입력 처리부(404)가 디지털 콘텐츠의 오디오를 처리하는 경우, 신경망(406)은 음성 인식을 위해 오디오 입력을 처리할 수 있다. 신경망(406)은 자연어 처리 모델을 사용하여 검출한 음성을 처리하여 음성을 이해할 수 있다. 자연어 처리는 디지털 콘텐츠와 연관된 관련 정보를 검출하거나 식별할 수 있다. 출력 포맷터(408)는 처리된 디지털 콘텐츠에 대한 관련 정보를 클라우드/인터넷/시스템/데이터베이스/사람등에서 찾아내고, 찾은 정보로 시청자/소비자를 위해 디지털 콘텐츠를 보충할 수 있다.
426에서, 흐름은 신경망의 출력을 활용하여 디지털 콘텐츠와 관련된 보충 정보를 준비할 수 있다. 출력 포맷터(408)는 디스플레이될 디지털 콘텐츠(412)에 대한 보충 정보를 준비하기 위해 신경망(406)의 출력을 활용할 수 있다. 예를 들어, 출력 포맷터(408)는, 디지털 콘텐츠의 오디오를 처리하여 얻은 관련 정보를 활용하여 오디오를 처리하여 얻은 관련 정보와 관련된 디지털 콘텐츠(412)와 함께 광고, 정보 등을 디스플레이할 수 있다. 다른 예에서, 출력 포맷터(408)는, 획득된 정보가 이전에 처리된(하나 이상의 사람 또는 객체를 검출) 디지털 콘텐츠와 함께 사용될 준비가 되도록, 디지털 콘텐츠를 처리하는 것으로부터 하나 이상의 검출된 사람 또는 객체와 관련하여 획득된 정보를 활용할 수 있다. 예를 들어, 검출된 한 명 이상의 사람이 운동선수인 경우 관련된 스포츠 의류(예: 셔츠(jerseys), 유니폼 등)에 대한 광고가 디지털 콘텐츠인 운동선수와 함께 사용할 준비가 된 보충 정보일 수 있다. 또 다른 예에서, 출력 포맷터(408)는 디지털 콘텐츠의 처리에서 검출된 객체(검출된 사람 제외)와 관련하여 획득된 정보를 활용하고 시청자/소비자를 위해 획득된 정보를 디지털 콘텐츠(검출된 객체)에 대한 보충 정보로 준비할 수 있다. 예를 들어, 출력 포맷터(408)는 검출된 객체의 관련 정보 또는 관련 광고와 같은 추가 정보를 획득하고 AI 에지 장치에서 사용할 수 있도록 준비할 수 있다.
도 5는 예시적인 구현에 따른, 디지털 콘텐츠 처리 SoC의 전체 데이터 경로 아키텍처를 도시한다. 입력(502)(예를 들어, 디지털 콘텐츠)은 입력 데이터 버퍼(504) 및 메모리 모듈(524)에 의해 수신될 수 있다. 텔레비전 비디오/방송 비디오/스트리밍 비디오 데이터와 같은 이미지 데이터를 포함하는 예에서, 그러한 데이터는 프레임(508)으로 처리될 수 있다. 매개변수 버퍼(506)는 메모리 모듈로부터 매개변수를 수신하는데, 매개변수는 인터넷 인터페이스(520)를 통해 인터넷으로부터 획득될 수 있다. 인터넷 인터페이스(520)는 또한 클라우드 데이터(510)를 제공할 수 있는데, 클라우드 데이터(510)는 처리된 후 입력(502)과 관련된 정보를 포함할 수 있다. 매개변수 버퍼(506)로부터의 매개변수와 입력 데이터 버퍼(504) 내의 입력은 AIPE 처리 엔진(516)에 제공된다. AIPE 처리 엔진(516)은 매개변수 버퍼로부터의 매개변수에 의해 표현되는 신경망 모델을 사용하여 입력을 처리하고 그 결과를 출력(514)에 제공한다. 출력(514)은 입력 데이터 버퍼(504)로부터의 입력에 대해 신경망 모델을 실행한 중간 결과를 포함할 수 있다. AIPE 처리 엔진(516)의 출력은 또한 입력 데이터 버퍼(504)에 제공되어 AIPE 처리 엔진(516)에 피드백될 수 있다. 일부 양태에서, 매개변수(512)로부터의 매개변수는 로그 양자화된 매개변수(log-quantized parameter)일 수 있다. 그러나 일부 양태에서, 매개변수(512)로부터의 매개변수는 로그 양자화된 매개변수가 아니다. 출력(514) 내의 정보는 입력 데이터 버퍼(504)에 제공되어 AIPE 처리 엔진(516)으로 피드백될 수 있다. 출력(514)은 시청자/소비자가 사용할, 클라우드/인터넷/시스템/데이터베이스/사람으로부터 처리된, 입력 데이터에 대한 관련 보충 정보를 얻기 위해 출력 처리 유닛(522)에 제공될 수 있다.
도 6은 예시적인 구현에 따른, 입력 데이터 프레임을 세분화하는 방법의 예를 도시한다. 디지털 콘텐츠는 복수의 서브프레임으로 세분될 수 있는 입력 데이터 프레임을 포함할 수 있다. 예시적으로, 복수의 서브프레임 각각은 384x216의 크기를 가질 수 있다. 도 6의 프레임은 어떻게 프레임이 세분화될 수 있는지의 예이지만, 본 개시는 도 6의 프레임에 제한되도록 의도되지 않는다.
도 7a는 예시적인 구현에 따른, AI/신경망 모델에 대한 매개변수 구조의 예를 도시한다. 매개변수는 다양한 크기(예를 들어 1kbytes, 20kbytes, 75kbytes, 4Mbytes)로 구성될 수 있다. 도 7a의 파라미터들은 AI/신경망 모델의 각 계층별로 구성된다. 도 7b는 예시적인 구현에 따른, 액손(axon)(층의 출력) 구조의 예를 도시한다. 액손은 해당 계층의 구조에 따라 다양한 크기(예를 들어 5.5Mbytes, 2Mbytes, 1Mbytes, 0.6Mbytes)로 구성될 수 있다. 도 7b는 AI/신경망 모델의 해당 계층으로 구성된다.
도 8a 내지 도 8d는 예시적인 구현에 따른, 다양한 시스템의 AI 에지 장치의 예를 도시한다. 도 8a는 완전히 통합된 장치(fully integrated device)에 TV SoC, AI TV 에지 SoC 및 디스플레이 패널을 포함하는 AI TV(802)의 예를 제공한다. AI TV(802)는 디지털 콘텐츠를 처리하고, 디지털 콘텐츠에 대한 보충 정보로서 디지털 콘텐츠와 관련된 클라우드/인터넷/시스템/데이터베이스/사람에서 획득한 관련 데이터/정보를 포함하는 보충 정보를 제공하는 AI TV 에지 SoC를 포함한다. 도 8b는 TV(806)에 연결되도록 구성된 외부 장치인 AI 셋톱 박스(804)의 예를 제공한다. AI 셋톱 박스(804)는 HDMI 연결을 통해 TV(806)에 연결될 수 있지만, AI 셋톱박스(804)와 TV(806)를 연결하는데 다른 연결이 활용될 수도 있다. AI 셋톱박스(804)는 셋톱박스(STB) SoC와 AI 셋톱박스 SoC를 포함한다. AI 셋톱 박스(804)는 디지털 콘텐츠를 수신하고 디지털 콘텐츠를 처리하며 디지털 콘텐츠에 대한 보충 정보로서 클라우드/인터넷/시스템/데이터베이스/사람으로부터 얻은 디지털 콘텐츠와 연관된 관련 데이터/정보를 포함하는 보충 정보를 출력으로서 제공한다. 디지털 콘텐츠와 함께 보충 정보는 HDMI 연결을 통해 TV(806)에 제공될 수 있다. 도 8c는 TV(810)에 연결되도록 구성된 외부 장치인 스트리밍 시스템 장치(808)의 예를 제공한다. 스트리밍 시스템 장치(808)는 HDMI 연결을 통해 TV(810)에 연결될 수 있지만, 스트리밍 시스템 장치(808)와 TV(810)를 연결하기 위해 다른 연결이 활용될 수도 있다. 스트리밍 시스템 장치(808)는 스트리밍 SoC 및 AI 스트리밍 SoC를 포함한다. 스트리밍 시스템 장치(808)는 디지털 콘텐츠를 수신하고 디지털 콘텐츠를 처리하며 디지털 콘텐츠에 대한 보충 정보로서 클라우드/인터넷/시스템/데이터베이스/사람으로부터 얻은 디지털 콘텐츠와 연관된 관련 데이터를 포함하는 보충 정보를 출력으로 제공한다. 디지털 콘텐츠와 함께 보충 정보는 HDMI 연결을 통해 TV(810)에 제공될 수 있다. 도 8d는 독립형 장치인 AI 에지 장치(814)의 예를 제공한다. AI 에지 장치(814)는 HDMI 연결을 통해 셋톱 박스(812)로부터 디지털 콘텐츠를 수신하고 디지털 콘텐츠를 처리하며 클라우드/인터넷/시스템/데이터베이스/사람에서 얻은 디지털 콘텐츠와 연관된 관련 데이터를 포함하는 보충 정보를 디지털 콘텐츠에 제공한다. AI 에지 장치(814)는 디지털 콘텐츠와 함께 보충 정보를 HDMI 연결을 통해 TV(816)에 제공한다.
본 명세서에 설명된 바와 같이, 도 8a 내지 도 8d에 도시된 바와 같은 에지 시스템에 도 3a 및 도 3b에 도시된 에지 SoC이 통합될 수 있으며, 이것은 하나 이상의 훈련된 인공 지능/신경망(AI/NN) 모델을 저장하도록 구성된 메모리(318); 그리고 시스템온칩(SoC)(302)을 포함할 수 있으며, 시스템온칩(302)은: (예를 들어, IPU(304)를 통해) 방송 또는 스트리밍 디지털 콘텐츠를 수신하고; (예를 들어 APU(306)를 통해) 하나 이상의 훈련된 AI/NN 모델을 사용하여 방송 또는 스트리밍 디지털 콘텐츠를 처리하고; (예를 들어 OPU(312)를 통해) 하나 이상의 훈련된 AI/NN 모델을 사용한 방송 또는 스트리밍 디지털 콘텐츠의 처리를 기반으로 다른 장치(예: 콘텐츠 서버, 클라우드 서버, 인터넷 서버/데이터베이스 등)에서 획득한(retrieve) 보충 콘텐츠를 방송 또는 스트리밍 디지털 콘텐츠에 추가하고; (예를 들어 322에 도시된 바와 같이) 출력으로서 다른 장치에서 획득한 보충 콘텐츠와 함께 방송 또는 스트리밍 디지털 콘텐츠를 제공하도록 구성된다. 예시적인 구현에서, 방송 또는 스트리밍 디지털 콘텐츠는 텔레비전 오디오/비디오 콘텐츠, 스트리밍 서버 또는 애플리케이션으로부터의 스트리밍 오디오/비디오 콘텐츠, 인터넷 오디오/비디오, 로컬 방송 콘텐츠(예를 들어, 카메라와 같은 다른 장치로부터)를 포함할 수 있고, 원하는 구현에 따라 다양하다.
원하는 구현에 따라, 다른 장치에서 획득한 보충 콘텐츠는 도 21a에 도시된 바와 같이 인터넷 연결에서 획득한 하나 이상의 소셜 미디어 게시물을 포함할 수 있다.
원하는 구현에 따라, SoC(302)는 도 9에 도시된 바와 같은 SoC의 하나 이상의 쉬프터 회로(shifter circuit)에 의해 실행되는 논리적 시프트 연산의 사용을 통해 하나 이상의 훈련된 AI/NN 모델로 방송 또는 스트리밍 디지털 콘텐츠를 처리하도록 구성될 수 있다.
원하는 구현에 따라, 하나 이상의 훈련된 AI/NN 모델을 사용한 방송 또는 스트리밍 디지털 콘텐츠의 처리에 대응하는 가산 연산은 도 9를 참조하여 설명되는 바와 같이 SoC의 하나 이상의 쉬프터 회로(shifter circuit) 또는 하나 이상의 가산 회로(adder circuit)에 의해 실행될 수 있다.
원하는 구현에 따라, SoC는 도 9를 참조하여 설명되는 바와 같이 하나 이상의 하드웨어 프로세서 또는 FPGA(Field Programmable Gate Array)에 의해 실행되는 논리적 시프트 연산을 통해 하나 이상의 훈련된 AI/NN 모델로 방송 또는 스트리밍 디지털 콘텐츠를 처리하도록 구성된다.
원하는 구현에 따라, 에지 시스템은 텔레비전 장치일 수 있으며, 이 경우 방송되거나 스트리밍 되는 디지털 콘텐츠는 도 8a에 도시된 바와 같은 텔레비전 오디오/비디오 데이터이다. 이러한 예시적인 구현에서, SoC는 LCD/OLED 패널과 같은 텔레비전 장치의 디스플레이에 출력을 제공하도록 구성될 수 있다.
원하는 구현에 따라, 에지 시스템은 셋톱박스일 수 있으며, 이 경우 방송되거나 스트리밍 되는 디지털 콘텐츠는 도 8b에 도시된 바와 같은 텔레비전 오디오/비디오 데이터이다. 이러한 예시적인 구현에서, SoC는 셋톱 박스에 연결된 텔레비전 장치에 출력을 제공하도록 구성된다.
원하는 구현에 따라 에지 시스템은 스트리밍 장치이며 이때 방송되거나 스트리밍 되는 디지털 콘텐츠는 도 8c에 도시된 바와 같은 텔레비전 오디오/비디오 데이터이다. 이러한 예시적인 구현에서, SoC는 스트리밍 장치에 연결된 텔레비전 장치에 출력을 제공하도록 구성된다.
원하는 구현에 따라, 에지 시스템은 방송 또는 스트리밍 디지털 콘텐츠를 제공하도록 구성된 제1 장치(예를 들어, 셋톱 박스, 콘텐츠 서버 등과 같은)에 연결될 수 있으며; 이때 SoC는 에지 시스템에 연결된 제2 장치(예를 들어, 텔레비전 장치, 컴퓨터 장치 등)에 출력을 제공하도록 구성된다.
원하는 구현에 따라, 에지 시스템은 보충 콘텐츠로서 데이터를 콘텐츠 서버에서 획득하도록 구성된 인터페이스를 포함할 수 있으며, 이 경우 메모리는 콘텐츠 서버로부터의 획득을 위해 보충 콘텐츠에 대해 하나 이상의 훈련된 AI/NN 모델의 모델 출력을 매핑하는 메타데이터를 저장하도록 구성된다: SoC는 메모리로부터 메타데이터를 판독하고 하나 이상의 훈련된 AI/NN 모델의 모델 출력에 기초한 인터페이스를 통해 콘텐츠 서버에서 대응하는 보충 콘텐츠를 획득하도록 구성된다. 예시적인 구현에서 훈련된 AI/NN 모델의 출력은 원하는 구현에 따라 획득될 특정 콘텐츠에 매핑되는 특정 레이블과 연관될 수 있다. 예를 들어, 객체 분류 모델의 경우, 분류된 객체는 획득될 원하는 콘텐츠에 매핑될 수 있다(예를 들어 농구의 분류는 도 23에 도시된 것처럼 파이어볼(fireball)의 이미지를 획득할 수 있다). 사용되는 모델에 따라 다른 매핑도 가능하며, 본 발명은 이에 특별히 한정되지 않는다. 예를 들어, 메타데이터는 하나 이상의 훈련된 AI/NN 모델의 모델 출력을 구매 가능한 객체와 관련된 보충 콘텐츠에 매핑할 수 있으며, 이때 SoC는 메모리로부터 메타데이터를 읽고, 인터페이스를 통해 콘텐츠 서버로부터 구매 가능한 객체들 중 해당 객체를 획득하도록 구성되며, 구매 가능한 객체들 중 해당 객체는 도 22a에 도시된 바와 같이 하나 이상의 훈련된 모델 출력에 기초하여 제공된다.
원하는 구현에 따라, 하나 이상의 훈련된 AI/NN 모델은 방송 또는 스트리밍 디지털 콘텐츠에 대해 얼굴 인식을 수행하도록 구성된 얼굴 인식 모델을 포함할 수 있다; 이 경우 SoC는 얼굴 인식으로부터 식별된 얼굴에 기초하여 보충 콘텐츠를 추가하도록 구성된다.
도 9과 관련하여 설명된 바와 같이, 에지 시스템은 서버(예를 들어, 클라우드 서버, 콘텐츠 서버, 또는 훈련하여 대응하는 매개변수를 제공하도록 구성된 임의의 서버 또는 장치)로부터 하나 이상의 AI/NN 모델에 대응하는 하나 이상의 로그 양자화된 매개변수를 획득하고 하나 이상의 로그 양자화된 파라미터를 메모리에 저장하도록 구성된 인터페이스를 포함할 수 있다; 이 경우 SoC는 하나 이상의 로그 양자화된 매개변수를 사용하여 하나 이상의 훈련된 AI/NN 모델로 방송 또는 스트리밍 디지털 콘텐츠를 처리하도록 구성된다.
도 3a 및 도 3b에 기초하여 도 8a 내지 도 8d에 도시된 바와 같은 예시적인 구현에서, 텔레비전 구현 방법이 제공될 수 있으며 상기 방법은: 텔레비전 방송을 수신하는 단계; 텔레비전 방송과 관련하여 훈련된 신경망의 하나 이상의 신경망 연산을 통해 하나 이상의 훈련된 신경망 모델을 실행하는 단계; 이미지 데이터로부터 하나 이상의 분류된 객체에 기초하여 텔레비전 데이터에 하나 이상의 오버레이를 추가하는 단계; 그리고, 텔레비전의 디스플레이상에 추가된 오버레이와 함께 텔레비전 데이터를 표시하는 단계를 포함한다. 원하는 구현에 따라, 이러한 텔레비전 구현 방법은 이미지 데이터로부터 하나 이상의 분류된 객체에 기초하여 하나 이상의 오버레이로서 콘텐츠 서버로부터 데이터를 획득하는 단계 및/또는 외부 장치로부터 하나 이상의 로그 양자화된 매개변수를 획득하고 하나 이상의 로그 양자화된 매개변수를 메모리에 저장하는단계를 더 포함할 수 있다.
원하는 구현에 따라, 에지 시스템은 메모리와 시스템온칩을 포함할 수 있으며, 상기 메모리는 하나 이상의 로그 양자화된 매개변수 값에 의해 표현되는 훈련된 신경망의 형태로 객체 검출/분류 모델을 저장하도록 구성되고, 상기 객체 검출/분류 모델은 상기 훈련된 신경망의 로그 양자화된 매개변수 값들에 따라 하나 이상의 신경망 연산을 통해 이미지 데이터 상의 하나 이상의 객체를 검출/분류하도록 구성되며, 상기 시스템온칩은: 상기 이미지 데이터를 수신하고(intake); 상기 메모리로부터 독출한 상기 하나 이상의 로그 양자화된 매개변수에 기초하여 상기 이미지 데이터에 대한 논리적 시프트 연산에 의해 실행이 되는 하나 이상의 신경망 연산을 통해 상기 이미지 데이터로부터 하나 이상의 객체를 분류하기 위해 객체 검출 모델을 실행하고; 상기 이미지 데이터로부터 상기 분류된 하나 이상의 객체에 기초하여 상기 이미지 데이터에 하나 이상의 오버레이를 추가하고; 상기 추가된 오버레이와 함께 상기 이미지 데이터를 출력으로서 제공하도록 구성된다.
원하는 구현에 따라, 에지 시스템을 위한 방법이 제공될 수 있으며 상기 방법은: 수신된 이미지 데이터에 대해 훈련된 신경망의 로그 양자화된 매개변수 값들에 따라 하나 이상의 신경망 연산을 통해 수행하며 이미지 데이터 상의 하나 이상의 객체를 분류/검출하도록 구성된 객체 검출/분류 모델을 실행하는 단계, 상기 실행은 상기 로그 양자화된 매개변수 값들에 기초하여 상기 이미지 데이터에 대한 논리적 시프트 연산을 포함함; 상기 분류된 하나 이상의 객체에 기초하여 상기 이미지 데이터에 하나 이상의 오버레이를 추가하는 단계; 그리고, 상기 추가된 하나 이상의 오버레이와 함께 상기 이미지 데이터를 출력으로서 제공하는 단계를 포함한다.
도 9는 예시적인 구현에 따른, 다양한 신경망 연산을 실행함으로써 디지털 콘텐츠를 처리하기 위한 AI 처리 소자(AIPE)의 예를 도시한다. 도 9의 AIPE는 컨볼루션(convolution), 배치 정규화(batch normalization), 파라메트릭 ReLU, 순환 신경망 및 완전 연결 신경망 연산과 같은 다양한 신경망 연산을 실행함으로써 디지털 콘텐츠를 처리하기 위해 산술 시프트 아키텍처를 포함할 수 있다. 그러나, 본 개시는 본 명세서에 개시된 산술 시프트 아키텍처로 제한되도록 의도되지 않는다. 일부 양태에서, AIPE는 디지털 콘텐츠를 처리하기 위해 가산기 또는 추가적인 시프터를 포함할 수 있다. 도 9의 AIPE는 산술 시프터(902) 및 가산기(904)를 활용하여 신경망 연산 예를 들어 컨볼루션, 조밀 레이어(dense layer), 파라메트릭 ReLU, 최대 풀링(max pooling), 덧셈 및/또는 곱셈 등을 처리하지만 이에 국한되지는 않는다. 산술 시프터(902)는 로그 양자화된 매개변수로부터 도출된 데이터(906) 및 시프트 명령(908)을 입력으로서 수신한다. 데이터(906)는 2의 보수에 기초한 32비트 데이터를 포함할 수 있는 반면, 로그 양자화된 파라미터로부터 도출된 시프트 명령(908)은 7비트 데이터를 포함할 수 있다. 예를 들어, 산술 시프터(902)는 32비트 산술 시프터를 포함할 수 있다. 산술 시프터(902)는 로그 양자화된 파라미터로부터 도출된 시프트 명령(908)에 기초하여 데이터(906)를 시프트한다. 산술 시프터(902)의 출력은 2의 보수 아키텍처를 통과하고 바이어스(910)와 함께 가산된다. 일부 양태에서, 바이어스(910)는 32비트 바이어스를 포함할 수 있다. 가산기(904)는 산술 시프터(902)의 출력을 입력으로 수신한다. 산술 시프터(902)의 출력과 부호 비트(912) 사이의 XOR 연산의 출력은 가산기(904)에 제공된다. 가산기(904)는 바이어스(910), 산술 쉬프터(902)의 출력과 캐리인 입력으로서의 부호 비트(912) 사이의 XOR 연산의 출력을 합산한다. 가산기(904)의 출력은 플립플롭(914)에 입력된다. 플립플롭(914)의 데이터는 도 9의 AIPE에 피드백된다. 예를 들어, 플립플롭(914)의 출력은 멀티플렉서(M1)에 공급되고 데이터(906)와 데이터 다중화된다. 플립플롭(914)의 출력은 또한 바이어스 멀티플렉서(M3)에 공급되고 바이어스(910)와 멀티플렉싱된다. 플립플롭(914)의 출력은 또한 출력 멀티플렉서(M4)로 공급되고 가산기(904)의 출력과 멀티플렉싱된다. 플립플롭(914)의 출력은 2의 보수 형태일 수 있다. 플립플롭(914) 데이터의 부호 비트도 AIPE로 피드백되어 파라미터 멀티플렉서(M2)를 제어한다. 예를 들어, 플립플롭(914) 데이터의 부호 비트는 S2 신호와 함께 OR 연산자에 입력되며, 여기서 OR 연산의 결과는 시프트 명령(908)과 상수 0 신호를 멀티플렉싱하는 멀티플렉서(M2)에 입력된다.
도 8의 예는 디지털 콘텐츠를 처리하기 위해 산술 시프트 아키텍처를 활용하는 AIPE를 개시한다. 그러나, 본 개시는 여기에 개시된 양태로 제한되도록 의도되지 않는다. AIPE는 예를 들어 2022년 4월 29일 출원된 PCT 출원 번호 PCT/US22/27035 명칭 "IMPLEMENTATIONS AND METHODS FOR PROCESSING NEURAL NETWORK IN SEMICONDUCTOR HARDWARE"에 개시된 바와 같이, 디지털 콘텐츠를 처리하기 위해 다양한 신경망 연산을 활용하는 논리적 시프트(예를 들어, 산술 시프트, 이진 시프트 등을 통해)를 포함하는 다양한 아키텍처를 포함할 수 있으며, 상기 PCT 출원의 전체 내용은 그 인용에 의해 여기에 명시적으로 포함된다. 그러한 예시적인 구현에서, 가산기 회로는 또한 원하는 구현을 용이하게 하기 위해 시프터 회로로 대체될 수 있다.
도 10은 예시적인 구현에 따른 AIPE 어레이의 예를 예시한다. 도 10의 예에서, AIPE 어레이는 본 명세서에 개시된 바와 같이 디지털 콘텐츠를 처리하기 위한 다양한 신경망 연산을 수행하기 위해 데이터 및 매개변수(커널)가 입력되는 복수의 AIPE를 포함한다. AIPE 아키텍처는 시프터 및 논리 게이트를 포함할 수 있지만 다른 소자를 활용하도록 구성될 수 있으며 본 개시 내용이 여기에 개시된 예를 제한하려는 의도는 아니다. 본 명세서에 개시된 예는 매개변수로부터 도출된 7비트 시프트 명령과 함께 32비트 데이터를 포함하며, 이때 상기 데이터는 1비트에서 N비트로 될 수 있고 상기 시프트 명령은 1비트에서 M비트 매개변수로 될 수 있으며, N과 M은 임의의 양의 정수이다. 몇 가지 예로는 32비트 시프터가 있다. 그러나 시프터의 수는 2개 이상이 될 수 있으며 하나의 시프터에서 o 개의 시프터까지 다양할 수 있으며, 여기서 o는 양의 정수이다. 어떤 경우에는 아키텍처가 128비트 데이터, 로그 양자화된 매개변수 8비트에서 도출된 시프트 명령, 차례로 연결된 7개의 시프터를 포함한다. 또한 여기에 표시된 논리 게이트는 특정 아키텍처에 따라 변경될 수 있는 일반적인 논리 게이트 세트이다.
일부 예에서, AIPE 아키텍처는 시프터, 덧셈기, 및/또는 논리 게이트를 활용할 수 있다. 본 명세서에 개시된 예는 로그 양자화된 파라미터로부터 도출된 7비트 시프트 명령어와 함께 32비트 데이터를 포함하고, 데이터는 1비트에서 N비트로 될 수 있고 시프트 명령어는 1비트에서 M비트 데이터일 수 있으며, N과 M은 임의의 양의 정수이다. 일부 예에는 32비트 시프터 1개와 32비트 2입력 가산기 1개를 포함할 수 있다. 그러나 시프터와 가산기의 수는 2개 이상일 수 있으며 시프터 1개에서 o 개까지, 가산기 1개에서 P개까지 다양할 수 있고 여기서 o와 P는 양의 정수이다. 경우에 따라 아키텍처는 데이터 128비트, 시프트 명령 8비트, 직렬로 연결된 2개의 시프터, 직렬로 연결된 2개의 가산기를 포함한다.
본 명세서에 개시된 AIPE 아키텍처는 시프트 연산이 곱셈 및 가산/누산 연산을 대체하는 시프터 및 논리 게이트로 구현될 수 있다. 본 명세서에 개시된 AIPE 아키텍처는 또한 시프트 연산이 곱셈 및 가산/누산 연산을 대체하는 시프터, 가산기, 논리 게이트로 구현될 수도 있다. 그러나 일부 양태에서 AIPE 아키텍처는 곱셈기, 가산기 및/또는 시프터로 구성될 수 있다.
도 11a 및 도 11b는 예시적인 구현에 따른, 처리된 디지털 콘텐츠를 사용하는 AI 디지털 콘텐츠 애플리케이션을 위한 소프트웨어 스택의 예를 도시한다. 구체적으로, 도 11b는 도 11a의 예에서 사용된 처리된 디지털 콘텐츠를 사용하는 AI 디지털 콘텐츠 애플리케이션을 위한 소프트웨어 스택의 흐름을 도시한다. 1102에서, 흐름은 다양한 알고리즘에 의해 사용될 디지털 콘텐츠를 사전 처리 한다(다운샘플, 업샘플, 크롭(crop) 등). 1104에서, 흐름은 AI/신경망 모델과 다양한 알고리즘 예를 들어 객체 검출, 분류, 인식, 음성 인식, 자연어 처리를 포함하지만 이에 국한되지 않는 다양한 알고리즘을 사용하여 디지털 콘텐츠를 처리한다. 1106에서, 흐름은 처리된 디지털 데이터와 디지털 데이터 처리로부터 얻은 정보를 운영 체제(OS)에 제공한다. 1108에서 AI 디지털 콘텐츠 API는 운영 체제를 통해 처리된 디지털 데이터에 액세스할 수 있다. 1110에서 AIDC 애플리케이션은 AIDC API를 통해 처리된 디지털 데이터에 액세스하고 유용한 서비스와 기능을 제공하도록 애플리케이션의 시청자/사용자와 상호 작용한다.
도 12a-12h는 예시적인 구현에 따라, 처리된 디지털 콘텐츠를 활용할 수 있는 애플리케이션의 예를 도시한다. 도 12a에서 AI/신경망 모델 및 다른 알고리즘은 스포츠 게임 디지털 콘텐츠를 처리하여 스포츠 이벤트와 관련된 선수, 팀, 객체 또는 텍스트 중 적어도 하나 이상을 식별하고, 실시간 통계, 과거 통계, 팀 통계, 전문가 의견 등과 같은 클라우드/인터넷/시스템/데이터베이스/사람에서 발견된 임의의 관련 정보를 보충한다. 처리된 디지털 콘텐츠와 발견된 보충 정보를 기반으로 판타지 스포츠 애플리케이션을 개발할 수 있다. 도 12b에 도시된 바와 같이, AI/신경망 모델 및 다른 알고리즘은 배우와 같은 개인을 식별하기 위해 디지털 콘텐츠를 처리한다. 딥페이크 애플리케이션은 누구든지 처리된 디지털 콘텐츠 내에서 식별된 개인을 다른 사람과 교환할 수 있도록 처리된 디지털 콘텐츠를 활용할 수 있다. 도 12c에서, AI/신경망 모델 및 다른 알고리즘은 디지털 콘텐츠를 처리하여 사람, 객체, 장면 및 텍스트를 식별하고 디지털 콘텐츠에 대해 클라우드/인터넷/시스템/데이터베이스/사람에서 발견된 임의의 관련 정보를 보충한다. 소셜 애플리케이션은 예를 들어 어떤 조치를 취할지를 투표하거나 처리된 콘텐츠에 특정 유형의 이미지 오버레이를 배치할지 결정하는 것 같이, 친구나 모든 개인 그룹이 처리된 디지털 콘텐츠를 통해 서로 연결하고 인터페이스 할 수 있도록 처리된 디지털 콘텐츠를 활용할 수 있다. 도 2d에서, AI/신경망 모델 및 다른 알고리즘은 디지털 콘텐츠를 처리하여 디지털 콘텐츠에 등장하는 한 명 이상의 사람을 식별한다. 게임 애플리케이션은 처리된 콘텐츠를 활용하여 처리된 콘텐츠와 관련된 게임 또는 대화형 엔터테인먼트 애플리케이션을 생성할 수 있다. 예를 들어, 게임 애플리케이션은 시청자가 콘텐츠에 등장하는 사람들의 이름을 지정할 수 있도록 하는 프롬프트를 제공할 수 있다. 도 12e에서, AI/신경망 모델 및 다른 알고리즘은 디지털 콘텐츠를 처리하여 사람, 이벤트 및 텍스트를 식별한다. 뉴스 애플리케이션은 처리된 디지털 콘텐츠를 활용하여, 식별된 사람, 사건, 텍스트와 관련된 뉴스 기사나 스토리를 얻고 기사나 스토리를 처리된 콘텐츠에 연결할 수 있다. 도 12f에서, AI/신경망 모델 및 다른 알고리즘은 디지털 콘텐츠를 처리하여 사람, 객체 및 텍스트를 식별한다. 시각적 오버레이 애플리케이션은 시청자가 처리된 디지털 콘텐츠와 상호작용할 수 있도록 처리된 디지털 콘텐츠를 활용할 수 있다. 예를 들어, 시각적 오버레이 애플리케이션을 사용하면 사용자가 처리된 콘텐츠에 시각적 오버레이를 배치할 수 있다. 도 12g에서, AI/신경망 모델 및 다른 알고리즘은 디지털 콘텐츠를 처리하여 디지털 콘텐츠의 모든 문자를 식별한다. 챗봇 애플리케이션은 시청자가 디지털 콘텐츠에서 식별된 캐릭터와 대화할 수 있도록 처리된 디지털 콘텐츠를 활용할 수 있다. 도 12h에서, AI/신경망 모델 및 다른 알고리즘은 디지털 콘텐츠를 처리하여 전자상거래 플랫폼과 관련된 모든 객체를 식별한다. 전자상거래 애플리케이션은 처리된 디지털 콘텐츠를 활용하여 적절한 전자상거래 플랫폼을 처리된 디지털 콘텐츠의 뷰에 연결할 수 있다. 예를 들어, 디지털 콘텐츠는 스포츠 이벤트(예: 농구 게임)를 포함할 수 있고 전자상거래 애플리케이션은 사용자가 식별된 팀의 스포츠 의류를 구매하거나 다가오는 스포츠 이벤트 티켓을 구매하도록 허용할 수 있다.
도 13은 예시적인 구현에 따른 검출 알고리즘으로 처리된 디지털 콘텐츠의 예를 도시한다. 검출 알고리즘은 디지털 콘텐츠 내의 객체와 사람을 검출할 수 있다. 예를 들어, 검출 알고리즘은 농구 선수, 신체 부위(예: 손, 얼굴, 다리, 발, 몸통 등), 농구공, 백보드 및 농구 골대를 검출할 수 있다. 검출 알고리즘은 또한 디지털 콘텐츠에 포함된 선수/팀의 득점 또는 광고와 같은 디지털 콘텐츠 내의 텍스트를 검출할 수도 있다. 얼굴 인식 또는 셔츠(jersey) 번호 인식 알고리즘과 같은 사람 인식 알고리즘은 예를 들어 도 14에 도시된 바와 같이 선수를 식별하기 위한 노력의 일환으로 사람 검출 시 검출된 사람을 추가로 처리할 수 있다. 도 14에 도시된 바와 같이, 인식 알고리즘은 하나 이상의 선수를 식별하고 처리 중인 디지털 콘텐츠 내에서 선수의 이름을 제공할 수 있다.
도 15는 예시적인 구현에 따른 자세 추정 알고리즘으로 처리된 디지털 콘텐츠의 예를 도시한다. 도 15의 예에서, 자세 추정 알고리즘은 디지털 콘텐츠 내 사람의 자세를 검출할 수 있다. 자세 추정 알고리즘을 통해 처리된 디지털 콘텐츠에 대한 유용한 정보(선수가 서 있거나 앉아 있는지, 선수가 걷고 있는지, 선수가 공을 패스하고 있는지, 선수가 공을 지켜보고 있는지 등)를 얻을 수 있다. 예를 들어, 농구 경기와 같은 실시간 스포츠 이벤트에서 예를 들어 농구 게임에서 검출 알고리즘, 인식 알고리즘 및/또는 자세 추정 알고리즘으로 처리하여 수집한 유용한 정보는 콘텐츠에 대한 추가 분석 예를 들어 도 16에 도시된 바와 같이 선수가 공격(공격자) 상태에 있는지 선수가 수비(수비자) 상태에 있는지를 분석하는데 사용될 수 있다.
도 17은 예시적인 구현에 따른, 텍스트 검출 알고리즘 및 자연어 처리 알고리즘으로 처리된 디지털 콘텐츠의 예를 도시한다. 도 17의 예에서, 텍스트 검출 알고리즘은 디지털 콘텐츠 내의 텍스트를 검출할 수 있다. 예를 들어, 검출 알고리즘은 디지털 콘텐츠 내의 하나 이상의 광고(예를 들어 자동차 제조업체 등)에서 텍스트를 검출할 수 있다. 다른 예에서, 검출 알고리즘은 실시간 이벤트의 점수 또는 남은 시간과 관련된 정보 등과 같이, 디지털 콘텐츠와 관련된 텍스트를 검출할 수 있다. 텍스트 검출 알고리즘을 이용하여 다양한 텍스트를 검출한 후, 자연어 처리 알고리즘을 이용하여 검출된 텍스트에 대한 더욱 통찰력 있는 정보 예를 들어 자동차 제조사 정보, 농구 경기 정보(예: 점수, 현재 쿼터, 남은 시간 등)를 얻을 수 있다.
도 18a 및 도 18b는 예시적인 구현에 따라 클라우드/인터넷/시스템/데이터베이스/사람으로부터의 관련 정보로 보충된 처리된 디지털 콘텐츠의 예를 도시한다. 구체적으로, 18b는 도 18a의 예에서 사용된 관련 정보가 보충된 처리된 디지털 콘텐츠의 흐름을 도시한다. 1810에서, 흐름은 하나 이상의 알고리즘을 사용하여 디지털 콘텐츠를 처리한다. 디지털 콘텐츠(예: 농구 관련 콘텐츠)는 객체 검출, 텍스트 검출, 얼굴 인식, 자세 추정 등과 같은 하나 이상의 알고리즘으로 처리될 수 있지만 이에 국한되지는 않는다. 객체 검출 알고리즘은 디지털 콘텐츠에서 선수, 농구공, 농구 골대, 백보드를 검출할 수 있다. 텍스트 검출 알고리즘은 디지털 콘텐츠에서 텍스트(예: 유니폼의 텍스트 또는 숫자)를 검출할 수 있다. 얼굴 인식 알고리즘은 디지털 콘텐츠에서 선수나 사람을 식별할 수 있다. 자세 추정 알고리즘은 디지털 콘텐츠에서 선수의 자세를 검출할 수 있다. 1812에서 흐름은 공격 또는 수비 중인 한 명 이상의 선수를 식별한다. 예를 들어, 하나 이상의 알고리즘은 어떤 선수(들)가 농구공을 가지고 있는지에 기초하여 공격 또는 수비 중인 선수를 식별할 수 있다. 1814에서 흐름은 농구 골대로부터 한 명 이상의 선수의 거리를 계산한다. 하나 이상의 알고리즘은 농구 골대와 각 선수 간의 거리를 계산할 수 있다. 1816에서, 흐름은 한 명 이상의 선수에 대한 보충 정보를 획득한다. 예를 들어, 한 명 이상의 선수에 대한 보충 정보는 한 명 이상의 선수가 농구 골대로부터 떨어져 있는 거리에 기초할 수 있다. 각 선수에 대한 보충 정보는 농구 골대로부터의 거리에 따른 필드 골 비율, 또는 농구 골대로부터 선수의 거리에 관한 다른 통계 정보를 포함할 수 있다. 각 선수에 대한 보충 정보는 클라우드/인터넷/시스템/데이터베이스/사람으로부터 얻을 수 있다. 1818에서, 흐름은 디지털 콘텐츠와 함께 디스플레이되는 보충 정보를 맞춤화한다. 예를 들어, 시청자는 디지털 콘텐츠와 관련하여 디스플레이 장치에 표시되는 보충 정보를 맞춤화할 수 있다. 클라우드/인터넷/시스템/데이터베이스/사람으로부터의 보충 정보가 포함된 주석이 달린 디지털 콘텐츠(annotated digital content)(1802)는 디지털 콘텐츠에서 검출된 선수에 대해 클라우드(1804)에서 획득한 통계 정보와 같은 정보를 포함할 수 있다. 시청자는 선호도에 따라 클라우드(1804)에서 발견된 보충 정보를 자신의 장치에 표시하는 옵션을 가질 수 있다. AI 에지 장치는 객체 검출 알고리즘, 인식 알고리즘, 텍스트 검출 알고리즘, 자연어 처리 알고리즘을 포함하되 이에 국한되지 않는 다양한 알고리즘으로 디지털 콘텐츠를 처리한 후, 클라우드/인터넷/시스템/데이터베이스/사람으로부터의 관련 정보로 디지털 콘텐츠를 보충하고, 시청자는 자신의 장치에 표시할 보충 정보의 종류, 보충 정보를 표시할 위치, 보충 정보를 표시할 시기를 결정할 수 있다.
도 19는 예시적인 구현에 따른, 클라우드/인터넷/시스템/데이터베이스/사람으로부터의 관련 정보로 보충된 처리된 디지털 콘텐츠의 예를 도시한다. 도 19의 예에서, 클라우드/인터넷/시스템/데이터베이스/사람으로부터 찾은 관련 보충 정보는 디지털 콘텐츠에 오버레이되어 시청될 수 있다. 도 19의 디지털 콘텐츠는 선수, 농구 골대, 농구공을 검출하기 위해 검출 알고리즘으로 처리될 수 있다. 선수와 농구 골대를 검출한 후에, 하나 이상의 알고리즘이 사용되어 각 선수를 처리하여 농구 골대로부터 각 선수의 거리를 얻을 수 있다. 선수와 농구 골대까지의 거리가 확보되면 해당 거리에서 선수의 필드 골 비율(FGP)과 같은 관련 정보를 클라우드/인터넷/시스템/데이터베이스/사람에서 검색하여 얻을 수 있다. 선수의 거리별 필드 골 비율은 디지털 콘텐츠에 보충되어 시청자가 선택한 임의의 시간에 해당 정보가 표시된다.
도 20a 및 20b는 예시적인 구현에 따라 클라우드/인터넷/시스템/데이터베이스/사람으로부터의 관련 정보가 보충된 처리된 디지털 콘텐츠의 예를 도시한다. 구체적으로, 도 20b는 도 20a의 예에서 사용된 관련 정보가 보충된 처리된 디지털 콘텐츠의 흐름을 도시한다. 2002에서 흐름은 하나 이상의 알고리즘을 사용하여 디지털 콘텐츠를 처리한다. 예를 들어, 디지털 콘텐츠(예: 뉴스 콘텐츠)는 텍스트를 검출하는 텍스트 검출 알고리즘과 같은 다양한 알고리즘으로 처리될 수 있다. 검출된 텍스트는 자연어 처리 알고리즘을 통해 처리될 수 있다. 도 20a에서 도시된 바와 같이, 뉴스 콘텐츠와 같은 디지털 콘텐츠는 텍스트 검출 및 자연어 처리 알고리즘으로 처리되어 다양한 후보자에 대한 선거의 여론 조사 결과로서 콘텐츠를 식별한다. 2004에서, 흐름은 처리된 디지털 콘텐츠의 보충 정보를 얻는다. 앞서 언급한 정보를 얻기 위해 디지털 콘텐츠가 처리되면, 클라우드/인터넷/시스템/데이터베이스/사람에서 다른 여론 조사원이 수행한 기타 여론 조사 정보와 같은 관련 보충 정보를 검색하고 찾을 수 있다. 2006에서, 흐름은 획득한 보충 정보로 처리된 디지털 콘텐츠를 보충한다. 2008에서는 흐름은 어떤 보충 정보를 디스플레이할지에 대해 사용자 맞춤화를 한다. 예를 들어, 사용자는 원하는 경우 디스플레이 장치에 보충 정보를 디스플레이 하도록 결정할 수 있다.
도 21a 및 21b는 예시적인 구현에 따른, 소셜 미디어 플랫폼으로부터의 관련 정보로 보충된 처리된 디지털 콘텐츠의 예를 도시한다. 구체적으로, 도 21b는 도 21a의 예에서 사용된 관련 정보가 보충된 처리된 디지털 콘텐츠의 흐름을 도시한다. 2102에서 흐름은 하나 이상의 알고리즘으로 디지털 콘텐츠를 처리한다. 하나 이상의 알고리즘은 하나 이상의 야구 선수를 검출하는 객체 검출 알고리즘과 같은 다양한 알고리즘을 사용하여 디지털 콘텐츠(예: 야구 콘텐츠)를 처리할 수 있다. 얼굴 인식 알고리즘은 선수의 얼굴을 기반으로 선수를 검출할 수 있다. 텍스트 인식 알고리즘은 야구 선수를 식별하기 위해 선수의 셔츠 번호를 검출할 수 있다. 도 21a의 예에서, 디지털 콘텐츠는 야구 경기에서 투수, 타자, 포수, 심판을 검출하기 위해 다양한 알고리즘으로 처리된다. 얼굴 인식 알고리즘 및/또는 셔츠 번호 인식 알고리즘을 사용하여 디지털 콘텐츠의 모든 플레이어(player)를 식별할 수 있다. 2104에서, 흐름은 처리된 디지털 콘텐츠의 관련 보충 정보를 획득한다. 예를 들어, 클라우드/인터넷/시스템/데이터베이스/사람(이 경우 인터넷의 소셜 미디어 플랫폼 및/또는 인터넷이나 클라우드에 연결된 사람)에서 관련 정보를 찾아 처리되는 디지털 콘텐츠를 보충할 수 있다. 2106에서 흐름은 시청자를 소셜 미디어 플랫폼에 연결하고 서로를 연결한다. 도 21a에서 소셜 미디어를 통한 게시글이나 경기를 관람하는 사람들의 실시간 댓글 등이 디지털 콘텐츠에 보충될 수 있다. 2108에서 흐름은 디스플레이할 보충 정보를 맞춤화한다. 예를 들어 시청자는 디지털 콘텐츠에 보충 정보를 오버레이 하는 것을 결정할 수 있다. 이러한 오버레이는, 보충 정보가 사람들과의 사회적 상호 작용이나 소셜 미디어 플랫폼에서 나오므로, 소셜 오버레이라고 한다.
도 22a 및 22b는 예시적인 구현에 따라, 클라우드/인터넷/시스템/데이터베이스/사람으로부터의 관련 정보로 보충된 처리된 디지털 콘텐츠의 예를 도시한다. 구체적으로, 도 22b는 도 22a의 예에서 사용된 관련 정보가 보충된 처리된 디지털 콘텐츠의 흐름을 도시한다. 2202에서 흐름은 하나 이상의 알고리즘으로 디지털 콘텐츠를 처리한다. 하나 이상의 알고리즘은 하나 이상의 선수를 검출하는 객체 검출 알고리즘과 같은 다양한 알고리즘을 사용하여 디지털 콘텐츠(예: 농구 콘텐츠)를 처리할 수 있다. 얼굴 인식 알고리즘은 선수의 얼굴을 기반으로 선수를 검출할 수 있다. 텍스트 인식 알고리즘은 선수를 식별하기 위해 선수의 셔츠 번호를 검출할 수 있다. 도 22a에서, 디지털 콘텐츠는 다양한 알고리즘으로 처리되어 셔츠, 신발을 착용하고 농구공을 가진 농구 선수를 검출한다. 인식 알고리즘을 사용하여 선수와 선수의 팀을 식별할 수 있다. 2204에서 흐름은 전자상거래 플랫폼으로부터 관련 보충 정보를 찾는다. 이 예에서 클라우드/인터넷/시스템/데이터베이스/사람에서 찾은 관련 보충 정보는 셔츠, 신발, 농구공 구입처 또는 전자상거래 웹사이트 링크 또는 그러한 제품의 광고에 대한 링크와 같은 전자상거래 플랫폼과 관련될 수 있다. 2206에서 흐름은 시청자를 전자상거래 플랫폼에 연결한다. 2208에서, 흐름은 어떤 보충 정보를 표시할지를 맞춤화한다. 디지털 콘텐츠에 관련 보충 정보가 보충되면 시청자는 해당 정보를 디스플레이하고 제품을 주문하거나 해당 제품의 가격이나 가용성을 확인하기 위해 그와 같은 정보를 사용할 수 있다. 광고주와 전자상거래 기업은 처리된 디지털 콘텐츠를 통해 소비자에게 직접 접근할 수 있다.
도 23은 예시적인 구현에 따른, 디지털 콘텐츠를 처리한 정보를 사용하는 맞춤형 디지털 콘텐츠의 예를 도시한다. 일부 양태에서, 처리된 디지털 콘텐츠 내 객체의 검출 시, 검출된 객체는 맞춤형 오버레이를 포함하도록 수정될 수 있다. 예를 들어, 도 23은 농구공이 검출된 실시간 농구 경기의 예를 제공한다. 농구공은 맞춤형 오버레이를 포함하도록 선택될 수 있으며, 도 23의 예에서는 불과 연기로 구성된 오버레이가 포함되어 있다. 일부 경우에, 불과 연기로 구성된 오버레이 된 농구공은 슈터가 좋은 경기를 하고 있어 선수가 "활약하고 있다"는 것을 나타내기 위해 활용될 수 있다. 그러나 일부 경우에는 검출된 객체와 관련하여 다양한 오버레이가 사용될 수 있으며, 본 개시 내용은 불과 연기로 구성된 오버레이로 제한되도록 의도되지 않는다.
도 24는 예시적인 구현에 따른, 디지털 콘텐츠를 처리한 정보를 사용하는 맞춤형 디지털 콘텐츠의 예를 도시한다. 일부 양태에서, 검출된 객체와 관련된 이벤트의 발생 검출 시, 맞춤형 오버레이가 표시될 수 있다. 예를 들어, 도 24는 농구공이 검출된 실시간 농구 경기의 예를 제공한다. 실시간 농구 경기 중, 선수는 검출된 농구공을 슬램덩크 할 수 있으며, 농구공이 슬램덩크 되는 것이 검출되어 검출된 농구공에 대해 오버레이가 제공된다. 도 24의 예에서, 검출된 농구공의 슬램덩크는 폭발 또는 불꽃으로 구성된 오버레이를 제공할 수 있다. 그러나, 어떤 경우에는, 검출된 객체와 관련된 이벤트의 발생 검출과 관련하여 많은 다른 오버레이가 사용될 수 있으며, 본 개시는 폭발이나 불꽃놀이로 구성된 오버레이로 제한되도록 의도되지 않는다.
도 25는 예시적인 구현에 따라 다양한 알고리즘으로 처리하기 전에 다양한 입력 이미지 전처리 방법을 처리하는 예를 도시한다. 디지털 콘텐츠(2502)는 원시 데이터를 포함할 수 있다. 원시 데이터는 효과적으로 또는 효율적으로 처리하기에는 너무 많은 정보를 포함할 수 있는 고해상도(예: 4K 또는 고화질)를 포함할 수 있다. 따라서, 원시 데이터는 입력 모듈(2504, 2506 또는 2508)에 제공되어 원시 데이터는 수정될 될 수 있다. 원시 데이터를 수정하면 효과적이고 효율적인 처리가 가능할 수 있다. 일부 양태에서, 입력 모듈(2504)은 원시 데이터를 수신하고 원시 데이터를 다운샘플링할 수 있다. 예를 들어, 해상도의 다운 샘플링은 원시 데이터의 해상도를 400x200과 같이 훨씬 낮은 해상도로 줄일 수 있다. 일부 양태에서, 입력 모듈(2506)은 원시 데이터를 수신하고 100:1의 압축비로 원시 데이터를 압축할 수 있다. 압축비는 많은 다른 값을 포함할 수 있으며 본 개시가 100:1의 압축 인자로 제한되도록 의도되지 않는다. 일부 양태에서, 입력 모듈(2508)은 원시 데이터를 수신할 수 있고 원시 데이터를 다운샘플링하거나 압축하지 않으며, 따라서 입력 모듈(2508)은 원시 데이터의 전체 프레임 버전을 포함할 수 있다. 입력 모듈(2504)은 원시 데이터가 고해상도를 가져 고해상도 원시 데이터의 처리가 너무 많은 시간과 처리 자원을 차지하는 경우에 원시 데이터를 다운 샘플링하는데 활용될 수 있다. 입력 모듈(2506)은 원시 데이터가 고해상도를 가져 고해상도 원시 데이터의 처리가 너무 많은 시간과 처리 자원을 차지하는 경우에 원시 데이터를 압축하는 데 활용될 수 있다. 입력 모듈(2508)은 처리 자원이 원시 데이터의 전체 프레임을 처리하는 데 이용 가능하도록 AI 정확도가 중요하거나 필수적인 경우에 원시 데이터의 전체 프레임을 제공하는 데 활용될 수 있다. 입력 모듈의 출력은 처리를 위해 각각의 신경망 어레이(2510, 2512, 2514)에 제공된다. 각각의 신경망 어레이(2510, 2512, 2514)의 출력은 디지털 콘텐츠(2516)를 보충하는 데 사용될 수 있다.
본 개시는 본 명세서에 논의된 구현으로 제한되도록 의도되지 않으며, 다른 구현도 가능하다. 본 명세서에서 제안된 AI SoC는 원하는 구현에 따라, 모바일 장치, 감시 장치(예: 중앙 스테이션 또는 로컬 사용자 제어 시스템에 연결된 카메라 또는 기타 센서), 개인용 컴퓨터, 태블릿 또는 기타 사용자 장치, 차량(예: ADAS 시스템 또는 ECU 기반 시스템), 사물 인터넷 에지 장치(예: 수집기, 게이트웨이, 라우터), AR/VR 시스템, 스마트 홈 및 기타 스마트 시스템 구현 등을 포함하여, 그러한 기능을 활용할 수 있는 다른 에지 또는 서버 시스템으로 확장될 수도 있다.
상세한 설명의 일부 부분은 컴퓨터 내 연산의 기호적 표현 및 알고리즘으로 제시된다. 이러한 알고리즘 및 기호 표현은 데이터 처리 기술 분야의 숙련자가 혁신의 본질을 다른 기술 분야의 숙련자에게 전달하기 위해 사용하는 수단이다. 알고리즘은 원하는 최종 상태 또는 결과로 이어지는 일련의 정의된 단계이다. 예시적인 구현에서, 수행되는 단계는 유형의 결과를 달성하기 위해 유형의 양을 물리적으로 조작하는 것을 요구한다.
달리 구체적으로 언급하지 않는 한, 논의로부터 명백한 바와 같이, 설명 전반에 걸쳐 "처리", "컴퓨팅", "계산", "결정", "디스플레이" 등과 같은 용어를 사용한 설명은, 컴퓨터 시스템의 레지스터 및 메모리 내의 물리적(전자적) 양으로 표현된 데이터를 컴퓨터 시스템의 메모리 또는 레지스터 또는 기타 정보 저장, 전송 또는 디스플레이 장치 내의 물리적 양으로 유사하게 표현된 다른 데이터로 조작하고 변환하는 컴퓨터 시스템 또는 기타 정보 처리 장치의 작업 및 프로세스를 포함할 수 있다.
예시적인 구현은 또한 본 명세서의 연산을 수행하기 위한 장치와 관련될 수 있다. 이 장치는 필요한 목적을 위해 특별히 구성될 수 있거나, 하나 이상의 컴퓨터 프로그램에 의해 선택적으로 활성화되거나 재구성되는 하나 이상의 범용 컴퓨터를 포함할 수 있다. 이러한 컴퓨터 프로그램은 컴퓨터 판독 가능 저장 매체 또는 컴퓨터 판독 가능 신호 매체와 같은 컴퓨터 판독 가능 매체에 저장될 수 있다. 컴퓨터 판독 가능 저장 매체는 광 디스크, 자기 디스크, 읽기 전용 메모리, 랜덤 액세스 메모리, 솔리드 스테이트 장치 및 드라이브, 또는 전자 정보를 저장하기에 적합한 기타 형태의 유형(tangible) 또는 비일시적 매체를 포함하되 이에 국한되지 않는 유형의 매체가 포함될 수 있다. 컴퓨터 판독 가능 신호 매체는 반송파와 같은 매체를 포함할 수 있다. 여기에 제시된 알고리즘과 디스플레이는 본질적으로 특정 컴퓨터나 기타 장치와 관련이 없다. 컴퓨터 프로그램은 원하는 구현의 연산을 수행하는 명령을 포함하는 순수 소프트웨어 구현을 포함할 수 있다.
다양한 범용 시스템이 본 명세서의 예에 따른 프로그램 및 모듈과 함께 사용될 수 있거나, 원하는 방법 단계를 수행하기 위해 보다 전문화된 장치를 구성하는 것이 편리하다는 것이 입증될 수 있다. 또한, 예시적인 구현은 임의의 특정 프로그래밍 언어를 참조하여 기술되지 않는다. 본 명세서에 설명된 바와 같은 예시적인 구현의 기술을 구현하기 위해 다양한 프로그래밍 언어가 사용될 수 있다는 것이 이해될 것이다. 프로그래밍 언어(들)의 명령어는 하나 이상의 처리 장치, 예를 들어 중앙 처리 장치(CPU), 프로세서 또는 컨트롤러에 의해 실행될 수 있다.
본 기술분야에 알려진 바와 같이, 위에서 설명한 연산은 하드웨어, 소프트웨어, 또는 소프트웨어와 하드웨어의 일부 조합에 의해 수행될 수 있다. 예시적인 구현의 다양한 양태는 회로 및 논리 장치(하드웨어)를 사용하여 구현될 수 있으며, 다른 양태는 기계 판독 가능 매체(소프트웨어)에 저장된 명령어를 사용하여 구현될 수 있으며, 이는 프로세서에 의해 실행되면 프로세서가 본 출원의 구현을 수행하는 방법을 수행하도록 한다. 또한, 본 출원의 일부 예시적인 구현은 하드웨어에서만 수행될 수 있으며, 다른 예시적인 구현은 소프트웨어에서만 수행될 수 있다. 또한 설명된 다양한 기능은 단일 유닛에서 수행될 수도 있고 다양한 방식으로 여러 구성 요소에 분산될 수도 있다. 소프트웨어에 의해 수행될 때, 방법은 컴퓨터 판독 가능 매체에 저장된 명령어에 기초하여 범용 컴퓨터와 같은 프로세서에 의해 실행될 수 있다. 원하는 경우 명령어를 압축 및/또는 암호화된 형식으로 매체에 저장할 수 있다.
더욱이, 본 출원의 다른 구현은 본 출원의 기술의 실시 및 명세서를 고려함으로써 당업자에게 명백할 것이다. 설명된 예시적인 구현의 다양한 양태 및/또는 구성요소는 단독으로 또는 임의의 조합으로 사용될 수 있다. 명세서 및 예시적인 구현은 단지 예로서 고려되며, 본 출원의 진정한 범위 및 사상은 다음 청구범위에 의하도록 의도된다.

Claims (16)

  1. 하나 이상의 훈련된 인공지능/신경망(AI/NN) 모델을 저장하도록 구성된 메모리와 시스템온칩(SoC)을 포함하는 에지 시스템으로서,
    상기 시스템온칩은:
    방송 또는 스트리밍 디지털 콘텐츠를 수신하고;
    상기 하나 이상의 훈련된 AI/NN 모델을 사용하여 상기 방송 또는 스트리밍 디지털 콘텐츠를 처리하고;
    상기 하나 이상의 훈련된 AI/NN 모델을 사용한 상기 방송 또는 스트리밍 디지털 콘텐츠의 처리에 기초하여 다른 장치에서 획득한 보충 콘텐츠를 상기 방송 또는 스트리밍 디지털 콘텐츠에 추가하고;
    상기 다른 장치에서 획득한 상기 보충 콘텐츠와 함께 상기 방송 또는 스트리밍 디지털 콘텐츠를 출력으로서 제공하도록 구성되는,
    에지 시스템.
  2. 제1항에 있어서,
    상기 다른 장치로부터 획득한 상기 보충 콘텐츠는 인터넷 연결에서 획득한 하나 이상의 소셜 미디어 포스트를 포함하는,
    에지 시스템.
  3. 제1항에 있어서,
    상기 시스템온칩은, 상기 시스템온칩의 하나 이상의 쉬프터 회로에 의해 실행되는 논리적 쉬프트 연산의 사용을 통해서 상기 하나 이상의 훈련된 AI/NN 모델을 사용하여 상기 방송 또는 스트리밍 디지털 콘텐츠를 처리하도록 구성되는,
    에지 시스템.
  4. 제3항에 있어서,
    상기 하나 이상의 훈련된 AI/NN 모델을 사용한 상기 방송 또는 스트리밍 디지털 콘텐츠의 처리에 대응하는 가산 연산은 상기 시스템온칩의 상기 하나 이상의 쉬프터 회로에 의해 실행되는,
    에지 시스템.
  5. 제3항에 있어서,
    상기 하나 이상의 훈련된 AI/NN 모델을 사용한 상기 방송 또는 스트리밍 디지털 콘텐츠의 처리에 대응하는 가산 연산은 상기 시스템온칩의 하나 이상의 가산 회로에 의해 실행되는,
    에지 시스템.
  6. 제1항에 있어서,
    상기 시스템온칩은, 프로그래머블 게이트 어레이(FPGA)에 의해 실행되는 논리적 쉬프트 연산의 사용을 통해서 상기 하나 이상의 훈련된 AI/NN 모델을 사용하여 상기 방송 또는 스트리밍 디지털 콘텐츠를 처리하도록 구성되는,
    에지 시스템.
  7. 제1항에 있어서,
    상기 시스템온칩은, 하나 이상의 하드웨어 프로세서에 의해 실행되는 논리적 쉬프트 연산의 사용을 통해서 상기 하나 이상의 훈련된 AI/NN 모델을 사용하여 상기 방송 또는 스트리밍 디지털 콘텐츠를 처리하도록 구성되는,
    에지 시스템.
  8. 제1항에 있어서,
    상기 에지 시스템은 텔레비전 장치이고;
    상기 방송 또는 스트리밍 디지털 콘텐츠는 텔레비전 오디오/비디오 데이터이며,
    상기 시스템온칩은 상기 텔레비전 장치의 디스플레이에 상기 출력을 제공하도록 구성되는,
    에지 시스템.
  9. 제1항에 있어서,
    상기 에지 시스템은 셋톱 박스이고,
    상기 방송 또는 스트리밍 디지털 콘텐츠는 텔레비전 오디오/비디오 데이터이며,
    상기 시스템온칩은 상기 셋톱 박스에 연결된 텔레비전 장치에 상기 출력을 제공하도록 구성되는,
    에지 시스템.
  10. 제1항에 있어서,
    상기 에지 시스템은 스트리밍 장치이고,
    상기 방송 또는 스트리밍 디지털 콘텐츠는 텔레비전 오디오/비디오 데이터이며,
    상기 시스템온칩은 상기 스트리밍 장치에 연결된 텔레비전 장치에 상기 출력을 제공하도록 구성되는,
    에지 시스템.
  11. 제1항에 있어서,
    상기 에지 시스템은 상기 방송 또는 스트리밍 디지털 콘텐츠를 제공하도록 구성된 제1 장치에 연결되고,
    상기 시스템온칩은 상기 에지 시스템에 연결된 제2 장치에 상기 출력을 제공하도록 구성되는,
    에지 시스템.
  12. 제1항에 있어서,
    상기 에지 시스템은 상기 보충 콘텐츠로서 콘텐츠 서버로부터 데이터를 획득하도록 구성된 인터페이스를 더 포함하고,
    상기 메모리는 상기 콘텐츠 서버로부터 획득을 위해 상기 하나 이상의 훈련된 AI/NN 모델의 모델 출력을 상기 보충 콘텐츠에 매핑하는 메타데이터를 저장하도록 구성되고,
    상기 시스템온칩은 상기 메모리로부터 상기 메타데이터를 판독하고 상기 하나 이상의 훈련된 AI/NN 모델의 상기 모델 출력에 기초한 인터페이스를 통해 상기 콘텐츠 서버에서 대응하는 보충 콘텐츠를 획득하도록 구성되는,
    에지 시스템.
  13. 제12항에 있어서,
    상기 메타데이터는 상기 하나 이상의 훈련된 AI/NN 모델의 상기 모델 출력을 구매할 수 있는 객체와 관련된 상기 보충 콘텐츠에 매핑하며,
    상기 시스템온칩은 메모리로부터 상기 메타데이터를 독출하고 상기 하나 이상의 훈련된 AI/NN 모델의 상기 모델 출력에 기초하여 상기 인터페이스를 통해 상기 콘텐츠 서버로부터 대응하는 보충 콘텐츠를 획득하도록 구성되는,
    에지 시스템.
  14. 제1항에 있어서,
    상기 하나 이상의 훈련된 AI/NN 모델은, 상기 방송 또는 스트리밍 디지털 콘텐츠에 대한 얼굴 인식을 수행하도록 구성된 얼굴 인식 모델을 포함하며,
    상기 시스템온칩은 상기 얼굴 인식으로부터 식별된 얼굴에 기초하여 상기 보충 콘텐츠를 추가하도록 구성되는,
    에지 시스템.
  15. 제1항에 있어서,
    상기 에지 시스템은, 서버로부터 상기 하나 이상의 AI/NN 모델에 대응하는 하나 이상의 양자화된 매개변수를 획득하고 상기 하나 이상의 양자화된 매개변수를 상기 메모리에 저장하도록 구성된 인터페이스를 더 포함하고,
    상기 시스템온칩은 상기 하나 이상의 양자화된 매개변수의 사용을 통해서 상기 하나 이상의 AI/NN 모델을 사용하여 상기 방송 또는 스트리밍 디지털 콘텐츠를 처리하도록 구성되는,
    에지 시스템.
  16. 제1항에 있어서,
    상기 하나 이상의 AI/NN 모델은, 상기 방송 또는 스트리밍 디지털 콘텐츠에서 하나 이상의 객체를 분류하도록 구성된 객체 분류 모델을 포함하는,
    에지 시스템.
KR1020237035765A 2021-05-05 2022-05-03 에지 및 서버 soc를 위한 인공 지능 및 클라우드 기술을 포함하는 시스템 및 방법 KR20240004318A (ko)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US202163184576P 2021-05-05 2021-05-05
US202163184630P 2021-05-05 2021-05-05
US63/184,576 2021-05-05
US63/184,630 2021-05-05
PCT/US2022/027035 WO2022235517A2 (en) 2021-05-05 2022-04-29 Implementations and methods for processing neural network in semiconductor hardware
USPCT/US2022/027035 2022-04-29
PCT/US2022/027496 WO2022235685A1 (en) 2021-05-05 2022-05-03 Systems and methods involving artificial intelligence and cloud technology for edge and server soc

Publications (1)

Publication Number Publication Date
KR20240004318A true KR20240004318A (ko) 2024-01-11

Family

ID=83438642

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237035765A KR20240004318A (ko) 2021-05-05 2022-05-03 에지 및 서버 soc를 위한 인공 지능 및 클라우드 기술을 포함하는 시스템 및 방법

Country Status (7)

Country Link
US (1) US20240196058A1 (ko)
KR (1) KR20240004318A (ko)
CA (1) CA3217902A1 (ko)
DE (1) DE112022000014T5 (ko)
FR (1) FR3122798A1 (ko)
NL (2) NL2031777B1 (ko)
TW (1) TW202310634A (ko)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2227035A (en) 1937-10-26 1940-12-31 Loewe Radio Inc Coupling circuit arrangement for ultra-short waves
WO2019191082A2 (en) * 2018-03-27 2019-10-03 Skreens Entertainment Technologies, Inc. Systems, methods, apparatus and machine learning for the combination and display of heterogeneous sources
US11586907B2 (en) * 2018-02-27 2023-02-21 Stmicroelectronics S.R.L. Arithmetic unit for deep learning acceleration
KR102634290B1 (ko) 2018-11-09 2024-02-06 동우 화인켐 주식회사 패드 전극부 및 이를 갖는 터치센서
KR20200114898A (ko) * 2019-03-29 2020-10-07 엘지전자 주식회사 영상표시장치
WO2021077028A1 (en) * 2019-10-15 2021-04-22 Streamlayer Inc. Method and system for providing interactive content delivery and audience engagement
US11354894B2 (en) * 2019-10-16 2022-06-07 Disney Enterprises, Inc. Automated content validation and inferential content annotation

Also Published As

Publication number Publication date
NL2031777A (en) 2022-11-09
DE112022000014T5 (de) 2023-03-23
FR3122798A1 (fr) 2022-11-11
NL2031777B1 (en) 2023-06-01
CA3217902A1 (en) 2022-11-10
TW202310634A (zh) 2023-03-01
US20240196058A1 (en) 2024-06-13
NL2034738A (en) 2023-08-25

Similar Documents

Publication Publication Date Title
CN109145784B (zh) 用于处理视频的方法和装置
CN110166827B (zh) 视频片段的确定方法、装置、存储介质及电子装置
CN107633441A (zh) 追踪识别视频图像中的商品并展示商品信息的方法和装置
US9098807B1 (en) Video content claiming classifier
US11093781B2 (en) Customized action based on video item events
EP3425483B1 (en) Intelligent object recognizer
EP2756473A1 (en) Facilitating television based interaction with social networking tools
CN108235114A (zh) 视频流的内容解析方法和系统、电子设备、存储介质
CN111797850A (zh) 视频分类方法、装置、存储介质及电子设备
WO2022226724A1 (en) Method and system of image processing with multi-skeleton tracking
US20240196058A1 (en) Systems and methods involving artificial intelligence and cloud technology for edge and server soc
WO2022235685A1 (en) Systems and methods involving artificial intelligence and cloud technology for edge and server soc
CN117280698A (zh) 涉及边缘和服务器soc的人工智能和云技术的系统和方法
JP2024523971A (ja) エッジおよびサーバsocのための人工知能およびクラウド技術を伴うシステムおよび方法
US20230377335A1 (en) Key person recognition in immersive video
WO2022165620A1 (en) Game focus estimation in team sports for immersive video
KR101674310B1 (ko) 영상 콘텐츠와 연관성을 갖는 광고를 제공하기 위한 광고 매칭 시스템 및 방법
NL2031774B1 (en) Systems and methods involving artificial intelligence and cloud technology for server soc
US10237614B2 (en) Content viewing verification system
WO2024104286A1 (zh) 一种视频处理方法、装置、电子设备和存储介质
WO2023087164A1 (en) Method and system of multi-view image processing with accurate skeleton reconstruction
US12034981B2 (en) System and method for analyzing videos in real-time
US20240086487A1 (en) A System for Pointing to a Web Page
US20230082197A1 (en) System and Method for Analyzing Videos in Real-Time
Hasan et al. Applications of Computer Vision in Entertainment and Media Industry