TW202004522A

TW202004522A - 具有多個動態設定檔的智慧型引擎

Info

Publication number: TW202004522A
Application number: TW108117758A
Authority: TW
Inventors: 溫孟勳; 蔡承志; 李任峯; 陳宏慶; 徐禎助; 陳宗樑
Original assignee: 英屬開曼群島商意騰科技股份有限公司
Priority date: 2018-05-29
Filing date: 2019-05-22
Publication date: 2020-01-16
Also published as: TWI698757B; US11501135B2; US20190370635A1

Abstract

本發明提供一種智慧型引擎，包括一設定檔蒐集器及一主處理模組。設定檔蒐集器組態成儲存多個設定檔，一或多個合適的設定檔是根據來自一使用者或一自動選擇器的一指令來動態受選擇。主處理模組是連接至設定檔蒐集器，且直接或間接連接至一感測器，並組態成執行一細部分析，以基於來自感測器的感測器資料來判斷多個特徵、物件、或場景的多個細部特性。

Description

具有多個動態設定檔的智慧型引擎

本發明是關於一種人工智慧系統。特別是關於一種用於邊緣裝置而具有多個動態設定檔的智慧型引擎（smart engine）。

一般而言，深度神經網路的工作流程包括二階段：訓練階段及推論階段。在訓練階段中，深度神經網路是訓練成理解物件的性質或狀況的條件。在推論階段中，深度神經網路會辨識（現實世界的）多個物件或狀況來作合適的決定或預測。

深度神經網路通常是在計算伺服器上，以多個圖形處理器（graphics processing unit，GPU）板來訓練。訓練階段需要花費一段很長的時間，範圍長達數小時、數周、甚至更久。

圖1顯示先前技術的伺服器11（例如獨立伺服器或雲端伺服器）與邊緣裝置12之間的深度神經網路架構的示意圖。伺服器11包括深度神經網路，而訓練是在伺服器11上執行。

邊緣裝置12可為智慧型手機、穿載裝置、家庭娛樂器、平板電腦、電腦、智慧電視、電話等。邊緣裝置12必須透過網路連線13自伺服器11下載訓練過的模型，邊緣裝置12才可基於此訓練過的模型來執行推論。

在先前技術中，邊緣裝置12是無法進行訓練的。此外，因為邊緣裝置12僅具有受限的計算能力，專為伺服器11所設計的深度神經網路無法轉用至邊緣裝置12。換言之，直接將深度神經網路自伺服器11轉移至邊緣裝置12上而不作適應性的調整是不可行的。

另一方面，傳統的邊緣裝置通常是專為特定應用所設計。對此，其無法動態地調整成適用於不同應用情境。因此，傳統的邊緣裝置不僅無法分析不同型態的資料來源，亦無法組合提取自不同來源的特徵、物件或場景來執行進一步分析，更不用說同時處理它們。

邊緣裝置的這些限制阻礙了實現在邊緣裝置上的機器學習的發展。

因此，亟需對於邊緣裝置提供一種改良的人工智慧系統。

本發明旨在提供一種具有多個動態設定檔的智慧型引擎（以下稱為「智慧型引擎」），其為一種人工智慧系統。

本發明的一目的是提供一種智慧型引擎，其實現各種資料（或輸入）來源的分析，例如聲音、影像、或其他物理現象。

本發明的另一目的是提供一種智慧型引擎，其實現多個特徵、物件或場景的組合，它們是提取自各種不同資料來源，例如聲音指令、在影像中的物件、或自其他物理現象所獲得的資訊，來執行進一步分析。

本發明的再一目的是提供一種智慧型引擎，其對於不同應用而具有混合式的多個設定檔。每個設定檔可包括一分析模型、多個模型參數、多個網路壓縮設定、及／或其他設定。分析模型可為一卷積神經網路（convolutional neural network，CNN）、一循環神經網路（recurrent neural network，RNN）、或一長短期記憶（long short-term memory，LSTM）網路。亦可應用其他神經網路，例如YOLO、ResNet、Resnet-18、Resnet-34、Vgg16、GoogleNet、Lenet、或MobileNet。

本發明的又一目的是提供一種智慧型引擎，具有多個設定檔，可動態地切換於不同應用。當前套用的設定檔（以下稱為「當前設定檔」）可根據智慧型引擎的一當前條件、一先前狀態、一使用者指令及／或其他指示，而自一設定檔切換成另一設定檔。

因此，根據本發明的一種觀點，是提供一種智慧型引擎，其包括一設定檔蒐集器及一主處理模組。設定檔蒐集器是組態成儲存多個設定檔。一或多個合適的設定檔是根據來自一使用者或一自動選擇器的一指令來動態受選擇。主處理模組是連接至設定檔蒐集器，且直接或間接連接至一感測器，主處理模組是組態成執行一細部分析，以基於來自感測器的感測器資料來判斷多個特徵、物件、或場景的多個細部特性。

根據本發明的另一種觀點，是提供一種智慧型引擎，其包括一第一緩衝器、一RGB至Y模組、一第二緩衝器、一基礎神經網路、一設定檔蒐集器、一挑揀器、及一專門神經網路。第一緩衝器是組態成儲存自一影像感測器的多個原始影像。RGB至Y模組是連接至影像感測器及／或第一緩衝器，且組態成將多個彩色影像處理成多個灰階影像。第二緩衝器是連接至RGB至Y模組，且組態成儲存該些灰階影像。基礎神經網路是連接至RGB至Y模組及第二緩衝器，且組態成執行一初步分析，以自該些灰階影像提取多個基本特徵、物件、或場景。設定檔蒐集器是連接至基礎神經網路，且組態成儲存多個設定檔。挑揀器是連接至第一緩衝器、第二緩衝器、及基礎神經網路，且組態成自第一緩衝器及／或第二緩衝器選擇一或多個合適的影像。專門神經網路是連接至設定檔蒐集器及挑揀器，且組態成執行一細部分析，以基於合適的影像來判斷多個特徵、物件、或場景的多個細部特性。

根據本發明的再一種觀點，是提供一種操作智慧型引擎的方法，智慧型引擎是通訊於一應用／主機處理器及多個感測器。其包括以下步驟。步驟S1是使用應用／主機處理器以設定智慧型引擎。步驟S2是使用智慧型引擎以設定該些感測器，該些感測器是組態成產生感測器資料。步驟S3是使用智慧型引擎以自該感測器資料提取多個特徵、物件、或場景。步驟S4是使用智慧型引擎以在處理提取的該些特徵、物件、或場景後，獲得後設資料（metadata）。

可選地，多個設定檔可儲存在智慧型引擎本身，或者，儲存在應用處理器上的一快閃記憶體、一SRAM、一DRAM、或一NVRAM、或任何種類的記憶體空間。多個設定檔亦可為動態地產生而非靜態地儲存。

可選地，為了低功耗及／或即時應用，智慧型引擎可納入來源資料分解、過濾器分解、及／或模型壓縮。

可選地，智慧型引擎可用於物件辨識、物件追蹤、臉部偵測、臉部表情辨識、動作辨識、姿勢偵測、文字辨識、事件偵測等。

下文將配合圖式並詳細說明，使本發明的其他目的、優點、及新穎特徵更明顯。

以下提供本發明的不同實施例。這些實施例是用於說明本發明的技術內容，而非用於限制本發明的權利範圍。一實施例的一特徵可透過合適的修飾、置換、組合、分離以應用於其他實施例。

應注意的是，在本發明中，所謂的「第一」或「第二」等序數，只是用於區別具有相同名稱的多個元件（element），並不表示其等之間存在位階、層級、執行順序、或製程順序。此外，一「第一」元件與一「第二」元件可能一起出現在同一構件中，或分別出現在不同構件中。

除了特別指明者之外，每個元件可以適合的方式來實現成單一電路或一積體電路，且可包括一或多個主動元件，例如，電晶體或邏輯閘，或一或多個被動元件，例如，電阻、電容、或電感，但不限於此。每個元件可以適合的方式來彼此連接，例如，分別配合輸入信號及輸出信號，使用一條或多條線路來形成串聯或並聯。此外，每個元件可允許輸入信號及輸出信號依序或並列進出。上述組態皆是依照實際應用而定。

在本發明中，所謂的「系統」、「設備」、「裝置」、「模組」、或「單元」等用語，是指一電子元件或由多個電子元件所組成的一數位電路、一類比電路、或其他更廣義電路，且除了特別指明者之外，它們不必然有階層或從屬關係。除了特別指明者之外，一特徵是指一或更多的該特徵。

（廣義智慧型引擎）

圖2顯示根據本發明的一實施例的智慧型引擎100的方塊圖。

智慧型引擎100包括一緩衝器102、一預處理模組104（例如，一基礎神經網路，basic neural network，basic NN）、一設定檔蒐集器（profile collector）106、一挑揀器（picker）108、一主處理模組110（例如，一專門神經網路，expert neural network，Expert NN）、及一後設緩衝器（meta buffer）112。

預處理模組104或挑揀器108可視為一種自動選擇器。

在其他實施例中，可省略預處理模組104或挑揀器108，且指令可由使用者來手動給定，而非由預處理模組104或挑揀器108來產生。

又，在其他實施例中，可省略緩衝器102或後設緩衝器112，而將資料自感測器直接傳送至預處理模組104，或自預處理模組104直接傳送至一應用／主機處理器。

為了便於理解，在下文中，預處理模組104是設定成一基礎神經網路（NN）104，主處理模組110是設定成一專門神經網路（NN）110。然而，該些處理模組可採用神經網路之外的任何可能的演算法。

應理解的是，可將智慧型引擎100視為一系統、一處理器、或一控制器。可將緩衝器102、基礎神經網路104、設定檔蒐集器106、挑揀器108、專門神經網路110、及後設緩衝器112視為多個模組。它們可實現成硬體或軟體，並可實現成在一組晶片上的分離電路、或在單一晶片上的積體電路裝置。

緩衝器102是連接至一感測器120。應注意的是，感測器120可屬於或不屬於智慧型引擎100的一部分，這表示感測器120可為智慧型引擎100之外的一獨立裝置。

感測器120是組態成偵測物理現象，例如聲音或光，並因此產生感測器資料，例如聲音資料或影像資料。當然，感測器120可根據接收自網路或其他資料庫的原始資料而產生感測器資料，在這種情形下，可將感測器120更廣義地視為一接收器。

接著，將感測器資料儲存至緩衝器102中。

基礎神經網路104是用於在專門神經網路110執行一細部分析前，執行一初步分析。

在一實施例中，基礎神經網路104是設計成（或組態成）比起專門神經網路110具有一廣義功能。在另一實施例中，基礎神經網路104是設計成（或組態成）比起專門神經網路110具有一簡化結構。

例如，基礎神經網路104可辨識任何語言的文字的粗略外形，而專門神經網路110可辨識一中文字（character）或詞（word）。

基礎神經網路104及專門神經網路110可透過不同機制來訓練，或配合不同訓練資料來訓練，以具有不同組態。

基礎神經網路104的輸入端是連接至感測器120、緩衝器102、或與兩者皆連接，以接收感測器資料。基礎神經網路104的輸出端是連接至挑揀器108及設定檔蒐集器106。基礎神經網路104是基於感測器資料來執行初步分析，以判斷粗略特徵、物件、或場景，並因此自設定檔蒐集器108選擇一或多個合適的設定檔來套用在專門神經網路110上。基礎神經網路104亦使挑揀器108自緩衝器102選擇一或多個合適的感測器資料，並將合適的感測器資料傳送至專門神經網路110。

例如，當基礎神經網路104粗略地辨識出一中文字的外形時，基礎神經網路104可選擇中文字偵測專用的一設定檔，而套用於專門神經網路110。下一次，當基礎神經網路104粗略地辨識出一英文字的外形時，基礎神經網路104可將當前套用的中文字偵測專用的設定檔，變更成英文字偵測專用的一設定檔。

設定檔蒐集器106是連接在基礎神經網路104及專門神經網路110之間。設定檔蒐集器106儲存多個設定檔，分別對應於不同類別。將在下文中說明，在本發明中，設定檔是用於定義一神經網路。每個設定檔可包括一分析模型、多個模型參數、多個網路壓縮設定、及／或其他設定。

挑揀器108的輸入端是連接至緩衝器102及基礎神經網路104，而挑揀器108的輸出端是連接至專門神經網路110。挑揀器108可組態成根據來自基礎神經網路104的一指令（可能是在一初步分析執行後所獲得者）及／或挑揀器本身的決定，而純粹自緩衝器102選擇一或多個合適的感測器資料，並將合適的感測器資料傳送至專門神經網路110。可選地，挑揀器108可與一轉換器（未繪示）或一過慮器（未繪示）組合，來進行資料處理，以協助專門神經網路110的細部分析。

例如，挑揀器108可選擇一或多個最清晰影像，使專門神經網路110可以更高效的方式來分析它們。

專門神經網路110的輸入端是連接至設定檔蒐集器106及挑揀器108，而專門神經網路110的輸出端是連接至後設緩衝器112。專門神經網路110是基於合適的感測器資料來執行細部分析，以精準地判斷該些特徵、物件、或場景的多個細部特性。

例如，專門神經網路110可判斷顯示在影像中的確切的中文字，甚至是中文字的字形。

專門神經網路110將結果傳送至後設緩衝器112。儲存在後設緩衝器112中的結果可進一步由一外部裝置，例如，存在於智慧型引擎100之外的一應用處理器或一主機處理器來讀取。

在其他實施例中，可省略後設緩衝器112，而專門神經網路110可將結果直接傳送至一外部裝置。

一後設緩衝器是用於儲存後設資料，例如資料分析的結果。後設資料總結關於資料的資訊，並使搜尋及使用資料的多個特例變得容易。後設資料通常是文字的形式，例如，其可為壓縮資料或程式碼，例如，程式碼「789」可代表「狗」。

根據本發明，不必將一完整神經網路載入智慧型引擎100。取而代之的是，將分析劃分成基礎神經網路104的初步分析及專門神經網路110的細部分析。基礎神經網路104可得到簡化，因為基礎神經網路104是設計成僅處理粗略特徵、物件、或場景的分析。專門神經網路110亦可得到簡化，因為專門神經網路110是設計成處理特徵、物件、或場景的一類別的分析。

其實現方法是，透過對應於不同類別來定義不同設定檔，且根據基礎神經網路104的初步分析，來變更專門神經網路110當前套用的設定檔。

（設定檔）

圖3顯示根據本發明的一實施例的多個設定檔，例如，P1、P2、及P3的示意圖。

一般而言，一設定檔是定義一系統環境的一組組態資訊。在本發明中，設定檔是用於定義一神經網路。

每個設定檔可包括一分析模型、多個模型參數、多個壓縮設定、及／或其他設定。

分析模型可由一神經網路組態來定義。分析模型可為一卷積神經網路、一循環神經神經網路、或一長短期記憶網路。亦可套用其他神經網路，例如YOLO、ResNet、Resnet-18、Resnet-34、Vgg16、GoogleNet、Lenet、或MobileNet。

一設定檔可對應於一類別，例如，食物、餅乾、飲料、衣服、交通、寵物、家庭、情緒、地點、活動、或嗜好等，但不限於此。在本發明中，「類別」（category）一詞可指「情境」（scenario）或其他等價用語。

如圖3所示，設定檔P1、P2、及P3具有不同神經網路及不同結構，其以不同數量的神經元及不同數量的連結所組成。

分析模型的每個神經元儲存該些模型參數。該些模型參數可包括一權重（weight）、一偏差值（bias）、或其他用於神經網路的參數。

該些壓縮設定是用於修改分析模型的結構，或該些模型參數的數值。一網路壓縮可為修剪法、量化法、及／或架構修改法。

作為本發明的一優勢，智慧型引擎的設定檔可對於不同應用來作切換。

可能的切換模式包括但不限於：

（a）靜態模式（static mode）：在特定應用中總是使用指定設定檔。靜態模式可由一使用者指令來啟用。

（b）動態模式（dynamic mode）：當智慧型引擎以當前設定檔來偵測到特定特徵、物件、或場景時，當前設定檔自廣義設定檔切換成特定設定檔。例如，當智慧型引擎粗略地辨識出一中文字的外形時，當前設定檔可自偵測文字專用的廣義設定檔切換成偵測中文字專用的特定設定檔。

（c）自適應模式（adaptive mode）：當智慧型引擎以當前設定檔來偵測到特定特徵、物件或場景時，當前設定檔切換成一相關設定檔。例如，當前設定檔可自偵測嬰兒聲音專用的設定檔切換成辨識嬰兒臉部表情專用的設定檔。

（d）分時模式（time sharing mode）：各種不同設定檔在時間上穿插（interleaved）。例如，當前設定檔可週期性地在一聲音設定檔與一影像設定檔之間切換。

在一實施例中，該些設定檔之間可定義有一設定檔階層，或廣義而言，一設定檔相關性。

圖4顯示設定檔階層（或設定檔樹）的一示例，其中，用於偵測文字的廣義（或上層）設定檔具有二特定（或下層）設定檔，分別用於偵測中文與偵測英文。用於偵測英文的設定檔具有一更特定（或更下層）的設定檔，用於辨識光學字元。

圖4的設定檔階層實現了設定檔切換的一動態模式，其中，當粗略地辨識出一中文字的外形時，當前設定檔可自用於偵測文字的廣義設定檔切換成用於偵測中文字的特定設定檔。

圖5顯示設定檔階層（或設定檔樹）的另一示例，其中，關於國家資訊的廣義（或上層）設定檔具有關於城市資訊的特定（或下層）設定檔。關於城市資訊的設定檔具有關於街道資訊的更特定（或更下層）設定檔。

圖5的設定檔階層亦實現了設定檔切換的一動態模式，其中，當粗略地辨識出一城市的一景觀時，當前設定檔可自關於國家資訊的廣義設定檔切換成關於城市資訊的特定設定檔。

圖6顯示一相機設定檔、一麥克風設定檔、及一揚聲器設定檔之間的設定檔關係的一示例。

圖6的設定檔關係實現了設定檔切換的自適應模式，其中，當（例如，一麥克風）聽到「付款」的一聲音指令時，當前設定檔會自一麥克風設定檔切換成一相機設定檔，以啟用一快速響應矩陣圖（quick response，QR）碼。

在另一實施例中，一設定檔可完全或部分更新。

圖7顯示部分更新的設定檔的一示例。設定檔採用一MobileNet神經網路作為其分析模型。設定檔具有多個卷積神經網路層的多個參數、及完全連接（fully connected，FC）層及／或Softmax層的多個參數作為其模型參數。設定檔可以FC及／或Softmax層的多個參數來部分更新。

（用於影像處理的智慧型引擎）

圖8顯示根據本發明的一實施例的智慧型引擎200以供影像處理的方塊示意圖。

圖8的實施例是圖2的實施例加入更多模組的一變化。

如圖8所示，智慧型引擎200包括一第一緩衝器202、一RGB至Y模組204、一第二緩衝器206、一基礎神經網路208、一設定檔蒐集器210、一模糊偵測器（blur detector）212、一挑揀器214、一專門神經網路216、一第一後設緩衝器218、及一第二後設緩衝器220。

一影像感測器230是連接至第一緩衝器202及RGB至Y模組204。影像感測器230自例如現實世界或網路產生多個原始影像。同理，影像感測器230可屬於或不屬於智慧型引擎200的一部分，這表示影像感測器230可為智慧型引擎200之外的一獨立裝置。

RGB至Y模組204的輸入端是連接至影像感測器230及／或第一緩衝器202，而RGB至Y模組204的輸出端是連接至二緩衝器206、基礎神經網路208、及模糊偵測器212。

智慧型引擎200是組態成將所有的原始影像儲存在一第一緩衝器202中。灰階影像可直接儲存至第二緩衝器206中，而（RGB）彩色影像可經過RGB至Y模組204處理成灰階影像後，再儲存至第二緩衝器206中。

在此，R、G、B、及Y分別是指影像的紅色、綠色、藍色、及明亮度（luminance）。

基礎神經網路208的輸入端是連接至RGB至Y模組204及第二緩衝器206，而基礎神經網路208的輸出端是連接至挑揀器214、設定檔蒐集器210、及第一後設緩衝器218。

智慧型引擎200是組態成執行一初步分析，並基於基礎神經網路208而自儲存在第二緩衝器206中的灰階影像來提取多個基本特徵、物件、或場景。基礎神經網路208是組態成提供多個初步結果，例如一感興趣區域（region of interest，ROI）、特徵、物件、或場景的位置，以供專門神經網路216執行一細部分析。基礎神經網路208所獲得的該些初步結果是傳送至第一後設緩衝器218，並可進一步由外部裝置，例如，存在於智慧型引擎200之外的一應用處理器或一主機處理器來讀取。

智慧型引擎200是組態成取決於基礎神經網路208的初步分析所提供的該些初步結果、（基礎及／或專門）神經網路的一現行狀態及／或一先前狀態、時間資訊及／或地點資訊（在圖8中標示成「更多選擇因素」）來選擇一或多個合適的設定檔來套用於專門神經網路216。

智慧型引擎200亦是組態成由挑揀器214來選擇一或多個合適的影像（以下是指經過模糊偵測後所留下的清晰影像），以供專門神經網路216執行細部分析。該些選擇可取決於基礎神經網路208的初步分析的該些初步結果、模糊偵測器212的一判斷、（基礎及／或專門）神經網路的一現行狀態及／或一先前狀態、時間資訊及／或地點資訊。

設定檔蒐集器210是連接在基礎神經網路208與專門神經網路216之間，並儲存多個設定檔，對應於不同類別。在此實施例中，多個設定檔是儲存在智慧型引擎200本身中。然而，在其他實施例中，多個設定檔可儲存在應用處理器上的一快閃記憶體、一SRAM、一DRAM、一NVRAM、或其他種類的記憶體空間。替代性地，多個設定檔可透過任何介面，例如，SPI、I2C、I3C、及／或SLIMbus，來存取自智慧型引擎之外的一儲存空間。

時間資訊（在圖8中標示成「何時」）是用於指出與該些特徵、物件、或場景相關聯的時間，其亦可指出一週末或一工作日、一白天或一夜晚、一會議時間、一茶飲時間、一午餐時間、一晚餐時間、一行事曆所標記的一事件等。時間資訊可來自應用處理器、主機處理器、或其他管道。

地點資訊（在圖8中標示成「何處」）是用於指出與該些特徵、物件或場景相關聯的位置，其可指出一住家、一車輛、一辦公室、一餐廳、一遊樂園、一醫院、一超級市場、一城市、一國家、一機場、一地鐵等。地點資訊可來自應用處理器、主機處理器、或其他管道。

多個設定檔的選擇及／或多個影像的選擇可取決於神經網路的現行狀態及／或先前狀態。例如，當辨識出一中文字的粗略外形時，智慧型引擎200可將用於偵測文字的廣義設定檔的現行狀態切換成用於偵測中文字的特定設定檔的下一個狀態。再例如，在智慧型引擎200已在先前狀態中辨識出確切的一中文字後，智慧型引擎200在現行狀態中則可轉而參照辨識結果而進一步分析中文字的字形。

模糊偵測器212是連接在第二緩衝器206與挑揀器214之間。模糊偵測器212是用於偵測多個模糊影像，並協助挑揀器214過濾掉模糊影像，並將留下的清晰影像傳送至專門神經網路216，使專門神經網路216可以更高效的方式來分析多個影像。在此，留下的清晰影像可為來自第二緩衝器206的原始灰階影像或來自第一緩衝器202的原始彩色影像。亦可引進一影像處理模組（未繪示），在將影像傳送至專門神經網路216前，執行影像處理。

專門神經網路216的輸入端是連接至挑揀器214及設定檔蒐集器210，而專門神經網路216的輸出端是連接至第二後設緩衝器220。專門神經網路216自挑揀器214接收留下的清晰影像，並執行細部分析，以自該些影像精準辨識多個特徵、物件或場景的多個細部特性。

專門神經網路216將多個結果傳送至第二後設緩衝器220。儲存在第二後設緩衝器220中的該些結果可透過任何介面，例如，SPI、I2C、I3C、及／或SLIMbus，來進一步由一外部裝置，例如，存在於智慧型引擎200之外的一應用處理器或主機處理器來讀取。

然而，在其他實施例中，RGB至Y模組204或模糊偵測器212可置換成其他模組，例如，用於聲音處理的模組。亦可省略第一後設緩衝器218或第二後設緩衝器220，專門神經網路216可直接將結果傳送至一外部裝置。

（資料存取）

圖9顯示根據本發明的一實施例的智慧型引擎300的資料存取的方塊示意圖。

智慧型引擎300是標示成「V² 人工智慧偵測器」。智慧型引擎300可為圖2的智慧型引擎100、圖8的智慧型引擎、或它們可能的變化。

智慧型引擎300包括一第一SRAM 302、一第一多工器304、及一神經網路306。第一多工器304是連接在第一SRAM 302及神經網路306之間，並組態成選擇儲存在第一SRAM 302中的一或多個設定檔，以套用於神經網路306。一本地設定檔資料庫因此是建構在智慧型引擎300中。

可選地，智慧型引擎300可進一步包括一後設緩衝器308，其接收外部資料，並連接至第一多工器304。

可選地，第一多工器304可進一步連接至一快閃記憶體310，其儲存更多設定檔。快閃記憶體310可不在智慧型引擎300內。

一應用處理器子系統320是標示成「AP子系統」。應用處理器子系統320不屬於智慧型引擎300的一部分。

應用處理器子系統320包括一第二SRAM 322、一記憶體空間324、及一第二多工器 326。第二SRAM 322及記憶體空間324是連接至第二多工器326，而第二多工器326是例如透過SPI、I2C、I3C、及／或SLIMbus來與智慧型引擎300的後設緩衝器308通訊。第二SRAM 322可為一晶片上的SRAM，但不限於此。記憶體空間可為一NAND快閃、一DRAM、或一NVRAM，但不限於此。第二多工器326是組態成選擇儲存在第二SRAM 322或記憶體空間中的一或多個設定檔324，並傳送至智慧型引擎300的後設緩衝器308。一外部設定檔資料庫因此是建構在應用處理器子系統320中。

（運作順序）

圖10顯示根據本發明的一實施例的智慧型引擎400與感測器402及404、及應用／主機處理器通訊的方塊示意圖。在圖10中，在圓圈中的數字是指本發明的智慧型引擎400的運作順序。

圖11顯示根據本發明的一實施例的智慧型引擎400的操作方法的流程圖。

智慧型引擎400可具有如前述圖2、圖8、及圖9的實施例、或它們可能的變化的該些組態或功能。

在此實施例中，智慧型引擎400是實現成在單一晶片上的積體電路裝置。晶片在例如一邊緣裝置上安裝好後，需要建立智慧型引擎400、感測器402及404、及應用／主機處理器406之間的通訊的一過程。在安裝完成後，智慧型引擎400即可開始運作。

請同時參照圖10及圖11，本發明的智慧型引擎400的操作方法包括以下步驟：

步驟S1是使用應用／主機處理器406以設定智慧型引擎400。可透過匯流排I3C、I2C、SPI、MIPI、I2S、及／或CPI來完成設定。亦可使用序列匯流排、平行匯流排、或其他種類的匯流排，其取決於實際應用。

步驟S2是使用智慧型引擎400以設定多個感測器402及404。可透過匯流排I3C、I2C、SPI、MIPI、I2S、及／或CPI來完成設定。感測器402及404可包括一聲音感測器或一影像感測器。感測器402及404自例如現實世界或網路產生感測器資料。

步驟S3是使用智慧型引擎400以自感測器資料提取多個特徵、物件、或場景。感測器資料可為聲音資料、影像資料、或其他形態的資料。

步驟S4是使用智慧型引擎400以在處理提取的該些特徵、物件、或場景後，獲得後設資料。後設資料可透過匯流排I3C、I2C、SPI、MIPI、I2S、及／或CPI來傳送。

在一實施例中，可存在額外步驟S5。步驟S5是使用智慧型引擎400，在智慧型引擎判斷提取的該些特徵、物件、或場景滿足一指定條件時，提示應用／主機處理器。提示可為透過一中斷接腳所傳送的一中斷請求（interrupt request，IRQ）。

（應用）

本發明的智慧型引擎的一應用，是透過用於偵測基礎聲音指令、關鍵字、動物聲、音樂、人類對話、汽車聲、飛機聲、或其他基礎聲音的一廣義設定檔來分析聲音內容；接著，當基礎聲音指令、關鍵字、或其他基礎聲音特徵的偵測滿足特定條件時，使用更特定設定檔來判斷更特定聲音形態（pattern），例如，狗叫聲。

進而，智慧型引擎可自來源聲音提取感興趣部分，並將感興趣部分直接輸出至一應用處理器或一主機處理器，或者，它可基於感興趣部分繼續執行一細部分析。此外，智慧型引擎可針對來源聲音進行降噪，並將降噪過的聲音直接輸出至應用處理器或主機處理器，或者，它可基於降噪過的聲音繼續執行聲音內容的細部分析。

本發明的智慧型引擎的另一應用，是透過用於偵測基本物件、物件形狀、物件尺寸、或其他基本特徵的一廣義設定檔來分析影像內容；接著，當基本物件、物件形狀、物件尺寸、或其他基本特徵滿足特定條件時，使用一更特定設定檔來辨識更特定影像形式，例如一QR碼、一動物、一標誌、一臉部等。

圖12顯示本發明的智慧型引擎500的混合性應用的方塊示意圖。

智慧型引擎500是用於以聲音及影像的混合式的多個設定檔來分析多個聲音及多個影像兩者。多個設定檔可基於一分時機制（或時序穿插）在彼此之間切換。

例如，當前設定檔可為建構一視覺神經網路502的一影像設定檔，而當偵測到一動物外形時，下一個設定檔將變成建構一聲音神經網路504的一聲音設定檔，以偵測動物聲音。

再例如，當前設定檔可為建構一聲音神經網路504的一聲音設定檔，而當聽到「付款」的一聲音指令時，下一個設定檔將變成建構一視覺神經網路502的一影像設定檔，以偵測QR碼。

（技術功效）

有賴於低功耗的優點，智慧型引擎可持續開啟（always-on）。

如圖12所示，感測器資料，例如多個原始聲音或多個原始影像，是受保護的，因為在應用軟體存取它們前，智慧型引擎就處理過它們。如此，確保了使用者的隱私。其避免了因應用軟體遭到駭客入侵所致的非法追蹤。

智慧型引擎可處理混合式的感測器資料，至少包括聲音及影像。

智慧型引擎可自混合式的感測器資料來分析並提取多個特徵、物件、或場景。

智慧型引擎可最小化網路的上行資料頻寬（upstream data bandwidth）及／或應用處理器負載（AP loading）。

可實現智慧感覺事件（intelligent sensory event）的中斷，例如，語音喚醒（wake on voice，WoV）、關鍵詞檢測（keyword spotting，KWS）、QR碼偵測、標誌偵測等。

根據模擬結果，在影像處理中，本發明的智慧型引擎基於一MobileNet神經網路，可在影格率每秒5影格（5 fps）下，自一QQVGA（160 x 120）提取一千（1K）種特徵、物件、或場景。

在聲音處理中，本發明的智慧型引擎可每4秒自十種類別辨識出一聲音情境。

模擬的結果是用來確認本發明的智慧型引擎的功能及執行，並非用於限制本發明的權利範圍。

儘管本發明已透過其較佳實施例來說明，應理解的是，只要不背離本發明的精神及申請專利範圍所主張者，可作出許多其他可能的修飾及變化。

100‧‧‧智慧型引擎 102‧‧‧緩衝器 104‧‧‧預處理模組（基礎神經網路） 106‧‧‧設定檔蒐集器 108‧‧‧挑揀器 110‧‧‧主處理模組（專門神經網路） 112‧‧‧後設緩衝器 120‧‧‧感測器 200‧‧‧智慧型引擎 202‧‧‧第一緩衝器 204‧‧‧RGB至Y模組 206‧‧‧第二緩衝器 208‧‧‧基礎神經網路 210‧‧‧設定檔蒐集器 212‧‧‧模糊偵測器 214‧‧‧挑揀器 216‧‧‧專門神經網路 218‧‧‧第一後設緩衝器 230‧‧‧影像感測器 300‧‧‧智慧型引擎 302‧‧‧第一SRAM 304‧‧‧第一多工器 306‧‧‧神經網路 308‧‧‧後設緩衝器 310‧‧‧快閃記憶體 320‧‧‧應用處理器子系統 322‧‧‧第二SRAM 324‧‧‧記憶體空間 326‧‧‧第二多工器 400‧‧‧智慧型引擎 402‧‧‧感測器 404‧‧‧感測器 406‧‧‧應用／主機處理器 500‧‧‧智慧型引擎 502‧‧‧視覺神經網路 504‧‧‧聲音神經網路 S1‧‧‧步驟 S2‧‧‧步驟 S3‧‧‧步驟 S4‧‧‧步驟 S5‧‧‧步驟

圖1顯示先前技術的伺服器與邊緣裝置之間的深度神經網路架構的示意圖。圖2顯示根據本發明的一實施例的智慧型引擎的方塊圖。圖3顯示根據本發明的多個設定檔的示意圖。圖4顯示設定檔階層的一示例。圖5顯示設定檔階層的另一示例。圖6顯示設定檔關係的一示例。圖7顯示部分更新的設定檔的一示例。圖8顯示根據本發明的一實施例的智慧型引擎並用於影像處理的方塊示意圖。圖9顯示根據本發明的一實施例的智慧型引擎的資料存取的方塊示意圖。圖10顯示根據本發明的一實施例的智慧型引擎與感測器及應用／主機處理器通訊的方塊示意圖。圖11顯示根據本發明的一實施例的智慧型引擎的操作方法的流程圖。圖12顯示本發明的智慧型引擎的混合性應用的方塊示意圖。

100‧‧‧智慧型引擎

102‧‧‧緩衝器

104‧‧‧預處理模組(基礎神經網路)

106‧‧‧設定檔蒐集器

108‧‧‧挑揀器

110‧‧‧主處理模組(專門神經網路)

112‧‧‧後設緩衝器

120‧‧‧感測器

Claims

一種智慧型引擎，包括：一設定檔蒐集器，組態成儲存多個設定檔，一或多個合適的設定檔是根據來自一使用者或一自動選擇器的一指令來動態受選擇；及一主處理模組，連接至該設定檔蒐集器，且直接或間接連接至一感測器，該主處理模組是組態成執行一細部分析，以基於來自該感測器的感測器資料來判斷多個特徵、物件、或場景的多個細部特性。
如請求項1所述的智慧型引擎，更包括一緩衝器，組態成儲存來自該感測器的感測器資料。
如請求項2所述的智慧型引擎，更包括一預處理模組，連接至該感測器及／或該緩衝器，該預處理模組是組態成基於該感測器資料來執行一初步分析；該設定檔蒐集器是連接至該預處理模組，該預處理模組是該自動選擇器。
如請求項3所述的智慧型引擎，其中該預處理模組是一基礎神經網路，而該主處理模組是一專門神經網路。
如請求項4所述的智慧型引擎，更包括一挑揀器，連接至該緩衝器及該預處理模組，該挑揀器是組態成自該緩衝器選擇一或多個合適的感測器資料；該主處理模組是連接至該挑揀器，且組態成自該挑揀器接收該合適的感測器資料。
如請求項4所述的智慧型引擎，其中該預處理模組是組態成比起該主處理模組具有一廣義功能或一簡化結構。
如請求項4所述的智慧型引擎，其中該預處理模組是組態成自該設定檔蒐集器選擇該一或多個合適的設定檔，以套用於該主處理模組。
如請求項1所述的智慧型引擎，其中該些設定檔分別對應於不同類別。
如請求項1所述的智慧型引擎，其中各該些設定檔包括一分析模型、多個模型參數、及多個壓縮設定，其等定義該主處理模組。
如請求項5所述的智慧型引擎，其中該挑揀器是組態成根據來自該預處理模組及／或該挑揀器自行決定的另一指令來選擇。
如請求項1所述的智慧型引擎，其中該設定檔蒐集器包括一多工器，組態成選擇該些設定檔。
如請求項11所述的智慧型引擎，其中該多工器是組態成自該智慧型引擎的一內部SRAM、一外部快閃、或一額外後設緩衝器選擇該些設定檔，該額外後設緩衝器通訊於一應用處理器子系統。
一種智慧型引擎，包括：一第一緩衝器，組態成儲存來自一影像感測器的多個原始影像；一RGB至Y模組，連接至該影像感測器及／或該第一緩衝器，該RGB至Y模組是組態成將多個彩色影像處理成多個灰階影像；一第二緩衝器，連接至該RGB至Y模組，該第二緩衝器是組態成儲存該些灰階影像；一基礎神經網路，連接至該RGB至Y模組及該第二緩衝器，該基礎神經網路是組態成執行一初步分析，以自該些灰階影像提取多個基本特徵、物件、或場景；一設定檔蒐集器，連接至該基礎神經網路，該設定檔蒐集器是組態成儲存多個設定檔；一挑揀器，連接至該第一緩衝器、該第二緩衝器、及該基礎神經網路，該挑揀器是組態成自該第一緩衝器及／或該第二緩衝器選擇一或多個合適的影像；及一專門神經網路，連接至該設定檔蒐集器及該挑揀器，該專門神經網路是組態成執行一細部分析，以基於該些合適的影像來判斷多個特徵、物件、或場景的多個細部特性。
如請求項13所述的智慧型引擎，更包括一第一後設緩衝器，連接至該基礎神經網路、及／或一第二後設緩衝器，連接至該專門神經網路。
如請求項14所述的智慧型引擎，其中該第一後設緩衝器及／或該第二後設緩衝器是由SPI、I2C、I3C、及／或SLIMbus的一介面來讀取。
如請求項13所述的智慧型引擎，更包括一模糊偵測器，連接在該第二緩衝器與該挑揀器之間，該模糊偵測器是組態成偵測多個模糊影像，並協助該挑揀器來過濾掉該些模糊影像，而保留多個清晰影像。
如請求項13所述的智慧型引擎，其中該些設定檔是儲存在該智慧型引擎本身，或儲存在該應用處理器上的一快閃記憶體、一SRAM、一DRAM、或一NVRAM、或任何記憶體空間、或由SPI、I2C、I3C、及／或SLIMbus的一介面來存取自該智慧型引擎外部的一儲存空間。
如請求項13所述的智慧型引擎，其中該基礎神經網路是組態成取決於該基礎神經網路的該初步分析所提供的多個初步結果、一現行狀態、一先前狀態、時間資訊、及／或地點資訊來選擇該些設定檔。
如請求項13所述的智慧型引擎，其中該挑揀器是組態成取決於該基礎神經網路的該初步分析所提供的多個初步結果、該模糊偵測器的一決定、一現行狀態、一先前狀態、時間資訊、及／或地點資訊來選擇該些影像。
一種操作智慧型引擎的方法，該智慧型引擎是通訊於一應用／主機處理器、及多個感測器，該方法包括：步驟S1：使用該應用／主機處理器以設定該智慧型引擎；步驟S2：使用該智慧型引擎以設定該些感測器，該些感測器是組態成產生感測器資料；步驟S3：使用該智慧型引擎以自該感測器資料提取多個特徵、物件、或場景；及步驟S4：使用該智慧型引擎以在處理提取的該些特徵、物件、或場景後，獲得後設資料。
如請求項20所述的操作智慧型引擎的方法，更包括步驟S5，該步驟S5是使用該智慧型引擎來當該智慧型引擎判斷提取的該些特徵、物件、或場景滿足一指定條件，提示該應用／主機處理器。
如請求項21所述的操作智慧型引擎的方法，其中該智慧型引擎包括：一緩衝器，組態成自一感測器儲存感測器資料；一設定檔蒐集器，組態成儲存多個設定檔，一或多個合適的設定檔是根據來自一使用者或一自動選擇器的一指令來動態受選擇；及一專門神經網路，連接至該設定檔蒐集器，且直接或間接連接至該緩衝器，該專門神經網路是組態成執行一細部分析，以基於合適的感測器資料來判斷多個特徵、物件、或場景的多個細部特性。