TW201827107A

TW201827107A - 飛行器飛行控制方法、裝置、飛行器及系統

Info

Publication number: TW201827107A
Application number: TW107101731A
Authority: TW
Inventors: 王潔梅; 黃盈; 周大軍; 朱傳聰; 孫濤; 康躍騰; 張曉明; 張力
Original assignee: 大陸商騰訊科技（深圳）有限公司
Priority date: 2017-01-24
Filing date: 2018-01-17
Publication date: 2018-08-01
Also published as: TWI667054B

Abstract

本申請實施例提供一種飛行器飛行控制方法、裝置、飛行器及系統，該方法包括：獲取用戶圖像；識別所述用戶圖像中的用戶手勢；根據預定義的各用戶手勢與飛行指令的對應關係，確定所述用戶手勢對應的飛行指令；根據所述飛行指令控制飛行器飛行。本申請實施例可通過用戶手勢控制飛行器的飛行，飛行器的飛行控制操作極為便捷，可達到便捷的實現飛行器的飛行控制的目的。

Description

飛行器飛行控制方法、裝置、飛行器及系統

本申請涉及飛行器技術領域。

無人機等飛行器在監控、安防、航拍等領域應用廣泛，飛行器的飛行控制一般由用戶操作實現；目前一種主流的飛行器飛行控制方式是，用戶通過與飛行器配對的遙控器對飛行器的飛行進行控制。

然而，採用遙控器進行飛行器的飛行控制，需要用戶熟悉遙控器的使用方式，才能對飛行器的飛行進行較為熟練且精準的控制，如遙控器一般設置有控制飛行器飛行方向的方向按鍵或者操作搖桿，用戶需要熟練使用方向按鍵或者操作搖桿，才可能對飛行器進行較為熟練且精准的飛行控制。這樣導致飛行器的飛行控制對於大多數人來說並不便捷。

本申請實施例提供一種飛行器飛行控制方法、裝置、飛行器及系統，可以更便捷的實現飛行器的飛行控制。

一方面，本申請實施例提供如下技術方案：一種飛行器飛行控制方法，應用於飛行器，所述方法包括：獲取用戶圖像；識別所述用戶圖像中的用戶手勢；根據預定義的各用戶手勢與飛行指令的對應關係，確定所述用戶手勢對應的飛行指令；根據所述飛行指令控制飛行器飛行。

一方面，本申請實施例還提供一種飛行器飛行控制裝置，應用於飛行器，所述飛行器飛行控制裝置包括：圖像獲取模組，用於獲取用戶圖像；手勢識別模組，用於識別所述用戶圖像中的用戶手勢；飛行指令確定模組，用於根據預定義的各用戶手勢與飛行指令的對應關係，確定所述用戶手勢對應的飛行指令；飛行控制模組，用於根據所述飛行指令控制飛行器飛行。

一方面，本申請實施例還提供一種飛行器，包括：圖像採集裝置和處理晶片；所述處理晶片包括上述飛行器飛行控制裝置。

一方面，本申請實施例還提供一種飛行器飛行控制系統，包括：地面圖像採集裝置和飛行器；所述地面圖像採集裝置，用於採集用戶圖像，並傳輸給該飛行器；所述飛行器包括處理晶片；所述處理晶片，用於獲取地面圖像採集裝置傳輸的用戶圖像；識別所述用戶圖像中的用戶手勢；根據預定義的各用戶手勢與飛行指令的對應關係，確定所述用戶手勢對應的飛行指令；根據所述飛行指令控制飛行器飛行。

一方面，本申請實施例還提供一種飛行器飛行控制系統，包括：地面圖像採集裝置，地面處理晶片和飛行器；所述地面圖像採集裝置，用於採集用戶圖像，並傳輸給地面處理晶片；所述地面處理晶片，用於獲取地面圖像採集裝置傳輸的用戶圖像；識別所述用戶圖像中的用戶手勢；根據預定義的各用戶手勢與飛行指令的對應關係，確定所述用戶手勢對應的飛行指令；將所述飛行指令傳輸給飛行器；所述飛行器包括處理晶片；所述處理晶片，用於獲取所述飛行指令，根據所述飛行指令控制飛行器飛行。基於上述技術方案，本申請實施例提供的飛行器飛行控制方法中，飛行器可獲取用戶圖像，識別所述用戶圖像中的用戶手勢，從而根據預定義的各用戶手勢與飛行指令的對應關係，確定所識別的用戶手勢對應的飛行指令，根據所述飛行指令控制飛行器飛行，實現對飛行器的飛行控制。本申請實施例提供的飛行器飛行控制方法，可通過用戶手勢控制飛行器的飛行，飛行器的飛行控制操作極為便捷，可達到便捷的實現飛行器的飛行控制的目的。

一方面，本申請實施例提供了檢測文檔閱讀順序的方法和裝置，能夠準確識別各類文檔圖片的文檔閱讀順序。

本申請一方面提供檢測文檔閱讀順序的方法，包括：識別文檔圖片中包含的文本塊，構建一個塊集合；從所述塊集合中確定出一起始文本塊；根據該起始文本塊的特徵資訊對該起始文本塊執行尋徑操作，以確定出所述塊集合中與該起始文本塊對應的第一文本塊；文本塊的特徵資訊包括該文本塊在文檔圖片中的位置資訊以及該文本塊的版面佈局資訊；根據所述第一文本塊的特徵資訊對該第一文本塊執行尋徑操作，以確定出所述塊集合中與該第一文本塊對應的文本塊；並依此類推直到所述塊集合中每一個文本塊對應的尋徑操作的執行順序能夠唯一確定；及確定所述塊集合中文本塊對應的尋徑操作的執行順序，根據所述執行順序得到所述文檔圖片中文本塊的閱讀順序。

本申請另一方面提供一種檢測文檔閱讀順序的裝置，包括：塊識別模組，用於識別文檔圖片中包含的文本塊，構建一個塊集合；起始塊選擇模組，用於從所述塊集合中確定出一起始文本塊；自動尋徑模組，用於根據該起始文本塊的特徵資訊對該起始文本塊執行尋徑操作，以確定出所述塊集合中與該起始文本塊對應的第一文本塊；文本塊的特徵資訊包括該文本塊在文檔圖片中的位置資訊以及該文本塊的版面佈局資訊；根據所述第一文本塊的特徵資訊對該第一文本塊執行尋徑操作，以確定出所述塊集合中與該第一文本塊對應的文本塊；並依此類推直到所述塊集合中每一個文本塊對應的尋徑操作的執行順序能夠唯一確定；及順序確定模組，用於確定所述塊集合中文本塊對應的尋徑操作的執行順序，根據所述執行順序得到所述文檔圖片中文本塊的閱讀順序。

基於上述實施例提供的檢測文檔閱讀順序的方法和裝置，首先識別文檔圖片中包含的文本塊，構建一個塊集合；從塊集合中確定出一起始文本塊；從起始文本塊開始尋徑，根據文本塊的位置資訊以及版面佈局資訊決定下一步應該走到哪一個文本塊，依次類推得出文檔圖片包含的全部文本塊的閱讀順序。該方案能夠相容多種場景，對文檔圖片的尺寸、雜訊、樣式具有更好的穩健(Robust)性，因此能夠準確識別各類文檔圖片對應的文檔閱讀順序。

一種語音資料集訓練方法，包括：讀取從第一語音資料集中選取資料所生成的第一測試集，以及對所述第一語音資料集進行訓練得到的第一語音模型參數；獲取第二語音資料集，從所述第二語音資料集中隨機選取資料生成第二測試集；檢測到所述第二測試集與所述第一測試集滿足相似條件，則採用所述訓練得到的第一語音模型參數對所述第二語音資料集進行第二語音模型訓練。

一種語音資料集訓練裝置，包括：讀取模組，用於讀取從第一語音資料集中選取資料所生成的第一測試集，以及對所述第一語音資料集進行訓練得到的第一語音模型參數；獲取模組，用於獲取第二語音資料集，從所述第二語音資料集中隨機選取資料生成第二測試集；訓練模組，用於檢測到所述第二測試集與所述第一測試集滿足相似條件，則採用所述訓練得到的第一語音模型參數對所述第二語音資料集進行第二語音模型訓練。

上述語音資料集訓練方法和裝置，檢測到從第二語音資料集中選取資料生成的第二測試集與從第一語音資料集中選取資料生成的第一測試集滿足相似條件，採用第一語音資料集訓練得到的第一語音模型參數對第二語音資料集進行第二語音模型訓練，節省了對第二語音資料集進行第一語音模型訓練，節省了總的訓練時長，提高了訓練效率。

1‧‧‧飛行器

2‧‧‧地面圖像採集裝置

3‧‧‧用戶設備

4‧‧‧地面處理晶片

11‧‧‧圖像採集裝置

12‧‧‧處理晶片

52、62‧‧‧第一層

54、64‧‧‧第二層

56、66‧‧‧第三層

100‧‧‧圖像獲取模組

200‧‧‧手勢識別模組

300‧‧‧飛行指令確定模組

400‧‧‧飛行控制模組

500‧‧‧訓練模組

600‧‧‧角度調整模組

700‧‧‧手勢位置確定模組

1210‧‧‧塊識別模組

1220‧‧‧起始塊選擇模組

1230‧‧‧自動尋徑模組

1240‧‧‧順序確定模組

1250‧‧‧訓練模組

1260‧‧‧文本識別模組

3800‧‧‧語音資料集訓練裝置

3802‧‧‧讀取模組

3804‧‧‧獲取模組

3806‧‧‧訓練模組

3808‧‧‧生成模組

3810‧‧‧模型構建模組

3812‧‧‧篩選模組

3814‧‧‧參數獲取模組

3816‧‧‧檢測模組

S100、S110、S120、S130‧‧‧步驟

S200、S210、S220、S230、S240、S250、S260‧‧‧步驟

S300、S310、S320、S330、S340、S350‧‧‧步驟

S400、S410、S420、S430、S440‧‧‧步驟

S500、S510、S520、S530、S540、S550、S560‧‧‧步驟

S600、S610、S620、S630‧‧‧步驟

S700、S710、S720‧‧‧步驟

S800、S810、S820‧‧‧步驟

S900、S910、S920、S930、S940‧‧‧步驟

S1000、S1010、S1020、S1030、S1040、S1050‧‧‧步驟

S1100、S1110、S1120、S1130、S1140‧‧‧步驟

1302、1304、1306‧‧‧步驟

1402、1404、1406、1408‧‧‧步驟

1502、1504、1506、1508、1510、1512、1514、1516‧‧‧步驟

DNN‧‧‧深度神經網路

GMM‧‧‧高斯混合模型

GPRS‧‧‧通用分組無線服務技術

HMM‧‧‧隱馬爾科夫模型

HOG‧‧‧方向梯度直方圖

MAV Link‧‧‧微型空中飛行器鏈路通訊協定

OCR‧‧‧光學文字辨識

ROM‧‧‧唯讀儲存記憶體

RAM‧‧‧隨機儲存記憶體

Sigmoid‧‧‧S型的非線性函數

SVM‧‧‧支援向量機

WER‧‧‧字識別錯誤率

為了更清楚地說明本發明實施例中的技術方案，下面將對實施例描述中所需要使用的附圖作簡單地介紹：圖1為本申請實施例提供的飛行器的飛行控制示意圖；圖2為本申請實施例提供的用戶手勢控制飛行器飛行的示意圖；圖3為本申請實施例提供的飛行器的另一飛行控制示意圖；圖4為本申請實施例提供的飛行器的再一飛行控制示意圖；圖5為本申請實施例提供的飛行器飛行控制方法的流程圖；圖6為本申請實施例提供的飛行器飛行控制方法的另一流程圖；圖7為本申請實施例提供的飛行器飛行控制方法的再一流程圖；圖8為本申請實施例提供的飛行器飛行控制方法的又一流程圖；圖9為本申請實施例提供的飛行器的飛行場景示意圖；圖10為本申請實施例提供的飛行器的另一飛行場景示意圖；圖11為本申請實施例提供的飛行器飛行控制方法的又另一流程圖；圖12為本申請實施例提供的飛行器的又一飛行控制示意圖；圖13為本申請實施例提供的飛行器的飛行控制方法的另一流程圖；圖14為確定飛行器調整的水準移動距離的方法流程圖；圖15為確定飛行器調整的水準移動距離的示意圖；圖16為確定飛行器調整的垂直移動距離的方法流程圖；圖17為確定飛行器調整的垂直移動距離的示意圖；圖18為本申請實施例提供的飛行器的飛行控制方法的另一流程圖；圖19為飛行器的飛行路線控制示例圖；圖20為本申請實施例提供的飛行器的飛行控制方法的另一流程圖。

圖21為本申請實施例提供的飛行器飛行控制裝置的結構框圖；圖22為本申請實施例提供的飛行器飛行控制裝置的另一結構框圖；圖23為本申請實施例提供的飛行器飛行控制裝置的另一結構框圖；圖24為本申請實施例提供的飛行器飛行控制裝置的另一結構框圖；圖25為本申請實施例的技術方案的工作環境示意圖；圖26為本申請實施例中檢測文檔閱讀順序的方法的一個示意性流程圖；圖27為本申請實施例中文檔圖片包含的一個文本塊示意圖；圖28為本申請實施例中文檔圖片包含的另一個文本塊示意圖；圖29為本申請實施例中神經網路模型的示意圖；圖30為本申請實施例中根據訓練樣本訓練神經網路模型的示意流程圖；圖31為本申請實施例中檢測文檔閱讀順序的方法的另一個示意性流程圖；圖32為本申請實施例中電腦設備的內部結構示意圖；圖33為本申請實施例中語音資料集訓方法的一個流程圖；圖34為本申請實施例中語音資料集訓練方法的另一個流程圖；圖35為本申請實施例中語音資料集訓練方法的另一個流程圖；圖36為本申請實施例中HMM+GMM模型的一個結構示意圖；圖37為本申請實施例中HMM+GMM模型的另一個結構示意圖；圖38為本申請實施例中語音資料集訓練裝置的一個結構框圖；圖39為本申請實施例中語音資料集訓練裝置的另一個結構框圖；圖40為本申請實施例中語音資料集訓練裝置的另一個結構框圖。

請參照圖式，其中相同的元件符號代表相同的元件或是相似的元件，本發明的原理是以實施在適當的運算環境中來舉例說明。以下的說明是基於所例示的本發明具體實施例，其不應被視為限制本發明未在此詳述的其他具體實施例。

下面將結合本申請實施例中的附圖，對本申請實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本申請一部分實施例，而不是全部的實施例。

區別于現有採用遙控器對飛行器進行飛行控制的方式，本申請實施例可通過用戶手勢控制飛行器的飛行，飛行器可獲取用戶圖像，識別用戶圖像中的用戶手勢，從而以用戶手勢相應的飛行指令進行飛行控制，達到便捷的實現飛行器的飛行控制的目的。

如圖1所示飛行器的飛行控制示意圖，飛行器1可設置有圖像採集裝置11和處理晶片12；用戶可在飛行器周圍操作手勢，飛行器的圖像採集裝置可即時或定時採集用戶圖像，並傳輸至處理晶片；用戶圖像可以包括用戶人像以及背景圖像；飛行器的處理晶片可識別用戶圖像中的用戶手勢，根據預定的各用戶手勢與飛行指令的對應關係，確定所識別的用戶手勢對應的飛行指令，從而以所確定的飛行指令進行飛行控制；下表1示出了一種可選的用戶手勢與飛行指令的對應關係，圖2示出了相應的用戶手勢控制飛行器飛行的示意圖，可參照；顯然，表1和圖2所示僅為可選示例，用戶手勢與飛行指令的對應關係，可以根據實際需要進行定義；

圖1所示飛行控制示意圖需要飛行器能夠拍攝到用戶圖像，才能使得飛行器的處理晶片能夠識別出用戶圖像中的用戶手勢，根據用戶手勢相應的飛行指令進行飛行控制；這種方式需要飛行器飛行在用戶的周圍，能夠拍攝到用戶圖像，限制了飛行器遠離用戶執行航拍等飛行任務的情況。

基於此，圖3示出了基於用戶手勢控制飛行器飛行思路下的另一飛行控制示意圖，參照圖3，設置於用戶附近的地面圖像採集裝置2可採集用戶圖像，並傳輸給飛行器1，飛行器的處理晶片12獲取到地面圖像採集裝置採集的用戶圖像，可識別用戶圖像中的用戶手勢，根據預定的各用戶手勢與飛行指令的對應關係，確定所識別的用戶手勢對應的飛行指令，從而以所確定的飛行指令進行飛行控制；可見，本申請實施例也可通過地面圖像採集裝置採集用戶圖像，地面圖像採集裝置可通過通用分組無線服務技術(General Packet Radio Service，GPRS)，微型空中飛行器鏈路通訊協定(Micro Air Vehicle Link，MAV Link)等無線通信技術，將所採集的用戶圖像傳輸給飛行器的處理晶片；從而飛行器的處理晶片可識別所獲取的用戶圖像中的用戶手勢，根據相應的飛行指令進行飛行控制；如此，利用無線通信技術，在地面圖像採集裝置與飛行器間傳輸用戶圖像，飛行器可遠離用戶飛行，執行航拍等飛行任務；進一步，如圖4所示，飛行器本身自帶的圖像採集裝置11可採集執行航拍等飛行任務時的任務圖像，並傳輸給用戶手機等用戶設備3，以便向用戶展示飛行器採集的任務圖像；同時，用戶可基於所展示的任務圖像，操作不同的手勢，對飛行器執行飛行任務過程中的飛行進行控制。

下面站在飛行器的角度，對本申請實施例提供的飛行器飛行控制方法進行介紹，下文描述的飛行器飛行控制方法可與上文描述內容相互對應參照。

圖5為本申請實施例提供的飛行器飛行控制方法的流程圖，該方法可應用於飛行器，具體可以應用於飛行器的處理晶片，參照圖5，該方法可以包括：

步驟S100、獲取用戶圖像。

可選的，用戶圖像可由飛行器自帶的圖像採集裝置採集得到，即飛行器的處理晶片可獲取飛行器的圖像採集裝置所採集的用戶圖像，實現對用戶圖像的獲取；可選的，用戶圖像也可以是由地面圖像採集裝置採集得到，地面圖像採集裝置可通過無線通信技術，將所採集的用戶圖像傳輸給飛行器的處理晶片，以實現對用戶圖像的獲取。

步驟S110、識別所述用戶圖像中的用戶手勢。

一種可能實現方式中，本申請實施例可根據膚色檢測演算法，從所述用戶圖像中識別出用戶手勢；具體的，本申請實施例可根據膚色檢測演算法，識別用戶圖像中的人體皮膚區域，從人體皮膚區域中提取用戶手勢區域，將用戶手勢區域的輪廓特徵，與預置的各標準用戶手勢的輪廓特徵進行匹配，確定與所述用戶手勢區域的輪廓特徵匹配度最高的標準用戶手勢，從而將所確定的標準用戶手勢作為從所述用戶圖像中識別的用戶手勢，實現對所述用戶圖像中用戶手勢的識別。

另一種可能實現方式中，對於各標準用戶手勢，本申請實施例也可採集含有標準用戶手勢的大量用戶圖像，作為各標準用戶手勢對應的圖像樣本；從而根據支援向量機(Support Vector Machine，SVM)等機器訓練方法，以各標準用戶手勢對應的圖像樣本，訓練出各標準用戶手勢的檢測器；進而採用各標準用戶手勢的檢測器，分別檢測步驟S100獲取的用戶圖像，得到各標準用戶手勢的檢測器對所述用戶圖像的檢測結果，根據所述用戶圖像的檢測結果確定從所述用戶圖像中識別的用戶手勢，實現對所述用戶圖像中用戶手勢的識別。

顯示，上述描述的從用戶圖像中識別用戶手勢的方式僅是可選的，本申請實施例也可採用其他的能夠從用戶圖像中識別用戶手勢的方案。

步驟S120、根據預定義的各用戶手勢與飛行指令的對應關係，確定所述用戶手勢對應的飛行指令。

各用戶手勢與飛行指令的對應關係的一種可選示例可如表1所示，在識別出所述用戶圖像中的用戶手勢後，可根據預定義的各用戶手勢與飛行指令的對應關係，確定出所識別的用戶手勢對應的飛行指令，從而控制飛行器以所確定的飛行指令進行飛行。

可選的，若所識別的用戶手勢，在所述預定義的各用戶手勢與飛行指令的對應關係中，對應有飛行指令，則可確定出所述用戶手勢對應的飛行指令，後續可根據所述飛行指令控制飛行器飛行；若所識別的用戶手勢，在所述預定義的各用戶手勢與飛行指令的對應關係中，不對應有飛行指令，即所識別的用戶手勢不對應有飛行指令，則可結束流程，不進行飛行器的飛行控制。

步驟S130、根據所述飛行指令控制飛行器飛行。

本申請實施例提供的飛行器飛行控制方法中，飛行器可獲取用戶圖像，識別所述用戶圖像中的用戶手勢，從而根據預定義的各用戶手勢與飛行指令的對應關係，確定所識別的用戶手勢對應的飛行指令，根據所述飛行指令控制飛行器飛行，實現對飛行器的飛行控制。本申請實施例提供的飛行器飛行控制方法，可通過用戶手勢控制飛行器的飛行，飛行器的飛行控制操作極為便捷，可達到便捷的實現飛行器的飛行控制的目的。

可選的，本申請實施例可根據膚色檢測演算法，從所述用戶圖像中識別出用戶手勢，圖6示出了本申請實施例提供的飛行器飛行控制方法的另一流程圖，該方法可應用於飛行器，具體可以應用於飛行器的處理晶片，參照圖6，該方法可以包括：

步驟S200、獲取用戶圖像。

可選的，飛行器的攝像頭等圖像採集裝置可即時的採集視頻幀，得到採集的用戶圖像，並將即時採集的用戶圖像傳輸給飛行器的處理晶片；可選的，地圖圖像採集裝置也可即時的採集視頻幀，得到採集的用戶圖像，並將即時採集的用戶圖像通過無線通信技術傳輸給飛行器的處理晶片。

步驟S210、根據膚色檢測演算法，識別用戶圖像中的人體皮膚區域。

可選的，可根據皮膚的高斯混合模型(Gaussian Mixture Model，GMM)模型，從用戶圖像中識別出人體皮膚區域。

步驟S220、去除所述人體皮膚區域中的人臉區域，得到用戶手勢區域。

可選的，本申請實施例可根據人臉檢測演算法，識別所述人體皮膚區域中的人臉區域，並進行去除。

可選的，從用戶圖像中的人體皮膚區域中去除人臉區域後，所得到的用戶手勢區域可能僅包含用戶人手(如用戶的穿著較為嚴密，僅裸露了人臉和人手)，也可能包含用戶的胳膊(如用戶穿著背心或者短袖的情況)、腿部(如用戶穿著短褲的情況)等；但從用戶圖像中的人體皮膚區域中去除人臉區域後，可以認為剩餘的人體皮膚區域主要是人手的皮膚區域，因此本申請實施例可將用戶圖像中去除人臉區域的人體皮膚區域，直接作為用戶手勢區域使用。

可選的，步驟S210和步驟S220示出了通過膚色檢測演算法，從用戶圖像中提取用戶手勢區域的可選方式。

步驟S230、提取所述用戶手勢區域的輪廓特徵。

步驟S240、將所述用戶手勢區域的輪廓特徵，與預置的各標準用戶手勢的輪廓特徵進行匹配，確定與所述用戶手勢區域的輪廓特徵匹配度最高的標準用戶手勢，得到從所述用戶圖像中識別的用戶手勢。

在得到用戶手勢區域後，本申請實施例可提取所述用戶手勢區域的輪廓特徵，將所述用戶手勢區域的輪廓特徵，與預置的各標準用戶手勢的輪廓特徵進行匹配，確定匹配度最高的標準用戶手勢，將所確定的匹配度最高的標準用戶手勢作為從所述用戶圖像中識別的用戶手勢。

可選的，步驟S230至步驟S240示出了在從用戶圖像中提取用戶手勢區域後，基於與標準用戶手勢的輪廓特徵的比對，識別所提取的用戶手勢區域對應的用戶手勢，得到所述用戶圖像中的用戶手勢的可選方式。

步驟S210至步驟S240可以認為是圖5所示步驟S110的可選實現方式。

步驟S250、根據預定義的各用戶手勢與飛行指令的對應關係，確定所述用戶手勢對應的飛行指令。

步驟S260、根據所述飛行指令控制飛行器飛行。

可選的，圖6示出了根據膚色檢測演算法，從所述用戶圖像中識別出用戶手勢區域，進而以輪廓特徵匹配用戶手勢區域對應的標準用戶手勢，得到所述用戶圖像中的用戶手勢的方式；但這種方式需要建立在用戶人手為裸露的情況，一旦用戶穿戴手套，則無法通過膚色檢測演算法，識別出用戶圖像中的用戶手勢區域；基於此，本申請實施例可從用戶圖像中識別連通區域，將各連通區域的輪廓特徵與預置的各標準用戶手勢的輪廓特徵進行匹配，識別出用戶圖像中的用戶手勢；可選的，圖7示出了本申請實施例提供的飛行器飛行控制方法的再一流程圖，該方法可應用於飛行器，具體可以應用於飛行器的處理晶片，參照圖7，該方法可以包括：

步驟S300、獲取用戶圖像。

可選的，步驟S300的實現可與圖6所示步驟S200相對應參照。

步驟S310、提取所述用戶圖像中的連通區域。

可選的，本申請實施例可提取用戶圖像中的所有連通區域；也可以是從所述用戶圖像中去除人臉區域後，提取去除人臉區域後的用戶圖像中的連通區域。

步驟S320、提取各連通區域的輪廓特徵。

步驟S330、將各連通區域的輪廓特徵，與預置的各標準用戶手勢的輪廓特徵進行匹配，確定匹配度最高的標準用戶手勢，將匹配度最高的標準用戶手勢，作為從所述用戶圖像中識別的用戶手勢。

本申請實施例可將各連通區域的輪廓特徵，分別與各標準用戶手勢的輪廓特徵進行匹配，得到各連通區域的輪廓特徵，與各標準用戶手勢的輪廓特徵的匹配度，從中選取匹配度最高對應的標準用戶手勢，作為從所述用戶圖像中識別的用戶手勢。

可選的，步驟S310至步驟S330示出了圖5所示步驟S110識別所述用戶圖像中的用戶手勢的另一種可選實現方法，步驟S310至步驟S330，可不通過膚色檢測演算法，進行用戶圖像中用戶手勢的識別，而是通過提取用戶圖像中的連通區域，通過用戶圖像中的連通區域的輪廓特徵，與各標準用戶手勢的輪廓特徵進行匹配，選取匹配度最高的標準用戶手勢，作為從所述用戶圖像中識別的用戶手勢。

步驟S340、根據預定義的各用戶手勢與飛行指令的對應關係，確定所述用戶手勢對應的飛行指令。

步驟S350、根據所述飛行指令控制飛行器飛行。

可選的，本申請實施例也可預先訓練各標準用戶手勢的檢測器，通過各標準用戶手勢的檢測器對所述用戶圖像進行檢測，基於各標準用戶手勢的檢測器的檢測結果，識別所述用戶圖像中的用戶手勢；可選的，對於各標準用戶手勢，本申請實施例可預先採集含有標準用戶手勢的多個用戶圖像，作為各標準用戶手勢對應的圖像樣本；從而對於各標準用戶手勢對應的圖像樣本，根據機器訓練方法(SVM等)，訓練出各標準用戶手勢的檢測器；在得到各標準用戶手勢的檢測器後，可通過圖8所示方法實現飛行器的飛行控制，圖8示出了本申請實施例提供的飛行器飛行控制方法的又一流程圖，該方法可應用於飛行器，具體可以應用於飛行器的處理晶片，參照圖8，該方法可以包括：

步驟S400、獲取用戶圖像。

可選的，步驟S400的實現可與圖6所示步驟S200相對應參照。

步驟S410、使用各標準用戶手勢的檢測器，分別對所述用戶圖像進行檢測，得到各標準用戶手勢的檢測器對所述用戶圖像的檢測結果。

步驟S420、根據所述用戶圖像的檢測結果，確定從所述用戶圖像中識別的用戶手勢。

一標準用戶手勢的檢測器對所述用戶圖像的檢測結果可以是，用戶圖像為檢測器對應的標準用戶手勢，或者，用戶圖像不為檢測器對應的標準用戶手勢；通過分析各標準用戶手勢的檢測器對所述用戶圖像的檢測結果，本申請實施例可確定出所述用戶圖像中被檢測出的用戶手勢，實現所述用戶圖像中用戶手勢的識別。

可選，步驟S410和步驟S420示出了圖5所示步驟S110識別所述用戶圖像中的用戶手勢的再一種可選實現方法，步驟S410和步驟S420可通過預先訓練出的各標準用戶手勢的檢測器，檢測出用戶圖像中識別的用戶手勢。

步驟S430、根據預定義的各用戶手勢與飛行指令的對應關係，確定所述用戶手勢對應的飛行指令。

步驟S440、根據所述飛行指令控制飛行器飛行。

可選的，如果是通過飛行器的圖像採集裝置實現用戶圖像的採集，則飛行器在基於所識別的用戶手勢相應的飛行指令進行飛行後，飛行器的圖像採集裝置可能無法再採集到用戶圖像；如圖9所示，飛行器在根據所識別的用戶手勢，向前飛行後，如果用戶不同步的向前移動，則用戶將不再處於飛行器攝像頭的圖像採集範圍內，此時，飛行器攝像頭將無法採集到用戶圖像，後續則無法再通過用戶圖像中的用戶手勢進行飛行控制；因此在用戶不跟隨飛行器同步移動的情況下，為使得飛行器在根據用戶手勢相應的飛行指令進行飛行後，圖像採集裝置仍能採集到用戶圖像，飛行器可以控制圖像採集裝置的圖像採集角度進行調整，使得圖像採集裝置仍能採集到用戶圖像；具體的，飛行器的處理晶片在控制飛行器以所識別的用戶手勢對應的飛行指令進行飛行後，處理晶片可控制調整圖像採集裝置的圖像採集角度，使得用戶處於圖像採集裝置的圖像採集範圍內；可選的，本申請實施例可以根據飛行器的飛行方向和飛行距離，調整圖像採集裝置的圖像採集角度；具體圖像採集角度與飛行方向和飛行距離相應的調整比例，可以根據圖像採集裝置的實際設置情況設定；可選的，飛行器的圖像採集裝置可以具有角度調節機構，處理晶片可控制調整角度調節機構的角度，來實現對圖像採集裝置的圖像採集角度的調整；可選的，如果用戶跟隨飛行器同步移動，則可以不用調整飛行器的圖像採集裝置的圖像採集角度，可在保持圖像採集裝置的圖像採集角度不變的情況下，通過用戶移動，使得用戶處於圖像採集裝置的圖像採集範圍內，使得圖像採集裝置後續仍能採集到用戶圖像，基於用戶圖像中的用戶手勢進行飛行控制。

顯然，如果是通過地面圖像採集裝置實現用戶圖像的採集，則飛行器的圖像採集裝置可執行航拍等任務圖像的採集，飛行器可在根據所述飛行指令進行飛行後，不調整圖像採集裝置的圖像採集角度。

可選的，地面上可能存在多個用戶，飛行器在獲取用戶圖像後，用戶圖像中也可能存在多個用戶人像，如圖10所示，地面上同時存在多個作出手勢的用戶，此時飛行器需要確定基於哪個用戶的手勢進行飛行控制；基於此，本申請實施例可設定控制飛行器飛行的合法用戶，為實現飛行器基於合法用戶的用戶手勢進行飛行控制，本申請實施例可預置合法用戶的人臉特徵，在獲取到用戶圖像後(可以是飛行器的圖像採集裝置採集，也可以是地面圖像採集裝置採集)，可識別用戶圖像中與合法用戶的人臉特徵匹配的用戶人像區域，基於與合法用戶的人臉特徵匹配的用戶人像區域，進行用戶手勢的識別，從而保障飛行器可以用戶圖像中合法用戶的用戶手勢進行相應的飛行控制；可選的，圖11示出了本申請實施例提供的飛行器飛行控制方法的又另一流程圖，該方法可應用於飛行器，具體可以應用於飛行器的處理晶片，參照圖11，該方法可以包括：

步驟S500、獲取用戶圖像。

可選的，步驟S500的實現可與圖6所示步驟S200相對應參照。

步驟S510、判斷所述用戶圖像中是否存在與合法用戶的人臉特徵相匹配的人臉區域，若否，執行步驟S520，若是，執行步驟S530。

可選的，本申請實施例可根據人臉檢測演算法，識別所述用戶圖像中的人臉區域，得到至少一個人臉區域，並將所得到的各人臉區域的人臉特徵，分別與預置的合法用戶的人臉特徵相匹配，判斷用戶圖像中是否存在與合法用戶的人臉特徵相匹配的人臉區域。

步驟S520、結束流程。

如果用戶圖像中不存在與合法用戶的人臉特徵相匹配的人臉區域，說明用戶圖像中不存在合法用戶的人像，不能夠基於用戶圖像中的用戶手勢進行飛行器的飛行控制，可結束當前流程，並等待下一幀獲取的用戶圖像到來，對下一幀獲取的用戶圖像進行如步驟S510的處理。

步驟S530、提取所述用戶圖像中與合法用戶的人臉特徵相匹配的人臉區域所對應的用戶人像。

所提取的用戶人像可以是用戶圖像中合法用戶(即用戶圖像中與合法用戶的人臉特徵相匹配的人臉區域所對應的用戶)的人像，包含合法用戶的身體圖像。

步驟S540、識別所述用戶人像中的用戶手勢。

可選的，識別所述用戶人像中的用戶手勢的實現方式可參照上文相應部分所示。

可選的，本申請實施例可基於圖6所示，根據膚色檢測演算法，識別所述用戶人像中的用戶手勢；具體的，可根據膚色檢測演算法，識別所述用戶人像中的人體皮膚區域，從人體皮膚區域中提取用戶手勢區域，將所述用戶手勢區域的輪廓特徵，與預置的各標準用戶手勢的輪廓特徵進行匹配，確定與所述用戶手勢區域的輪廓特徵匹配度最高的標準用戶手勢，得到從所述用戶人像識別的用戶手勢；可選的，本申請實施例也可基於圖7所示，根據用戶人像中的連通區域的輪廓特徵，與各標準用戶手勢的輪廓特徵進行匹配，識別所述用戶人像中的用戶手勢；具體的，可提取所述用戶人像中的連通區域，將各連通區域的輪廓特徵，與預置的各標準用戶手勢的輪廓特徵進行匹配，確定匹配度最高的標準用戶手勢，將匹配度最高的標準用戶手勢，作為從所述用戶人像中識別的用戶手勢；可選的，本申請實施例也可基於圖8所示，通過各標準用戶手勢的檢測器，識別所述用戶人像中的用戶手勢；具體的，可使用各標準用戶手勢的檢測器，分別對所述用戶人像進行檢測，得到各標準用戶手勢的檢測器對所述用戶人像的檢測結果，根據所述用戶人像的檢測結果，確定從所述用戶人像中識別的用戶手勢。

步驟S550、根據預定義的各用戶手勢與飛行指令的對應關係，確定所述用戶手勢對應的飛行指令。

步驟S560、根據所述飛行指令控制飛行器飛行。

顯然，圖11所示方法通過人臉檢測演算法，識別用戶圖像中的合法用戶的用戶人像，從而識別該合法用戶的用戶人像的用戶手勢，來控制飛行器根據相應的飛行指令進行飛行，僅是本申請實施例對飛行器進行飛行控制的一種優選方案；可選的，如果是採用地面圖像採集裝置實現用戶圖像的採集，則本申請實施例也可通過限制地面圖像採集裝置只能由合法用戶開啟(如設置地面圖像採集裝置的開啟密碼等)，保障地面圖像採集裝置採集合法用戶的用戶圖像，來控制飛行器的飛行；此時，飛行器可免去基於人臉檢測演算法，判斷合法用戶的步驟。

可選的，本申請實施例也可通過人員驅離，選擇人員較少的場所來維持飛行器的飛行現場只有合法用戶，使得飛行器可直接通過所採集的用戶圖像，實現用戶手勢的識別，免去基於人臉檢測演算法，判斷合法用戶的步驟。

可選的，如果由地面圖像採集裝置採集用戶圖像，本申請還可設置與地面圖像採集裝置相通信的地面處理晶片，由地面處理晶片識別所述用戶圖像中的用戶手勢，並確定所述用戶手勢對應的飛行指令；由地面處理晶片通過無線通信技術，將所述飛行指令傳輸給飛行器的處理晶片，由飛行器的處理晶片根據所述飛行指令，控制飛行器飛行；如圖12所示，地面圖像採集裝置2採集用戶圖像後，可傳輸給地面處理晶片4；地面處理晶片4可識別所述用戶圖像中的用戶手勢，具體識別方式可如圖6、圖7、圖8和圖11所示任一方式實現；地面處理晶片4根據預定義的各用戶手勢與飛行指令的對應關係，確定所述用戶手勢對應的飛行指令，將所述飛行指令通過無線通信技術傳輸給飛行器1的處理晶片；飛行器1的處理晶片根據所述飛行指令，控制飛行器飛行。

本申請實施例提供的飛行器飛行控制方法，可通過用戶手勢控制飛行器的飛行，飛行器的飛行控制操作極為便捷，可達到便捷的實現飛行器的飛行控制的目的。

本申請實施例中，用戶還可通過約定的第一手勢(該約定的第一手勢為上述描述的預定義的各用戶手勢中的某一個用戶手勢)，揮動人手，產生以第一手勢運動的手勢軌跡；圖13示出了本申請實施例提供的飛行器飛行控制方法的流程圖，該方法可應用於飛行器，具體可應用於飛行器的處理晶片，參照圖13，該方法可以包括：

步驟S600、獲取用戶圖像。

本實施例中，以用戶圖像可由飛行器自帶的圖像採集裝置採集得到進行說明。

步驟S610、識別所述用戶圖像中的用戶手勢。

步驟S620、若所識別的用戶手勢為預定的第一手勢，確定所述第一手勢在所述用戶圖像中的位置。

可選的，本申請實施例可通過預先訓練的第一手勢的檢測器，對所述用戶圖像進行檢測，判斷所述用戶圖像中是否存在第一手勢，以識別用戶圖像中的用戶手勢是否為第一手勢；在通過第一手勢的檢測器，識別到所述用戶圖像中存在第一手勢(即用戶圖像中的用戶手勢為第一手勢)時，可確定出第一手勢在所述用戶圖像中的位置；可選的，可確定第一手勢的檢測器所識別的第一手勢在用戶圖像中的區域，以該區域的中心點在用戶圖像中的位置，作為第一手勢在用戶圖像中的位置。

可選的，本申請實施例也可根據皮膚檢測演算法，識別用戶圖像中的人體皮膚區域；從人體皮膚區域中去除人臉區域，得到用戶手勢區域(由於人體裸露的皮膚一般是人臉和人手，因此可將去除人臉區域的人體皮膚區域，作為用戶手勢區域使用)；將用戶手勢區域的輪廓特徵，與預定的第一手勢的輪廓特徵進行匹配，通過匹配度判斷所述用戶圖像中是否存在第一手勢，以識別用戶圖像中的用戶手勢是否為第一手勢；可選的，如果用戶手勢區域的輪廓特徵，與預定的第一手勢的輪廓特徵的匹配度高於預定第一匹配度，則可確定用戶手勢區域中的用戶手勢為第一手勢，即所述用戶圖像中存在第一手勢；可選的，本申請實施例可以用戶手勢區域在圖像中的位置(可選為，用戶手勢區域的中心點在圖像中的位置)，作為第一手勢在所述用戶圖像中的位置。

可選的，本申請實施例也可提取用戶圖像中的連通區域(優選為，提取去除人臉區域後的用戶圖像的各連通區域)，將各連通區域的輪廓特徵與預定的第一手勢的輪廓特徵進行匹配，通過匹配度判斷所述用戶圖像中是否存在第一手勢，以識別用戶圖像中的用戶手勢是否為第一手勢；如果存在與第一手勢的輪廓特徵的匹配度高於預定第二匹配度的連通區域，則可確定用戶圖像中存在第一手勢，從而以該連通區域在圖像中的位置(可選為，該連通區域的中心點在圖像中的位置)，作為第一手勢在所述用戶圖像中的位置；可選的，第一匹配度和第二匹配度可以相同，也可以不同，具體可以視實際情況設定。

可見，本申請實施例可以先判斷用戶圖像中是否存在用戶手勢，且用戶手勢是否為第一手勢(可以是通過第一手勢的檢測器判斷，也可以是通過用戶手勢區域，或連通區域與第一手勢的輪廓特徵的匹配度判斷)，在判斷出用戶圖像中存在用戶手勢，且用戶手勢為第一手勢後，可確定第一手勢在用戶圖像中的位置。

步驟S630、根據所述第一手勢在所述用戶圖像中的位置，調整飛行器的飛行姿態，以使飛行器跟隨所述第一手勢的手勢軌跡飛行。

在得到第一手勢在所述用戶圖像中的位置後，本申請實施例可根據所述位置，確定飛行器在與第一手勢的手勢軌跡相同的水準運動方向上，調整的水準移動距離；及根據所述位置，確定飛行器在與第一手勢的手勢軌跡相同的垂直運動方向上，調整的垂直移動距離；從而以所確定的水準移動距離和垂直移動距離調整飛行器的飛行姿態，使得第一手勢始終位於所述圖像採集裝置的圖像採集視野範圍內；可選的，通過調整飛行器的飛行姿態，可使得第一手勢始終位於圖像採集裝置的圖像採集視野範圍內，實現飛行器跟隨所述第一手勢的手勢軌跡飛行。

可見，對於圖像採集裝置採集的各存在第一手勢的用戶圖像，若以第一手勢在用戶圖像中的位置，調整飛行器的飛行姿態，則飛行器可根據用戶第一手勢的手勢軌跡，即時的進行飛行姿態的調整，使得飛行器可跟隨用戶的第一手勢的手勢軌跡飛行，實現對飛行器的飛行路線的控制。

本申請實施例提供的飛行器的飛行路線控制方法中，飛行器的處理晶片可獲取飛行器的圖像採集裝置採集的用戶圖像，識別所述用戶圖像中的用戶手勢，若所識別的用戶手勢為預定的第一手勢，則可確定所述第一手勢在所述用戶圖像中的位置，進而根據所述第一手勢在所述用戶圖像中的位置，調整飛行器的飛行姿態，以使飛行器跟隨所述第一手勢的手勢軌跡飛行，實現對飛行器的飛行路線的控制。可見，本申請實施例中，用戶可通過操作第一手勢，使得飛行器可根據第一手勢在所採集的用戶圖像中的位置，調整飛行姿態，使得飛行器可跟隨用戶的第一手勢的手勢軌跡飛行。本申請實施例可通過用戶的第一手勢的手勢軌跡控制，飛行器的飛行路線，便捷的實現飛行器的飛行路線控制。

可選的，圖14示出了根據第一手勢在所述用戶圖像中的位置，確定飛行器調整的水準移動距離的方法流程圖，該方法可應用於飛行器，具體可應用於飛行器的處理晶片，參照圖14，該方法可以包括：

步驟S700、以飛行器的圖像採集裝置在橫軸方向上的視線範圍構建橫軸座標，所述橫軸座標的原點為圖像採集裝置在橫軸方向上的視線中點。

如圖15所示，以圖像採集裝置為攝像頭為例，假設A點為攝像頭的位置，AB和AC分別是攝像頭橫軸視線的極限(即攝像頭在橫軸方向上的視線範圍)，BMC為地面，則BC是以攝像頭在橫軸方向上的視線範圍構建的橫軸座標，BC上的每個點均勻的落在攝像頭採集圖像的橫軸座標上；AM為攝像頭中心線，M為攝像頭在橫軸方向上的視線中點，為橫軸座標的原點，也即BC線段的中心。

步驟S710、確定第一手勢在用戶圖像中的位置在橫軸座標上的投影點，並確定所述投影點在所述橫軸座標上的座標。

在確定出第一手勢在圖像中的位置後，本申請實施例可確定第一手勢在圖像中的位置，在水準方向上的投影點；如圖15所示，第一手勢在圖像中的位置在水準方向上的投影點為P點；P點在橫軸BC上的座標為該投影點在橫軸上的座標。

步驟S720、根據所述橫軸座標的長度，飛行器與地面的垂直高度，飛行器的圖像採集裝置的中心線和垂直方向的角度，圖像採集裝置的橫軸方向視角的半形，及所述投影點在所述橫軸座標上的座標，確定飛行器的水準移動距離。

如圖15所示，OA是無人機等飛行器離地面的垂直高度；則OAM為攝像頭中心線和垂直方向的角度，BAM為攝像頭橫軸方向視角的半形，為使得第一手勢在水準方向上的投影點P落在攝像頭採集圖像的中心點M上，飛行器需要調整MP的水準移動距離；即本申請實施例可通過調整飛行器的飛行姿態，使得第一手勢位於圖像採集裝置的圖像採集視野範圍的中心；相應的，可設OAM為β，BAM為α，飛行器離地面的垂直高度為H，第一手勢在用戶圖像中的位置，在橫軸座標上的投影點的橫軸座標為x，橫軸座標的長度(攝像頭在橫軸方向上的視線範圍長度)為Lx，需要調整的水準移動距離MP為Sx，則可根據如下公式確定飛行器需要調整的水準移動距離：Sx=(2*x*H*tan α)/(Lx*cos β)。

可選的，飛行器的高度資料可以通過超聲波或是氣壓計獲取；角度資料可以根據需要設定固定的角度。

可選的，飛行器的處理晶片可獲取即時採集的每幀用戶圖像，基於每幀用戶圖像中第一手勢的位置，即時的確定飛行器的水準移動距離，然後向飛行器的飛行機構輸出飛行控制指令，使得飛行器可在與第一手勢的手勢軌跡相同的水準運動方向上，調整所確定的水準移動距離，使得飛行器可跟隨第一手勢的手勢軌跡在相同的水準運動方向上飛行。

可選的，圖16示出了根據第一手勢在所述用戶圖像中的位置，確定飛行器調整的垂直移動距離的方法流程圖，該方法可應用於飛行器，具體可應用於飛行器的處理晶片，參照圖16，該方法可以包括：

步驟S800、以飛行器的圖像採集裝置在縱軸方向上的視線範圍構建縱軸座標，所述縱軸座標的原點為所述圖像採集裝置在縱軸方向上的視線中點。

如圖17所示，以圖像採集裝置為攝像頭為例，假設A點為攝像頭的位置，AB和AC分別是攝像頭縱軸視線的極限(即攝像頭在縱軸方向上的視線範圍)，則BC是以攝像頭在縱軸方向上的視線範圍構建的縱軸座標；虛線AD為攝像頭中心線，D為攝像頭在縱軸方向上的視線中點，為縱軸座標的原點。

步驟S810、確定第一手勢在用戶圖像中的位置在縱軸座標上的投影點，並確定該投影點在所述縱軸座標上的座標。

在確定出第一手勢在用戶圖像中的位置後，本申請實施例可確定第一手勢在用戶圖像中的位置在垂直方向上的投影點，即第一手勢在用戶圖像中的位置，在縱軸座標上的投影點，如圖17所示，第一手勢在用戶圖像中的位置，在垂直方向上的投影點為P點；P點在縱軸BC上的座標為該投影點在縱軸上的座標。

步驟S820、根據所述縱軸座標的高度，飛行器與地面的垂直高度，圖像採集裝置縱軸方向的半視角，所述圖像採集裝置的傾角與所述半視角的角度差，及該投影點在所述縱軸座標上的座標，確定飛行器的垂直移動距離。

如圖17所示，AO是飛行器離地面的垂直高度，OAD是攝像頭的傾角，CAD是攝像頭縱軸方向的半視角，攝像頭縱軸方向的半視角可以是攝像頭縱軸方向視角的半形；OAC是OAD與CAD角的角度差；縱軸座標的高度可以根據圖像介面的高度確定，比如採集的是640 * 360解析度的圖像，則縱軸座標的高度可以為360，即可以根據介面的縱軸高度確定縱軸座標的高度；為使得投影點P落在攝像頭採集圖像的中心點D上，飛行器需要調整PD的垂直移動距離；相應的，可設AO為H，CAD為θ，OAC為δ，縱軸座標的高度為Ly，第一手勢在用戶圖像中的位置，在縱軸座標上的投影點的縱軸座標為y，飛行器需要調整的垂直移動距離為Sy，則可根據如下公式確定飛行器需要調整的垂直移動距離： Sy=H*(tan(δ+θ)-tan(δ+θ-arctan(2*y*tanθ/Ly)))。

可選的，飛行器的處理晶片可獲取即時採集的每幀用戶圖像，基於每幀用戶圖像中第一手勢的位置，即時的確定飛行器的垂直移動距離，然後向飛行器的飛行機構輸出飛行控制指令，使得飛行器可在與第一手勢的手勢軌跡相同的垂直運動方向，調整所確定的垂直移動距離。

可選的，處理晶片基於每一幀圖像所確定的水準移動距離和垂直移動距離可通過飛行控制指令輸出，使得飛行器調整飛行姿態，實現在與第一手勢的手勢軌跡相同的水準運動方向上，調整所確定的水準移動距離，及在與第一手勢的手勢軌跡相同的垂直運動方向，調整所確定的垂直移動距離的，使得飛行器可即時跟隨用戶的第一手勢的手勢軌跡飛行，實現對飛行器的飛行路線的控制。

可選的，本申請實施例可通過用戶的第二手勢，通知飛行器開始和取消跟隨用戶的第一手勢飛行，即飛行器在未跟隨用戶的第一手勢飛行時，若通過用戶圖像檢測到用戶的第二手勢，則飛行器可開始跟隨用戶的第一手勢飛行；相應的，用戶可在操作第二手勢後，切換通過第一手勢進行手勢軌跡操作，使得飛行器基於每幀用戶圖像中第一手勢的位置，調整飛行姿態，跟隨第一手勢的手勢軌跡飛行；而在用戶希望飛行器取消跟隨用戶的第一手勢飛行時，用戶可從第一手勢的手勢軌跡操作，切換為操作第二手勢，飛行器通過用戶圖像檢測到用戶的第二手勢後，可取消跟隨用戶的第一手勢飛行；可選的，圖18示出了本申請實施例提供的飛行器的飛行路線控制方法的另一流程圖，該方法可應用於飛行器，具體可應用於飛行器的處理晶片，參照圖18，該方法可以包括：

步驟S900、即時獲取圖像採集裝置採集的用戶圖像。

步驟S910、識別所述用戶圖像中的用戶手勢。

可選的，對於每一採集的用戶圖像，本申請實施例可識別用戶圖像中的用戶手勢是預定的第一手勢，還是預定的第二手勢，並根據不同的識別結果執行不同的處理流程；根據用戶圖像中識別的不同用戶手勢，執行不同的處理流程的示意，可參照下述步驟S920至步驟S940。

可選的，對於每一採集的用戶圖像，本申請實施例可分別通過預先訓練的第一手勢的檢測器和第二手勢的檢測器，對所述用戶圖像進行檢測，判斷用戶圖像中存在第一手勢還是第二手勢，或者，均不存在第一手勢和第二手勢。

可選的，對於每一採集的用戶圖像，本申請實施例也可以是通過皮膚檢測演算法，識別用戶圖像中的人體皮膚區域，將去除人臉區域的人體皮膚區域作為用戶手勢區域，分別將第一手勢的輪廓特徵和第二手勢的輪廓特徵，與用戶手勢區域的輪廓特徵進行匹配，判斷用戶圖像中存在第一手勢還是第二手勢，或者，均不存在第一手勢和第二手勢；可選的，如果用戶手勢區域的輪廓特徵，與第一手勢的輪廓特徵的匹配度高於預定第一匹配度，則可確定用戶圖像中存在第一手勢，否則，確定用戶圖像中不存在第一手勢；如果用戶手勢區域的輪廓特徵，與第二手勢的輪廓特徵的匹配度高於預定的第一匹配度，則可確定用戶圖像中存在第二手勢，否則，確定用戶圖像中不存在第二手勢。

可選的，對於每一採集的用戶圖像，本申請實施例還可以提取用戶圖像中的連通區域，分別將第一手勢的輪廓特徵和第二手勢的輪廓特徵，與各連通區域的輪廓特徵進行匹配，判斷用戶圖像中存在第一手勢還是第二手勢，或者，均不存在第一手勢和第二手勢；可選的，如果存在與第一手勢的輪廓特徵的匹配度高於預定第二匹配度的連通區域，則可確定該連通區域表示的用戶手勢為第一手勢，確定用戶圖像中存在第一手勢，否則，確定用戶圖像中不存在第一手勢；如果存在與第二手勢的輪廓特徵的匹配度高於預定第二匹配度的連通區域，則可確定該連通區域表示的用戶手勢為第二手勢，確定用戶圖像中存在第二手勢，否則，確定用戶圖像中不存在第二手勢。

可選的，本申請實施例可先檢測用戶圖像中是否存在第一手勢，在用戶圖像中不存在第一手勢時，再檢測用戶圖像中是否存在第二手勢；也可以是先檢測用戶圖像中是否存在第二手勢，在用戶圖像中不存在第二手勢時，在檢測用戶圖像中是否存在第一手勢；還可以是同時檢測用戶圖像中是否存在第一手勢，或者第二手勢。

步驟S920、若所識別的用戶手勢為預定的第二手勢，且飛行器當前未進入第一模式，觸發所述飛行器進入第一模式，所述第一模式用於指示飛行器跟隨用戶的第一手勢的手勢軌跡飛行。

步驟S930、若所識別的用戶手勢為預定的第一手勢，且飛行器當前已進入第一模式，確定所述第一手勢在所述用戶圖像中的位置，根據所述第一手勢在所述用戶圖像中的位置，調整飛行器的飛行姿態，以使飛行器跟隨所述第一手勢的手勢軌跡飛行。

可選的，圖13所示步驟S620和步驟S630的執行，可以建立在用戶圖像中識別的用戶手勢為第一手勢，且飛行器當前已進入第一模式的情況下。

步驟S940、若所識別的用戶手勢為預定的第二手勢，且飛行器當前已進入第一模式，觸發所述飛行器退出第一模式，指示所述飛行器取消跟隨用戶的第一手勢的手勢軌跡飛行。

本申請實施例可定義飛行器跟隨用戶的第一手勢的手勢軌跡飛行的飛行模式為第一模式，飛行器進入第一模式後，可基於用戶圖像中第一手勢的位置，調整飛行姿態，實現跟隨所述第一手勢的手勢軌跡飛行的目的；而在飛行器未進入第一模式的狀態，即使所採集的用戶圖像中存在第一手勢，飛行器也不會基於用戶圖像中第一手勢的位置，調整飛行姿態；因此飛行器是否進入第一模式，是飛行器是否跟隨所述第一手勢的手勢軌跡飛行的前提。

本申請實施例中，飛行器進入和退出第一模式，是由用戶的第二手勢控制的；如果飛行器當前未進入第一模式，則用戶的第二手勢可觸發飛行器進入第一模式，使得飛行器可基於後續採集的用戶圖像中第一手勢的位置，調整飛行姿態；如果飛行器當前進入第一模式，則用戶的第二手勢可觸發飛行器退出第一模式，使得飛行器取消跟隨用戶的第一手勢的手勢軌跡飛行。

基於圖18所示，用戶控制飛行器的飛行路線的方式可以是：起始狀態下，用戶作出第二手勢；飛行器通過採集的用戶圖像識別到第二手勢後，飛行器進入第一模式；用戶作出第二手勢後，切換手勢為第一手勢，並且通過第一手勢揮動手臂；飛行器進入第一模式後，通過採集的用戶圖像識別到第一手勢，可根據第一手勢在採集的各用戶圖像中的位置，調整飛行姿態，實現飛行器跟隨第一手勢的手勢軌跡飛行的目的；用戶希望飛行器取消跟隨第一手勢飛行時，可以切換手勢為第二手勢；飛行器通過採集的用戶圖像識別到第二手勢後，從第一模式退出，不再跟隨用戶的第一手勢的手勢軌跡飛行。

以第二手勢為五指張開手勢，第一手勢為握拳手勢為例，圖19示出了相應的飛行器的飛行路線控制示例圖，如圖19所示：飛行器在未進入第一模式的初始狀態下，飛行器如果檢測到採集的用戶圖像中存在五指張開手勢，飛行器進入第一模式；在飛行器進入第一模式後，飛行器如果檢測到採集的用戶圖像中存在握拳手勢，則可以握拳手勢在用戶圖像中的位置，調整飛行姿態，飛行器跟隨用戶握拳手勢的手勢軌跡飛行；在飛行器進入第一模式後，飛行器如果再次檢測到用戶圖像中存在五指張開手勢，飛行器退出第一模式；可選的，此時飛行器可在當前位置懸停。

需要說明的是，上文描述的通過用戶的第二手勢，觸發飛行器進入和退出第一模式，以使飛行器執行或取消根據用戶的第一手勢在用戶圖像中的位置，調整飛行姿態的方式，僅是可選的；本申請實施例也可直接在檢測到用戶圖像中存在第一手勢時，以第一手勢在用戶圖像中的位置，調整飛行姿態，實現飛行器跟隨第一手勢的手勢軌跡飛行的目的，而不需要引入用戶的第二手勢控制飛行器執行或取消跟隨第一手勢的手勢軌跡飛行；即用戶可以在希望飛行器根據第一手勢的手勢軌跡飛行時，直接通過第一手勢揮動手臂，使得飛行器跟隨第一手勢飛行，而不用先作出第二手勢；用戶在希望飛行器取消跟隨第一手勢飛行時，可以通過不操作第一手勢實現。

可選的，本申請實施例可採用預先訓練的第一手勢的檢測器，和第二手勢的檢測器進行用戶圖像中用戶手勢的識別；可選的，對於握拳等第一手勢，本申請實施例可採集大量的第一手勢的手勢圖像及第一手勢的背景圖像，提取各第一手勢的手勢圖像的haar等特徵，以及各第一手勢的背景圖像的haar等特徵；根據第一手勢的手勢圖像的haar特徵以及第一手勢的背景圖像的haar特徵，採用cascade等機器訓練方法進行訓練，生成第一手勢的檢測器；第一手勢的檢測器可以識別採集的用戶圖像中是否存在第一手勢，並在用戶圖像中存在第一手勢時，確定第一手勢在用戶圖像中的位置；可選的，對於五指張開等第二手勢，本申請實施例可採集大量的第二手勢的手勢圖像及第二手勢的背景圖像，提取各第二手勢的手勢圖像的方向梯度直方圖(Histogram of Oriented Gradient，HOG)等特徵，以及各第二手勢的背景圖像的HOG等特徵；根據第二手勢的手勢圖像的HOG特徵，以及第二手勢的背景圖像的HOG特徵，採用支援向量機(Support Vector Machine，SVM)等機器訓練方法進行訓練，生成第二手勢的檢測器；第二手勢的檢測器可以識別採集的用戶圖像中是否存在第二手勢，並在用戶圖像中存在第二手勢時，確定第二手勢在用戶圖像中的位置。

可選的，在從採集的用戶圖像中識別到第一手勢後，並確定用戶圖像中第一手勢的區域後，可以該區域的中心點在用戶圖像中的位置，作為第一手勢在用戶圖像中的位置；或者，也可以在用戶圖像中定義一個邊緣與該區域對應的矩形框，以該矩形框的中心點在用戶圖像中的位置，作為第一手勢在用戶圖像中的位置；第二手勢在用戶圖像中的位置的確定可與此同理；可選的，本段介紹的確定手勢在用戶圖像中的位置的方式，可不限於採用檢測器識別用戶手勢的情況，也可適用於通過用戶圖像中的皮膚區域，或者連通區域識別用戶手勢的情況。

可選的，由於地面可能同時存在多個用戶，飛行器在獲取用戶圖像後，用戶圖像中也可能存在多個同時做出第一手勢或第二手勢的用戶，此時飛行器需要確定基於哪個用戶的手勢進行飛行控制；基於此，本申請實施例可設定控制飛行器飛行的合法用戶，為實現飛行器基於合法用戶的用戶手勢進行飛行控制，本申請實施例可預置合法用戶的人臉特徵，在獲取到用戶圖像後，飛行器可以判斷用戶圖像中是否存在與合法用戶的人臉特徵匹配的用戶人臉，從而在用戶圖像中存在與合法用戶的人臉特徵匹配的用戶人臉時，基於用戶圖像中合法用戶(用戶圖像中人臉區域與合法用戶的人臉特徵匹配的用戶)的第一手勢或第二手勢，進行飛行控制；相應的，本申請實施例在識別用戶圖像中的用戶手勢前，可以先提取用戶圖像中的人臉區域，判斷所提取的人臉區域中是否存在與合法用戶的人臉特徵相匹配的人臉區域，從而對所述用戶圖像中與合法用戶的人臉特徵相匹配的人臉區域對應的合法用戶的用戶手勢進行識別；可選的，圖20示出了本申請實施例提供的飛行器的飛行路線控制方法的再一流程圖，該方法可應用於飛行器，具體可應用於飛行器的處理晶片，參照圖20，該方法可以包括：

步驟S1000、獲取圖像採集裝置採集的用戶圖像。

步驟S1010、判斷所述用戶圖像中是否存在與合法用戶的人臉特徵相匹配的人臉區域，若否，執行步驟S1020，若是，執行步驟S1030。

可選的，對於每一獲取的用戶圖像，本申請實施例可判斷用戶圖像中是否具有合法用戶的人臉區域。

步驟S1020、結束流程。

若當前用戶圖像中不存在與合法用戶的人臉特徵相匹配的人臉區域，則可確認當前用戶圖像中不存在合法用戶的人像，不能夠基於當前用戶圖像進行飛行器的飛行路線控制，可結束當前流程，並等待下一幀獲取的用戶圖像到來，對下一幀獲取的用戶圖像進行如步驟S1010的處理。

步驟S1030、對與合法用戶的人臉特徵相匹配的人臉區域在用戶圖像中對應的用戶手勢進行識別。

可選的，在確定用戶圖像中存在與合法用戶的人臉特徵相匹配的人臉區域後，本申請實施例可提取該人臉區域在用戶圖像中對應的用戶人像，識別該用戶人像的用戶手勢，實現對合法用戶在用戶圖像中的用戶手勢進行識別。

步驟S1040、若所識別的用戶手勢為預定的第一手勢，確定所述第一手勢在所述用戶圖像中的位置。

步驟S1050、根據所述第一手勢在所述用戶圖像中的位置，調整飛行器的飛行姿態，以使飛行器跟隨所述第一手勢的手勢軌跡飛行。

顯然，圖20所示的通過人臉檢測技術，驗證用戶圖像中是否具有合法用戶的方式，也可以應用於圖18所示方法；對於圖18所示的每一獲取的用戶圖像，可進行是否存在與合法用戶的人臉特徵相匹配的人臉區域的判斷，並在判斷結果為是時，對與合法用戶的人臉特徵相匹配的人臉區域在用戶圖像中對應的用戶手勢進行識別，並進行後續處理。

本申請實施例提供的飛行器的飛行路線控制方法，可通過用戶的第一手勢的手勢軌跡控制飛行器的飛行路線，便捷的實現飛行器的飛行路線控制。

下面對本申請實施例提供的飛行器進行介紹，下文描述的飛行器內容可與上文描述內容相互對應參照。

下面站在飛行器識別用戶圖像中的用戶手勢的角度，對本申請實施例提供的飛行器飛行控制裝置進行介紹。下文描述的飛行器飛行控制裝置，可以認為是飛行器的處理晶片為實現本申請實施例提供的飛行器飛行控制方法，所需設置的功能模組架構；下文描述的飛行器飛行控制裝置可與上文描述的內容相互對應參照。

圖21為本申請實施例提供的飛行器飛行控制裝置的結構框圖，該飛行器飛行控制裝置可應用於飛行器，具體可應用於飛行器的處理晶片，參照圖21，該飛行器飛行控制裝置可以包括：圖像獲取模組100，用於獲取用戶圖像；手勢識別模組200，用於識別所述用戶圖像中的用戶手勢；飛行指令確定模組300，用於根據預定義的各用戶手勢與飛行指令的對應關係，確定所述用戶手勢對應的飛行指令；飛行控制模組400，用於根據所述飛行指令控制飛行器飛行。

可選的，手勢識別模組200，用於識別所述用戶圖像中的用戶手勢，具體包括：根據膚色檢測演算法，識別所述用戶圖像中的人體皮膚區域；從人體皮膚區域中提取用戶手勢區域；將用戶手勢區域的輪廓特徵，與預置的各標準用戶手勢的輪廓特徵進行匹配，確定與所述用戶手勢區域的輪廓特徵匹配度最高的標準用戶手勢；將所確定的標準用戶手勢作為從所述用戶圖像中識別的用戶手勢。

可選的，手勢識別模組200，用於從人體皮膚區域中提取用戶手勢區域，具體包括：去除所述人體皮膚區域中的人臉區域，得到用戶手勢區域。

可選的，手勢識別模組200，用於識別所述用戶圖像中的用戶手勢，具體包括：提取所述用戶圖像中的連通區域；提取各連通區域的輪廓特徵；將各連通區域的輪廓特徵，與預置的各標準用戶手勢的輪廓特徵進行匹配，確定匹配度最高的標準用戶手勢，將匹配度最高的標準用戶手勢，作為從所述用戶圖像中識別的用戶手勢。

可選的，手勢識別模組200，用於提取所述用戶圖像中的連通區域，具體包括：提取用戶圖像中的所有連通區域，或，提取去除人臉區域後的用戶圖像中的連通區域。

可選的，圖22示出了本申請實施例提供的飛行器飛行控制裝置的另一結構框圖，結合圖21和圖22所示，該飛行器飛行控制裝置還可以包括：訓練模組500，用於對於各標準用戶手勢，預先採集含有標準用戶手勢的多個用戶圖像，作為各標準用戶手勢對應的圖像樣本；對於各標準用戶手勢對應的圖像樣本，根據機器訓練方法，訓練各標準用戶手勢的檢測器。

相應的，手勢識別模組200，用於識別所述用戶圖像中的用戶手勢，具體包括：使用各標準用戶手勢的檢測器，分別對所述用戶圖像進行檢測，得到各標準用戶手勢的檢測器對所述用戶圖像的檢測結果；根據所述用戶圖像的檢測結果，確定從所述用戶圖像中識別的用戶手勢。

可選的，圖像獲取模組100，用於獲取用戶圖像，具體包括：獲取所述飛行器的圖像採集裝置所採集的用戶圖像；或者，獲取地面圖像採集裝置所採集的用戶圖像。

可選的，若圖像獲取模組100獲取的是飛行器的圖像採集裝置所採集的用戶圖像，如圖23所示飛行器飛行控制裝置的再一結構框圖，結合圖21和圖23所示，該飛行器飛行控制裝置還可以包括：角度調整模組600，用於在根據所述飛行指令控制飛行器飛行後，調整所述飛行器的圖像採集裝置的圖像採集角度，使得用戶處於所述圖像採集裝置的圖像採集範圍內。

可選的，如果所獲取的用戶圖像中包含多個用戶人像，本申請實施例需要識別出合法用戶的用戶人像，從而基於合法用戶的用戶人像的用戶手勢，實現飛行器的飛行控制；相應的，手勢識別模組200，用於從人體皮膚區域中提取用戶手勢區域，具體包括：判斷所述用戶圖像中是否存在與合法用戶的人臉特徵相匹配的人臉區域；若所述用戶圖像中存在與合法用戶的人臉特徵相匹配的人臉區域，提取所述用戶圖像中與合法用戶的人臉特徵相匹配的人臉區域所對應的用戶人像；識別所述用戶人像中的用戶手勢。

可選的，手勢識別模組200識別所述用戶人像中的用戶手勢的方式，可參照上文描述；具體的，手勢識別模組200，用於識別所述用戶人像中的用戶手勢，具體包括：識別所述用戶人像中的人體皮膚區域，從人體皮膚區域中提取用戶手勢區域，將所述用戶手勢區域的輪廓特徵，與預置的各標準用戶手勢的輪廓特徵進行匹配，確定與所述用戶手勢區域的輪廓特徵匹配度最高的標準用戶手勢，得到從所述用戶人像中識別的用戶手勢；或，提取所述用戶人像中的連通區域，將各連通區域的輪廓特徵，與預置的各標準用戶手勢的輪廓特徵進行匹配，確定匹配度最高的標準用戶手勢，將匹配度最高的標準用戶手勢，作為從所述用戶人像中識別的用戶手勢；或，使用各標準用戶手勢的檢測器，分別對所述用戶人像進行檢測，得到各標準用戶手勢的檢測器對所述用戶人像的檢測結果，根據所述用戶人像的檢測結果，確定從所述用戶人像中識別的用戶手勢。

可選的，圖24示出了本申請實施例提供的飛行器飛行控制裝置的另一結構框圖，結合圖21和圖24所示，該飛行器飛行控制裝置還可以包括：手勢位置確定模組700，用於若所識別的用戶手勢為預定的第一手勢，確定所述第一手勢在所述用戶圖像中的位置；所述飛行控制模組400，還用於根據所述第一手勢在所述用戶圖像中的位置，調整飛行器的飛行姿態，以使飛行器跟隨所述第一手勢的手勢軌跡飛行。

可選的，若圖像獲取模組100獲取的是飛行器的圖像採集裝置所採集的用戶圖像；則所述飛行控制模組400，用於根據所述第一手勢在所述用戶圖像中的位置，調整飛行器的飛行姿態，具體包括：根據所述位置，確定飛行器在與第一手勢的手勢軌跡相同的水準運動方向上，調整的水準移動距離；及根據所述位置，確定飛行器在與第一手勢的手勢軌跡相同的垂直運動方向，調整的垂直移動距離；以所確定的水準移動距離和垂直移動距離調整飛行器的飛行姿態，使得第一手勢始終位於所述圖像採集裝置的圖像採集視野範圍內。

所述飛行控制模組400，還用於若所識別的用戶手勢為預定的第二手勢，且飛行器當前未進入第一模式，觸發所述飛行器進入第一模式，所述第一模式用於指示飛行器跟隨用戶的第一手勢的手勢軌跡飛行；若所識別的用戶手勢為預定的第二手勢，且飛行器當前已進入第一模式，觸發所述飛行器退出第一模式，指示所述飛行器取消跟隨用戶的第一手勢的手勢軌跡飛行；所述飛行控制模組400，用於若所識別的用戶手勢為預定的第一手勢，確定所述第一手勢在所述用戶圖像中的位置，具體包括：若所識別的用戶手勢為預定的第一手勢，且飛行器當前已進入第一模式，確定所述第一手勢在所述用戶圖像中的位置。

所述手勢識別模組200，還用於在識別所述用戶圖像中的用戶手勢之前，判斷所述用戶圖像中是否存在與合法用戶的人臉特徵相匹配的人臉區域；所述手勢識別模組200，用於識別所述用戶圖像中的用戶手勢，具體包括：若所述用戶圖像中存在與合法用戶的人臉特徵相匹配的人臉區域，對與合法用戶的人臉特徵相匹配的人臉區域在用戶圖像中對應的用戶手勢進行識別。

本申請實施例還提供一種飛行器，該飛行器可以包括：圖像採集裝置和處理晶片；其中，處理晶片可以包括：上述所述的飛行器飛行控制裝置。

可選的，飛行器的圖像採集裝置可採集用戶圖像，相應的，處理晶片的圖像獲取模組可獲取飛行器的圖像採集裝置所採集的用戶圖像；可選的，處理晶片的圖像獲取模組也可能獲取地面圖像採集裝置所採集的用戶圖像。

可選的，本申請實施例還提供一種飛行器飛行控制系統，如圖3所示，該飛行器飛行控制系統可以包括：地面圖像採集裝置和飛行器；其中，地面圖像採集裝置，用於採集用戶圖像，並傳輸給飛行器；所述飛行器包括處理晶片；所述處理晶片，用於獲取地面圖像採集裝置傳輸的用戶圖像；識別所述用戶圖像中的用戶手勢；根據預定義的各用戶手勢與飛行指令的對應關係，確定所述用戶手勢對應的飛行指令；根據所述飛行指令控制飛行器飛行。

飛行器的處理晶片的具體功能實現可參照上文相應部分描述。

可選的，本申請實施例還提供另一種飛行器飛行控制系統，如圖12所示，該飛行器飛行控制系統可以包括：地面圖像採集裝置，地面處理晶片和飛行器；其中，地面圖像採集裝置，用於採集用戶圖像，並傳輸給地面處理晶片；地面處理晶片，用於獲取地面圖像採集裝置傳輸的用戶圖像；識別所述用戶圖像中的用戶手勢；根據預定義的各用戶手勢與飛行指令的對應關係，確定所述用戶手勢對應的飛行指令；將所述飛行指令傳輸給飛行器；可選的，地面處理晶片實現用戶手勢識別，及用戶手勢對應的飛行指令確定的具體實現方式，可參照上文描述的飛行器的處理晶片識別用戶手勢，及確定用戶手勢對應的飛行指令的具體內容。

所述飛行器包括處理晶片；所述處理晶片，用於獲取所述飛行指令，根據所述飛行指令控制飛行器飛行。

本申請實施例可通過用戶手勢控制飛行器的飛行，飛行器的飛行控制操作極為便捷，可達到便捷的實現飛行器的飛行控制的目的。

圖25為一個實施例中的本申請方案的工作環境示意圖；實現本申請實施例的檢測文檔閱讀順序的方法的工作環境為設置有光學文字辨識(OCR)系統的智慧型終端，並且所述智慧型終端至少還包括通過系統匯流排連接的處理器、顯示模組、電源介面和儲存介質，所述智慧型終端通過OCR系統將文檔圖片中包含的文本資訊識別並顯示出來。其中，顯示模組可對OCR系統識別出的文本資訊進行顯示；電源介面用於與外部電源連接，外部電源通過該電源介面向智慧型終端電池供電；所述儲存介質中至少儲存有作業系統、OCR系統、資料庫以及一種檢測文檔閱讀順序的裝置，該裝置可用於實現本申請實施例的檢測文檔閱讀順序的方法。所述智慧型終端可以為手機、平板電腦等，也可以是其他具有上述結構的設備。

結合圖25及上述對工作環境的說明，以下對檢測文檔閱讀順序的方法的實施例進行說明。

圖26為一實施例的檢測文檔閱讀順序的方法的示意性流程圖；如圖26所示，本實施例中的檢測文檔閱讀順序的方法包括步驟：

S1110，識別文檔圖片中包含的文本塊，構建一個塊集合；本實施例中，可先對文檔圖片進行二值化處理，得到二值化文檔圖片，在二值化文檔圖片中，各個圖元點的值均用0或者1表示。然後基於二值化文檔圖片進行尺度分析和版面分析，得出文檔包含的全部文本塊。其中的尺度分析是指尋找二值化文檔圖片中每個字元的尺度資訊，尺度以圖元為單位，其值為字元所佔用的矩形區域面積的平方根。版面分析是指在OCR中，將文檔圖片中的內容按照段落、分頁等資訊劃分為多個不重疊的區域的演算法。由此可得出文檔中包含的全部文本塊，例如圖27所示或者圖28所示。

在另一優選實施例中，對文檔圖片進行預處理的過程中，還包括對校正文檔圖片的步驟。即若待檢測的文檔圖片的初始狀態相對於預設的標準狀態存在偏差時，校正所述文檔圖片使其符合所述標準狀態。例如：若檢測到文檔圖片的初始狀態下存在傾斜、上下顛倒等情況，則需先對所述文檔圖片的方向進行校正。

S1120，從全部文本塊中(即所述塊集合中)確定出一起始文本塊。

通常情況下，人們在閱讀文檔時會從文檔的一頂點(例如左上角)開始進行閱讀，基於此，在一優選實施例中，可從所述塊集合中選擇出中心點座標位於所述文檔圖片的一個頂點的文本塊，並將該文本塊確定為所述起始文本塊。例如：將位於文檔圖片的左側且最上方的一文本塊確定為起始文本塊，如圖27中所示的文本塊R ₁，或者圖28中所示的文本塊R ₁。

可以理解的，在其他實施例中，對於不同的文檔和實際的閱讀習慣(例如從右到左排版的文檔)，也可將其他文本塊確定為起始文本塊。

S1130，從起始文本塊開始尋徑；根據該起始文本塊的特徵資訊對該起始文本塊執行尋徑操作，以確定出所述塊集合中與該起始文本塊對應的第一文本塊；根據所述第一文本塊的特徵資訊對該第一文本塊執行尋徑操作，以確定出所述塊集合中與該第一文本塊對應的文本塊；並依此類推直到所述塊集合中每一個文本塊對應的尋徑操作的執行順序能夠唯一確定。

其中，文本塊的特徵資訊包括該文本塊在文檔圖片中的位置資訊以及該文本塊的版面佈局資訊。

對文本塊進行尋徑操作實際上是基於該文本塊的特徵資訊得出其對應的下一文本塊的特徵預測資訊。在一實施例中，對文本塊的尋徑操作包括：通過預先訓練好的機器學習模型對所述文本塊的特徵資訊進行學習，得出與該文本塊對應的文本塊的特徵預測資訊；計算所述塊集合中未執行尋徑操作的各文本塊的特徵資訊與所述特徵預測資訊的相關度；然後根據上述計算出的相關度確定出所述文本塊對應的文本塊。

本實施例中，步驟S1130即是一個自起始文本塊起，對文檔包含的文本塊進行自動尋徑的過程，每次尋徑只需確定當前文本塊對應的下一文本塊。例如圖27所示的文檔圖片，當前文本塊為R ₁，通過本次尋徑可確定文本塊R ₁的下一文本塊為R ₂；然後將R ₂作為當前文本再次進行尋徑，得到R ₂的下一文本塊為R ₄；以此類推，直到對R ₆執行完尋徑操作，並確定出R ₆對應的下一文本塊為R ₇，雖然此時R ₇和R ₈未執行尋徑操作，但由於已經確定出R ₆對應的下一文本塊為R ₇，因此R ₇和R ₈對應的尋徑操作的執行順序已經能夠唯一確定(即先R ₇後R ₈)。通過上述自動尋徑方式，對文檔圖片的尺寸、樣式具有更好的穩健性。並且自動尋徑的依據是基於文本塊之間位置以及版面佈局資訊的相關性，因此能夠較好的克服圖片雜訊或者識別環境對檢測結果的影響，有利於保證檢測結果的準確性。

本實施例中，預先通過合適的訓練樣本對所述機器學習模型進行訓練，可使得所述機器學習模型輸出較為準確的預測結果，然後基於相關性可確定出準確的下一文本塊，適用于各種混合文檔類型的文檔閱讀順序檢測。其中，所述機器學習模型可以為神經網路模型，也可以為其他非神經網路的概率模型。

S1140，確定所述塊集合中文本塊對應的尋徑操作的執行順序，根據所述執行順序得到所述文檔圖片中文本塊的閱讀順序。

通過步驟S1130的自動尋徑，可得到每一個文本塊及其對應的下一文本塊，當自動尋徑結束時，根據所有文本塊以及各文本塊對應的下一文本塊，便可得到全部文本塊的閱讀順序。例如在自動尋徑結束後，可得到圖27所示的文檔圖片中文本塊的閱讀順序為R ₁→R ₂→R ₄→R ₅→R ₃→R ₆→R ₇→R ₈。

基於上述實施例的檢測文檔閱讀順序的方法，首先識別文檔圖片中包含的全部文本塊；從全部文本塊中確定出一起始文本塊，從起始文本塊開始尋徑，根據文本塊在文檔圖片中的位置資訊以及該文本塊的版面佈局資訊決定下一步應該走到哪個文本塊區域，直到得出全部文本塊的閱讀順序。由此能夠相容多種場景，對文檔圖片的尺寸、雜訊、樣式具有更好的穩健性，因此能夠準確識別各類文檔圖片對應的文檔閱讀順序。

在一可選實施例中，所述機器學習模組中包含多個參數，在所述檢測文檔閱讀順序的方法中，還包括對所述機器學習模型進行訓練的步驟，以使得訓練之後的機器學習模型輸出的特徵預測資訊與對應的樣本資訊的歐式距離滿足設定條件。歐式距離指的是歐幾裏得度量，表示兩個相同維度向量的空間距離。

在一可選實施例中，對機器學習模組進行訓練的方式可包括如下過程：首先，獲取訓練樣本。樣本是指在機器學習過程中，已經標定好了的資料，包括輸入資料和輸出資料。本實施例中訓練樣本即參與機器學習模組訓練的若干樣本塊，且所述若干樣本塊的閱讀順序為已知的。

然後，基於訓練樣本建立對應的樣本庫M={G,S,T}。其中G表示樣本塊的集合，S表示樣本塊在先後各次訓練中的順序狀態的集合，T表示訓練過程中需確定的狀態變化序列。若G中樣本塊的總數為n，則有， T={{R ₁,S ₁,S ₂},{R ₂,S ₂,S ₃},...{R _n-2,S _n-2,S _n-1}}；若s _i=0表示樣本塊R _l的閱讀順序未確定(即執行尋徑操作的順序未確定)，若s _i>0表示樣本塊R _l的閱讀順序已確定(即執行尋徑操作的順序已確定)，且閱讀順序為s _i的值，表示為S(R _l)=s _i。上述T中的每一個序列中的各項分別表示當前參與訓練的樣本塊、G中每個樣本塊當前的順序狀態的集合和需預測出的G中每個樣本塊的下一順序狀態的集合。具體的，以{R ₂,S ₂,S ₃}序列為例，R ₂表示當前參與訓練的樣本塊為R ₂，S ₂表示R ₂參與訓練時G中各個樣本塊對應的順序狀態，S ₃表示採用R ₂參與訓練時需預測出的G中每個樣本塊的下一個順序狀態。其中，由於剩餘的最後兩個樣本塊可採用排除法直接確定出來，因此其不需要訓練，故在T中只需包括n-2個序列。

然後，基於上述的樣本庫M={G,S,T}，依次採用T中的各個狀態變化序列對機器學習模型進行訓練；當T中的所有狀態變化序列均參與訓練之後，保存所述機器學習模型中的參數。

在一優選實施例中，根據T中的第k個序列{R _k,S _k,S _k+1}對機器學習模型中的參數進行訓練的具體實施方式可包括如下步驟1~步驟5：

步驟1，將樣本塊R _k的特徵資訊輸入機器學習模型，獲取機器學習模型輸出的R _k的下一文本塊的特徵預測資訊O _k,k [1,n-2]；

步驟2，獲取S _k中順序狀態為0的樣本塊R _l，得到集合G ^*：集合G ^*的維度為n-k；.

步驟3，將G ^*中各項分別與O _k進行點積運算，得到集合V ^*={v _i=R _l gO _k}；

步驟4，獲取G ^*中各樣本塊R _l在S _k+1中對應的順序狀態，得到集合；集合V ^π的維度與集合G ^*的維度相等.

步驟5，對V ^*進行歸一化處理可得到，對V ^π進行歸一化處理得到集合；根據V ^**和V ^ππ構建所述樣本塊R _k參與訓練時對應的損失函數l oss，基於該損失函數通過BP演算法更新所述機器學習模型中的參數。其中所述損失函數l oss為：

本實施例中，損失函數是指在機器學習過程中，通過機器學習計算所得到的誤差，誤差可以使用多種函數進行度量，且該函數一般為凸函數。即根據V ^**和V ^ππ的歐式距離構建所述樣本塊R _k參與訓練時對應的損失函數。歐式距離即歐幾裏得度量，表示兩個多為維向量的空間距離。通過每次學習過程中得到的損失函數，使用BP演算法對機器學習模型的參數進行調整，當損失函數收斂到一定程度時，機器學習模型的輸出準確度也會提高到某個程度。其中BP演算法即誤差反向傳播演算法(Error Back Propagation)，尤其適用於多層前饋網路模型的訓練，是指在訓練過程中誤差會累積到輸出層，然後通過輸出層將誤差反向傳遞到每一個前饋網路層，從而達到調節各前饋網路層參數的目的。

在一可選實施例中，為了準確的對各個文本塊的特徵資訊進行學習，對識別出的文本塊採用文本框進行標記，並將每個文本塊的特徵資訊用特徵向量的形式表示為：R={x,y,w,h,s,d}；R表示文本塊的特徵向量，包含6個特徵資訊；x表示文本塊的中心點的x座標；y表示文本塊的中心點的y座標；w表示文本塊的寬度；h表示文本塊的高度；s表示文本塊中所有連通區域的尺度均值；d表示文本塊的密度資訊。所述連通區域是指在二值化圖像中，能夠通過圖元之間的連接形成的區域；圖元之間的連接有4鄰域和8鄰域演算法，例如8鄰域連通演算法，即在(x,y)位置的圖元點，如果與其相鄰的8個點中的某一個與(x,y)的圖元值相同，則兩者是8鄰域連通的，遞迴查找所有連通的點，這些點的集合即為一個連通區域。

其中， W、H分別表示取長度和取寬度的函數，r _i為連通區域i,K表示文本塊中包含的連通區域的總量；p表示圖元點的圖元值。

在一可選實施例中，在識別文檔圖片中包含的文本塊之後，還包括獲取各文本塊的特徵向量R={x,y,w,h,s,d}的步驟。為了讓機器學習的模型對尺度資訊不敏感，進一步將文本塊的對應特徵資訊做歸一化處理，例如約定：w=1.0；h=1.0；nax(p)=1.0。

在一可選實施例中，從全部文本塊中確定出一起始文本塊的方式可包括：以文檔圖片左上角頂點為原點建立XOY坐標系(參考圖27、圖28所示)，並且該XOY坐標系的x軸正方向指向文檔圖片的寬度方向，y軸正方向指向文檔圖片的長度方向。首先，從所述塊集合中獲取中心點的x座標最小的一個文本塊，作為文本塊A。然後，獲取中心點的y座標小於所述文本塊A的文本塊，構建一個文本塊集合G；並依次將該集合G中的每一個文本塊B與所述文本塊A進行對比；若所述文本塊B與該文本塊A在x軸方向的投影不存在交集，則將所述文本塊B從集合G中刪除；若所述文本塊B 與該文本塊A在x軸方向的投影存在交集，則更新所述文本塊A為所述文本塊B，並將所述文本塊B從集合G中刪除。在每次文本塊對比之後檢測集合G是否為空；若是，則將當前的文本塊A確定為起始文本塊；若否，則在所述文本塊A發生更新時更新集合G，並將更新後的集合G中的每一個文本塊與當前的文本塊A進行上述對比；依次類推直到集合G為空。本實施例的起始文本塊的確定方法，適用於各類複雜的文檔，並能準確識別出起始文本塊。

在一可選實施例中，假設將每個文本塊的特徵向量表示為R={r ₁,r ₂,r ₃,r ₄,r ₅,r ₆}={x,y,w,h,s,d}，簡記為,r _j為樣本塊的特徵資訊j。所述機器學習模型選為神經網路模型。對應的，如圖29所示，所述神經網路模型可包括6維輸入層、6維輸出層、第一隱層以及第二隱層。在神經網路模型中，輸入層負責接收輸入及分發到隱層(因為用戶看不見這些層，所以見做隱層)，隱層負責所需的計算及輸出結果給輸出層，而用戶則可以看到最終結果。

優先的，所述第一隱層、第二隱層分別為12維和20維的隱層。將所述輸入所述神經網路模型，則所述第一隱層的輸出為K ₁：所述第二隱層的輸出為K ₂：所述6維輸出層的輸出為O：其中a _1i、b _1i為第一隱層對應的參數，k _1i為第一隱層的第i維輸出；a _2m、b _2m為第二隱層對應的參數，k _2m為第二隱層的第m維輸出；a _on、b _on為6維輸出層對應的參數，o _n為第n維輸出，Sigmoid表示S型的非線性函數。

對於上述的神經網路模型的訓練，以圖28中的文本塊為例，將圖28中的文本塊作為樣本塊進行所述神經網路模型的訓練，樣本塊包括R ₁,R ₂,R ₃,R ₄以及R ₅，可分別表示為：R ₁={x ₁,y ₁,w ₁,h ₁,s ₁,d ₁}

R ₂={x ₂,y ₂,w ₂,h ₂,s ₂,d ₂}；R ₃={x ₃,y ₃,w ₃,h ₃,s ₃,d ₃}；R ₄={x ₄,y ₄,w ₄,h ₄,s ₄,d ₄}；R ₅={x ₅,y ₅,w ₅,h ₅,s ₅,d ₅}；且已知R ₁,R ₂,R ₃,R ₄,R ₅的正確閱讀順序為R ₁→R ₃→R ₂→R ₄→R ₅。

根據所述訓練樣本，設定每個樣本塊的當前順序狀態的集合為，其中當s _i=0時表示對應的文本塊R _l還未確定執行尋徑操作的順序(即R _l的閱讀順序未確定)，s _i>0表示對應的文本塊R _l已確定執行尋徑操作的順序(即R _l的閱讀順序已確定)，且確定執行尋徑操作的順序為s _i的值，表示為S(R _l)=s _i。因此所述訓練樣本在訓練過程中對應的閱讀狀態可包括：S ₀=(0,0,0,0,0)；S ₁=(1,0,0,0,0)； S ₂=(1,0,2,0,0)；S ₃=(1,3,2,0,0)；S ₄=(1,3,2,4,0)；S ₅=(1,3,2,4,5)；進一步的，所述訓練樣本R ₁,R ₂,R ₃,R ₄,R ₅還可描述為以下狀態序列：{R ₁,S ₁,S ₂},{R ₃,S ₂,S ₃},{R ₂,S ₃,S ₄},{R ₄,S ₄,S ₅}；其中由於{R ₄,S ₄,S ₅}序列可以直接確定出來，因此其不需要訓練，因此在樣本庫中，T={{R ₁,S ₁,S ₂},{R ₃,S ₂,S ₃},{R ₂,S ₃,S ₄}}。基於所述樣本庫，首先採用{R ₁,S ₁,S ₂}序列進行所述神經網路模型的訓練，過程如下：將R ₁輸入到神經網路模型中，獲取神經網路模型輸出的下一閱讀狀態的預測資訊O ₁。選取S ₁中值為0所對應的樣本塊，可得到集合G ^*={R ₂,R ₃,R ₄,R ₅}。將集合G ^*中的各項分別與O ₁進行點積，可得到V ^*={v ₂,v ₃,v ₄,v ₅}，歸一化後得到。

獲取G ^*中各項在S ₂中對應的狀態值，可得到集合V ^π：歸一化處理可得到。

根據集合V ^**和集合V ^ππ可構建樣本塊R ₁參與訓練時對應的損失函數：通過BP演算法可更新所述神經網路模型中的所有參數。

按照上述步驟繼續訓練，即根據序列{R ₃,S ₂,S ₃},{R ₂,S ₃,S ₄}也按照上述步驟繼續訓練，由此可完成所述神經網路模型的訓練。本實施例中，通過選取適當的訓練樣本，可得到性能穩定的神經網路模型；基於訓練後的神經網路模型進行文本塊尋徑，可準確得到當前文本塊的下一文本塊，有利於準確檢測出各類型文檔圖片中的文檔閱讀順序。

本申請上述實施例的檢測文檔閱讀順序的方法，可應用於OCR系統中自動文檔分析模組，所述自動文檔分析模組在識別出文檔圖片包含的文本塊之後，對識別出的文本塊進行排序，然後將文本塊的閱讀順序輸出給文本識別模組，在文本識別模組中進行文本識別後，基於已經得到的閱讀順序，整理成最終的可閱讀文檔，從而進行自動分析和儲存。具體的，所述自動文檔分析模組在對文本塊進行排序時，涉及資訊處理過程包括：設定選擇演算法A=A(R,S)，該演算法根據當前文本塊R和當前的閱讀順序的狀態S，推導出下一個閱讀順序的狀態S，可以表示為：

其中,,n表示文檔圖片包含的文本塊的總數。

進一步的，所述演算法A可分成三個部分：

1)R _{st ar t}選擇器Ψ₁

Ψ₁用於對起始文本塊進行選擇，起始文本塊用R _{st ar t}標記。在所有的文本塊R中，選取中心點座標位於文檔圖片最左邊的一個R，標記為R _l，然後對剩餘的R相對於R _l進行計算，選取y(R)<y(R _l)的文本塊構建集合G，優先的，還可對G中的R按照y座標降冪排列，然後按照順序將G中的每一個R與R _l進行對比，如果R與R _l在x軸方向的投影有交集，則將此R標記為R _l，將所述R從G中刪除；否則，不更新R _l，直接將此R從G中刪除；重複上述動作，直到G為空，可確定R _{st ar t}=R _l。

在一可選實施例中，每次在將新的R標記為R _l，將所述R從G中刪除之後，若檢測到此時集合G不為空，則更新集合G(即獲取所有中心點y座標小於更新後R ₁中心點y座標的文本塊得到新的集合G)，通過更新集合G，可進一步減少選擇起始文本塊的時間。

2)特徵生成器Ψ₂

Ψ₂用於根據當前文本塊R _l得出下一個閱讀順序狀態的特徵預測資訊O _i+1，可以描述為：

如上所述，各文本塊可描述為R={x,y,w,h,s,d}，對應的Ψ₂可選用一個包括6維輸入、6維輸出和兩個分別為12維和20維的隱層的全連神經網路，其結構如圖4所示，其中每個圓圈表示一個神經元。對於每個樣本塊，若表示為，則第一個隱層的輸出K ₁為：

第二隱層的輸出為：

6維輸出層的輸出為：

其中a、b均為需要訓練的參數。O即為Ψ₂的輸出。

3)特徵合成器Ψ₃

通過Ψ₂得到下一閱讀順序狀態的特徵預測資訊之後，按照如下方式更新當前的閱讀順序狀態S，以得到的下一閱讀順序狀態：I)獲取在當前閱讀順序狀態S狀態中為值0的文本塊，構建集合G ^*， II)對於每一個R _l G ^*，計算v _i=R _l gO，得到集合V ^*，V ^*={v _i=R _l gO}；III)找出V ^*中的最大值，並找出該值對應的文本塊，記為R ^*；IV)更新當前閱讀順序狀態S，即更新S中的S(R ^*)的值為S(R ^*)=nax(S)+1；由此可得到對應的下一閱讀順序狀態，即得到對應的下一文本塊。以此類推，可到全部文本塊的排序。

結合上述實施例所述，下面以圖28所示的文檔圖片為例，對本申請的檢測文檔閱讀順序的方法進行舉例說明。包括步驟一~步驟五，各步驟具體說明如下：

步驟一，對原始的文檔圖片進行二值化處理和方向校正處理；再對經過二值化處理及方向校正處理的文檔圖片進行版面分析，得到文檔中包含的全部文本塊。如圖28所示，得到文檔中包含的文本塊為R ₁,R ₂,R ₃,R ₄以及R ₅。

步驟二，確定起始文本塊。

由於在R ₁,R ₂,R ₃,R ₄以及R ₅中，R ₃的中心點x座標位於最左側，因此初始時將R _{st ar t}賦值為R ₃。

獲取所有中心點y座標小於R ₃中心點y座標的文本塊，並按照y座標增序排列，可得到集合G=(R ₂,R ₁)。

迴圈更新R _{st ar t}。檢測到文本塊R ₂與R ₃在x軸方向的投影沒有交集，因此從集合G中刪除R ₂；檢測到文本塊R ₁與R ₃在x軸方向的投影有交集，因此將R _{st ar t}更新為R ₁，並從集合G中刪除R ₁，由於此時集合G已經為空，因此無需更新集合G(即無需獲取所有中心點y座標小於R ₁中心點y座標的文本塊以更新集合G)，迴圈結束。獲取當前R _{st ar t}對應的文本塊為R ₁，由此可確定出圖28所示文檔的起始文本塊為R ₁。

步驟三，從起始文本塊R ₁開始自動尋徑。

當前文本塊為R ₁={x ₁,y ₁,w ₁,h ₁,s ₁,d ₁}，當前狀態為S ₁=(1,0,0,0,0)；將R ₁={x ₁,y ₁,w ₁,h ₁,s ₁,d ₁}輸入到訓練好的神經網路模型，獲取神經網路模型輸出的預測資訊為O={o ₁,o ₂,o ₃,o ₄,o ₅,o ₆}；基於當前狀態為S ₁=(1,0,0,0,0)，可得到集合G ^*={R ₂,R ₃,R ₄,R ₅}；進一步可得到：V ^*={R ₂gO,R ₃gO,R ₄gO,R ₅gO,}；R _l gO=x _i×o ₁+y _i×o ₂+w _i×o ₃+h _i×o ₄+d _i×o ₅；選取V ^*中的最大值所對應的文本塊，本實施例中可得出R ₃gO的值最大，更新當前閱讀順序狀態S ₁=(1,0,0,0,0)中文本塊R ₃對應的值為s ₃=1+1=2，由此可得出下一狀態為S ₂=(1,0,2,0,0)，確定出下一文本塊為R ₃。

然後將R ₃作為當前文本塊，按照同樣的方式，可得到R ₃對應的下一狀態為S ₃=(1,3,2,0,0)，即R ₃對應的下一文本塊為R ₂；再將R ₂作為當前文本塊，按照同樣的方式，可得到R ₂對應的下一狀態為S ₄=(1,3,2,4,0)，即R ₂對應的下一文本塊為R ₄；然後將R ₄作為當前文本塊，由於此時對應的集合G ^*中只有一個文本塊(即R ₅)，可直接將該文本塊作為當前文本塊的下一文本塊並得到對應的下一狀態為S ₅=(1,3,2,4,5)；自此自動尋徑結束。

步驟四，根據自動尋徑的結果，可得到文檔閱讀順序為R ₁→R ₃→R ₂→R ₄→R ₅。

步驟五：按照R ₁→R ₃→R ₂→R ₄→R ₅的順序依次對文本塊進行文本識別，得到文檔對應的可閱讀文本資訊，對可閱讀文本資訊進行保存以及輸出顯示。

其中，對文本塊的文本識別包括行分割和行識別等步驟，依次以行為單位進行字元識別，由此可得到整個文本塊的文本資訊。

通過上述實施例檢測文檔閱讀順序的方法，由於神經網路演算法擁有大量的參數，根據訓練好的神經網路模型，能夠相容多種場景，對文檔圖片的尺寸、雜訊、樣式具有更好的穩健性。

需要說明的是，對於前述的各方法實施例，為了簡便描述，將其都表述為一系列的動作組合，但是本領域技術人員應該知悉，本申請並不受所描述的動作順序的限制，因為依據本申請，某些步驟可以採用其他順序或者同時進行。此外，還可對上述實施例進行任意組合，得到其他的實施例。

基於與上述實施例中的檢測文檔閱讀順序的方法相同的思想，本申請還提供檢測文檔閱讀順序的裝置，該裝置可用於執行上述檢測文檔閱讀順序的方法。為了便於說明，檢測文檔閱讀順序的裝置實施例的結構示意圖中，僅僅示出了與本申請實施例相關的部分，本領域技術人員可以理解，圖示結構並不構成對裝置的限定，可以包括比圖示更多或更少的部件，或者組合某些部件，或者不同的部件佈置。

圖30為本申請一實施例的檢測文檔閱讀順序的裝置的示意性結構圖；如圖30所示，本實施例的檢測文檔閱讀順序的裝置包括：塊識別模組1210、起始塊選擇模組1220、自動尋徑模組1230以及順序確定模組1240，各模組詳述如下：所述塊識別模組1210，用於識別文檔圖片中包含的文本塊，構建一個塊集合；在一可選實施例中，所述塊識別模組1210具體可包括：預處理子模組，用於對所述文檔圖片進行二值化處理和方向校正處理；以及，版面識別子模組，用於對經過二值化處理及方向校正處理的文檔圖片進行版面分析，得到文檔中包含的文本塊。其中，版面分析是指在OCR中，將文檔圖片中的內容按照段落、分頁等資訊劃分為多個不重疊的區域的演算法。由此可得出文檔中包含的全部文本塊，例如圖27所示或者圖28所示。

所述起始塊選擇模組1220，用於從所述塊集合中確定出一起始文本塊。

通常情況下，人們在閱讀文檔時會從文檔的一角開始進行閱讀，基於此，在一可選實施例中，所述起始塊選擇模組1220可用於從所述塊集合中選擇出中心點座標位於所述文檔圖片的一個頂點的文本塊，並將該文本塊確定為所述起始文本塊。例如，所述起始塊選擇模組1220可用于從全部文本塊中選擇出中心點座標位於文檔圖片的左側且最上方的一文本塊(即左上角的文本塊)，將該文本塊確定為起始文本塊。如圖27中所示的文本塊R ₁，或者圖28中所示的文本塊R ₁。

可以理解的，在其他實施例中，對於不同的文檔和實際的閱讀習慣(例如從右到左排版的文檔)，所述起始塊選擇模組1220也可將其他文本塊確定為起始文本塊。

所述自動尋徑模組1230，用於根據該起始文本塊的特徵資訊對該起始文本塊執行尋徑操作，以確定出所述塊集合中與該起始文本塊對應的第一文本塊；文本塊的特徵資訊包括該文本塊在文檔圖片中的位置資訊以及該文本塊的版面佈局資訊；根據所述第一文本塊的特徵資訊對該第一文本塊執行尋徑操作，以確定出所述塊集合中與該第一文本塊對應的文本塊；並依此類推直到所述塊集合中每一個文本塊對應的尋徑操作的執行順序能夠唯一確定。

本實施例中，所述自動尋徑模組1230用於執行一個自起始文本塊起，對文檔包含的文本塊進行自動尋徑的過程，且每次尋徑只需確定當前文本塊對應的下一文本塊。例如圖27所示的文檔圖片，當前文本塊為R ₁，通過本次尋徑可確定文本塊R ₁的下一文本塊為R ₂；然後將R ₂作為當前文本再次進行尋徑，得到R ₂的下一文本塊為R ₄；以此類推，直到確定出R ₆的下一文本塊為R ₇為止，每一個文本塊對應的尋徑操作的執行順序能夠唯一確定。

所述順序確定模組1240，用於確定所述塊集合中文本塊對應的尋徑操作的執行順序，根據所述執行順序得到所述文檔圖片中文本塊的閱讀順序。

例如所述順序確定模組1240可得到圖27所示的文檔圖片中文本塊的閱讀順序為R ₁→R ₂→R ₄→R ₅→R ₃→R ₆→R ₇→R ₈。

在一可選實施例中，所述起始塊選擇模組1220具體可用于以文檔圖片左上角頂點為原點建立XOY坐標系，並且該XOY坐標系x軸正方向指向文檔圖片的寬度方向，y軸正方向指向文檔圖片的長度方向；從所述塊集合中獲取中心點的x座標最小的一個文本塊，作為文本塊A；獲取中心點的y座標小於所述文本塊A的文本塊，構建一個文本塊集合G；並依次將該集合G中的每一個文本塊B與所述文本塊A進行對比；若所述文本塊B與該文本塊A在x軸方向的投影不存在交集，則將所述文本塊B從集合G中刪除；若所述文本塊B與該文本塊A在x軸方向的投影存在交集，則更新所述文本塊A為所述文本塊B，並將所述文本塊B從集合G中刪除；在每次文本塊對比之後檢測集合G是否為空；若是，則將當前的文本塊A確定為起始文本塊；若否，則在所述文本塊A發生更新時更新集合G，並將更新後的集合G中的每一個文本塊與當前的文本塊A進行上述對比；依次類推直到集合G為空。

在一可選實施例中，每次在用新的文本塊B更新所述文本塊A，將所述文本塊B從G中刪除之後，若檢測到此時集合G不為空，則更新集合G(即獲取所有中心點y座標小於更新後的文本塊A中心點y座標的文本塊得到新的集合G)，通過更新集合G，可進一步減少選擇起始文本塊的時間。

在一可選實施例中，如圖31所示，所述檢測文檔閱讀順序的裝置還包括：訓練模組1250，用於預先訓練機器學習模型，使得訓練之後的機器學習模型輸出的特徵預測資訊與對應的樣本資訊的歐式距離滿足設定條件。

在一可選實施例中，所述訓練模組1250可包括樣本庫構建子模組和訓練子模組。其中，樣本庫構建子模組，用於獲取訓練樣本，建立樣本庫M={G,S,T}，其中G表示樣本塊的集合，S表示樣本塊在先後各次訓練中的順序狀態的集合，T表示訓練過程中需確定的狀態變化序列；若G中樣本塊的總數為n，則有， T={{R ₁,S ₁,S ₂},{R ₂,S ₂,S ₃},...{R _n-2,S _n-2,S _n-1}}；s _i=0表示樣本塊R _l的閱讀順序未確定(即執行尋徑操作的順序未確定)，若s _i>0表示樣本塊R _l的閱讀順序已確定(即執行尋徑操作的順序已確定)，且閱讀順序為s _i的值，表示為S(R _l)=s _i；T中的每一個序列中的各項分別表示當前參與訓練的樣本塊、當前所有樣本塊的順序狀態的集合和需預測出的所有樣本塊的下一順序狀態的集合。

其中，訓練子模組，用於依次採用T中的各個序列對機器學習模型中的參數進行訓練；當T中的所有序列均參與訓練之後，保存所述機器學習模型中的參數。

在一可選實施例中，所述訓練子模組在根據T中的第k個序列{R _k,S _k,S _k+1}對機器學習模型中的參數進行訓練時，用於實現以下過程：將樣本塊R _k的特徵資訊輸入機器學習模型，獲取機器學習模型輸出的R _k的下一文本塊的特徵預測資訊O _k,k [1,n-2]；獲取S _k中順序狀態為0的樣本塊R _l，得到集合G ^*，將集合G ^*中各項分別與O _k進行點積運算，得到集合V ^*={v _i=R _l gO _k}；獲取集合G ^*中各項在S _k+1中對應的順序狀態，得到集合；對集合V ^*進行歸一化處理得到集合V ^**，對集合V ^π進行歸一化處理得到集合V ^ππ；根據集合V ^**和集合V ^ππ構建樣本塊R _k參與訓練時對應的損失函數，基於該損失函數通過BP演算法更新所述機器學習模型中的參數，其中所述損失函數為：l oss=|V ^**-V ^ππ|。

在一可選實施例中，所述塊識別模組1210還用於獲取各文本塊的特徵向量R={x,y,w,h,s,d}；其中x表示文本塊的中心點的x座標，y表示文本塊的中心點的y座標，w表示文本塊的寬度，h表示文本塊的高度，s表示文本塊中所有連通區域的尺度均值，d表示文本塊的密度資訊。

對應的，所述機器學習模型為6維輸入且6維輸出的神經網路模型。例如：所述神經網路模型包括6維輸入層、6維輸出層、第一隱層以及第二隱層，所述第一隱層、第二隱層分別為12維和20維的隱層；若每個文本塊的特徵資訊表示為,r _j表示樣本塊的特徵資訊j，則所述第一隱層的輸出K ₁和第二隱層的輸出K ₂分別為：所述6維輸出層的輸出為O：其中a _1i、b _1i為第一隱層對應的參數，k _1i為第一隱層的第i維輸出；a _2m、b _2m為第二隱層對應的參數，k _2m為第二隱層的第m維輸出；a _on、b _on為6維輸出層對應的參數，o _n為第n維輸出，Sigmoid表示S型的非線性函數。

在一可選實施例中，所述的檢測文檔閱讀順序的裝置還包括：文本識別模組1260，用於對各個文本塊進行文本識別，並按照確定出的閱讀順序得到所述文檔圖片的文本資訊。

基於上述實施例提供的檢測文檔閱讀順序的裝置，可識別文檔圖片中包含的全部文本塊，並從全部文本塊中確定出一起始文本塊；接下來從起始文本塊開始尋徑，根據預先訓練好的機器學習模型決定下一步應該走到哪個文本塊區域，直到得出全部文本塊的閱讀順序。根據文本塊在文檔圖片中的位置資訊以及該文本塊的版面佈局資訊執行尋徑能夠相容多種場景，對文檔圖片的尺寸、雜訊、樣式具有更好的穩健性，能夠準確識別各類文檔圖片對應的文檔閱讀順序。

需要說明的是，上述示例的檢測文檔閱讀順序的裝置的實施方式中，各模組之間的資訊交互、執行過程等內容，由於與本申請前述方法實施例基於同一構思，其帶來的技術效果與本申請前述方法實施例相同，具體內容可參見本申請方法實施例中的敍述，此處不再贅述。

此外，上述示例的檢測文檔閱讀順序的裝置的實施方式中，各功能模組的邏輯劃分僅是舉例說明，實際應用中可以根據需要，例如出於相應硬體的配置要求或者軟體的實現的便利考慮，將上述功能分配由不同的功能模組完成，即將所述檢測文檔閱讀順序的裝置的內部結構劃分成不同的功能模組，以完成以上描述的全部或者部分功能。其中各功能模既可以採用硬體的形式實現，也可以採用軟體功能模組的形式實現。

圖32為一個實施例中電腦設備(例如伺服器)的內部結構示意圖。如圖32所示，該電腦設備包括通過系統匯流排連接的處理器、非易失性儲存介質、內記憶體和網路介面。其中，該電腦設備的非易失性儲存介質儲存有作業系統、資料庫和語音資料集訓練裝置，資料庫中儲存有HMM+GMM和HMM+DNN的演算法模型等，該語音資料集訓練裝置用於實現適用於電腦設備的一種語音資料集訓練方法。該電腦設備的處理器用於提供計算和控制能力，支撐整個電腦設備的運行。該電腦設備的內記憶體為非易失性儲存介質中的語音資料集訓練裝置的運行提供環境，該內記憶體中可儲存有電腦可讀指令，該電腦可讀指令被所述處理器執行時，可使得所述處理器執行一種語音資料集訓練方法。該電腦設備的網路介面用於據以與外部的設備通過網路連接通信，比如接收設備發送的語音識別請求以及向設備返回語音識別結果等。電腦設備可以用獨立的電腦設備或者是多個電腦設備組成的電腦設備集群來實現。本領域技術人員可以理解，圖32中示出的結構，僅僅是與本申請方案相關的部分結構的框圖，並不構成對本申請方案所應用於其上的電腦設備的限定，具體的電腦設備可以包括比圖中所示更多或更少的部件，或者組合某些部件，或者具有不同的部件佈置。

圖33為一個實施例中語音資料集訓練方法的流程圖。如圖33所示，一種語音資料集訓練方法，包括：

步驟1302，讀取從第一語音資料集中選取資料所生成的第一測試集，以及對所述第一語音資料集進行訓練得到的第一語音模型參數。

本實施例中，第一語音資料集是指用於第一次訓練的語音資料集。可從第一語音資料集中選取資料生成第一測試集。第一測試集是用於檢驗通過第一語音資料集進行訓練得到的第一語音模型的性能的資料集。第一語音模型可為隱馬爾科夫模型和混合高斯模型。

隱馬爾科夫模型和混合高斯模型(即HMM+GMM)參數是指每個HMM狀態的起止時間。每一語音幀對應一個HMM狀態。

隱馬爾科夫模型(Hidden Markov Model，HMM)是一種統計模型，它用來描述一個含有隱含未知參數的馬爾可夫過程。在隱馬爾可夫模型中，狀態並不是直接可見的，但受狀態影響的某些變數則是可見的。HMM中的狀態是HMM的基本組成部分；HMM的轉移概率表示HMM的狀態之間發生轉換的概率；而每一個狀態在可能輸出的符號上都有一概率分佈，即HMM的輸出概率。其中，馬爾可夫過程是一個不具備記憶特質的隨機過程。該隨機過程在給定現在狀態及所有過去狀態情況下，其未來狀態的條件概率分佈僅依賴於當前狀態。

混合高斯模型(Gaussian Mixture Model，GMM)是用高斯概率密度函數(正態分佈曲線)精確地量化事物，將一個事物分解為若干的基於高斯概率密度函數(正態分佈曲線)形成的模型。

預先根據第一語音資料集選取資料生成訓練集和第一測試集，對第一語音資料集的訓練集進行訓練得到隱馬爾科夫模型和混合高斯模型，從而得到隱馬爾科夫模型和混合高斯模型參數。

步驟1304，獲取第二語音資料集，從所述第二語音資料集中隨機選取資料生成第二測試集。

本實施例中，第二語音資料集是指用於再次訓練的語音資料集。從第二語音資料集中隨機選取資料生成第二測試集。第二測試集是用於代表第二語音資料集的。第二測試集中資料量占第二語音資料集中資料量的比例與第一測試集中資料量占第一語音資料集中資料量的比例相同。

步驟1306，檢測到所述第二測試集與所述第一測試集滿足相似條件，則採用所述訓練得到的第一語音模型參數對所述第二語音資料集進行第二語音模型訓練。

本實施例中，第二語音模型可為隱馬爾科夫模型和深度神經網路模型。深度神經網路(deep neuron networks，DNN)是一種具備至少一個隱層的神經網路。與淺層神經網路類似，深度神經網路也能夠為複雜非線性系統提供建模，但多出的層次為模型提供了更高的抽象層次，因而提高了模型的能力。神經網路就是將許多個單一神經元聯結在一起，一個神經元的輸出就可以是另一個神經元的輸入。神經元是神經網路的基本運算單元，它通過啟動函數將多個輸入值轉化為一個輸出，多個輸入值與多個權值一一對應。

本實施例中，相似條件是指相似度超過相似度閾值，或者字識別錯誤率之差小於或等於容錯閾值。相似度超過相似度閾值，或字識別錯誤率之差小於或等於容錯閾值，則表示第二測試集和第一測試集相似度高，適合採用第一語音資料集訓練得到的隱馬爾科夫模型和混合高斯模型參數對第二語音資料集進行隱馬爾科夫模型和深度神經網路模型訓練。

上述語音資料集訓練方法，檢測到從第二語音資料集中選取資料生成的第二測試集與從第一語音資料集中選取資料生成的第一測試集滿足相似條件，採用第一語音資料集訓練得到的第一語音模型參數對第二語音資料集進行第二語音模型訓練，節省了對第二語音資料集進行第一語音模型訓練，節省了總的訓練時長，提高了訓練效率。

在一個實施例中，從所述第二語音資料集中隨機選取資料生成第二測試集，包括：獲取所述第一測試集中資料數量與所述第一語音資料集中資料數量的比值，從所述第二語音資料集中隨機選取占所述比值的資料，生成所述第二測試集。

本實施例中，第一測試集TEST1中資料數量記為number(TEST1)，第一語音資料集中資料數量記為number(資料集1)。第二測試集TEST2中資料數量記為number(TEST2)，第二語音資料集中資料數量記為number(資料集2)。則滿足number(TEST1)/number(數據集1)=number(TEST2)/number(數據集2)。

通過使得第二測試集中資料量與第二語音資料集中資料量的比例與第一測試集中資料量與第一語音資料集中資料量的比例相同，可確保進行相似度計算時，計算結果更加準確。

圖34為另一個實施例中語音資料集訓練方法的流程圖。如圖 34所示，在一個實施例中，上述語音資料集訓練方法還包括：

步驟1402，從所述第一語音資料集中分別選取資料生成訓練集和第一測試集。

訓練集是用來估計模型的資料集。

步驟1404，對所述訓練集進行第一語音模型訓練得到預設數量的第一語音模型。

本實施例中，預設數量可根據需要配置，例如5個、10個等。

步驟1406，採用所述預設數量的第一語音模型分別對所述第一測試集進行測試，得到字識別錯誤率在預設範圍內的第一語音模型。

本實施例中，採用預設數量的第一語音模型中每一個第一語音模型對第一測試集進行測試，可以得到每個第一語音模型的字識別錯誤率，根據各個第一語音模型的字識別錯誤率篩選得到字識別錯誤率在預設範圍內的第一語音模型。預設範圍可根據需要設定。

步驟1408，將所述字識別錯誤率在預設範圍內的第一語音模型的參數作為所述第一語音模型參數。

本實施例中，字識別錯誤率在預設範圍內的第一語音模型的參數是指字識別錯誤率在預設範圍內的第一語音模型得到的每個HMM狀態的起止時間。

通過對第一語音資料集中選取資料生成訓練集，對訓練集進行訓練得到多個第一語音模型，通過第一測試集測試，得到字識別錯誤率在預設範圍內的第一語音模型，可將字識別錯誤率在預設範圍內中最小的字識別錯誤率的第一語音模型的參數作為所述第一語音模型參數，後續作為共用的第一語音模型參數更加準確。或者，可將字識別錯誤率在預設範圍內中任意的第一語音模型的參數作為所述第一語音模型參數。

在一個實施例中，上述語音資料集訓練方法還包括：採用所述字識別錯誤率在預設範圍內中最小的字識別錯誤率的第一語音模型的參數對所述第一語音資料集進行第二語音模型訓練。

在一個實施例中，上述語音資料集訓練方法還包括：採用字識別錯誤率在預設範圍內中任意的第一語音模型的參數對第一語音資料集進行第二語音模型訓練。

在一個實施例中，對所述訓練集進行第一語音模型訓練得到預設數量的第一語音模型，包括：每次從所述訓練集中隨機選取第一預設比例的資料或第一固定數量的資料進行第一語音模型訓練，重複預設數量次數，得到預設數量的第一語音模型。

本實施例中，第一預設比例可根據需要配置，第一預設比例太高會耗時，太低則不能代表整個訓練集。第一固定數量可根據需要配置。預設數量次數是指從訓練集中隨機選取第一預設比例的資料或第一固定數量的資料進行第一語音模型訓練的次數。

在一個實施例中，所述採用所述預設數量的第一語音模型對所述第一測試集進行測試，得到字識別錯誤率在預設範圍內的第一語音模型，包括：採用預設數量的第一語音模型分別對所述第一測試集進行測試，得到各個第一語音模型的字識別錯誤率；根據各個第一語音模型的字識別錯誤率篩選得到字識別錯誤率在預設範圍內的第一語音模型。

本實施例中，字識別錯誤率(Word Error Rate，WER)表示測試時識別錯誤的字的數量和測試集中字的總數量之間的比值。採用預設數量的第一語音模型分別對所述第一測試集進行測試可得到每個第一語音模型對第一測試集進行測試的字識別錯誤率，字識別錯誤率與預設範圍比較，得到字識別錯誤率在預設範圍內的第一語音模型。

在一個實施例中，所述檢測到所述第二測試集與所述第一測試集滿足相似條件，包括：採用所述字識別錯誤率在預設範圍內中最小的字識別錯誤率對應的第一語音模型對所述第二測試集進行測試，得到所述第二測試集所對應的字識別錯誤率；檢測到所述第二測試集所對應的字識別錯誤率與所述字識別錯誤率在預設範圍內中最小的字識別錯誤率之差小於或等於容錯閾值，則表示所述第二測試集與所述第一測試集滿足相似條件。

本實施例中，容錯閾值可根據實際多次訓練得到。

在一個實施例中，上述語音資料集訓練方法還包括：從所述第一語音資料集中分別選取資料生成訓練集和第一測試集；對所述訓練集進行第一語音模型訓練得到預設數量的第一語音模型；採用所述預設數量的第一語音模型分別對所述第一測試集進行測試，得到所述預設數量中的最小的字識別錯誤率的第一語音模型；將所述預設數量中的最小的字識別錯誤率的第一語音模型的參數作為所述第一語音模型參數。

本實施例中，採用預設數量的第一語音模型分別對所述第一測試集進行測試可得到每個第一語音模型對第一測試集進行測試的字識別錯誤率，對字識別錯誤率進行排序得到預設數量中的最小的字識別錯誤率。

進一步的，檢測到所述第二測試集與所述第一測試集滿足相似條件，包括：採用所述預設數量中的最小的字識別錯誤率對應的第一語音模型對所述第二測試集進行測試，得到所述第二測試集所對應的字識別錯誤率；檢測到所述第二測試集所對應的字識別錯誤率與所述預設數量中的最小的字識別錯誤率之差小於或等於容錯閾值，則表示所述第二測試集與所述第一測試集滿足相似條件。

在一個實施例中，採用HMM+GMM模型求取每個HMM狀態的起止時間的步驟包括：獲取語音資料，對所述語音資料進行分段，提取每段語音的特徵；列出每段語音所有可能對應的文字；將所述文字根據發音詞典轉換為音素；根據HMM模型將所述音素轉換為HMM狀態；根據HMM+GMM模型的參數得到每條文字對應的概率；通過概率的比較得出最有可能的HMM狀態序列；根據HMM狀態序列可得到每個HMM狀態的起止時間。

語音的特徵提取可包括聲強和聲強級、響度、音高、基音週期、基音頻率、信噪比、諧噪比等等。聲強是指單位時間內通過垂直於聲波傳播方向的單位面積的平均聲能。聲強用I表示，單位為瓦/平米。聲強採用聲強級來表示。聲強級的常用單位為分貝(dB)。響度是表示聲音強弱程度。響度採用響度級表示。音高是人類聽覺系統對於聲音頻率高低的感覺。音高的單位是美爾。基音週期反映了聲門相鄰兩次開閉之間的時間間隔或開閉的頻率。信噪比是信號和雜訊的功率之間比值計算得到的。諧躁比是語音中諧波成分和雜訊成分的比率。

音素是根據語音的自然屬性劃分出來的最小語音單位。對語音資料進行標注得到音素。標注是指對未處理的資料進行加工處理，語音的標注是展示語音所代表的真實內容。

得到的HMM狀態序列類似於112233345，假設從時刻t開始，則狀態1的起止時間為t至t+2，狀態2的起止時間為t+3至t+4。

圖35為另一個實施例中語音資料集訓練方法的流程圖。如圖35所示，一種語音資料集訓練方法，包括：

步驟1502，獲取語音資料集，判斷本次訓練是不是第一次訓練，若是，則執行步驟1504，若否，執行步驟1510。

步驟1504，從語音資料集中分別選取資料生成訓練集和第一測試集。

若本次訓練為第一次訓練，則語音資料集可稱為第一語音資料集。

步驟1506，從所述訓練集中隨機選取第一預設比例的資料進行隱馬爾科夫模型和混合高斯模型訓練，重複進行預設數量次，得到預設數量個隱馬爾科夫模型和混合高斯模型。

步驟1508，將預設數量個隱馬爾科夫模型和混合高斯模型分別對第一測試集進行測試，得到最小的字識別錯誤率，記為第一字識別錯誤率，選取最小的字識別錯誤率對應的隱馬爾科夫模型和混合高斯模型作為最優的隱馬爾科夫模型和混合高斯模型，再執行步驟1516。

步驟1510，從語音資料集中隨機選取資料生成第二測試集。

若本次訓練不為第一次訓練，則該語音資料集可稱為第二語音資料集。

步驟1512，用第一次訓練得到的最優的隱馬爾科夫模型和混合高斯模型對第二測試集進行測試，得到第二測試集所對應的字識別錯誤率，記為第二字識別錯誤率。

步驟1514，判斷第二字識別錯誤率與第一字識別錯誤率之差小於或等於容錯閾值，若是，則執行步驟1516，若否，則結束。

步驟1516，用最優的隱馬爾科夫模型和混合高斯模型的參數進行隱馬爾科夫模型和深度神經網路模型訓練。上述語音資料集訓練方法，檢測本次訓練不是第一次訓練，且根據最優的HMM+GMM模型對第一測試集測試得到的第一字識別錯誤率和對第二測試集測試得到的第二字識別錯誤率，第二字識別錯誤率與第一字識別錯誤率小於或等於容錯閾值，則採用第一語音資料集訓練得到的隱馬爾科夫模型和混合高斯模型參數對第二語音資料集進行隱馬爾科夫模型和深度神經網路模型訓練，節省了對第二語音資料集進行隱馬爾科夫模型和混合高斯模型訓練，節省了總的訓練時長，提高了訓練效率；若本次訓練為第一次訓練，則選取最優的HMM+GMM模型，採用最優的HMM+GMM模型的參數進行HMM+DNN訓練。

圖36為一個實施例中HMM+GMM模型的結構示意圖。如圖36所示，第一層52為一個一個語音幀資料，第二層54為GMM模型，第三層56為HMM模型。HMM模型對應輸出概率的多個GMM模型。其中，S表示HMM模型中的HMM狀態；a表示HMM模型中的轉移概率，表示從s _k-1狀態變為s _k-2狀態的轉移概率。每一個GMM對應的是一個HMM模型狀態的輸出概率。將語音資料切分為一個一個語音幀資料，一個語音幀資料對應一個HMM狀態。語音幀即為HMM中的觀測值。

圖37為一個實施例中HMM+DNN模型的結構示意圖。如圖37所示，第一層62為一個一個語音幀資料，第二層64為DNN模型，第三層66為HMM模型。其中，S表示HMM模型中的HMM狀態；a表示HMM模型中的轉移概率，表示從s _k-1狀態變為s _k-2狀態的轉移概率；h表示DNN模型中的神經元；W表示DNN模型中的權值，M表示DNN模型的層數。h代表的是一個函數，如果是第一層，則h的輸入是一幀資料或幾幀資料對應的各自權值；如果是第二層至最後一層，則h的輸入是上一層的輸出和每一個輸出所對應的權值。每一個DNN的輸出對應的是一個HMM模型狀態的輸出概率。每一個DNN的輸出對應的是一個語音幀。

在一個實施例中，可採用一個DNN模型在時域上實現輸入一個語音幀輸出一個HMM狀態對應的概率。

圖38為一個實施例中語音資料集訓練裝置的結構框圖。如圖38所示，一種語音資料集訓練裝置3800，包括讀取模組3802、獲取模組3804和訓練模組3806。其中：讀取模組3802用於讀取從第一語音資料集中選取資料所生成的第一測試集，以及對所述第一語音資料集進行訓練得到的第一語音模型參數。

本實施例中，第一語音資料集是指用於第一次訓練的語音資料集。可從第一語音資料集中選取資料生成第一測試集。第一測試集是用於檢驗通過第一語音資料集進行訓練得到的第一語音模型的性能的資料集。

第一語音模型參數是指每個語音模型狀態的起止時間。例如，第一語音模型參數可為每個HMM狀態的起止時間。每一語音幀對應一個HMM狀態。

獲取模組3804用於獲取第二語音資料集，從所述第二語音資料集中隨機選取資料生成第二測試集。

訓練模組3806用於檢測到所述第二測試集與所述第一測試集滿足相似條件，則採用所述訓練得到的第一語音模型參數對所述第二語音資料集進行第二語音模型訓練。

第一語音模型可為隱馬爾科夫模型和混合高斯模型。第二語音模型可為隱馬爾科夫模型和深度神經網路模型。

上述語音資料集訓練裝置，檢測到從第二語音資料集中選取資料生成的第二測試集與從第一語音資料集中選取資料生成的第一測試集滿足相似條件，採用第一語音資料集訓練得到的第一語音模型參數對第二語音資料集進行第二語音模型訓練，節省了對第二語音資料集進行第一語音模型訓練，節省了總的訓練時長，提高了訓練效率。

圖39為另一個實施例中語音資料集訓練裝置的結構框圖。如圖39所示，一種語音資料集訓練裝置3800，除了包括讀取模組3802、獲取模組3804和訓練模組3806，還包括生成模組3808、模型構建模組3810、篩選模組3812和參數獲取模組3814。

生成模組3808用於從所述第一語音資料集中分別選取資料生成訓練集和第一測試集。

在一個實施例中，所述生成模組3808還用於獲取所述第一測試集中資料數量與所述第一語音資料集中資料數量的比值，從所述第二語音資料集中隨機選取占所述比值的資料，生成所述第二測試集。

模型構建模組3810用於對所述訓練集進行第一語音模型訓練得到預設數量的第一語音模型。

篩選模組3812用於採用所述預設數量的第一語音模型對所述第一測試集進行測試，得到字識別錯誤率在預設範圍內的第一語音模型。

參數獲取模組3814用於將所述字識別錯誤率在預設範圍內的第一語音模型的參數作為所述第一語音模型參數。

訓練模組3806還用於採用字識別錯誤率在預設範圍內的第一語音模型的參數對第一語音資料集進行第二語音模型訓練。

通過對第一語音資料集中選取資料生成訓練集，對訓練集進行訓練得到多個第一語音模型，通過第一測試集測試，得到最優的第一語音模型，將字識別錯誤率在預設範圍內任意的第一語音模型的參數作為所述第一語音模型參數，或者將字識別錯誤率在預設範圍中最小的字識別錯誤率的第一語音模型的參數作為所述第一語音模型參數，後續作為共用的第一語音模型參數更加準確。

在一個實施例中，模型構建模組3810還用於每次從所述訓練集中隨機選取第一預設比例的資料或第一固定數量的資料進行第一語音模型訓練，重複預設數量的次數，得到預設數量的第一語音模型。

在一個實施例中，篩選模組3812還用於採用預設數量的第一語音模型分別對所述第一測試集進行測試，得到各個第一語音模型的字識別錯誤率；以及根據各個第一語音模型的字識別錯誤率篩選得到字識別錯誤率在預設範圍內的第一語音模型。

圖40為另一個實施例中語音資料集訓練裝置的結構框圖。如圖40所示，一種語音資料集訓練裝置3800，除了包括讀取模組3802、獲取模組3804、訓練模組3806、生成模組3808、模型構建模組3810、篩選模組3812和參數獲取模組3814，還包括檢測模組3816。

檢測模組3816用於採用所述字識別錯誤率在預設範圍內中最小的字識別錯誤率對應的第一語音模型對所述第二測試集進行測試，得到所述第二測試集所對應的字識別錯誤率；以及檢測到所述第二測試集所對應的字識別錯誤率與所述字識別錯誤率在預設範圍內中最小的字識別錯誤率之差小於或等於容錯閾值，則表示所述第二測試集與所述第一測試集滿足相似條件。

在一個實施例中，生成模組3808還用於從所述第一語音資料集中分別選取資料生成訓練集和第一測試集。

篩選模組3812用於採用所述預設數量的第一語音模型分別對所述第一測試集進行測試，得到所述預設數量中的最小的字識別錯誤率的第一語音模型；參數獲取模組3814用於將所述最小的字識別錯誤率的第一語音模型的參數作為所述第一語音模型參數。

檢測模組3816還用於採用所述預設數量中的最小的字識別錯誤率對應的第一語音模型對所述第二測試集進行測試，得到所述第二測試集所對應的字識別錯誤率；以及檢測到所述第二測試集所對應的字識別錯誤率與所述預設數量中的最小的字識別錯誤率之差小於或等於容錯閾值，則表示所述第二測試集與所述第一測試集滿足相似條件。

上述語音資料集訓練裝置中各個模組的劃分僅用於舉例說明，在其他實施例中，可將語音資料集訓練裝置按照需要劃分為不同的模組，以完成上述語音資料集訓練裝置的全部或部分功能。

本申請的實施例還提供了一種電腦設備和電腦可讀儲存介質。

一種電腦設備，包括記憶體，處理器及儲存在記憶體上並可在處理器上運行的電腦程式(指令)，所述處理器執行所述程式時實現以下步驟：讀取從第一語音資料集中選取資料所生成的第一測試集，以及對所述第一語音資料集進行訓練得到的第一語音模型參數；獲取第二語音資料集，從所述第二語音資料集中隨機選取資料生成第二測試集；以及檢測到所述第二測試集與所述第一測試集滿足相似條件，則採用所述訓練得到的第一語音模型參數對所述第二語音資料集進行第二語音模型訓練。第一語音模型可為隱馬爾科夫模型和混合高斯模型。第二語音模型可為隱馬爾科夫模型和深度神經網路模型。

在一個實施例中，所述處理器還用於執行所述程式時實現以下步驟：從所述第一語音資料集中分別選取資料生成訓練集和第一測試集；對所述訓練集進行第一語音模型訓練得到預設數量的第一語音模型；採用所述預設數量的第一語音模型分別對所述第一測試集進行測試，得到字識別錯誤率在預設範圍內的第一語音模型；將所述字識別錯誤率在預設範圍內的第一語音模型的參數作為所述第一語音模型參數。

在一個實施例中，所述處理器還用於對所述訓練集進行第一語音模型訓練得到預設數量的第一語音模型，包括：每次從所述訓練集中隨機選取第一預設比例的資料或第一固定數量的資料進行第一語音模型訓練，重複預設數量的次數，得到預設數量的第一語音模型。

在一個實施例中，所述處理器還用於採用所述預設數量的第一語音模型對所述第一測試集進行測試，得到字識別錯誤率在預設範圍內的第一語音模型，包括：採用預設數量的第一語音模型分別對所述第一測試集進行測試，得到各個第一語音模型的字識別錯誤率；根據各個第一語音模型的字識別錯誤率篩選得到字識別錯誤率在預設範圍內的第一語音模型。

在一個實施例中，所述處理器還用於檢測到所述第二測試集與所述第一測試集滿足相似條件，包括：採用所述字識別錯誤率在預設範圍內中最小的字識別錯誤率對應的第一語音模型對所述第二測試集進行測試，得到所述第二測試集所對應的字識別錯誤率；檢測到所述第二測試集所對應的字識別錯誤率與所述字識別錯誤率在預設範圍內中最小的字識別錯誤率之差小於或等於容錯閾值，則表示所述第二測試集與所述第一測試集滿足相似條件。

在一個實施例中，所述處理器還用於從所述第一語音資料集中分別選取資料生成訓練集和第一測試集；對所述訓練集進行第一語音模型訓練得到預設數量的第一語音模型；採用所述預設數量的第一語音模型分別對所述第一測試集進行測試，得到所述預設數量中的最小的字識別錯誤率的第一語音模型；將所述最小的字識別錯誤率的第一語音模型的參數作為所述第一語音模型參數。

在一個實施例中，所述處理器還用於採用所述預設數量中的最小的字識別錯誤率對應的第一語音模型對所述第二測試集進行測試，得到所述第二測試集所對應的字識別錯誤率；檢測到所述第二測試集所對應的字識別錯誤率與所述預設數量中的最小的字識別錯誤率之差小於或等於容錯閾值，則表示所述第二測試集與所述第一測試集滿足相似條件。

在一個實施例中，所述處理器還用於從所述第二語音資料集中隨機選取資料生成第二測試集，包括：獲取所述第一測試集中資料數量與所述第一語音資料集中資料數量的比值，從所述第二語音資料集中隨機選取占所述比值的資料，生成所述第二測試集。

一種電腦可讀儲存介質，其上儲存有電腦程式，該程式被處理器執行時實現以下步驟：讀取從第一語音資料集中選取資料所生成的第一測試集，以及對所述第一語音資料集進行訓練得到的第一語音模型參數；獲取第二語音資料集，從所述第二語音資料集中隨機選取資料生成第二測試集；以及檢測到所述第二測試集與所述第一測試集滿足相似條件，則採用所述訓練得到的第一語音模型參數對所述第二語音資料集進行第二語音模型訓練。第一語音模型可為隱馬爾科夫模型和混合高斯模型。第二語音模型可為隱馬爾科夫模型和深度神經網路模型。

在一個實施例中，所述處理器還用於執行所述程式時實現以下步驟：從所述第一語音資料集中分別選取資料生成訓練集和第一測試集；對所述訓練集進行第一語音模型訓練得到預設數量的第一語音模型；採用所述預設數量的第一語音模型分別對所述第一測試集進行測試，得到最優的第一語音模型；將所述最優的第一語音模型的參數作為所述第一語音模型參數。

在一個實施例中，所述處理器還用於採用所述預設數量的第一語音模型對所述第一測試集進行測試，得到最優的第一語音模型，包括：採用預設數量的第一語音模型分別對所述第一測試集進行測試，得到各個第一語音模型的字識別錯誤率；根據各個第一語音模型的字識別錯誤率篩選得到字識別錯誤率在預設範圍內的第一語音模型。

在一個實施例中，電腦可讀介質是指非易失性儲存介質，可以排除能量、電磁波等介質。

本說明書中各個實施例採用遞進的方式描述，每個實施例重點說明的都是與其他實施例的不同之處，各個實施例之間相同相似部分互相參見即可。對於實施例公開的裝置而言，由於其與實施例公開的方法相對應，所以描述的比較簡單，相關之處參見方法部分說明即可。

專業人員還可以進一步意識到，結合本文中所公開的實施例描述的各示例的單元及演算法步驟，能夠以電子硬體、電腦軟體或者二者的結合來實現，為了清楚地說明硬體和軟體的可互換性，在上述說明中已經按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬體還是軟體方式來執行，取決於技術方案的特定應用和設計約束條件。專業技術人員可以對每個特定的應用來使用不同方法來實現所描述的功能，但是這種實現不應認為超出本申請的範圍。

結合本文中所公開的實施例描述的方法或演算法的步驟可以直接用硬體、處理器執行的軟體模組，或者二者的結合來實施。軟體模組可以置於隨機記憶體(RAM)、記憶體、唯讀記憶體(ROM)、電可編程ROM、電可擦除可編程ROM、寄存器、硬碟、可移動磁片、CD-ROM、或技術領域內所公知的任意其他形式的儲存介質中。

雖然本申請已用較佳實施例揭露如上，然其並非用以限定本申請，本申請所屬技術領域中具有通常知識者，在不脫離本申請之精神和範圍內，當可作各種之更動與潤飾，因此本申請之保護範圍當視後附之申請專利範圍所界定者為準。

Claims

一種飛行器飛行控制方法，應用於飛行器，所述方法包括：獲取用戶圖像；識別所述用戶圖像中的用戶手勢；根據預定義的各用戶手勢與飛行指令的對應關係，確定所述用戶手勢對應的飛行指令；根據所述飛行指令控制飛行器飛行。
如申請專利範圍第1項所述之方法，所述識別所述用戶圖像中的用戶手勢包括：根據膚色檢測演算法，識別所述用戶圖像中的人體皮膚區域；從人體皮膚區域中提取用戶手勢區域；將用戶手勢區域的輪廓特徵，與預置的各標準用戶手勢的輪廓特徵進行匹配，確定與所述用戶手勢區域的輪廓特徵匹配度最高的標準用戶手勢；將所確定的標準用戶手勢作為從所述用戶圖像中識別的用戶手勢。
如申請專利範圍第2項所述之方法，所述從人體皮膚區域中提取用戶手勢區域包括：去除所述人體皮膚區域中的人臉區域，得到用戶手勢區域。
如申請專利範圍第1項所述之方法，所述識別所述用戶圖像中的用戶手勢包括：提取所述用戶圖像中的連通區域；提取各連通區域的輪廓特徵；將各連通區域的輪廓特徵，與預置的各標準用戶手勢的輪廓特徵進行匹配，確定匹配度最高的標準用戶手勢，將匹配度最高的標準用戶手勢，作為從所述用戶圖像中識別的用戶手勢。
如申請專利範圍第4項所述之方法，所述提取所述用戶圖像中的連通區域包括：提取用戶圖像中的所有連通區域，或，提取去除人臉區域後的用戶圖像中的連通區域。
如申請專利範圍第1項所述之方法，所述方法還包括：對於各標準用戶手勢，預先採集含有標準用戶手勢的多個用戶圖像，作為各標準用戶手勢對應的圖像樣本；對於各標準用戶手勢對應的圖像樣本，根據機器訓練方法，訓練各標準用戶手勢的檢測器；所述識別所述用戶圖像中的用戶手勢包括：使用各標準用戶手勢的檢測器，分別對所述用戶圖像進行檢測，得到各標準用戶手勢的檢測器對所述用戶圖像的檢測結果；根據所述用戶圖像的檢測結果，確定從所述用戶圖像中識別的用戶手勢。
如申請專利範圍第1至6任一項所述之方法，所述獲取用戶圖像包括：獲取所述飛行器的圖像採集裝置所採集的用戶圖像；或者，獲取地面圖像採集裝置所採集的用戶圖像。
如申請專利範圍第7項所述之方法，若獲取用戶圖像包括：獲取所述飛行器的圖像採集裝置所採集的用戶圖像；所述方法還包括：在根據所述飛行指令控制飛行器飛行後，調整所述飛行器的圖像採集裝置的圖像採集角度，使得用戶處於所述圖像採集裝置的圖像採集範圍內。
如申請專利範圍第1項所述之方法，所述識別所述用戶圖像中的用戶手勢包括：判斷所述用戶圖像中是否存在與合法用戶的人臉特徵相匹配的人臉區域；若所述用戶圖像中存在與合法用戶的人臉特徵相匹配的人臉區域，提取所述用戶圖像中與合法用戶的人臉特徵相匹配的人臉區域所對應的用戶人像；識別所述用戶人像中的用戶手勢。
如申請專利範圍第9項所述之方法，其中所述識別所述用戶人像中的用戶手勢包括：識別所述用戶人像中的人體皮膚區域，從人體皮膚區域中提取用戶手勢區域，將所述用戶手勢區域的輪廓特徵，與預置的各標準用戶手勢的輪廓特徵進行匹配，確定與所述用戶手勢區域的輪廓特徵匹配度最高的標準用戶手勢，得到從所述用戶人像中識別的用戶手勢；或，提取所述用戶人像中的連通區域，將各連通區域的輪廓特徵，與預置的各標準用戶手勢的輪廓特徵進行匹配，確定匹配度最高的標準用戶手勢，將匹配度最高的標準用戶手勢，作為從所述用戶人像中識別的用戶手勢；或，使用各標準用戶手勢的檢測器，分別對所述用戶人像進行檢測，得到各標準用戶手勢的檢測器對所述用戶人像的檢測結果，根據所述用戶人像的檢測結果，確定從所述用戶人像中識別的用戶手勢。
如申請專利範圍第1項所述之方法，所述識別所述用戶圖像中的用戶手勢之後，所述方法還包括：若所述用戶手勢為預定的第一手勢，確定所述第一手勢在所述用戶圖像中的位置；根據所述第一手勢在所述用戶圖像中的位置，調整飛行器的飛行姿態，以使飛行器跟隨所述第一手勢的手勢軌跡飛行。
如申請專利範圍第11項所述之方法，若所述獲取用戶圖像包括：獲取所述飛行器的圖像採集裝置所採集的用戶圖像；所述根據所述第一手勢在所述用戶圖像中的位置，調整飛行器的飛行姿態包括：根據所述位置，確定飛行器在與第一手勢的手勢軌跡相同的水準運動方向上，調整的水準移動距離；及根據所述位置，確定飛行器在與第一手勢的手勢軌跡相同的垂直運動方向上，調整的垂直移動距離；以所確定的水準移動距離和垂直移動距離調整飛行器的飛行姿態，使得第一手勢始終位於所述圖像採集裝置的圖像採集視野範圍內。
如申請專利範圍第12項所述之方法，若所述獲取用戶圖像包括：獲取所述飛行器的圖像採集裝置所採集的用戶圖像；則所述根據所述位置，確定飛行器在與第一手勢的手勢軌跡相同的水準運動方向上，調整的水準移動距離包括：以所述圖像採集裝置在橫軸方向上的視線範圍構建橫軸座標，所述橫軸座標的原點為所述圖像採集裝置在橫軸方向上的視線中點；確定所述位置在橫軸座標上的投影點，並確定所述投影點在所述橫軸座標上的座標；根據所述橫軸座標的長度，飛行器與地面的垂直高度，所述圖像採集裝置的中心線和垂直方向的角度，所述圖像採集裝置的橫軸方向視角的半形，及所述投影點在所述橫軸座標上的座標，確定飛行器的水準移動距離。
如申請專利範圍第12項所述之方法，若所述獲取用戶圖像包括：獲取所述飛行器的圖像採集裝置所採集的用戶圖像；則所述根據所述位置，確定飛行器在與第一手勢的手勢軌跡相同的垂直運動方向上，調整的垂直移動距離包括：以所述圖像採集裝置在縱軸方向上的視線範圍構建縱軸座標，所述縱軸座標的原點為所述圖像採集裝置在縱軸方向上的視線中點；確定所述位置在縱軸座標上的投影點，並確定該投影點在所述縱軸座標上的座標；根據所述縱軸座標的高度，飛行器與地面的垂直高度，所述圖像採集裝置縱軸方向的半視角，所述圖像採集裝置的傾角與所述半視角的角度差，及該投影點在所述縱軸座標上的座標，確定飛行器的垂直移動距離。
如申請專利範圍第11項所述之方法，所述識別所述用戶圖像中的用戶手勢包括：通過預先訓練的第一手勢的檢測器，對所述用戶圖像進行檢測，判斷所述用戶圖像中是否存在第一手勢；或，根據皮膚檢測演算法，識別用戶圖像中的人體皮膚區域，從人體皮膚區域中去除人臉區域，得到用戶手勢區域，將用戶手勢區域的輪廓特徵，與預定的第一手勢的輪廓特徵進行匹配，通過匹配度判斷所述用戶圖像中是否存在第一手勢；或，提取用戶圖像中的連通區域，將各連通區域的輪廓特徵與預定的第一手勢的輪廓特徵進行匹配，通過匹配度判斷所述用戶圖像中是否存在第一手勢。
如申請專利範圍第15項所述之方法，所述所識別的用戶手勢為預定的第一手勢包括：通過預先訓練的第一手勢的檢測器，識別到用戶圖像中存在第一手勢；或，用戶圖像中用戶手勢區域的輪廓特徵，與預定的第一手勢的輪廓特徵的匹配度高於預定第一匹配度，則識別到用戶圖像中存在第一手勢；或，用戶圖像中存在與第一手勢的輪廓特徵的匹配度高於預定第二匹配度的連通區域，則識別到用戶圖像中存在第一手勢。
如申請專利範圍第15或是16項所述之方法，所述確定所述第一手勢在所述用戶圖像中的位置包括：確定所述用戶圖像中第一手勢對應的區域，以該區域的中心點在所述用戶圖像中的位置，作為第一手勢在所述用戶圖像中的位置；或，確定所述用戶圖像中第一手勢的區域，定義邊緣與該區域對應的矩形框，以該矩形框的中心點在所述用戶圖像中的位置，作為第一手勢在所述用戶圖像中的位置。
如申請專利範圍第11項所述之方法，所述識別所述用戶圖像中的用戶手勢之後，所述方法還包括：若所識別的用戶手勢為預定的第二手勢，且飛行器當前未進入第一模式，觸發所述飛行器進入第一模式，所述第一模式用於指示飛行器跟隨用戶的第一手勢的手勢軌跡飛行；若所識別的用戶手勢為預定的第二手勢，且飛行器當前已進入第一模式，觸發所述飛行器退出第一模式，指示所述飛行器取消跟隨用戶的第一手勢的手勢軌跡飛行；所述若所識別的用戶手勢為預定的第一手勢，確定所述第一手勢在所述用戶圖像中的位置包括：若所識別的用戶手勢為預定的第一手勢，且飛行器當前已進入第一模式，確定所述第一手勢在所述用戶圖像中的位置。
如申請專利範圍第18項所述之方法，所述識別所述用戶圖像中的用戶手勢包括：分別通過預先訓練的第一手勢的檢測器和第二手勢的檢測器，對所述用戶圖像進行檢測，以識別所述用戶圖像中的用戶手勢；或，根據皮膚檢測演算法，識別用戶圖像中的人體皮膚區域，從人體皮膚區域中去除人臉區域，得到用戶手勢區域，將用戶手勢區域的輪廓特徵，分別與預定的第一手勢的輪廓特徵，和預定的第二手勢的輪廓特徵進行匹配，以識別所述用戶圖像中的用戶手勢；或，提取用戶圖像中的連通區域，將各連通區域的輪廓特徵，分別與預定的第一手勢的輪廓特徵，和預定的第二手勢的輪廓特徵進行匹配，以識別所述用戶圖像中的用戶手勢。
如申請專利範圍第11或18項所述之方法，所述方法還包括：判斷所述用戶圖像中是否存在與合法用戶的人臉特徵相匹配的人臉區域；所述識別所述用戶圖像中的用戶手勢包括：若所述用戶圖像中存在與合法用戶的人臉特徵相匹配的人臉區域，對與合法用戶的人臉特徵相匹配的人臉區域在用戶圖像中對應的用戶手勢進行識別。
一種飛行器飛行控制裝置，應用於飛行器，所述飛行器飛行控制裝置包括：圖像獲取模組，用於獲取用戶圖像；手勢識別模組，用於識別所述用戶圖像中的用戶手勢；飛行指令確定模組，用於根據預定義的各用戶手勢與飛行指令的對應關係，確定所述用戶手勢對應的飛行指令；飛行控制模組，用於根據所述飛行指令控制飛行器飛行。
如申請專利範圍第21項所述之飛行器飛行控制裝置，所述手勢識別模組，用於識別所述用戶圖像中的用戶手勢，具體包括：根據膚色檢測演算法，識別所述用戶圖像中的人體皮膚區域；從人體皮膚區域中提取用戶手勢區域；將用戶手勢區域的輪廓特徵，與預置的各標準用戶手勢的輪廓特徵進行匹配，確定與所述用戶手勢區域的輪廓特徵匹配度最高的標準用戶手勢；將所確定的標準用戶手勢作為從所述用戶圖像中識別到的用戶手勢；或，提取所述用戶圖像中的連通區域；提取各連通區域的輪廓特徵；將各連通區域的輪廓特徵，與預置的各標準用戶手勢的輪廓特徵進行匹配，確定匹配度最高的標準用戶手勢，將匹配度最高的標準用戶手勢，作為從所述用戶圖像中識別的用戶手勢。
如申請專利範圍第21項所述之飛行器飛行控制裝置，還包括：訓練模組，用於對於各標準用戶手勢，預先採集含有標準用戶手勢的多個用戶圖像，作為各標準用戶手勢對應的圖像樣本；對於各標準用戶手勢對應的圖像樣本，根據機器訓練方法，訓練各標準用戶手勢的檢測器；所述手勢識別模組，用於識別所述用戶圖像中的用戶手勢，具體包括：使用各標準用戶手勢的檢測器，分別對所述用戶圖像進行檢測，得到各標準用戶手勢的檢測器對所述用戶圖像的檢測結果；根據所述用戶圖像的檢測結果，確定從所述用戶圖像中識別的用戶手勢。
如申請專利範圍第21項所述之飛行器飛行控制裝置，所述圖像獲取模組，用於獲取用戶圖像，具體包括：獲取所述飛行器的圖像採集裝置所採集的用戶圖像；或者，獲取地面圖像採集裝置所採集的用戶圖像。
如申請專利範圍第24項所述之飛行器飛行控制裝置，若所述圖像獲取模組，用於獲取所述飛行器的圖像採集裝置所採集的用戶圖像；所述飛行器飛行控制裝置還包括：角度調整模組，用於在根據所述飛行指令控制飛行器飛行後，調整所述飛行器的圖像採集裝置的圖像採集角度，使得用戶處於所述圖像採集裝置的圖像採集範圍內。
如申請專利範圍第21項所述之飛行器飛行控制裝置，所述手勢識別模組，用於識別所述用戶圖像中的用戶手勢，具體包括：判斷所述用戶圖像中是否存在與合法用戶的人臉特徵相匹配的人臉區域；若所述用戶圖像中存在與合法用戶的人臉特徵相匹配的人臉區域，提取所述用戶圖像中與合法用戶的人臉特徵相匹配的人臉區域所對應的用戶人像；識別所述用戶人像中的用戶手勢。
如申請專利範圍第21項所述之飛行器飛行控制裝置，所述飛行器飛行控制裝置還包括手勢位置確定模組，用於若所識別的用戶手勢為預定的第一手勢，確定所述第一手勢在所述用戶圖像中的位置；所述飛行控制模組，還用於根據所述第一手勢在所述用戶圖像中的位置，調整飛行器的飛行姿態，以使飛行器跟隨所述第一手勢的手勢軌跡飛行。
如申請專利範圍第27項所述之飛行器飛行控制裝置，若所述圖像獲取模組，用於獲取所述飛行器的圖像採集裝置所採集的用戶圖像；所述飛行控制模組，用於根據所述第一手勢在所述用戶圖像中的位置，調整飛行器的飛行姿態，具體包括：根據所述位置，確定飛行器在與第一手勢的手勢軌跡相同的水準運動方向上，調整的水準移動距離；及根據所述位置，確定飛行器在與第一手勢的手勢軌跡相同的垂直運動方向，調整的垂直移動距離；以所確定的水準移動距離和垂直移動距離調整飛行器的飛行姿態，使得第一手勢始終位於所述圖像採集裝置的圖像採集視野範圍內。
如申請專利範圍第27項所述之飛行器飛行控制裝置，所述飛行控制模組，還用於：若所識別的用戶手勢為預定的第二手勢，且飛行器當前未進入第一模式，觸發所述飛行器進入第一模式，所述第一模式用於指示飛行器跟隨用戶的第一手勢的手勢軌跡飛行；若所識別的用戶手勢為預定的第二手勢，且飛行器當前已進入第一模式，觸發所述飛行器退出第一模式，指示所述飛行器取消跟隨用戶的第一手勢的手勢軌跡飛行；所述飛行控制模組，用於若所識別的用戶手勢為預定的第一手勢，確定所述第一手勢在所述用戶圖像中的位置，具體包括：若所識別的用戶手勢為預定的第一手勢，且飛行器當前已進入第一模式，確定所述第一手勢在所述用戶圖像中的位置。
如申請專利範圍第27項所述之飛行器飛行控制裝置，所述手勢識別模組，還用於：在識別所述用戶圖像中的用戶手勢之前，判斷所述用戶圖像中是否存在與合法用戶的人臉特徵相匹配的人臉區域；所述手勢識別模組，用於識別所述用戶圖像中的用戶手勢，具體包括：若所述用戶圖像中存在與合法用戶的人臉特徵相匹配的人臉區域，對與合法用戶的人臉特徵相匹配的人臉區域在用戶圖像中對應的用戶手勢進行識別。
一種飛行器，包括：圖像採集裝置和處理晶片；所述處理晶片包括申請專利範圍第21至30任一項所述之飛行器飛行控制裝置。
一種飛行器飛行控制系統，包括：地面圖像採集裝置和飛行器；所述地面圖像採集裝置，用於採集用戶圖像，並傳輸給所述飛行器；所述飛行器包括處理晶片；所述處理晶片，用於獲取地面圖像採集裝置傳輸的用戶圖像；識別所述用戶圖像中的用戶手勢；根據預定義的各用戶手勢與飛行指令的對應關係，確定所述用戶手勢對應的飛行指令；根據所述飛行指令控制飛行器飛行。
一種飛行器飛行控制系統，包括：地面圖像採集裝置，地面處理晶片和飛行器；所述地面圖像採集裝置，用於採集用戶圖像，並傳輸給地面處理晶片；所述地面處理晶片，用於獲取地面圖像採集裝置傳輸的用戶圖像；識別所述用戶圖像中的用戶手勢；根據預定義的各用戶手勢與飛行指令的對應關係，確定所述用戶手勢對應的飛行指令；將所述飛行指令傳輸給所述飛行器；所述飛行器包括處理晶片；所述處理晶片，用於獲取所述飛行指令，根據所述飛行指令控制飛行器飛行。