主頁> 論文模板> 教育學論文> 教育理論> 遠程教育> 遠程教育中基于內容的視頻檢索研究

遠程教育中基于內容的視頻檢索研究

李建生

【關鍵詞】視頻；基于內容；檢索

一、遠程教育中基于內容視頻研究的必要性

在遠程教育中數字視頻是多媒體教學信息系統中重要的數據類型，其特點是數據量大、信息量也大。如一幅24mm×36mm（即通常所說的35mm）的彩色照片，若以12um的間距進行掃描，則形成三副彩色數字圖像。每幅彩色圖像由3000×2000pixel象素組成；如果每個象素用8bit數據量表示，那么三副數字圖像需用：3000×2000×8×3=144×106 bit，而一幅圖像只相當于視頻中的一幀，假定播放速率為每秒25幀，則1s的數據量約為25MB，一個600兆的硬盤也只能存放24s的動態圖像。因此對視頻數據的管理關鍵之一是對視頻數據的壓縮編碼和解碼。除此，視頻數據作為一種表達信息的媒體，具有內容多樣性，如可指視頻中所含的語義內容，也可指視頻中所含的顏色、紋理、物體運動、物體之間的關系、攝像機操作、物體大小形狀等。視頻數據還具有解釋的多樣性及模糊性，不同的人對同一段視頻可能有不同的解釋。視頻檢索就是從大量的視頻數據中找到所需要的視頻片段。傳統的視頻檢索主要是通過快進和快退等方法進行人工查找，無法滿足多媒體數據庫的要求。早期的商用多媒體數據庫，如VOD系統，只能提供基于關鍵字的檢索或分類瀏覽功能，檢索的單位只局限于電影或整場比賽，對于更小的視頻片段，如一個場景或鏡頭的檢索，只能依靠傳統的快進、快退等手段。而用戶常希望只要給出例子或特征描述，系統就能自動地找到所需的視頻片段。視頻數據包含極其豐富的語義內容，但在理論層次上，視頻是二維象素陣列的時間序列，與語義內容并不直接相關。

因此，要實現基于內容的視頻檢索，必須突破傳統的基于一個或多個關鍵詞(或屬性)建立索引和基于表達式檢索的局限，直接對視頻內容進行分析，抽取特征和語義，并利用這些內容特征建立索引。因此基于內容的檢索就是指根據媒體和媒體對象的內容語義及上下文聯系進行檢索。

二、基于內容的視頻分析

視頻數據模型的特點是：每個視頻數據都是一個復雜的實體，關系不是存在于各視頻數據塊之間，而是存在于視頻數據塊內部。所以，首先要把視頻數據分解，分出結構和層次。然后分析結構中的各個對象，抽取各個對象的特征，并存儲這些屬性，使得用戶能夠根據視頻的內容來檢索。

基于內容的視頻分析，是指根據特定的目的，從輸入視頻中提取關于內容的相關信息的一切處理過程。為了實現基于鏡頭內容的視頻檢索，視頻分析的基本過程包括鏡頭邊界的檢測、視頻數據的低層特征自動索引和視頻聚類。鏡頭邊界檢測通過視頻幀的比較，把視頻分割成基本的組成單元——鏡頭；視頻數據的自動索引包括關鍵幀的比較、靜止特征和運動特征的提取等；根據這些特征可以進行視頻聚類。

視頻分析基本過程如下：

三、國內外關于該課題的研究現狀

1. 切變檢測和鏡頭分割

鏡頭是視頻的一種基本單元，它由時間上相連的一組幀圖像組成。鏡頭檢測是將視頻流切成一個個分離的鏡頭。這時需要確定鏡頭的時間邊界，或者說要檢測鏡頭的轉變或切換處。

常見視頻節目中的鏡頭切換可分兩種：一種是直接切換，稱為切變；另一種是光學切換，是對應場景的逐漸變化，稱為漸變。

2. 關鍵幀提取

鏡頭的關鍵幀就是反映該鏡頭中主要信息內容的幀圖像。將各鏡頭檢測出來后，對每個鏡頭可提取關鍵幀，并用關鍵幀簡潔地表達鏡頭。這是因為每個鏡頭都是在同一個場景下拍攝的，同一個鏡頭中的各幀圖像有相當的重復信息，關鍵幀就是反映該鏡頭中主要信息內容的幀圖像，一般一個鏡頭要用所提取出的一個或若干個幀圖像來表示。另外，用關鍵幀表示鏡頭使得可用基于圖像的技術對視頻鏡頭進行檢索。

3. 比較著名的圖像/視頻檢索系統

QBIC：是IBM研制的商用圖像檢索系統，它支持：基于樣本圖像的查詢、用戶構畫草圖、用戶繪制圖形、用戶選擇希望的紋理和顏色。

VIRAGE：是VIRAGE INC 公司開發的基于內容圖形搜索引擎，類似于QBIC，VIRAGE支持基于顏色、顏色布局、紋理、結構等視覺信息的檢索，支持上述幾種原子查詢的組合查詢，用戶能根據自己的意愿調整某個查詢權重。

PHOTOBOOK：MIT媒體實驗室研制的一組交互瀏覽和檢索工具，它實現形狀、紋理和人臉特征的提取和檢索。

VISUALSEEK和WEBSEEK：VISUALSEEK是視覺特征搜索引擎，WEBSEEK是面向WEB 的文本/圖像搜索引擎，由COLUMBIA大學研制。

NETRA：UCSB為ALEXANDRA數字圖書館項目研制的原型系統，它用顏色、紋理、形狀和分割后的圖像區域之間的空域關系等視覺特征。

MARS：是Illinois at URBANA CHAMPAIGN 大學研制。

BLOBWORLD：是UC BERKELEY 開發。它將原始圖像轉換為一組局部相關的顏色和紋理，使用戶觀看圖像內部表示和查詢結果，讓用戶能夠直觀地改進檢索結果。

四、結語

基于內容的視頻檢索系統關鍵技術主要包括：鏡頭切變檢測和分割；關鍵幀和代表幀提??；視頻數據的索引；視頻數據表示；用戶查詢檢索等。

[參考文獻]

[1] 劉政凱，湯曉鷗. 視頻檢索中鏡頭分割方法綜述[J]. 計算機工程與應用，2002，（23） [2] 須德，馬璐. 基于內容的視頻結構模型[J]. 鐵道學報，2000，（4）