基于物聯(lián)網(wǎng)的信息數(shù)據(jù)與多媒體信息檢索
引言
在科學技術(shù)和信息經(jīng)濟的發(fā)展中,信息無時不在,無處不在。隨著全球信息化和信息網(wǎng)絡(luò)共享,即物聯(lián)網(wǎng)時代的到來,人們發(fā)現(xiàn)在海量的信息環(huán)境中,信息的査找和檢索變得越來越困難。傳統(tǒng)的信息檢索已不能滿足經(jīng)濟時代人們對信息資源的需求,數(shù)字圖書館的出現(xiàn)從根本上改變了傳統(tǒng)信息資源檢索的不足之處。
數(shù)字圖書館不僅僅是傳統(tǒng)圖書館的數(shù)字化,而且是來源于極其豐富的物聯(lián)網(wǎng)資源庫,數(shù)字圖書館通過對各種信息資源的深加工和合理、有效的信息組織、可使之成為永久、有序的知識源泉。同時,通過各種各樣的服務(wù),數(shù)字圖書館將成為人們生活中不可缺少的重要信息來源。
1 多媒體管理系統(tǒng)
多媒體數(shù)據(jù)管理系統(tǒng)是數(shù)字圖書館信息系統(tǒng)的基礎(chǔ)構(gòu)架,可對電子圖書、音頻、視頻、圖像等多媒體數(shù)字資源進行有效管理,是一個有效管理的數(shù)字對象集和服務(wù)集。服務(wù)集是與存儲、發(fā)現(xiàn)、檢索和保存數(shù)字對象相關(guān)的服務(wù)功能集??梢?,基于物聯(lián)網(wǎng)的多媒體管理系統(tǒng)在數(shù)字圖書館的信息檢索中起著非常重要的作用。
1.1 多媒體信息管理
數(shù)字圖書館信息包括文本、圖像、音頻和全運動視頻等多媒體數(shù)據(jù)的基本類型。多媒體信息管理面臨的第一個問題是多媒體信息的存儲。多媒體信息的存儲需要巨大的空間,采用分層存儲管理的方法能進行快速檢索;多媒體信息管理的第二個問題是多媒體信息檢索。對于海量信息,檢索的準確和速度非常需要元信息,即索引信息。對于聲音、視頻等媒體的檢索,其編制索引的能力尤為重要。
1.2 多媒體數(shù)據(jù)庫的分布式管理
多媒體數(shù)據(jù)庫由大量不同類型的多媒體對象組成。在數(shù)字圖書館需要多媒體數(shù)據(jù)庫支持的應(yīng)用中,可將數(shù)值、文本、超文本以及超媒體文檔中的文本與圖像、音頻、視頻對象分開存儲,這樣可使大型數(shù)據(jù)效果達到最佳。
多媒體數(shù)據(jù)庫是一個分布式、異構(gòu)的多數(shù)據(jù)庫系統(tǒng),可以存儲和管理大規(guī)模的多媒體數(shù)據(jù)。構(gòu)成系統(tǒng)的節(jié)點服務(wù)器通過局部的、基本的多媒體對象管理以及分層的、全局和局部混合的元信息管理和多媒體對象唯一標識的名錄服務(wù),為在Internet上的應(yīng)用提供存儲、發(fā)現(xiàn)、檢索和保存多媒體對象的可靠、有效地服務(wù)功能。
1.3 多媒體應(yīng)用系統(tǒng)的組成
多媒體應(yīng)用系統(tǒng)由應(yīng)用軟件、海量多媒體數(shù)據(jù)管理系統(tǒng)、用戶界面代理和網(wǎng)絡(luò)組成。其中,海量多媒體數(shù)據(jù)管理系統(tǒng)可存儲和管理多媒體對象內(nèi)容,并提供與存儲、發(fā)現(xiàn)、檢索和保存多媒體對象內(nèi)容相關(guān)的服務(wù)。具體的說,它由多媒體對象服務(wù)器、索引服務(wù)器、句柄系統(tǒng)組成。
多媒體對象服務(wù)器上的多媒體數(shù)據(jù)包括文本、圖像、音頻、視頻等,這些信息必須存儲在所有用戶都能訪問到的網(wǎng)絡(luò)資源上,此系統(tǒng)資源稱為對象服務(wù)器。服務(wù)器的數(shù)目取決于應(yīng)用系統(tǒng)所支持的數(shù)據(jù)對象類型,如:文檔數(shù)據(jù)庫服務(wù)器;文檔圖像和靜止視頻;全運動視頻服務(wù)器等,應(yīng)用時可根據(jù)需要選擇組合。
對象服務(wù)器的基本服務(wù)包括存儲不同的數(shù)據(jù)類型、根據(jù)客戶請求傳輸數(shù)據(jù)、數(shù)據(jù)對象的分層存儲功能、數(shù)據(jù)備份、復(fù)制數(shù)據(jù)對象時服務(wù)器之間高速的數(shù)據(jù)傳輸。實現(xiàn)對象服務(wù)器的數(shù)據(jù)庫系統(tǒng)可支持査詢、瀏覽、檢索、創(chuàng)建和存儲、更新等數(shù)據(jù)庫的基本操作。對于多媒體對象而言,存儲操作還附帶有它的動作(如所找到對象的拷貝)。下列三種典型的數(shù)據(jù)庫管理系統(tǒng)是服務(wù)器的實現(xiàn)基礎(chǔ):其一是擴展現(xiàn)有的關(guān)系數(shù)據(jù)庫管理系統(tǒng),用大二進制對象支持各種多媒體對象。二是把關(guān)系數(shù)據(jù)庫中的二進制典型擴展為類和繼承的概念,以支持這些面向?qū)ο筇匦缘臄?shù)據(jù)量管理系統(tǒng)并提供對象程序設(shè)計前端擴展,以便成為對象關(guān)系數(shù)據(jù)庫;三是使用純數(shù)據(jù)庫。
索引服務(wù)器是關(guān)于多媒體對象的元信息庫,用于發(fā)現(xiàn)信息。元數(shù)據(jù)就是“說明數(shù)據(jù)的數(shù)據(jù)”。例如,標題、作者、主題、標識符和位置等,都是關(guān)于多媒體對象的元信息,根據(jù)這些元數(shù)據(jù)就能査到所需要的多媒體對象。在大規(guī)模多媒體數(shù)據(jù)的范圍建立合理分層的元信息庫,對于多媒體對象的査詢、檢索是必不可少的。
句柄系統(tǒng)由于其海量多媒體數(shù)據(jù)分布式的存儲和管理具有更大的規(guī)模范圍,具有跨地區(qū)、跨庫的性質(zhì),故數(shù)據(jù)的存儲、管理和性能提出了進一步的挑戰(zhàn)。數(shù)字對象是數(shù)字圖書館的基本單元,它存放在數(shù)據(jù)倉庫中,因此,在對象數(shù)據(jù)庫和元信息庫之上,還需要一個高層的分布式信息管理系統(tǒng),它可提供數(shù)字圖書館資源的全局名字服務(wù)。
句柄系統(tǒng)包括一個開放協(xié)議,一個名字空間和一個參考實現(xiàn)。按照協(xié)議,這個分布式的計算機系統(tǒng)將存儲數(shù)字資源的名字,即句柄,并通過該系統(tǒng)快速地將這些名字解析為定位、訪問和在其他方式利用這些資源時所需要的信息。
2 多媒體數(shù)據(jù)庫
數(shù)據(jù)庫是數(shù)字圖書館信息存儲和管理的基礎(chǔ),是多媒體信息內(nèi)容的載體,可用來存儲和管理多媒體元信息以及為某些搜索引擎提供必要地支持。多媒體對象數(shù)據(jù)庫從邏輯功能的角度強調(diào)對信息資源內(nèi)容,即多媒體對象的管理。采用面向?qū)ο蠹夹g(shù)有助于實現(xiàn)多媒體數(shù)據(jù)的有效存儲和管理。多媒體數(shù)據(jù)庫的發(fā)展和應(yīng)用是多媒體特性和面向?qū)ο蠹夹g(shù)逐漸成熟的必然。
2.1 多媒體數(shù)據(jù)庫的特征
多媒體數(shù)據(jù)庫的主要特點之一就是信息數(shù)據(jù)量巨大,跟常規(guī)數(shù)據(jù)相比,數(shù)據(jù)量可高達幾十萬倍。如一個100MB的硬盤可以存放一個中等規(guī)模的常規(guī)數(shù)據(jù)庫,且同一空間只能存放10分鐘的電視節(jié)目。
其次是數(shù)據(jù)模型復(fù)雜,由于常規(guī)數(shù)據(jù)都是不可再分的原子數(shù)據(jù),數(shù)據(jù)結(jié)構(gòu)簡單明了。多媒體數(shù)據(jù)則對應(yīng)一個復(fù)雜對象,即包含多媒體本身(一段視頻、一張圖片),同時還包含多媒體數(shù)據(jù)的信息(多媒體的元信息)等。
再就是數(shù)據(jù)長度不固定,因為常規(guī)數(shù)據(jù)項一般都比較小,一般采用定長記錄存儲常規(guī)數(shù)據(jù),存取方便,存儲結(jié)構(gòu)簡單清晰。由于多媒體世界的數(shù)據(jù)量大小是可變的,無法預(yù)先估計,因而不可能用定長記錄來存儲多媒體數(shù)據(jù)。
該數(shù)據(jù)庫聲音與數(shù)據(jù)要同步,在視頻文件中一般都含有聲音數(shù)據(jù),二者的嚴格同步是高質(zhì)量視頻媒體傳送的重要保證。
此外,就是數(shù)據(jù)傳送的連續(xù)性,多媒體數(shù)據(jù)無論是聲音媒體還是視頻媒體,都要求連續(xù)傳送或輸出,否則將導(dǎo)致嚴重失真,影響效果。
最后是數(shù)據(jù)定義及操作用傳統(tǒng)SQL語言難以實現(xiàn),傳統(tǒng)書籍可用規(guī)范關(guān)系表示,并且可方便地定義并施行各種標準操作,如投影、選擇、聯(lián)接和各種集合運算,從而可為用戶提供簡明的數(shù)據(jù)視圖以及簡單方便而功能強大的SQL語言。而多媒體數(shù)據(jù)的復(fù)雜性決定了其描述語言、數(shù)據(jù)操作語言或存儲結(jié)構(gòu)、存取路徑的復(fù)雜性。傳統(tǒng)的關(guān)系數(shù)據(jù)庫很難實現(xiàn)多媒體數(shù)據(jù)庫的管理。
2.2 面向?qū)ο蠹夹g(shù)
對象是面向?qū)ο蠹夹g(shù)中的核心概念,任何實體都能稱為對象。在面向?qū)ο蟮臄?shù)據(jù)庫系統(tǒng)中,對象是數(shù)據(jù)庫的基本單元。
類是面向?qū)ο蠹夹g(shù)中的重要概念,類是一組有共同特性的相似對象的抽象,類可將該組對象的共同特性集中起來,以說明該組對象的能力和性質(zhì)。在面向?qū)ο髷?shù)據(jù)庫系統(tǒng)中,類的概念和傳統(tǒng)關(guān)系數(shù)據(jù)庫系統(tǒng)中關(guān)系的概念類似。
對于數(shù)據(jù)庫的封裝和信息隱蔽性來說,封裝性在面向?qū)ο蠹夹g(shù)中是對象的封裝性,是用戶所能看到的只能是對象的接口提供的界面,它可有效地實現(xiàn)消息隱蔽。
復(fù)合和繼承是面向?qū)ο蠹夹g(shù)中兩種類間關(guān)系。復(fù)合關(guān)系對應(yīng)客觀世界中事物之間的部分整體關(guān)系;繼承關(guān)系對應(yīng)客觀世界中事物之間的一般特殊關(guān)系。兩種關(guān)系均可從不同程度上實現(xiàn)代碼復(fù)用。
多態(tài)性和動態(tài)綁定中的多態(tài)性是面向?qū)ο蠹夹g(shù)中的重要特性,一般含義是某一論域中的元素可有多種解釋。動態(tài)綁定是對象技術(shù)的另一個重要特征,它可使具有多種解釋的論域元素在程序運行中選擇準確地解釋成為可能。多態(tài)和動態(tài)綁定也使得面向?qū)ο髷?shù)據(jù)庫系統(tǒng)的數(shù)據(jù)訪問的透明性成為可能。2.3面向?qū)ο蠹夹g(shù)在多媒體數(shù)據(jù)庫中的應(yīng)用
根據(jù)面向?qū)ο蟮母拍?,多媒體對象除了多媒體數(shù)據(jù)本身和多媒體元信息以外,還應(yīng)包含多媒體數(shù)據(jù)本身和多媒體元信息以上的操作。并且對于不同的媒體應(yīng)該定義不同類型的操作。例如對于電子圖書可定義前一頁、下一頁、下一章等操作;對于音頻/視頻可定義快進、快退、暫停等操作。這些數(shù)據(jù)和操作對于用戶而言是透明的,用戶不必知道多媒體對象的具體存放格式和位置以及操作的具體實現(xiàn)機制。通過多媒體對象的對外接口可實現(xiàn)對多媒體對象的控制。通過多媒體對象可解決其數(shù)據(jù)量巨大和長度不固定所帶來的問題,另外對象機制所帶來的信息隱蔽也有助于解決版權(quán)保護、資源復(fù)制等問題。
繼承和組裝是客觀世界中實體間的一般特殊關(guān)系和部分整體關(guān)系,多媒體對象以及它們之間的關(guān)系就形成了多媒體數(shù)據(jù)模型。
多媒體對象對數(shù)據(jù)和方法的封裝,對于保證視頻、音頻數(shù)據(jù)同步性和連續(xù)性具有一定的作用。
多媒體對象數(shù)據(jù)庫不一定僅應(yīng)用一種或同型的數(shù)據(jù)庫系統(tǒng),也可以是多種異構(gòu)的數(shù)據(jù)庫系統(tǒng),多媒體數(shù)據(jù)的有效存儲和管理應(yīng)該將多媒體數(shù)據(jù)本身和多媒體元信息兩部分同時考慮進去。以便于實現(xiàn)基于內(nèi)容的檢索和全文檢索在應(yīng)用中的實現(xiàn)。
3 多媒體內(nèi)容處理技術(shù)
多媒體內(nèi)容的處理分為3大部分:內(nèi)容獲取、內(nèi)容描述和內(nèi)容操縱。也可將其看成是內(nèi)容處理的三個步驟,即先對原始媒體進行處理并提取內(nèi)容,然后用標準形式對它們進行描述,以支持各種內(nèi)容的操縱。其內(nèi)容處理方式如圖1所示。
圖1中,內(nèi)容獲取(Populating)就是通過對各種內(nèi)容的分析和處理而獲得媒體內(nèi)容的過程。多媒體數(shù)據(jù)具有時空特性,內(nèi)容的一個重要成分是其空間和時間結(jié)構(gòu)。內(nèi)容的結(jié)構(gòu)化(Structuring)就是分割(Segmenting)出圖像對象、視頻的時間結(jié)構(gòu)、運動對象,以及這些對象之間的關(guān)系。特征抽取(Extrac-tion)就是提取顯著的區(qū)分特征和人的視覺(Visual)、聽覺(Auditory)方面的感知特征來表示媒體和媒體對象的性質(zhì)。
內(nèi)容描述(Description)就是描述在以上過程中獲取的內(nèi)容。目前.MPEG-7專家組正在制定多媒體內(nèi)容描述標準。該標準主要采用描述子(Descrip-tion)和描述模式(Scheme)來分別描述媒體的特性及其關(guān)系。
內(nèi)容操縱(Manipulating)就是針對內(nèi)容的用戶操作和應(yīng)用。有許多這方面的名詞和術(shù)語。其中査詢(Query)是面向用戶的術(shù)語,多用于數(shù)據(jù)庫操作;檢索(Retrieval)是在索引(Index)支持下的快速信息獲取方式;搜索(Search)常用于Internet的搜索引擎,含有搜尋的意思,又有在大規(guī)模信息庫中搜尋信息的含義;摘要(Summarization,Excerpt)是對多媒體中的時基媒體(如視頻和音頻)的一種特殊的操作?,F(xiàn)在已經(jīng)熟知了文獻摘要的含義,而在內(nèi)容技術(shù)支持下,也可以對視頻和音頻媒體進行摘要,獲得一目了然的全局視圖和概要。同樣,用戶可以通過瀏覽(Browsing)操作,來線性或非線性地存取結(jié)構(gòu)化的內(nèi)容。另外,基于內(nèi)容的技術(shù)不僅僅用在多媒體信息的檢索和搜索方面;檢索僅僅是信息存取的一個方面。過濾(Filtering)就是與檢索相反的一種信息存取方式。用過濾技術(shù)可以實現(xiàn)個性化的信息服務(wù)。
4 未來主要研究的問題
基于物聯(lián)網(wǎng)的多媒體信息處理是綜合的多特征檢索技術(shù)。多媒體具有各種視覺和聽覺特征以及其他時間和空間關(guān)系。而且同一種特征具有不同的表示方法。例如同樣是顏色特征,可以有直方圖特征、顏色距、顏色集、主顏色等多種特征表示法,它們可從不同的角度表示媒體的特征,而如何有機地組織這些多種特征,使應(yīng)用能夠調(diào)用合適的特征和特征表示來支持査詢,并按照用戶的査詢要求合并各種特征的檢索結(jié)果,是未來值得研究的問題。
綜合利用兩種和多種媒體的特征,容易達到較高的檢索率。因此,今后的研究還包括如何綜合利用多種異構(gòu)特征來支持用戶的査詢?各種單一特征的査詢結(jié)果如何融合?如何利用特征之間的互補能力提高檢索效率?如何既考慮一般性特征,又考慮特定領(lǐng)域的特征等等。
綜合還意味著釆納其他學科領(lǐng)域的成果,如傳統(tǒng)的基于文本的信息檢索技術(shù)、知識發(fā)現(xiàn)、人工智能等領(lǐng)域中的方法,像布爾檢索模型、多個異構(gòu)特征査詢表達和檢索執(zhí)行、知識庫、分類和聚類算法、用戶交互行為的機器學習等。這里需要說明的是,基于內(nèi)容的檢索系統(tǒng)要充分利用文本、關(guān)鍵字和其他客觀屬性?;趦?nèi)容檢索系統(tǒng)并不排斥這些常規(guī)的檢索途徑,相反,要充分利用現(xiàn)有的文本檢索功能并集成到基于內(nèi)容的檢索系統(tǒng)中,以便向用戶提供完備的檢索能力。
5 結(jié)語
總之,多媒體信息檢索技術(shù)是一門綜合了數(shù)字視頻/圖像處理、語音識別/語言處理、多媒體數(shù)據(jù)庫、模式識別、人工智能等學科的計算機應(yīng)用技術(shù)。隨著這些學科的發(fā)展,多媒體信息檢索技術(shù)會不斷成熟完善,對社會信息化產(chǎn)生更加巨大的推動作用。