一,文件全文檢索技術(shù)
全文存檔搜索,也稱為存檔原始文本存儲(chǔ)和檢索,是通過(guò)光盤存儲(chǔ)器實(shí)現(xiàn)并與微設(shè)備在線實(shí)現(xiàn)的文件檢索方法。我的國(guó)家自1991年以來(lái)的沈陽(yáng)市檔案館 自最早應(yīng)用原始存儲(chǔ)和檢索CD-ROM以來(lái),已有數(shù)十個(gè)單元先后進(jìn)行了原始文本存儲(chǔ)和檢索的實(shí)驗(yàn)或應(yīng)用。檔案的全文檢索已逐漸從實(shí)驗(yàn)演變?yōu)閷?shí)際使用。
(1)CD原始存儲(chǔ)
存檔原始存儲(chǔ)和檢索的發(fā)展主要依賴于光盤技術(shù)的支持。光盤是大容量存儲(chǔ)載體,其信息存儲(chǔ)容量非常大。 可以滿足普通磁盤無(wú)法承受的存儲(chǔ)要求。在各種各樣的光盤載體中,只讀光盤(CD-ROM)最常用于自動(dòng)文件檢索。
CD-ROM存儲(chǔ)量大,易于制造,成本低,可以連接微機(jī)進(jìn)行隨機(jī)檢索,因此迅速普及。在中國(guó),因?yàn)橥ㄓ嵲O(shè)施相對(duì)落后, 建立集中的大規(guī)模在線文件檢索系統(tǒng)存在很大困難。 CD-ROM技術(shù)的采用有利于建立分散的小文件檢索系統(tǒng),符合中國(guó)檔案檢索工作的實(shí)際。 這將是一個(gè)理想的選擇。具體地說(shuō),盤具有以下優(yōu)點(diǎn)和缺點(diǎn):
1.優(yōu)點(diǎn)
(1)光盤存儲(chǔ)容量大,耐用,成本低。
(2)光盤系統(tǒng)可以為用戶提供與在線系統(tǒng)功能等效的軟件,便于自動(dòng)檢索,快速檢索速度和隨機(jī)訪問(wèn)。
(3)可以避免使用在線搜索所需的電信設(shè)施,無(wú)需在線搜索中的電信費(fèi)和在線系統(tǒng)使用費(fèi),并避免在長(zhǎng)途電信傳輸過(guò)程中可能出現(xiàn)的通信錯(cuò)誤。
(4)訂購(gòu)CD-ROM數(shù)據(jù)庫(kù)后,使用量沒有限制,使用時(shí)無(wú)需承受財(cái)務(wù)壓力。
(5)可以組合文本,圖像,聲音和其他信息以擴(kuò)展存檔數(shù)據(jù)庫(kù)的用戶范圍。
(6 ) 光盤系統(tǒng)的圖像輸出質(zhì)量好, 可改善字跡模糊檔案文件的可讀性。
2 . 缺點(diǎn)
(1 ) 購(gòu)買( 或租用) 光盤數(shù)據(jù)庫(kù), 不管其中的記錄是否被利用, 都必須全部一次付費(fèi)。因此光盤系統(tǒng)如果使用量太少, 就顯得十分昂貴。
(2 ) 由一個(gè)單位建立的光盤系統(tǒng), 可供利用的檔案信息資源十分有限。
(3 ) 光盤數(shù)據(jù)庫(kù)的更新是定期進(jìn)行的, 其現(xiàn)實(shí)性不如聯(lián)機(jī)檢索系統(tǒng)的數(shù)據(jù)庫(kù)。
(4 ) 當(dāng)前的光盤系統(tǒng)多為單用戶性質(zhì), 每次只能由一個(gè)檢索者使用。
(5 ) 缺乏設(shè)備和軟件的兼容性, 標(biāo)準(zhǔn)化問(wèn)題需進(jìn)一步解決。
(二) 檔案全文數(shù)據(jù)庫(kù)
檔案全文數(shù)據(jù)庫(kù)是以電子形式存儲(chǔ)檔案全文信息的數(shù)據(jù)庫(kù),通過(guò)全文數(shù)據(jù)庫(kù)可以檢索檔案中的任何字、句、段、節(jié)等。
全文數(shù)據(jù)庫(kù)的特點(diǎn)如下:
(1 ) 可以直接存取原始文獻(xiàn)中的專門數(shù)據(jù), 檢準(zhǔn)率高。
(2 ) 檢索及時(shí)。二次文獻(xiàn)數(shù)據(jù)庫(kù)需進(jìn)行著錄、標(biāo)引等費(fèi)時(shí)費(fèi)力的前期加工, 而全文數(shù)據(jù)庫(kù)直接輸入檔案全文, 可提供非常及時(shí)的信息。
(3 ) 可從中找到邊緣性的情報(bào)。一般的目錄、索引、文摘等只收入檔案的主要信息, 一些邊緣性情報(bào)往往被遺漏, 而全文數(shù)據(jù)庫(kù)收錄的是檔案全文信息, 不會(huì)遺漏一個(gè)字句。
(4 ) 采用自然語(yǔ)言檢索。全文數(shù)據(jù)庫(kù)使用的是檔案作者所用的自然語(yǔ)言, 因此無(wú)經(jīng)驗(yàn)的用戶也可很容易地使用。
(三) 全文檢索技術(shù)
目前的全文檢索技術(shù)與一般的檔案檢索技術(shù)十分相近, 類似于一般的順序檢索, 但更早地采用了“一次掃描技術(shù)”。即當(dāng)檢索提問(wèn)中有若干個(gè)檢索詞時(shí), 系統(tǒng)不必用每個(gè)檢索詞逐個(gè)地對(duì)全文進(jìn)行掃描, 而是將其組成一個(gè)有限自動(dòng)機(jī), 從而對(duì)檔案進(jìn)行一次性掃描。
全文檢索系統(tǒng)采用自然語(yǔ)言檢索, 大大提高了檢準(zhǔn)率和系統(tǒng)的易用性, 但卻導(dǎo)致檢全率的降低, 而后控詞表是解決此問(wèn)題的有效途徑。后控詞表綜合了自然語(yǔ)言和常規(guī)的受控語(yǔ)言的長(zhǎng)處,對(duì)于提高全文檢索系統(tǒng)的檢索效率有著重要作用。目前有關(guān)這方面的研究還不是很多, 國(guó)內(nèi)基本還處于試驗(yàn)階段,但已取得了一些進(jìn)展。如北京文獻(xiàn)服務(wù)處“ 漢語(yǔ)自動(dòng)切詞標(biāo)引系統(tǒng)( CWSAIS)”中采用的基于相關(guān)標(biāo)引模式的后控技術(shù), 上??哲娬螌W(xué)院圖書檔案系開發(fā)的“ 漢語(yǔ)題內(nèi)關(guān)鍵詞索引及后控制詞表系統(tǒng)” 等。
全文檢索技術(shù)在以下方面有新的發(fā)展:
(1 ) 附加光盤。這樣可以允許查找目前聯(lián)機(jī)檢索系統(tǒng)還不能提供的照片、插圖及其他圖解。例如, 美國(guó)的書目檢索服務(wù)公司(BRS) 系統(tǒng)已經(jīng)利用光盤來(lái)增強(qiáng)它們的醫(yī)學(xué)全文數(shù)據(jù)庫(kù), 文本的聯(lián)機(jī)檢索與顯示仍然通過(guò)BRS 的主機(jī), 但當(dāng)文本中必須附以插圖時(shí), 可以使用光盤補(bǔ)充功能來(lái)提供相應(yīng)的插圖。
(2 ) 提供更有效的接口。由于全文數(shù)據(jù)庫(kù)的主要用戶是最終用戶, 因而全文系統(tǒng)必須是容易查找的, 必須提供適當(dāng)?shù)臋z索與顯示功能, 如怎樣方便瀏覽被檢出的文獻(xiàn), 利用共同命令語(yǔ)言存取其他系統(tǒng)的方法等, 為用戶提供更有效的接口。
(3 ) 有關(guān)文本分析方面的研究。包括對(duì)文本的切分、描述、分類、修改、轉(zhuǎn)換、鑒別等。
二、多媒體存儲(chǔ)與檢索技術(shù)
多媒體存儲(chǔ)與檢索技術(shù)是指將文本、數(shù)值、圖形、圖像、聲音等多種類型的檔案信息進(jìn)行綜合處理的技術(shù)。迄今為止, 已有不少多媒體系統(tǒng)問(wèn)世, 其中大多是實(shí)驗(yàn)性系統(tǒng), 只在有限的范圍內(nèi)使用。如清華大學(xué)檔案館開發(fā)的“ T HDA 文檔一體化多媒體光盤網(wǎng)絡(luò)系統(tǒng)” 等。
實(shí)際上, 目前的多媒體系統(tǒng)大多是將圖與聲壓縮后當(dāng)成一個(gè)文件甚至一個(gè)記錄存儲(chǔ)到計(jì)算機(jī)中, 使用時(shí)即可與文本信息一樣地使用, 并且借助于附加在圖形或聲音旁的標(biāo)引信息( 如現(xiàn)在的圖像信息常附有一個(gè)關(guān)鍵詞) 來(lái)實(shí)現(xiàn)對(duì)圖形與聲音的檢索。而對(duì)圖和聲的直接檢索則是今后的發(fā)展方向。
多媒體存儲(chǔ)與檢索技術(shù)能夠使用戶方便、直觀、迅速地獲取全方位的檔案信息, 保證了檔案信息的完整性與準(zhǔn)確性。本地區(qū)、本部門舉行的重大活動(dòng), 召開的重要會(huì)議等實(shí)況錄像、錄音均可錄入計(jì)算機(jī)供隨時(shí)調(diào)用, 體現(xiàn)了檔案的原始記錄性。對(duì)于利用者來(lái)說(shuō), 檔案由干巴巴的文字變成了內(nèi)容豐富、聲文并茂、生動(dòng)形象的立體信息, 由此可大大提高檔案的利用率。另外, 由于計(jì)算機(jī)在檔案人員操作下只顯示利用者所需信息, 消除了利用者查閱整本案卷時(shí)翻閱其他文件的可能性, 可起到一定的保密作用, 還可避免檔案因不時(shí)取出翻閱而造成的磨損。
多媒體檢索系統(tǒng)是迅速發(fā)展的信息技術(shù)的結(jié)果, 與多媒體檢索系統(tǒng)有關(guān)的技術(shù)包括:
1 . 數(shù)字信息處理技術(shù)
包括模擬信號(hào)與數(shù)字信號(hào)的相互轉(zhuǎn)換, 文本、數(shù)值、圖像、數(shù)字語(yǔ)言信息的編碼與解碼技術(shù)。這些技術(shù)的發(fā)展使得圖像和音響成為計(jì)算機(jī)可處理的數(shù)據(jù)。
2 . 計(jì)算機(jī)存儲(chǔ)技術(shù)
全文本、圖形畫面和語(yǔ)音信息都要求很大的存儲(chǔ)空間, 海量存儲(chǔ)技術(shù)的發(fā)展?jié)M足了多媒體系統(tǒng)對(duì)存儲(chǔ)空間的要求。輸入輸出設(shè)備的發(fā)展( 鼠標(biāo)掃描器、高分辨率顯示和打印設(shè)備、圖形工作站等) 則為圖像、語(yǔ)音的輸入輸出提供了有效手段, 使用戶能方便地、直接地生成和獲取多媒體數(shù)據(jù)。
3 . 面向?qū)ο蟮臄?shù)據(jù)庫(kù)理論和技術(shù)
傳統(tǒng)的數(shù)據(jù)庫(kù)管理系統(tǒng)主要適應(yīng)于格式化和結(jié)構(gòu)化數(shù)據(jù), 而文本、圖像、語(yǔ)音等都是非結(jié)構(gòu)化數(shù)據(jù), 面向?qū)ο蟮臄?shù)據(jù)庫(kù)技術(shù)就是為了解決非結(jié)構(gòu)化數(shù)據(jù)的組織和管理問(wèn)題而發(fā)展起來(lái)的, 它為多媒體檢索系統(tǒng)提供了理論依據(jù)和方法、手段。
迄今為止, 研究人員在多媒體系統(tǒng)方面所做的大部分工作都側(cè)重于多媒體數(shù)據(jù)的存儲(chǔ)和傳輸上, 而針對(duì)多媒體信息和數(shù)據(jù)的組織及其檢索方面所作的研究還很有限, 而這正是多媒體檢索系統(tǒng)發(fā)展的關(guān)鍵問(wèn)題。
三、檔案智能檢索技術(shù)
檔案智能檢索技術(shù)是應(yīng)用人工智能技術(shù)模擬檔案檢索的過(guò)程, 實(shí)現(xiàn)檔案信息的存儲(chǔ)、檢索和推理的一種先進(jìn)的檔案檢索技術(shù)。從國(guó)防科工委檔案館等單位研制的實(shí)驗(yàn)性的智能化系統(tǒng)來(lái)看, 這種智能檢索系統(tǒng)可以部分實(shí)現(xiàn)自然語(yǔ)言檢索, 提高檢全率和檢準(zhǔn)率, 代表了檔案檢索系統(tǒng)的發(fā)展方向。
(一) 智能檔案檢索系統(tǒng)的特點(diǎn)
(1 ) 建立在知識(shí)庫(kù)的基礎(chǔ)上, 具有很高的推理功能。這是它與一般檔案檢索系統(tǒng)的主要區(qū)別。
(2 ) 使用自然語(yǔ)言進(jìn)行交互。采用高級(jí)的自然語(yǔ)言處理技術(shù), 來(lái)理解、分析用戶的提問(wèn)和向用戶提供檢索結(jié)果。
(3 ) 面向用戶。能把智能性工作從用戶身上轉(zhuǎn)移到機(jī)器上解決, 如描述情報(bào)需求, 制定檢索策略及分析結(jié)果等。
(4 ) 適用性廣。適于不同類型的用戶, 尤其是無(wú)經(jīng)驗(yàn)的用戶。
一、檔案全文檢索技術(shù)
檔案全文檢索, 又稱檔案原文存儲(chǔ)與檢索, 是借助于光盤存儲(chǔ)器和與縮微設(shè)備聯(lián)機(jī)實(shí)現(xiàn)的一種檔案檢索方式。我國(guó)自從沈陽(yáng)市檔案館于1991 年最早開始光盤原文存儲(chǔ)與檢索的應(yīng)用研究以來(lái), 已有數(shù)十個(gè)單位相繼進(jìn)行了原文存儲(chǔ)和檢索的實(shí)驗(yàn)或應(yīng)用,檔案全文檢索逐漸由實(shí)驗(yàn)向?qū)嵱没l(fā)展。
(一) 光盤原文存儲(chǔ)
檔案原文存儲(chǔ)與檢索的發(fā)展主要依賴于光盤技術(shù)的支持。光盤是一種海量存儲(chǔ)載體, 其信息存儲(chǔ)容量極大, 能滿足一般磁盤所不能承受的存儲(chǔ)要求。在多種多樣的光盤載體中, 只讀光盤( CD - ROM)在檔案自動(dòng)檢索中應(yīng)用最多。
CD - ROM 存儲(chǔ)量大, 制作容易, 成本低, 可同微型計(jì)算機(jī)相連接進(jìn)行隨機(jī)檢索, 因此得到迅速普及。在我國(guó), 由于通訊設(shè)施比較落后, 要建立集中式的、大規(guī)模的聯(lián)機(jī)檔案檢索系統(tǒng), 存在較大的困難。而CD - ROM 技術(shù)的采用, 有利于建立分散的、小型的檔案檢索系統(tǒng), 符合我國(guó)檔案檢索工作實(shí)際, 將是一種理想的選擇。具體而言, 光盤存儲(chǔ)有下列優(yōu)缺點(diǎn):
1 . 優(yōu)點(diǎn)
(1 ) 光盤具有很大的存儲(chǔ)容量, 耐用, 費(fèi)用低。
(2 ) 光盤系統(tǒng)可向用戶隨盤提供相當(dāng)于聯(lián)機(jī)系統(tǒng)功能的軟件, 便于自動(dòng)化檢索, 檢索速度快, 且可隨機(jī)存取。
(3 ) 可避免使用聯(lián)機(jī)檢索所必須的電訊設(shè)施, 免除了聯(lián)機(jī)檢索中的電訊費(fèi)、聯(lián)機(jī)系統(tǒng)使用費(fèi), 還可避免遠(yuǎn)距離電訊傳輸時(shí)可能出現(xiàn)的通訊失誤。
(4 ) 一旦訂購(gòu)了光盤數(shù)據(jù)庫(kù), 其使用量就沒有限制, 不必在使用時(shí)受到經(jīng)費(fèi)的壓力。
(5 ) 可以將文本、圖像、聲音等信息結(jié)合在一起, 擴(kuò)大檔案數(shù)據(jù)庫(kù)的用戶范圍。
(6 ) 光盤系統(tǒng)的圖像輸出質(zhì)量好, 可改善字跡模糊檔案文件的可讀性。
2 . 缺點(diǎn)
(1 ) 購(gòu)買( 或租用) 光盤數(shù)據(jù)庫(kù), 不管其中的記錄是否被利用, 都必須全部一次付費(fèi)。因此光盤系統(tǒng)如果使用量太少, 就顯得十分昂貴。
(2 ) 由一個(gè)單位建立的光盤系統(tǒng), 可供利用的檔案信息資源十分有限。
(3 ) 光盤數(shù)據(jù)庫(kù)的更新是定期進(jìn)行的, 其現(xiàn)實(shí)性不如聯(lián)機(jī)檢索系統(tǒng)的數(shù)據(jù)庫(kù)。
(4 ) 當(dāng)前的光盤系統(tǒng)多為單用戶性質(zhì), 每次只能由一個(gè)檢索者使用。
(5 ) 缺乏設(shè)備和軟件的兼容性, 標(biāo)準(zhǔn)化問(wèn)題需進(jìn)一步解決。
(二) 檔案全文數(shù)據(jù)庫(kù)
檔案全文數(shù)據(jù)庫(kù)是以電子形式存儲(chǔ)檔案全文信息的數(shù)據(jù)庫(kù),通過(guò)全文數(shù)據(jù)庫(kù)可以檢索檔案中的任何字、句、段、節(jié)等。
全文數(shù)據(jù)庫(kù)的特點(diǎn)如下:
(1 ) 可以直接存取原始文獻(xiàn)中的專門數(shù)據(jù), 檢準(zhǔn)率高。
(2 ) 檢索及時(shí)。二次文獻(xiàn)數(shù)據(jù)庫(kù)需進(jìn)行著錄、標(biāo)引等費(fèi)時(shí)費(fèi)力的前期加工, 而全文數(shù)據(jù)庫(kù)直接輸入檔案全文, 可提供非常及時(shí)的信息。
(3 ) 可從中找到邊緣性的情報(bào)。一般的目錄、索引、文摘等只收入檔案的主要信息, 一些邊緣性情報(bào)往往被遺漏, 而全文數(shù)據(jù)庫(kù)收錄的是檔案全文信息, 不會(huì)遺漏一個(gè)字句。
(4 ) 采用自然語(yǔ)言檢索。全文數(shù)據(jù)庫(kù)使用的是檔案作者所用的自然語(yǔ)言, 因此無(wú)經(jīng)驗(yàn)的用戶也可很容易地使用。
(三) 全文檢索技術(shù)
目前的全文檢索技術(shù)與一般的檔案檢索技術(shù)十分相近, 類似于一般的順序檢索, 但更早地采用了“一次掃描技術(shù)”。即當(dāng)檢索提問(wèn)中有若干個(gè)檢索詞時(shí), 系統(tǒng)不必用每個(gè)檢索詞逐個(gè)地對(duì)全文進(jìn)行掃描, 而是將其組成一個(gè)有限自動(dòng)機(jī), 從而對(duì)檔案進(jìn)行一次性掃描。
全文檢索系統(tǒng)采用自然語(yǔ)言檢索, 大大提高了檢準(zhǔn)率和系統(tǒng)的易用性, 但卻導(dǎo)致檢全率的降低, 而后控詞表是解決此問(wèn)題的有效途徑。后控詞表綜合了自然語(yǔ)言和常規(guī)的受控語(yǔ)言的長(zhǎng)處,對(duì)于提高全文檢索系統(tǒng)的檢索效率有著重要作用。目前有關(guān)這方面的研究還不是很多, 國(guó)內(nèi)基本還處于試驗(yàn)階段,但已取得了一些進(jìn)展。如北京文獻(xiàn)服務(wù)處“ 漢語(yǔ)自動(dòng)切詞標(biāo)引系統(tǒng)( CWSAIS)”中采用的基于相關(guān)標(biāo)引模式的后控技術(shù), 上??哲娬螌W(xué)院圖書檔案系開發(fā)的“ 漢語(yǔ)題內(nèi)關(guān)鍵詞索引及后控制詞表系統(tǒng)” 等。
全文檢索技術(shù)在以下方面有新的發(fā)展:
(1 ) 附加光盤。這樣可以允許查找目前聯(lián)機(jī)檢索系統(tǒng)還不能提供的照片、插圖及其他圖解。例如, 美國(guó)的書目檢索服務(wù)公司(BRS) 系統(tǒng)已經(jīng)利用光盤來(lái)增強(qiáng)它們的醫(yī)學(xué)全文數(shù)據(jù)庫(kù), 文本的聯(lián)機(jī)檢索與顯示仍然通過(guò)BRS 的主機(jī), 但當(dāng)文本中必須附以插圖時(shí), 可以使用光盤補(bǔ)充功能來(lái)提供相應(yīng)的插圖。
(2 ) 提供更有效的接口。由于全文數(shù)據(jù)庫(kù)的主要用戶是最終用戶, 因而全文系統(tǒng)必須是容易查找的, 必須提供適當(dāng)?shù)臋z索與顯示功能, 如怎樣方便瀏覽被檢出的文獻(xiàn), 利用共同命令語(yǔ)言存取其他系統(tǒng)的方法等, 為用戶提供更有效的接口。
(3 ) 有關(guān)文本分析方面的研究。包括對(duì)文本的切分、描述、分類、修改、轉(zhuǎn)換、鑒別等。
二、多媒體存儲(chǔ)與檢索技術(shù)
多媒體存儲(chǔ)與檢索技術(shù)是指將文本、數(shù)值、圖形、圖像、聲音等多種類型的檔案信息進(jìn)行綜合處理的技術(shù)。迄今為止, 已有不少多媒體系統(tǒng)問(wèn)世, 其中大多是實(shí)驗(yàn)性系統(tǒng), 只在有限的范圍內(nèi)使用。如清華大學(xué)檔案館開發(fā)的“ T HDA 文檔一體化多媒體光盤網(wǎng)絡(luò)系統(tǒng)” 等。
實(shí)際上, 目前的多媒體系統(tǒng)大多是將圖與聲壓縮后當(dāng)成一個(gè)文件甚至一個(gè)記錄存儲(chǔ)到計(jì)算機(jī)中, 使用時(shí)即可與文本信息一樣地使用, 并且借助于附加在圖形或聲音旁的標(biāo)引信息( 如現(xiàn)在的圖像信息常附有一個(gè)關(guān)鍵詞) 來(lái)實(shí)現(xiàn)對(duì)圖形與聲音的檢索。而對(duì)圖和聲的直接檢索則是今后的發(fā)展方向。
多媒體存儲(chǔ)與檢索技術(shù)能夠使用戶方便、直觀、迅速地獲取全方位的檔案信息, 保證了檔案信息的完整性與準(zhǔn)確性。本地區(qū)、本部門舉行的重大活動(dòng), 召開的重要會(huì)議等實(shí)況錄像、錄音均可錄入計(jì)算機(jī)供隨時(shí)調(diào)用, 體現(xiàn)了檔案的原始記錄性。對(duì)于利用者來(lái)說(shuō), 檔案由干巴巴的文字變成了內(nèi)容豐富、聲文并茂、生動(dòng)形象的立體信息, 由此可大大提高檔案的利用率。另外, 由于計(jì)算機(jī)在檔案人員操作下只顯示利用者所需信息, 消除了利用者查閱整本案卷時(shí)翻閱其他文件的可能性, 可起到一定的保密作用, 還可避免檔案因不時(shí)取出翻閱而造成的磨損。
多媒體檢索系統(tǒng)是迅速發(fā)展的信息技術(shù)的結(jié)果, 與多媒體檢索系統(tǒng)有關(guān)的技術(shù)包括:
1 . 數(shù)字信息處理技術(shù)
包括模擬信號(hào)與數(shù)字信號(hào)的相互轉(zhuǎn)換, 文本、數(shù)值、圖像、數(shù)字語(yǔ)言信息的編碼與解碼技術(shù)。這些技術(shù)的發(fā)展使得圖像和音響成為計(jì)算機(jī)可處理的數(shù)據(jù)。
2 . 計(jì)算機(jī)存儲(chǔ)技術(shù)
全文本、圖形畫面和語(yǔ)音信息都要求很大的存儲(chǔ)空間, 海量存儲(chǔ)技術(shù)的發(fā)展?jié)M足了多媒體系統(tǒng)對(duì)存儲(chǔ)空間的要求。輸入輸出設(shè)備的發(fā)展( 鼠標(biāo)掃描器、高分辨率顯示和打印設(shè)備、圖形工作站等) 則為圖像、語(yǔ)音的輸入輸出提供了有效手段, 使用戶能方便地、直接地生成和獲取多媒體數(shù)據(jù)。
3 . 面向?qū)ο蟮臄?shù)據(jù)庫(kù)理論和技術(shù)
傳統(tǒng)的數(shù)據(jù)庫(kù)管理系統(tǒng)主要適應(yīng)于格式化和結(jié)構(gòu)化數(shù)據(jù), 而文本、圖像、語(yǔ)音等都是非結(jié)構(gòu)化數(shù)據(jù), 面向?qū)ο蟮臄?shù)據(jù)庫(kù)技術(shù)就是為了解決非結(jié)構(gòu)化數(shù)據(jù)的組織和管理問(wèn)題而發(fā)展起來(lái)的, 它為多媒體檢索系統(tǒng)提供了理論依據(jù)和方法、手段。
迄今為止, 研究人員在多媒體系統(tǒng)方面所做的大部分工作都側(cè)重于多媒體數(shù)據(jù)的存儲(chǔ)和傳輸上, 而針對(duì)多媒體信息和數(shù)據(jù)的組織及其檢索方面所作的研究還很有限, 而這正是多媒體檢索系統(tǒng)發(fā)展的關(guān)鍵問(wèn)題。
三、檔案智能檢索技術(shù)
檔案智能檢索技術(shù)是應(yīng)用人工智能技術(shù)模擬檔案檢索的過(guò)程, 實(shí)現(xiàn)檔案信息的存儲(chǔ)、檢索和推理的一種先進(jìn)的檔案檢索技術(shù)。從國(guó)防科工委檔案館等單位研制的實(shí)驗(yàn)性的智能化系統(tǒng)來(lái)看, 這種智能檢索系統(tǒng)可以部分實(shí)現(xiàn)自然語(yǔ)言檢索, 提高檢全率和檢準(zhǔn)率, 代表了檔案檢索系統(tǒng)的發(fā)展方向。
(一) 智能檔案檢索系統(tǒng)的特點(diǎn)
(1 ) 建立在知識(shí)庫(kù)的基礎(chǔ)上, 具有很高的推理功能。這是它與一般檔案檢索系統(tǒng)的主要區(qū)別。
(2 ) 使用自然語(yǔ)言進(jìn)行交互。采用高級(jí)的自然語(yǔ)言處理技術(shù), 來(lái)理解、分析用戶的提問(wèn)和向用戶提供檢索結(jié)果。
(3 ) 面向用戶。能把智能性工作從用戶身上轉(zhuǎn)移到機(jī)器上解決, 如描述情報(bào)需求, 制定檢索策略及分析結(jié)果等。
(4 ) 適用性廣。適于不同類型的用戶, 尤其是無(wú)經(jīng)驗(yàn)的用戶。
(5 ) 具有學(xué)習(xí)能力??梢詮挠脩襞c系統(tǒng)的交互中獲取知識(shí),使系統(tǒng)適應(yīng)環(huán)境的變化而發(fā)展變化。
(二) 智能檔案檢索系統(tǒng)的結(jié)構(gòu)與功能
1 . 知識(shí)庫(kù)
知識(shí)庫(kù)中包含了滿足檔案檢索要求所需要的各種知識(shí), 如文獻(xiàn)知識(shí)、專業(yè)知識(shí)、專家知識(shí)、語(yǔ)言學(xué)知識(shí)等。
2 . 數(shù)據(jù)庫(kù)
存儲(chǔ)大量事實(shí)型數(shù)據(jù)以及推理過(guò)程中的中間結(jié)果信息等。
3 . 檢索推理機(jī)
綜合應(yīng)用各種檢索策略和推理技術(shù), 利用知識(shí)庫(kù)中的知識(shí),按一定的推理策略解決用戶的問(wèn)題。
4 . 文本處理
利用計(jì)算機(jī)自動(dòng)處理自然語(yǔ)言形式的文本信息, 對(duì)文本進(jìn)行語(yǔ)法、語(yǔ)義分析, 并采用知識(shí)表示方法表達(dá)檔案內(nèi)容及其語(yǔ)義關(guān)系。
5 . 人機(jī)接口
理解、分析用戶提問(wèn), 產(chǎn)生適于用戶的結(jié)果, 并具有解釋功能。
6.知識(shí)獲取
使用機(jī)器學(xué)習(xí)技術(shù)從各種知識(shí)來(lái)源獲取知識(shí)。
(5)有學(xué)習(xí)能力。知識(shí)可以從用戶和系統(tǒng)之間的交互中獲得,使系統(tǒng)能夠適應(yīng)環(huán)境的變化并發(fā)展。
(二)智能文件檢索系統(tǒng)的結(jié)構(gòu)和功能
1.知識(shí)庫(kù)
知識(shí)庫(kù)包含滿足檔案檢索要求所需的各種知識(shí),例如文學(xué)知識(shí),專業(yè)知識(shí),專家知識(shí)和語(yǔ)言知識(shí)。
2.數(shù)據(jù)庫(kù)
在推理過(guò)程中存儲(chǔ)大量事實(shí)數(shù)據(jù)和中間結(jié)果信息。
3.搜索推理引擎
綜合運(yùn)用各種檢索策略和推理技巧,利用知識(shí)庫(kù)中的知識(shí),根據(jù)一定的推理策略解決用戶的問(wèn)題。
4.文字處理
計(jì)算機(jī)自動(dòng)處理自然語(yǔ)言形式的文本信息,對(duì)文本進(jìn)行語(yǔ)法和語(yǔ)義分析,并使用知識(shí)表示方法表達(dá)文件內(nèi)容及其語(yǔ)義關(guān)系。
5.人機(jī)界面
理解和分析用戶問(wèn)題,生成適合用戶的結(jié)果,并具有解釋功能。
6.知識(shí)獲取
使用機(jī)器學(xué)習(xí)技術(shù)從各種知識(shí)來(lái)源獲取知識(shí)。
相關(guān)產(chǎn)品
相關(guān)文章
- 重慶檔案管理咨詢服務(wù)的特點(diǎn)2018年08月10日
- 重慶檔案管理的性質(zhì)作用是什么?2018年08月10日
- 重慶檔案管理的組成部分及劃分環(huán)節(jié)是什么?2018年08月10日
- 你知道重慶檔案整理是什么嗎?2018年09月20日
- 檔案管理公司告訴你檔案標(biāo)引的含義2019年05月13日