首頁 >> 圖書情報學 >> 本網首發
大數據技術與傳統文獻學的現代轉型
2021年04月27日 11:18 來源:《中國社會科學》2021年第2期 作者:李飛躍 字號
2021年04月27日 11:18
來源:《中國社會科學》2021年第2期 作者:李飛躍

內容摘要:人機之間的互動與互補,將促進科學與人文之間的知識重構與認知升級,在一個更高層面帶來新的確定性,實現意義重置和世界重建。

關鍵詞:

作者簡介:

  一、文獻生產的創革

  (一)通過分詞、標引、詞向量等技術實現原始文獻的碎片化與顆粒化。古代漢語分詞是將漢字序列切分成單獨的詞并按照一定規范重新組合成詞序列。古籍通過分詞、標引、抽取等方式,生成各種新的知識單元,產生新的知識形態如語義網絡與知識圖譜。

  當典籍根據語義標注的粒度被劃分為篇章、段落、句子、詞組、詞等不同的簇,文本即可作為詞匯的集合進入計算分析和知識生產的過程。在空間向量模型中,文本最終會被表示為向量,向量空間模型的應用可將文本以多維和高維模式呈現。

  詞匯標注、詞性標注和音韻標注,目的是表征傳統文獻用詞的隱藏狀態。通過對人物、事件、地名、職官、稱謂等實體標引,可以對文本內容的微觀結構重加組織。

  (二)通過建詞表、定格式、序編碼等實現傳統文獻知識的標準化。原生文獻在經過數據化處理后以集合、向量、概率等替代物形態呈現,所有知識都被數字化編碼,碎片化與數字同一性增加了知識單元之間的關聯,形成一個超大而密集的文獻網絡,研究者可以便捷地獲取位于任何一個序列中的文本與知識集合。

  電子文獻的標準化及行業編碼、國家標準的制訂(包括電子格式、文本字符、圖像格式、音聲標準、索引工具等對象的標準化)將極大促進文獻的傳播、使用與研究。

  古籍預處理技術的標準化將推動自動化標引的發展。基于文獻自身特點或相互關系而形成的多種元數據標準,包括字符、圖像、格式等標準規范的確立,將極大促進數據、庫、平臺之間的融通。統一化的文本編碼可由通用數字語言實現文本互通,最終形成一個巨大的“宏文本”。

  (三)基于檢索、算法、模型等實現傳統文獻與知識的重新關聯與結構化。檢索一體技術讓我們從文檔和數據庫中獲取的知識條塊化,事實上是不同知識碎片的整合與單元重組。文獻碎片化、知識顆粒化,基于檢索、算法和模型生成超越原生文獻結構的知識單元(語義單位)。深度學習模型可利用已有文獻信息,自動提取、學習特征,發掘其內在的文本與知識關聯。語義技術和關聯數據可深度揭示知識內容,形成多層次、立體化的知識網絡,也將使大規模分工協作與聚合分析成為可能。

  各類傳統文獻基于超文本鏈接和各種相關性產生關聯,借助宏觀的大型數據庫、知識庫、數據平臺以及微觀的分詞、標引、詞表及詞向量等數據技術方法,通過數理邏輯、語義關系、分類聚類等知識聯接形成新的文獻單位。根據不同需求和研究目的進行多維度的文獻特征提取及相似度計算,能在任意樣本空間上實現文本聚類,析出各種文本集或知識本體。知識圖譜作為融概念、實體、屬性和關系于一體的知識庫,可實現傳統文獻的語義檢索、全面整理與深度揭示,也可將它們聯結為更大的結構化知識。

  二、文本形態的新變

  (一)數據庫作為一種“宏文本”。數據庫收錄的數字化文本,文本性質并沒有改變。每個數據庫都可以看作一種獨立文本,不同的文本基于知識、邏輯、功能等被聯結成為巨大文本,是別集、總集、類書、叢書等傳統文獻形態的革新。單一、直接的文本閱讀銳減,取而代之的是數據庫形態的龐大的文本集合。

  檢索界限消失后,古籍數據庫可以最大程度地“一站式”獲取所需文獻資料。關系型智能化的數據庫作為一種文本,其形態與功能較紙本時代有質的提升。

  (二)歷史文本的空間化與可視化。可視化能夠包含多重變量,具有可讀性與可理解性。地理信息系統(GIS)技術顯著地促進了傳統文獻的圖表化、可視化,以動態的數字化地圖和知識圖譜體系,改變和豐富了傳統的文本形態和使用功能。

  “一圖勝千言”,文本內部蘊含的信息也具有可視化潛力。通過發現古代漢語文本特定的詞頻模式(如高頻詞、異常詞頻),可以借助文檔相似性比較、主題探測、趨勢發現等探索文本中特定的隱含語義關系,將難以理解的抽象數據空間轉化成具體直觀的視覺空間。

  (三)異質同構與傳統文獻的跨文本融合。與傳統紙質文本不同,數據文本不僅提供多對象聚合,還提供實體鏈接和交叉檢索,最大程度地為構建敘述場景提供便利。未來的文獻形態遠不止于文本、圖形、圖像,還包括音頻、視頻及增強現實、虛擬現實等。動態、關聯、立體,是未來文獻的基本特征。

  超文本打破了傳統文獻的線性平面結構,超鏈接和知識圖譜使得閱讀路徑更加靈活自由。融合多媒體和超文本檢索技術,實現跨時空、跨語種、跨媒介的檢索,德里達所說的“萬物皆文本”正在實現。

  三、知識獲取的拓展

  (一)知識的關聯。文獻作為一種語言和知識系統,字、詞、句之間皆可構成特定的復雜網絡關系。知識超越簡單的時空排序、內容關聯和頁碼順序,通過關鍵詞、類別、主題、命名實體、函數、圖表等實現跨文本甚至跨媒介關聯,通過界面或網絡聯結呈現。知識網絡讓研究者能直觀發現在詞頻統計之外的知識內部的更深層關系,如整體網絡特征、核心人物功能與不同時期人物關系的演化模式。共被引分析通過引文之間的共現,可實現基于知識的聚合,解釋知識的主題結構和新穎度。

  在大數據知識關聯中,人們更關注的是知識信息的網絡結構與流動轉化。隨著更多要素和變量納入,知識會呈現不同的形態、性能與趨勢。在更為宏闊的視域下,知識獲取已非直接來自單個文本,亦非來自文本本身。

  (二)知識的計量。通過對知識本體、要素及關系的刻畫與計量,盡量精準把握知識的特征、規律與趨勢。文獻學關注的作者歸屬、文體分類、主題異同、語義辨析等問題,正是統計分析學之所長。

  文獻學的統計方法和數據模型不僅要從已知事實推及未知事實,還要借助定性和定量的描述性公式和算法進行通式建構。人們利用文本挖掘工具,從詞頻、意象、詞匯、語義網絡、字向量、情緒等維度,分析作品的常見意象、典型形象、情感傾向等。

  文體的發展伴隨著“變體”與“破體”,也就是說文體雖然代表著一些共性特征,但又始終與特征的變異并存。

  主觀文本(長文本)一般會有情感基調和情感走向,對情感詞匯標引,可揭示語篇層面上的情感流動。對不同時代或群體的情感用詞統計聚類,可自動生成“情感辭典”。通過數字轉化及語義網絡分析,人們將對文獻與文本含義的豐富度產生前所未有的認識。

  情感計算的本質是對語言評價義的挖掘,可利用情感詞之間的相似度和語義場分析情感傾向。把每段文本按照情感強度標記分類,然后進行機器學習,再對新的文本進行測試,可以發現不同情感強度的具體表征。

  (三)主題模型提取。主題是基于概率分布的詞語,主題模型是用一些特定的詞語分布來刻畫主題。共詞分析通過分層聚類揭示詞與詞之間的關系,進而分析它們所代表的主題與結構。

  模式識別是計算機擅長的領域,計算機可根據不同文獻設置參數,提取所需主題。目前智能媒體中使用的自動摘要技術,已能自動抽取關鍵信息,根據需求靈活控制摘要長度,并用于內容理解、智能寫作等,為主題分析帶來了新的契機。一些計算機專家正致力于開發主題模型工具套件,讓主題提取變成簡單的命令錄入,從而降低應用門檻。

  大數據技術易于彌補傳統史料存在方式的不足,幫助發現知識因規模龐大而被遮蔽的變化弧線與一般規律。

  四、傳統文獻學的現代轉型

  (一)革新傳統文獻學的實踐路徑。目錄、版本、典藏、校勘、標點、索引、辨偽、輯佚等傳統文獻學的主要研究內容和工作,都極大得益于計算機網絡、語料庫和技術工具,研究效能將得到較大提升。

  大數據時代的遠讀即如同傳統文獻學中的目錄,“遠讀也可以看作是數字文本的可視化目錄。它描述了文檔集合的全局特征,讓研究人員對超大數據集有了整體認知”。

  文獻版本的分類除傳統的標準外,還增添了信息技術層面的標準。依據文獻數據碎片化、標準化和結構化的程度不同,文檔集、數據庫也具有了版本意義。

  數字文獻在典藏和流傳上具有天然優勢,重要文獻的掃描、保存和開源共享正是大數據技術和數字人文興起的基礎。語料庫、數據庫及文本工具箱已成為當今文獻研究的新基礎設施,大數據技術正助力傳統文獻學實現突破性發展。

  (二)增強傳統文獻研究的整體性。傳統文獻是平面和靜止的簡單形態,而數字化文獻是文本類型及結構復雜、數據表征及性能多樣的知識系統。這一知識系統的各要素都有自己的目標和行為、自主性和主動性,存在非線性相互作用,并隨時空變化而不斷有新的結構、功能或狀態出現。大數據時代的龐大數據集合,使得之前由因果律主導的演繹法和注重實驗的歸納法不免捉襟見肘。人們不再滿足于簡單地尋求孤立事實或線性因果,轉而致力于萬物相關性的發現與解釋。

  對海量文獻進行整體分析和遠讀,才能更有效地對某一類典籍及其蘊含的歷史信息達到整體把握。我們在一定程度上應放棄對局部或細節真實的追求,轉而追求對概率和趨勢的認知。

  隨著樣本量的增加和標準變化,以往建立在抽樣或抽象基礎上的結論可能發生改變。借助計算機實現實體名詞自動抽取,建立表征術語、文本、文人間關聯性的文本網絡,利用復雜網絡或社會網絡分析的手段深入挖掘其間的關系和模式,將成為大數據時代的文本細讀。

  (三)促進傳統文獻研究的實證化。大數據技術可以用科學的方法來解決那些感性和偶然提出的問題,如關于文學研究中的文體學和風格學問題。機器學習、數據挖掘、復雜網絡分析等計算機研究領域中也存在大量經典算法可以幫助總結文體模式、分析文體演化。通過用詞、句式、聲律、用典、態度、情感甚至段落過渡、篇章組織等多重要素的復合定量分析,文獻學研究的客觀性和精密性就變得明顯,文獻學學科的科學性也會顯著增強。

  漢儒、清儒以“實事求是”相標榜的實證精神是古典文獻學的優秀傳統,大數據技術將極大地推動實證方法在學術研究中的應用。大數據利用信息消減不確定性,語料庫和檢索技術的發展使定量證據激增,極大提升了學術研究的實證性與科學性。

  (四)催生新的研究范式。大數據技術進一步縮小了定性研究與定量研究之間的鴻溝,在經典理論和實踐經驗之間架設了一座橋梁,有可能發現和提出新的重要理論。

  計算模型擴展了審視維度,利用大數據技術協作構建龐大的新型文獻數據庫和知識庫,有望繪制出古代物質、精神世界的隱性結構,從而完成傳統學科不可想象也因而從未被納入學科范疇的目標。在大數據基礎上,除了涌現的“計算機+”的跨學科交叉研究,還催生了一些具有學理特征的研究門類。

  在大數據時代,傳統文獻學正面臨著前所未有的大轉型。隨著電子化、數字化尤其大數據技術應用于人文研究,更具方法論和本體論的信息科學的出現已是不爭的事實。

  余論

  大數據技術是一場知識革命與思維革新,促進了傳統文獻學的轉型與拓展。通過改變知識的切分、標引、聚類與呈現方式,大數據技術可以讓原本龐大的文獻及其間蘊含的知識變得更加浩瀚無窮,同時也為學者提供更多差異化、整體性、趨勢性研究的可能。資料、檢索和認知邊界的同時拓展,正在使傳統文獻學實現“輪廓重繪”。

  需要指出的是,大數據技術在傳統文獻研究中也存在著局限和問題。數據資源不可能全部獲得,“用數據說話”不等同于數據即是客觀事實。數據量大不一定等于有用的信息多,大量的含偏差數據會引起語義整體性的忽視與破壞。

  同時,也需警惕技術方法的局限性和負面影響。檢索生成數據較容易,原因的分析則較難。大數據抵消了少數個體的特殊性,減損了讀者對文本信息進行深度理解的意愿。研究者對分析工具的認識不足而誤用、統計方法單一、缺乏有機模型和統一理論的支持、機器學習算法的黑箱問題等,可能導致結果的誤差或結果可解釋性的匱乏。

  因此,我們應充分認識到大數據技術并未改變知識的本質或人追求知識的本質,它依然只是一種認識世界的工具和方法,是人的延伸,不能也不會替代人。其開放性雖然拓展了傳統量化分析方法的空間,但如何避免以抽象運算取代解釋性理解,如何注意彌補大數據在數據信度、主體呈現和因果解釋等方面的缺陷,卻同時變得緊迫。

  但也應該看到,隨著數量和維度的增多,知識的高度語境特異性反而可以讓研究者有條件更多關注審美、情感、意義等層面的問題,發揮人文經典通約性和穩定性的共情能力,讓我們成為“我們”。同時,人機之間的互動與互補,也將促進科學與人文之間的知識重構與認知升級,在一個更高層面帶來新的確定性,實現意義重置和世界重建。這也是人類對自我局限的一次突破和面臨世界巨變的一次調整。

  (作者單位:清華大學人文學院。《中國社會科學》2021年第2期。中國社會科學網 閆琪/摘)

作者簡介

姓名:李飛躍 工作單位:

轉載請注明來源:中國社會科學網 (責編:閆琪)
W020180116412817190956.jpg

回到頻道首頁
中國社會科學院概況|中國社會科學雜志社簡介|關于我們|法律顧問|廣告服務|網站聲明|聯系我們
中國社會科學院概況|中國社會科學雜志社簡介|關于我們|法律顧問|廣告服務|網站聲明|聯系我們
色窝窝色蝌蚪在线视频网站免费看