數智賦能視域下的數字人文研究:數據、技術與應用
摘 要:探索數智賦能視域下的數字人文研究,可為“數據驅動、技術創新、應用引領”的數字人文發展提供參考引。文章將研究視角聚焦到數字人文的基礎要素“數據基礎”、“技術支持”與“應用場景”三個維度,在分析數字人文研究的數據基礎設施、數字技術體系的發展現狀基礎上,論述人文學科的應用場景與轉型。數字人文數據基礎設施的逐步完善以及數字技術的蓬勃發展,助推了文學、歷史學、藝術學和圖博檔等傳統人文學科的現代轉型。同時,數字人文的發展仍面臨很多挑戰,包括學術研究的獨創性與技術手段的同質化之間的矛盾、人文學者的數字學術需求與實際使用程度之間的矛盾、數字人文基礎設施的公益性質與可持續發展之間的矛盾。
關鍵詞:數字人文;數智賦能;數據;技術;應用場景;
Digital Humanities Research in the Perspective of Data Intelligence Empowerment: Data,Technology and Applications .
Gao Dan He Lin
Abstract:
To explore digital humanities research from the perspective of data intelligence empowerment, so as to provide theoretical reference and path guidance for the development of digital humanities characterized by "data-driven, technology-innovated and application-led". This paper focuses on three dimensions of digital humanities: "data infrastructure", "technical support" and "application scenarios". Based on the analysis of the current development of data infrastructure and digital technology system of digital humanities research, this paper discusses the application scenarios and transformation of humanities. The improvement of digital humanities data infrastructure and the flourishing development of digital technologies have promoted the modern transformation of traditional humanities disciplines such as literature, history, art, libraries, archives and museums. At the same time, the development of digital humanities still faces many challenges, including the contradiction between the originality of academic research and the homogenization of methods, the contradiction between the digital scholarly needs of humanities scholars and the degree of practical use, and the contradiction between the public interest nature of digital humanities infrastructure and its sustainable development.
Keyword:
digital humanities; data intelligence empowerment; data; technology; application scenarios;
0 引言
數字人文研究、計算社會科學興起推動數據驅動的人文社科知識發現的縱深化發展,實現了語義知識單元的精細粒度化、知識組織的語義化、知識呈現的可視化。以大數據、人工智能等為代表的信息技術突破了傳統人文學科的思維模式,為傳統人文研究提供了新方法、注入了新活力。傳統人文中一些不能或難以解決的課題,在技術支持下可能得到新的解決路徑。在保持傳統人文學科既有特點與優勢的前提下,文、史、哲、藝學科有必要考慮在數據驅動的新技術環境下,如何將中華優秀傳統文化進行創新性發展、創造性轉化。
數字與人文的碰撞既產生了機遇,也存在挑戰。一方面數智賦能為傳統人文研究提供了新的思維模式和方法體系,拓展了新的應用場景和學科生長點。另一方面,新范式沖擊著傳統人文社科研究的基本認知,存在著如學科邊界模糊、缺乏領域共識的標準規范、缺失評價體系、缺乏共建共享機制等問題。面對數智賦能帶來的機遇與挑戰,人文學者反思:在多學科交叉、人文與技術深度融合的基礎上,如何實現人文定性與數字定量分析方法的互補?如何實現數據驅動與論證驅動研究的融合?如何實現人文研究從“解釋型”向“求是型”的轉變?本文立足于數智賦能的數字人文發展歷程,將研究視角聚焦到數字人文的基礎要素“數據基礎”、“技術支持”與“應用場景”,通過概覽數字人文的數據基礎設施建設,歸納數字人文的關鍵技術體系,探究數字人文在文學、歷史學、藝術學、圖博檔等傳統人文學科的應用場景,以期全面綜合地闡述數智賦能下的數字人文研究的進展與轉型。
1 數字人文研究的數據基礎
數據是數字人文研究的基石,能否充分獲取和占有某一領域的事實、數據和文獻對一項人文研究尤為關鍵[1]。數字人文研究的資源數量豐富、來源廣泛,對人文資源的數據來源、數據類型、存儲與管理方式進行闡述有助于對數據進行組織與重構。
1.1數據來源
?。?) 官方來源。官方來源主要由圖書館、博物館、檔案館等公共文化機構主導,以“國家圖書館出版社數字化項目”“全國報刊索引”為例,前者匯集國家圖書館及國內外其他圖書館的文獻資源,后者依托于上海圖書館近代館藏資源。
?。?) 民間來源。民間來源主要指來自出版社、科研院所、個人或非營利機構的自整理數據。例如,“中華經典古籍庫”的資源是以中華書局整理本古籍圖書為核心,同時涵蓋多家專業出版社的古籍整理成果;“歷代進士登科數據庫”的數據是由浙江大學龔延明教授及其團隊通過搜集、翻閱、輯錄原始史料,歷經二十多年整理而成;“中國哲學書電子化計劃”和“國學大師”項目都是由個人或非營利機構參與創建與維護的。
?。?) 綜合數據來源項目。此類數字人文項目匯集多種數據來源。比如,“大學數字圖書館國際合作計劃”整合國內高校圖書館、圖書情報服務機構、學術研究機構所擁有或生產的各類信息資源;“中國地方歷史文獻數據庫”數據或來源于上海交通大學地方文獻中心專家的田野調查,或來源于文物市場中搶救搜集,或通過走村入戶獲得授權復制。
1.2數據類型
隨著信息技術發展,數字環境日益復雜化,數字人文數據超越傳統文本形式的單一性,文本、圖片、音頻、視頻、3D等多種數據類型并存。數字人文資源既包括針對古籍、檔案、報刊、書目、家譜資料的文本型數據;又包括地圖、畫作、壁畫、拓片、老照片、海報等的圖像型數據;同時,還涵蓋了訪談、紀錄片等的音視頻型數據;在三維數字化技術的推動發展下,學者們在館藏文物、器皿、遺址、塑像、簡帛、建筑等領域也積累大量的3D數據資源。數字人文研究的數據來源及類型如圖1所示。
1.3人文數據的重組維度
數字人文資源具有海量、多源、異構、多模態、跨時空、跨領域、分布廣、內涵雜等特點[2]。要對這些類型繁多、來源各異、數量龐大的數字資源進行深層次的描述、組織與重構,可從知識模態的集成化、知識單元的可計算化、知識領域的融通化維度進行探析。
?。?)知識模態的集成化。人文數據是多源異構、多模態的高維度數據。數字化技術將各類數據載體(如圖書、報刊、樂曲、錄音、照片、畫作、視頻)和數據類型(如文字、圖像、音視頻、數表)轉換為二進制,經計算機統一處理,產生新的數據文本[3]。數字人文研究的多維度分析要求數據能覆蓋不同研究視角、包含多個學科主題,因此將多模態的人文數據集成化、多資源互補,這也是數字人文項目趨勢之一。比如,“威尼斯時光機(Venice Time Machine,VTM)”項目[4]資源來自威尼斯國家檔案館保存的海量歷史文獻檔案資料,包括手稿、專著、畫作、信函、地圖等文獻類型,內容涉及出生與死亡記錄、醫療記錄、納稅記錄、建筑設計與城市規劃、地圖等,“威尼斯時光機”項目利用大量的多模態數據,從不同角度重構了威尼斯千年的歷史文化發展與變遷。
?。?)知識單元的可計算化。隨著語義網技術發展,知識控制單位從粗粒度文獻單元向細粒度語義知識單元發展,揭示了更豐富的語義關系。數據標注的顆粒度決定應用場景的多元性,粗粒度文本被重組為細粒度的相關語義單元,用于輔助文本細讀。以古籍智能處理為例,古代漢語通過自動斷句、詞匯處理(分詞、詞性標記、命名實體識別)、語義和句法標注等技術,生成新的微觀知識單元,囊括了古文的音素、音節、音調、字、詞素、詞匯、實體、短語、句子、段落、篇章和文集等不同語言單位上的標注、組織和挖掘任務,計算機由此實現詞匯級、實體級、句子級、段落級和篇章級等各個層級的文本分析與計算[5]。
?。?)知識領域的融通化。開展數字人文研究需要支持面向特定領域的多源異構數據的融合,在數據融合中產生新的知識[6]。從融合形式看,人文數據融合主要有異構融合、多源融合、多模融合3種方式[2]。異構融合和多源融合是針對不同存儲結構和不同數據源的人文數據進行融合,為了支持多源異構數據的知識互操作,出現通用且可拓展的語義框架,自上而下地構建了一致的知識表示形式,代表性成果包括國際工作委員會開發面向文化遺產的概念通用參考模型CIDOC-CRM、Europeana構建的EDM模型、芬蘭語義系列項目Sampo等。多模融合是指對文本、圖像、語音等不同數據形式的融合。受限于人文資源的不同形式,人文數據的語義內容難以揭示與互通。以圖文跨模態融合為例,學者們探究圖像和文本底層特征和高層語義的映射方法,通過協作學習方法建立聯合特征表示和聯合空間,將圖像標注的語義信息與文本中信息進行對比、匹配與集成,實現圖像與文本的互相檢索,形成跨模態的知識表示方法。
1.4數據存儲與管理方式
在新技術推動下,文獻資源內容結構和利用形式變革,使得數據存儲與管理方式改變。從大規模建設各種類型的書目數據庫、圖像數據庫到全文數據庫,從量化數據庫再到發展為數字人文應用平臺,知識的表示程度更加細?;椭腔刍?,知識工程導向的“數字基礎設施建設”模式開始顯現[7]。
在數據庫建設初期,以書目數據庫、圖像數據庫和全文數據庫為主。它們以典藏檢索功能為導向,在本質上屬于具備檢索功能的數字化文本存儲環境[8],主要功能是資料的數字化保存和簡單檢索。對用戶而言,此類數據庫提供的檢索能力有限,存在部分書目數據庫僅提供關鍵詞檢索、部分圖像數據庫不能實現檢索、數據庫整體開放程度較低等問題。
隨著自然語言處理技術發展,量化數據庫展現出了在人文研究中的重要價值。此類數據庫將具有同質性的文獻資料,如個人履歷、戶籍材料、土地及財產登記、科舉或官員銓選進行結構化處理,為大規模數據統計分析提供便利,如清代縉紳錄量化數據庫、中國多代人口系列數據庫。然而,無論量化數據庫數據量多大,通常都是以單一類型的史料為數據源搭建的,量化數據庫的發展受其數據來源的局限。同時,數據結構化過程不可避免地帶來壓縮效果,數據脫節于其所在文獻史料,信息被“降維保存”。
近年諸多高校和科研機構開展數字人文項目實踐,建立數字人文應用平臺,如“中國歷代人物傳記資料庫”“唐宋文學編年地圖”“數字敦煌系統”。與前兩類數據庫相比,數字人文應用平臺兼具檢索和數據結構化特性,對信息進行更細粒度的標注,能更好地支持研究需求。數字人文應用平臺可以揭示隱藏在數據下的歷史過程和規律,呈現出相關文獻之間的時空聯系,協助學者發現新議題與開展研究。例如,“中國歷代人物傳記資料庫”可以從不同角度(官職、入仕途徑、著作、財產、社會關系等)重組人物信息,對彼此間的關聯進行分析,不僅可以進行群體傳記學的統計分析,還可以進行空間分析與社會關系網絡分析。
2數字人文研究的技術支持
2.1 基于數字化技術的數據處理
數字人文研究的基礎條件是人文資料的數字化。這一階段所用技術包括影像掃描、字符編碼和文字識別等,涉及編碼字符集少、生僻詞輸入、字形多樣、文字識別率低等問題。
為加快人文資料的數字化進程,影像掃描技術推陳出新。針對紙質資料數字化,歐洲時光機項目引入高速掃描儀,每小時可掃描數千張高清圖像,并借鑒醫學的計算機斷層掃描技術,將其用于黏連成塊、無法翻頁的“檔案磚”,實現高速、無損的掃描過程[9]。針對文物資源數字化,主要技術方法包括三維激光掃描、結構光掃描、多圖像攝影測量技術等,可以高分辨率、非接觸地獲取文物本體的色彩和空間數據,輸出二維數字圖紙和三維數字模型,在博物館展示、文物保護、文物復制、文創產品開發等應用中發揮著重要作用,例如云岡石窟第3窟復制窟的三維重建項目、故宮數字館的“數字多寶閣”項目。
以漢語古籍的數字化技術為例,主要涉及兩方面:一是計算機編碼漢字的問題,二是計算機圖像識別并轉換為字符的能力問題[10]。早期受限于字符集規模,古漢語數字化進程發展滯緩,隨著全球通用的編碼符集標準Unicode的制定,以及“龍語瀚堂四字節處理系統”等產品問世,古漢字編碼字符較少、生僻詞輸入問題基本解決[11]。文字識別方法主要依賴OCR技術,中文古籍還存在古籍版面復雜、字形多樣、大小字注及行間注并存等情況,這為文字識別增加了難度。在提高計算機對古漢語的文字識別率策略上,學者們一般采用古籍語料庫與機器學習技術相結合的方式,構建錯誤恢復模型校正形近字,借助人名、地名、官名等詞表及知識庫,輔助計算機根據上下文關系進行學習和判斷,最后再輔以人工復校。
2.2 基于語義技術的知識表示
?。?)本體模型。本體具有較好的概念層次結構和邏輯推理能力,有助于實現異構數據的集成與融合。在數字人文領域,多通過復用或拓展部分已有的、較成熟的本體模型,來對領域知識進行組織。例如,面向口述歷史資料[12]、古建筑[13]等進行本體構建及應用研究。
?。?)關聯數據。關聯數據強調多源異構數據的相互關聯與相互聯系,這為數字人文的進一步發展提供了新機遇,較成熟的應用有“歐洲數字手稿項目(Digitized Manuscripts to Europeana,DM2E )”[14]“關聯爵士項目(Linked Jazz,LJ)”[15]“芬蘭數字人文關聯開放數據基礎設施(Linked Open Data Infrastructure for Digital Humanities in Finland,LODI4DH)”[16],以及利用關聯數據和本體技術重構家譜數據的網站。在國內,上海圖書館開放數據平臺以關聯數據方式向互聯網公開發布數字人文項目所用的基礎知識庫(人、地、時、事、物)、文獻知識庫(家譜、手稿檔案、古籍等)、本體詞表等館藏資源,為人文數據的組織、發布、共享與訪問做出了示范。
2.3 基于自然語言處理技術的知識組織
數字人文研究在依賴于自然語言處理技術的應用。根據語言層級結構的不同,自然語言處理技術體系可以分為:基于字詞級別的技術分析(包括自動分詞、命名實體識別、詞性標注等)和基于篇章級別的技術分析(包括信息抽取、文本分類和情感分析等)。
2.3.1字詞級別的技術應用
?。?)自動分詞。詞是含有完整語義信息且能獨立運用的最小語言單位,自動分詞問題是自然語言處理的首要基礎性工作。分詞方法可分為基于詞表的分詞方法、基于統計模型的分析方法,以及規則方法與統計方法相結合的分詞技術[17]。由于覆蓋性較差、可遷移性較弱等問題,基于詞表的分詞方法很少被單獨使用。學者們一般采用條件隨機場模型[18]、隱馬爾可夫模型[19]、BERT模型[20]等機器學習模型,并結合預訓練和后處理方式構建更為高效準確的自動分詞模型,這也逐步成為中文自動分詞的主流方法。
?。?)命名實體識別。早期的命名實體識別大都是基于規則的方法,先人工制定規則,再從文本中匹配規則字符串[21]。要使識別效果越高,就越需要構建大量的規則,但代價太高,可移植性低。學者們采取新的研究思路,使用基于統計機器學習的方法進行命名實體識別。為提高模型的計算效率,學者們嘗試多種模型和方法[22,23,24],對經典模型進行優化、調整與改進[25,26],加入本地詞匯、全局信息、外部知識等各種特征[27,28,29],綜合多種方法[30,31]。隨著深度學習發展,深度神經網絡也被成功應用到命名實體識別問題,取到不錯的識別效果,主要有卷積神經網絡[32]、循環神經網絡[33]以及引入注意力機制的神經網絡[34]。
?。?)詞性標注。詞性標注主要有基于規則、基于統計模型和兩者相結合的方法?;谝巹t詞性標注的基本思想是按照兼類詞語搭配關系和上下文語境構造詞類的消歧規則,如美國布朗大學(Brown University, Brown)開發的TAGGIT系統[13]。在基于語料庫統計的詞性標注方法上,應用比較廣泛的是隱馬爾可夫模型[35]、最大熵模型[36]、條件隨機場[37]和Bert模型[38]。有學者結合條件隨機場和組合特征模板,在古籍文本詞性自動標注的應用上做了積極探索[39],Bert模型非常適用于古漢語的詞性標注處理[16]。
2.3.2篇章級別的技術分析
?。?) 信息抽取。面向非結構化文本的信息抽取,具體包括實體抽取、關系抽取和事件抽取3種任務。實體抽取即命名實體識別,前文已經討論。關系抽取是從文本中抽取多個實體之間的語義關系,一般采用基于模板、基于監督學習、基于弱監督學習的關系抽取方法[40]。已有的事件抽取方法可以分為流水線方法和聯合抽取方法兩類。流水線方法將事件抽取分解為4個基于分類的子任務,包括事件識別、元素抽取、屬性分類和可報告性判別[38]。聯合抽取方法是指關于事件的所有信息會通過一個模型同時抽取出來。比如,基于RoBERTa-CRF模型,先用多層Transformer提取語料特征,再結合前后文序列標簽學習相關性約束,對古文歷史事件進行聯合抽取[41]。
?。?) 文本分類與聚類。分類與聚類是文本挖掘中常用方法,目的都是將高相似度信息進行歸類,不同點在于分類采用有監督機器學習,聚類采用無監督機器學習。文本分類在數字人文領域有著較成熟的應用,如古籍目錄的互著與別裁[42]、多模態非遺圖片的分類[43]、典籍子部分類[44]。在數字人文研究中,常采用K均值算法和LDA主題模型方法進行聚類,在文本分析[45]、圖像內容解析[46]、關鍵詞抽取[47]、本體構建[48]等方面應用廣泛。
?。?)情感分析[49]。早期學者一般用定量方法統計情感詞的頻率[50]。在數字人文領域,大多利用機器學習方法對文學作品的情感特征自動判別。比如,構建融入漢字語言特征的條件隨機場模型和BERT-BiLSTM-CRFs深度學習模型,對唐詩宋詞的詩文風格、體裁和情感進行識別與分類研究[51]。
2.4 基于機器學習的知識發現
近年以機器學習為代表的人工智能技術在數字人文研究中發揮了重要作用,較常見的模型包括樸素貝葉斯分類器、決策樹和支持向量機模型特別適用于文本分類問題,而最大熵模型、隱馬爾可夫模型、條件隨機場等模型在詞性標注、命名實體識別、信息抽取等自然語言處理問題上表現出色[52]。隨著計算機性能提高,深度神經網絡技術不斷突破,特別是在語音識別、圖像識別方面嶄露頭角。機器學習也被廣泛應用到數字人文研究,如OCR手寫體識別、對領域知識的細粒度處理、知識檢索及智能問答。由于機器學習常與其他方法結合應用,在此不具體展開討論。
2.5 基于可視化技術的知識展示
可視化技術能以更為直觀、更易理解、更具有沖擊力的視覺效果展現數據內在的信息和規律,輔助研究者開展分析、解釋等學術活動。在數字人文研究中,可視化一般不是單獨存在的,通常與遠讀、社會網絡分析、地理信息系統等方法結合應用。
?。?)可視化技術與遠讀??梢暬沁h讀的重要呈現手段[53],二者的結合應用為較大時間跨度、較大規模的數據資料提供了新的閱讀與解讀方法。有六類適用于遠讀的可視化方法:結構圖、熱力圖、標簽云、地圖、時間線、網絡圖,用以展現文本的結構層級、頻次、地理空間分布、時間演化、對象間的關系[54]。
?。?)可視化技術與社會網絡分析。社會網絡分析是根據圖論、數學方法發展而來的定量分析方法,將社會關系看作節點(node)與邊(relational tie)組成的網絡,通過可視化技術可以直觀地揭示出文本中的人物關系、人物功能、關系強度等信息。例如,基于英國國家檔案館123850封書信的都鐸王朝通信網絡可視化項目(The Tudor Network, TN)[55],通過計算度中心性、介數中心性、特征向量中心性等指標,能夠直觀展現出通信網絡中的關鍵性人物和關系網。
?。?)可視化技術與地理信息系統。地理信息系統(Geographic Information System,GIS)能夠對空間信息進行分析和處理,在環境演變、聚落變遷、輿情或疫病傳播等方面廣泛應用,數字人文領域中典型成果有“唐宋文學編年地圖”“數字方志集成平臺”“全球漢籍分布GIS系統”等。
3 數智賦能:數字人文應用場景的轉型
數據基礎設施建設以及數字技術發展為人文研究拓展了新的應用場景和學科生長點。數智賦能情境下,以往傳統人文研究中一些不能或難以解決的課題,可以重新從不同學科領域、不同角度以及不同側重點進行分析與解決。以文學、歷史學和藝術學、圖檔博學科為例,對數字技術下的人文研究“新”應用場景進行梳理,有助于深入把握人文社科研究趨勢,探索人文學科研究范式和知識生產模式的變革,促進相關學科領域的現代轉型。
3.1文學領域應用場景
?。?)遠讀與細讀。大數據時代下,龐大的信息量超出個人閱讀理解范疇,傳統的細讀經典方法不再適用于從宏觀上把握文本。莫雷蒂提出“遠讀”(distant reading)的文學研究方法,即借助計算機對大規模文本集合所表現出的總體特征進行解讀。其過程主要通過一系列的自然語言處理技術,將文本置換為便于計數的詞匯集合,并借助可視化技術描述詞匯集合的全局特征,從宏觀層面把握文學體系。遠讀如同傳統文獻的目錄和索引,為文檔集合提供了全局圖景,幫助學者在海量資料中篩選需要文本,輔助細讀研究。在大規模文本集合上所做的遠讀,基本上可以歸為兩類:一類是對文本集合整體統計特征的描述。米歇爾[56]提出“文化組學(culturomics)”概念,通過統計數百萬冊圖書中的單詞隨時間推移的使用頻率,由此推導出人類文化的發展趨勢和演變規律。另一類遠讀方法是對文本集合內在結構特征的揭示。比如群體傳記學研究(Prosopography),“中國歷代人物傳記資料庫”提供51萬人的傳記資料,通過對一群歷史人物的生平信息(如出生、死亡、婚姻、家庭、經濟地位、居住地、教育、宦歷等信息)進行組合,找出具有顯著意義的變量,探討人物一般性、普遍性和共性的背景特征。
?。?)空間位置及時間序列分析。文學研究中存在時空分離難題,傳統研究多按照時間序列呈現文學史的發展歷程,如思想觀念變遷、習俗演化,忽略空間信息。地理信息系統為古代文學研究提供了新方向,在計算機圖形圖像處理、數據庫技術、測繪遙感技術及現代數學研究方法的基礎上,集成歷史文獻、古地圖、遙感影像、地名志、考古信息等多元史料,推動歷史與地理交相為用,時間與空間互為表里。中南民族大學開發的“唐宋文學編年地圖”提出編年與系地并重的建設理念,從作家、作品、時間、空間四個維度全時空呈現作家的活動場景,既可縱向觀察歷時性的文學發展進程,又可橫向了解共時性的文學地域分布[57]。浙江大學與哈佛大學地理分析中心共建的“學術地圖發布平臺”為用戶提供地理信息研究成果的發布、可視化分析及多功能查詢服務,從空間維度展示中國人文與歷史[58]。
?。?)文獻循證。人文學界輕文獻考辨、重義理闡發致使學風空疏[59]。數據驅動的數字人文研究提供了挖掘文獻證據及其關聯關系的新方法,給文獻學、考據學等古籍整理工作帶來新活力。上海圖書館“中文古籍聯合目錄及循證平臺”是依靠自動化數據挖掘和推理技術來揭示文獻證據的應用平臺,就典籍中的內容提供全面的關系描述和推理,構建包括物理證據、內容證據、歷史證據、關聯證據的文獻證據鏈?!爸袊軐W書電子化計劃”具有相似段落數據庫、引得或索引訊息檢索的功能,可以提供關于原典成書歷史的線索,將其作為??边^程中的證據來辨章學術、考鏡源流。
3.2歷史學領域應用場景
?。?)文化遺產智慧數據。進入數字社會以來,文化遺產數字化快速推進。如何將文化遺產經過數據化和智慧化加工,形成內容數字化、編碼結構化、表示語義化、組織網絡化和關聯智能化的文化遺產智慧數據成為極具挑戰的問題。王曉光[60]基于海量的敦煌文獻和數字資源,探索敦煌文化遺產智慧數據的構建路徑和方法,主要建設內容包括敦煌壁畫主題詞表構建與關聯數據發布、敦煌石窟本體及相關數據模型、圖像深度語義標注、圖像數字資產管理系統、敦煌壁畫圖像交互式數字敘事系統,以及敦煌石窟知識圖譜與應用服務。為解決多源異構的文化遺產數據跨領域跨機構的知識融通問題,夏翠娟[61]提出“本體應用綱要”設計方法和“一體化本體”融通模型,并運用于上海圖書館的家譜、手稿檔案、古籍等資源的描述與揭示層面。
?。?)歷史地理信息化與空間人文研究。2000年諾爾斯(Knowles)[62]率先指出歷史學進入“空間轉向(Spatial Turn)”階段,歷史學家將GIS技術引入歷史研究。大量的國家歷史地理信息平臺被開發建設,如樸次茅斯大學(University of Portsmouth)“英國歷史地理信息系統(Great Britain Historical GIS)”、根特大學(Ghent University)“比利時歷史地理信息系統(Belgian historical GIS)”、哈佛大學與復旦大學合作開發的“中國歷史地理信息系統(China Historical GIS)”。一些專題性歷史地理信息系統也得到建設,如哈佛大學地理分析中心(The Center for Geographic Analysis, Harvard University)“哈佛世界地圖(Harvard WorldMap)”、南京大學“六朝建康歷史地理信息系統”、首都師范大學“絲綢之路歷史地理信息開放平臺”。這些歷史地理信息系統利用數據庫和GIS技術將文獻資料與電子地圖結合,側重于探索重大歷史事件的時空運行規律,將歷史事件的自然背景信息耦合進系統,試圖重現不同時空切面下的人文景觀,實現人文空間的可視化呈現,在歷史氣候變動、河流地貌、市鎮經濟、鄉村聚落、水利社會、環境變遷等方面取得了突破。
隨著數字人文發展,范毅軍[63]提出發展空間人文、重回歷史現場倡議,進而提出“Geo-Humanities(Spatial Humanities)=HGIS+Digital Humanities”概念??臻g人文研究側重于遺址或文物的三維建模與虛擬呈現,主要針對城市史、考古、墓葬、遺址田野調查、景觀考古學領域開展研究工作。武漢大學“文化遺產智能計算實驗室”、天津大學“空間人文與場所計算實驗室”貢獻了頗多開創性成果,探討文物與大遺址三維建模、古城市重建、古代交通網絡和河道復原、遺址墓葬空間分析等問題,促進了物質和非物質文化遺產從現實世界向數字空間的遷移。
?。?) 數字記憶工程。為實現對文化遺產的保護與傳承,1992年聯合國教科文組織發起世界記憶工程(Memory of the World, MoW),掀起數字文化記憶項目熱潮,已有80多個國家超過2400個數字記憶項目[64],囊括國家記憶(如美國數字記憶)、城市記憶(如上海年華項目)、村落記憶(如高遷數字記憶)、事件記憶(如911數字檔案館)等類型。這些項目是對可承載記憶屬性的資源進行開發利用,具有多資源互補、多媒體連通、迭代式增長、開放式構建特點[65]。通過利用地理信息系統、可視化、3D/4D歷史城市重建、虛擬仿真、沉浸體驗等技術手段,將多類型圖書、報刊、樂曲、錄音、照片、畫作、視頻等資源集成,使用戶達到視聽共鳴、記憶共振和文化回響的效果。
3.3藝術學領域應用場景
?。?)藝術作品數字化。元數據標準、本體建模、開放關聯數據和知識圖譜等技術的應用推動了藝術領域的數字資源建設,藝術品的數字表示、數字存儲、數字展示等環節取得長足發展。在藝術品的數字描述和數字建檔方面,出現更為細化、更具針對性的藝術類本體模型,如描述印度傳統舞蹈的Nrityakosha本體模型[66]、表示拜占庭教堂繪畫的場景本體模型[67]、分析傳統武術文化特征的本體模型[68]。在藝術品數字資料存儲方面,隨著Artstor、Art Net、Art Index等藝術數據庫開發,各類藝術品、藝術家、拍賣機構、收藏人、展覽信息被全面整合。陳靜利用各類古籍、圖像、實物資源開展中國非物質文化遺產的搜集與整理研究,從工藝、色彩和圖紋三個維度對非遺知識進行拆解、再現和重組,建設“ZHI藝:非物質文化遺產虛擬展示平臺”。在藝術品的虛擬展示和開放共享方面,各國博物館開展藏品數字化工作,如大英博物館MicroPasts項目、大都會藝術博物館的開放獲取政策。法國盧浮宮將超過48萬件藏品數字化,免費供公眾下載;谷歌與70多個國家和地區的1000多家博物館合作,推出“藝術與文化項目(Google Arts & Culture)”,利用街景技術拍攝博物館內部實景,以最高70億像素的超高解析度向公眾展示館內經典藏品。
?。?)數據驅動的藝術分析。數字藝術發展使原本聚焦于各類藝術品的目光轉移到作品之間的關系與關聯語境的建構上,藝術家利用科學數據進行藝術分析與創作。藝術分析特點發生從定性到定量、從抽樣分析到全景透視、從文本闡釋到“看圖說話”的轉變[69]。向帆和朱舜山開發的交互可視化項目“Award Puzzle(全國美展獲獎油畫作品可視化在線平臺)”[70]分析全國美展獲獎2276張油畫作品數據,通過設計“以作品為中心”和“以作者為中心”的兩套元數據集,將時間、色彩、畫幅、地理、獲獎人等因素相聯系,直觀地辨別全國美展獲獎油畫作品中的同質化趨勢,如獲獎作品色彩集中于明亮的紅黃調區域、畫幅越來越大、多次獲獎作者的作品主題重復。此類案例還有基于CBDB的中國家譜樹繪制[71]、在線交互視覺平臺“百老匯大街(On Broadway)”[72]等。
?。?)計算機輔助與生成藝術。1949年亞當斯(Adams)利用計算機生成簡單圖像《彈球》(Bouncing Ball),引發藝術家對于科技和藝術相結合的探索。隨著機器學習、高清掃描、色彩還原、虛擬現實等技術應用,計算機能輔助藝術進行鑒定修復、評價、教學等。例如,使用宏觀X射線熒光掃描技術對書法、油畫作品的物理屬性進行研究,以確認創作時期、辨識真偽或后期修復[73];利用深度卷積神經元網絡和機器學習來驗證創作者身份,預測藝術品的拍賣價格[74]。
在計算機生成藝術上,學者們探索計算機自動生成詩歌、樂曲等創意作品的可能性,如微軟小冰寫作詩集、索尼模仿披頭士樂隊創作音樂。在神經網絡技術加持下,人工智能在模仿和生成圖像藝術品上也有突破性進展。2014年古德費洛[75]提出生成式對抗網絡(Generative Adversarial Networks,GAN),通過讓生成模型(Generative Model)和判別模型(Discriminative Model)兩個神經網絡相互博弈的方式進行學習和輸出。計算機通過學習大量藝術作品的顏色、形狀等特征,模仿并生成類似的藝術作品,然而這一過程在本質上不屬于創作,只是復制粘貼已有的藝術品。艾哈邁德·艾爾加馬爾[76]提出創意對抗網絡(Creative Adversarial Networks),在GAN基礎上學習藝術品風格,通過修改目標,最大限度地偏離已知的藝術品風格,從而使創造更具創意。在一項由藝術專業背景受試者評分的圖靈測試中,CAN生成的作品創新度比人類作品評分更高。
3.4圖博檔領域應用場景
?。?) 數據基礎設施建設。圖博檔機構是社會信息、知識、文化的記憶裝置,憑借其豐富的資源優勢,成為數字人文項目的重要發起者和參與主體。同時,由于圖博檔機構具備相關的人員、環境、設備和技術支撐,可為信息資源的保存、組織、整合、開發、利用等數字人文的數據基礎設施建設提供支持。一項對圖書館與數字人文關系的調查表明[77],97%受訪者認為數字人文的資料和項目成果應保存在圖書館。在圖博檔領域,數字人文數據基礎設施建設實際開展較早、較為成熟,數字圖書館時代的特藏庫可以算是數字人文數據基礎設施的前身。20世紀80年代以來,一批古籍藏量可觀的圖書館參與古籍數字化、古籍普查登記、中華古籍聯合目錄和古籍數字資源庫建設,如北京大學圖書館自建的“秘籍琳瑯”數據庫、收錄30余家海內外圖書館所藏古籍善本的“中華古籍善本國際聯合書目系統”。
?。?)標準規范應用與制訂。人文資源具有多源異構、多模態的特點,如何將其轉化為可發現、可訪問、可互操作、可重用的優質資源是圖博檔領域關注的問題。圖博檔機構借助于元數據、關聯數據等技術,對人文信息資源進行語義描述與組織,將無序的原始人文信息轉換為結構化的RDF數據,并有意識地將可供同行參考借鑒的語義描述模型和數據發布標準整理成規范。在人文資源語義描述、標引以及管理的研究方面,已經出現例如面向文化遺產的CIDOC-CRM概念參考模型、藝術品描述類目(CDWA)、文物編目(CCO)、輕量級信息描述對象(LIDO)、芬蘭時空本體(SAPO)、國際圖像互操作框架(IIIF)、視覺資料核心類目(VRA Core)等本體模型,以及各類人名規范庫、歷史紀年表、地理名詞表等人文辭表關聯數據集。
?。?)平臺工具算法的開發與服務。圖博檔領域致力于將智能計算和語義分析技術等前沿技術應用于人文語料,參與研發了相關的工具、算法及服務平臺。例如,北京大學數字人文研究中心開發的“吾與點”古籍自動整理平臺提供圖片文字識別、自動句讀、命名實體識別三項基本古籍整理功能,基于深度學習的預訓練語言模型實現,句讀準確率(F1值)超過94%,達到實用標準。這些服務平臺、工具和算法可以極大提升古籍的數字化效率和利用率,為古籍內容的整理和深度挖掘提供了便利工具。
4 研究挑戰及未來展望
數字人文數據基礎設施的逐步完善以及數字技術蓬勃發展,助推了傳統人文學科的現代轉型,文學、歷史學、藝術學、圖博檔等傳統人文領域迎來新的應用場景和生長點。數智賦能為數字人文研究帶來新的發展機遇,也存在一定的挑戰。當下,數字人文仍然面臨著研究方法同質化、算法崇拜、技術與需求脫節、利用深度不足、人文學者認同度低、不可持續建設等困境。究其根源,是數字人文領域存在的幾點問題沒有得到有效解決。
一是學術研究的獨創性與技術手段的同質化之間的矛盾。隨著數字技術的發展,一系列的模型、算法、軟件、工具、平臺被開發出來以支持數字人文研究,這為研究者提供了共性的研究思路和可復制推廣的研究方法。然而,便捷的技術手段極易造成研究成果產出的同質化,其模式往往是輸入海量數據,使用最新模型、最好算法“炫技”,輸出數據結果并進行解釋。雖然這一過程也解釋了數據是什么,但研究者容易陷入對數據、技術工具的依賴,忽略了人文學科思辨式的學理闡釋,不利于學術研究的創新性發展。在運用大數據、人工智能等“新方法”去研究“老數據”的學術道路上,要注意協調數字技術與研究問題之間的平衡,最新模型、最好算法可能并不是最合適的技術手段,要針對人文特定語料和應用場景,選擇最合適的技術手段,善于從“老數據”中發現新問題、取得新突破。
二是人文學者的數字學術需求與實際使用程度之間的矛盾。為適應新興學術環境的變革,人文學者對數據獲取、技術應用的數字學術需求愈發迫切[78],數字人文基礎設施數量隨著增加。然而數字人文基礎設施建設存在相互孤立、缺乏關聯等問題,數字人文基礎設施投入使用率低于預期[79]。究其原因,一是數字技術與領域知識之間存在鴻溝,由于缺乏專業領域知識,開發人員難以滿足人文學者的深層需求,同時學者由于欠缺數字技能,對數字人文的認可和使用程度有待提高;二是數據表示不規范,人文學者不予認同,導致實際使用程度較低,數字技術能否完整記錄人文研究的過程與結果,仍值得商榷[3]。在將傳統思辨式的人文知識以數據形式表示時,應考慮遵循何種標準和規則轉化數據,如何準確揭示異構資源所含的語義內容,這仍是需要解決的重點難點問題之一。
三是數字人文基礎設施的公益性質與可持續發展之間的矛盾??沙掷m性是數字人文基礎設施建設面臨的嚴峻問題,早期一些課題基金支撐的數字人文項,隨著課題結項,不再進行增量更新及維護升級,逐漸變成僵尸數據庫。對具有公益性質的數字人文基礎設施而言,如何獲得可持續的資金、技術、人力進行后續運營維護是亟待解決的問題。有學者提議營造學界和業界的可持續發展生態環境,將一些資源授權開放供學術研究,并且將有潛質的成果進行商業化,轉化后的成果能夠為后續研究提供支持,這樣既能保護學術研究,也能保證商業利益[80]。還有學者探索公眾科學模式,借助社會化眾籌、眾包社區等方式創建數字人文項目的共建共享機制,嘗試為數字人文基礎設施的可持續性發展帶來新的契機。
數智賦能已成為引領傳統人文研究創新發展的驅動力,深入影響人文學科的研究范式和實踐邏輯。從數據層面看,多源異構、多模態、數量龐大、跨領域的人文資源,為數據驅動的數字人文研究奠定了豐富的數據基礎,數字人文的數據基礎設施逐步完善。從技術層面看,數據驅動的分析手段能更好地進行多維度歷史呈現,幫助學者發現隱藏在海量數據下的事實,輔助相關學科的學者進行論證分析。從應用場景看,數字人文浪潮助推了傳統人文學科的現代轉型,文學、歷史學、藝術學、圖檔博領域迎來新的學科生長點。然而需要指出的是,目前數字人文研究仍處于初始階段,技術方法同質化、需求與技術脫節、可持續建設等問題還沒有得到有效解決,我們不能將數智賦能看成是人文學科發展的直通車。一方面,學者還需關注數字人文的標準規范和評價體系等具體問題,從需求和實踐層面確立統一的框架標準,于細微處見真章;另一方面,數字人文的基礎設施建設也需要頂層設計和統籌規劃,為可持續發展提供切實保障。
參考文獻
[1] 劉煒,林海青,夏翠娟.數字人文研究的圖書館學方法:書目控制與文獻循證[J].大學圖書館學報,2018,36(5):116-123.
[2] 王曉光,譚旭,夏生平.敦煌智慧數據研究與實踐[J].數字人文,2020(4):11-23.
[3] 劉石,李飛躍.大數據技術與傳統文獻學的現代轉型[J].中國社會科學,2021(2):63-81.
[4] Frédéric Kaplan. Venice Time Machine[EB/OL].[2022-02-26].
[5] 黃水清,王東波.古文信息處理研究的現狀及趨勢[J].圖書情報工作,2017,61(12):43-49.
[6] 夏翠娟.面向人文研究的“數據基礎設施”建設——試論圖書館學對數字人文的方法論貢獻[J].中國圖書館學報,2020,46(3):24-37.
[7] 趙薇.數字時代人文學研究的變革與超越——數字人文在中國[J].探索與爭鳴,2021(6):191-206.
[8] 盧彤,李明杰.中文古籍數字化成果輔助人文學術研究功能的調查[J].圖書與情報,2019(1):70-79.
[9] 龍家慶.數字人文項目中檔案數據開發工具及應用研究——以“歐洲時光機”為例[J].北京檔案,2021(3):10-15.
[10] 陳力.數字人文視域下的古籍數字化與古典知識庫建設問題[J].中國圖書館學報,2022,48(2):36-46.
[11] 崔雷. 中文古籍數字化研究[D].吉林大學,2010.
[12] 鄧君,王阮.口述歷史檔案資源知識組織與關聯分析[J].情報資料工作,2021,42(5):58-67.
[13] 劉曉娟,潘銀蓉,劉慧平,崔月強.數字人文視角下古建筑描述模型設計研究——以什剎海地區為例[J].圖書情報工作,2020,64(19):119-127.
[14] Vivien Petras.Digitized Manuscripts to Europeana[EB/OL].[2022-04-05].
[15] Cristina Pattuelli.Linked Jazz Project[EB/OL].[2022-04-05].
[16] Eero Hyv?nen. Linked Open Data Infrastructure for Digital Humanities in Finland[EB/OL].[2022-04-05].
[17] 宗成慶. 統計自然語言處理[M]. 北京:清華大學出版社, 2013:135-150.
[18] 石民,李斌,陳小荷.基于CRF的先秦漢語分詞標注一體化研究[J].中文信息學報,2010,24(2):39-45.
[19] 錢智勇,周建忠,童國平,等.基于HMM的楚辭自動分詞標注研究[J].圖書情報工作,2014,58(4):105-110.
[20] 張琪,江川,紀有書,等.面向多領域先秦典籍的分詞詞性一體化自動標注模型構建[J].數據分析與知識發現,2021,5(3):2-11.
[21] 劉瀏,王東波.命名實體識別研究綜述[J].情報學報,2018,37(3):329-340.
[22] McCallum A, Li W. Early results for named entity recognition with conditional random fields, feature induction and web-enhanced lexicons[C]// Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL, Stroudsburg: Association for Computational Linguistics, 2003,4:188-191.
[23] Bikel D M, Miller S, Schwartz R, et al. Nymble: a high-performance learning name-finder[C]// Proceedings of the Fifth Conference on Applied Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 1997:194-201.
[24] Isozaki H, Kazawa H. Efficient support vector classifiers for named entity recognition[C]// Proceedings of the 19th International Conference on Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2002, 1:1-7.
[25] Zhou G, Su J. Named entity recognition using an HMM-based chunk tagger[C]// Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2002:473-480.
[26] Leaman R, Lu Z. TaggerOne: joint named entity recognition and normalization with semi-Markov Models[J]. Bioinformatics, 2016, 32(18):2839-2846.
[27] Li C, Liu Y. Improving named entity recognition in Tweets via detecting non-standard words[C]// Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2015:929-938.
[28] Krishnan V, Manning C D. An effective two-stage model for exploiting non-local dependencies in named entity recognition[C]// Proceedings of the 21st International Conference on Computational Linguistics and the 44th Annual Meeting of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics,2006:1121-1128.
[29] Kazama J I, Torisawa K. Exploiting Wikipedia as external knowledge for named entity recognition[C]// Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2007:698-707.
[30] Li L, Mao T, Huang D, et al. Hybrid models for Chinese named entity recognition[C]// Proceedings of the Fifth SIGHANWorkshop on Chinese Language Processing. Stroudsburg: Association for Computational Linguistics, 2006:72-78.
[31] 張曉艷,王挺,陳火旺.基于混合統計模型的漢語命名實體識別方法[J].計算機工程與科學,2006(6):135-139.
[32] Lample G, Ballesteros M, Subramanian S, et al. Neural Architectures for Named Entity Recognition[J]. Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics,2016:260-270.
[33] Ma X, Hovy E. End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF[J]. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics,2016:1064-1074.
[34] Rei M, Crichton G, Pyysalo S. Attending to Characters in Neural Sequence Labeling Models[J]. Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers, 2016:309-318.
[35] 袁里馳.基于改進的隱馬爾科夫模型的詞性標注方法[J].中南大學學報(自然科學版),2012,43(8):3053-3057.
[36] 孔海霞.基于最大熵的漢語詞性標注[D].大連理工大學,2007.
[37] 袁悅,王東波,黃水清,李斌.不同詞性標記集在典籍實體抽取上的差異性探究[J].數據分析與知識發現,2019,3(3):57-65.
[38] 向營.基于BERT和NLPIR的數學應用題向量化詞性標注[D].華中師范大學,2020.
[39] 王東波,黃水清,何琳.基于多特征知識的先秦典籍詞性自動標注研究[J].圖書情報工作,2017,61(12):64-70.
[40] 王昊奮,漆桂林,陳華鈞. 知識圖譜:方法,實踐與應用[M]. 北京:電子工業出版社, 2019.
[41] 喻雪寒,何琳,徐健.基于RoBERTa-CRF的古文歷史事件抽取方法研究[J].數據分析與知識發現,2021,5(7):26-35.
[42] 張力元,王軍.基于機器學習的古籍目錄互著與別裁探析[J].中國圖書館學報,2022,48(2):47-61.
[43] 范濤,王昊,李躍艷,鄧三鴻.基于多模態融合的非遺圖片分類研究[J/OL].數據分析與知識發現:1-14.
[44] 胡昊天,張逸勤,鄧三鴻,等.面向數字人文的《四庫全書》子部自動分類研究——以Siku BERT和Siku Ro BERTa預訓練模型為例[J].圖書館論壇:1-16.
[45] 陳松.為學作記——從網絡分析和文本分析視角看宋代地方官學碑記的作者與主題[J].數字人文,2020(4):24-72.
[46] 王海灃,鄧柯,陳靜.基于卷積神經網絡的近代報紙廣告圖片聚類方法[J].數字人文,2021(2):50-61.
[47] 秦賀然,王東波.數字人文下的先秦古漢語關鍵詞抽取應用——以《春秋經傳》為例[J].圖書館雜志,2020,39(11):97-105.
[48] 鄭姝雅,黃奇,張戈,等.面向用戶生成內容的本體構建方法[J].情報科學,2019,37(11):43-47.
[49] 吳斌,吉佳,孟琳,等.基于遷移學習的唐詩宋詞情感分析[J].電子學報,2016,44(11):2780-2787.
[50] Mohammad S M . From once upon a time to happily ever after: Tracking emotions in mail and books[J]. Decision Support Systems, 2012, 53(4):730-741.
[51] 張衛,王昊,鄧三鴻,等.面向數字人文的古詩文本情感術語抽取與應用研究[J].中國圖書館學報,2021,47(4):113-131.
[52] 劉瀏,王東波,黃水清.機器學習視角的人工智能研究回顧及對圖書情報學的影響[J].圖書與情報,2017(6):84-95.
[53] 王軍.從人文計算到可視化——數字人文的發展脈絡梳理[J].文藝理論與批評,2020(2):18-23.
[54] Stefan J?nicke. On close and distant reading in digital humanities: a survey and future challenges[EB/OL].[2022-03-15].
[55] R. Ahnert. The Tudor Network[EB/OL].[2022-03-15].
[56] Michel J B , Yuan K S , Aiden A P , et al. Quantitative Analysis of Culture Using Millions of Digitized Books[J]. Science, 331(6014):176-182.
[57] 王兆鵬,邵大為.數字人文在古代文學研究中的初步實踐及學術意義[J].中國社會科學,2020(8):108-129.
[58] 唐云芝.中國人文數據庫建設的新動向——學術地圖發布平臺的建設、功能及其應用[J].浙江大學學報(人文社會科學版),2018,48(3):113.
[59] 計亞男,杜羽. 人文研究數字化:一場方興未艾的變革[N]. 光明日報,2021-10-09(4).
[60] 王曉光,譚旭,夏生平.敦煌智慧數據研究與實踐[J].數字人文,2020(4):11-23.
[61] 夏翠娟.文化記憶資源的知識融通:從異構資源元數據應用綱要到一體化本體設計[J].圖書情報知識,2021(1):53-65.
[62] Knowles,A K. Special Issue: Historical GIS: The Spatial Turn in Social Science History[J].Social Science History,2000,24(3):451-470.
[63] 王濤,陳靜,吳雪映.“數字人文的學術評價體系:定義與規范建構”研討會發言匯編[J].數字人文,2021(1):1-57.
[64] 周耀林,劉晗.數字記憶建構:緣起、理論與方法[J].山東社會科學,2020(8):50-59.
[65] 馮惠玲.數字記憶:文化記憶的數字宮殿[J].中國圖書館學報,2020,46(3):4-16.
[66] Mallik A, Chaudhury S,Ghosh H. Nrityakosha: Preserving the intangible heritage of Indian classical dance[J].Journal on Computing and Cultural Heritage,2011,4(3):1-25.
[67] Carboni N, Luca L D. Towards A Conceptual Foundation For Documenting Tangible And Intangible Elements Of A Cultural Object[J].Digital Applications in Archaeology and Cultural Heritage, 2016, 3(4):108-116.
[68] Adamou A,Hou Y,Picca D,et al.Ontology-Mediated Cultural Contact Detection Through Motion and Style in Southern Chinese Martial Arts.[C/OL]//Proceedings of the International Joint Workshop on Semantic Web and Ontology Design for Cultural Heritage[2022-04-12].
[69] 金家琴,夏翠娟.數字人文在視覺化藝術領域的應用前沿——圖像藝術分析與計算機生成藝術[J].圖書館雜志,2021,40(6):101-109.
[70] 向帆.視覺文獻的視覺化設計——全國美展獲獎油畫作品視覺化工具AwardPuzzle設計探索[J].裝飾,2016(7):92-94.
[71] 向帆,朱舜山.中國家譜樹的繪制實驗報告——基于中國歷代人物傳記資料庫的視覺化實踐[J].裝飾,2018(10):90-93.
[72] Manovich L ,Stefaner M.On Broadway[EB/OL].[2022-04-13].
[73] 陳靜.生成、轉化與知識生產——數字技術與藝術交融的三種路徑[J].藝術理論與藝術史學刊,2019(1):224-238.
[74] Jason Bailey. Can AI Art Authentication Put An End To Art Forgery?[OL]. [2022-04-14].
[75] Goodfellow I J, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C]//International Conference on Neural Information Processing Systems. MIT Press, 2014:2672-2680.
[76] Elgammal A , Liu B , Elhoseiny M , et al. CAN: Creative Adversarial Networks, Generating "Art" by Learning About Styles and Deviating from Style Norms[EB/OL].[2022-04-15].http://www.arxiv-vanity.com/papers/1706.07068/
[77] Stewart V,Patricia H.Special Report: Digital Humanities in Libraries[EB/OL].[2022-08-03].
[78] 肖鵬,衣春波.萬華鏡里的自畫像:關于中國人文學者數字學術認知與需求的質性研究[J].圖書情報工作,2021,65(7):4-14.
[79] Gao D, He L, Liu J, et al. "Construction over operation? A study of the usage of digital humanities databases in China", Aslib Journal of Information Management, 2022(1):1-18.
[80]阮益嫘.讓古籍“活下去"更要活起來”[EB/OL].[2022-08-11].讓古籍活下去更要活起來”