關(guān)聯(lián)數(shù)據(jù)自提出起就快速成為國內(nèi)外的研究熱點(diǎn),但國內(nèi)除國家圖書館和上海圖書館外,還少有這方面的實(shí)踐開展。現(xiàn)通過文獻(xiàn)計(jì)量法、可視化分析對近五年國內(nèi)外關(guān)聯(lián)數(shù)據(jù)的研究情況進(jìn)行梳理,并基于關(guān)聯(lián)數(shù)據(jù)在圖書館領(lǐng)域的應(yīng)用和BIBFRAME模型在書目資源關(guān)聯(lián)化中的應(yīng)用,通過小規(guī)模試驗(yàn)對高校圖書館的書目關(guān)聯(lián)數(shù)據(jù)創(chuàng)建的方向和困難進(jìn)行分析和探討。
關(guān)聯(lián)數(shù)據(jù)(Linked Data)最早是由萬維網(wǎng)發(fā)明者、萬維網(wǎng)聯(lián)盟(W3C)創(chuàng)辦者Tim Berners-Lee于2006年最早提出的。近年來,國內(nèi)關(guān)于關(guān)聯(lián)數(shù)據(jù)的相關(guān)研究持續(xù)增加,關(guān)聯(lián)數(shù)據(jù)在圖情領(lǐng)域的應(yīng)用也逐漸得到學(xué)界的廣泛認(rèn)同,但具體的圖書館館藏資源數(shù)據(jù)的關(guān)聯(lián)化還與國際具有較大差距。
圖情界關(guān)聯(lián)數(shù)據(jù)的發(fā)展與研究情況
自關(guān)聯(lián)數(shù)據(jù)提出以來,圖情界對于其的研究眾多,李朝陽等(2020)通過對國內(nèi)外圖情領(lǐng)域關(guān)聯(lián)數(shù)據(jù)研究論文的分析和研究,認(rèn)為國內(nèi)外在該領(lǐng)域的研究幾乎同時起步,同步發(fā)展,并將2009—2018年分為初始、停滯、爆發(fā)和成熟四個階段,研究內(nèi)容涉及基本理論研究、技術(shù)方法和工具研究、應(yīng)用研究等方面。隨著關(guān)聯(lián)數(shù)據(jù)的概念逐漸被廣泛認(rèn)知,近年來,越來越多的學(xué)者進(jìn)入這一領(lǐng)域的研究中,本文利用Bicomb和Gephi等分析工具,借助CNKI和Web Of Science數(shù)據(jù)庫,對近五年國內(nèi)外該領(lǐng)域的研究文獻(xiàn)進(jìn)行比較分析,包括發(fā)文量、作者及合作關(guān)系、研究機(jī)構(gòu)、關(guān)鍵詞比較等。
數(shù)據(jù)來源
在 WOS 核心集中,以主題詞=(“l(fā)inked data”)OR(“l(fā)inked open data”進(jìn)行)搜索,限定學(xué)科類別“INFORMATION SCIENCE LIBRARY SCIENCE”,限定文獻(xiàn)類型為“論文”O(jiān)R“綜述論文”,得到相關(guān)文獻(xiàn)73篇。
在CNKI 期刊頁面中,以主題詞=“關(guān)聯(lián)數(shù)據(jù)”或者“開放關(guān)聯(lián)數(shù)據(jù)”進(jìn)行精確搜索,篩選文獻(xiàn)分類學(xué)科為“圖書情報與數(shù)字圖書館”,來源類別為“CSSCI”和“北大核心”,得到相關(guān)文獻(xiàn)210篇。
檢索時間為2022年12月7日,發(fā)文年度均為“2018—2022”。
年度發(fā)文量
如圖1所示,近五年來國內(nèi)有關(guān)關(guān)聯(lián)數(shù)據(jù)的研究數(shù)量持續(xù)下降。通過泛讀論文,筆者認(rèn)為其主要原因是理論研究與實(shí)踐推進(jìn)嚴(yán)重脫節(jié)。從發(fā)文內(nèi)容可以看出,國內(nèi)文獻(xiàn)大量集中在概念解讀、理論探討和對國外技術(shù)的介紹上,即使是少部分實(shí)踐內(nèi)容也是以框架搭建、模式設(shè)計(jì)為主,核心源動力的缺失使發(fā)文量持續(xù)走低。
圖1 國內(nèi)外年度發(fā)文趨勢圖
相比來講,國外的相關(guān)研究發(fā)文量緩慢增長,穩(wěn)扎穩(wěn)打,多國對書目數(shù)據(jù)的關(guān)聯(lián)化進(jìn)行了實(shí)踐推進(jìn),并基于此不斷進(jìn)行詞表、代碼和技術(shù)的更新演變。當(dāng)然,統(tǒng)計(jì)口徑和選取標(biāo)準(zhǔn)也是發(fā)文絕對數(shù)量產(chǎn)生差異的一個主要原因,因此此處不對絕對數(shù)量進(jìn)行比較,僅對近五年國內(nèi)外本學(xué)科發(fā)文數(shù)量的趨勢進(jìn)行探討。
作者及合作度分析
通過Bicomb對210篇國內(nèi)文獻(xiàn)及73篇國外文獻(xiàn)的作者進(jìn)行分析,統(tǒng)計(jì)結(jié)果如表1所示。國內(nèi)有2位學(xué)者5年內(nèi)發(fā)文超過10篇,4位學(xué)者發(fā)文數(shù)在5—10篇之間,另有8位學(xué)者發(fā)表4篇,5位學(xué)者發(fā)表3篇,參與寫作的學(xué)者共計(jì)380人;由于搜索總量限制,國外作者整體發(fā)文量較少,有1人發(fā)表3篇,2人發(fā)表2篇,其他198名學(xué)者均為單篇發(fā)文。國內(nèi)作者合作度(一段時期內(nèi)作者總數(shù)/論文總數(shù))為1.81(380位學(xué)者參與寫作210篇文獻(xiàn)),國外作者合作度為2.75(201位學(xué)者參與寫作73篇文獻(xiàn)),整體來講,國外學(xué)者在這個研究領(lǐng)域的科研合作更為緊密,平均每篇文章需要3個人共同完成。
表1 發(fā)文作者統(tǒng)計(jì)表
作者
發(fā)文量
作者
發(fā)文量
陳濤
14
Burrows, T
3
賈君枝
13
Gonzalez, PU
2
夏翠娟
8
Velios, A
2
高勁松
6
Ries, T
1
劉煒
6
Porter, GW
1
肖明
5
Qureshi, NI等
1
國內(nèi)外研究關(guān)鍵詞分析
通過Bicomb共抽取了中文關(guān)鍵詞521個,英文關(guān)鍵詞261個,經(jīng)過篩選、消歧后統(tǒng)計(jì)詞頻較高的關(guān)鍵詞統(tǒng)計(jì)如表2所示,同時利用Gephi進(jìn)行中文文獻(xiàn)的關(guān)鍵詞聚類分析,如圖2所示。
表2 研究熱點(diǎn)關(guān)鍵詞詞頻統(tǒng)計(jì)表
關(guān)鍵詞
出現(xiàn)頻次
關(guān)鍵詞
出現(xiàn)頻次
關(guān)聯(lián)數(shù)據(jù)
95
linked open data
10
數(shù)字人文
30
linked data
6
本體
25
digital humanities
6
BIBFRAME
20
archives
5
知識圖譜
17
semantic web
4
知識組織
17
metadata
4
圖2 國內(nèi)研究關(guān)鍵詞聚類關(guān)系
結(jié)合圖表可見,圖情界關(guān)聯(lián)數(shù)據(jù)的研究熱點(diǎn)大致有6個主要方向,分別為知識組織和知識發(fā)現(xiàn)、數(shù)據(jù)和信息服務(wù)、書目數(shù)據(jù)轉(zhuǎn)換、數(shù)字人文及數(shù)字圖書館、大數(shù)據(jù)及知識庫構(gòu)建、科學(xué)數(shù)據(jù)及科技文獻(xiàn)。其中,對如本體、元數(shù)據(jù)、詞表等基本理論的研究,對基于BIBFRAME的書目數(shù)據(jù)轉(zhuǎn)換,以及基于關(guān)聯(lián)數(shù)據(jù)在圖情領(lǐng)域可以實(shí)現(xiàn)的知識組織、知識服務(wù)、科學(xué)數(shù)據(jù)、知識圖譜等應(yīng)用領(lǐng)域的研究是近五年來較為熱門點(diǎn)的研究內(nèi)容。
關(guān)聯(lián)數(shù)據(jù)在圖書館系統(tǒng)內(nèi)的應(yīng)用
現(xiàn)狀及前景
關(guān)聯(lián)數(shù)據(jù)在圖書館資源管理與服務(wù)中具有明顯優(yōu)勢,可以協(xié)助實(shí)現(xiàn)不同機(jī)構(gòu)資源的聚合和共享,實(shí)現(xiàn)館藏不同類型文獻(xiàn)資的關(guān)聯(lián),實(shí)現(xiàn)數(shù)據(jù)發(fā)現(xiàn)和知識挖掘,并能進(jìn)一步實(shí)現(xiàn)圖書館資源檢索能力的躍升。
但是以上都建立在關(guān)聯(lián)數(shù)據(jù)的理念能落地實(shí)現(xiàn)的基礎(chǔ)上。盡管學(xué)界對關(guān)聯(lián)數(shù)據(jù)的技術(shù)討論和研究非常熱烈,但在實(shí)際應(yīng)用中并未進(jìn)行規(guī)模性推廣,甚至從某種程度來說,關(guān)聯(lián)數(shù)據(jù)的概念還并不為廣大圖書館界從業(yè)人員所知。國家圖書館最新的編目員培訓(xùn)課程仍是對CNMARC進(jìn)行講解和使用,而關(guān)聯(lián)數(shù)據(jù)構(gòu)建和應(yīng)用的推廣并未被提上日程。
國外有許多圖書館將MARC數(shù)據(jù)轉(zhuǎn)換成關(guān)聯(lián)數(shù)據(jù),而在國內(nèi),僅有上海圖書館基于關(guān)聯(lián)數(shù)據(jù)構(gòu)建了開放數(shù)據(jù)平臺,應(yīng)用于圖書館的人文信息描述方面,并開放給大眾使用。中國國家圖書館于2009年啟動“國家圖書知識組織標(biāo)準(zhǔn)規(guī)范”項(xiàng)目,基于數(shù)字圖書館文獻(xiàn)資源描述和組織框架完成了部分知識組織工具與數(shù)字館藏元數(shù)據(jù)的語義化,制定了CNMARC、MARC21與國家圖書館元數(shù)據(jù)核心元素集映射轉(zhuǎn)換指南,但目前其詞表和資源尚無法直接訪問。
2Bibframe在書目數(shù)據(jù)關(guān)聯(lián)中的應(yīng)用
關(guān)聯(lián)數(shù)據(jù)的核心為RDF的三元陳述組,即以主謂賓的形式描述每個元素,并對描述元素進(jìn)行關(guān)聯(lián),從而解決信息孤島的問題。對于書目數(shù)據(jù)關(guān)聯(lián)化的轉(zhuǎn)換,BIBFRAME書目描述框架是一種國際普遍認(rèn)同的框架方式,可以用于取代目前的MARC的書目數(shù)據(jù)格式,以實(shí)現(xiàn)細(xì)粒度、語義性、開放性、向后兼容的資源存儲方式。
BIBFRAME是由美國國會圖書館于2011年5月發(fā)布的新型書目數(shù)據(jù)模型與詞表,它設(shè)計(jì)了一套完整的關(guān)聯(lián)數(shù)據(jù)模型、詞匯、需求與用例,并且提供工具與服務(wù)。與現(xiàn)在使用的MARC相比,BIBFRAME模型可以基于實(shí)體的層次化結(jié)構(gòu)檢索,以細(xì)粒度的語義數(shù)據(jù)進(jìn)行標(biāo)記,實(shí)現(xiàn)書目的開放和關(guān)聯(lián),對非專業(yè)用戶更加友好。
基于高校圖書館的書目關(guān)聯(lián)數(shù)據(jù)發(fā)布實(shí)驗(yàn)
實(shí)驗(yàn)內(nèi)容及意義
高校作為教育研究的主要陣地,一直走在各個學(xué)科探索和實(shí)踐的前沿,而高校圖書館在師生教學(xué)科研的過程中處于核心地位。結(jié)合國際前沿發(fā)展趨勢,對高校內(nèi)的特色型數(shù)據(jù)逐步開始關(guān)聯(lián)化嘗試,為未來這一工作的全面展開做好技術(shù)、人才和戰(zhàn)略上的儲備,是推進(jìn)智慧圖書理念館落地的核心工作。并且,關(guān)聯(lián)數(shù)據(jù)在知識發(fā)現(xiàn)、規(guī)范控制和資源關(guān)聯(lián)方面有著獨(dú)特優(yōu)勢,可以彌補(bǔ)目前各高校科研數(shù)據(jù)平臺在這方面的不足。
本次實(shí)驗(yàn)將結(jié)合首都體育學(xué)院辦學(xué)特色對主題詞為“體育產(chǎn)業(yè)”的相關(guān)書籍信息進(jìn)行關(guān)聯(lián)化實(shí)踐,并利用Open Refine工具實(shí)現(xiàn)關(guān)聯(lián)數(shù)據(jù)發(fā)布,在這一過程中尋找問題,發(fā)現(xiàn)問題,為進(jìn)一步探討和深入實(shí)踐打下基礎(chǔ)。
實(shí)驗(yàn)設(shè)計(jì)與實(shí)驗(yàn)過程
選擇資源
本實(shí)驗(yàn)源數(shù)據(jù)的獲取是通過檢索系統(tǒng),對“體育產(chǎn)業(yè)”相關(guān)的館藏書籍進(jìn)行搜索,并摘取題名、著者、出版方、出版地、出版年、頁碼、尺寸、ISBN號、索書號等進(jìn)行關(guān)聯(lián)數(shù)據(jù)發(fā)布。以上信息既可以幫助讀者對書目形成基本的了解,也可以通過ISBN號對書目進(jìn)行唯一定位,并基于圖書館屬性,幫助讀者在圖書館搜索查找相關(guān)書籍。
數(shù)據(jù)建模
源數(shù)據(jù)包含11項(xiàng)內(nèi)容,其中題名為檢索系統(tǒng)對書籍名稱和著者的描述,方便直接搜索;著者為作者信息,包含作者的出生年代等部分內(nèi)容;出版方為書籍的出版社信息;出版地和出版年分別描述了書籍出版時的地域、年代特征;頁碼和尺寸描述了書籍實(shí)體的物理特征;ISBN號作為書籍的身份證號,可以搜索到唯一的相關(guān)數(shù)據(jù);索書號是讀者到圖書館進(jìn)行實(shí)體書搜索的數(shù)據(jù)依托;SameAs是與上海圖書館數(shù)據(jù)關(guān)聯(lián)的外部鏈接;URI是對應(yīng)的每本書籍的唯一標(biāo)識符。
對以上信息進(jìn)行整理匯總后,使用Open Refine工具導(dǎo)入數(shù)據(jù),根據(jù)數(shù)據(jù)建模及其屬性對應(yīng)的詞表,在工具中添加自定義詞表的URI和命名空間,以及所重用詞表的前綴、類和屬性,并定義類及屬性值的資源類型,從而將數(shù)據(jù)映射到適當(dāng)?shù)念惡蛯傩灾?。書目信息的關(guān)聯(lián)化詞表,在本實(shí)驗(yàn)中主要是用BIBFRAME進(jìn)行定義的,外部鏈接使用的是owl的詞表中的SameAs。
定義URI
由于書目存在同名或者同出版社等情況,而ISBN號無法直接閱讀大致方向,因此本實(shí)驗(yàn)中使用索書號對URI進(jìn)行分配。以《布局與結(jié)構(gòu)區(qū)域體育產(chǎn)業(yè)發(fā)展研究》為例,定義URI的命名空間前綴為http://www.HLibrary.org/org/,并在其后分配索書號G812/41,以備查看時大致了解其類別屬性。
定義屬性、類和值后,使用Open Refine工具生成RDF文檔,并通過https://www.w3.org/RDF/Validator/進(jìn)行可視化和驗(yàn)證。
實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)中,由于中文識別問題,導(dǎo)出的RDF存在大量亂碼問題,可視化和驗(yàn)證的過程中也出現(xiàn)了一定的問題。多次報錯發(fā)現(xiàn)自動生成的RDF文檔中多處存在結(jié)尾句少“<”的問題,這可能是亂碼導(dǎo)致的符號識別錯誤。逐個進(jìn)行修改后,再次驗(yàn)證有效性并生成部分可視化圖形。
本次實(shí)驗(yàn)是對書目數(shù)據(jù)的關(guān)聯(lián)化,尚未對書目之間的關(guān)聯(lián)性進(jìn)行探討,未來可對相同的出版商進(jìn)行統(tǒng)一URI的定義和關(guān)聯(lián),對相同作者也進(jìn)行關(guān)聯(lián),從而進(jìn)一步發(fā)揮關(guān)聯(lián)數(shù)據(jù)在智庫搜索中的作用。
思考與討論
在本次實(shí)驗(yàn)中,筆者通過探究高校圖書館對特色學(xué)科書目數(shù)據(jù)關(guān)聯(lián)化的實(shí)驗(yàn),細(xì)致化體驗(yàn)了一下創(chuàng)建關(guān)聯(lián)數(shù)據(jù)的過程。學(xué)界在談到關(guān)聯(lián)數(shù)據(jù)時,總是探討數(shù)據(jù)關(guān)聯(lián)后可以實(shí)現(xiàn)的種種功能,但就目前來看,關(guān)聯(lián)數(shù)據(jù)的發(fā)展離這一目標(biāo)的實(shí)現(xiàn)還有較大距離。
首先,創(chuàng)建rdfRDF文件的軟件平臺的本地化是第一步,保證生成出來的文檔不報錯、不亂碼,是首先需要解決的問題。;統(tǒng)一工具后的下一步是統(tǒng)一詞表,詞表的復(fù)用非常重要,BIBFRAME的使用雖然與國際接軌化,但是對國內(nèi)許多一線工作人員或許并不友好。就像此前針對MARC數(shù)據(jù)我們要制作對應(yīng)的CNMARK一樣,國家圖書館正在針對這一方面積極建設(shè),相信國內(nèi)通用的基礎(chǔ)詞表很快就會出現(xiàn)。擁有了基礎(chǔ)詞表和軟件平臺,還需要培養(yǎng)一批工作人員對于數(shù)據(jù)進(jìn)行改造和創(chuàng)建,這個過程可能會需要耗費(fèi)大量的人力、物力和時間,初期需要各地各高校分工,對現(xiàn)有圖書、期刊、電子資源進(jìn)行關(guān)聯(lián)化,用統(tǒng)一的平臺和詞表進(jìn)行標(biāo)識,后期主要是數(shù)據(jù)重用和各自對于各自領(lǐng)域的特殊數(shù)據(jù)進(jìn)行輕加工,雖然繁雜但是有序。
總體來講,關(guān)聯(lián)數(shù)據(jù),的確是未來的大勢所趨,但就目前的發(fā)展情況來看,至少在圖書館領(lǐng)域的書目數(shù)據(jù)關(guān)聯(lián)化仍然任重而道遠(yuǎn)。
參考文獻(xiàn)
[1]汪德禹.基于關(guān)聯(lián)數(shù)據(jù)的數(shù)字圖書館碎片化知識網(wǎng)絡(luò)構(gòu)建研究[J].河南圖書館學(xué)刊,2020,40(11):75-76+81.
[2]李朝陽,龐弘燊.國內(nèi)外圖情領(lǐng)域關(guān)聯(lián)數(shù)據(jù)研究比較分析[J].圖書館研究,2020,50(01):50-57.
[3]李晉,張立,王穎,等.基于關(guān)聯(lián)數(shù)據(jù)的圖書館資源管理與服務(wù)研究[J].信息系統(tǒng)工程,2022(09):19-22.
[4]高斌.網(wǎng)絡(luò)環(huán)境下書目信息關(guān)聯(lián)數(shù)據(jù)化的實(shí)現(xiàn)方法[J].圖書館論壇,2022,42(12):110-119.
[5]李一秀.圖書館語義化組織現(xiàn)狀及對策研究——以國家圖書館實(shí)施情況為例[J].新世紀(jì)圖書館,2021(01):57-61+74.
[6]宋琳琳.歐洲國家圖書館BIBFRAME進(jìn)程的調(diào)查與思考[J].圖書情報知識,2020(06):34-43.
Tags:#只此青綠