近日,由清華大學(xué)數(shù)字人文團(tuán)隊(duì)歷經(jīng)數(shù)年研發(fā)的“典津:全球漢籍影像開(kāi)放集成系統(tǒng)”正式上線(xiàn)發(fā)布。該公益性平臺(tái)聚合了全球數(shù)百個(gè)數(shù)據(jù)庫(kù)逾70萬(wàn)條中文古籍?dāng)?shù)字資源元數(shù)據(jù),為學(xué)界提供標(biāo)準(zhǔn)統(tǒng)一、開(kāi)放獲取的古籍?dāng)?shù)字影像資源“一站式”集成服務(wù)。
近年來(lái),隨著數(shù)字化技術(shù)的普及,全球眾多圖書(shū)館、博物館及學(xué)術(shù)機(jī)構(gòu)投入巨大力量,將館藏珍貴古籍進(jìn)行數(shù)字化掃描,形成了海量的古籍影像資源。然而,這些資源分布在數(shù)百個(gè)不同的數(shù)據(jù)庫(kù)平臺(tái),著錄標(biāo)準(zhǔn)千差萬(wàn)別,檢索接口各異,訪(fǎng)問(wèn)策略不一。一位研究者若想窮盡獲取某一典籍的數(shù)字化版本,往往需要輾轉(zhuǎn)多個(gè)網(wǎng)站之間,反復(fù)檢索、比對(duì)、記錄,不僅耗時(shí)費(fèi)力,且容易產(chǎn)生遺漏。“‘典津’不僅破解了長(zhǎng)期困擾中國(guó)人文學(xué)界的‘資源孤島’難題,更構(gòu)建起一座連接傳統(tǒng)文獻(xiàn)學(xué)與前沿?cái)?shù)字智能技術(shù)的橋梁,為學(xué)界進(jìn)一步活化利用中華優(yōu)秀傳統(tǒng)文化遺產(chǎn)提供了堅(jiān)實(shí)而便捷的基礎(chǔ)設(shè)施。”項(xiàng)目負(fù)責(zé)人、清華大學(xué)人文學(xué)院教授李飛躍如是說(shuō)。
2023年10月,典津系統(tǒng)發(fā)布初代版本,月訪(fǎng)問(wèn)量逾70萬(wàn)人次,訪(fǎng)客遍及全球150多個(gè)國(guó)家和地區(qū)。此次“典津”系統(tǒng)升級(jí),最核心的突破在于將人工智能深度融入數(shù)據(jù)處理的每一個(gè)環(huán)節(jié),構(gòu)建了一個(gè)全流程AI大模型驅(qū)動(dòng)的智能聚合框架。面對(duì)來(lái)源龐雜、格式不一、質(zhì)量參差的海量原始元數(shù)據(jù),團(tuán)隊(duì)創(chuàng)新性地設(shè)計(jì)了由“原始數(shù)據(jù)層、標(biāo)準(zhǔn)數(shù)據(jù)層、關(guān)系數(shù)據(jù)層、應(yīng)用數(shù)據(jù)層”組成的四層架構(gòu),每一層都由特定的AI智能體集群負(fù)責(zé),形成了一條聚合中國(guó)古典知識(shí)的“智能流水線(xiàn)”。過(guò)去需要數(shù)月手工調(diào)查才能勉強(qiáng)摸清的資源分布情況,現(xiàn)在幾分鐘內(nèi)即可一覽無(wú)余。學(xué)者可以輕松比對(duì)同一典籍在全球收藏的不同版本影像,從紙張、墨色、印章、批校等細(xì)節(jié)進(jìn)行遠(yuǎn)程“目驗(yàn)”,為版本鑒定、文本校勘提供前所未有的便利,彌補(bǔ)了無(wú)法親見(jiàn)原書(shū)的遺憾。由于提供了開(kāi)放、靈活的API接口和子集建庫(kù)功能,該系統(tǒng)實(shí)現(xiàn)了從“數(shù)據(jù)內(nèi)容平臺(tái)”向“知識(shí)生產(chǎn)平臺(tái)”的進(jìn)化,成為一個(gè)重要的上游“數(shù)據(jù)港口”。
清華大學(xué)數(shù)字人文團(tuán)隊(duì)負(fù)責(zé)人、人文學(xué)院院長(zhǎng)劉石曾提出構(gòu)建“中國(guó)古典知識(shí)庫(kù)”的倡議,旨在以存世古籍文獻(xiàn)為基礎(chǔ),突破其原有物理和文本結(jié)構(gòu),構(gòu)建富含實(shí)體、屬性與關(guān)系的宏大知識(shí)網(wǎng)絡(luò),實(shí)現(xiàn)古典知識(shí)的深度組織與智能管理?!氨敬蔚浣蛳到y(tǒng)的升級(jí)發(fā)布,正是邁向這一宏偉目標(biāo)的關(guān)鍵一步。它解決了海量底層數(shù)字資源的智能聚合、標(biāo)準(zhǔn)化與關(guān)聯(lián)化問(wèn)題,為上層知識(shí)抽取、語(yǔ)義關(guān)聯(lián)奠定了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)?!眲⑹f(shuō)。
編輯:李華山