《中國古典學》第七卷
目録及摘要

出版信息
書名:中國古典學(第七卷)
主編:杜曉勤
執行主編:邵永海
主編助理:雷瑭洵、李林芳
目 録
古典學理論專欄
比較學術史視野下的中國古典學(冼若冰)
數字漢語史學
面向上古漢語辭彙語法研究的平臺建設(邵永海)
中古漢語語料庫若干共性辭彙現象的切分問題(化振紅)
“漢語史標注語料庫”詞類標注方案(動詞部分)(孫洪偉)
上古漢語的語義格系統及其語料庫標注(邵琛欣 李澤棟)
古代漢語標注語料庫(PACC)的析句方法與標注方案簡論(雷瑭洵)
由AI大模型詞義標注反觀古漢語義項分析——以北京大學漢語史標注語料庫及“淵鑒”大模型建設爲例(李泓霖)
大語言模型輔助標注語料庫數據構建的方法研究——以漢語史語料庫爲例(鄭宇熹)
數字古文字學
文本編碼與簡牘學——尋找紙張時代與AI時代的橋梁(陶安)
人工智慧引導人類直覺產生的甲骨新綴第31-40組——兼及殷墟卜辭中的貞人網絡續補(李霜潔)
古籍資料庫建設
談古籍知識庫建設的兩次嘗試(孫顯斌 攸興超)
古籍資料庫的類型轉變與發展方向(唐宸 鄧欣茹)
回應挑戰:數字人文研究的困境與省思(諸雨辰 李紳)
數智時代古典文獻數字人文研究的三種模式(楊浩)
管窺古典文獻學的數據概況、問題意識與新動向——從三例文獻研究個案談起(高樹偉)
數字目録學
基於數字人文方法的數字古籍目録學研究初步結果及構想(俞敬松 鄭宇熹 周子茗)
世界易學知識圖譜構建與傳統文獻編目轉化應用(胡士潁)
數字編纂學
基於LCS演算法和文本聚類的晚明文言小説“編評一體”現象研究——以馮夢龍的文言小說編評活動爲中心(林瑩 王伊寧)
數字校勘學
數字古文獻的校勘通例(李林芳)
數智時代的古籍漢字信息處理規範研究(蘇瑞欣)
編後記(邵永海)
内容提要
比較學術史視野下的中國古典學
冼若冰
内容提要:學界對中國古典學作爲一門學科的討論或多或少都會涉及西方古典學。在比較學術史的視野下,本文就中國古典學的學科界定與學術實踐發表評論。中國古典學的學科界定可以在反“去經典化”與避免學科窄化方面達成某種平衡,其學術實踐則可以規避“破除” —“重建”模式,做到證據與方法並重。中國古典學有潛力發展出細膩的語文學方法論,從而在古典學研究全球化的時代,爲其他古代學科提供有益參考。
關鍵詞:中國古典學 西方古典學 比較學術史 語文學方法論 “二重證據法”
面向上古漢語詞彙語法研究的平臺建設
邵永海
内容提要:面向上古漢語詞彙語法研究的互動式檢索平臺是提供以詞爲單位的形、音、義以及詞類、句法信息的古漢語語料標注檢索平臺。該平臺依託高校人文社會科學重點研究基地重大項目“基於上古漢語語義知識庫的歷史語法與詞彙研究”,試圖充分利用計算機深度挖掘語言規則;借助人工智能算法的學習能力訓練計算機自動分詞、標注詞類、語義、句法關係等能力;進而提供全方位的關於漢語詞彙和語法系統共時與歷時面貌的知識檢索。本文介紹該平臺建設的背景、原則和目標,以及未來發展的瞻望。
關鍵詞:上古漢語詞彙語法研究 語義知識庫 PACC
中古漢語語料庫若干共性詞彙現象的切分問題
化振紅
内容提要:中古語料庫分詞過程中,爭議最大的共性詞彙現象包括:處在凝固階段的詞語,同義連文,意義不同的同形詞語,不存在轉義的高頻詞語,帶有外來語成分的詞語,離合詞,四字格形式的詞語。這些詞語成分的切分,可以借鑒現代漢語語料庫的部分規則,也要充分考慮中古詞彙的共時和歷時特點,適當兼顧分詞操作過程的便利性以及其他學科的用户需求。本文着重討論了影響中古語料庫詞語切分的多種因素,與中古語料庫詞語切分有關的中古詞彙特點,已經建成的現代漢語語料庫存在的分詞規則問題。在此基礎上,結合中古漢語語料庫分詞實踐中的典型案例,擬定了針對部分共性詞彙現象的分詞規則,幷從漢語詞彙學、詞彙史等角度進行了相應的理論闡釋。
關鍵詞:語料庫 分詞單位 同義連文 四字格 分詞規則
“漢語史標注語料庫”詞類標注方案(動詞部分)
孫洪偉
内容提要:本文是北京大學“漢語史標注語料庫”上古漢語部分詞類標注環節的説明。總體介紹詞類標注工作的基本原則與方法。並以情況最爲複雜的動詞部分爲例,先詳細説明動詞作爲一級詞類,與功能或詞義上有糾葛的形容詞、介詞和副詞互相區分的標準;再介紹動詞下屬二級詞類的分類方案,説明各二級詞類的判定標準以及一些特殊情況的處理方法。
關鍵詞:北京大學“漢語史標注語料庫” 上古漢語 詞類標注 動詞
上古漢語的語義格系統及其語料庫標注
邵琛欣 李澤棟
内容提要:語義格呈現的是謂詞與其直接關聯的體詞性成分之間的語義關係,這種語義關係的描寫和確定是上古漢語謂詞句法語義研究工作的重要組成部分。在已有的現代漢語語義角色系統研究基礎上,我們結合上古漢語的特點,遵循“一句一例”及“直接關聯”等原則,構建了具有層級性和連續性的上古語義格系統,包含7個語義格(一級角色)和26個語義格變體(次級角色),並對每種語義格及變體做出定義和典型句法特徵的描寫,據此對《論語》文本進行了手動標注。標注工作中遇到的語法指標不明確、詞義與結構義的混淆、語義關係的多重解釋等問題,我們也給予了相應的解決方案。平臺目前能夠呈現出和句法樹及詞典釋義相匹配的語義格標籤,也期望未來能夠以某種方式呈現出以謂詞爲核心的語義格框架,並逐步實現計算機自動標注。
關鍵詞:上古漢語 語義格 語料庫 標注
古代汉语標注語料庫(PACC)的析句方法与標注方案簡論
雷瑭洵
内容提要:句法結構是古代漢語標注語料庫的一項標注内容。由於上古漢語的特性,僅僅標注詞類信息的古漢語語料庫尚不足以支撑複雜的句法分析,必須要引入句法結構的標注。句法結構的標注方案需以古漢語的析句方法作爲學理支撑。本文介紹“北京大學漢語史標注語料庫”中的上古漢語語料的析句方法以及相應的標注方案。
關鍵詞:標注語料庫 PACC 語法分析 標注方案
由AI大模型詞義標注反觀古漢語義項分析
——以北京大學漢語史標注語料庫及“淵鑒”大模型建設爲例
李泓霖
内容提要:詞義的定義與劃界是語言本體研究和辭書編纂實踐中的重要問題,不同理論嘗試通過各種檢驗手段對此作出回答,但始終無法回避詞義“多義—模糊”範疇連續的客觀事實。本文借鑒Langacker的圖式框架,提出詞義研究需關注共時、歷時與語境三重維度。其中,如何利用新技術刻畫詞義的歷時演變尚有許多值得探索的空間。本文立足北京大學漢語史標注語料庫的構建過程,聚焦古漢語大模型詞義標注任務的評測結果,結合具體案例提出AI大模型詞義標注偏誤能夠提示辭書義項設置中幾類較常見問題。本文提出,將計算機技術與古漢語專家知識、辭書知識相結合,既可更加全面、高效地處理語料,促進辭書釋義的精確化、相對客觀化;也能爲漢語史詞彙研究帶來新問題,提供新思路。
關鍵詞: 大模型 詞義標注 多義 模糊 偏誤分析
大語言模型輔助標注語料庫數據構建的方法研究
——以漢語史語料庫爲例
鄭宇熹
内容提要:構建標注語料庫面臨着標注體系複雜、人工標注成本高昂及標注一致性難以保障等諸多挑戰。大語言模型技術的發展爲解決上述問題提供了新契機。本文對使用大模型進行語料庫標注的優勢進行了探討,並以漢語史語料庫的詞類、詞義和語義角色標注任務爲例進行了一系列實驗。實驗表明,大語言模型在少量訓練數據下能夠顯著提升標注效率並保證標注的一致性。研究證實了大語言模型在標注語料庫構建中的應用潛力,並提出了包括引入更多相關知識和明確標注規則在内的微調方法。
關鍵詞:標注語料庫 自然語言處理 大語言模型 詞義標注 詞類標注 語義角色標注
文本編碼與簡牘學——尋找紙張時代與AI時代的橋梁
陶安
内容提要:小文先分析傳統簡帛學的典型信息處理方式,並對TEI(Text Encoding Initiative)協會所編的文本編碼指針以及編碼技術的發展做一些回顧和總結。然後在此基礎上嘗試用TEI文本編碼翻刻簡帛學内在的標記語言,通過賦予機械可讀性,實現翻刻工作的自動化,以避免簡帛學特有的信息體系在AI技術普及以及載體刷新的過程中被淘汰而永遠消失。
關鍵詞:文本編碼 人工智能 機械可讀性 簡帛學 書寫載體
人工智能引導人類直覺産生的甲骨新綴第31-40組
——兼及殷墟卜辭中的貞人網絡續補
李霜潔
内容提要:本研究運用“知微綴”,以人工智慧引導人類直覺的交互方式,帶動研究者高效地發現新的甲骨綴合。本文選介其中第31—40組,並根據新綴成果,繪製了最新的“甲骨卜辭貞人共版網絡圖”及“甲骨卜辭貞人共版矩陣—熱圖”。
關鍵詞:人工智慧 “知微綴” 甲骨 拼綴 貞人共版網絡
談古籍知識庫建設的兩次嘗試
孫顯斌 攸興超
内容提要:古籍數字化工作目前亟需加强基礎設施建設,這部分由古籍目録庫、古籍圖文庫和古籍知識庫三部分組成。目前古籍圖文庫發展比較突出,而古籍目録庫和古籍知識庫的建設則比較落後。這裏我們回顧了十五年前北京大學數據分析研究中心建設的古籍目録庫和古籍知識庫兩個超前實例,回應近期古籍數字化工作的發展趨勢。
關鍵詞:古籍知識庫 本體 語義網 資治通鑑知識服務系統 中國歷代典籍總目系統
古籍數據庫的類型轉變與發展方向
唐宸 鄧欣茹
内容提要:傳統古籍數據庫可分爲版本型和目録型兩大類型:版本型可細分爲影像數據庫(含聯合性、單館性、專題性)和檢索數據庫(含通用性、專題性);目録型可按時代細分爲古代目録和現代目録數據庫,按類型細分爲單目呈現和群目聚合數據庫。群目聚合數據庫是傳統類型古籍數據庫中結構化特徵最鮮明的代表。數字人文時代涌現出的新式古籍數據庫可分爲關係型、時空型、圖譜型和生産型,其中關係型可細分爲文本關係和社會關係數據庫,時空型可細分爲地理空間、天文空間和曆法時間數據庫,圖譜型可細分爲群書性和專書性圖譜數據庫,生産型則可細分爲文本識别、智能標點、智能標注、智能翻譯和流式任務等類型。與此同時,古籍數據庫的利用途徑也發生了深刻變化,開始從分類導航向開放聚合轉變,而在人工智能技術興起之後,又開始從常規查詢向智能交互發展。
關鍵詞:古籍數據庫 類型轉變 數字人文 人工智能
回應挑戰:數字人文研究的困境與省思
諸雨辰 李紳
内容提要:數字人文是時下熱門的交叉學科,在“大數據”“大模型”的驅動下蓬勃發展。然而,數字人文也在遭遇傳統人文學者的挑戰,在算法工具的必要性、研究結論的可驗證性、大模型的“黑箱”特性、甚至數字人文研究的合法性等方面,都面臨著尖鋭的批評。爲了彌補數字技術與人文研究之間的裂痕,人文學者在參與數字人文研究時必須更積極地介入。在特徵提取、方法選擇、參數調整等過程中,充分調動人文知識與閲讀經驗,超越工具主義困境。而對數據統計的結果也需要建立數字人文的闡釋循環,通過反復地“遠讀建模”與“細讀發現”,讓數字人文真正有所作爲。
關鍵詞:數字人文 合法性 方法選擇 闡釋
数智时代古典文献数字人文研究的三种模式
楊浩
内容提要:數智時代,以光學字符識别、自然語言處理、知識圖譜及大語言模型爲核心的數字技術正深刻變革着古典文獻的研究範式。本文歸納出三大核心研究模式以推動此轉型:首先是“演算法驅動的互文性研究”,運用演算法系統性掃描和量化文本間的徵引、影響等關係,實現從局部比對到全局關聯的轉變;其次是“AI賦能的文本分析研究”,利用大模型輔助理解文本深層結構與内涵,探索人機協同的解讀與假設生成;第三是“基於大模型的數據抽取”,通過提示工程或模型微調從非結構化文獻中高效提取結構化信息,爲量化分析和知識發現奠定基礎。這些模式旨在顯著提升研究效率、客觀性和規模,促進研究從“細讀”、“遠讀”邁向更高階的“智能讀”。
關鍵詞:大語言模型 研究模式 互文性研究 文本分析 數據抽取
管窺古典文獻學的數據概况、問題意識與新動向
——從三例文獻研究個案談起
高樹偉
内容提要:古典文獻學的一個重要研究目標,是充分運用版本學、目録學、校勘學等研究方法,重建典籍成書或傳播過程中的微觀歷史現場,對典籍文本做定性判斷,這是中國古代相關研究工作的基礎。古籍數據、研究工具、提問方式的變化,正在塑造文獻研究的新面貌。《永樂大典》與《韵府群玉》事目的關係、《紅樓夢》靖藏本真僞、《棗窗閑筆》收藏者裕頌廷生平,這三例研究個案從不同側面呈現了目前文獻學領域的數據概况,以及提問、搜索、數據三者之間的關係。古籍、近現代中文圖書的數字化,仍面臨數據不足、相對封閉、標準混亂、功能限制等問題,對具體研究造成了不同程度的影響。在文獻學數字化轉型的當下,亟待研究者參與古籍數字化、研究工具的建設。
關鍵詞:文獻學 古籍數據庫 問題意識 學習型搜索 正則表達式
基於數字人文方法的數字古籍目録學研究初步結果及構想
俞敬松 鄭宇熹 周子茗
内容提要:在數字人文研究的視角下,古籍目録數字化面臨諸多挑戰。傳統古籍目録的編纂通常着重於圖書的整理與分類,以及在藝文志等文獻中的登載記録,缺乏對古籍從撰寫、傳抄到印刷流傳過程的全面梳理,也未能深入揭示多元責任者的角色與貢獻。現代圖書館學非常注重文獻引證,但在中國古籍目録學研究中尚未有大規模實踐。本文以“品種—版本—藏品”古籍書目數據模型爲基礎,結合大語言模型,對海量目録數據及超過五萬種的海量數字化文獻進行精細化標注與解析,實現多維度數據的結構化整合與處理。我們的研究可基於多來源的知識庫進行多屬性檢索、排序及篩選等操作,爲研究者提供智能的書籍關聯及相互間關係提示,不僅有助於古籍目録編纂,還能深入挖掘古籍在歷史與知識體系中的演化脈絡,揭示文獻間的複雜關聯,爲古典學研究開拓基於數字人文視角的更廣闊視野。
關鍵詞:古籍目録 古籍元數據 數字人文 數字古籍目録學
世界易學知識圖譜構建與傳統文獻編目轉化應用
胡士潁
内容提要:《1872—2015易學總目》歷經十餘年出版,是專科目録文獻的精良之作。它是目前易學研究文獻目録中最爲全面、系統之成果,能夠以目録的形式詳盡反映該時期易學研究成果、内容和發展。基於此,結合數智技術,可進行世界易學知識圖譜建設,對傳統編目、出版成果實現更爲高效地文獻資源管理、利用和挖掘,使得傳統文獻目録向數字化、智慧化進一步轉化、提升和拓展,在易學知識體系、數字人文與傳統文獻編目、古典學術研究與數字時代等方面做出重要探索。
關鍵詞:目録學 數智技術 易學總目
基於LCS算法和文本聚類的晚明文言小說“編評一體”現象研究
——以馮夢龍的文言小説編評活動爲中心
林瑩 王伊寧
内容提要:晚明文言小説“編評一體”現象,指文言小説的類目設置和篇目歸類,或多或少寄寓了編者的批評傾向;編者可將同一文本録入不同小説選集,並根據選集定位編訂作品、增删評語,實現正文與評點的配合。鑒於馮夢龍文言小説編評活動豐富而自覺,以LCS和文本聚類爲技術路徑,可以篩選、匹配經馮氏之手的文言小説及其來源書籍中的相似篇目,復經系統比對,梳理其編評實踐和理念,並以此爲中心探究“編評一體”的理論内涵。
關鍵詞:文言小説 馮夢龍 評點 編評一體 評改一體
數字古文獻的校勘通例
李林芳
内容提要:數字古文獻在流傳過程中也會發生文本變化情況,並導致訛誤現象的産生,故而有必要從校勘學之校勘通例的角度分析,以觀察其中規律性的因素,便於寔正訛誤,且有助於數字古文獻的製作與利用。通過考察數字古文獻的生成傳播途徑,共可總結出以下通例,包括因字符編碼而導致的訛誤,因字體文件而導致的訛誤,因輸入法編碼而導致的訛誤,因繁簡轉换而導致的訛誤,因OCR識别而導致的訛誤,因拍照掃描而導致的訛誤,因編排而導致的訛誤,因圖像存儲、轉换、處理等而導致的訛誤,因其他原因而導致的訛誤。
關鍵詞:數字古文獻 校勘通例 訛誤 古籍數字化
數智時代的古籍漢字信息處理規範研究
蘇瑞欣
内容提要:漢字信息處理及其規範化研究不僅關係到古籍語料的構建質量、古籍語料構建技術的進展,更是實現文化傳承數字化的基礎性工程。通過分析古籍中漢字的客觀情況、現有規範及研究成果情況、古籍數智化基礎技術研發對漢字信息處理規範的需求,探究數智時代,漢字規範研究在爲古籍數智化提供理論支撑與方法論指導的層面上所面臨的問題,提出可能的解決方案。
關鍵詞:古籍 數字化 智能整理 漢字 字符集
內容來源:《中國古典學》第七卷
編輯:趙雅琪
校對:蔡千千
審核:杜以恒