2024年11月30日至12月1日,“AI时代中国古典学的挑战与展望”学术研讨会在北京大学中文系召开。本次会议由北京大学中国语言文学系、北京大学中国语言学研究中心、北京大学数据分析研究中心、北京大学人文学部联合主办,来自日本明治大学、中国科学院、中国社会科学院、北京大学、清华大学、北京师范大学、同济大学、中山大学、大连理工大学、安徽大学、陕西师范大学、闽南师范大学、北京第二外国语学院、微软公司、中华书局古联公司的34位学者参加会议并发表论文。会议共设主旨报告6场,有“中国古典文献研究”“中国古代文哲研究”“中国古代语言研究”三个分论坛,与会学者围绕AI时代数字人文研究的基础设施、技术路线、数据库建设、可视化方案等对中国古典学研究的多个课题展开了深入交流。借助本次会议的机会,数据分析研究中心还向学界介绍了新开发的“汉语史标注语料库”和“渊鉴古汉语大模型”。
会议现场
开幕式由北京大学中文系助理教授李林芳主持,北京大学中文系副主任宋亚云致欢迎辞。他指出,技术不仅成为人文学科重要的研究工具,在一定程度上改变了既有的研究范式,对未来学术研究的形态、架构、方式等产生了深远影响。这对于中国古典学这样一门既古老又日新的学科而言,既是重要机遇,也是重大挑战。本论坛以“AI时代中国古典学的挑战与展望”为主题,直面挑战,展望未来,意义重大,令人期待。
宋亚云致辞
北京大学中文系教授邵永海在致辞中指出,AI技术的发展与应用不仅提高了人文科学研究的工作效率,更新了人文学科研究理念、内容与手段,而且正在重塑研究范式,拓展新的人文研究领域。因此,中国古典学研究应该及时应对AI时代的挑战,融合AI技术。由此,从数字化资源、古文字形体库等基础性建构方面提出了AI深度介入古典学研究的方法与案例。他提出希望能够借此机会,会聚同道,共同探讨AI时代古典学各学科领域的研究范式可能发生的变革,展望学科本体视角下AI技术运用的可能性与必要性。
邵永海致辞
致辞之后,与会学者在中文系门口合影留念。
合影
一、北京大学汉语史大模型、标注语料库发布式
北京大学汉语史大模型、标注语料库发布式由北京大学中文系助理教授雷瑭洵主持。
邵永海首先介绍“北京大学汉语史大模型、标注语料库建设理念”,他先聚焦于汉语史研究的现状与问题,指出词汇与语法系统研究成果的可信度在学界缺乏广泛的共识,无法作为从不同理论视角对汉语历史语法展开多维度研究的基础性工作。随后剖析了汉语史研究的语料问题,指出汉语史语料是数量有限的文献语料,具有封闭性,同时又属于言语材料性质,而研究者无法通过内省法检验语法规则。他认为解决以上问题,需要对各种语言现象作定性定量的精细化描写;而利用计算机辅助人工研究,可以作为该项研究的有效手段。
邵永海指出,北京大学汉语史大模型和标注语料库建设,需要充分利用计算机深度挖掘语言规则;借助计算机的学习能力训练计算机自动分词、标注词类、语义、句法关系等。接着,他提出了面向上古汉语词汇语法研究平台的三项基本原则,第一,明确建设宗旨:服务于汉语历史词汇语法研究;第二,平台建设选择半监督的策略,通过构建语义知识库、人工标注一定数量的文献,为整个工程打下基础,以之训练计算机理解和分析上古汉语语料的能力;第三,兼顾共时和历时的研究,汉语历史词汇语法研究分不同时间层次进行,现阶段主要着力于先秦汉语语义知识库建设及古汉语语料的句法、语义、语音信息标注,于诸方面展开全面深入的工作。最后他展望了运用汉语史标注语料库和大模型进行古汉语研究的前景,指出这将是汉语史研究范式的重大转折,也是汉语史研究在AI时代的必然选择。
邵永海报告
北京第二外国语学院教师万群介绍了“北京大学汉语史标注语料库”的性质与特色。“汉语史标注语料库”(PACC)是服务于汉语史研究的大型电脑语料库,标注信息吸纳了建设团队和学界的相关研究成果。万群展示了语料库的基本检索功能,如文本用例与词项、词类、语义角色等基本标注信息检索、语法高级信息检索与基本数据统计功能等,并提到了语料将分期上线。万群强调,语料库的建设可以为汉语史研究提供强大助力,通过语料库的建设和应用,可以更为便利地存储、调用和分析古汉语信息。万群进一步介绍了语料库的多个功能,包括典籍精校分词、分句、分篇文本,精细标注的古汉语形音义、可视化的句法树等,可以体现古汉语字词关系、音义关系、句法语义关系,为研究者提供了强大的工具。
万群报告
北京大学中文系博士生郑宇熹介绍了服务古典学研究的“渊鉴”古汉语大语言模型及其建设历程、建设需求分析、设计思路、应用案例、现状分析与服务于研究的古汉语大模型研究者共建平台的畅想。“渊鉴”古汉语大模型由邵永海教授和软件与微电子学院俞敬松教授联合主持,中国语言文学系教授詹卫东和助理教授雷瑭洵等提供指导,郑宇熹和周子茗等同学参与建设。该模型旨在运用人工智能技术,为古典学研究提供强大的语言分析和知识挖掘工具,推动古典文献的深度解读和跨学科研究。依托北京大学深厚的学术底蕴和先进的科研实力,“渊鉴”古汉语大模型将不断迭代升级,研究团队致力于将其打造成为古典学研究领域的智能引擎。
郑宇熹报告
中国社会科学院语言研究所教授赵长才分享了对“北大汉语史标注语料库”和“汉语史大模型”的测评意见。从整体上看,汉语史标注语料库在多个方面对汉语史研究者和学习者提供了重要帮助。栏目设置充分考虑到了专业研究者和一般用户的各类需求,具有合理、全面、准确的特点。标注语料库的设计反映了开发者的研究理念,吸收了汉语史研究的最新成果,对各种层次的用户都比较适用。通过对目前上线的《论语》的测试,赵长才指出,在文本检索中,形音义检索、语法检索、语义角色检索等功能都具有良好的性能,能够很好地满足专业研究人员的研究需要。测试中也存在一些今后可以改进和完善之处,比如字词关系辨析内容放置的位置不够统一,有些常见字的栏目不全等。汉语史大模型对各类文体的文言作品翻译处理得比较通畅、准确;对字词理解、基本语法项目、百科知识等都能够给出要点,可以满足用户的需求,但偶有不稳定的情况出现。
赵长才报告
北京大学中国语言学研究中心主任、中文系教授郭锐,北京大学中文系教授胡敕瑞分别发言,对目前所作的数据库和大模型的情况表示肯定,感谢本项目的各方参与者,希望在具有前瞻性和前沿性特点的基础上,进一步开拓新的研究,达到“前修未密,后出转精”的效果。
郭锐发言
胡敕瑞发言
二、主旨演讲
六场主旨演讲由邵永海、万群主持。
北京师范大学文学院院长、教授**,北京师范大学文学院博士生李绅共同演讲,题目是“‘AI太炎’古汉语大语言模型自动注译功能‘偏误’及其矫正策略”。在介绍研发“AI太炎”的过程之后,**梳理了“AI太炎”遇到的四个方面的常见问题:文本对应问题、词义理解问题、句间关系问题、古汉语专业知识问题,提出了增加多样性的文本、进一步扩大AI知识面等矫正策略,以有针对性地解决上述问题。李绅阐述了矫正策略的细节,并对未来提高数据的利用效率与处理效率、优化模型算法和迭代流程等方面做了展望。
王立 军演讲
李绅演讲
北京大学软件与微电子学院教授俞敬松演讲的题目是“数字人文视域下的古籍智能化整理与应用探索”。在介绍北京大学瀚典知源数字人文研究团队围绕古籍整理的智能化所作的系统性探索之后,俞敬松提出,工作应从数字人文基础建设入手,致力于构建从古籍书影采集到文本语义化处理的完整路径,完善解词明义所需的知识体系,服务于古籍校对整理工作,并开发相应的目录整理与文献检索服务。在这个思路指导下,团队推进了古籍智能化处理的模型与算法研发,包括OCR能力建设、专项小模型开发和古汉语大模型训练,始终坚持以服务古籍整理为导向、注重人机协作的发展理念。此外,团队还以西夏文献为突破口,在低资源语言的数字化处理领域进行了OCR识别和机器翻译的创新性探索。
俞敬松演讲
中国科学院自然科学史研究所研究员孙显斌演讲的题目是“谈古籍数字化的基础设施建设”。孙显斌指出,古籍目录库、古籍图文库与古籍知识库是古籍数字化三大基础设施。这其中存在本体与知识管理的问题,数字人文应过渡到本体化、知识化的阶段。许多数据库缺少导航和目录,多有不便,提出应当加强古籍目录库与古籍知识库的建设。报告中还回顾了以往的古籍目录库项目,同时介绍正在开发中的中国历代典籍目录总库的设计与实现。
孙显斌演讲
明治大学法学院教授陶安演讲的题目是“文本编码与简牍学——寻找纸张时代与AI时代的桥梁”。陶安首先分析了秦始皇时代的司法文书不只有文字,还包括许多符号,之后梳理了TEI(Text Encoding Initiative)的简史,再回顾了简帛学典型的信息处理方式,从而为简帛学的信息体系建构个性化的编码方案。提出通过赋予文本机械可读性,可以避免其在技术普及以及载体刷新的过程中被淘汰。
陶安演讲
清华大学人文学院教授李飞跃演讲的题目是“《红楼梦》‘钗黛合一’问题的文本探勘与可视化分析”。《红楼梦》文本的计算分析是数字人文实践较早且有代表性的课题,除作者判定外,利用“编辑距离”“词袋模型”“doc2vec”与“LDA主题模型”,筛选出《红楼梦》化用的唐代诗句及其文本来源,可探究作者的阅读经验、知识来源及与《红楼梦》诗意风格的生成关系。钗黛二人的形象塑造不仅关系到她们与贾宝玉的情感命运,还关系到《红楼梦》的叙事结构与主题寓意。以往她们形象的分析多为文本细读,在构建专题语料库的基础上,借助文本相似度比较分析了二人的神态特征、言语动作和形象描写,发现具有较强互补性。根据情节与情感的可视化分析,发现随着回目和情节推进,二人情感由对立趋于一致,体现了明显地相反、相合与相成关系。基于数字人文的文本探勘与可视化“远读”方法,有助于我们重新认识钗黛形象的互补性与一致性,以及《红楼梦》创作或删改中的情节线与人物设计。
李飞跃演讲
李林芳演讲的题目是“数据分析研究中心数字资源的建设实践与未来展望”。李林芳介绍了数据分析研究中心的整体情况,并回顾了建设数据资源共享平台的始末。因数字资源数量和质量上的不断增长,移动办公情况的增多,合作、交叉、共享理念的深入人心,数字人文相关教学和研究的进展需求,数据分析研究中心于2022年起开展了数字资源的建设实践,具体包括以下内容:数字资源的汇集,存储系统的搭建,网络系统的架设,并建成了专门的数字资源共享平台。为服务于系内教学科研的需要,在既有资源的基础上,平台内进一步集成了专门项目,包括数字助教、微型实验室、其他重要站点等。在未来,中心计划进一步与教学科研充分联系,并与人工智能相结合,打造更适合学科发展及师生使用的数字平台。
李林芳演讲
三 、分论坛一
分论坛一“AI时代下的中国古典文献研究”由同济大学人文学院助理教授林莹、北京师范大学文学院博士生李绅主持。
清华大学人文学院写作与沟通教学中心副教授严程报告的题目是“女性文献的复归:数字时代古典学新变一隅”。数字方法有利于对女性文学的再发现,通过《国朝列女诗录》、《满洲闺阁诗抄》等例,指出清代女性文学作品的收集不够全面深入。借助数字人文的手段,重拾书写传统,建设女子艺文资料库很有必要。“女子艺文资料库”图像可检索版目前收录清代女性著作、诗文集共1077种,均可在线阅读,并即将与识典古籍项目联合推出图文对照版本,其中包含实体标记、信息聚类、关系抽取等功能,使文献由零散素材变为绘制女性群像的依据。报告还提出:经典也可以是非书写的,以女性的古典传统为例,绘画、弹词、刺绣、乐舞等都可以反映女性记忆,未来也将通过数据方式将这些多元文献纳入资料库。
严程演讲
安徽大学文学院副教授唐宸报告的题目是“全球汉籍影像数据聚合的应用实践与AI前景”。报告首先介绍了建立“奎章阁”等数据库的背景与经验。最新研发的“全球汉籍影像开放集成系统”首次实现了全球古籍影像数据的初步聚合,为文献学研究构筑了基础设施。在文献学与数字人文深度融合的背景下,该系统对于版本学研究从“备具众本”向“备具印本”的转型起到了推动作用。该系统即将进行功能升级,使得学者可以通过API快速调取所需的版本,甚至衍生出专题数据库。
唐宸演讲
闽南师范大学物理与信息工程学院副教授吴泓润报告的题目是“郑氏集团的复杂网络及其动态演化——以江日升《台湾外记》为中心”。报告探讨了运用人工智能领域的深度神经网络模型和文心一言大语言模型对江日昇所著《台湾外记》进行深入文本分析和数据挖掘的方法。研究从政治、地理和军事三个维度剖析了文本中蕴含的复杂网络结构。分析结果揭示,郑氏家族的政治网络呈现出幂律分布特征、内部联系的紧密性和整体网络的稀疏性;交通网络分析突出了厦门、台湾和漳州等闽南城市作为交通枢纽的核心地位,显示了郑氏对沿海水上交通的依赖与控制;军事网络则展现了郑氏在沿海地区的军事战略布局。此项研究不仅为理解郑氏家族的历史崛起及其深远影响提供了新的视角,也促进了历史文化研究与计算科学的交叉融合,为历史文化研究提供了新的分析工具和视角,同时也展示了AI技术在人文学科研究中的潜力和应用前景。
吴泓润演讲
北京大学人工智能研究院副研究员杨浩报告的题目是“智慧古籍平台与大众传播”。报告首先介绍了“识典古籍”项目,其中整理平台已实现版面图像与文字相互对应、自动分段、自动标点、古籍翻译、辅助文本校对等功能,一些重要的古籍已经进行了翻译工作。此外,还实现了对古籍中实体关系的可视化。之后,杨浩介绍了“我是校书官”大众整理活动,该活动得到了全国高等院校古籍整理研究工作委员会的支持,联络到了上千所高校的学生进行古籍文本的校对工作,还衍生出相关课程的建设,取得了丰硕的成果。
杨浩演讲
微软公司工程师王荀报告的题目是“大语言模型在古籍整理中的应用、挑战和分析”。报告首先介绍了大模型应用的流程,提出古籍需要有专业的大模型。关于大语言模型在专门领域的适应,需要对专有材料进行更多的训练,需要领域指令的微调,之后进行人工强化的训练。第一步是音形义俱全的字的表示,第二步是合成数据。因为数据集不够大,所以需要进一步地合成新的数据,筛查数据质量,同样的信息可以用不同的方式进行处理。之后,有些海外资料库的内容还需要再进行一次微调,进行高质量数据重用,使模型倾向生成高质量的文本。之后,报告介绍了探索过程中未能解决的问题,如文本格式不统一、读音的变化、通假字、时间跨度大、词义发生变化等。究其原因,主要是高质量的数据不足、模型架构本身不适合汉语(特别是古文)的分析等。
王荀演讲
古联(北京)数字传媒科技有限公司工程师苏瑞欣报告的题目是“古籍整理出版中AI的应用潜力与挑战”。报告以明代集部文献的整理和出版项目为例,首先介绍了明代集部文献的总体情况和文献整理项目所需的技术:OCR校对、古籍自动校勘、古籍书目分析以及古籍标点整理。围绕明人集部文献多异体字的情况,建立了古籍用字的字库支持以及特殊字形的输入法,提供古籍自动标点的工具,准确率比较高。采用多流程众包任务管理的方式,进行了专题实训营的招募,使用了人工审核的方法,招募了校对,并为实训营项目单独制作了管理平台。
苏瑞欣演讲
北京大学中文系博雅博士后高树伟报告的题目是“古典文献学的数据概况、问题意识与新动向”。报告以《红楼梦》靖藏本辨伪、历代类书之间的承袭关系等研究个案为例,大致勾勒出古籍和现当代中文图书的数据概貌,引出了目前古典文献学领域面临的诸多机遇和挑战。他还展示了如何以明确的问题意识牵引,按需数字化文献,迭代搜索,细致追溯、还原文本变化的历史场景。他指出,当下古籍数字化仍面临数据不足、标准混乱、自我封闭等问题。在知识媒介迅速转换的当下,亟待考虑如何将古典文本从纸本载体充分离析出来,古典文献学领域的研究者应以对古典文本最为切近的理解积极参与古籍数字化事业。
高树伟演讲
四 、分论坛二
分论坛二“AI时代下的中国古代文哲研究”由唐宸、吴泓润主持。
北京师范大学文学院副教授诸雨辰、博士生李绅报告的题目是“中国古代诗歌的时代风格分类研究”。报告指出,诗歌风格自动分类大模型相比于人工有更好的识别能力。在模型的辅助下,可以发现“元代诗歌主流风格为宋诗”“明代吴中派风格近宋远唐”等各朝代诗歌风格的细节。在回顾大模型具体构建情况之后指出,该模型可以准确地描写诗歌间的相似度,通过观察得到的诗歌类型数据,可以探索诗歌风格在前后七子诗歌中的分化,验证“康熙中叶始尚宋诗”“南宋取法晚唐”的论点,判断和每位诗人风格最为类似的诗人。诗歌相似度记录也有助于诗句比对的文本细读。诗歌风格自动分类模型提供数据基础,能够更好地辅助文学史和文学批评史研究。
诸雨辰演讲
林莹报告的题目是“智能算法辅助的古代文学研究:以晚明文言小说编评关系考察为例”。报告指出,晚明文言小说具有“编评”的相关性,类似通俗小说“评改一体”现象,冯梦龙的编评活动是其中代表。利用最长公共子序列(LCS)文本比对技术,通过智能算法聚类相似条目,可以在提取出的8000余万组两两配对关系中,聚类出近3000组相似条目,进而发现“编评一体”的晚明文言小说对条目的归类调整和分类细化,及隐含着的编者批评倾向;其中存在将正文移入眉批、评议文字删改等细致调整,这指示了文言小说间的文本关系。目前,研究存在评点资料尚未完全数字化等疑难。未来聚类的方式和应用范围还可以继续扩大,也可考虑与其他数字方法相结合。
林莹演讲
大连理工大学中文系副教授赵团员报告的题目是“《论语》对偶结构中的语音技巧”。报告首先介绍先秦诗文对偶结构中的语音技巧这一背景:对偶结构往往有对应的重字,对应字也有双声或叠韵。该研究穷尽了《论语》的对偶结构,发现有些对偶的词上古有同源关系,对偶时能体现彼此语义区别,部分常见双声、叠韵组合后来成为双音词。三句排比句中常存在相邻两句的语音呼应,一句之内也可以存在语音技巧,部分语音技巧可以从异文音注中反映。他呼吁利用大模型对对偶关系进行系统性考察,辅助上古音韵研究。
赵团员演讲
中国社会科学院哲学研究所副研究馆员、中国社会科学院大学哲学院副教授胡士颍报告的题目是“世界易学知识图谱与传统文献编目转化应用”。报告介绍了《1872—2015易学总目》这一近期完成的精良的易学文献目录成果。该目录编录用时良久,收录了百年间中国境内发表的期刊文章、著作、学位论文等丰富信息,进行了初步的排序和整理。目前,此类大型文献编目存在书本体积过大、查询检索困难的问题。胡士颍认为,若该总目文献编目完成数字化,并引进知识图谱、人工智能等技术,对易学等传统知识库的传承和研究、服务学者进行进一步的数据分析和转化应用有益,亦可助力海内外学者的交流和易学界等古典学术界的发展。
胡士颍演讲
参会学者讨论
五 、分论坛三
分论坛三“AI时代下的中国古代语言研究”由赵团员和苏瑞欣主持。
中山大学中文系副教授孙洪伟报告的题目是“上古汉语标注语料库词类标注原则与方法(动词部分)”。报告提出,该语料库作词类标注时,要力图提供更多语法信息。词类标注既要反映语言现象的真实面貌,又要有利于某类语法的检索提取。词类的标注应以词项为单位,词项的切分要兼顾词义和句法功能。词类标注分两级,对大类词类作二级分类。词类活用也需要妥善处理。就动词类而言,标注一级词类仍然存在难度,需要进一步明确判断方法,如区分形容词和动词,要使用能否用于比较句格式、“于”字后名词语义角色是否为施事等标准;区分动词和副词,要以语义和作状语频率为标准。标注二级词类时,应兼顾语义和语法,如准系动词、存在动词以语义标准为主,谓宾动词、双及物动词以语法标准为主。遇到比较特殊的宾语,可以以设置语义格的方式标注。
孙洪伟演讲
陕西师范大学文学院副教授邵琛欣、北京大学中文系博士生李泽栋报告的题目是“上古汉语语义格系统的构建及语料库标注”。邵琛欣介绍,语义格呈现谓词与其直接关联的体词性成分之间的语义关系,这种语义关系的描写和确定对句法语义研究工作很重要。根据上古汉语特点,遵循“一句一例原则”“共生原则”,设置了“主体格”“从体格”等7个语义格和26个语义格变体(如主体格有施事、致事、当事、感事、经事等变体),给出定义和典型句法特征,据此对《论语》文本进行了手动标注,未来将逐步实现由计算机对该语义格框架的自动标注。
邵琛欣演讲
清华大学出土文献研究与保护中心助理教授李霜洁报告的题目是“‘解䷧’:古文字图像全景分割”。“解䷧”系统将前沿图像分割技术(语义分割、实例分割和全景分割)实现在古文字图像上,更好地进行古文字字形分割,并将卜兆、钻凿、齿纹、盾纹、编痕、刻划线、载体表面等背景信息一并囊括进来。该AI系统有多种应用前景,值得多领域共同探讨和合作,加速进入更精密化、立体化、规模化的古文字整理研究新阶段。另外,作为计算古文字学的研究方法,它对古器物纹饰提取、古籍版面分析及GIS影像分割等其他学科的应用场景,也有一定的参考价值。
李霜洁演讲
雷瑭洵报告的题目是“北京大学汉语史标注语料库的析句方法”。报告介绍了北京大学汉语史标注语料库的句法规则库,包括标签集、词表和转写规则三个部分。标签集包括词类、短语类和小句类等标签,转写规则标明标签之间的相互关系。转写规则的设立,采取短语结构语法的理论框架,遵循所见即所得的规则,采用直接成分分析法,按照句—小句—短语—词的分析顺序进行分析。报告介绍了古汉语主要句法结构的转写规则。
雷瑭洵演讲
北京大学中文系博士生李泓霖报告的题目是“由AI大模型词义标注反观古汉语义项分析——以北京大学汉语史标注语料库及古汉语大模型建设为例”。报告从AI等新技术为辞书编纂及古汉语词义研究带来的启发入手,介绍了以《王力古汉语字典》作为背景知识训练“渊鉴”大模型,其标注《论语》信息的准确率可以得到大幅提升,这说明背景知识的重要性。报告提出,大模型自动标注偏误可以提示当前词义研究中被遮蔽的问题。应充分考虑词义的时代性及层次性,慎重使用现代汉语多义双音词对译古汉语单音词,通过人机互动促进计算机信息挖掘能力与古汉语本体研究的协同发展。
李泓霖演讲
北京大学中文系博士生郑宇熹报告的题目是“论现代汉语翻译在汉语史语料库机器标注中的作用”。报告介绍,目前的研究已经尝试在模型输入中增加现代汉语翻译作为辅助信息,这一改进利用大语言模型强大的端到端处理能力,有效提高了语义角色标注的准确率,证明了引入先验知识对标注质量的积极作用。郑宇熹还补充道,对具体语义格直接进行描写定义而非只给出典型案例,也有助于大模型标记的准确率。在未来,团队将构建文白对照数据集,并结合专门擅长古代汉语和现代汉语间翻译的其他大模型辅助语料库大模型进行标记。
郑宇熹演讲
在会议的最后,雷瑭洵作了闭幕总结,期待今后有更密切的学术交流与讨论。
文字:“AI时代中国古典学的挑战与展望”会务组