2024年11月16日,由北京大学中国古文献研究中心、北京大学中文系中国古典学研究平台主办的“数字人文与古典文献学”学术研讨会,在北京大学中国古文献研究中心哲学楼304会议室成功举办。来自北京大学、中国人民大学、北京师范大学、复旦大学、武汉大学、安徽大学、华南理工大学、中国科学院、中国国家图书馆、古联(北京)数字传媒科技有限公司、北京龙泉寺、书格网、搜韵网的19位学者,分作四组,围绕四个议题,展开了研讨。
开幕式由北京大学中国古文献研究中心高树伟主持,北京大学中国古文献研究中心主任刘玉才致辞。
刘玉才对各位参会学者表示热烈欢迎,期待围绕数字人文基础设施建设、数字技术在古典文献学领域的应用,以及古籍数字化的关键技术等问题展开充分研讨,以期创造新的文献数据环境,开拓研究新格局。刘玉才指出,北京大学中国古文献研究中心,在古典文献学领域,作为专业设立最早,而且是唯一的教育部人文社会科学重点研究基地,负有特殊的使命和志向。“中国古文献研究中心”学术研究的前提和基础是文献本身,而新时代的要求是数字化和有序的数据,如何在坚守传统的版本、目录、校勘为核心的古籍整理研究工作的同时,尽快建设“中国古文献数据中心”,是摆在面前的时代课题。刘玉才表示,本次会议各项议题紧扣古典文献学核心命题和时代前沿,呼应着当下挑战与机遇,对推动古典文献学数字化转型具有重要意义。
北京大学中国古文献研究中心李成晴从历史概况、工作成果、未来展望三个方面介绍了北京大学中国古文献研究中心。自1984年设立古文献研究所至今,中国古文献研究中心已历经40年。2024年换届后,中心在规章制度建设、科研机构建设、优化办公空间、购置图书、公众号及网站平台建设等方面,都有新的推进。中国古文献研究中心未来会继续着力于师资建设、学科交叉、古籍数字化建设。
上午、下午的会议,分别由李林芳、高树伟主持。
刘玉才致辞
第一组
第一组议题为“古籍数字化与古籍整理”。
华南理工大学电子与信息学院金连文介绍了古籍文字识别与智能对话大模型的研究进展,强调计算资源是文科发展的重要驱动力,探讨了人工智能大模型在古籍领域的应用前景,包括古籍识别、翻译和对话,揭示了大模型在处理古籍特殊需求时的潜力和挑战。金连文所在的“深度学习与视觉计算实验室”致力于运用AI技术使古籍更易读懂,该实验室发布了“通古大模型”“古籍文档分析与识别系统”“基于AI的古籍数字化修复”等多项成果,为中国古籍文物数据挖掘、知识发现、智能化开发与利用提供了技术支撑。
北京大学软件与微电子学院俞敬松讨论了数字人文视域下的古籍智能化整理与应用探索,介绍了相关技术辅助编纂古籍目录、汉字综合信息库建设,涉及古籍目录的拆解与整合、聚合汉字的形音义等工作。俞敬松重点介绍了西夏文的光学字符识别与机器翻译研究项目,绕开数据标注,通过模拟生成路线,可以识别比以往更多的西夏字。利用大模型来做西夏文对译的探索,开发了基于字体生成技术和视觉预训练模型的西夏文识别方法,显著提升了低资源条件下的识别准确率。该项目结合生成式大模型与专家知识,实现了西夏文到汉语的机器翻译,尤其在意译方面展现了良好的效果。该研究为西夏文文献的数字化处理和翻译提供了新的解决方案,有望推动西夏学研究进入新阶段。
复旦大学计算机科学技术学院李旻深入讨论了古籍数字化过程中的共性技术问题,主要包括:图像化如何避免图像数据量的无限制增长、文本化的字形编码问题、文本检索中的一些漏检错检问题等。李旻强调,在古籍数字化过程中,要保证古籍原始信息完整传递。因此,他提出了“增强的文本流”这一解决方案,介绍了基于标注的扩展文本流(扩展字音信息、扩展名-实链接等)、Text to Speech的音注等方案。最后,李旻还补充介绍了历史事实数据库的近期进展。
北京龙泉寺贤超分享了古籍酷(GJ.cool)与数字人文应用开发研究,强调了用户体验和技术实现的重要性,展示了如何通过技术创新提升古籍研究的效率和可访问性。贤超介绍了古籍酷的核心能力:古籍OCR、自动标点、文白翻译、超分辨率图像增强,还有双层PDF制作、版本比对、中文句子对齐,从技术能力、艺术表现、用户体验三个方面展示了古籍酷平台的追求。古籍酷还致力于现代出版物OCR、大模型微调对联、文白翻译、中英翻译、古籍排版等。贤超提到,古籍库的建设不仅是技术问题,还涉及文化传承和教育普及的层面,强调了古籍数字化对于促进学术研究和文化传播的重要作用。
第二组
第二组议题为“古籍智能化的基础设施问题”。
中国国家图书馆袁媛介绍了国家图书馆藏名家批校本整理研究与数据库建设的互动,展示了数据库建设的进展和成果。该项目是教育部人文社会科学重点研究基地重大项目的横向课题,该数据库基于书目信息、批校者、原始图像和批校释文等元素,设计了总目库、书志库、文本辑录库、字迹鉴定库,旨在展示国家图书馆藏批校本的原貌,并挖掘其内涵和文献价值,进一步为批校本鉴定提供参考。
安徽大学文学院唐宸分享了全球古籍影像数据聚合的应用实践,介绍了目前正在推进的小献AI助手的思路与进展。全球汉籍影像开放集成系统(guji.wenxianxue.cn),自2023年10月上线后,已更新至第四期。唐宸强调了资源整合和数据流通的重要性,提出了通过技术手段提升古籍资源利用效率的多种方案。唐宸最后分享了几点体会:资源要聚合、数据要流通、设施要公益、门槛要降低。
广州搜韵文化发展有限公司陈逸云讨论了通往古典文献智能化的若干基础设施问题,他首先介绍了搜韵网(https://sou-yun.cn)、知识图谱网(https://cnkgraph.com)。他认为,古籍文献智能化主要基于两个需求:一是学者需要提高研究效率,二是大众获取知识需要提高效率。通过四例真实个案,陈逸云强调,知识结构化数据比模型更重要,目前的重要基础设施不完善。需要继续产生高质量的实体对齐数据,降低产生数据的时间、人力成本,提升基础设施的准确率及实体对齐能力,特别是时间、人物、地点、文献目录、典故、事件、名物等基础实体。
书格网郑政讨论了数字基建的重要性,强调数字基建是实现古籍资源广泛利用和深入研究的前提。他首先对全球图书馆和博物馆从事数字化的工作人员表达了感谢,梳理了当前数字化项目的五个层次。他认为,图书馆等收藏单位应该转变思想观念,从守藏到共享。围绕图书筛选、图像采集与处理、数据存储与管理、数字资源的发布与共享,展开了讨论。最后推荐了三个平台:全球汉籍影像开放集成系统(https://guji.wenxianxue.cn/index)、bookget下载器(github.com/deweizhu/bookget)、书格(https://www.shuge.org/)。
第三组
第三组议题为“数字人文与古典文献学”。
北京大学信息管理系位通介绍了数字人文中心与字节跳动公司合作开发的“识典古籍”阅读平台和整理平台,以及依托“识典古籍智能整理平台”,开展面向大众的“我是校书官”古籍整理活动。“我是校书官”首期活动取得了显著成效,第二期活动计划将分为大众整理组和专业整理组,吸引更多学生与各界人士参与,使古典文献在数字时代产生更广泛的社会影响。
中国科学院自然科学史研究所孙显斌从数字化工程中数据加工的困境与挑战谈起,提出古籍整理的基础设施应包含三个重要方面,古籍目录库、古籍图像库和古籍知识库。在此基础上,孙显斌介绍了关于构建历史典籍总目库的设想,包括总目库、典藏库和编纂库,分别涵盖古今图书的基本信息、收藏情况和编纂与亡佚情况,为学者提供资料检索和学术研究的平台。
北京师范大学汉语文化学院胡韧奋探讨了大语言模型在古籍整理中的应用。利用大语言模型的强记忆能力和语感,可以有效处理文本复原和结构化数据提取等任务,尤其在古代语言和典籍整理中显示出潜力。目前可以利用大模型和聚类方法自动标注词汇意义,进而研究语言意义演变,未来或许可将AI大模型与古文献研究应用于社会科学学科,进行跨学科的合作研究。
北京大学中国古文献研究中心李林芳讨论了数字古文献学中字符编码的地位和影响。字符编码在技术上对古文献数字化起到关键作用,是将古文献转化为可处理的字符序列的必要步骤,字符编码还直接影响数字文献的意义解读,与数字文献的产生、流传等各方面的新问题直接关联,字符编码影响数字化过程中信息完整性和正确性。
第四组
第四组议题为“数字出版与古籍知识库建设”。
武汉大学信息管理学院王晓光探讨了古籍数字出版的路径与问题。王晓光认为当前处于数字出版和图书馆数据库建设的转型期,可比作印刷术初期的“数字摇篮本时代”。数字化内容要经历文献库、知识库、大模型三个不同层次的步骤,最终形成以大模型为代表的新一代知识服务,其中需要注意数据源头的可追溯性。另外,在数字时代背景下,古文献整理和出版需要明确自身定位,同时考虑技术与传统出版服务的融合。
古联(北京)数字传媒科技有限公司洪涛讨论了数字时代古籍整理出版的机遇与挑战。洪涛重点介绍了大型出版项目,通过社会招募整理者、作者和编辑,组织明代文献整理的训练营。在古籍数字化整理与出版过程中,遇到的主要挑战包括团队组建、人员素质、审核质量控制、技术应用的局限性,以及提升古籍整理的学术性。对于未来发展,提出可以探索数字人文在不同领域如农业农村、中医药和文旅产业的应用,将学术投入转化为经济和社会效益。
中国人民大学信息资源管理学院严承希分享了数字人文视角下中文古籍知识整理与服务应用平台的建设,包含汉文古籍的智慧处理技术的探索与研究、《清实录》知识聚合服务平台的建设和AI赋能下古籍的智慧服务平台的初探。重点介绍了通过新的模型方法Margin+SA-ALC对《清实录》文本进行标记,整合不同语料库、进行实体识别和关系抽取,开发知识链接和可视化阅读界面,形成知识服务平台。
北京大学中国古文献研究中心高树伟分享了深度学习辅助古籍版本鉴定,讨论如何运用深度学习辅助判断古籍版本类型。根据地域对古籍版本进行分类,经过二值化、清除序跋、页边裁切、图像切块等处理,创建以省份划分的版本类型数据集。测试证明,深度学习辅助判断古籍版本类型,能达到较高的准确率。讨论还涉及影响结果的几个因素,如官刻、坊刻的版面风格差异等。
与会人员合影
在圆桌会议上,与会专家针对数字人文研究的基础设施建设、数字人文的跨领域合作、数字人文学科的人才培养,以及数字人文的未来发展等方面进一步交流。各位专家表示,未来将继续推进古籍数字化和智能化的技术研发和应用实践,加强古籍资源整合,促进数据流通和开放获取,重视基础建设,提高数字化资源的质量和可用性。同时,也会大力支持中国古文献研究中心在古籍数字化方向的探索。
纪要:那可 张晏晨
摄影:那可 张晏晨
排版:余钺