她的书房,在北大与众不同!
中华文化古籍是怎样的?对于北京大学外国语学院、人工智能研究院长聘副教授苏祺来说,问题的答案,是光阴的厚重,流转于现代技术间,化作数据库中轻薄的字节,又籍由一块块显示屏,传到千家万户。从《永乐大典》到四书五经,都是苏老师的藏书,用科学的方式把书读薄,又勾连起更多的古典“百科全书”,将密密麻麻的古文字转为形象生动的人物关系图,识别、搜索、校对中,积淀下深厚的文明记忆。
苏老师的“书房”,在方寸之间,小小的一块屏幕,就足以藏下多达上万种古籍文献;而她的“书房”,却又不在咫尺之间,众多被束之高阁的文化珍品,在现代技术的“妙手”下,贯通岁月的隔阂,化作可感知、可阅读的传世遗产,一本本独立的作品,连成一条脉络分明的印记,焕发出新生。
无需一页页翻看,但书页间古人深邃的哲思尚存,这是苏老师与团队打造的电子书房,从这里出发,一场以千百年为尺度的文化“穿越”正徐徐展开。
“藏”下千年岁月
采访、文字 | 唐儒雅
摄影 | 吕宸
以现代的方式编织古文献资料,让古籍“上网”,让更多人看到人文学者的智慧,苏祺老师及其团队用专业技术,为古籍深度赋能,将这份宝“藏”,收“藏”于数字图书馆间,于人们触手可及处。
“看,孙权和黄盖,是上下级的关系,而陆逊则是大乔的女婿……”苏祺老师点开“古籍文献大数据分析平台”,将光标停留在一位位历史上熟悉的人物图上,人物间千丝万缕的关联清晰地呈现在连线上,二百余部中国古代哲学经典著作,就这样有了新的阅读方式。
这是苏老师与团队一起打造的“智能化数字图书馆”,在数字化的浪潮中,将珍贵浩瀚的古籍文献,转化为可检索、可触摸的数字形态,为人文学者插上信息化的翅膀,是他们一以贯之的目标。
这是因为,“就好比写论文需要参考文献,通过阅读与写作,将不同的专著、论文构建起显性的关联,然而,古时并没有完备的引用方式,使得古典文献难以串联起来,仍需依赖于语义判断,我们想要做的,正是借助数据分析的支持,弥补这一遗憾。”
“仁”与“义”在不同时代的释义有区别吗?又是怎样一步步发展到现在的用法的呢?有哪些书目引用过《盐铁论》?这些问题,都是苏祺老师所关注的。从深入研究现有材料开始,汇聚先秦至清代的文献,到寻找完美呈现的方式,解锁历朝历代作品中的重重关联,整个团队沉潜其中,如挖掘宝藏一般,一点点回答着勾连古今的叩问,又如同历史的积木,一块块垒起古典文学发展脉络的大厦。
大厦的基座,是对古文献进行标注处理。扫描识别后,面对字句相连的古籍文献,首要的就是自动化地加上标点符号,完成跨时代古今汉语的断句、句读等工作,由此诞生了“吾与点”智能标注平台。在此基础上,还需要进一步以表意文字、词组为单位,拆分其中的句子,才能成为后续分析的可用材料,对此,苏老师的团队又自行训练出了一套大模型。再将专有名词、人名、地点、时间信息一一抽取,形成庞大的数据库,不同时代作品中的重文关系一目了然起来,“人物-人物”“人物-地点”“人物-时间”等多维对应关系也随之可视化了。
苏祺老师在平台上操作着,标注词性、简繁转换、全库搜索、添加注释等等,在多重功能的辅助下,古籍的阅读不再是难题,啃“原著”的门槛也不再难以达到。倘若想要了解相关领域知识,大可直接登上这些平台,在与计算机的交互中重新打开卷帙浩繁,要是碰上看不懂的地方,还能在现代化的“引注”中,联系前后朝代的文段交叉理解。
正如苏老师所感慨道的:“古人之间相互的关系、特定的词语在不同时代的表意……这些知识或许不曾在文献中有着直接记载,过往,人文学者通过阅读在脑海中构建出知识的图谱,但如今的我们有了技术,通过构建自动化的电子知识图谱,就可以自然而然地将其推理出来。”
如今,苏祺的团队已经接连研发出了文献溯源分析平台、识典古籍阅读与整理平台、经籍指掌——中国历代典籍目录分析系统等全面化公众平台,以及《永乐大典》高清影像数据库系统、“宋元学案”知识图谱系统、朱子年谱可视化系统等专门化研究平台……晦涩难懂的古籍,加上词汇分析、贡献分析等智能信息处理技术,摇身一变,成了通俗易懂的“课外书”,又通过深度学习、对比学习等自动化高科技,化作研究者们触手可及的资料,成为寻常人家了解古文化的一扇科普之窗。
幼时读古籍,从书卷中感受古风文韵。大学时一本《计算语言学概论》,为苏祺叩开新学科的大门,在与科技的接触中,找到读古籍的另一种方式,又将这一份便捷而直观的阅读体验,带给万千读者。
苏祺老师的成长,是一条跨学科的奇旅,一本本特别的书籍,串起了这段不平凡的历程。
小时候的苏祺,在书香门第中长大。爷爷是高中校长,家中书籍满架,古典文学的韵味晕染着她对童年的记忆。三岁之前,在爷爷的熏陶下,她背诵着《唐诗三百首》,那段与书籍为伴的时光深深植根于心。那时的她,或许未曾想到,这些古籍的篇章会在未来的某一天,以一种全新的方式与她重逢。
有意思的是,指引着苏祺老师与古籍重逢的,也是一本书。那时,在大学毕业生的旧书摊上,她偶然间发现一本《计算语言学概论》,随手拾起翻看,第一页便勾起了她的兴趣。
“我印象很深,那一页上是对计算语言学这门学科的介绍,也就是,让计算机理解人的语言,进而与人进行交互的,”这般奇妙的世界,让苏祺心生向往。
苏祺的导师俞士汶教授编写的《计算语言学概论》等图书
她当即联系了那本书的作者——北京大学信息科学技术学院俞士汶教授,考取了老师的博士研究生,从此打开了计算机与语言交叉领域的大门。
投身数字人文,又是一场与古籍不解的缘分。考虑到中国古籍材料丰富而悠远,涵盖各大门类,贯连每个时期,再加之其电子化程度较低,苏祺选择从古籍入手,一举跃入这座巨大的中华文明宝库,借助数字化技术为其整理和研究插上翅膀。
从古籍出发,苏祺老师的研究遍及历史、考古多重领域,与人文学者的接触,也让她发掘到不同的领域,怀着对知识永恒的好奇心,在一点点的初窥中,她所看过的书日渐丰富起来。从大字典到陶瓷研究,从工程技术到文物研究,从语音演变到生物演化,从中西文本互鉴到社会网络……她都兴致勃勃,总能在不同的学科中找到乐趣与灵感。在她看来,“各个领域的知识都挺有趣的,”翻开的每一本书,构筑成通往新世界的一扇扇门。
因书而起,因兴趣而生,从古籍出发,又以古籍为桥梁,传续书的力量。如今的苏祺,依然在数字人文的领域里,不断探索、创新,用技术解读文化,用代码书写历史,将书的故事越写越长,越写越远。
翻开人文的书页,无疑会被思想的深邃、想象的大胆深深折服,这些对人类文明的叩问深深打动了苏祺老师,也由此坚定了她用信息技术为人文学者们提供服务的心志。
从计算机专业博士毕业后,苏祺老师来到北京大学外国语学院,身边接触到的老师逐渐变得人文社科居多。在慢慢磨合适应的过程中,她一步步尝试着去理解人文学者的思维方式与研究需求。
“那时候,我感觉计算机的师生和人文学者还是挺不一样的,尤其是在学习工作的思路和风格上。在计算机专业读书时,师生们团队合作推动着一个又一个项目,但人文学者却是更偏好于通过个人阅读以增长知识。”
苏祺敏锐地观察到,人文学者观点的个体独特性,或许还有无数种发展的可能,于是,这颗关于阅读与思想的种子,在她心间扎了根。
2020年,“北京大学数字人文研究中心”(PKUDH)成立,在主任王军的邀请下,苏祺在创立之初便加入了其中。“得知这一研究中心,我冥冥之中感觉这就应该是我的定位,无论是所学的专业还是所处的院系,都无比契合我的条件,似乎命中注定就应该成为其中的一份子,”提起这一人生的转折点,苏祺回忆道。
作为校级跨学科研究虚体,“我觉得这里特别好的一点就在于,大家的背景都相当交叉,像是计算机出身却对古典文化熟稔于心的王军主任,又像是中国哲学学者杨浩老师,从外语到中医,各大背景的师生都聚于此,一起头脑风暴,一同开发技术,为人文学者提供对接需求的服务。”
这样一群志同道合的伙伴,在古籍的数字化道路上,共同踏实前行着。从最开始的“吾与点”智能标注平台,数字人文研究中心的成果逐渐得到学界的关注,学者们提出让古籍整理加强针对性的建议,将医学、法学、理学、文学等特定的学科领域分类考量,提升模型效果的准确性。这群致力于古籍资源智能开发与利用的中心师生们,齐心协力、众志成城,尽可能将能搜罗来的资料扩充上,不断优化平台,五年不到,许多专门化的平台接连上线,从准确率到适应性,每一个细节都凝聚着他们的心血和汗水。
古籍之余,中心的师生们深知,技术的发展不应仅仅停留在论文、代码和算法上,更应服务于人文学者,于是果敢拓宽研究范畴。就在2023年,他们完成一项“文物图像合成技术”的研发,通过视觉模型、边缘检测模型、大模型等高科技,师生们尝试重塑那些被损毁、丢弃的文物样貌,从文物名称直接生成相对应的图示。为了避免“一眼假”的情况,他们参考了众多古书记载及考古知识,又对照着工具书,使用专业的线图补充对应器物模型的边缘轮廓,建成知识库,再籍由大模型增强技术,将喇叭口、细腰等特征从名称中提取比对,又参考专业大字典协调合成。就这样,青花山茶如意扁壶、唐朝青铜器、元代瓷罐等文物古器不再是遥远的文字,而具象为形似的图片,在数字世界中重现光彩。
“在和人文学者接触的过程中,我也吸收了很多他们思考问题的方式”,苏祺笑称自己是“文化荒漠”,而人文学者的渊博与深入,都是她科研idea不竭的源泉。从无到有,从古籍到文物,从语义检索到个性化推荐,从知识图谱到3D识别……苏祺以自身所掌握的技能,不断填补着人文学者们敢想却难以实现的空白,逐步迭代以求达到理想的效果,这条探索路上的一切,一直都令她深感兴奋。
“每个人都不应该把自己局限在一个特定的专业,只要做的事情是自己感兴趣的,就一定能做好。”这是苏祺老师的人生哲学,在她的世界里,书籍是知识的源泉,兴趣是最好的老师,而跨界融合,则是通往未知世界的桥梁。
或许是自身学科交叉的背景,苏祺老师会让文科生带着计算机专业的学生完成技术层面的工作,也会鼓励理工出身的学生深入阅读古籍,带着学生一起,以计算机科学的严谨,结合人文学科的广博,探索着古籍数字化的新路径。
苏老师是全校必修课《计算概论C》的授课老师,这是一门为文科生开设的编程入门课,她有着独特的教学理念。苏祺相信,以Python为代表的数字技术,必将在学生们未来的研究中扮演至关重要的角色,在她的课堂上,不再只是单纯的算法和数据结构讲授,而是更加注重学生们对实际应用的掌握。由此,苏老师特意将大作业设置为古今中外、各式各样的文本分析。
在她看来,“所有的学科都需要使用文本,无论是对于什么专业背景的学生,都有着极强的普适性,”她希望通过这样的训练,以分析覆盖古今中外的文本为切口,启发同学们将数字人文技术用于所需。
秉承着推广数字人文的教育理念,苏祺老师参与到北京大学、哈佛大学与普林斯顿大学联合创办的“数字人文暑期工作坊”。在2023年的暑假,来自国内外、不限文理科的大学生们齐聚,在思维碰撞间产出了“五花八门”的项目选题。从药方复现研究到唐代琉璃瓦分析,从苏轼诗词学体系到跨文化的社会网络,学生们创意频出。
“在这之中,我们主要是起到‘粘合剂’的中介作用,也就是让他们了解到,目前有什么方法可以将这些研究的想法实现。”
短短两周内,来自中国历史、古代思想史、中国哲学、自然语言处理、计算语言学、知识工程等不同教育背景的学生们交叉合作,从构想到落地,创造出一个个兼备人文温度与科技力量的智慧结晶,有的甚至撰写论文发表。
作为数字人文与外语人才项目的负责老师,苏祺不断拓宽着“数字人文”的受众面,为人工智能飞速发展下外语人才的培养提供了新的可能性。“对,是我设计的,”苏祺将人工智能、计算机技术、语言文化、统计分析等多个领域的课程排入其中,也会不定期开展组会,共同研读前沿论文,打造全方位、全流程培养跨学科人才的方案体系。在苏老师的悉心引导下,不同语系、不同背景的学生们,从各异的研究视角出发,基于过往的人文训练,使用数字化的方式呈现。就在前两天,苏祺老师将数字人文本科课程同学的作品带上了北京大学文科数智化成果展,这些外院、数院、信科、信管、历史、中文等等各种专业出身的学生们,将所学与所思完美融合,在国际会议上展示研究成果,又在挑战杯中展现创新能力……在数字人文的道路上不断探索着、成长着。
得益于苏祺老师的循循善诱、耐心栽培,本科毕业于南京大学德语系,硕士就读于北京大学外国语学院的吴胜广同学今年毕业,即被斯坦福大学计算机系全奖录取为博士生。前些年,她指导的硕士生林俊旸同学,本科毕业于国际关系学院英语系,硕士就读于北京大学外国语学院,毕业后就职于阿里巴巴达摩院,目前已是阿里巴巴通义实验室高级算法专家、通义千问开源负责人。“我相信,人文社科的学生也能从事,而且很好地从事跨学科研究工作,”谈起爱徒们的成长,苏老师的眼神中闪烁着坚定的光芒。
苏祺期盼着,能有越来越多的学生,“打开思路,学会将技术应用在自身的学术研究中。”打开书页,感受数字世界的逻辑和效率,体悟人文学科的内涵和价值;合上书页,将编程语言的精确性与文学艺术的创造力稳稳结合,架起一座连接理性与感性、科技与文化的跨学科桥梁。
数字技术与人文学科的结合,如同在深邃的知识海洋中架起一座座桥梁,不仅连接着孤岛般的书籍,更是汇成一片汪洋,涌动着智慧的泉流。
跨学科的融合,让苏祺的视野更加开阔,思考更为深刻,她意识到,正是有了数字技术,文科书籍的研究不再局限于传统的线性阅读和深度挖掘。人文为数字注入宏观的考量,将关注点从理科的评测框架中拉出,不过分着眼于小数点后一位的准确率提升,而是放眼文献背后广阔的时间跨度,注重广度的拓展。与之相对应,数字又为人文提供了网罗的条件,各家的成果由此连点成线,不同领域的知识编织成网,打通个体的思想壁垒,形成全新的纵览视角,由此诸多新想法悉数萌生。
苏祺本人的阅读习惯,也恰好扣合着这份融合。“都读”,是苏老师对于纸质书与电子书偏好的回答。
“这是因为,“在信息科学上,‘搜索’可以分为两种,其一是深度优先,其二是广度优先,”对应于此,电子书的检索功能在备课时显得尤为便捷,而纸质书的线性阅读则有助于深度理解和沉浸式体验。
正如数字技术,独有着互相参照、交叉比对的优势,而传统的纸页间,更容易勾起人文的哲思。“如果想要了解一个陌生的领域,”她解释道,“一本经典的纸质书能够引导读者发现研究兴趣,而电子书则能够在深挖这些兴趣点时提供快速的文献比对和观点串联。”
在苏祺心目中,数字技术与人文学科的结合,不仅仅是工具的革新,更是研究方法的演进,让知识自由流动,让思想相互碰撞。“方寸之间,却得以涵盖巨量的书籍”,古时依靠单人阅读将书与书相链接,或许可以通过再次写作为后世所复现,但也难以进一步与其他领域扩展起来。然而如今,数字与人文的演进,将零散的知识串联,打通了各门类间的壁垒,让知识不再是孤立的点,而是相互连接的网络,让研究不再局限于单一视角,而是多维度的融合。
“数字和人文这两面都是必要的,人也是不可缺少的,三者通力合作,一本本独立的书汇集成书海,共同推动人类文明进步,”苏祺如是说。
在她的电子书房中,本本书籍交相“链接”,连接着过去与未来,在公众视野下徐徐铺陈开。
来源 | 北京大学融媒体中心
图片 | 吕宸、受访者提供
采写&排版 | 唐儒雅
责编 | 郭雅颂
<<左右滑动查看栏目>>