■ 金满楼
自2021年启动数字化影印出版工程后,由甘肃省图书馆主持的文溯阁《四库全书》数字采集工作目前已全部完成,数据处理工作也已进度过半。在之后几年中,文溯阁《四库全书》将分期、分批推出全套影印版本。由于《四库全书》现存不同版本在内容、册数、卷数上都有所不同,文溯阁《四库全书》的数字化影印出版对中国古代典籍的保存和文化研究无疑具有非常重大的意义。
古籍资源大摸底 | 从8亿字的《四库全书》说起
作为历代以来最大的文化工程,清代乾隆年间的《四库全书》对中国古代典籍进行了一次最系统而全面的搜集和整理。然而,由于近代战乱的缘故,原藏于圆明园文源阁及扬州文汇阁、镇江文宗阁的四库本全部被毁,杭州文澜阁在浩劫之后也仅存其半。由最初完整的七部到目前的“三部半”,《四库全书》所遭遇的巨大损失令人痛心。
《四库全书》成书后,先抄好的四部分贮于紫禁城文渊阁、沈阳文溯阁、圆明园文源阁、承德文津阁珍藏,即“北四阁”;后抄好的三部分贮于扬州文汇阁、镇江文宗阁和杭州文澜阁珍藏,即“南三阁”。
文源阁于1860年英法联军火烧圆明园时被焚毁;文汇阁、文宗阁、文澜阁在咸丰年间战乱中被毁,部分文澜阁本散落民间,后补抄近半部,现藏于浙江省图书馆;1966年,文溯阁本从沈阳运至兰州保存,现藏甘肃省图书馆,是目前“三部半”中唯一未完整影印出版的一部;文渊阁本原藏北京故宫,现藏台北故宫博物院;文津阁本现由国家图书馆保藏,这是唯一一套原架、原函、原书保存的版本。
《四库全书》的规模体量十分惊人,是《永乐大典》的3.5倍,其中共收录历朝典籍近3500种,约8万卷,合36000余册,计8亿字。据介绍,文溯阁《四库全书》换算成现代书籍页码的话接近488万页,逐页扫描后储存的数据资源总量超过700TB,如以容量32GB的通用U盘存储,至少需要2.2万个。
《四库全书》是中国古代典籍的精华与浓缩,除此之外还有海量的各类古籍,这些文化资源同样弥足珍贵,需要用心保护。国内从2007年开始全国古籍普查工作以来,目前已完成270余万部(另1.8万函),共计13026部珍贵古籍入选《国家珍贵古籍名录》,另有25476部重要古籍入选各省区的《省级珍贵古籍名录》。在全国1000余家古籍收藏单位中,有超过2000万册件古籍得到妥善保护。在现有成果基础上,“国家古籍数字化工程”已被列为当下和未来的重要工作方向。
目前,国内古籍收藏最丰富的是中国国家图书馆,其上承宋元以来的历代皇家珍藏,旁搜明清以降南北藏书家的毕生积聚,最终聚成1500余部宋元名刊、27万册古籍善本、70万件特藏、160余万册普通古籍的海量珍贵古籍馆藏。其中,《敦煌遗书》《赵城金藏》《永乐大典》《四库全书》并称该馆四大专藏,可谓国之重宝。据不完全统计,在目前国内已累计在线发布的古籍数字资源13万部(件)中,由国家图书馆搭建的“中华古籍资源库”发布10万余部(件),可谓重中之重。
不可否认,与目前存世的古籍体量相比,现有国内古籍数字化的程度与规模还远远不足。排除复本情况,《中国古籍总目》显示,国内现存古籍品类约20万种、5000多万册(件),除了传统线装古籍,还包括甲骨、简帛、碑帖拓本、古地图等。然而,它们实现数字化的不超过8万种,其中大多数只是完成了初步的影像扫描,真正实现文本数字化的还不到一半。以此而论,未来古籍数字化成果的共享开放水平和深度挖掘能力都还有很大的提升空间。
“数字孪生”手段高明 | 古籍获得新的图书生命
通过现代技术手段,以完整而清晰地保存古籍的原始面貌,这是古籍数字化的最主要内容。从这个意义上说,数字科技从根本上改变了古籍保护的单一模式,古籍的生命不再只依托于历经数百年而不断发黄、发脆的实体书册,而得以以数字形态永久而安全的保存。
以文溯阁《四库全书》的数据采集为例,从2021年12月下旬开机扫描到次年5月底采集结束,用时仅5个月。在专业人员的操作和专业设备的辅助下,全部古籍没有丝毫受损,而采集的所有影像数据都将被加工成标准的数字文件,供后续影印出版和数据库建设之用。在珍贵的原本古籍重新入库保藏后,这些采集而来的数据资料实际上获得了新的图书生命,这种电子意义上的数字复刻,实际上也是一种“数字孪生”。
相对而言,古籍图书还算容易保存。对于那些因气候和岁月不断侵蚀而无法永久传世的文化形态如壁画、彩塑、木雕等来说,抢救性的影像复刻就显得更为重要了。以敦煌研究院的“数字敦煌”项目为例,在将现有洞窟的壁画、雕刻等摄录成数字图像后,一方面可以永久保存相关的文化信息,另一方面也可以让游客在实地游览和线上参观做出选择,以尽可能降低过度游览而带来的文物保护压力。
在影像复刻的基础上,运用人工智能技术对古籍文本进行提取、标引、分析等后续工作,也是数字科技助力古籍传承的重要组成部分。如按传统的古籍整理速度,目前的工作量可能需要数百年才能完成,但在现有的智能技术条件下,这一过程会大大缩短,可能二三十年就能完成。以OCR(光学字符识别技术)为例,5分钟的OCR识别相当于人工录入20小时的工作量,而且错误率可以降低75%,这样的速度和效率在以前是不可想象的。而且,目前的人工智能技术已经能够实现自动断句、标点和命名识别(如人名、地名、官职名等),其差错率已经降到5%以下,这无疑大大降低了专业人员后期点校的工作量。此外,整个数据库还能实现全文检索、文本比对、数据分析等功能。
当然,人工智能技术也不是万能的。毕竟,机器无法百分百准确地识别语义,差错率在所难免,因而人工校对与标注依旧十分重要。尤其古书中经常会出现一些异体字、冷僻字,还有一些古籍的格式比较特殊,类似情况下就更离不开专业古籍工作者的核校。只有人机协同、人机互补,才能真正高质量地完成古籍的“数字新生”。
数字共享有待提升 | 国图营造“中华古籍资源库”
古籍数字化对古籍保护意义重大,对于文化传承也同样如此。在最坏的情况下,即便相关古籍因为各种不可抗力因素而损毁灭失,但作为文化载体的数字版本将得到永久的保护和传承。
从文化的角度而言,古籍是属于全社会、全民族的文化遗产,但因为所有权、版权保护等方面原因,目前古籍开放共享的环境还远谈不上理想。以文溯阁《四库全书》为例,其原藏于辽宁沈阳故宫,后迁移至甘肃,由此造成半个多世纪的书、阁分离现象,其归属问题至今仍悬而未决。此外,图书馆行业的开放程度也制约了古籍共享的可能性,一些图书馆往往将收藏的珍贵典籍视为“镇馆之宝”,轻易不肯示人,共享意识明显不足。即便这些古籍得以数字化,但因为担心盗印等侵犯版权的非法现象,很多数字资源的所有方在古籍数字化的版权保护体系尚未形成之前,一时间也不敢轻易对公众开放。因此,目前除了专业工作者和相关研究者,有机会真正接触到古籍原本的人少之又少。
在这方面,国家图书馆做了相当多的工作。2020年4月,国家图书馆整合各类古籍及特藏文献资源统一纳入“中华古籍资源库”,其中设置数字古籍、数字方志、赵城金藏、碑帖菁华、甲骨世界等20余个子栏目,并支持单库检索、多库检索、精确检索、模糊检索。次年11月,国家图书馆线上实现免登录阅览,读者无需注册即可进行检索。
从藏之名山到走近大众,数字化为古籍资源的共享带来了肉眼可见的进步。随着人工智能技术的进一步提升,古籍的注解、翻译、检索、索引等工作都会全面铺开,大大降低民众对古籍的理解难度。在人工智能的帮助下,古籍中蕴含的海量知识和浩瀚素材都可以轻易调取,甚至可以辅助创作,生成新的内容。例如,创作一部历史剧、编排一段古代舞蹈,都能利用人工智能从古籍中寻找相关素材,并自动编排出初步的轮廓,以供创作者在此基础上继续完善,以创作出更高质量的全新作品。
毫不夸张地说,中华古籍就是一座取之不尽、用之不竭的文化宝藏。目前,古籍数字化的应用还仅仅是一个开始,相关的工作还在不断推进当中。相信在不远的未来,古籍数字化将给中国人带来更多的想象,也会给中国文化带来更多的希望。