#北大联合字节在线免费古籍阅读平台#
人工智能改变古籍的存在形式。
“整理国故,再造文明”,胡适一百年前就说过。所以中国也是古书。古籍一般指手稿、刻本、手稿、拓本等。1911年以前的朝代。这些纸质文献的命运可谓在历史长河中徘徊。纸质古籍的毁灭是不可逆的。比如明代的《永乐大典》,永乐年间的原版已经完全消失,11000册嘉靖的复制品存在的不到5%。这样的损失是无法计算的。
哲学家罗素曾说:“中华文明是唯一一个历史和文化从未停止的文明。”古籍作为中国文化的重要血液,是绵延不绝的文明基础之一。今年,中国国家图书馆收藏殿堂天禄林朗历经8年成功修复,在标准储存条件下可保存200年。
虽然古籍的原始保护力度有了很大的提升,但依然改变不了“纸”的脆弱。2015年初,位于莫斯科西南部的俄罗斯科学院社会科学信息研究所图书馆发生火灾,约200万册图书资料受损。俄罗斯科学院院长表示,“这是俄罗斯科学界的切尔诺贝利事件”。
在很多人的印象中,古籍的文字往往难以理解,接触的机会也很少。然而,在数字时代,这种情况正在改变。目前,数字化、平台化、智能化已经成为古籍“再生式”保护方向。在国外,哈佛燕京图书馆和美国国会图书馆已经扫描了他们收藏的中国古籍并公开。但是,它们只是扫描的图片,没有经过智能技术的文字化处理,无法复制粘贴。它们只能为少数研究人员服务。
国内知名古籍智能平台,如“汉典重光”古籍平台,已将加州大学伯克利分校收藏的一批中国古籍善本以数字化形式回归,该平台覆盖的古籍数量达20万页。再比如浙江大学的“古籍智慧平台”,利用OCR光学字符识别技术,将图片中的字符变为文本格式,识别准确率达到90%以上。
这些平台各有优势,但也有各自的局限性,比如网速慢,智能化程度低。比如“同文古籍数据库”收费很高,“中国哲学书籍”电子版程序目前收录了3万多部作品,但用户往往无法正常访问。
今年3月,字节跳动与北京大学联合成立“北京大学-字节数人文开放实验室”,双方合作研发推出古籍数字化平台——知经典古籍。10月,经典之作测试版上线。目前已整理上传3000册、3000多万字的390部经典著作(全部四大系列书名)。预计3年内整理出1万种古籍,基本涵盖儒道佛的经典书名,免费开放给用户。
经典古籍平台主页截图
古籍如何数字化?
看古籍有什么技术特点?据项目负责人介绍,古籍识别主要采用三种技术:文字识别、自动标点和命名实体识别。
文字识别技术,即利用OCR技术对古籍影印文字进行分割、识别和排序。所谓分词,是指扫描古籍中的单字检测技术,可以获得每个字的具置;字符识别:将分割后的图片送入字符识别模型,获得每个字符的具体编码;识别,结合文本内容和文本位置,获得整本扫描古籍的阅读顺序。
古籍数字化过程视频截图
OCR的应用过程是用电子设备扫描纸质古籍,将内容转录到计算机中,生成相应的数字文档。效率和手工输入不一样。目前业内OCR识别的平均准确率是93%到94%,经典书籍的准确率是96%到97%。
自动标点技术是通过顺序标注的方式对古籍进行自动标点划分,支持“,,”。?!、:;”七个常见的标点符号。比如“学学不如说”,自动标点的结果是“学学不如说?”命名实体识别是指通过顺序标注对古文中的命名实体进行识别,支持名称、地点、书籍、时间、官职五类实体的识别。
自动标点技术分析视频截图
人工识别的工作完成后,为了方便用户阅读,校对平台要对形成的文本进行进一步的校对。
首先手动修改3%和4%的错误率,段落和标题分开,然后给出不同的格式。但对于不同质量的古籍文献,整理标准不同,人力资源承担的职能也不同。一般流程是制定整理标准,人工整理,审核,上架。相关管理者是有古籍知识和经验的北大团队。
其次,统计用户访问的数据。然后是资源管理的功能。用户可以更清楚地看到每本书的基本信息、具体内容以及当前的排列状态。
最后,古籍的分类,如经典书目、常读书目和基础书目,如《论语》,对准确性、标点和注释要求较高。据该负责人介绍,目前,这些功能有的已经形成,有的还需要进一步增强。古籍数字化不容易。
古籍数字化的现实困境
中国是世界上拥有古籍数量最多的国家。中国有300万部中国古籍,40多万部流散海外。他们仍然面临衰败。已经数字化的古籍数量为74,000种,数字化进程仍处于初级阶段。
有几个困难。首先,有些古籍在数字化之前要进行修复,但是古籍修复过程复杂,很难完全使用科技手段,培训古籍修复人员需要非常高的时间成本。其次是贵。有专家估算,如果将我国所有未数字化的古籍全部数字化,收集、整理、加工、存储和管理的成本约为60亿元。第三,技术难度高。现有的数字化大多由缩微胶片转换而来,是黑白图像,分辨率较低,难以满足读者的需求。
过去,古籍转化为数字文本主要依靠专家手工输入,费时费力。北京大学数字人文研究中心主任王军算过一笔账:中国现存古籍约有20万种。从1949年到2019年,恢复出版了近3.8万种。修复和整理所有现存的古籍可能需要300年的时间。如果用人工智能技术辅助修复整理,大概二三十年就能完成。
该负责人表示,目前古籍用户数量庞大,部分高校花钱购买古籍数据库,但访问不是很方便。通过建立一个数字平台,各种学科的专业人员可以更方便地查看古籍和文献。对于一些潜在的古籍爱好者来说,数字平台可以快速连接这些用户。
目前经典书籍测试版的句子阅读错误率在3%到4%,字符识别也有一定的错误率,影响阅读体验。经过一段时间的人工智能机器学习,准确率会提高到98%左右。
古籍修复师正在工作。
作为北京大学-字节跳动数字人文开放实验室的成员,王军在古籍数字化方面有着丰富的经验。他开发了“宋元学案知识图谱可视化系统”,对240万字的宋元学案文本进行加工分析,提取了2000多位宋元理学家和近百个学术流派构建知识图谱。
据他介绍,对于古典名著的开发和应用,北大主要从三个方面入手。一是联系国内图书馆寻求公版资源,保证版本的合法性;第二,联系北师大、复旦、南大、陕师大等高校的学者、文献专家进行人工审核校对,弥补人工智能在识别错误率上的不足;再次,北大利用自己的学术平台,链接学界和高校的年轻用户,弘扬经典。
古籍保护的更多可能
字节跳动有多个信息分发平台,有很多关于内容平台的经验和技术,可以逐步向古籍智能化数字化方向迁移。在过去的半年里,经典古籍的技术开发团队整合了字节跳动人工智能实验室的设计团队、今日头条以及Tik Tok的开发测试团队成员,其中不乏古代文学和文学、历史、哲学等专业的成员。
古籍知识在可用性上强调用户体验,网页打开流畅。首页有搜索栏,用户可以直接搜索参考书目;右上方是书库,可以看到四个栏目:经典、历史、儿子、收藏。最下面是古书样本,如《周易》、《荀子》、《左传》,首页最下面是三个栏目:儒家经典、道家经典、文学经典。打开一本书,左边是目录,右边是文字,上面是四个功能项。依次点击可以看到古籍原图、注释、简体字体切换、书库室,每本古籍都有精校和粗校的标签提示。
打开古籍呈现的界面。
目前经典古籍只有网页版,相关技术负责人预计,今年11月,经典古籍将在移动端上线,之后将联动Tik Tok、今日头条,激活更多古籍。
除了数字化,一年多来,字节跳动在古籍修复和活化方面也取得了进展。目前,字节跳动已资助中国国家图书馆定向修复珍贵古籍104卷,现已完成50多卷,其中包括一批稀有图纸。在激活方面,Tik Tok平台推出“寻找古籍守护者”计划,四大名著、二十四史、四书五经相关视频播放量超过600亿次,涵盖漫画、电影、美食、音乐等多种体裁。
古籍承载着中华文明,它的传播需要大众的参与。未来,通过识别古籍,我们将向全社会开放古籍阅读和检索的研究能力,我们还将实现全自动的整理和校对,从而更高效地实现所有库存古籍的数字化。同时鼓励有文献的学者上传自己的文献,丰富平台内容,用户甚至可以参与再创作、再解读,与平台形成良性互动,助力古籍文化传承和研究。
校对刘军