首页 社会 正文

嘉图科技:数字化激活古籍生命力

2023-12-22 15:06 中国经济导报-中国发展网
古籍 数字化 检索技术

摘要:古籍数字化将古老的文化和现代技术很好地结合了起来,是新形势下中国古籍管理的重要方式。数字化古籍具有容量巨大、检索便捷多样、便于永久保存的特点,在网络环境下,实施古籍数字化具有重要的意义

中国经济导报 中国发展网记者杨虹

中国古籍不仅是中国的伟大文化遗产,也是世界文学、历史、哲学与科学技术宝库的一部分,鉴于中国是造纸和印刷的发明国,中国的古籍应该得到认真的研究和精心的维护,更由于它们巨大的文献价值,中国的古籍应该得到最高水平的整理和编目。“古籍数字化将古老的文化和现代技术很好地结合了起来,是新形势下中国古籍管理的重要方式。数字化古籍具有容量巨大、检索便捷多样、便于永久保存的特点,在网络环境下,实施古籍数字化具有重要的意义。”江苏嘉图网络科技股份有限公司(以下简称“嘉图科技”)相关负责人表示,数字化激活了古籍的生命力。

组建专业古籍数字化团队

古籍因其特殊性,原文繁体无断句,异体字、生僻字等又不被通识,许多字还有各种不同的书写方式,普通读者阅读困难,更无从谈利用与研究。古籍数字化是传统古籍整理与现代计算机技术相结合的产物。通晓计算机的人才并不难找,而精通古籍文献知识的人才却不是太多,既懂古籍又精通计算机的人才更是少之又少。古籍数字化是一项系统的工程,需要投入大量的人力、物力和财力。如何将文献信息资源标准规范,利用人才将古籍活化、智能利用、知识关联,以尽可能小的投入获得最大的效益,包括社会效益及经济效益,是一个值得思考的问题。

嘉图科技自2005年开做古籍数字化工作,目前己持续18年。嘉图科技逐渐组建了专业古籍数字化团队(包括扫描团队、录入团队、校对团队、元数据著录团队等)。从最初的手工录入到如今的自动识别、自动校对,嘉图科技已解决了目前古籍数字化门坎高、效率低、错误率高、成本高,古籍里异体字、通假字、方言字的存在导致录入困难,容易出错等问题。目前主要客户为苏州图书馆、常州图书馆、常熟图书馆、昆山图书馆、嘉兴图书馆等。

文献资源数字化已成为一种趋势

据嘉图科技相关负责人介绍,随着传统文化热持续升温,计算机信息技术的日新月异,文献资源数字化已成为一种趋势。古籍数字化经历了从无到有、从小到大的发展过程,目前已经建立了古籍书目数据库和古籍全文数据库。

一是古籍书目数据库,我国比较早建立书目数据库的有国家图书馆、南京图书馆、辽宁图书馆等。目前,拥有古籍馆藏的图书情报机构大部分都建立了古籍书目数据库,提供古籍的收藏信息和版本情况,方便广大读者和研究学者对古籍的应用。而且,至少有几十个图书馆网站能够提供古籍书目检索。

二是古籍全文数据库,对古籍文字的全文进行数字化处理,直接为用户提供古籍的全文阅读或全文检索以及相关统计分析等。它免去了用户检索书目数据库后还得费力去获取原文的麻烦,同时,由于全文检索的实现,极大地提高了查全率。古籍全文数据库是目前古籍数字化的主要形式,几乎涉及中国古籍的各种类型,包括综合类丛书,史书系列,编年体史书系列,文学古籍系列、经学、宗谱、家谱等各个方面。目前有综合性古籍数据库的,比如《四部丛刊》、文渊阁《四库全书》、《十通》、《中国历代石刻史料汇编》等,我们嘉图也协助苏州图书馆建立了具有苏州特色的“苏州图书馆古籍数据库”。

古籍数字化对传统学术研究意义重大

中华古籍浩如烟海,但我国到底现存多少古籍?长久以来都没有明确的答案。即便权威的专家也只能给出一个笼统的回答——约26万种、5000万册。据文化部发布《“十三五”时期全国古籍保护工作规划》,提出到2020年全国古籍资源和保存状况基本摸清,并将修复一批珍贵古籍。届时全国完成古籍普查登记的古籍收藏机构的数量将达到2000家,珍藏古籍的修复数量达到350万叶。从严格意义上的古籍整理来考察(即影印、标点、注释、白话、评点、校勘和辑佚),目前我国已整理出的古籍还不到总数的十分之一,其数量不超过12000种。如此巨大的体量,当然无法全部完成数字化,这是一个艰巨又漫长的工程。我们可以根据古籍的内容、性质、流传情况等,从读者的需求出发,采用不同的方法,或者建立古籍数据库,或者进行古籍原文图像复制,或者实现古籍图文的数字化,或者实现古籍知识及关联的数字化。

“然而这些都只是停留在数字信息的基本上,我们还将继续挖掘古籍数字化对传统学术研究的作用和影响。延伸国学研究者的记忆,提高研究效率,推进传统学术研究走向定量分析和统计分析。”据嘉图科技相关负责人告诉记者,古籍数字化有三个发展过程,即原生性保护——古籍修复、再生性保护——古籍数字化平台、传承性保护——古籍活化。

自2007年,在嘉图科技古籍数字化平台与服务的支持下,苏州图书馆逐步推进并建设了“苏州图书馆古籍数据库”与“苏州图书馆民国数据库”。已建设数据库包括地方志、名人、风俗、水利、人物志、园林志等苏州古代地方文献、馆藏珍贵古籍、苏州地区家谱以及苏州文人别集等内容。作为首批国家历史文化名城之一,苏州拥有得天独厚的优势。2022年11月29日,苏州古籍馆作为全国首个地级市古籍馆在苏州图书馆揭牌。

image002

全国首个地级市古籍馆“苏州古籍馆”揭牌仪式

截至目前,嘉图协助苏州图书馆累计建设古籍和民国文献数字化工作 120 万页左右(页=半筒子叶),接近1500种类型。同时,在“原版原图”保存古籍的基础上,注入科技的新鲜血液,实现了远程登录、图文对照数字化成品、全文检索、繁简字转换等功能,为传统学术专题研究与古籍阅读提供强有力的支持,进一步推进了文化交流与共享。

image004

苏州图书馆成品案例:错误率万分之五

创新古籍数字平台,拉近读者与古籍距离

嘉图科技自主研发了创新的古籍数字平台,以“精准OCR识别”“自动排版”“自动校对”降低古籍数字化加工人员专业性高的从业门槛,以古籍数据库“支持移动端浏览”“影像全文检索”“简繁转换”等独特优势拉近读者与古籍的距离,实现古籍资源的充分共享与有效利用。例如,精准OCR识别:超强的OCR识别技术刻本识别率高达99%。自动校对与字库示例:嘉图古籍数字化平台能自动标识出异体字、通假字以及识别过程中发现错字。平台会加载多个候选字,并显示出该字各种写法。工作人员只需点击图片标出的词字,选择确认即可。

image006

古籍校对示例

支持移动端浏览:平台支持多平台的文献浏览,除行业常见的PC端外,还新上线了移动端浏览模式,并增加了笔记、注解、修订等功能。将古籍浏览行为落到普通读者手中,实现随时随像阅读普通电子书一样“以我为主,为我所用”。

image008

苏州图书馆古籍数据库页面(手机端)

字段&全文检索:为提高读者获取文献的效率,嘉图科技的古籍数字化平台能提供字段检索与全文检索,即读者不仅能按照古籍书名、作者、版本、年代等书目信息检索,还能输入任意关键词,实现古籍库内全文内容的快速锁定与高亮,相关字段也支持多种组合。

image010

全文检索示例

影像化全文检索:作为不少图书馆的首选,经过“古籍影像化”后的书库虽以图片形式呈现并供读者浏览,但嘉图科技的古籍数字化平台也支持全文检索功能,助力实现浏览的高效与便利。

简繁转换:有效降低如今年轻人的古籍阅读障碍。

image012

简繁转换示例

责任编辑:杨虹


返回首页
相关新闻
返回顶部