字节跳动与北京大学合作研发数字化平台“识典古籍”测试版上线

35小吃技术网 推荐阅读 2022年12月16日18时07分53秒 201 0

据字节跳动宣布,字节跳动与北京大学合作研发古籍数字化平台“识典古籍”测试版上线,目前平台已上线390部经典古籍,共计3000多万字,向公众免费开放,未来三年“识典古籍”将陆续完成一万种古籍智能化整理工作,基本覆盖儒家、道家、佛家核心书目。

字节跳动与北京大学合作研发数字化平台“识典古籍”测试版上线-第1张图片字节跳动与北京大学合作研发数字化平台“识典古籍”测试版上线-第2张图片

据不完全统计,中国现存古籍约20万种,已完成数字化影像扫描8万种,实现文本数字化3~4万种,为方便在古籍“图书馆”里检索、阅读,“识典古籍”平台主要采三项人工智能技术:

  • 文字识别:用OCR(光学字符识别)技术将古籍影印版图像识别成文字,目前行业内OCR识别准确率平均93%~94%,“识典古籍”提高到96%~97%。
  • 自动标点:通过算法,给原本缺少断句古籍自动打上标点符号,例:《论语》开篇“学而时习之不亦说乎”,自动标点后—“学而时习之,不亦说乎?”
  • 命名实体识别:识别古籍中的“专有名词”,包括人名、地名、书籍、时间、官职五大类型。

字节跳动称,与同类型平台相比,“识典古籍”访问较稳定、速度快,繁简体转换、主题词检索功能便于高效获取内容,还提供权威来源影印版底本,与数字化文本内容互相对照,一年多来,字节跳动资助国家图书馆定向修复珍贵古籍104册件,现已完成50余册件,包括一批稀有样式雷图档。

字节跳动与北京大学合作研发数字化平台“识典古籍”测试版上线-第3张图片字节跳动与北京大学合作研发数字化平台“识典古籍”测试版上线-第2张图片

“识典古籍”未来还将实现全自动整理校对,并免费开放,促进存量古籍数字化,还将向全社会开放古籍阅读检索研究能力,同时鼓励拥有文献学者自行上传文献,用户能参与再创作、再阐释。