古籍的书写格式(把竖排繁体无标点的古籍自动转换为横排)

有好几天没更新头条文章了原计划每天5-10篇文章,其中《民国列女传》每天5个人物,《民国老照片》每天5张照片、每天一篇介绍《趣味历史》软件的功能和历史人物分类、微头条若干,今天小编就来说说关于古籍的书写格式?下面更多详细答案一起来看看吧!

古籍的书写格式(把竖排繁体无标点的古籍自动转换为横排)

古籍的书写格式

有好几天没更新头条文章了。

原计划每天5-10篇文章,其中《民国列女传》每天5个人物,《民国老照片》每天5张照片、每天一篇介绍《趣味历史》软件的功能和历史人物分类、微头条若干。

中断了这几天,是因为最近有了点灵感,要写一个新的程序,一个把竖排、繁体、无标点的古籍自动转换为横排、简体、有标点的文字的软件。

1)市面上有成熟的pdf转图片功能,有OCR文字识别服务(支持竖排),有龙泉寺提供的自动加标点的网站,二者相结合,就可以把竖排、繁体、无标点的古籍pdf,自动转换为横排、简体、有标点的文字。注意,是文字版本,而不是之前扫描的图片。

有了文字就可以全文检索。

2)针对于哪些古籍呢?

扫描《资治通鉴》?网上已经有文字版本了,可以用来做准确度测试工具。

不针对于现代人和当代人的著作,会涉及到版权问题。

针对的主要方向,是那些目前网上没有文字版的古籍,比如说历朝历代的文人笔记,各地的县志,里面记载了大量的史料,是正史里面没有的。把这些内容转换成文字,录入到素材库,可以为自媒体人提供更多的写作素材。

目前在解决的几个问题:

1)把多张图片拼接在一起去OCR扫描,能节省成本。看了一下几大厂商各自的OCR价格,量大的话,也是一笔不小的银子,因此怎么能做到拼接尽可能多的图片,而又不失真,导致降低扫描精度,是研究的一个方向。

2)把这些步骤串起来,成为一条龙服务,有可视化操作界面,中间任何一个步骤出错、任何一张图片出错,都有对应的重试和容错机制。

3)扫描后生产的文字段落,进行排版,可以在可视化软件中,手动调整段落的顺序和级别,更正错字。

如果您对我在做的这个事情感兴趣,欢迎可以参与进来。

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页