例如: https://github.com/NiuTrans/Classical-Modern/blob/4e746ea9fa99c3c0d7051c45397330bef7b0962d/%E5%8F%8C%E8%AF%AD%E6%95%B0%E6%8D%AE/%E6%98%8E%E5%8F%B2/%E6%9C%AC%E7%BA%AA/%E5%8D%B7%E4%B8%80/source.txt#L1 同时注意到`◎太祖一`其实是标题,不应该置于正文中。此外其他章节均有混入特殊字符`◎`。不知你们是否保留带格式原文便于清洗,如果没有,可以参考这个[仓库](https://hunterhug.github.io/china-history/)。粗略对比一下,二者数据是相同的。
例如:
Classical-Modern/双语数据/明史/本纪/卷一/source.txt
Line 1 in 4e746ea
同时注意到
◎太祖一其实是标题,不应该置于正文中。此外其他章节均有混入特殊字符◎。不知你们是否保留带格式原文便于清洗,如果没有,可以参考这个仓库。粗略对比一下,二者数据是相同的。