青空文庫 を Unicode の JSON に変換する
index_pages/list_person_all_extended_utf8.csv
をもとに次のデータを収集:- 本
- 著者
- 本 対 著者
テキストファイル URL
から作品をパースして収集- 収集する条件:
- https://www.aozora.gr.jp/ から始まる
作品著作権フラグ
及び人物著作権フラグ
がともに"なし"
- 収集する条件:
- 青空文庫のリポジトリ を clone する
$ cargo run <青空文庫のリポジトリへのパス> [出力先パス]
-
レイアウト
- ページや段をあらためる処理
- 改丁
- 改ページ
- 改見開き
- 改段
- 字下げ
- 1 行だけの字下げ
- ブロックでの字下げ
- 凹凸の複雑な字下げ
- 地付き
- 地寄せ
- ページの左右中央に組んである処理
- 左右中央
- ページや段をあらためる処理
-
- 通常の見出し
- 同行見出し
- 窓見出し
-
外字
出力は Unicode なので可能な限り注記から文字を求めて出力する。
底本でのページ番号や行数は保存しない。-
- JIS X 2013
- Unicode
- JIS X 2013 にも Unicode にもない
- 現状は
※[{}]
そのままにしている
- 現状は
-
- JIS X 2013
- くの字点
- 変体仮名
- 正体仮名にする
-
-
訓点
-
強調
-
画像とキャプション
-
その他
-
訂正とママ 無視する
-
[#「○○」に「ママ」の注記]
-
[#「○○」は底本では「●●」]
-
[#ルビの「○○」は底本では「●●」]
-
[#「○○」はママ]
-
[#ルビの「○○」はママ]
-
-
-
青空文庫をこえた利用から
- 本文終わり
-
底本:
-
[#本文終わり]
- 利用例が見つからないので保留
-
- 本文終わり