文字コードについて
unicode/utf-8 を基本とします。現在のところテキストを取り込んだ時点で、
すべて、utf-8 に変換しているので、utf-8以外のテキストは収容していません。
但し、utf-8をそのまま編集できるテキストエディタがあまり存在しない現状を
考慮すると、JIS第1水準、第2水準以外の文字については、実体参照( &#xnnnn; の
形で unicodeを表現したもの)の方が利便性が高い気がするので、
気がついた範囲で実体参照に置き換えています。
テキストの品質評価について
当サイトでは、テキストの品質について、以下のような段階評価を加えています。
評価 | 基 準 |
---|---|
未だ評価が行なわれていない状態 | |
× | OCRで読み込んだままの状態程度 |
△ | OCRの状態から、ゴミ等を取り除き、一見したエラーはない状態 |
○ | 初校が終った程度 (エラー率 1000文字あたり3文字以下) |
◎ | ほぼ信頼できる程度 (エラー率 10000文字あたり5文字以下) |
初登録日について
当サイトに登録された日でなく、元となったテキストの最終更新日となっていることがあります。あまり厳密なものではありません。