PD図書室 について

いや、なに、あちこちに散らばっている、パブリックドメインのテキストを 整理して、収集してみようか、と思ってネ。

方針としては、サイト毎にまちまちな、メタデータ(著者名やらいろいろ)の 整理と、テキストの品質評価( OCR品質から、信頼できる品質 までの段階評価 ) の情報の追加、形式の統合(unicode化その他)、など。
当面は、テキストの重複は厭わない(けれども、一方の品質が明らかに劣るなら、 それは落とす)、くらいかな。データがあまり整理されていないサイトを優先的に集めるつもりです。
収集元のファイルとファイルの大きさが違っているのは、文字コードの変換などの処理を行なったためです。明らかに化けている文字などは修正していることがあります。

収集するのは、原則として日本語の文献のみ。日本文化に著しく影響を与えたなどの理由があれば、例外を設ける可能性は有る。 Creative Commonsのデータ(Public Domainでないもの)も収集の対象外です -- いろいろややこしくなるので。

ファイル形式に関しては、当面はいろいろと雑多な形式が混在することに なると思いますが、基本的には TEI形式を ベースにして、残りの形式はそれからの 変換によって得られる形に統一したいと思っています。

PD図書室 というタイトルは、仮につけたもの。変更になるかもしれません。

(2010年10月23日)