PD図書室 について
いや、なに、あちこちに散らばっている、パブリックドメインのテキストを
整理して、収集してみようか、と思ってネ。
方針としては、サイト毎にまちまちな、メタデータ(著者名やらいろいろ)の
整理と、テキストの品質評価( OCR品質から、信頼できる品質 までの段階評価 )
の情報の追加、形式の統合(unicode化その他)、など。
当面は、テキストの重複は厭わない(けれども、一方の品質が明らかに劣るなら、
それは落とす)、くらいかな。データがあまり整理されていないサイトを優先的に集めるつもりです。
収集元のファイルとファイルの大きさが違っているのは、文字コードの変換などの処理を行なったためです。明らかに化けている文字などは修正していることがあります。
収集するのは、原則として日本語の文献のみ。日本文化に著しく影響を与えたなどの理由があれば、例外を設ける可能性は有る。
Creative Commonsのデータ(Public Domainでないもの)も収集の対象外です --
いろいろややこしくなるので。
ファイル形式に関しては、当面はいろいろと雑多な形式が混在することに なると思いますが、基本的には TEI形式を ベースにして、残りの形式はそれからの 変換によって得られる形に統一したいと思っています。
PD図書室 というタイトルは、仮につけたもの。変更になるかもしれません。
(2010年10月23日)