PD図書室 - PD図書室について

PD図書室について

いや、なに、あちこちに散らばっている、パブリックドメインのテキストを整理して、収集してみようか、と思ってネ。

方針としては、サイト毎にまちまちな、メタデータ(著者名やらいろいろ)の整理と、テキストの品質評価( OCR品質から、信頼できる品質までの段階評価 ) の情報の追加、形式の統合(unicode化その他)、など。
当面は、テキストの重複は厭わない(けれども、一方の品質が明らかに劣るなら、それは落とす)、くらいかな。データがあまり整理されていないサイトを優先的に集めるつもりです。
収集元のファイルとファイルの大きさが違っているのは、文字コードの変換などの処理を行なったためです。明らかに化けている文字などは修正していることがあります。

収集するのは、原則として日本語の文献のみ。日本文化に著しく影響を与えたなどの理由があれば、例外を設ける可能性は有る。 Creative Commonsのデータ(Public Domainでないもの)も収集の対象外です -- いろいろややこしくなるので。

ファイル形式に関しては、当面はいろいろと雑多な形式が混在することになると思いますが、基本的には TEI形式をベースにして、残りの形式はそれからの変換によって得られる形に統一したいと思っています。

PD図書室というタイトルは、仮につけたもの。変更になるかもしれません。

(2010年10月23日)

PD図書室 について

PD図書室について