4.3 メタデータ

補助的データ記述の最も原始的な形式の一つがメタ データである。メタデータは、まさしく文字通り、データについてのデータである。メタデータの最も単純なものはデータフィー ルドのラベルである。メタデータの細目として、データタイプやデータ長を持つ事ができる。 XMLは、データフィールドを記述する用語機能や構成デー タ要素に関する論理スキーマ機能やネームスペースを作成する機能の為のプロトコルを定義する事により、メタデータの概念を利用している。

 

高度に構造化されたデータセットの中には、相当な量 のメタデータが存在するであろう。しかし、より構造化されていないデータセットの中には、より少ないメタデータしか存在しない、故に、それをより扱い易く する方法は、それ自身に関する情報のタグを付けることによりメタデータを作ることである。その様なタグは通常XMLで記述される。写真に付ける写真または地図に付けられる地図などのタグ付けは、イメージファイルの集合を検索す る時、非常に大きな意味を持つ。更に言うと、ある写真に対して、それが撮影された場所、日付、その対象などに関する情報を附加できる。地図の場合、日付や 場所などを附加し、街路図、トポロロジカルマップまたは戦闘指令図等の地図の種類で分類できる。

 

 メタタグと呼ばれるメタデータの一種は、正規の ウェブページの仕様書の一部として定義されており、ウェブページの内容に関するより良い情報を提供する事を目的としている。しかし、検索サイトや信頼性に 関する懸念を欺く為にメタタグが用いられた為、検索サイトがメタタグを使う事をやめたので主流となれなかった。しかし、メタタグ以外のメタデータの利用 は、企業の中やウェブ上の基本的なデータ統合の方法として別の形で、復帰しつつある。データソース(資源)の評判や信頼性を評価するための新しい方法も開 発されつつあり、それによって検索能力を高めたり、信用を改善したりするだろう。

 

メタデータの一般化しつつある代表的な例は、2003年と2004年のRSS送出の劇的な増加である。RSSは、Real Simple Syndicationの略称であり、ニュース若しくはニュースの様なコン テンツを配給するためのフォーマットである。

要するに、RSS(XMLで記述された)メタデータ標準の一種であり、ニュース配給チャネル の中で、ニュースの見出しや(著者や作成時刻のような)アイテム情報を記述するのに用いられる。RSSは、比較的軽量のメタデータ記述フォームであるが多 目的で拡張性がある。その標準は数年前から存在していたが、ほんの2003年から特にブログの世界で利用が広まった。(20049月時点で)ウェブの中に90万を越えるRSSのチャネルが存在し、毎日1000のオーダーで増加している。RSSの利用者にロイターやW3CニュースやスラッシュドットやXMLニュースなどがいる。そのメディア領域の拡大及びそ の技術領域に於けるRSS開発戦略の新たな出現は、この技術の可能性を明示し ている。

 

XMLの出現と共通メタデータスキーマとを原動力として、 企業内のメタデータの利用は、ここ数年着実に増加している。メタデータの形式と意味との合意がなされた時、XMLは、情報を生成し、また、格納するシステムやアプリ ケーションに依存しない情報を作る為に単純ではあるが強力なツールとなる。しかし、組織や個人が、ドキュメントを作らず、あるいは、他人が理解するのに記 述が不十分なまま、独自のやり方でメタデータを実装したら、幾つかの問題が起きるであろう。この様な独自のアプローチは、しばしばデータストアの保有者以 外の人に、基本的な情報が分からず、また、アクセスすら出来ないといった状態を来たす。

 

メタデータの中の用語、構造及び意味の矛盾や不調和 を取り扱う事は、セマンティック技術の初期のアプリケーションの一つである。例えば、ある連邦機関が、色々なソースからある一つのWebポータルに統合されている健康と環境汚染物質との情 報を共有する為の最適な方式を決めようとした時、色々な形式のデータを結合しなければならなくなり、メタデータの重要性を明確に理解した。このプロジェク トの最重要の挑戦事項は、形式とソース(その機関の管理下以外のもの及び影響下以外のものを ソースとして含む)が本質的に異なる情報をどうするか検討する事であっ た。その問題を分析した後、システム設計者は発散的な用語矛盾と意味の不一致との調和は、このシナリオを処理するためのメタデータ管理ツールを活用するこ とで達成する事が最良であると結論付けた。

 

このツールは、コアの機能として、色々なデータソー スの意味衝突を調整し、正規且つ一貫したクエリーを行い、更には、表示する機能を有する。セマンティック技術は、色々な理由で企業の中のメタデータの活用 を加速する。この技術は、メタデータを(a)有用にし、(b)容易に管理可能にし、(c)再利用可能にする。開発者により再利用され、利用者 により二度以上アクセスされ、アナリストにより正確であることが保証されたメタデータは、性能と生産性とを向上させるデータでもある。加えて、ある特別な ニーズ(及び当該組織にとって有意義である何か)に関連すると見做されるメタデータは、従業員やその 他の人々により保全されるべきメタデータでもある。

 

4.3.1 メタデータ標準

メタデータ標準にはDublin Core Metadata Initiative(DCMI)等が有る。DCMIは、相互互換可能なメタデータ標準の広範な採用を促進 し、且つ、より知的情報発見を可能にするリソース記述を行うための特殊なメタデータ語彙を開発するためのものである。ISO 16642 (Computer applications in terminology -- Terminological markup framework)は、用語データ集合の中に記録されたデータを記述す るための基本原則に関するガイディングフレームワークを定義している。このフレームワークは、メタモデルとXMLを用いた特殊な用語のマークアップ言語を記述するた めの方法とを含んでいる。ISO/IEC 11179は、データ要素の標準化に関する6編から成る標準で ある。その標準はデータ要素の構造定義を行なう為の規則とガイドラインとを規定している。PRISMは、出版業界の団体が開発している標準メタデータ語 彙である。OMG(Object Management Group)は、アプリケーション開発及びシステム開発の為の沢 山のモデル化仕様書とメタデータ仕様書とを提供している。注目に値する標準はMOF(Meta-Object Facility)である。MOFは、プラットフォームに依存しない方法で、メタデー タとデータを定義したり操作したり統合したりするための拡張性のあるモデルドリブンの統合フレームワークの一種である。MOFベースの標準は、ツールやアプリケーションやデータ を統合するために使用されている。その他のメタデータに関連する例には、メタデータ交換のためのOMGCWM (Common Warehouse Metamodel)があ る。(OMGW3Cとは現在、より密接に活動する方法を模索している)

 

メタデータ標準、そして/または、標準化努力は、地理空間的(geospatial)な情報及び健康管理から一般の消費者市場に至る迄 多くの産業で見られる。地理空間的(geospatial)な分野における注目すべき成果にはISO 19115Digital Geospatial Metadataと連携し ているFederal Geographic Data Committeeがある。商用で市場に受け入られつつある標準にXMP(Extensible Metadata Platform)と呼ばれるものがあり、これはアドビシステム社に よって開発されたものである。XMPは、RDFのサブセットを使ってファイルの中にメタデータを埋 め込むことを可能にする。特に注目すべき事は、XMPPDFと沢山のイメージ形式をサポートしている事であり、 それにも拘らず、殆ど総てのファイルタイプをサポート出来る様設計されている事である。

多くのアドビのアプリケーションは、XMPスキーマを書く事ができ、加えて、アドビはXMPソフトウェア開発キットを提供している。

ウェブコンテンツのデジタル著作権管理を目的とする 非営利団体のCreative Commonsは、機械処理可能な形式でデジタル著作権管理情報を 埋め込むためにXMP(及び、ネイティブのRDFSMIL、複数のオーディオ形式など幾つかの他のメタデータ 形式)を利用している。この機能は、デジタル著作権の自動 的な管理やネゴシエーションを行うのに役に立つ。例えば、イメージファイルの集合に対して、特定の主題でないもので、且つ、非商用利用なら無料のイメージ を検索するために問合せを行う事が可能になる。

 

目次へ