メインナビゲーションにスキップ 検索にスキップ メインコンテンツにスキップ

生命科学分野の大規模知識グラフからの構造獲得とそれに基づく効率的知識取得

プロジェクト: 学内教育施設等への助成金

プロジェクトの詳細

内容の説明

効率の良いサンプリングからのスキーマ構造推定方法を確立するためには,サンプリングによるスキーマ構造の精度を評価する必要がある.スキーマ構造の精度の評価には,スキーマ構造の正解セットが必要なため,まず,生命科学分野の13のSPARQLエンドポイントから,従来の網羅的に構造を探索する方法で,RDFデータの正確なスキーマ構造の取得を試みた.13のうち,9つからは時間をかけて取得することができたが,4つはサーバが途中から応答しなくなるなどの理由から取得ができなかった.従来の方法でスキーマ構造が取得できた9つのRDFデータは,生命科学データとしては中程度のサイズのものが多く,最大のタンパク質配列データベースUniProtなどの巨大なRDFデータでは失敗していた.本研究のサンプリング手法は巨大なRDFデータの利用を想定したもののため,巨大なRDFデータの正解セットも必要である.そのため,巨大なRDFデータについては,データをダウンロードサイトからファイルとしてダウンロードして処理し,正解セットを作成することとした.そのため,巨大なRDFデータとしての評価対象は,ダウンロードが可能な3つ(UniProt, DBKERO, PubChem)のRDFデータに絞ることにした.これら3つのデータをダウンロードし,手元でクラス間関係などのスキーマ構造を計算することで,評価用の正解セットを得ることができた.また,サンプリングの基準となる,各クラスのインスタンス数やプロパティの利用数など,基本的な統計情報を得ることができた. また,生命科学分野で典型的に使われるSPARQLクエリのパターン収集の一環として,医学分野における診断支援アプリケーションにおけるクエリパターンを収集し解析を行った.その結果,ここで用いられるクエリはstarとpathの組み合わせで記述できることが分かった.
ステータスアクティブ
有効開始/終了日1/04/21 → …

資金調達

  • 日本学術振興会: ¥4,290,000