図書館情報学を学ぶ

はてなダイアリーで公開していたブログ「図書館情報学を学ぶ」のはてなブログ移行版です。

ウェブサイエンスの抱える「再現性」の問題

ここしばらく利用履歴について記事を書いてきましたが、それに関連して「ウェブサイエンスにおける再現性の問題」について少し語ってみたいと思います。

ウェブサイエンスとは

現在のウェブは、ブログやSNSソーシャルブックマークといった様々な形態のウェブサービスによって複雑に構成されています。そのウェブのネットワークを分析し、ユーザーの情報行動や話題の伝播を解き明かし、応用技術を生み出していくのがウェブサイエンスという研究分野です。
社会のあらゆる情報がウェブにある現在、ウェブサイエンスは人々の生活環境を整える重要な研究であるといえます。
しかし、私の考えでは、ウェブサイエンスには再現性の点で問題点を抱えていると思います。

再現性とは

科学における重要な概念として、「再現性」というものがあります。再現性とは、ある研究で示された実験結果が再現できることを指します。科学の最大の目的は普遍的な法則性の発見であるため、すべての研究成果に再現性があることを理想としています。
研究に再現性を持たせるには、次の2点が重要です。

  1. 実験対象が再現可能(他人が同じものを用意できるか)
  2. 実験の手順が明かされていること

前者は研究そのものの問題であり、後者は研究論文の書き方など成果の伝え方の問題です。いずれにしても、研究者は自分の研究を正当にするために、この2点に配慮する必要があります。
ところが、現状のウェブサイエンスの置かれた状況では、前者の条件を満たすことが難しいのです。

問題点:ウェブは常に変化し続ける

ウェブのネットワークは、常に増殖し続けます。また、ウェブページは内容が再編集される可能性があり、時に削除されることがあります。このように不安定なウェブを分析対象とする場合、その分析を再現することが難しくなります。
たとえば特定の話題についてのブログのネットワークを分析して、そこからブログでの情報伝播の法則性を見出そうとする研究を行ったとしても、ブログのネットワークは時間がたつごとに変化してしまうので、その分析が正しいかどうかを検証することが困難になります。つまり再現性を示しにくいということになります。
これを解決する方法として、以下の2点が考えられます。

解決策1:ウェブ全体を時系列にアーカイブする

例えば2008年12月の時点でのウェブのネットワークを、ファイルごと保存することができれば、時間がたった後でも繰り返し同じ条件で分析を行うことができます。
これに近い試みとして行われているのが、InternetArchiveです。InternetArchiveでは特定のウェブサイトの変化の様子を時系列に保存されたファイルを参照することで追うことができます。

解決策2:ウェブサービスの運営が研究者向けにデータを公開する

ブログやSNSなど、特定のウェブサービスを分析する研究の場合、こちらのほうが現実的だといえます。例えば、はてなはてなダイアリーの2008年12月の時点での記事データを研究用のリポジトリに登録すれば、少なくともはてなダイアリー内のネットワークの分析を繰り返し行うことができます。
また、例えばmixiのデータとGreeのデータというように複数のサービスからデータが提供されれば、それぞれに同じ分析を実施することでSNSに共通する何らかの法則を発見するなど、より普遍的な研究成果が得やすくなるでしょう。
実際にデータ提供がなされた事例として、Yahoo!知恵袋がNIIに対して質問回答データを提供した事例があります。

現状:研究用のデータが十分に提供されていない

上の2点のいずれかが行われれば、ウェブサイエンスにおいて再現性が示しやすくなり、研究がスムーズに進むでしょう。しかし、解決策1は非常にコストがかかり、完全な形でウェブのネットワークを保存するには莫大な予算が必要となります。また、解決策2のようなウェブサービスと研究機関の間の連携はまだ未整備な状況にあるといえます。

展望:第2回SBM研究会で提唱された「研究用データの提供プロジェクト」

このようなウェブサイエンスの問題を解決すべく、最近になってウェブサービスに対して研究用のデータ提供を研究者側および研究に理解のある企業が呼びかけるようになってきています。
その例として最近催された第2回SBM研究会でのカンファレンスです。ここでは、はてなLivedoor、ECナビなどのSBMを運営している企業とSBMの研究者とが互いに協力するような体制について話し合われており、「研究用にSBMのログを提供すること」「複数のSBMのログを統一的に扱えるようなフォーマットを策定する」といったアイデアが提案され検討されました。
まだプランの段階ではありますが、ぜひこのような活動が推進されて欲しいと思います。

まとめ

長いうえに要領の得ない内容となってしまいましたが……結論として何が言いたいのかといいますと、ウェブサイエンスが発展していくためにはウェブアーカイブや公開された研究用データを利用できるような社会的環境が不可欠で、ウェブサービスを運営している方はぜひ学術研究への貢献を考えて欲しいということです。
また、先日紹介した図書館利用履歴のデータを研究向けに公開した事例のように、図書館もまたこのようなデータ提供のホストとなることができます。図書館もまた情報提供サービスという点ではウェブサービスと変わりがありません。
現代の社会において、学術研究への協力活動が浸透していくことになれば、多くの研究成果が生まれることになると思います。これはウェブサイエンスに限った話ではありません。
ぜひとも多くの人に学術研究への理解を示してくれるようになって欲しいと私は思います。

関連記事(他サイト)

関連書籍

ウェブサイエンス入門―インターネットの構造を解き明かす (コミュニケーションサイエンスシリーズ)

ウェブサイエンス入門―インターネットの構造を解き明かす (コミュニケーションサイエンスシリーズ)