トップページに戻る

Category

AllArchives

Checker

Credit

Chromeはmixiをインデックスするか

ReadWriteWebによるChrome/Google未来像が面白い。必ずしも「crazy」だとは思わないし、Ominiboxの個人情報収集→広告ビジネスで美味しい→個人情報収集を行わない改造版「Iron」、というような、何年前から繰り返されているのか分からないような「古い」煽り方とはひと味違う。と、思う。

意訳:パスワードによって保護されているウェブ、例えばmixiは、通常の検索エンジンによってはインデックス化され得ない。しかしGoogleは、独自ブラウザであるChromeによって、そうした領域をインデックスするための手段を、理論的には手に入れている。

Will Google Use Chrome to Index Password Protected Web? - ReadWriteWeb

もちろん、これはウェブページ内のプライベートな情報をもインデックスし得る方法論だ。それをいかにして避けるか、という話になる。

意訳:プライベートなデータをインデックス化することは、検索エンジン、特に王者Googleにとって許されざる行為だ。しかし、個人を特定せずに「パスワード保護されたウェブページ」をインデックス化することが可能で、それをユーザーに納得させることができたとしたら、どうか。

Will Google Use Chrome to Index Password Protected Web? - ReadWriteWeb

決して「あり得ない」話では、ない。と、思う。



「プライベートな情報」とは、あるURLに関して

  • 僕がそのページを開いた場合
  • 君がそのページを開いた場合

で異なる部分だ。それらが同じであるならば、それは「個人情報」ではない。……この台詞自体が、おそらく現在のインターネットユーザーにとって、実は受け入れがたい話である気がするんだが後述。

つまり、例えばmixi個人トップページ(home.pl)にアクセスしたとき、「自分の最新日記」という部分には

  • 僕がそのページを開いた場合、僕の最新日記
  • 君がそのページを開いた場合、君の最新日記

が表示されている。この領域は「個人情報」だ。少なくともそれを「mixi個人トップページ(home.pl)」としてインデックス化することは許されないだろう。しかし「mixiニュース」の部分には、僕が開こうと君が開こうと、同じ情報が表示されている。

「mixi」に限らず、例えば「こんにちは●●さん」や、オンラインバンクの残高なんかは典型的に「個人情報」だ。


つまり、まずこのロジックになるだろう。

「とりあえず僕や君にパスワード保護されたページ(例えばmixiのhome.plや各個人日記ページ)のソースを送信させ、僕が開こうと君が開こうと、同じである部分をインデックス化すれば良い」

この時点で、実はこの台詞は「mixiの非公開日記は個人情報ではない」を意味している。僕の非公開日記の本文は、僕が開いても友達Aが開いてもBが開いても「同じ」だからだ。

ただ、「個人ブログをインデックス化してもmixi公開日記をインデックス化しない」「mixi公開日記をインデックス化しても非公開日記をインデックス化しない」の根拠は、結構難しい(はず)。「キャッシュ」や検索結果ページ内記述でそれを見せたらNGだとしても、検索結果に(何なら引用無しで)表示したとき、それを「潰す」ことは可能だろうか。

「キャッシュや検索結果ページ内記述が公開されないなら別に(明るい未来的な意味でも、Google=evil的な意味でも)大した事でもないんじゃ?」と思う方には以下を。

  1. 動画共有サイト「Pandora.TV」は、アジア(韓国)製サービスということもあり、日本人にとっても有用な動画の宝庫。少し前にH.264対応となった - Google 検索
  2. 少し前にH.264対応となったことで重要度が更にアップしているサービスだ。HD版動画を探してダウンロードするテクを紹介 - Google 検索
  3. 紹介しよう。 「Pandora.TV」は、動画の寿命が長いことで国内ユーザーにも注目されている韓国の動画共有サイト。 - Google 検索

……このページのソースがムダに長くなるので三つにしておくけど、これを行えば、例えば「非mixiユーザー相手にmixi内情報を晒す」といった行為は、実際問題として可能だ。

つまり、「お前がrobots.txtで拒否るか削除申請出せ」理論を、(例えばストリートビューにおいては認めた上で)このケースにおいて「潰す」ことが可能だろうか、という(←実際これ詳しくないので可能なら教えてください)。

もちろん、これも「アウト」だ。「誰が開いても同じである部分」をインデックス化するには、僕や君にソースの全てを送信させないといけないから。ソースの全てを送信させた上で、Googleサーバー上で識別を行い、プライベートな部分は責任を持って削除します、というのは、まぁ、通らないだろう。


では、例えば

  1. ページ内をdiv要素(例えば)によって分割
  2. 各部分のソースのハッシュ値をGoogleサーバーに送信
  3. 十分に「誰が開いても同じ」と判断された部分があれば、その部分のソース全文送信をユーザーにリクエスト
  4. ユーザーがその部分のソース全文をGoogleサーバーに送信

で、あればどうか、と。

既にこの時点で、まぁはっきり言って「実際問題、だいたい大丈夫だよね」というレベルには、なっている。この段階で実装させたら、やっぱり叩かれるだろうけど、これをあと数段階進めた先。

意訳:この考えがクレイジーだったら教えてくれ。

Will Google Use Chrome to Index Password Protected Web? - ReadWriteWeb

「あと数段階進めた先」は、そんなにクレイジーでも、無い。と、思う。


更に言えば、Chromeが強いのは、Googleアカウントとの紐付けを行える点だ。こうした方法、「ユーザーに送信させたソースを信用する」という方法は、危険なんだ。例えば、何かエアロがバキバキな文章を、君らが「tokixのmixi日記として」送信すれば、そのバキバキが「tokixがmixi上で公開していた日記」ということになってしまう。そうした攻撃ができてしまう。

参考:mixi魚拓を作るメカニズム ■tokix.net

ここらへんでもうちょい詳しく書いてます。

ただ、Googleアカウントとの紐付けで、この問題は現実的に解決できる。つまり、上記のソースハッシュなりソース自体なりを、ユーザーのGoogleアカウントとセットで送信させれば良い。単純に言えば「登録されたばかりのGoogleアカウントから送信された情報は信用しない」という判断を行うことが出来る訳だ。もう少し踏み込めば「GMailやGoogleカレンダーなどの利用度」や「過去の行動からの信用度」といった内部情報を持っておき、それらを使った判断を行えば良いだろう(PageRank〜Google八分を行ってきたGoogleにとって難しいことではあるまい、その手のノウハウは十分に蓄積されているはず)。


……で、この方法自体も、そのままでは「危険」だ。「Googleアカウントと、そのアカウントのユーザーが見たページ」をセットで送信させることに対する拒否反応が、あるから。

従ってこれを「一切の個人情報と結びつかない個人識別番号の送信」で行う必要があり、その「一切の個人情報と結びつかない個人識別番号の送信」に対する拒否反応の(近未来における)大小や、それをいかに信用度情報に結びつけるかという問題(単純に言えばGoogleアカウントのハッシュ値と結びつければ良いんだが、それは「個人情報と結びつかない」と言えるのか?)になっていく訳だけど。


いずれにしても、この記事ではまだ「足りない」。足りないが、この先に。

Googleが作る未来像、もしくは「Google=evil」論を、例えば、こういう場所から。

SeeAlso

SameSubCategory

Footprint

Navigation

Comment

記事を読ませていただいてはっとしました。
確かに興味深いですね。

sakage 2008/10/08 11:46:37

PostForm

情報を登録  
コメントは本文以外省略可能で、当方の承認後掲載されます