米有権者2億人弱の個人情報1.1テラバイト分がうっかり流出

  • 5,576

  • author satomi
  • X
  • Facebook
  • LINE
  • はてな
  • クリップボードにコピー
  • ×
米有権者2億人弱の個人情報1.1テラバイト分がうっかり流出
Image: UpGuard

全部刷りだしたら100億ページ分! 有権者情報の露出としては人類史上最大です。

トランプ大統領当選を支えた共和陣営の調査会社から、アメリカ全人口の62%にあたる1億9800万人の有権者の個人情報1.1テラバイト分が今月ウェブに野ざらしになっていたことがわかりました。有権者のセンティメント分析で集めたデータポイントは計95億件。それらがAmazonクラウドサーバーに12日間、パスワード未設定で保存されており、リンクさえあれば誰でもアクセスしダウンロードできる状態だったといいます。

保存したのは共和党全国委員会(RNC)が選挙運動で雇ったマーケティング会社Deep Root Analyticsです。米Gizmodoからの取材に対し、事実に間違いないと認めました。

ただの個人情報じゃありません。銃規制に反対かどうか、幹細胞研究に反対かどうか、中絶に反対かどうか、下手すると宗教と民族までわかります。掲載削除された r/fatpeoplehate(肥満を嫌うスレ)の生データもなぜか含まれており、ブッシュ大統領元戦略顧問カール・ローブ氏が設立した政治資金管理団体スーパーPACの「アメリカン・クロスロード」の生々しいデータもあり、玉石混交ですが、とにかくそのデータポイントの膨大さには驚くほかありません。

最初に気づいたのは、シリコンバレーのセキュリティ会社UpGuardのサイバーリスクアナリスト、Chris Vickery氏です。先月も米国防総省の大手下請け会社Booz Allen Hamilton(ブーズ・アレン・ハミルトン)の社員が軍事機密情報を野ざらしにしているのを見つけたお手柄の人。そのときとまったく同じ手法で12日夜、Amazon(アマゾン)のクラウドサービスで一般公開のデータを検索して発見に至りました。同社はこういう危ないものの管理が杜撰なところを調べてひとつひとつ穴をふさぐ活動も行なっています。

有権者情報の売買を法律で禁じている州もあることから、Vickeryさんは「こんな風にデータ使っていいのかな」と思い、最初は情報の出元もよくわからず、「会社に連絡する前に警察に通報する方が先だと思った」と言います。サーバーがアクセスできなくなったのは、発見から2日後の14日でした。

データの中身

連邦選挙委員会の報告書では、RNCが昨年Deep Root社に払った委託料は983,000ドル(約1億1000万円)ですが、ほかの大手データ会社の情報も含まれており、その価値は1億どころの騒ぎではありません。

たとえば共和党の大手有権者データ調査会社The Data Trust(別名GOP Data Trust)。ここは2016年単年でRNCからの委託料が670万ドル(約7億5000万円、OpenSecrets.org調べ)です。ここの社長Johnny DeStefano氏は現在トランプ政権の人事局長。

世界最大の未上場会社コーク兄弟の政治団体Americans for Prosperity(アメリカン・フォー・プロスペリティ、AFP)」のデータ。ここもData Trustと大統領選でデータスワッピング契約を結んでいた関係で含まれてしまっています(2014年にもコーク一族の支援するデータ会社「i360」とData Trustは有権者情報スワップしています)。

共和党のスーパーPAC(アメリカは政治家に直接献金できないので、金持ちはこの献金管理団体を通して選挙活動を行なう)の情報ファイル。先述のアメリカンクロスロードの情報には、ネバダ、ニューハンプシャー、オハイオなど激戦区の民主不満分子と浮動票の有権者情報も含まれていました。生々しい…。

ファイルのうち少なくとも数百件はNY、北京、モスクワなど6大陸百都市以上にオフィスを構える大手市場調査会社Kantar Group(カンター・グループ)のものでした。こちらは選挙広告の費用見積り、対象、リーチなどの詳細です。民主党上院選挙対策委員会、中絶推進の米国家族計画連盟、アメリカ自由人権協会、2016年大統領選の全候補の広告など、ありとあらゆる政治団体のCM解析データが数百件ですよ!

170620_personal_details_of_nearly_200million_american_voters_leaked_1.jpg
Image: UpGuard
カンター社内のファイル。政府要人、候補、政治団体のCM動画のリスト

カンター社内サーバーにある関連政治CM動画のリンク集なんてのまで野ざらしになっていました。

さらに元ミット・ロムニー候補の選挙対策部長が共同創業者を務めるマーケット調査会社Target Pointの表計算。こちらは2008年と2012年(一部は2016年)の大統領選当時の2億人近い有権者の自宅の住所、生年月日、支持政党が記載されており、環境保護派か、減税賛成派か、トランプのアメリカファースト支持派か、製薬会社は悪だと思っているのか、といった微妙な政治センティメントまで含まれています。

民主も共和も選挙にデータはつきものですが、1カ所にオープンデータベースとして保管されているのはプライバシー的に大アウトだと専門家からは非難轟々です。米Gizmodoが取材したCenter for Democracy & Technology(民主主義・技術研究所)チーフテクノロジストのJoseph Lorenzo Hallさんも、「悪用したい人にとって、こんなありがたい情報はない」と言っていました。

ある民主党ストラテジストは、幹細胞、銃規制などの社会問題に対するスタンスは簡単にはわからないので、これはかなり幅広く採集したものに違いないと話しています。

「この種のデータは手元にある情報に世論調査、戸別訪問や電話による調査、選挙運動などの地道な情報収集を行なって初めて得られるもの。調査を正しく行なって既存データと組み合わせることにより、ターゲット層の有権者一人ひとりの堅牢なモデルができます」

ほんとに「なんでそんなことまで知ってるんだ!」と叫びたくなるようなデータばかりですよ。

今回の不祥事について、Deep Root創業者Alex Lundry氏は「すべて我が社の責任です」と米Gizmodoに答えました。当該データには社内のデータと州政府が公開している有権者情報が含まれているそうです。「報告を受けてすぐアクセスの設定を変更し、今後のアクセスを防ぐプロトコルを導入した」とのこと。

なんでも同社がセキュリティの設定を6月1日にアップデートした際に起こった不手際だそうで、念のためサイバーセキュリティとデジタル犯罪科学が専門の会社Stroz Friedbergに調査を依頼したのですが、「これまで集めた情報では、システムが不正侵入された事実はないと見ている」と話しています。つまりウェブに公開されていたのは12日間ですが、その間、第三者による不正アクセスは無かった、ということですね。

Lundry氏はまた「当該データは特定のクライアントの使用のために作成したものではない」、「地方TV局の広告目的で作成した社内分析だ」と言っています。これについてはTarget PointとData Trustのような政治団体の情報も含まれているので、誰がどう見たって共和党の大統領選目的にしか見えませんけどね…。同社のカスタマーは主に共和陣営ですし、氏自身、ジェブ・ブッシュ氏とミット・ロムニー氏のデータサイエンティストだった方ですし。

ちなみにAdAgeの選挙後の総括特集によると、今回の大統領選で共和のRNCが雇ったデータ会社はDeep Root、Target Point、Causewayの3社で、Deep Rootは前次席補佐官ケイティ・ウォルシュ氏からの口利きで昨年9月に加わった模様です。ウォルシュ氏はトランプ陣営のデジタルディレクターBrad Parscale氏と一緒に陣営のデータを総括していた方。ふたりにもコメントを求めたのですが、返答はありませんでした。

AdAgeによると2人は有権者を「トランプよりの有権者」、「トランプを応援していいかわからない共和党員」、「説得次第ではトランプに寝返る可能性のあるヒラリーよりの有権者」という3つのカテゴリに分けていた模様です。

170620_personal_details_of_nearly_200million_american_voters_leaked_2.jpg
Image: UpGuard
表計算では政治問題に関する各有権者のポジションが0から1で細かく分析されている

3つのカテゴリの有権者にアプローチをかける部分では、Data Trustの情報を使っていました。有権者登録名簿を州から入手し(ここまでは公開情報)、これをData Trust独自のツールで使えるかたちに加工し(ここが本来は非公開情報)、Deep Rootの分析も添えてクライアントに渡すんです。

Target PointとCauseway(ともにRNC委託先)はData Trustの情報にさらに独自の分析を加えます。たとえばTargetPointは22の州で毎週数千件ものアンケートを行なってセンティメントを計測し、Causewayはデータ管理を補佐して、Deep RootはそれをTV広告のターゲットを行ない、投票率予想を郡単位で行なって、広告を買うときの参考にしていました。

選挙のデータ戦略を長年行なうベテランに話を聞いてみたら、今回のデータはRNC用にカスタマイズされたもので、有権者の投票率と投票傾向のモデリングに使われたものっぽいとのことで、ファイルのメタデータを見る限り現在活用中のデータというよりは使用済みのものっぽいとのこと。削除しないで保管していること自体、驚きだと言ってました。「作成するのには何億円もかかるものだけど」すぐ古くなるので持っていてもしょうがないんだそうですよ?

有権者情報そのものは一般公開されている情報かもしれませんが、データ会社が独自技術で加工した部分はやっぱり表に出るのはまずいものだそうです。

エクソンモービル好感度

中には石油メジャー最大手の「Exxon-Mobile」(エクソンモービル)の名前の表計算もあって、原油ガス支持派かどうかを事細かく予測しています。州別に有権者の氏名と住所、RNCの有権者識別番号があって、エクソンモービルに好意的かどうか(石油資源掘削が米国の国家安全のために不可欠だと思うかどうか、国として石油資源離脱を図るべきかどうか、など)に関するスタンスが数値化されています。対象は1億8274万6897人。

170620_personal_details_of_nearly_200million_american_voters_leaked_3.jpg
Image: UpGuard
1億8200万人以上の有権者のエクソンモービルに対するセンチメントを数値化した表

掲示板書き込みの生データ

石油問題はふ~んって感じですが、中には日本の2ちゃんみたいな掲示板「reddit」の書き込みログも170GB分あり、太った人たちの写真をひたすら上げて笑うスレ「r/fatpeoplehate」(2015年に削除済み)とか、マウンテンバイク、スペイン語のスレのログも残っています。なんなんでしょうね。

AIの自然言語のトレーニングに使ったのかなあとも思うし、もしかしたらredditユーザーと有権者登録履歴をマッチングする試みかもしれません。2012年大統領選でオバマ選対チームがFacebookのプロフィール情報と有権者登録履歴をマッチングしたみたいに。

今回の大統領選ではredditがトランプ支持派の溜まり場になりました。Reddit—r/The_Donaldは現在会員43万人以上いるので、とりあえずログに残しておこうと思ったんでしょうか。

このr/The_Donaldに集まるトランプファンについては、FiveThirtyEightが解析した面白いデータがあります。政治の話をしていないときの動きを調べたら大体、r/fatpeoplehateで太った人の写真を見て笑ってたんです。それでスクレイプしたのかもしれませんね。

170620_personal_details_of_nearly_200million_american_voters_leaked_4.jpg
Image: UpGuard
Redditのサブスレッドの掃き溜めのようなコメントも掃き溜めのように保存されていた

2ちゃんのみなさまも油断なりませんわね。

政治信条、匿名だから大丈夫な~んて思わないほうがいいのかも。

Image: UpGuard via Gizmodo US
Source: UpGuard
Reference: Gizmodo US, OpenSecrets, The Washington Post(1, 2), AdAge, FiveThirtyEight

Dell Cameron and Kate Conger - Gizmodo US[原文
(satomi)