カテゴリ:
今後RTBの世界になると特になのですが、広告のターゲティングや最適化のためには、URLにたくさんの意味を付けることが必要になります。たとえば、
http://noglog.com/archives/51014835.html
というURLがあった場合に、
  • ドメイン:noglog.com
  • ドメインテーマ:ネット広告、統計
  • URLテーマ:ネット広告、ビジネス
  • URLキーワード:データエクスチェンジ、アドエクスチェンジ、マイクロアド
といったコンテンツを基にしたテキストマイニング(日本語解析)からのデータをくっつけることができます。同時に、ログデータからは
  • 訪問者傾向
  • 訪問者の他サイトでの行動
  • 流入元傾向
  • 被検索キーワード
などの情報がわかります。(あくまでも一例です。)

「データマイニング(統計解析)のアルゴリズムで最適化し・・・」などと言うと、なにやらよくわからないがポンと答えが勝手に出るようなイメージを持たれていると思いますが、ぜんぜん違ったりします。キモは上記のようなデータの作り方、つまり変数の作り方にあります。いや、あると私は思っています。料理で言うところの下ごしらえが重要です。アルゴリズムの違いは相対的に小さな要素になることが多いです。

テキストマイニングもログ解析も、もちろん言語が理解できなければうまく区分できません。日本語サイトであれば、ネイティブな日本人が整備をしなければなりません。

仮にその整備をしなかった場合、意味付けをしない媒体社単位やドメイン単位などで扱うことになります。しかし、たとえば"アメブロ"や"ライブドアブログ"という区分は広告にとって意味があるでしょうか?"アメブロの主婦の弁当日記"と"ライブドアブログの主婦の弁当日記"は近いですが、同じアメブロ内でも弁当日記とビジネスオピニオンブログとではまるで違うコンテンツのはずです。媒体区分を縦に取った時、横のコンテンツ軸の方が広告にとっては重要だったりするわけで。

そして、一ヶ月間でそのブログが300PVだった場合、ある1広告が配信されるのは通常その内30PV以下です。30インプレッション、0クリック、0コンバージョン。このデータは何の意味も持ちません。少なすぎるのでこの単位で最適化はできません。だから往々にして"アメブロ"のような単位にまとめられちゃうんですが、上記のような理由でダメなわけで。仮に1媒体1広告キャンペーンあたり10,000インプレッションに達してから最適化が始まるなんてロジックであればツールなど不要であり、Excelで影響の大きい部分だけ盆栽をすれば良くなってしまいます。

オーディエンスデータの加工においても、最適化においても、コンテンツを正しく理解できていなければうまく機能させることは難しいのです。アルゴリズムも重要ですが、それ以上に変数の整備が重要だったり。海外のツール導入の際にはそのあたりをよくヒアリングしておく必要があるんじゃないかなと思っています。

これまでで最もマニアックなエントリーだな。。