ヤフーの「リアルタイム検索」改良へ、“Google難民”のニーズも考慮

過去のツイートも検索できるように

 最新のツイートをリアルタイムに検索できるサービスとして、「Yahoo!検索」で6月14日にPC版の提供が開始された「リアルタイム検索」。7月12日にはスマートフォン版も公開された。折しもGoogleの「リアルタイム検索」が突然サービスを停止した時期ということもあり、“Googleリアルタイム検索難民”の受け入れ先としても重要性と期待が高まっている。実際、Yahoo! JAPANのリアルタイム検索は、Googleのサービス停止前後でページビューが3~4倍に跳ね上がったという。

「リアルタイム検索」PC版「リアルタイム検索」スマートフォン版

 そんな中でヤフー株式会社では、リアルタイム検索の機能拡張や改良を予定している。具体的には、1)過去のツイートも検索可能にするためのインデックス期間の延長、2)Twitter以外のソーシャルフィードへの対応、3)ツイートの表示順や関連情報の追加などを含めた検索結果画面の改良――という3つだ。どうやら、Googleリアルタイム検索難民のニーズや声も意識している模様だ。

 ヤフーのリアルタイム検索のコンセプトや目指す姿なども含め、同社R&D統括本部検索開発部の建山雄旗氏、安部里美氏、清水徹氏に話を聞いた。

「Firehose API」を利用、ヤフー独自に検索エンジンを開発

 ヤフーのリアルタイム検索は、米Twitterとの提携により実現したものだ。ヤフーは6月14日付で、いわゆる「Firehose」と呼ばれるAPIの提供を受ける契約をTwitterと締結。これにより、Twitterが保有する全公開ツイートのデータにヤフーがアクセスすることが可能になった。

 ヤフーは2010年7月に、検索エンジンの共有を受けることなどで米Googleと提携していたこともあり、ヤフーがリアルタイム検索サービスを開始すると、Googleのエンジンを使っているのではないかと噂する向きもあったが、ヤフーではこれを否定する。ヤフーとGoogleの提携範囲にはリアルタイム検索は含まれておらず、前述のようにヤフーではTwitterと直接契約、リアルタイム検索エンジンも独自に開発した。

 ヤフーとTwitterとの契約は1年単位となっており、契約内容の見直しがなければ自動更新される。もちろんリアルタイム検索のサービスも継続され、利用者がいる限り、ヤフーのリアルタイム検索サービスが突然休止することもないとしている。

ヤフーのリアルタイム検索は、「世の中の今の姿」を提示するもの

 Firehose APIの契約によりヤフーがアクセスできるのは6月14日以降のツイートのデータで、リアルタイム検索ではその中の日本語のツイートを対象としている。正確には、Twitterアカウントの言語選択が日本語に設定されているアカウントのツイートだ。

建山雄旗氏(R&D統括本部 検索開発部 プロダクトマネージャ)

 世界で流れている全言語のツイートのうち約17%がこれに該当する。そのトラフィック量は1秒間に平均270ツイート、ピーク時で570ツイートほど。さらに、例えばなでしこジャパンの優勝など、イベントによっては1000ツイートを超えることもある。

 なお、日本語に設定されていないアカウントでも日本語のツイートが流れており、これに該当する6%ほどの日本語ツイートを現時点ではまだカバーできていないという。ヤフーではこの部分についても対応していく考えで、日本語の全ツイートのカバーを目指す。

 ヤフーでは、これら日本語ツイートを検索インデックス化しているわけだが、実際にリアルタイム検索で検索できる範囲は最新の24時間分までとした。パフォーマンスやデータストレージとの兼ね合いもあるが、この部分は今後拡張していくことも可能という。24時間に区切ったのはむしろ、ヤフーのリアルタイム検索の目指す方向性によるものだ。

 建山氏は、リアルタイム検索の方向性として、1)ソーシャルフィードのアーカイブ検索を目指す方向、2)ソーシャルフィードの情報に基づいて、今、世の中で何が起こっているかを提示する方向――の2つが考えられると説明。どちらにもニーズがあることを認める一方で、ヤフーが目指すのは後者だと強調する。

 「Googleがやる場合は(過去ツイートのアーカイブ検索まで行えるなど)スペック的にハイエンドにしないと、対象セグメントであるギーク層やアーリーアダプター層に使ってもらえない。一方、ヤフーがやる場合は、Twitterの中で今、何がはやっているのかを、Twitterを使ったことがない人も含め、一般の人にわかりやすく提示するのがミッションだと考えている。ヤフーのリアルタイム検索は、Googleと全く意味合いが違う。世の中の今の姿を、検索結果を1ページ見るだけで把握できるようにしたい。」(建山氏)

ロンドン五輪までに、過去ツイートのインデックス期間を1カ月に延長

 Googleとは異なるリアルタイム検索の方向性を追求する一方で、直近24時間だけという制限がネックになっている面があることも、ヤフーでは感じている。特にGoogleから移行してきたユーザーにおいて、過去のツイートを検索したいというニーズがあることは十分に認識しているという。

 そこで検索対象となるインデックス期間を長くすることを予定しているわけだが、目安としては1カ月間が最低ライン。これは、リアルタイム検索の利用が増えるであろう主要イベントの1つ、オリンピックの大会開催期間を想定したものだ。リアルタイム検索では、最低でも大会日程の約1カ月間のツイートをさかのぼって検索できるようにする必要があると考えている。1年後のロンドンオリンピックまでにはこれを実現する計画だが、その前に、1~2週間に拡大することを当面の検討課題としている。

 なお、この1カ月間あるいは1~2週間というのは、すべての日本語のツイートをインデックスしておく期間のことだ。それを過ぎたツイートについては、RTが多いツイートや重要度の高いツイートだけに間引いてインデックスに残し、蓄積していくことも今後検討する。これにより、インデックス容量が極度に増大したり、パフォーマンスを落とすことなく、過去のツイートまで検索できるようにしたいという。

 このほか、Twitter以外のソーシャルフィードへの対応としては、中長期的な目標となるが、Facaebookやmixiは当然ながらスコープに入っているとしている。

検索結果表示で、新しい順をデフォルトにしなかった理由

 ヤフーのリアルタイム検索の方向性を如実に示しているもう1つの点が、検索結果のデフォルト表示方法だ。

安部里美氏(R&D統括本部 検索開発部 サービス企画)

 最新ツイートを上位に表示していく「更新日時順」と、アルゴリズムにより重要と判定したツイートほど上位に表示する「適合度順」があるが、ヤフーでは適合度順をデフォルトとした。ツイートのリアルタイム検索というと、更新日時順のほうが自然のようにも思えるが、ヤフーのリアルタイム検索では手動で切り替える必要がある。

 建山氏は、適合度順での表示は、検索されたトピックがなぜ盛り上がっているのか、その背景を把握しやすく、また、ツイートからリンクされている重要な画像や動画、ニュース記事などを見逃さないというメリットがあると説明する。

 「更新日時順のほうがリアルタイム検索っぽいイメージがあるのは確かだが、検索キーワードが含まれているというだけの新しいツイートが上位に表示されると、どういう話題か理解にしくい場合もある。Yahoo! JAPANはいろいろなメディアからリンクされることも多く、Twitterを使い慣れていないユーザーが閲覧する可能性も高い。特定のセグメントをターゲットにするのではなく、みんなが使いやすいようにというのが、適合度順をデフォルトとした理由。」(建山氏)

 ヤフーではリアルタイム検索開始の発表時、「Yahoo!ニュース」や「Yahoo!ロコ」など、Yahoo! JAPANの各種サービスとも連携していくことを表明している。時期は未定だが、それらのサービスのページにおいて、あるトピックに関連したツイートがウィジェットで直接表示されるようなイメージだという。こうした連携においても、適合度順のアルゴリズムは親和性が高い。

 なお、適合度順のアルゴリズムの具体的な判定要素については、スパム対策などの観点から公表していない。

関連情報の追加で、新しい順でもトピックの背景をわかりやすく

 検索結果ページの構成はこれが最終形態というわけではなく、表示順を含め、改良に向けて検討を進めている。単純な対応としては、Cookieによりデフォルト表示順をユーザーごとに保存しておける方法なども考えられそうだが、ヤフーが考えているのはもっと別の方法だ。更新日時順をデフォルトにした場合でも、そのトピックの背景についてユーザーが理解しやすいような関連情報を、検索結果ページにあわせて表示していきたいという。

 具体的には、ヤフーのテキストマイニング技術を活用し、検索された個々のキーワードについて、ともに用いられることが多いキーワードを抽出して表示する方法が考えられる。例えば、7日25日に死去した森祐喜氏の名前でリアルタイム検索した際に、該当する最新ツイートを表示するとともに、「森喜朗元首相の長男」といった共起されるキーワードを提示。これにより、森祐喜氏が誰なのかわかるようにするかたちだ。

 また、Yahoo!検索では、例えば「天気 東京」という検索キーワードに対して、「Yahoo!天気」の該当する情報を検索結果ページの最上位に表示するといった“ダイレクトディスプレイ(DD)”という仕掛けがある。リアルタイム検索と親和性の高い分野については、ユーザーがリアルタイム検索に求めている部分を邪魔しないかたちで、このDDを取り入れていくことも検討している。

 例えば、Yahoo!検索でDDが表示されるシチュエーションの1つとして、芸能人などの人物名で検索した際に、「Yahoo!人物名鑑」から簡単なプロフィールと顔写真を引用して表示する機能がある。これをリアルタイム検索に適用すれば、その人物についてのトピックの概要や背景を理解するのに役立つはずだ。

 ヤフーでは、ツイート検索結果の周囲にこうした関連情報を表示するような機能を検討・開発した上で、デフォルト表示を更新日時順にするかどうか見極めていく考えだ。

ユーザーのツイートを参考に、すでに細かい改良も実施

 PC版では、サービス公開から1カ月半ほどの間で、すでに行われた細かい改良などもいくつかある。

清水徹氏(R&D統括本部 検索開発部 システム企画)

 新しいツイートがあった場合に、それを検索結果の上位に自動で積み重ねて表示していく「自動更新機能」については、適合度順表示において、起動するまでの時間を見直した。適合度順の場合、あまりにも早いタイミングで最新ツイートが上位に表示されると、重要なツイートを上位に表示している意味がなくなる。そこで当初は、自動表示が始まるまでの時間を10秒と設定していた。ところがユーザーが検索結果に表示されたツイートを読むのにかかる時間が想定よりも短かったため、現在では5秒に変更したとしている。

 また、自動更新機能の継続時間は、当初の最長2分間から最長5分間へと伸ばした。ツイートの多いトピックであれば、1回検索した後しばらくは、自動的に次々と表示される最新ツイートを追えるようになったわけだ。

 検索結果の下にある「さらに読み込む」ボタンについても改良を加えた。当初は9回までしかクリックできなかったが、これを99回にした。すなわち、これまでは最大90件のツイートしか参照できなかったが、990件まで増えたわけだ。1回検索した後にこのボタンが数回は押されており、より多くのツイートを閲覧したいというニーズがあることがわかったからだ。こうした改良にあたっては、実際の利用傾向の分析のほか、ネット上の評判も参考にしているという。

 「リアルタイム検索で『リアルタイム検索』というキーワードで検索して、リアルタイム検索について言及したツイートをすべて見ている。ツイートだけなく、ブログでの評判もチェックしている。こうしたユーザーの声を参考にしながら、これからも改良していきたい。リアルタイム検索についてツイートする時は、ただ『使いにくい』というだけではなく、どうすれば改善されるのかもあわせてつぶやいてほしい。それと、ぜひハッシュタグ『#yrealtime』も付けてもらえれば。」(安部氏)

地震の情報でも鉄道の遅延情報でも、インデックスの速さが強み

 リアルタイム検索では、現在日本語で多くツイートされているワードや検索されているワードをもとに「注目のキーワード」を抽出し、10分ごとに更新して表示する機能がある。安部氏によると、やはり日々のイベントに左右され、ニュースで話題になっている人物の名前などが多いという。

注目のキーワード

 検索キーワードだけに絞ってみても、ウェブ検索に比べ、上位にランクインするキーワードの入れ替わりのスパンも短い。例えば「なでしこジャパン」など上位に2日間続けてランクインしていた例もあるが、逆に言えばそれだけ大きな話題でも2日間で入れ替わるということだ。

 一方で、定常的に検索されているのが、天候・災害に関するワードや、鉄道の運行情報をチェックするための各地の路線名だ。また、「地震」の検索も常に多い。

 東日本大震災では、最新情報の発信・入手のための手段としてTwitterをはじめとしたソーシャルメディアが活用され、認知も広がった。現在でも各地で地震が断続的に発生している中、地震の最新情報として、各地から発信されるツイートへのニーズが高まっていることがうかがえる。

 じつはヤフーでは、リアルタイム検索のサービス開始のかなり前からTwitterとの間で協議を重ねながら、開発も並行して進めていたという。東日本大震災の発生時点ですでに社内でテスト運用するまでに至っていたが、正式契約前だったため、ベータ公開などのかたちで一般に提供することはかなわなかった。

 ところで、Googleのリアルタイム検索がサービスを停止してしまった今となっては比べようがないが、「じつはGoogleよりもインデックススピードが速い」という。速い時では2秒前のツイートがインデックス化され、ツイートされてから検索結果に表示されるまで10秒かからないと説明する。日本語ツイートで、しかも最新24時間分というように、ある程度インデックス量を絞り、スピードを優先した結果だ。今後、スピードを落とさずにインデックス量を増やしていくのが課題となる。

 「Googleのリアルタイム検索を使っていた時は、多くのツイートが流れているはずのトピックなのに、最新検索結果がなかなか自動表示されないと感じることが、いちユーザーとしてあった。それに風穴を開けるような、最新ツイートがきちんと自動表示されていくようなリアルタイム検索を開発したかった。新しいツイートが流れていく様子を、ヤフーのリアルタイム検索で楽しんでほしい。」(清水氏)


関連情報


(永沢 茂)

2011/7/28 12:00