Unicode is a computing industry standard allowing computers to consistently represent and manipulate text expressed in most of the world's writing systems.

Googleは同社の保有しているインデックスに登録されているWebページを調査し、どのエンコーディングがどの程度の割合で使用されているのかについて分析結果を発表した。2012年1月の段階で、UTF-8を採用したページが全体の60%を超えているほか、ASCIIを採用しているページが16%ほどとなっている。ASCIIはUTF-8のサブセットでもあるため、UTF-8に組み入れてカウントすると、実にWebページの80%ほどがUTF-8を採用していることになる。

2001年の段階ではASCIIが60%近いシェアを持っていたが、ASCIIは年々割合を減らしている。代わりに2004年あたりからUTF-8の採用が増加を始め、2006年あたりから急成長を開始。現在もそのシェアは増加傾向にある。特定の言語としては、日本語(SJIS)が高い割合を持っていたが、2006年から2007年にかけて中国語(GB2312)に抜かれている。

Unicode over 60 percent of the webより抜粋

Googleではテキスト検索の処理などで従来からUnicodeを採用しており、常に最新版のUnicodeへ対応し続けている。Unicodeとしては先日最新版となる「Unicode 6.1」が公開されたばかりであり、Googleはこの最新版への移行を進めると説明している。