- otanoshimi_ex
- 68818
- 19
- 140
- 165
同じ140文字でも日本語のほうが英語より沢山書けて便利だよな、と思って各言語の「密度」を計算してみた。それぞれの言語で書かれたツイートを英語に自動翻訳した文章の長さと比較。中日韓語は英語より2~3倍ぐらい多く書ける。超お得。 pic.twitter.com/RJa2GlXuul
2015-03-27 22:31:55デンマーク語なんか日本語と比べると5倍ぐらい薄いんだけど、どんな会話してんだろう。日本語だと30文字で書けることが140文字に収まらないんだぜ。このツイートも「デンマーク語なんか日本語と比べると5倍ぐらい薄いんだけど、ど」で終わり。
2015-03-27 22:36:41河本健/Staff Software Engineer @Google Sydney🇦🇺/https://t.co/FTYOuNwzCAとか「子供がマッサージしたくなるTシャツ」とか1Click飲み.jpとかソフトからハードまでなんでも作る人です。作ったものは全部ここ:俺.jp
@kenkawakenkenke 学生の頃、翻訳演習で「翻訳すると元の分量の1.5倍ぐらいになる」って聞いた覚えがあります 大抵の場合、母語では表現の最適化が行われるんで必ずしもこの倍率通りにはならないと思いますが、面白いデータでした @hayano
2015-03-27 23:34:42@nanasi0003 なので参考値として英語のツイートを日本語に翻訳して英語に再翻訳しなおしたデータを「英語(reference)」として載せてます。5%増ぐらいです。とはいいつつ仰る通り色んなバイアスが考えられるんで、まあ遊び程度に捉えてくださいな。
2015-03-27 23:38:40@1__p0 ありますよ。僕は機械翻訳使ってるんで、あなたの挙げた論文とは方法が違いますが。僕と同じ方法とってる人も過去に複数あります。 people.oii.ox.ac.uk/hanteng/2013/0…
2015-03-27 23:58:40@kenkawakenkenke データを見ると日中韓が飛び抜けて多い気がします。中国は漢字、日本も漢字+平仮名等で納得なのですが、韓国語のハングルは発音の記述をする言語(アルファベットと同じ)のように理解しています。英語やその他の言語より情報量が多くなる理由は何なのでしょうか?
2015-03-27 23:51:35@ajisaitakeoka ハングル知らないんで分からんす。ぜひ詳しい人に聞いてみてくださいな。
2015-03-28 00:04:26@kenkawakenkenke バイト数でカウントしてないですね。バイト数換算のハンディ付けないと表意文字・表音文字の情報量の差ということくらいしか言えないのでは。確かにツイッターの仕様上”お得”ではあるけれど。
2015-03-27 23:59:44@9YbrUHWt ツイッターの仕様の話をしてるんで。各国で同じツール使ってるつもりでも言語が違うだけで使い方が(多分)かなり変えられてしまうのが面白いな、と思って公開したデータです。
2015-03-28 00:02:51ハングルも表音文字のはずなのに密度が際立って高いのはなぜだろう。フランス語の密度が英語の約半分。これはどういうことだろう? >RT
2015-03-28 08:16:40韓国語では、漢字の音読みをハングルで表記することが多いから密度が高いのかな。つまり、表音文字でありながら漢字の意味を伝達しているとか、そういうことかな。ならば、聞き手あるいは読み手は「同音異字」ならぬ「同音意味」を認識できないといけない。つまり、コンテキストに依存することになる。
2015-03-28 08:25:22表音文字クラスターの中では英語も密度が高い。英語もコンテキスト依存性が大きい言語なのかな。だとしたら、これは英語の習得を難しくさせている要因の一つかも。
2015-03-28 08:58:14東アジア三ヶ国(日中韓)の文化や世界観、人生観、ものの見方、考え方は世界の中で異彩を放っている。これは言語の特徴が影響しているのかな。それとも逆に、人々の文化的な特性が特異な言語を生み出したのかな。
2015-03-28 09:06:54東アジアの言語圧倒的だな。概ね漢字のおかげだとは思うんだけど、表象文字だったらなんでも密度が高い、っていうことなのか、文法の特性とかもあるのかな。
2015-03-27 23:55:25中国語の言語の密度は半端ないよね。。中国製のゲームを日本語や英語に翻訳したら、表示枠に文字列がぜんぜん収まらないとか、よくある。。
2015-03-28 08:27:15こんな違うのかー マルチリンガルがノーマルになったらSMSによって言語使い分けるとかしたらむねあつ、てか利便性からしたら密度が低い言語は淘汰されていく可能性もあるのかな
2015-03-28 10:47:48