4. これ何語?
• Ik kan er nooit tegen als mensen me negeren.
• Aha ich seh angeblich süß aus
• Czy mógłbym zasnąć w przedmieściach Twoich myśli?
• Ah. Tak. Så skal jeg bare finde ud af *hvordan*!
• Det er ikke så digg nei å vi som har finale til helga....Skrekk og
gru! Takk :)
• tack kompis! Hade faktiskt tänkt maila dig på fb och fråga vart
du tog vägen!
• Çok doğru. En büyük hatayı yaptım.
• Încântat de cunoștință.
• Một người dân bị thương và bốn người mất tích sau khi một
ngọn núi lửa ở miền trung...
5. 人間言語判定(一部)
• ik があればオランダ語。
• ich があればドイツ語。ß もドイツ語の特徴。
• czy があればポーランド語。Ł, ń, ś, ź もポーランド語のみ
• å があればデンマーク語かノルウェー語かスウェーデン語
– af があればデンマーク語。「ありがとう」は tak
– nei があればノルウェー語。「ありがとう」は takk
– och があればスウェーデン語。「ありがとう」は tack
• ı (点のない i) か ğ があればトルコ語
• ă や ș や ț があればルーマニア語
– ă はベトナム語でも使うが、似てないから大丈夫
– ş はトルコ語でも使うが、似てないから大丈夫
• WinXP で表示されない文字がいっぱいあったらベトナム語(ぇ
6. これ何語?(解答編)
• Ik kan er nooit tegen als mensen me negeren. オランダ語
• Aha ich seh angeblich süß aus ドイツ語
• Czy mógłbym zasnąć w przedmieściach Twoich myśli? ポーランド語
• Ah. Tak. Så skal jeg bare finde ud af *hvordan*! デンマーク語
• Det er ikke så digg nei å vi som har finale til helga....Skrekk og
gru! Takk :) ノルウェー語
• tack kompis! Hade faktiskt tänkt maila dig på fb och fråga vart
du tog vägen! スウェーデン語
• Çok doğru. En büyük hatayı yaptım. トルコ語
• Încântat de cunoștință. ルーマニア語
• Một người dân bị thương và bốn người mất tích sau khi một
ngọn núi lửa ở miền trung... ベトナム語
43. データ形式
• 訓練データ・テストデータ共通
– [正解ラベル]¥t[テキスト]
en Inside Sales Account Manager met sales drive
en Just completed a 2.48 mi run with Check it out!
en Vacancy: Senior Technical Advisor – Malaria
en Which one? I can't decide!
en You're totally welcome :)
en save by the bell so dom programma .
56. トルコ語を考慮した小文字化
大文字 小文字
トルコ語以外 I (U+0049) i (U+0069)
I (U+0049) ı (U+0131)
トルコ語
İ (U+0130) i (U+0069)
• トルコ語は I (U+0049) の小文字が異なる
– Java, Python の小文字化はロケールを考慮
• I と i で意味が異なる言語もある
• ⇒ I を除外して小文字化
66. Twitter 向け正規化(笑い)
• 笑い方も言語によっていろいろ
– HOW MUCH DO YOU LOVE COACH
BEISTE??? HHAHAHAHAHAH
– Hihihihi. :) Habe ich regulär 2x die Woche!
– Tafil con eso...!!! Jajajajajajaja
– Malo?? Jejejeje XP
– kekeke chỗ đó làm áo được ko em?
• ⇒ 2回(haha)に縮める
– 削ってもいいが、言語の特徴も出ているので
80. 参考文献
• [岡野原+ 2008] 全ての部分文字列を考慮した文書分類
• ニューエクスプレスシリーズ(白水社)
– スウェーデン語、ノルウェー語、デンマーク語、ポーランド語、ハンガリー語、ルー
マニア語、チェコ語、リトアニア語、スペイン語、カタルーニャ語、ベトナム語、ト
ルコ語、ドイツ語、オランダ語、スワヒリ語
• [Andrew+ 2007] Scalable training of L1-regularized log-linear
models
• [Brody+ 2011] Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! Using Word
Lengthening to Detect Sentiment in Microblogs
• [Duchi+ 2009] Efficient Online and Batch Learning using Forward
Backward Splitting
• [Perkins+ 2003] Grafting: Fast, Incremental Feature Selection by
Gradient Descent in Function Space
• [Tsuruoka+ ACL2009] Stochastic Gradient Descent Training for L1-
regularized Log-linear Models with Cumulative Penalty