データサイエンティスト上がりのDX参謀・起業家

データサイエンティスト上がりのDX参謀・起業家のブログ。データ分析や事業について。自身はアーティスト、経営者、事業家。

おしゃれStatistics I

統計学の勉強会、「おしゃれStatistics」についての記事です。

Googleグループを作っておりますので、どなた様もお気軽にご登録下さい。

略称は「おしゃスタ」ですww


第1回は一ヶ月ほど前に開催しておりましたので、その時のレポートを致します。

開催日:2011/05/05 14:00〜16:00
場所:新宿歌舞伎町ルノアール
人数:7人

歌舞伎町ルノアール掲示板。Statisticsの綴りが間違っています笑



内容:教科書『Statistics』の1〜2章


1. コントロールされた実験(ランダム化試験)

  • 新薬の効果は治療群と対照群の「比較」によって測定する
  • そもそも対照群が無い場合
  • ワクチンの効果と流行の効果を分離できない
  • 1916年から流行したポリオに対するソークワクチンの例


  1. 学年によって群分けしている
    • ポリオは接触感染するので学年2の発症率が学年1、3より高いといった可能性がある
    • その場合はワクチンに不利なバイアスとなる
  2. 同意のとれた子供だけ治療している
    • 裕福な家庭の方がワクチン投与に同意をしやすい
    • 裕福な家庭の子供は貧しい家庭の事もよりもポリオに弱い
      • 乳児期の免疫獲得の影響
    • ワクチンに不利なバイアスとなる
      • 交絡である
  • 門脈大静脈シャント、門脈体循環シャント
    • 門脈は肝臓に入って肝静脈を通って心臓へ血液を流す
    • 肝硬変などで肝臓のろ過が悪くなると肝臓→心臓の流れが悪くなる
    • 食道の血管圧が高くなり静脈瘤の危険性が出てくる
    • シャントによって門脈と肝静脈の間にバイパスを作って回避する
    • 手術時間が長く、危険も多い。
    • リスクベネフィットはどうなのか?
    • ランダム化試験と対照の無い研究の比較
      • ランダム化試験では「効果なし」
      • 対照の無い研究、対照はあってもランダム化してない試験では「効果あり」
    • ランダム化していない試験では選択バイアスが存在する
      • 症状の重い患者を対照としており、軽い患者に手術をしている
      • 手術に有利なバイアスとなっている
    • 「適格基準」を定めて同等の患者同士で比較をするべき
  • 既存対照、ヒストリカルコントロール
    • 対照群の性質が治療群と同等であるか?
    • 既存対照試験では効果があるが、ランダム化試験では効果なしという治療法も多い
    • 既存対照試験では交絡が見られる
  • サマリ
    1. 効果を測定するときは治療群と対照群の比較を行う
    2. 2群の治療以外の性質が似ている場合は、結果の差異は治療の効果である
    3. 治療以外の性質が異なっている場合は交絡の可能性がある
    4. 治療群と対照群を似た集団にするためにランダム化試験が行われる
    5. 治療されることへの意識の強さに影響されないようにするため対照群はプラセボ投与
    6. 対象者と評価者による先入観のバイアスを防ぐため、二重盲見を行う


2. 観察研究

  • サマリ
    1. 観察研究では研究者が対象者を割り付けることはできない
      • 喫煙研究の例では、ある対象者に喫煙を勧めることは不可能である
      • もともと喫煙している人を治療群、していない人を対照群とする
    2. 観察研究は「関連(assiciation)」を見つけることはできるが、それは必ずしも因果ではない
    3. 治療効果は治療群を決定する因子によって交絡していることが多く、しばしば結果は誤解を招く。
    4. 研究→対照群があるか→同時期か→対照群が制御されているか→ランダムか
    5. 観察研究の場合、2群が均一であり比較可能かを確認する
      • 交絡因子があるかどうか
    6. 交絡因子を調整する
      • 似たような集団に分けて比較する(マッチング、層別)
      • 傾向スコアという調整法もある
    7. 観察研究の弱点は未知の交絡要因であり、ランダム化試験はこれを最小限にできる

メモ:治療・対照群は介入A・B群、介入・非介入群などのように適宜読み替える

  • 広告の効果はどうやって測定する?
    • アマゾンはランダム化試験をやったが社会的に叩かれた
    • 観察研究のように、既にあるデータから考えられる交絡要因を調整した解析をするのが現実的なのではないか?
      • 一般的な交絡要因:性、年齢
      • 時間帯、曜日、趣味、嗜好、社会情勢など
    • そもそも調整して得られる効果は「全体的な効果」
      • 経営的には意味の無い値かも
      • 「どんな層にどれくらいウケているか」といった記述的な分析の方が必要とされているのかも?

以上が第1回目の内容です。第1回目は本の内容を1時間、質問で1時間といった感じでした。

本の内容をもうちょっと少なくして、意見交換の時間を増やしてもいいかなと思っています。

統計について質問できる場も少ないと思いますので、内容に関わらすいろいろ質問して下さい。

「統計と社内システムをどうやって結びつけるか?」などのように漠然とした疑問でも結構です!


あと日本語の本だと、これも良いかなと思っています。

Sと統計モデル―データ科学の新しい波

Sと統計モデル―データ科学の新しい波

おしゃスタで使うかどうか検討中です。。


第2回目はGoogleグループでも告知しますが7/7、19:00〜21:00、新大久保で行う予定です。

(あまり広い部屋を取ってないのですぐ埋まってしまうかも、、、)

これから月一で開催できればなと思っています!