To Home
Last modified: Sun May 9 23:32:13 JST 2004
Foundations of Statistical Natural Language Processing
Collocations 5.1 - 5.3.3
Collocationとは

Collocation (連語) 複数の語が慣習的に組合わさるもの。自然な言い回しを とりだしたい。

compositionality

compositional .. 全体の意味が部分の意味から予測できること
compositionはcompositionalでないものもある。

  strong tea, kick the backet(死ぬ)
term .. 語や句
応用(application)

  自然言語生成器
  自然言語の字句解析、構文解析、corpus linguistic reserch
vs. Chomsky & Saussure
Chomskyのアプローチは言語の構造(句、文)を重視していた
vs. [Firth] Contextual theory of meaning
  Contextを重視する。social setting, spoken and textual discourse,collocation
 
  strong tea vs. powerful tea
  Contextを知らないと powerful teaは許される
おまけ
New York Timesからコーパスを取って来ている。(やたらNew Yorkが多い)
Collocationを統計的に見付けるアプローチ
5.1 Frequency(頻度)
同時に出て来る回数を数える。頻度が高ければcollocation。

正直に数える
  of the, in theなど興味のないものが上位を占める。

part-of-speech filterにかける (Justeson and Katz POS filter)
  句になりそうなタグパターンを与えて、それに合うものを出力
  AN, NN, AAN, ANN etc .. (A.. Adjective, P .. preposition, N .. noun)
  ここでは連続した2語を数えていると思われる。
  より長くマッチする句をとってくる York City -> New York City

  strong tea, powerful teaの区別

C(strong,w),C(powerful,w) でcollocationをとってくる(CはcountのC)
頻出する語に差がみられる。
共通して現われる語もある(man,force)
New York Timesには* teaは出なかった....。
Webでは実証された(Altavista)
  799 strong tea 普通のページ
  17 powerful tea コンピュータでの自然言語処理を話題にしたページ

  特徴
フィルタをかけるとうまくいく。
フィルタは言語に対する大雑把な知識

5.2 Mean and Variance (Smadja 1993)

collocationに似た関係。collocationを含むものを見付ける (例 knockとdoor)
さらに距離はまちまち。どちらかが大概「先にでる」関係などを捕らえたい
2単語間の距離を計る。その距離のMean(平均)とVariance(分散)をとる

固定した句 vs. 可変な句
  この章では固定した句(fixed phrase)
  bigram???
  collocation window .. 固定サイズの連続した句をみるwindow。.とかそれ自体句
2単語のどちらかをposition 0に位置付けて、もう一方が左なら負の距離、右なら正の距離をつける。
これはcollocation windowを設定して測定。(打ち切る)
距離の平均と分散を求める。

性質
  分散が大きいならば平均は0に近付く。そして、これは興味のない例である。(2語に関係がみられない)

Smadjaが付加した制約
  flat peakを取り除く。極端に飛び出しているものだけ抽出した。
  80%ぐらいの出来
でも、knoock / doorはcollocationじゃない。

特徴
  fixed phraseよりも緩い関係が分かる (knock / door)
  相対位置も分かる。(間に何語ぐらい?)

5.3 Hypothesis Testing(仮説検定)

高い出現頻度と低い分散は偶然かもしれない。
例えばnew companiesはnewもcompaniesも出現頻度が高ければcollocationでなくても(偶然)出現頻度が高くなる。
知りたいのは「たまたま」一緒にでるのではなくて、ちゃんと「決まって」でるようなもの。

仮説検定
  ある性質を調べるのに、その性質を否定した仮説H0(null hypothesis)をたて、H0を仮定したらイベントが 起こるだろう確率pをしらべ、それが十分低いときに元の性質が満たされているとする。

ここでのH0
  ある2語が与えられている。
  調べたい性質はその2語が決まって同時に出現するということ
  よって、H0は「その2語がたまたま同時に出現するということ」
  モデルとしては、単純に独立性を仮定する
    P(w1w2) = P(W1)P(w2)
  単純すぎて経験にあっていないモデル。とりあえず

5.3.1 t検定
  良く使われる。collocationの発見にもしかり。
  サンプルから測定した量の平均と分散が必要(さっきのmean,varianceは手法として距離の平均、分散をとった ということで、ここでいう統計量としてのmean,varianceとはちょっと意味が違う)
  平均 x(上にバー) 分散の平均μ 分散 s2
  手順
    t検定量を計算する。 $t &=& \frac{\bar x - \mu}{\sqrt{\frac{s^2}{N}}}$
    表を引いて棄却するか否かを決める。
    母平均(仮定する)と標本平均との差をみる。tが0に近いならば、標本平均が母平均にあっている。
 

1.身長
  H0: 男子の平均身長は158cm (母平均)
  H1: 男子の平均身長は158cmでない。(ここでは低いことを言いたいらしい)
  200人の男子を標本とした
  x = 169
  s2 = 2600
  t = (169 - 158)/sqrt(2600/200) ≒ 3.05 (t &=& \frac{169 - 158}{\sqrt{\frac{2600}{200}}})
  ここでは信頼区間をα=0.005に設定する
  片側検定(低い)
  t統計量の表を見る。
    信頼区間と自由度からtの値を出す表。(Bernoulli trial??)
    自由度がkで密度関数を[t,∞)で積分した値がαとなるようなtを表に書いている
  そして、表の値は、tα(ν) = 2.576
  標本から得られたtが表のものより大きいので仮説は棄却。

2.collocation (newとcompanies)
  値は何にします??出現確率の独立性がH0
  H0: P(new companies) = P(new)P(companies)
  ここからはデータの値を使った計算 太字は真の値
new出現回数15,828
companies出現回数4675
全token数14,307,668
bigrams14,307,668
new companiesがbigramに出現した回数8

ランダムにbigramを生成して、new companiesがでたら1その他 0 => P(new countries) = P(new)P(countries) ?
つまりこの試行↑で平均P(new)P(countries) 、分散(=p(1-p) cf.2.1.9 ここでは積が十分小さいので) P(new)P(countries)
ベルヌーイ試行ってなんだっけ?
  以下計算
    P(new) = 15,828/14,307,668
    P(companies) = 4675/14,307,668
    P(new)P(companies) ≒ 3.615 * 10-7 (H0が正しいとするとこの確率でnew companies)
    P(new compaies) = 8/14,307,668 ≒ 5.591 * 10-7
    t = (5.59110 - 3.61510)*10-7/sqrt(5.59110*10-7/14307668) ≒ 0.999932
  ここでもα=0.005を設定、表で自由度は∞をみるとt=2.576
  H0をα=0.005(5%で)棄却出来ない
  よって、new,companiesは独立に出現している。
Table 5.6が語ること これらは20回出現したbigram。
上半分のtの値は大きい(興味あるcollocation)
下半分のtの値は小さい(興味のない語の並び POS Filterでは除くようなstop wordをとりこんでいる)
stop wordをとりこまないと棄却されない例はほとんどない。(20回出現したbigram中824 out of 831)
bigramは(20回出現したbigramのみ見ても)ほとんどcollocationだ!! => 言語は規則的であり、予測できないことはほとんど起こらない。
word sence disambiguation & 確率的な構文解析の能力


5.3.2 違いの仮説検定(Hypothesis testing of differences) (CHurch & Hanks 1989)
  t検定を違いを見付けるためにつかう。
  strongとpowerfulの違い 片方でよく出るが、もう一方では出ない単語で特徴付ける
  t scoreを計算
  H0は「二つの平均の差が0」 つまりかわらないってこと。
  continue....

5.3.3 Pearsonのχ2検定
  t検定は普通に分散していることを仮定しているが、これは一般には当てはまらない。(Charch & Mercer 1993)
  そんなときのχ2検定 (not normally distributed)
  χ2分布に従うか??
  continue ...

5.3.

統計メモ
母集団が調べたいもの全体。平均、分散をもつ。
標本から平均、分散を計算。
二つの母集団の比較とか
参考文献とリンク
素材
数式達(tex)
統計(自分で書いたメモ)

Author: Takashi Masuyama (tak AT is DOT s DOT u-tokyo DOT ac DOT jp)