Collocations

Last modified: Sun May 9 23:32:13 JST 2004

Foundations of Statistical Natural Language Processing
Collocations 5.1 - 5.3.3 Collocationとは

Collocation (連語) 複数の語が慣習的に組合わさるもの。自然な言い回しをとりだしたい。
compositionality
compositional .. 全体の意味が部分の意味から予測できること
compositionはcompositionalでないものもある。
例
strong tea, kick the backet(死ぬ)
term .. 語や句
応用(application)

自然言語生成器
自然言語の字句解析、構文解析、corpus linguistic reserch
vs. Chomsky & Saussure
Chomskyのアプローチは言語の構造(句、文)を重視していた
vs. [Firth] Contextual theory of meaning
Contextを重視する。social setting, spoken and textual discourse,collocation
例
strong tea vs. powerful tea
Contextを知らないと powerful teaは許される

おまけ

New York Timesからコーパスを取って来ている。(やたらNew Yorkが多い)

Collocationを統計的に見付けるアプローチ

5.1 Frequency(頻度)
同時に出て来る回数を数える。頻度が高ければcollocation。
正直に数える
of the, in theなど興味のないものが上位を占める。
part-of-speech filterにかける (Justeson and Katz POS filter)
句になりそうなタグパターンを与えて、それに合うものを出力
AN, NN, AAN, ANN etc .. (A.. Adjective, P .. preposition, N .. noun)
ここでは連続した2語を数えていると思われる。
より長くマッチする句をとってくる York City -> New York City
strong tea, powerful teaの区別
C(strong,w),C(powerful,w) でcollocationをとってくる(CはcountのC)
頻出する語に差がみられる。
共通して現われる語もある(man,force)
New York Timesには* teaは出なかった....。
Webでは実証された(Altavista)
799 strong tea 普通のページ
17 powerful tea コンピュータでの自然言語処理を話題にしたページ

特徴
フィルタをかけるとうまくいく。
フィルタは言語に対する大雑把な知識

5.2 Mean and Variance (Smadja 1993)
collocationに似た関係。collocationを含むものを見付ける (例 knockとdoor)
さらに距離はまちまち。どちらかが大概「先にでる」関係などを捕らえたい
2単語間の距離を計る。その距離のMean(平均)とVariance(分散)をとる
固定した句 vs. 可変な句
この章では固定した句(fixed phrase)
bigram???
collocation window .. 固定サイズの連続した句をみるwindow。.とかそれ自体句
2単語のどちらかをposition 0に位置付けて、もう一方が左なら負の距離、右なら正の距離をつける。
これはcollocation windowを設定して測定。(打ち切る)
距離の平均と分散を求める。
性質
分散が大きいならば平均は0に近付く。そして、これは興味のない例である。(2語に関係がみられない)
Smadjaが付加した制約
flat peakを取り除く。極端に飛び出しているものだけ抽出した。
80%ぐらいの出来
でも、knoock / doorはcollocationじゃない。
特徴
fixed phraseよりも緩い関係が分かる (knock / door)
相対位置も分かる。(間に何語ぐらい?)

5.3 Hypothesis Testing(仮説検定)
高い出現頻度と低い分散は偶然かもしれない。
例えばnew companiesはnewもcompaniesも出現頻度が高ければcollocationでなくても(偶然)出現頻度が高くなる。
知りたいのは「たまたま」一緒にでるのではなくて、ちゃんと「決まって」でるようなもの。
仮説検定
ある性質を調べるのに、その性質を否定した仮説H0(null hypothesis)をたて、H0を仮定したらイベントが起こるだろう確率pをしらべ、それが十分低いときに元の性質が満たされているとする。
ここでのH0
ある2語が与えられている。
調べたい性質はその2語が決まって同時に出現するということ
よって、H0は「その2語がたまたま同時に出現するということ」
モデルとしては、単純に独立性を仮定する
    P(w1w2) = P(W1)P(w2)
単純すぎて経験にあっていないモデル。とりあえず
5.3.1 t検定
良く使われる。collocationの発見にもしかり。
サンプルから測定した量の平均と分散が必要(さっきのmean,varianceは手法として距離の平均、分散をとったということで、ここでいう統計量としてのmean,varianceとはちょっと意味が違う)
平均 x(上にバー) 分散の平均μ 分散 s²
手順
    t検定量を計算する。 $t &=& \frac{\bar x - \mu}{\sqrt{\frac{s^2}{N}}}$
    表を引いて棄却するか否かを決める。
    母平均(仮定する)と標本平均との差をみる。tが0に近いならば、標本平均が母平均にあっている。
例
1.身長
H₀: 男子の平均身長は158cm (母平均)
H₁: 男子の平均身長は158cmでない。(ここでは低いことを言いたいらしい)
200人の男子を標本とした
x = 169
s² = 2600
t = (169 - 158)/sqrt(2600/200) ≒ 3.05 (t &=& \frac{169 - 158}{\sqrt{\frac{2600}{200}}})
ここでは信頼区間をα=0.005に設定する
片側検定(低い)
t統計量の表を見る。
信頼区間と自由度からtの値を出す表。(Bernoulli trial??)
自由度がkで密度関数を[t,∞)で積分した値がαとなるようなtを表に書いている
そして、表の値は、t_α(ν) = 2.576
標本から得られたtが表のものより大きいので仮説は棄却。
2.collocation (newとcompanies)
値は何にします??出現確率の独立性がH₀
H₀: P(new companies) = P(new)P(companies)
ここからはデータの値を使った計算太字は真の値

new出現回数 15,828

companies出現回数 4675

全token数 14,307,668

bigrams 14,307,668

new companiesがbigramに出現した回数 8

ランダムにbigramを生成して、new companiesがでたら1その他 0 => P(new countries) = P(new)P(countries) ?
つまりこの試行↑で平均P(new)P(countries) 、分散(=p(1-p) cf.2.1.9 ここでは積が十分小さいので) P(new)P(countries)
ベルヌーイ試行ってなんだっけ?
以下計算
    P(new) = 15,828/14,307,668
    P(companies) = 4675/14,307,668
    P(new)P(companies) ≒ 3.615 * 10^-7 (H₀が正しいとするとこの確率でnew companies)
    P(new compaies) = 8/14,307,668 ≒ 5.591 * 10^-7
    t = (5.59110 - 3.61510)*10^-7/sqrt(5.59110*10^-7/14307668) ≒ 0.999932
ここでもα=0.005を設定、表で自由度は∞をみるとt=2.576
H₀をα=0.005(5%で)棄却出来ない
よって、new,companiesは独立に出現している。
Table 5.6が語ることこれらは20回出現したbigram。
上半分のtの値は大きい(興味あるcollocation)
下半分のtの値は小さい(興味のない語の並び POS Filterでは除くようなstop wordをとりこんでいる)
stop wordをとりこまないと棄却されない例はほとんどない。(20回出現したbigram中824 out of 831)
bigramは(20回出現したbigramのみ見ても)ほとんどcollocationだ!! => 言語は規則的であり、予測できないことはほとんど起こらない。
word sence disambiguation & 確率的な構文解析の能力

5.3.2 違いの仮説検定(Hypothesis testing of differences) (CHurch & Hanks 1989)
t検定を違いを見付けるためにつかう。
strongとpowerfulの違い片方でよく出るが、もう一方では出ない単語で特徴付ける
t scoreを計算
H0は「二つの平均の差が0」つまりかわらないってこと。
continue....
5.3.3 Pearsonのχ²検定
t検定は普通に分散していることを仮定しているが、これは一般には当てはまらない。(Charch & Mercer 1993)
そんなときのχ²検定 (not normally distributed)
χ²分布に従うか??
continue ...
5.3.

統計メモ

母集団が調べたいもの全体。平均、分散をもつ。
標本から平均、分散を計算。
二つの母集団の比較とか

参考文献とリンク

Chris Manning and Hinrich Schütze,
Foundations of Statistical Natural Language Processing
MIT Press. Cambridge, MA: May 1999.

統計学入門基礎統計学〈1〉/統計学入門

松原望（東京大学教授）の永久総合案内サイト

素材

数式達(tex)
統計(自分で書いたメモ)

Author: Takashi Masuyama (tak AT is DOT s DOT u-tokyo DOT ac DOT jp)

new出現回数	15,828
companies出現回数	4675
全token数	14,307,668
bigrams	14,307,668
new companiesがbigramに出現した回数	8