データの罠

イギリスやブラジルといった国名はよく耳にしますが、アゼルバイジャンやトンガはそう多く耳にしません。もしトンガで何か世界的なニュースになるような出来事があれば、その時はトンガの国名を頻繁に聞くことになるでしょうが、そうでなければ今後もあまり耳にすることはないでしょう。

さて、頻度順に単語を並べると、上位の順位にはそれほど変動はないものの、(トンガの例のように)下位においては事情が違ってきます。観測条件によってランキングが大いに変動するからです。期間は過去五十年にすべきか、過去二百年にすべきか、口語か文語か、あるいはその両方か、両方の場合にはどのように重み付けするか、文語にはインターネットを含むか含まないか、口語にバラエティ番組やコマーシャルフィルムを入れるか、分野や地域をどのように絞るか、新語や死語、方言、スラング、ジャーゴンをどのように判定するか等々。

実はこのサイトの単語順も、下位についてはアバウトと見なされても仕方ない部分があります。しかしそれは避けようがないことだと思うので、あまり気にしていません。ほんの誤差とも言えそうなところで順位が大きく変わってくるからです(ホントに)。けれど上位3000語くらいまでは、わりかし変動幅が小さいように思います。これは究極の英単語やJACETの順番を見てもそう感じるので、きっとそういうものなんでしょう。

タイトルをデータの罠としましたが、何かの落とし穴というわけではないので、この話に特にオチはありません。