クラスの相対頻度を計算する方法
頻度分布は、各クラスに属するデータセット内の要素の数を示します。 相対頻度分布では、各クラスに割り当てられる値は、そのクラスに属するデータセットの合計の割合です。
たとえば、200個のスーパーマーケットのサンプルに基づいて頻度分布があるとします。 これは、これらのスーパーマーケットの50は、コーヒーのポンドのためのbetween8.00と$8.99の間の価格を充電することが判明しました。 相対的な頻度分布では、このクラスに割り当てられる番号は0.25(50/200)になります。 言い換えれば、それは全体の25%です。
クラスの相対頻度を計算するための便利な式は次のとおりです:
クラス頻度は、各クラスの観測値の数を指し、nはデータセット全体の観測値の合計数を表します。 Supermarketの例では、観測値の総数は200です。
相対頻度は、合計の割合(割合)または合計の割合として表すことができます。 たとえば、次の表は、20の異なるステーションでのガス価格の頻度分布を示しています。
ガソリン価格($/ガロン) | ガソリンスタンドの数 |
---|---|
$3.50–$3.74 | 6 |
$3.75–$3.99 | 4 |
$4.00–$4.24 | 5 |
$4.25–$4.49 | 5 |
この情報に基づいて、相対頻度式を使用して、各クラスの価格の相対頻度を分数とパーセンテージの両方で示す次のテーブルを作成できます。
ガス価格($/ガロン) | ガソリンスタンドの数 | 相対周波数 (割合) |
相対周波数 (パーセント) |
相対周波数 (割合) |
相対周波数 (パーセント)) |
---|---|---|---|---|---|
$3.50–$3.74 | 6 | 6/20 = 0.30 | 30% | ||
$3.75–$3.99 | 4 | 4/20 = 0.20 | 20% | ||
$4.00–$4.24 | 5 | 5/20 = 0.25 | 25% | ||
$4.25–$4.49 | 5 | 5/20 = 0.25 | 25% |
サンプルサイズが20のガソリンスタンドでは、各クラスの相対的な頻度は、実際のガソリンスタンドの数を20で割った値に等しくなります。 結果は、分数またはパーセンテージのいずれかで表されます。 たとえば、prices3.50から$3.74の間の価格の相対頻度を6/20として計算して、0.30(30パーセント)を取得します。 同様に、prices3.75と3 3.99の間の価格の相対頻度は、4/20=0.20=20パーセントに等しくなります。
相対頻度分布を使用する利点の1つは、必ずしも同じ数の観測値を含むとは限らないデータセットを比較できることです。 たとえば、ある研究者がニューヨークとコネチカット州のガス価格の分布を比較することに興味があるとします。 ニューヨークははるかに大きな人口を持っているので、それはまた、より多くのガソリンスタンドを持っています。 研究者は、サンプルのためにニューヨークのガソリンスタンドの1%とコネチカットのガソリンスタンドの1%を選択することにしました。 これはニューヨークで800人、コネチカットで200人であることが判明しました。 研究者は、次の表に示すように、周波数分布をまとめます。
価格 | ニューヨークのガソリンスタンド | コネチカットのガソリンスタンド |
---|---|---|
$3.00–$3.49 | 210 | 48 |
$3.50–$3.99 | 420 | 96 |
$4.00–$4.49 | 170 | 56 |
この頻度分布に基づいて、2つの州の価格分布を比較するのは厄介です。 このデータを相対的な頻度分布に変換することにより、最後の表に示すように、比較が大幅に簡素化されます。
価格 | ニューヨークのガソリンスタンド | 相対頻度 | コネチカットのガソリンスタンド | 相対頻度 |
---|---|---|---|---|
$3.00–$3.49 | 210 | 210/800 = 0.2625 | 48 | 48/200 = 0.2400 |
$3.50–$3.99 | 420 | 420/800 = 0.5250 | 96 | 96/200 = 0.4800 |
$4.00–$4.49 | 170 | 170/800 = 0.2125 | 56 | 56/200 = 0.2800 |
その結果、両州のガス価格の分布はほぼ同じであることが示された。 約25%のガソリンスタンそれぞれの状態における料金価格と$3.00や$3.49、約50%の料金価格と$3.50や$3.99、約25%の料金価格と$4.00および$4.49.