第1部データ解析と計算機03散布図と回帰直線。青丸のデータはアンスコム(Anscombe)の数値例のひとつ。500平均-σ平均321.5平均+σ3004001002008ばらつきの大きさ 1日あたりの患者数が(371, 266, 350, 378, 445, 353, 327, 272, 178, 275)だったとします。この分布は、図のように平均321.5のまわりにばらついています。ばらつきの大きさは、平均との差を2乗して平均することによって数値化でき、その平方根σ(シグマ)を標準偏差と言います。データ間の関係を数値化する 気温と花粉の飛散量のようにふたつのデータの間に関係があることがあります。たとえばxとyの値(x,y)が(10, 8.04), (8, 6.95), (13, 7,58), (9, 8.81), (11, 8.33), (14, 9.96), (6, 7.24), (4, 4.26), (12, 10.84), (7, 4.82), (5, 5.68) のとき、直線y=ax+bとデータ点の差の2乗の和が最小になるようにaとbを決めることができます。 この方法を最小二乗法、直線を回帰直線と呼びます。データを活用するためには、データを整理して平均値や、ばらつきの大きさを計算したり、データどうしの関係を数値化したりすることが必要になり、計算機が用いられます。
元のページ ../index.html#8