【データの分析①】データの整理『度数分布表とヒストグラム』

レッサーくん
レッサーくん

また新型コロナウイルス感染者数が増えているみたい…

ところで,新規感染者数はなぜいつも棒グラフで表すのかな?

ホッくん
ホッくん

棒グラフはパッと見で理解しやすいからだよ!

データの世界では❝ヒストグラム❞と呼ぶんだ~。

本時から数学Ⅰの新単元【データの分析】の学習がスタートします!

現代の社会では数多くのデータであふれかえり,ビッグデータなんて呼ばれてAI(人工知能)で高速処理して分析されています

そんな現代を生きる上で欠かせない【データの分析】の方法について,基礎から学習をしていきましょう!!

まず本時では

「度数分布表とヒストグラムについて知ろう!」

さっそく本時の結論です

★本時の結論★

度数分布表は表,ヒストグラムはグラフにまとめたもの


データの整理『度数分布表とヒストグラム』

データとは?

レッサーくん
レッサーくん

そもそもデータってどういう意味なんだろう?

ホッくん
ホッくん

日常会話と数学で使うデータは同じ意味だと理解してOKだよ!

まず❝データ❞という言葉の意味を整理しましょう

データ ( 英: data )とは、 事実 や 資料 をさす言葉。 言語的には複数形であるため、厳密には複数の事象や数値の集まりのことを指し、単数形は datum(データム)である。 伝達、解釈、処理などに適するように形式化、符号化されたもの、または再度情報として解釈できるものをいう。

出典: フリー百科事典『ウィキペディア(Wikipedia)』

「7月の新型コロナウイルスの新規感染者数」とか「今月の最高気温が25度以上の日数」「クラスの生徒の身長の大きさ」はすべてデータと言えます

これらのように,いろんな測定値や観測値をデータというので,数値で与えられているものはデータであると認識しておきましょう

データ『静岡県の新型コロナウイルス新規感染者数【2022年7月】

静岡県における新型コロナウイルス新規感染者数のデータを取り上げて,一緒に考えていきましょう

2022年7月の新型コロナウイルス新規感染者数を,7月1日から日付順に並べてみます

静岡県の新型コロナウイルス新規感染者数【2022年7月】日付順

71人,85人,90人,35人,169人,198人,217人,285人,333人,311人,171人,693人,605人,641人,587人,799人,612人,338人,192人,1619人,1354人,1173人,1422人,807人,295人,1591人,1297人,1274人,1133人,1359人,967人

ホッくん
ホッくん

このデータからどんなことが読み取れるかな?

レッサーくん
レッサーくん

増えたり減ったりしているけれど…

後半の方が人数が増えているね!

ホッくん
ホッくん

データの特徴を読み取れるように,

表やグラフでデータを整理してみよう!

「あなたはこのデータからどんなことが読み取れますか?」

増えたり減ったりを繰り返しながら,だんだんと人数が増えていることは読み取れそうですね!

他にはどんな傾向があるでしょうか??

傾向を読み取りやすいように,表やグラフを使ってデータを整理していきましょう

そこで本時は,データの整理の方法を2つ紹介します!

  1. 度数分布表(表)
  2. ヒストグラム(グラフ)

表にして整理したもの度数分布表グラフにして整理したものヒストグラムと覚えましょう!

度数分布表

まず,データを表にして整理する度数分布表にまとめてみましょう

レッサーくん
レッサーくん

表に書いてある❝度数❞って何?

ホッくん
ホッくん

度数はデータの個数のことだよ!

今回のデータであれば❝日数❞だね♬

階級度数についてまとめておきましょう

  1. 階級 ‥‥ 区切られたデータの各区間
  2. 度数 ‥‥ データの個数

今回は,300人ごとを区切りとして階級を設定してあります

表のまとめ方次第では,100人ごとや500人ごとで区切って階級を設定してもいいですね!

また,今回のデータにおける度数は日数を表しています

度数がどのように分布しているのかを見るのが,度数分布表です

レッサーくん
レッサーくん

表にまとめてあると見やすくなるね!

ヒストグラム

次に,データをグラフにして整理するヒストグラムにまとめてみましょう

レッサーくん
レッサーくん

グラフにするとさらに見やすくなるね!

ホッくん
ホッくん

視覚的に分かりやすいのがヒストグラムの特徴だよ♬

度数分布表を柱状のグラフで表したものを,ヒストグラムといいます

データの整理の順番としては,「データ⇒度数分布表⇒ヒストグラム」の流れです

度数分布表をヒストグラムで表すと,データの分布はかなり見やすくなります

このヒストグラムから読み取れるデータの傾向について,まとめておきましょう

ヒストグラムから読み取れるデータの傾向

① 新規感染者数が最も多いのは,0人以上300人未満で11日間あった

② 新規感染者数が2番目に多いのは,600人以上900人未満で6日間あった

③ 新規感染者数が1650人以上になる日は1日もなかった

逆に,7月上旬と7月下旬の新規感染者数の増減の様子を読み取ることはできません

ヒストグラムで読み取れること・読み取れないことがある…

このことはしっかりと認識しておきましょう!

★補足★ ヒストグラムの語源は?

レッサーくん
レッサーくん

ところで″ヒストグラム″の語源ってなんだろう?

ホッくん
ホッくん

古代ギリシャ語とも言われているよ!

″ヒストグラム″の言葉の語源に迫ってみましょう

histogram (ヒストグラム)の語源は、定かではないが、古代ギリシャ語で「なにかを直立にする」(帆船のマスト、織機のバー、ヒストグラムの縦棒など)という意味の ἱστός(istos、イストス)と、「描いたり、記録したり、書いたりすること」という意味の γράμμα(gramma、グラマ)を合わせた用語だといわれている。この用語は、イギリスの統計学者カール・ピアソンが1891年に historical diagram から創案したともいわれている。

出典: フリー百科事典『ウィキペディア(Wikipedia)』

ヒストグラムの語源は明確には定かではありませんが,古代ギリシャ語が由来となっているとも言われています

古代ギリシャというと,紀元前8世紀から4世紀にかけての時代ですので,数学の壮大な歴史を感じますね♫

【まとめ】度数分布表とヒストグラムで,データの傾向を視覚的に読み取ろう!

それでは本時のまとめです

  1. データとは事実や資料を指す言葉であり,数値で与えられているものは基本的にデータといえる
  2. データの整理の仕方は2種類ある
  3. データを表にして整理したものを度数分布表グラフにして整理したものをヒストグラム
  4. 度数分布表における階級はデータの区切り度数はデータの個数を表す
  5. ヒストグラムは視覚的に理解しやすい特徴を持つが,読み取れないこともある
  6. ヒストグラムの語源は明確には定かでないが,古代ギリシャ語が由来とも言われる

本時から【データの分析】の単元がスタートし,データの整理の仕方を2通り学習しました

散らばったデータを度数分布表とヒストグラムにまとめると,見やすく整理されたものになりました

まとめ方が異なれば読み取れることが変わってきます

次回からはデータの分析をする指標を紹介します

データの分析方法について一緒に楽しく学んでいきましょう!

今回は以上です。ありがとうございました

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA