話題の勤労統計調査を元のデータと再集計データで比較してみました! では、最近話題になっている勤労統計調査について少し調べて見たのでご紹介します。
最近、ニュースでも頻繁に取り上げられていますね。
毎月勤労統計調査とは、厚生労働省が月次で発表しているデータであり、給与や労働時間、雇用についての情報を都道府県別における変動を明らかにする目的で行われているとのことです。
データを見てみると5人以上の雇用がある事業所が対象で、企業規模別の集計データもあります。
ここでは、今回話題になった不正の概要と、再集計値でどれくらいの差が出たか調べてみたので、順番にご紹介していきます。
目次
話題の勤労統計調査を元のデータと再集計データで比較してみました!
1. 不正統計の概要
まず話題となった不正について簡単に触れておきますと、ことの発端は総務省が、全数調査の「500 人以上規模の事業所」に対する値が、平成 29 年と 平成 30 年で数値が不連続になっているとの指摘をしたことから始まります。
その後、詳しく調べていくと以下のことが発覚し、世間へと公表されました。
ちなみにここで紹介している内容はきちんと厚生労働省から発表されていますのでご参考ください。(こちらからどうぞ)
1. 全面調査するとしていたところを抽出調査で集計している箇所があったこと
こちらのデータは都道府県別でさらに事業規模別に集計がなされるのですが、東京都の「500 人以上規模の事業所」において、本来は全面調査するところを抽出調査していたことが発覚しました。
全数調査であれば調査の対象となる事業所数は1464箇所でしたが、実際には491箇所だったとのことです。
これでは集計の値が乖離する可能性があります。
というより乖離していたので指摘されたんですけどね。
2. 統計処理の際に復元すべきところを復元していなかったこと
平成29年までの集計では、同一産業・同一規模の場合には全国で均一の抽出率で集計されていました。
横並びで情報を比較するためには集計方法を統一する必要がありますからこれは当然ですよね。
しかしながら平成30年では東京都のみが抽出調査であったために復元が行われていませんでした。
結果として、平成16年から平成29年までの「決まって支給する給与」などの金額が実際の値よりも低くなっていたことが発覚しました。
このようにきちんと資料を読んで、何が原因でどのような事態になっているかを理解していると、最近の国会で「アベノミクスの数値が良くなるように介入したのではないか?」などの発言の背景がわかります。
テレビのニュースではここまで詳しくは言いませんからね。
結局のところは情報は自ら取得して正しく理解することが重要です。
テレビのニュースにしても芸能ニュースなどのあまり役に立たない情報提供は減らして、このようなもっと為になる情報を提供してほしいものです(ちなみに私はテレビもっていませんw)
2. 再集計値を元データと比較してみた
とりあえず、不正に関する説明や愚痴についてはこれくらいにしておいて、今回の発覚を経て、毎月勤労統計調査の再集計値が発表されています。
今回はこれを元の値と比較してどれくらいの誤差が生じていたのかを見ていこうと思います。
データについてもきちんと政府から公表されています。
e-Statという日本の統計が閲覧できるサイトがあるのですが、こちらでちゃんとデータが公開されているんですね。
こちらのリンクに飛んでいただきますと、元のデータと再集計されたデータがあります。
データには月次と年次のものがありますが、ここでは年次のもので比較します。(どちらも内容は同じです。時間軸が異なるだけです。)
まずエクセルを開いて驚くのがそのデータの見づらさですね(笑)
謎の記号が羅列して印刷用のためか一定の間隔でデータが区切られています。
記号については別紙で説明書が出ています。(こちらからご確認ください)
リンク先のPDFを見ると、事業規模や業種を記号で振り分けているようですね。
最初からExcelに表示してくれていてもいいと思うのですが・・・・
こういう数字の羅列を作ってどうやって確認するんですかね。
時系列でちゃんと見てるんですかね。
(多分見てないから不連続な値になっていることにも気づかないんですよね・・・)
まあそれはおいといてとりあえず、早速データを比較してみましょう。
全てのデータを比較するとすごい量になるので、ここでは今回話題になった「500 人以上規模の事業所」と「決まって支給する給与」に注目します。
この誤差がいかほどのものか実際に比べてやろうというものです。
とりあえずいきなり結論からいきましょう。
こちらが、「500 人以上規模の事業所」と「決まって支給する給与」について、元のデータと再集計されたデータで比較したものです。
業種ごとにまとめれています。
ちなみに「決まって支給する給与」は、「所定内給与」と「超過労働給与」の合計です。
いわゆる基本給と残業代の合計です。
業種によっては再集計されて値が大きくなっているものもありますね。
減っているものもあります。
これだと少し見づらいので、差分だけを可視化します。
元の値と比べて、再集計値がどれだけ変化したかを%で表示します。
大きく乖離が見られるのが、「宿泊業, 飲食サービス業」と「学術研究, 専門, 技術サービス業」ですね。
特に「宿泊業, 飲食サービス業」は再集計値は元の値よりも約2.56%も増えています。
一方で、「学術研究, 専門, 技術サービス業」は約1.68%下がっています。
ちなみに最近の日本の賃金上昇率が1%弱程度ですからね。(政府からの発表があります。)
直近だと0.8%程度ですかね。
この賃金上昇率に対して、今回の再集計値の差分が最大で約2.56%となると結構影響しますよね。
しかし1つ目のグラフを見てみると「宿泊業, 飲食サービス業」はダントツで給与が低いんです。
再集計値で見ても190,279円と20万円を下回っています。
これなら再集計値で2%以上上昇しても、そのほかの減少分に相殺されてしまいます。
変化率ではなく変化額を見てみましょう。
はい、こうなると元の給与が高い「学術研究, 専門, 技術サービス業」の減少分の方が「宿泊業, 飲食サービス業」の上昇分よりも大きくなるんですね。
騙されてはいけませんよ(笑)
したがいまして、全体的な傾向としては、再集計によってデータが下振れしていることがわかりました。
断定はできませんが、この結果を見ると実際の賃金上昇率はもしかしたら0.8よりも低いかもしれません。
まとめ
いかがでしたでしょうか。
ここでは話題になっていた毎月勤労統計調査について調べてみました。
今回は不正統計の対象となった「500 人以上規模の事業所」と「決まって支給する給与」のみに注目しましたが、毎月勤労統計調査にはそのほかにもたくさんの情報があります。
誰でも簡単にデータを入手できますのでもし興味があれば自分の目で実際に見てみてください。
データの見づらさに圧倒されます(笑)
今回、みじかな話題からデータを見て私自身とても良い勉強になったので、今後、似たような面白そうなネタがあればデータをいじくってみなさんに共有していければなと思います。
また、今回のデータの可視化にはPythonというプログラミング言語を利用しました。
PythonはAIやデータ分析に強いプログラミング言語で、世界中で人気を集めています。
【いますぐ始められます】データ分析をするならPythonが最適です。【学習方法もご紹介します!】
コードがシンプルでとても学びやすいのでとてもオススメです。
僕自身もUdemyというオンライン動画学習サイトを利用して独学でPythonを学びました。
プログラミングの独学にUdemyをおすすめする理由!【僕はPythonを独学しました】