こんにちは。TATです。
今回のテーマは「【Pythonでデータ分析】日本がやばすぎる!OECDデータから男女間の賃金格差の推移を可視化する【コード解説付き】」です。
久しぶりのデータ分析記事になります。
OECDデータから男女間の賃金格差のデータを見つけたのでこれを可視化していこうと思います。
ついでにコードも解説していきます。
結論から言いますと、日本はOECDの中ではワースト2位の男女賃金格差です。
推移データを見ると、改善は見られますが、それでも海外に比べるとかなりまだまだ遅れています。
データを使って実際に確認していきましょう。
目次
【Pythonでデータ分析】日本がやばすぎる!OECDデータから男女間の賃金格差の推移を可視化する
まずはデータの入手
分析を始めるために、まずは必要なデータを収集します。
データはOECDのサイトからダウンロードできます。
こちらです。
→ https://data.oecd.org/earnwage/gender-wage-gap.htm
リンク先のグラフの右上にあるdownloadから「full indicator data」を選択すると過去データもまとめてCSV形式でダウンロードできます。
ついでに平均賃金のデータも取得します。
こちらからです。ダウンロードの方法は先ほどと同じです。
→ https://data.oecd.org/earnwage/average-wages.htm#indicator-chart
これでデータの準備は完了です。
データを確認する
次にダウンロードしたデータを確認していきます。
pandasを使ってCSVファイルを読み込んで、最初の5行を表示します。
どちらもカラムは全く同じですね。
違うのはINDICATORの中身とValueだけです。
WAGEGAPは男女間賃金格差を、AVWAGEは平均賃金を表しているようです。
基礎的な統計データとデータの型を確認する
Describe関数でValueの平均値などを見てみましょう。
平均賃金のValueの単位はドル、賃金格差のValueの単位は%です。
次にinfo関数を見てみます。
欠損データもなくていい感じです。
Valueもfloatなのでこのまま分析に使えます。
ちなみにその他のカラムを見てみると、SUBJECTはEMPLOYEEとSELFEMPLOYEEの2種類がありました。
ここではEMPLOYEEだけみます。
MEASUREとかFREQUENCYはデータは1種類しかなかったので気にせずにいきます。
国名を追加する
データ分析に移る前に、少しデータを加工します。
先ほどのデータは国名が3文字に省略されているのでわかりにくくなります。
よって、これを国名に変換します。
データはWikipediaから拝借して、取得したデータで変換用の辞書データを作成して変換します。
作成した辞書を使って日本語名と英語名のカラムを追加します。
apply関数を使えば行単位で一括処理できるので便利です。
ちなみに国名を確認するといくつかNULLのデータがありました。
該当データを確認してみると、OECDとEUでした。
これは組織なので仕方ないですね。
無視して進めます。
最新の各国の賃金格差データを比較する
それではここからはいろいろな角度からデータを見ていきます。
まずは、最新データの確認です。
取得したデータの最新データは2020年のものでした。
これを可視化してみます。
一応ソースコードもわかるようにしてスクショ撮りました。
最も男女間賃金格差があるのはぶっちぎりで韓国です。
2位が日本です(涙)
しかも3位以降を大きく突き放しています。
2020年だと該当データが21個しかなかったので、少しデータを増やすために2018年のデータも見てみます。
データ数は41個になりました。
これでも韓国と日本のワンツーフィニッシュですね。情けない。。。
ちなみに男女間賃金格差が最も少ないのはブルガリアでした。
そのほかにも上位国をみると、北欧を筆頭とするヨーロッパが目立ちます。
意外にもアメリカはワースト5位ですね。
そしてフィンランドが結構ランキング低いのが個人的には意外でした。
各国の男女間賃金格差の推移を見る
次に少しデータの見方を変えてみます。
最新の男女間の賃金格差についてはわかりました。
次に、過去と比較してこのデータがどれくらい改善されているのかをみていきます。
改善の方向に向かっていることを祈ります。
まずはpivotを使って少しデータを変形します。
データの重複を排除するために、SUBJECTはEMPLOYEEでフィルターして、国名がNaNであるEUとOECDは排除しました。
これで年別にデータを見ることができます。
これを可視化してみましょう。
ちょっとカオスになってしまいますが、折れ線グラフにしてみました。
いかがでしょうか。
国によってデータ数にばらつきがあるので長さが違いますね。
途中でデータが途切れているものもあります。
全体的な傾向として言えることは、全体的に右肩下がりであるということです。
これはつまり、格差が縮小していることを意味します。
ほとんどの国では、男女間の賃金格差は年々縮小していることが確認できます。
この傾向が続くといいですね。
男女間賃金格差の改善率を比較する
お次に賃金格差の改善率を見てみます。
過去のデータと比べてどれくらい格差が縮小しているのかを確認します。
データ数の多い2018年のデータと2000年のデータで比較してみます。
2000年と2018年の賃金格差の変化率を可視化しました。
Pandasのpct_changeを使うと簡単に計算できます。
-1〜1の間で示され、たとえば、1が100%で-0.5がマイナス50%を示します。
ニュージーランド以外は改善されていることがわかります。
数値データもご紹介しておきます。
2000年のデータが少なかったので、可視化できるデータはかなり絞られてしまいました。
日本も韓国の2強も一応改善していることはわかりますね。
ただそれでも世界と比べるとかなり格差が大きいことがわかります。
いかんせん元の値が高すぎです。
唯一上昇していたニュージーランドについては、もともと格差がとても小さいことがわかります。
日本の比ではありません。
最後に2000年と2018年の格差を散布図にしてみました。
改善されてるとはいえ、日本はまだまだ世界と比べると男女格差が飛び抜けて大きいことがわかりますね。
平均賃金と男女間賃金格差の関係を見る
次に、平均賃金と男女間賃金格差の関係を見ておきます。
最初に読み込んだdf_avwageをようやくここで使います。
データ数の多かった2018年のデータで見てみます。
まずは2つのデータを結合します。
これを可視化します。
散布図にしてみました。
x軸が平均賃金、y軸が男女間の賃金格差です。
右に行くほど平均賃金が高く、上に行くと格差が大きいことになります。
韓国の突き抜け方はすごいですね。
日本もイスラエルも格差では共に突き抜けています。
平均賃金では日本は先進国の中では最下位争いです。
ここのチャートでは、右下にいると平均賃金が高くてなおかつ男女間の賃金格差も低いという理想的な国になります。
ベルギー、デンマーク、ノルウェーあたりでしょうか。
アイスランドもいいですね。
右側で上に行くと賃金高いけど格差も大きいという国になるので色々と歪みが生まれそうな感じがします。
突き抜けたところはないですが、一番近いのはアメリカですね。
左上にいくと、平均賃金が低くてなおかつ格差も大きいという最悪のパターンです。
日本は全体で見ると真ん中よりは左にいるので、わりとここに該当するかもですね。。。
先進国でこの位置にいるのは問題ですね。そもそも日本は先進国なんですかね。。。
全体的に格差は縮小傾向にありますが、依然として格差が大きい国はたくさんあります。
特に日本は世界トップレベルの格差を持っています。
数値上では改善はしているものの、元の格差がデカすぎるだけに改善してもまだ世界からはかなり遅れている状況です。
今でも格差は十分に感じますからね。。。
平均賃金上昇率と男女間賃金格差改善率の関係を見る
最後に少し残酷なデータをご紹介します。
先ほどお見せした平均賃金と男女間賃金格差の変化を見てみます。
2000年と2018年のデータから男女間の賃金格差の改善率(先ほどお見せしたのと同じ)と平均賃金の上昇率を計算して散布図にしてみました。
2000年のデータが少ないので、表示できるデータ数はかなり減ってしまいましたが、それでも日本の残念さを確認することができます。
現実を見ておきましょうw
y軸は格差の改善率なので、先ほどお見せした棒グラフと同じデータです。
ポイントはx軸です。これは平均賃金の上昇率を示しているので、右に行けば賃金が上昇していることになります。
このグラフでいう右下にいるハンガリーやノルウェー、スウェーデンは理想的な国です。
賃金も上昇してなおかつ男女間の格差も縮小しています。
賃金は30%以上上昇して、格差は40%以上縮小しています。
ニュージーランドももともと格差が低い国ですので、それを維持しつつ賃金が上昇しているので良い国と言えます。
韓国については、男女間格差が最も大きい国ですが、少しずつ改善の傾向が見られ、さらに賃金が大きく上昇していることがわかります。
左下にいるベルギーは、賃金はあまり変わっていないけど、格差が縮小した国です。
最後に日本をみますw ご覧の通り、一番左側にいます。
なんと賃金の上昇率がゼロです。
これはつまり2000年から2018年にかけて平均賃金が一切上昇していないことになります。
18年もかかって賃金が全く上がらないのは日本だけですw
そのくせ税金や社会保険料などは上がっているので、手取り給料は減っています。
これを考慮したら実質給料は下がっているのではないでしょうか。
格差是正も大事ですが、そもそも賃金あげてほしいですね。
そういった意味では、このまま行けば韓国に逆転されそうな気配を感じます。
平均賃金では2018年のデータで既に負けています。
男女間格差でも負けたらほんと日本は負け組になります。
昨今の日本政府ではなかなか厳しい感じが否めませんが(個人的には期待ゼロw)、これから是正されていくことを祈ります。
まとめ
いかがでしたでしょうか。
ここでは、「【Pythonでデータ分析】日本がやばすぎる!OECDデータから男女間の賃金格差の推移を可視化する【コード解説付き】」というテーマでOECDのデータを可視化してみました。
日本の男女間格差は世界の中で酷いということは既知でしたが、データを見ると突き抜けていることがよくわかりました。
改善はされているものの、まだまだ世界と比べると格差が大きいことがわかります。
そして2000年から2018年にかけて、日本が唯一の賃金上昇率ゼロ%でしたw
これから上昇に向かうのか、このまま停滞を続けるのか、どうなることやら。。。
いずれにしても、「気ままなブログ」では本記事のようなデータ分析やコード解説記事についても順次拡大予定です。
リクエストとかありましたらご連絡ください。
ここまで読んでくださり、ありがとうございました。