キャリア データ分析

【Pythonでデータ分析】有価証券報告書から上場企業の平均年収を収集して分析してみた!

2021年9月23日

【Pythonでデータ分析】有価証券報告書から上場企業の平均年収を収集して分析してみた!

こんにちは。TATです。

今日のテーマは上場企業の平均年収です。

 

上場企業は年に一度、有価証券報告書という書類を提出します。

ここには企業の業績などの情報がまとめられており、株式投資をするなら確認しておきたい情報がてんこ盛りです。

有価証券報告書には、平均年収などといったおもしろいデータも含まれています。

こういったデータを集めると、業種ごとの年収分布を可視化したり、昨年との年収の上昇率を調べたりすることができます。

さらに年収が高い企業にはどのような特徴があるのかを分析することも可能です。

転職先や就職先の参考になるかもしれませんね。

 

本記事では、有価証券報告書から上場企業の年収データを収集して分析していきます。

 

【Pythonでデータ分析】有価証券報告書から上場企業の平均年収を収集して分析してみた!

【Pythonでデータ分析】有価証券報告書から上場企業の平均年収を収集して分析してみた!

有価証券報告書のXBRLデータを収集する

まず分析をするために必要なことはデータを収集することです。

 

情報元はEdinet

有価証券報告書は、Edinetより様々なフォーマットで発表されます。

いろいろあるフォーマットの中に、XBRLというフォーマットがあります。

XBRLはeXtensible Business Reporting Languageの頭文字をとったもので、XMLベースでデータがまとめられています。

XMLベースになっているので、データがきちんと構造化されており、プログラムで扱いやすくなっています。(詳細はこちらをどうぞ)

 

僕が運営する「投資でニート生活」では、このXBRLデータを毎日収集しています。

ここで収集したデータをもとに今回は分析を進めていきます。

 

taxonomyを指定して年収データを収集する

XBRLデータには、taxonomyというデータがあります。

年収を示すtaxonomyを指定すれば、年収データを簡単に取得することができます。

 

今回は、分析のために年収データに加えて平均年齢や勤続年数なども合わせて収集しました。

それぞれのtaxonomyは以下の通りです。

taxonomy

  • AverageAnnualSalaryInformationAboutReportingCompanyInformationAboutEmployees:平均年収
  • AverageAgeYearsInformationAboutReportingCompanyInformationAboutEmployees:平均年齢
  • AverageLengthOfServiceYearsInformationAboutReportingCompanyInformationAboutEmployees:平均勤続年数
  • NumberOfEmployees:正社員数
  • AverageNumberOfTemporaryWorkers:非正社員数

 

収集データの確認

上記のtaxonomyを収集しました。

収集の対象としているのは、2020年1月1日以降に発表された有価証券報告書です。

データ分析を行ったのは2021年8月27日なので、この日までに発表された有価証券報告書を分析対象とします。

直近(1期前)と2期前のデータをまとめました。

yearEndが決算期末日です。

 

describe関数もみてみます。

1期前の平均年収のMaxは2,269万円ですね。

正社員数のMaxが36万人ってのもすごいですね。

 

平均年収の全体分布を見る

まずはシンプルに平均年収の分布をみていきます。

 

ヒストグラムで可視化する

ヒストグラムにしてみました。

いい感じに正規分布になっていますね。

平均値は6,088,790円で、中央値は5,859,978円となりました。

 

「え、結構高くないですか?」と思う方もいるかもしれませんが、有価証券報告書で報告されている平均年収は、正社員かつ非連結のデータです。

よって親会社のみの年収データになります。子会社のデータは含まれません。

ゆえに、世の中できく平均年収よりかは高くなります。

 

平均年収で600万円というのは悪くない数字です。

願わくば親会社で仕事を掴み取りたいものです。

 

最高年収と最低年収を見る

分布がわかったところで、最高年収最低年収をみてみます。

まずは最高年収です。トップ10をみてみます。

全て余裕の1,000万円超えです。

1位のM&Aキャピタルはなんと年収2,000万円を超えています。

三菱商事や伊藤忠、三井物産といった総合商社の年収の高さも目立ちます。

 

次に最低年収のトップ10をみてみます。

残念ながら全て300万円未満です。

1位はなんと年収200万円です。。。

バイトした方が効率いいんじゃないかってレベルですね。

 

トップ1%に入るには年収いくら必要か

次にパーセンタイルを使って、上位1%の年収をみていきます。

上位1%に入るには、年収で約1,173万円以上が閾値になります。

 

上位10%なら800万円ほどです。

 

800万円を超えると上場企業の上位10%です。

まずはこのあたりを目標に頑張っていきたいところです。

 

2期前からの増減率を見る

次に少し思考を変えて年収の増減率でみてみます。

1期前の平均年収が2期前のそれとどれくらい変化しているのかをみてみます。

 

年収増減率のカラムを追加する

まずはカラムの追加です。

1期前、2期前の年収から増減率を計算して「年収増減率(%)」というカラムに追加します。

小数点第3位まで表示するようにしました。

一部は2期前のデータがなかったのでNaNとなっています。

 

またyearEnd(1期前)の分布を見てみると、2021-03-31と2020-12-31がダントツで、2021-02-28、2020-09-30と続きます。

 

比較するにはある程度期間を揃えておきたいので、コロナショックが始まってしばらく経ったトップ3の2021-03-31、2020-12-31、2021-02-28に絞ります。

先ほどの全体の分布を見るときもここを考慮してもよかったかもですねw

 

最も年収が増加した企業

まずは最も年収が増加した企業を見てみます。

トップ10をご紹介します。

 

10位でも3割アップとすごい上昇率ですね。

1位と2位は60%以上の年収アップです。

1位のスパークスは投資顧問会社、2位のマクニカ富士エレHDは半導体商社です。

いずれもコロナの中で大きく業績を伸ばした企業ですね。

 

最も年収が減少した企業

次に最も年収が減少した企業をみてみます。

 

悲惨ですね。。。

1位のEギャランティはなんと70%以上の減少です。

2期前が2,400万円なので下がっても600万円弱ありますね。

この会社は企業の売掛債権保証で成長している会社のようです。

コロナで倒産する企業が増えて収益も大きく減ったようです。

 

我々のよく知る会社だと6位のOLCがあります。

これはディズニランドを運営するオリエンタルランドです。

コロナの影響を最も受けた業界の1つなので、給料にもがっつり反映されてしまう結果となりました。

 

区分別の年収分布を見る

次に区分ごとの年収分布を見ていきます。

僕が運営している「投資でニート生活」でも区分ごとの集計データは週次と月次で発表しています。

「区分別ランキング」に関する記事一覧

 

ここで使っているデータを使って、区分ごとの平均年収を見ていきたいと思います。

東証から発表されている統計データをもとに区分データを追加しました。(区分データを追加したデータをdf_final2に改名しました)

 

規模区分別の年収分布

それでは順番にみていきます。

まずは規模区分別です。

ここではボックスプロット(日本語では箱ひげ図と言われます)でデータを可視化していきます。

 

中央値(ボックス内にある線)で見ると、TOPIX Core30とTOPIX Large70が高い傾向にあります。

やはり大手企業の年収は高いようですね。

ただし最大値で見ると、どこも吹っ飛んだ値があります。

特にTOPIX Small 1の最大値はおよそ2,200万円です。

こちらは先ほども登場したM&Aキャピタルです。

 

市場・商品区分別の年収分布

次に市場・商品区分別の年収をみていきます。

 

中央値で見るとそこまでの大差はないですが、やや東証第一部が高いですね。

ただ東証第一部に属する会社は多すぎるのでこのデータはあまり参考になりませんw

 

17業種区分別の年収分布

次に17業種区分別の年収分布をみてみます。

 

全体的に高いのはエネルギー資源ですね。

最高値が高い業種は、商社・卸売、情報通信・サービスその他、不動産、電機・精密あたりですね。

一方、全体として低い結果となったのは小売となりました。

 

33業種区分別の年収分布

次に33業種区分別のデータをみていきます。

17業種区分別よりもより細かい結果がわかるはずです。

 

中央値で見ると、鉱業や医薬品、証券、商品先物取引業、保険業、海運業が高い結果となっています。

低いのはやはり小売業ですね。。。

 

中央値で見ることも大事ですが、各種業界の最高レベルと給与水準を知っておくのも面白いですね。

ここでいうと、トップはサービス業(M&Aキャピタル)で、そのほかにも電機機器(キーエンス)、不動産業(ヒューリック)、卸売業(三菱商事)などです。

 

その他のデータとの相関を見る

最後にその他のデータとの相関を見ていきます。

データを見てるといろいろな疑問が湧いてきます。

  • 平均年収が高い→平均年齢や勤続年数も高い?
  • 正社員数が多い→会社がでかい→年収も高い?

 

ここで調査したのは上記の2つです。

それでは順番にご紹介していきます。

データ分析のやりがいは、データの収集や可視化などはもちろんですが、こういった湧いてくるあらゆる仮説に対してデータをもとに確認していく作業にあります。

この仮説が正しくても間違っていても問題ありません。

大事なことはデータをもとにきちんと結論を出すということです。

 

私ごとですが、会社員として働いているといろいろな意思決定を行う場面が出てきます。

こういった場面で感情とか感覚ではなく、きちんとデータに基づいたロジカルな判断が下せるようになることが重要です。

個人的に、会社で働いているとこれができていない人が多いように感じます。。。戯れ言すみません(笑)

話が逸れてしまいましたが、早速仮説を検証していきましょう。

 

ここでは簡単なものしか調べていませんが、もしご興味があれば皆さんもいろいろ調べてみてください。

売上高とか利益との相関を見ても面白いと思います。

 

平均年収が高い→平均年齢や勤続年数も高い?

まずは平均年収と平均年齢や勤続年数との関係です。

日本の企業は、変わりつつありますが未だに年功序列で終身雇用制度みたいな古臭い制度が残っています。

となると、平均年収が高いとある程度年齢もいってないと難しいのではないかと思うわけです。

ということでこれをデータでみてみます。

先ほどから使っているデータには平均年齢と平均勤続年数のデータがあります。

これを使っていきます。

 

まずはシンプルに相関係数をみてみます。

 

これだと全く相関がないことがわかりますね。

期待はずれでしたw

あるいは若くても年収の高い企業が存在するということを意味するので希望のある結果とも言えます。

 

一応それぞれの散布図も見てみます。

まずは平均年収と平均勤続年数の関係です。

みるからに相関ないですねw

右上がりの想定だったんですが、そうでもなかったです。

 

個人的には右下のエリアにいる会社は興味深いですね。

ここにいる会社は勤続年数が短くて年収が高いパターンです。

入社してからすぐに高いか、すさまじい勢いで昇進するかのどちらかですね。

一番右下にいるのが、もはやお馴染みのM&Aキャピタルです。

 

勤続年数5年以下で年収1,000万円を超える企業がこちらです。

ここに転職できたら人生勝ち組ですね。

 

次に平均年収と平均年齢の関係です。

こちらも相関ないですねw

こちらも右下にある企業に注目したいところです。つまり平均年齢が若くて年収が高い企業になります。

平均年収が高くても平均年齢も同様に高ければ、高年収を掴みとれるのは遠い未来の話になりますからね。

若くして高年収を達成できるかどうかはとても大事です。

平均年齢が40歳以下で年収1,000万円を超える企業をピックアップしました。

全体のランキングと比べると、総合商社は皆無になりましたねw

 

さらに勤続年数5年以下、平均年齢40歳以下、平均年収1,000万円超えの夢の企業をリストアップすると、トップ3はM&Aアドバイザリー企業が独占していました。

やはり設備等のコストがかからないビジネスが多いですね。

その分人材にお金が回るのだと思います。

 

正社員数が多い→会社がでかい→年収も高い?

次に社員数と年収の関係を見ていきます。

大企業の方が年収は比較的高い→従業員数から判断できるんじゃないかといった具合の仮説です。

さっきの結果からこれもなんとなく関係なさそうな気もしてますが、一応みておきます。

こちらもとりあえず相関係数を出しました。

相関、ないですね。。。(笑)

 

散布図で見てもね。。。相関ないです。

一番右のM&Aキャピタルは年齢若い、勤続年数も短い、社員数も少ない、の即戦力揃いの効率最強経営ですね。

 

データの分析・可視化にはPythonが最適!

本記事で紹介したコードは、全てPythonを使って書いています。

 

Pythonデータの分析や可視化を得意とするプログラミング言語で、さらにAI関連のライブラリーも豊富で昨今のAIブームで需要が急拡大しています。

【いますぐ始められます】データ分析をするならPythonが最適です。

 

また、Python比較的学びやすい言語でもあります。

実際、僕は社会人になってからPythonを独学で習得して転職にも成功し、Python独学をきっかけに人生が大きく変わりました。

【実体験】ゼロからのPython独学を決意してから転職を掴み取るまでのお話。 

 

Python学習方法についてはいろいろな方法があります。

僕はUdemyを選びましたが、書籍プログラミングスクールも選択肢になります。

【決定版】Python独学ロードマップ【完全初心者からでもOKです】

【まとめ】Pythonが学べるおすすめプログラミングスクール

プログラミングの独学にUdemyをおすすめする理由!【僕はUdemyでPythonを独学しました!】

 

\30日返金保証/

Udemyを詳しく見る

セール中なら90%オフとかで購入可能です!

 

まとめ

いかがでしたでしょうか?

ここでは、有価証券報告書のXBRLデータを収集して、企業の平均年収について分析してみました。

年収というのは、業種によって大きな差があります。

さらに年収が高くても平均年齢や平均勤続年数も高いと、高年収を達成するまでにかなりの時間を要することが想像できます。

今回の結果でいうと、総合商社なんかは年収が高いですが平均年齢もとても高い結果となりました。

若くして高年収を実現するには、こういったことも考慮して就職先を選ぶべきです。

また、年収レンジの高い業種を目指すのも戦略の1つになりそうですね。

ここまで読んでくださってありがとうございました。

おすすめPython学習法

Udemy:セール中なら90%オフで購入可能。豊富なコースから選べる!

データミックス:Pythonとビジネスについて学べる!起業したい方にもおすすめ!

SAMURAI TERAKOYA:月額2,980円〜利用できるコスパ最強スクール!

 

-キャリア, データ分析
-, , , ,

© 2023 気ままなブログ