Python データ分析

【Pythonでデータ分析】岸田首相の就任後6ヶ月間の国会発言をワードクラウドにしてみる

2022年6月22日

こんにちは。TATです。

今日のテーマは「【Pythonでデータ分析】岸田首相の就任後6ヶ月間の国会発言をワードクラウドにしてみる」です。

 

本記事を執筆している2022年5月現在では、岸田政権が発足してから既に半年が経過しました。

早いもんです。ひたすら検討している半年間でした。巷では検討師とも言われているそうですね。。。w

 

本記事では、岸田首相が就任してから半年間の国会発言を収集してワードクラウドにしてみようと思います。

どんな結果が出てるのか楽しみです。

 

【Pythonでデータ分析】岸田首相の就任後6ヶ月間の国会発言をワードクラウドにしてみる

【Pythonでデータ分析】岸田首相の就任後6ヶ月間の国会発言をワードクラウドにしてみる

データの準備

まずはデータの準備です。

 

国会会議録検索システムをスクレイピング

国会の議事録は国会会議録検索システムに公開されています。

ここで岸田首相を指定して検索すれば、発言した会議一覧が取得でき、発言内容チェックすることができます。

 

今回はSeleniumを使ってサクッと収集しました。

収集したデータがこちらです。

 

データの収集方法については過去記事で解説しているので、もしご興味あればご参考ください。

【Pythonコード解説】Seleniumで国会会議録検索システムをスクレイピングしてみる

続きを見る

 

データ整形

データを収集したら少しデータ整形します。

このままだと日付ごとでフィルターしたり、発言者を特定してデータを抽出したりすることができません。

 

よって、データ分析を行うには収集したデータをきれいにしてあげる必要があります。

不要なデータを削除したり、必要なカラムを追加したりして、分析に便利なように変形していきます。

 

ここでは以下の作業を行いました。

 

データ整形

  • 議院(衆議院or参議院)を抽出
  • 会議名(本会議など)を抽出
  • 会議の日付を抽出
  • 日付を西暦に変換
  • 発言者名を抽出

 

上記の作業をおこなった結果がこちらです。

 

いい感じですね。

これでデータの準備は完了です。

 

データ整形のやり方についてもこちらの記事で解説しております。

【Pythonコード解説】Seleniumで国会会議録検索システムをスクレイピングしてみる

続きを見る

 

ワードクラウドを実装する

データの準備ができたので早速ワードクラウドを作っていきます。

 

Mecabを使って形態素解析

ワードクラウドを作るには、文章から単語を抽出してリスト化する必要があります。

日本語は英語と違ってスペースで文章が区切られていないので、ここが少し厄介です。

 

文章を単語に分解するには、Mecabというライブラリを使います。

これを使うと、任意の文章を形態素解析することができます。

文章を名詞とか助詞とか副詞などに分解してくれます。

 

こんな感じです。

 

文章を分解して、名詞とか動詞などを判定してくれていることがわかります。

ワードクラウドを作る際には、単体ではあまり意味をなさない助詞とかは不要なので、必要な単語を選定するのにMecabは便利です。

 

これで岸田首相の発言を形態素解析して、必要な単語だけを抽出してリストを作ります。

 

名詞だけを抽出してワードクラウドにする

今回は名詞だけを抽出してワードクラウドを作っていきます。

 

用意したデータは、会議の発言データ全てが含まれているので、岸田首相の発言だけに抽出する必要があります。

ついでにindexも変になっていたのでリセットしました。

 

これで岸田首相の発言だけを抽出することができました。

あとはこの発言内容をMecabで形態素解析して名詞だけを抽出できればOKです。

 

ワードクラウドはwordcloudといういかにもなライブラリを使うと簡単に作成することができます。

これを使ってワードクラウドを作るとこうなりました。

 

単語の頻出頻度の応じて文字の大きさが変化します。

大きい文字はたくさん発言されてるという意味になります。

 

不要な単語を排除する

上記のワードクラウドを見ると、「これ」とか「こと」とか「我が国」とか、不要な単語が目立ちます。

ワードクラウドを作る際には、こういった不要な単語を排除してあげることが必要です。

 

試行錯誤の結果、僕の独断と偏見で以下の単語は不要と判断して排除しました。

 

これらの単語を排除して作成したワードクラウドがこちらです。

 

新型コロナ」、「資本主義」、「安全保障」あたりが一番大きく出てますかね。

さらに岸田首相の代名詞でもある「検討」も左の方に結構大きく出ています。

 

これでいい感じにワードクラウドができたので、ここからはいろいろな条件でワードクラウドを作ってみます。

 

いろいろな条件でワードクラウドを作ってみる

ワードクラウドがいい感じにできるようになったので、ここからはいろいろな条件ワードクラウドを作ってみます。

 

衆議院と参議院

まずは衆議院参議院で発言内容を比較してみます。

まずは衆議院です。

基本的には大差ないですね。

検討」という文字は力強く出ています。

 

次に参議院です。

こちらは「支援」とか「新型コロナ」がより大きく出ていることがわかりますね。

もちろん「検討」も右上に鎮座しています。

 

会議名別

次に会議名別にみてみます。

データを見ると、本会議、決算委員会、予算委員会、財政金融委員会4つの会議がありました。

それぞれの発言内容を見てみます。

 

まずは本会議です。

これはあまり変化ないですね。

 

次に決算委員会です。

ここでは「ロシア」や「エネルギー」などが目立っていますね。

ロシアのウクライナ侵攻によるエネルギー価格の高騰について触れていたのでしょうか。

検討」もありますねw

 

 

次に予算委員会を見てみます。

ここも「ロシア」が大きく出ています。

国際社会」や「支援」も大きいですね。

検討」はかなり小さくなりました。

 

最後に財政金融委員会です。

税制」とか「財政」という言葉が出てきました。

ここに「検討」はないですね。

 

年月ごとでみる

最後に年月ごとにみていきます。

日付データから年月を出して、各年月でワードクラウドを作成します。

 

まずは就任した2021年10月です。

圧倒的「検討」ですね。

その他、「新型コロナ」や「成長分配」、「資本主義」なども目立ちます。

資本主義」は新しい資本主義のことと思いますが、いまだに中身が謎ですね。。。

 

次は2021年12月です。2021年11月のデータはありません。

ここでも「支援」やら「新型コロナ」やら「資本主義」やら「検討」やらが目立ちます。

あまり発言内容は変わってないように見えます。

 

次に2022年1月です。

この時期から「地域」とか「感染」という言葉が台頭してきました。

新型コロナウイルスの感染件数が増えてきたころですからね。

 

次に2022年2月です。

ここにきて「賃上げ」とか「賃上げ税制」という言葉が出てきました。

結局何かしましたっけこれ?w

 

最後に2022年3月です。

ロシア」や「ウクライナ」が出てきました。

どの時期を見ても「検討」はありますね。

 

まとめ

いかがでしたでしょうか。

ここでは、「【Pythonでデータ分析】岸田首相の就任後6ヶ月間の国会発言をワードクラウドにしてみる」というテーマで、岸田首相の国会発言をSeleniumで収集してワードクラウドを作ってみました。

 

期待通り、「検討」という言葉がたくさん出てきましたw

「新しい資本主義」や「成長と分配」を掲げて首相に就任した岸田総理ですが、半年間経過したところ特に何かをしたというような印象がありません。

むしろいまだに新しい資本主義の中身は不明ですし、成長もなければ分配もないという極めて謎な路線に突っ走っているように見えます。

 

これからどうなるのでしょうかね。。。

まあ期待はせずに、我々は副業したり投資したりして、自分たちで収入や資産を頑張って増やしていったほうが良さそうですw

 

ここまで読んでくださり、ありがとうございました。

 


データ分析するならPythonがおすすめです!

データ分析に興味があるならPythonがおすすめです。

データの収集から整形、分析、可視化、さらに機械学習やAIの実装など、あらゆる用途に活用できます。

昨今のAIブームでPythonの需要は拡大しており、習得しておくと転職市場でも有利です。

 

Pythonの独学ロードマップを作りました!

社会人になってからPythonを独学した経験を活かして、独学ロードマップを作りました。

これからPythonを学ぼうとしている方、学習中の方の参考になれば嬉しいです。

【決定版】Python独学ロードマップ【完全初心者からでもOKです】
【決定版】Python独学ロードマップ【完全初心者OK】

続きを見る

 

おすすめのPython学習法!

Udemy

Pythonを独学するならUdemyがおすすめです。

動画教材なので理解がしやすく、セールで購入すれば90%オフとかで買えるのでコスパも最強です。

おすすめポイント

  • 動画教材で理解しやすい
  • セール中なら90%オフとかで購入可能
  • プログラミングスクールよりも格安で良質なコンテンツが手に入る
  • 30日間の返金保証
  • 講師に質問できる&過去の質問を閲覧できる

\30日返金保証/

Udemyを詳しく見る

セール中なら90%オフとかで購入可能です!

プログラミングの独学にUdemyをおすすめする理由!【僕はPythonを独学しました】

続きを見る

 

データミックス(datamix)

Pythonによるデータ分析に興味のある方は、データミックス(datamix)がおすすめです。

プログラミングだけではなく、データサイエンスやビジネスに関するノウハウも合わせて学ぶことができます。

おすすめポイント

  • データサイエンティストが開発・監修した体系的かつ実践的に学べるカリキュラム
  • Pythonなどの「スキル」のみでなく、データサイエンスの本質である「理論」や「思考」が学べる
  • エンジニアに限らず、多様なキャリアを形成・構築できる
  • オンラインチャットツールによる質問対応やコミュニティなどの充実したフォロー体制
  • 専門実践教育訓練給付金の対象講座で授業料の最大70%還付

\データサイエンスとビジネスが学べる/

データミックス(datamix)を詳しく見る!

エンジニア転職だけでなく起業やフリーランスなど多様なキャリア形成・構築に繋がる

データミックス(datamix)の特徴や評判は?【データサイエンスとビジネスが学べる】

続きを見る

 

SAMURAI TERAKOYA

プログラミングスクールでコストを重視するならSAMURAI TERAKOYAがおすすめです。

月額料金さえ支払えば、その他の費用は一切かかりません。

おすすめポイント

  • 継続しやすい安価な月額定額制(月額1,980円〜)
  • 入会金不要、いつでも退会可能
  • 月1回のオンラインレッスンが受けられる
  • 現役エンジニアに質問し放題
  • 28種類の教材が利用し放題

月額1,980円~のサブスク型

「SAMURAI TERAKOYA」を詳しく見る

入会金不要で違約金なしでいつでも退会可能!気軽に始められます!

「SAMURAI TERAKOYA」の特徴は?評判は?【サブスク型でコスパ最強!】
「SAMURAI TERAKOYA」の特徴は?評判は?【サブスク型でコスパ最強!】

続きを見る

-Python, データ分析
-,

© 2022 気ままなブログ