Python データ分析

【Pythonでデータ分析】岸田首相の就任後6ヶ月間の国会発言をワードクラウドにしてみる

2022年6月22日

こんにちは。TATです。

今日のテーマは「【Pythonでデータ分析】岸田首相の就任後6ヶ月間の国会発言をワードクラウドにしてみる」です。

 

本記事を執筆している2022年5月現在では、岸田政権が発足してから既に半年が経過しました。

早いもんです。ひたすら検討している半年間でした。巷では検討師とも言われているそうですね。。。w

 

本記事では、岸田首相が就任してから半年間の国会発言を収集してワードクラウドにしてみようと思います。

どんな結果が出てるのか楽しみです。

 

【Pythonでデータ分析】岸田首相の就任後6ヶ月間の国会発言をワードクラウドにしてみる

【Pythonでデータ分析】岸田首相の就任後6ヶ月間の国会発言をワードクラウドにしてみる

データの準備

まずはデータの準備です。

 

国会会議録検索システムをスクレイピング

国会の議事録は国会会議録検索システムに公開されています。

ここで岸田首相を指定して検索すれば、発言した会議一覧が取得でき、発言内容チェックすることができます。

 

今回はSeleniumを使ってサクッと収集しました。

収集したデータがこちらです。

 

データの収集方法については過去記事で解説しているので、もしご興味あればご参考ください。

【Pythonコード解説】Seleniumで国会会議録検索システムをスクレイピングしてみる

続きを見る

 

データ整形

データを収集したら少しデータ整形します。

このままだと日付ごとでフィルターしたり、発言者を特定してデータを抽出したりすることができません。

 

よって、データ分析を行うには収集したデータをきれいにしてあげる必要があります。

不要なデータを削除したり、必要なカラムを追加したりして、分析に便利なように変形していきます。

 

ここでは以下の作業を行いました。

 

データ整形

  • 議院(衆議院or参議院)を抽出
  • 会議名(本会議など)を抽出
  • 会議の日付を抽出
  • 日付を西暦に変換
  • 発言者名を抽出

 

上記の作業をおこなった結果がこちらです。

 

いい感じですね。

これでデータの準備は完了です。

 

データ整形のやり方についてもこちらの記事で解説しております。

【Pythonコード解説】Seleniumで国会会議録検索システムをスクレイピングしてみる

続きを見る

 

ワードクラウドを実装する

データの準備ができたので早速ワードクラウドを作っていきます。

 

Mecabを使って形態素解析

ワードクラウドを作るには、文章から単語を抽出してリスト化する必要があります。

日本語は英語と違ってスペースで文章が区切られていないので、ここが少し厄介です。

 

文章を単語に分解するには、Mecabというライブラリを使います。

これを使うと、任意の文章を形態素解析することができます。

文章を名詞とか助詞とか副詞などに分解してくれます。

 

こんな感じです。

 

文章を分解して、名詞とか動詞などを判定してくれていることがわかります。

ワードクラウドを作る際には、単体ではあまり意味をなさない助詞とかは不要なので、必要な単語を選定するのにMecabは便利です。

 

これで岸田首相の発言を形態素解析して、必要な単語だけを抽出してリストを作ります。

 

名詞だけを抽出してワードクラウドにする

今回は名詞だけを抽出してワードクラウドを作っていきます。

 

用意したデータは、会議の発言データ全てが含まれているので、岸田首相の発言だけに抽出する必要があります。

ついでにindexも変になっていたのでリセットしました。

 

これで岸田首相の発言だけを抽出することができました。

あとはこの発言内容をMecabで形態素解析して名詞だけを抽出できればOKです。

 

ワードクラウドはwordcloudといういかにもなライブラリを使うと簡単に作成することができます。

これを使ってワードクラウドを作るとこうなりました。

 

単語の頻出頻度の応じて文字の大きさが変化します。

大きい文字はたくさん発言されてるという意味になります。

 

不要な単語を排除する

上記のワードクラウドを見ると、「これ」とか「こと」とか「我が国」とか、不要な単語が目立ちます。

ワードクラウドを作る際には、こういった不要な単語を排除してあげることが必要です。

 

試行錯誤の結果、僕の独断と偏見で以下の単語は不要と判断して排除しました。

 

これらの単語を排除して作成したワードクラウドがこちらです。

 

新型コロナ」、「資本主義」、「安全保障」あたりが一番大きく出てますかね。

さらに岸田首相の代名詞でもある「検討」も左の方に結構大きく出ています。

 

これでいい感じにワードクラウドができたので、ここからはいろいろな条件でワードクラウドを作ってみます。

 

いろいろな条件でワードクラウドを作ってみる

ワードクラウドがいい感じにできるようになったので、ここからはいろいろな条件ワードクラウドを作ってみます。

 

衆議院と参議院

まずは衆議院参議院で発言内容を比較してみます。

まずは衆議院です。

基本的には大差ないですね。

検討」という文字は力強く出ています。

 

次に参議院です。

こちらは「支援」とか「新型コロナ」がより大きく出ていることがわかりますね。

もちろん「検討」も右上に鎮座しています。

 

会議名別

次に会議名別にみてみます。

データを見ると、本会議、決算委員会、予算委員会、財政金融委員会4つの会議がありました。

それぞれの発言内容を見てみます。

 

まずは本会議です。

これはあまり変化ないですね。

 

次に決算委員会です。

ここでは「ロシア」や「エネルギー」などが目立っていますね。

ロシアのウクライナ侵攻によるエネルギー価格の高騰について触れていたのでしょうか。

検討」もありますねw

 

 

次に予算委員会を見てみます。

ここも「ロシア」が大きく出ています。

国際社会」や「支援」も大きいですね。

検討」はかなり小さくなりました。

 

最後に財政金融委員会です。

税制」とか「財政」という言葉が出てきました。

ここに「検討」はないですね。

 

年月ごとでみる

最後に年月ごとにみていきます。

日付データから年月を出して、各年月でワードクラウドを作成します。

 

まずは就任した2021年10月です。

圧倒的「検討」ですね。

その他、「新型コロナ」や「成長分配」、「資本主義」なども目立ちます。

資本主義」は新しい資本主義のことと思いますが、いまだに中身が謎ですね。。。

 

次は2021年12月です。2021年11月のデータはありません。

ここでも「支援」やら「新型コロナ」やら「資本主義」やら「検討」やらが目立ちます。

あまり発言内容は変わってないように見えます。

 

次に2022年1月です。

この時期から「地域」とか「感染」という言葉が台頭してきました。

新型コロナウイルスの感染件数が増えてきたころですからね。

 

次に2022年2月です。

ここにきて「賃上げ」とか「賃上げ税制」という言葉が出てきました。

結局何かしましたっけこれ?w

 

最後に2022年3月です。

ロシア」や「ウクライナ」が出てきました。

どの時期を見ても「検討」はありますね。

 

まとめ

いかがでしたでしょうか。

ここでは、「【Pythonでデータ分析】岸田首相の就任後6ヶ月間の国会発言をワードクラウドにしてみる」というテーマで、岸田首相の国会発言をSeleniumで収集してワードクラウドを作ってみました。

 

期待通り、「検討」という言葉がたくさん出てきましたw

「新しい資本主義」や「成長と分配」を掲げて首相に就任した岸田総理ですが、半年間経過したところ特に何かをしたというような印象がありません。

むしろいまだに新しい資本主義の中身は不明ですし、成長もなければ分配もないという極めて謎な路線に突っ走っているように見えます。

 

これからどうなるのでしょうかね。。。

まあ期待はせずに、我々は副業したり投資したりして、自分たちで収入や資産を頑張って増やしていったほうが良さそうですw

 

ここまで読んでくださり、ありがとうございました。

 

おすすめPython学習法

Udemy:セール中なら90%オフで購入可能。豊富なコースから選べる!

データミックス:Pythonとビジネスについて学べる!起業したい方にもおすすめ!

SAMURAI TERAKOYA:月額2,980円〜利用できるコスパ最強スクール!

 

-Python, データ分析
-,

© 2023 気ままなブログ