このブログに掲げるグラフはこんなふうに作っている : ずくなしの冷や水

2013年08月21日

このブログに掲げるグラフはこんなふうに作っている

このブログに掲げるグラフの作りが雑で分かりづらいとのご指摘をいただきました。縦軸、横軸の目盛りの説明等を丁寧にとのご希望です。

このブログに掲げるグラフの95%は、数値データをもとに私が独自に加工作成しています。

MPの最大値更新箇所のグラフを例にとって説明します。

毎朝、全国サムネイルのサイトから、前日の空間線量率のデータファイルを2本ダウンロードし、データベースソフトに入力します。

このファイルは、解凍すると、一つが25MB程度、25から28万行以上の極めて大きいCSVフィルになります。これだけ大きいファイルは私の表計算ソフトでは読み込むことが出来ませんからファイルを加工の上、少し工夫して、データベースソフトに直接入力しています。

1日分で50MB以上のデータを投入しますから、7日分も蓄積したらデータベースの大きさが2GB近くなり、クエリーが円滑に動かなくなり、単純にデータを蓄積していく方法は挫折しました。

例えば、2013/8/21の記事「全国で空間線量率の最大を更新するMPが継続出現 放射性物質の放出拡散続く」に掲げた「全国の最大値更新MPの日別分布の図は、このデータベースでMPごとの最大値を拾い出し、日付をマッチングさせた上でリストを表計算ソフトに出力し、最大値の日付を線グラフに表しています。縦軸が日付、横軸が日付別の更新MPの累積値なのですが、確かに分かりにくいと言えばそのとおりだと思います。



分かりやすくするためには、日付ごとの最大値を記録したMPの数をカウントし、日付ごとに件数を表示したほうが良いのでしょう。横軸の目盛りに日付をとると次のグラフになります。値のない日付も表示されてしまい、間が開いた感じです。



値のない日付を表示させないためには、日付を文字データにしなければなりません。「"」を使うか、スペースを使うかです。どちらにしても、それぞれのデータに少しずつ手を加えないといけません。



見やすく分かりやすいグラフにするためには、追加的な作業が必要となることを分かっていただけたでしょうか。

人口動態統計も、各県のサイトから表計算方式のデータを取り出し、過去分と統合してデータベースに入力し、10数県分、3年分以上のデータを一つのテーブルに整備しています。

毎月、1ヵ月ずつずらしながら最近の半年間と1年前の半年間を比較したり、あるいは個別の都市や小選挙区の時系列データを取り出してグラフに加工したりできるのも、データベースの蓄積があるからです。

時系列のデータを分析する上で最も手間のかかるのがこのデータベースのメンテナンスです。

そして、ある目的に沿ってデータを取り出したときにそのデータに欠落や不備がないか、あるいはデータの推移に異変や異常がないかをチェックする上で便利なのがグラフ化です。一目で分かりますから。

実は、私がこのブログに掲載しているグラフの多くは、そういう目的で作成したのを自分の備忘録として残しているものなのです。

講演会でパワーポイントを用いて説明する、あるいは学術的な論文等に掲載するものであれば、もちろん丁寧に作らなければなりませんが、上に書いたようにグラフが出来る頃にはかなりくたびれているのです。

公的機関が発表する数値データを加工、分析した結果については、正確に、かつ迅速にを旨としてここに掲載しています。すべて私一人で作業しており、かつ、ハードソフトの機材も最低限の機能、能力ですのでその面からの制約もあります。

現時点では、グラフの作成にこれまで以上の時間を費やすことは困難です。グラフで頭をひねることがあれば、パズルだと思って解いてください。私が伝えたいポイントは、文章で書いてありますからそれがヒントです。

もちろん、それでも分からないということがあれば、コメント欄からお尋ねいただけばお答えする用意があることはいうまでもありません。
posted by ZUKUNASHI at 20:59| Comment(0) | 福島原発事故
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス: [必須入力]

ホームページアドレス:

コメント: [必須入力]

※ブログオーナーが承認したコメントのみ表示されます。