東京都のCOVID-19データを取ってくる(Julia版)

先月のエントリでRを使って東京都の新規陽性者数を取得してくるプログラムを作りました。

marui.hatenablog.com

今日はそれをJuliaでやってみたいと思います。とは言っても、Rでやっていることとほとんど同じで、HTTPパッケージを使って東京都のサイトにアクセスし、CSVで読み込んできたものを、DataFramesでデータフレームにしているだけです。

using DataFrames, CSV, HTTP

# read data from prefectural government website of Tokyo
daturl = "https://stopcovid19.metro.tokyo.lg.jp/data/130001_tokyo_covid19_patients.csv";
dat = CSV.read(HTTP.get(daturl).body, header=1);

## data cleaning
dat2 = DataFrame(公表日 = CategoricalArray(dat[:,5]),
                 居住地 = CategoricalArray(dat[:,8]),
                 年代   = CategoricalArray(dat[:,9]),
                 性別   = CategoricalArray(dat[:,10]),
                 退院済 = CategoricalArray(dat[:,16]))

## summarize
describe(dat2)

実行結果は以下のようになります。

julia> describe(dat2)
5×8 DataFrame. Omitted printing of 1 columns
│ Row │ variable │ mean    │ min                │ median  │ max                │ nunique │ nmissing │
│     │ Symbol   │ Nothing │ CategoricalValue…  │ Nothing │ CategoricalValue…  │ Int64   │ Union…   │
├─────┼──────────┼─────────┼────────────────────┼─────────┼────────────────────┼─────────┼──────────┤
│ 1   │ 公表日   │         │ Date("2020-01-24") │         │ Date("2020-08-14") │ 178     │          │
│ 2   │ 居住地   │         │ -                  │         │ -                 │ 8       │ 389      │
│ 3   │ 年代     │         │ -                  │         │ 不明               │ 13      │          │
│ 4   │ 性別     │         │ -                  │         │ 男性               │ 5       │          │
│ 5   │ 退院済   │         │ 1                  │         │ 1                  │ 1       │ 6507     │

あとは煮るなり焼くなり……。