先月のエントリでRを使って東京都の新規陽性者数を取得してくるプログラムを作りました。
marui.hatenablog.com
今日はそれをJuliaでやってみたいと思います。とは言っても、Rでやっていることとほとんど同じで、HTTP
パッケージを使って東京都のサイトにアクセスし、CSV
で読み込んできたものを、DataFrames
でデータフレームにしているだけです。
using DataFrames, CSV, HTTP
# read data from prefectural government website of Tokyo
daturl = "https://stopcovid19.metro.tokyo.lg.jp/data/130001_tokyo_covid19_patients.csv";
dat = CSV.read(HTTP.get(daturl).body, header=1);
## data cleaning
dat2 = DataFrame(公表日 = CategoricalArray(dat[:,5]),
居住地 = CategoricalArray(dat[:,8]),
年代 = CategoricalArray(dat[:,9]),
性別 = CategoricalArray(dat[:,10]),
退院済 = CategoricalArray(dat[:,16]))
## summarize
describe(dat2)
実行結果は以下のようになります。
julia> describe(dat2)
5×8 DataFrame. Omitted printing of 1 columns
│ Row │ variable │ mean │ min │ median │ max │ nunique │ nmissing │
│ │ Symbol │ Nothing │ CategoricalValue… │ Nothing │ CategoricalValue… │ Int64 │ Union… │
├─────┼──────────┼─────────┼────────────────────┼─────────┼────────────────────┼─────────┼──────────┤
│ 1 │ 公表日 │ │ Date("2020-01-24") │ │ Date("2020-08-14") │ 178 │ │
│ 2 │ 居住地 │ │ - │ │ - │ 8 │ 389 │
│ 3 │ 年代 │ │ - │ │ 不明 │ 13 │ │
│ 4 │ 性別 │ │ - │ │ 男性 │ 5 │ │
│ 5 │ 退院済 │ │ 1 │ │ 1 │ 1 │ 6507 │
あとは煮るなり焼くなり……。