PythonでWebスクレイピングをします。
私が計画しているのは、
気象庁HPの過去の観測値を入手することです。
例として2023年01月01日の
東京の1時間ごとの観測値のスクレイピングをします。
https://www.data.jma.go.jp/obd/stats/etrn/view/hourly_s1.php?prec_no=44&block_no=47662&year=2023&month=1&day=1&view=
Pandasを使うとできるそうなので、
私の環境でインストールされているかを確認します。
url = 'https://www.data.jma.go.jp/obd/stats/etrn/view/hourly_s1.php?prec_no=44&block_no=47662&year=2023&month=1&day=1&view='
CSVを見ると日本語が文字化けしています。
解消するにはCSV出力をする際に、
『encoding='utf-8-sig'』とすると良いとのことです。
問題なく日本語表記されました。
降水量が『--』や、
1列目に不要な情報が入っているなど、
気になるところはありますが、
とりあえず良しとします。
■追記■
以下で解決しました。url = 'https://www.data.jma.go.jp/obd/stats/etrn/view/hourly_s1.php?prec_no=44&block_no=47662&year=2023&month=1&day=1&view='
df.to_csv('44132tokyo_hourly.csv', encoding='utf-8-sig', index=False)
0 件のコメント:
コメントを投稿