はじめに
Python Pandasを使って、PandasによるCSVの読み込みを行います。WindowやMacとで読み出し方が異なります。また、csvファイルがカレントディレクトリとそれ以外にある場合とで異なります。そこで、それぞれの方法で読み出し方を初心者の方向けに分かりやすく解説します。
CSVはエクセルでも出力可能な形式ですので、エクセルで作成したファイルを、pythonで編集するケースを想定します。
ただし、Pandasでは、エクセルファイル(.xls,.xlsx)は、pandas.read_excel()で読むことができます。
今回は、より一般的なcsv形式のファイルの読み出しを解説します。
データセット
以下のサイトの表1のデータをダウンロードして、用います。
実行環境
Jupyter notebookを用います。
Jupyter notebookは、「Anaconda Navigator」より起動可能です。起動方法の詳細は以下のリンク先より確認ください。
PandasによるCSVの読み込み
import pandas as pd
df_1 = pd.read_csv('c01.csv',encoding="SHIFT-JIS")
import pandas as pdでpandasを読み込みます。 as pdとすることで、pandasを以後は、pdと表記しますという意味です。
df_1 = pd.read_csv(‘c01.csv’,encoding=”SHIFT-JIS”)とは、df-1に「同じディレクトリにある’c01.csv’をencoding=”SHIFT-JIS”で読みだします」という意味です。”SHIFT-JIS”はwindows エクセルで出力したものなどがそうなります。encoding=”SHIFT-JIS”なしで読みだすと文字化けしてしまいます。
同じディレクトリとは、このプログラムと同じフォルダにあるファイルを読みだす時を指します。このように同じディレクトリにあるかないかで、読み出し方が異なります。しかも、WindowsとMacとでも異なるので4種類に分けて解説します。
同じディレクトリにcsvファイルがある場合
同じディレクトリにcsvファイルがある場合が、WindowsもMacも同じです。
Windows
pd.read_csv('c01.csv')#csvのファイル名だけ記載すれば良い
Mac
pd.read_csv('c01.csv')#csvのファイル名だけ記載すれば良い
異なるディレクトリにcsvファイルがある場合
Windows
¥はバックスラッシュです。
pd.read_csv('C:¥¥work¥¥c01.csv')#csvのファイルが格納されている箇所から記載する。
Mac
pd.read_csv('/home/user1/work/hello.pyc01.csv')#csvのファイルが格納されている箇所から記載する。
出力
以下のように入力する。
df_1
以下のように出力されます。
Python Pandasを使えば、CSVファイルを簡単に読みだすことができます。
もっと実践的な内容で学びたい人は、こちらの書籍で学ぶことをお勧めします。
コメント