【Python】pandas は csv ライクな色々を扱える

  • 2020年9月18日
  • 2020年9月18日
  • Python

 pandas はデータ解析を支援するライブラリです。
pandas documentation — pandas 1.1.2 documentation
 よく read_csv などで csv ファイルを取り扱って統計処理を行っています。この pandas は csv 以外にも多様な表を取り扱えます。
 例えば、区切り文字が正規表現で指定可能です。これにより一つのセルに複数種別の情報が詰まっていても対応可能です。これは次の様なコードでできます。

TARO/0,太郎,1,34
TARO/1,太郎,1,37
JIRO/0,次郎,1,27
df = pd.read_csv(
    filepath_or_buffer=StringIO(body_str), encoding='SHIFT-JIS',
    header=None, sep=",|/" # ,か/で区切り
)

 他にも読み書きできる対象が多いです。MySQL を対象にすることもできます。
IO tools (text, CSV, HDF5, …) — pandas 1.1.2 documentation

Format Type

Data Description

Reader

Writer

text

CSV

read_csv

to_csv

text

Fixed-Width Text File

read_fwf

text

JSON

read_json

to_json

text

HTML

read_html

to_html

text

Local clipboard

read_clipboard

to_clipboard

MS Excel

read_excel

to_excel

binary

OpenDocument

read_excel

binary

HDF5 Format

read_hdf

to_hdf

binary

Feather Format

read_feather

to_feather

binary

Parquet Format

read_parquet

to_parquet

binary

ORC Format

read_orc

binary

Msgpack

read_msgpack

to_msgpack

binary

Stata

read_stata

to_stata

binary

SAS

read_sas

binary

SPSS

read_spss

binary

Python Pickle Format

read_pickle

to_pickle

SQL

SQL

read_sql

to_sql

SQL

Google BigQuery

read_gbq

to_gbq

 特にSQLの仕組みがかなりCSV的な方向に独特でデフォルトではデータを書き込むたびに元データのヘッダがそのままカラム名なテーブルが一つできます。

>株式会社シーポイントラボ

株式会社シーポイントラボ

TEL:053-543-9889
営業時間:9:00~18:00(月〜金)
住所:〒432-8003
   静岡県浜松市中央区和地山3-1-7
   浜松イノベーションキューブ 315
※ご来社の際はインターホンで「316」をお呼びください

CTR IMG