特別講義DS Ch7 アルゴリズムとPythonの基本構文

資料
Published on 2024-03-29 under the tag datascience, statistics, python

1 アルゴリズムとPythonの基本構文
2 (発展) その他のデータの処理

1 アルゴリズムとPythonの基本構文

データを適切に処理するためには,これまで扱ったpandasの技法だけでは足りません.ライブラリに含まれていない処理をPythonで自分で記述する必要があります.

Pythonで処理を記述するためにはそのための構文を学習する必要があります.

プログラムで記述される処理を,アルゴリズムといいます. アルゴリズムとは,有限回適用することで問題を解くことができる規則の集まりです. プログラミングとは,プログラミング言語のデータ型と構文を利用してアルゴリズムを記述することにほかなりません.

基本的に,アルゴリズムを構成する要素は以下のの3つしかありません.

逐次処理

手続き型言語は,プログラムは(基本的には)上から順番に実行されます. プログラムの記述に従って処理を順番に実行することを逐次処理といいます.

分岐

条件に従って処理が分岐します. Pythonでは,ifとcaseという構文によって実装されます.

反復

指定の回数または,条件が満たされるまで処理を繰り返すこと. Pythonでは,for,whileによって実現します. より高度な実装方法として,再帰や高階関数なども利用できますがこの講義では扱いません.

この3つの組み合わせがプログラムで記述できれば,プログラムを利用してどのような問題でも解けます.

1.0.1 フローチャート

アルゴリズムを視覚的に表現する方法の一つにフローチャートがあります. 原理的には,フローチャートを描くことができれば,アルゴリズムが構築できますし,プログラムが記述できます.

フローチャートは,以下の図形と矢印の組み合わで記述されます(厳密には,ループやデータ代入などもっと細かいですが,ここでは簡単のために省略しています.)

例えば,逐次処理は以下のようなフローチャートで表現されます. 以下は,なにかの野菜を育てる手順をフローチャートで表現したものになります.矢印の順番で処理が行われます.

そこに,実がならなかった場合は刈り取るという分岐を加えると以下のようになります.

更に,実がならなかった場合には,肥料をやり,もう一度水を撒くところからやり直すという形で,前のステップに戻る反復を追加すると以下のようになります.

プログラムを用いてアルゴリズムを記述するには,①自然言語(日本語)で解きたい問題が書ける,②その解き方をフローチャートなどを利用してアルゴリズムに変換できる,③アルゴリズムをプログラムに変換できる,というステップを踏むのが一般的です.

最近小学生などの教育で良く耳にする論理的思考力やプログラミング的思考とは,この①から②への変換ができることを意味しているようです. プログラミングの学習では,①から②への変換は前提として,プログラムの知識,文法,記法,利用方法などを学習し,②から③への変換を扱います.

最近の小学生は,この学習のために,フローチャートを作ることでプログラムが書けるScratchなどを使っているようですが,この講義ではそこからやっている時間はないので,この章でフローチャートの作成と,そのプログラムへの変換の基礎を学習します.

演習問題

以下の処理を表すシンプルなフローチャートをPowerPointを利用して作成してください.

カレーの作り方カレーの作り方を想像して,フローチャートで表現してください.
自動販売機以下の条件で自動販売機を想定して, 自動販売機にお金が投入されてから商品が出てくるまでのフローチャートを作成してください.
- 100円の炭酸飲料と,150円のお茶を販売している自動販売機
- 商品を選択してくださいと最初にアナウンスする
- 選択された商品に応じた金額を投入してくださいとアナウンスする
- 投入された金額が足りている場合は商品を出しお釣りを返す
- 投入された金額が足りない場合は,投入されたお金を全部返して,最初に戻る
100個の1から100までのランダムな数字が書かれたボールが入っている箱Aから,1つずつボールを取り出し,偶数のボールを箱B,奇数のボールを箱Cに入れる作業を小学生に説明するためのフローチャートを作成してください.

1.1 input関数

これからアルゴリズムをプログラムで記述する練習をするにあたって,スクリプト内のプログラムと人間がやり取りをする場面が何度か出てきます.そのために利用される関数にinput()があります. input()はプログラム内で標準入力(Terminalなどに記述された文字列)を受け取る関数です. ()内には標準入力を受け取る前に出力される文字列を記述します. 文字列が表示された後,ユーザーが入力した文字列が入力されます.

以下のプログラム(input_test.py)を記述して実行してみましょう.

x = input('あなたの名前を入力してください. \n')
print(f'あなたの名前は{x}ですね. よろしく!')

以下のように,()の中の文字列が表示されて,入力された文字列が代入されたxが表示されるはずです.

❯ python3 input_test.py
あなたの名前を入力してください.
akagi
あなたの名前はakagiですね. よろしく!

1.2 逐次処理,インデント,ブロック

pythonは手続き型言語なので,基本的に上から1行ずつプログラムが実行されます. これによってアルゴリズムの構成要素における逐次処理が実現されています.

これまでにこの講義で扱ってきたプログラムは,基本的に1行に1処理を記述しており,処理は上から1行ずつ実行されていました.

しかし,プログラムがより複雑になると,一つの処理が1行では記述できなくなってきます. そこで,プログラムの中で処理の塊を作って,その処理の塊を順番に実行していくことになります. Pythonではこの処理の塊をブロックと呼び,インデントによって表現します.


def sample():
    print('sample')
####
#↑def のブロックをインデントで表現

total = 0
for i in range(10):
    total += i
    print(total)

####
#↑forのブロックをインデントで表現


for i in range(10):
    for j in range(10):
        print(i*j)
####
########
#↑ インデントの中でインデントを使って
# ブロックの中のブロックを表現

インデントは,パワーポイントと同様に,行頭からの空白を意味します.半角スペース4つが一つの単位となります. TABキーで入力されるTABをインデントとして利用することもできますが,プログラム中にタブとスペースが混在することになり編集が複雑になるので推奨しません.

しかし,いちいちスペースキーを4回テキストエディタで入力するのは面倒なので, テキストエディタの設定でタブをスペース4つに変換するように設定しておくと楽です.

Sublime Textでは, View > Indentation > Indent Using Spaces をクリックして, TAB Width: 4を選択すると,自動でタブがスペースになります.

1.3 分岐

Pythonで分岐を表す基本的な構文としてif文があります. ifは英語の通り,もしXXならを表しており, if XXX: のインデントブロックに,その条件下で行って欲しい処理を記述します.XXXの部分には,Bool型あるいはBool 型を返す論理式が入ります. 文の最後に:を記述するのを忘れないようにしましょう. また,続けて, elif YYY:と記述することで条件を追加することができます. 条件を網羅的に書かなくても, ifとelifで指定された条件以外のすべての場合の処理をelse:で指定することができます.

具体的に,ある変数xの大きさによる分岐は以下のように書かれます. 以下の例では,変数xと10の大小比較の結果によって,表示する文字列を変更しています.

発展:Bool以外のデータ型とif文の挙動

if文のif,elif以下の部分には基本的にBool型を記述しますが,Int型やstr型なども利用可能です. intの場合1はTrue,それ以外の数値はFalseとみなされます. strの場合,''(空白)のみがFalseそれ以外はTrueとなります.こちらのほうがTrueやFalseより高速なので,サンプルコードなどで利用されている場合がありますので注意しましょう.

例として下のプログラムを実行すると,1,b,cとだけ表示されるはずですので,確認してみましょう.

if 1 :
    print('1')

if 0:
    print('0')

if '':
    print('a')

if ' ':
    print('b')

if 'c':
    print('c')

それでは,具体的なプログラムを記述してみましょう.以下のプログラムについて考えてみます.

動物の名前をうけとって,それが'イヌ'なら,'ワンワン','ネコ'なら,'ニャンニャン',どちらでもないなら'???'と表示するプログラム

これを,まずは日本語のフローチャートで表現して,日本語の部分をプログラムの構文に書き換えてみると以下のようになります.これくらいのプログラムだと,フローチャートを経由して変換するのは面倒かと思いますが,今後より複雑なプログラムを書くにあたっての訓練ですので,取り組んでみましょう.

フローチャートが書けたら,そのままプログラムを上から書いてみましょう. elseの部分だけはフローチャートに現れていないので注意してください.

kind = input('動物の名前をカタカナで入力してください. \n')

if kind == 'イヌ':
    print('ワンワン')
elif kind == 'ネコ':
    print('ニャンニャン')
else:
    print('???')

実行して,意図通りに動くかを確認しましょう.

❯ python3 pet_name.py
動物の名前をカタカナで入力してください.
イヌ
ワンワン
❯ python3 pet_name.py
動物の名前をカタカナで入力してください.
サカナ
???

演習問題

以下の,処理のフローチャートと,プログラムを作成してください.

関東の都県を標準入力から受け取り,その都県の県庁所在地を返す.
input()関数で数値を受け取って, 偶数なら偶数, 奇数なら奇数という文字列を返す.
- ヒント: input()関数の返り値は文字列なので, int(input(‘数値を入力してください /n’)) のようにint()関数を利用することで数値に変換できる.
ランダムな1から10の数値を発生させて, その数値が5より大きければ'BIG',小さければ'SMALL'と表示する.
- ヒント: 一行目に import random と記述して x = random.randint(1,10)と書くと, 1から10のランダムな整数がxに入ります.

1.4 反復

Pythonにおいて,処理を繰り返す反復を実装する構文はいくつか存在しますが,代表的なものに while文 及び for文があります. 利用頻度からしても,for文の方が重要ですが, ここではフローチャートと相性が良く,意味が分かりやすいwhile文で反復の感覚を掴んでからfor文を学習しましょう.

1.4.1 While文

プログラムは,コンピュータに何かしらの命令をする文を書くものです. while文もifのように英文の意味に沿って,プログラムに命令を与えています. 例えば以下の英語の命令文について考えてみましょう.

Keep working while the timer is running.

(タイマーが動いている間は,働いてください.)

Water the plants every day while they are not bearing fruit.

(植物に実が成っていない間は毎日水やりをしてください.)

Continue reading while the light is on.

(電気がついている間は, 読み続けてください.)

これらの文はいずれも, 命令 while 条件 という形を取っており, 条件が真である限り,命令を実行してくださいという意味になっています.

プログラムにおけるwhile文は上の英文の順序を少し入れ替えて, while 条件: 命令の形をとり,条件が真である限り,命令を実行するという意味のプログラムになります.

while文は条件によって,プログラムの継続を判断するので,条件の真偽値が変更されない限り,プログラムが終了しません. 試しに以下のコードを実行してみましょう.

#実行されない
while False:
    print('never printed')

#永遠に数字が増え続ける
#終了するには Ctrl + C
x = 1
while True:
    x += 1
    print(x)

1つ目のwhile文は,条件が最初からFalseになっているため実行されません. 2つ目のwhile文は,条件が永遠にTrueなのでxが1から増え続けてprint()によって標準出力され続けます(このように反復を表すプログラムでは, 変数への再代入を多用しますので,忘れている人は復習しましょう.) プログラムを強制終了するにはCtrl + Cを押しましょう.

ウェブサイトやソフトウェアの表示などではwhile文を利用して永遠にプログラムを動かし続けることをしますが,通常の反復では,何かしらの条件の変更によってプログラムを終了するように条件部分を変更する必要があります.

先程のプログラムを少し変更して, xの値が1ずつ増えていき,10になったら終了するようにしてみるとどうなるでしょうか.

while文のような反復は, フローチャートでは,条件部分を表す分岐と,前に戻る矢印で表されます. 分岐のあとに,何かしら条件に関わる値が変更されることで,分岐が終了します.

x = 1
while x < 10:
    x += 1
    print(x)

❯ python3 while_and_for.py
2
3
4
5
6
7
8
9
10

続いて,標準入力の結果によって反復の終了条件を判定するための,以下のフローチャートで表されるプログラムを考えてみましょう.

このフローチャートをプログラムに直すと以下のようになり, 問題文に正解しない限りプログラムが終了しません.

x = 0
while 2 != x:
    x = int(input('1 + 1 = ? \n'))

❯ python3 while_and_for.py
1 + 1 = ?
3
1 + 1 = ?
4
1 + 1 = ?
2

1.4.1.1 `while文`と`if文`の組み合わせ

while文の中でもif文を利用した分岐が可能です. 先程のプログラムに少し加えて,ヒントを出すようにしてみましょう.

while文のインデントの中で,更にif文のインデントが組まれていることに注意しましょう.

x = 0
while 2 != x:
    x = int(input('1 + 1 = ? \n'))

    if x > 2:
        print('少し数が大きいかも')
    elif x < 2:
        print('少し数が小さいかも')
    else:
        print('大正解!!')

❯ python3 while_and_for.py
1 + 1 = ?
3
少し数が大きいかも
1 + 1 = ?
1
少し数が小さいかも
1 + 1 = ?
2
大正解!!

1.4.1.2 真偽値以外の`while文`

while文では,if文と同様にTrue,False以外の値を条件部分に用いることがあります. while文ではリストを条件部分に与えることが可能で, リストが空のときFalseとして判定されます.

以下のプログラムでは,リストの先頭要素を表示したのち,リストの先頭要素をpop()メソッドによって削除しています. 削除を続けて,リストが空になるとプログラムが終了します.

xs = [1,2,3]
while xs:
    print(xs[0])
    #リストの先頭要素を削除(pop())
    xs.pop(0)

❯ python3 while_and_for.py
1
2
3

演習問題

以下のプログラムのフローチャートを作成し,while文を利用してプログラムを記述してください.

x = 1 に3ずつ数を足しながらxの値をprint()する. xが1000を超えたら終了する.
1から100までの数の和を求める.
- ヒント: 1ずつ値が増える変数とは別に,増えた値を足す変数を最初に作ろう.
100から150までの数のうち,５で割り切れるかつ２で割り切れる数の和を求める
- ヒント
- まずは100から150の数を表示するプログラムを作ってみよう
- 次に, 100から150までの数のうち5と2で割り切れる数を表示するプログラムを作ってみよう
- 最後に,表示した和を足すようにしてみよう

1.4.2 for文

続いてもう一つの代表的な反復の表現方法であるfor文について見ていきましょう while文の説明の最後に扱った,リストから一つずつ値を取り出す操作のようになにかから値を取り出す操作を繰り返すことに特化したのが,for文です.

for文は, for x in y: zの形で,yから一つずつxを抜き出して,zをしてくださいという意味になります.

英文では,以下の用にFor each x in y,の形で表されますが, プログラムではeachが省略されます.

For each mandarin in the box, take it out and peel it

(みかんの入った箱から一つずつみかんを取り出して,皮を剥いてください)

For each student in the class, collect the handout from them.

(クラスの学生一人ひとりからプリントを回収してください.)

For each panda in the cage, take it out one by one and line them up.

(パンダの檻からパンダを一匹ずつ連れ出して並べてください.)

for文をプログラムの世界で利用するには,現実を対象とした英語における,みかんの入った箱やパンダの檻のようになにか中身を取り出せる入れ物が必要になります.

pythonでは,この入れ物として,リストのように,中身を順番に取り出せるもの(オブジェクト)をイテラブルオブジェクト( iterable object)を利用します.

Iterable object の例
- リスト xs = [1,2,3,4,5]
順番に取り出すと, 1,2,3,4,5の順番で一つずつ出てくる
- 辞書 animal_count = {'cat':2,'dog':4,'bird':8}
keyを順番に取り出すと, 'cat','dog','bird'が順番に一つずつ出てくる
- タプル xs = ('a','b','c','d')
順番に取り出すと,'a','b','c','d'の順番で一つずつ出てくる
- DataFrameの列や行(DataSeries)

for文における終了条件は,iterable objectが空になることです. リストから要素を取り出して,以下のフローチャートで表されるような合計を求める処理について考えてみましょう.

プログラムに直すと以下のようになります.

xs = [1,2,3,4,5]
total = 0

for x in xs:
    total += x

print(total)

❯ python3 while_and_for.py
15

xs から取り出した値がxに毎回代入されていることに注意しましょう.なお,xは変数名なので,任意の名前をつけることが可能です. また,popを利用したwhile文と違って,元のxsの要素数は実際には減っていません.

range()関数

上の例のように,mからnまでの連続した数値が欲しい場合に,毎回リストを作っていると大変です. 単純に数値の列が欲しい場合はrange()関数を使いましょう. range(x)は0から始まるx個のシーケンス(インデックスで位置を指定できるイテラブルオブジェクト)を返します.

for x in range(5):
    print(x)

range(始端,終端,ステップ)の形で複数の引数を指定することで,始端,終端,ステップ(何個とばしにするか)を定めることができます. 終端は,一つ前の値までしか出力されないので注意しましょう.

for x in range(5,10):
    print(x)

for x in range(5,10,2):
    print(x)

5
7
9

1.4.2.1 `for文`と`if文`の組み合わせ

while文と同様にfor文の中でif文を利用したり,if文の中でfor文を利用することができます.

以下のプログラムでは, 1から5までの値の中で偶数のものだけをprint()しています.

for x in range(1,6):
    if x % 2 == 0:
        print(x)

❯ python3 while_and_for.py
2
4

1.4.2.2 多重ループ

for文の中でfor文を複数回繰り返して多重ループを実現できます. 以下のプログラムでは, リストxsからリストxを取り出し,取り出したリストxから取り出した要素yの合計値を求めています.

xs = [[1,2,3],[4,5,6],[7,8,9]]
total = 0
for x in xs:
    for y in x:
        total += y
print(total)

❯ python3 while_and_for.py
45

演習

以下の処理のフローチャートとプログラムを作ってみよう.

x=0に[1,3,5,7,9,12]を順番に足して更新する. xの値を更新するたびにprint()する.
人物の名前と成績を記録した辞書型xs={'taro':'S','hanako':'B','yumi':'A','jiro':'D'}から成績A以上の人物名だけをリストupper=[]に追加し,upperを表示する.
100から150までの数のうち,５で割り切れるかつ２で割り切れる数の和を求める
xs = [[1,2,3,4,5],[6,7,8,9,10],[11,12,13,14,15],[16,17,18,19,20]]として, for文の多重ループを利用して, xs[0]からxs[3]の合計値が入ったリストを求める
FizzBuzzとはプログラミングの動作確認でよく用いられる欧米圏の言葉遊びゲームです.. 以下のルールに則って1から100までの数を順番にFizzBuzzの判定を行ってください.
- 3の倍数ならFizzと表示する
- 5の倍数ならBuzzと表示する
- 両方の倍数ならFizzBuzz
- どちらでもないならその数をPrintする.

1.4.2.3 発展: リスト内包表記

Pythonにはfor文とwhile文以外にも,反復を実現するための手法がいくつか存在します. そのうち良く使われるものにリスト内包表記があります.

リスト内包表記は,集合論の記法を取り入れた書き方で,関数型言語からPythonに取り入れられました. リスト内包表記は,短い行で簡潔に書けるためリストを生成する際に良く用いられます.

例えば, 1~10までの数値のうち,偶数だけが入ったリストを生成することを考えます. for文を利用すると,例えば以下のようにして得ることができます.

even_numbers = []
for i in range(1,11):
    if i % 2 range(1,11):
        even_numbers.append(i)
print('for文:', even_numbers)
#結果>>> for文: [2, 4, 6, 8, 10]

1つのリストを生成するのに4行かかっています. リスト内包表記で同じリストを作成してみます.

even_numbers = [x for x in range(1,11) if x % 2 == 0]
print('内包表記:',even_numbers)
#結果>>> 内包表記: [2, 4, 6, 8, 10]

同じ結果を一行で得ることができました.

リスト内包表記では[]の中に

[得たい値 for 使いたい要素を代入した変数 in イテラブルオブジェクト if 条件]

という書き方で,for文やif文を利用します.

詳細は省きますが,これは数学の集合論における内包表記を真似た記述法になります.

なれるまで難しいかと思いますので,いくつか他の例も見てみましょう.

1から10までの数字のうち,奇数のものに3を足したリスト

xs = [x + 3 for x in range(1,11) if x % 2 == 0]
print(xs) #[5, 7, 9, 11, 13]

animals_small = ['cat','dog','bird']を大文字に変換したリスト

animals_small = ['cat','dog','bird']
animals_large = [x.upper() for x in animals_small]
print(animals_large) #['CAT', 'DOG', 'BIRD']

['CAT', 'DOG', 'BIRD']のうち文字数が3文字以下の文字列の頭文字のリスト

xs = [x[0] for x in animals_large if len(x) <=3 ]
print(xs) # ['C', 'D']

100から150までの数のうち,５で割り切れるかつ２で割り切れる数の和

print(sum([x for x in range(100,150) if x % 10 == 0]))
#600

1.4.2.4 発展: breakとcontinue

for文やwhile文の処理を途中で分岐させたい場合には break, continue, else が利用できます.

continue: continue 後の処理を行わずに反復の最初に戻る
break: 反復を抜け出す
else: break以外でwhile文が終了したら実行

例として,あなたはなんの動物か尋ねてニンゲンですと答えないと終わらない以下のような処理を作ってみます.

この処理はユーザーに「あなたはなんの動物ですか?(カタカナで回答)」と質問し,正しい答え「ニンゲン」を得るまで質問を繰り返します.

まず,answer変数にユーザーの入力を格納します.whileループを使って,answerが「ニンゲン」でない限りループを続けます.

もし,ユーザーが「ウチュウジン」と答えた場合,「本当に!? 怖いのでさようなら!」と表示し,breakでループを終了します.

ユーザーが「カミサマ」と答えた場合,「わお!! 初めて会いました! … 馬鹿にしないでちゃんと答えてください!」と表示し,再度質問を行います.continueで反復の最初に戻ります.

「ニンゲン」「ウチュウジン」「カミサマ」以外の答えの場合,「嘘をつかないで! XXX は喋れません.」と表示し,再度質問を行います.

ループが「ニンゲン」の答えで終了すると,elseで定義された「そうですよね!ニンゲンに決まっています!」と表示されます.

プログラムに直すと以下のようになります. それぞれの行がどのような条件で実行されるのか, 確認してみましょう.

# 先に変数を用意します
answer = input("あなたはなんの動物ですか?(カタカナで回答)\n")

# while文でニンゲンですと答えるまで終わらないプログラムを書きます
while answer != "ニンゲン":
    # 答えによっていろいろな反応を組み込んでみましょう
    if answer == "ウチュウジン":
        print("本当に!? 怖いのでさようなら!\n")
        # while ループを終了します
        break

    elif answer == "カミサマ":
        print("わお!! 初めて会いました! ... 馬鹿にしないでちゃんと答えてください!")
        # もう一度値を更新して,ループの最初に戻ります
        answer = input("本当はあなたはなんの動物ですか?\n")
        continue

    # ニンゲンとウチュウジン,カミサマ以外は多分喋れないのでもう一度訪ねます
    else:
        print("嘘をつかないで!" + answer + "は喋れません.")
        # もう一度値を更新します
        answer = input("本当はあなたはなんの動物ですか?\n")

    # これはcontinue も breakもされなかった場合だけ実行されます
    print("今度は真面目に答えましたか?\n")

# breakで終わらなかった == ニンゲンだった場合の処理を書きます
else:
    print("そうですよね!ニンゲンに決まっています!")

演習問題

質問に対する回答をinput関数で受け取り,それに対して返答をする簡単なBotプログラムを作成してください. なお,分岐は最低5つ以上とすること.

1.5 `pandas`における`for文`

PandasのDataFrameの処理においてもfor文は良く利用されます. 例えば以下のようなデータについて考えてみます.

なお,こちらのデータは以下のコードで作成できます. コピーして使いましょう.

import pandas as pd

years = [str(x) + '年' for x in range(1800,1820)]
values = ['101','187','150','117','','168'
         ,'195','140','151','123','192','137'
         ,'なし','184','136','192','150','163','141','122']

df = pd.DataFrame({'year':years
                  ,'value':values})

print(df)

❯ python3 while_and_for.py
     year value
0   1800年   101
1   1801年   187
2   1802年   150
3   1803年   117
4   1804年
5   1805年   168
6   1806年   195
7   1807年   140
8   1808年   151
9   1809年   123
10  1810年   192
11  1811年   137
12  1812年    なし
13  1813年   184
14  1814年   136
15  1815年   192
16  1816年   150
17  1817年   163
18  1818年   141
19  1819年   122

このデータはyear列に'年'がついており,value列に空白や'なし'があります.こういったデータを数値として処理できるようにすることを考えてみましょう. まずは,print(df.dtypes)でそれぞれのデータ型を確認して見ましょう.

year     object
value    object
dtype: object

すべて文字列型であることが分かります.

このまま,year列をastype()を利用してint型に変換してみます.

df['year'] = df['year'].astype('int')

Traceback (most recent call last):
  File "/Users/akagi/Documents/Programs/Python/slds/while_and_for.py", line 74, in <module>
    df['year'] = df['year'].astype('int')
                 ^^^^^^^^^^^^^^^^^^^^^^^^
ValueError: invalid literal for int() with base 10: '1800年'

年の部分が数値に変換出来ないというエラーが出ます. では,year列から'年'を除外してみましょう.

先程のdf['year'] = df['year'].astype('int')をコメントアウトしてから,以下を実行してみましょう.

# ------------------------------------------------
# year列をInt型にする
# ------------------------------------------------
# year列から"年"を抜かす
# 上から順番に処理するので
# 行番号をdf.indexで取得
for i in df.index:
    # 一番右の文字をなくせば良い
    df.at[i, 'year'] = df.at[i, 'year'][:-1]

# 確認してみる
print(df['year'])

# 年が消えたので,変換してみる
df['year'] = df['year'].astype(int)
print(df['year'].dtype) #int64

0     1800
1     1801
2     1802
3     1803
4     1804
5     1805
6     1806
7     1807
8     1808
9     1809
10    1810
11    1811
12    1812
13    1813
14    1814
15    1815
16    1816
17    1817
18    1818
19    1819
Name: year, dtype: object
int64

上手く数値に変換できたようです.

続いて,value列を数値のみにしてfloat型にしてみましょう.

こちらも同じようにdf['value'] = df['value'].astype(float)ではエラー(ValueError: could not convert string to float: 'なし')が出ます.

色々方法はありますが,NaNと'なし'の列は適当な値(150)を入れることにしてみましょう. 数値に変換できる場合にTrueを返すstr.isdecimal()を利用して,上から一つひとつ数値に変換可能か識別して,できない場合”150”を入れてみます.

# ------------------------------------------------
# value列をfloat型にする
# ------------------------------------------------
for i in df.index:
    # 数値型に変換可能か調べるには
    # isdecimal関数を使う
    # 変換可能でない場合'150'を入れる
    if not(str.isdecimal(df.at[i, 'value'])):
        df.at[i, 'value'] = '150'

# 確認
print(df['value'])

0     101
1     187
2     150
3     117
4     150
5     168
6     195
7     140
8     151
9     123
10    192
11    137
12    150
13    184
14    136
15    192
16    150
17    163
18    141
19    122
Name: value, dtype: object

無事に数値に変換できました.

このように, pandasではイテラブルオブジェクトとしてindexやcolumnsを利用し,.at[]などを利用してデータを編集する必要がある場合が多いです. pandasでfor文,if文などの組み合わせた処理に慣れておきましょう.

もう少し複雑な例についても見てみましょう. 以下のDataFrameにおいて,グループ別の平均点を求めてみましょう.

data =  {'group': [5, 5, 1, 2, 1, 5, 4, 3, 2, 1
                  , 5, 3, 4, 1, 2, 4, 5, 1, 1, 1
                  , 2, 3, 1, 2, 4, 4, 3, 4, 4]
        ,'points': [ 45, 23, 58, 96, 38, 41, 33, 30, 82, 42
                   , 42, 89, 66, 94, 25, 36, 52, 40, 93, 80
                   , 44, 39, 79, 67, 38, 43, 100, 62, 54]}
df = pd.DataFrame(data)
print(df)

    group  points
0       5      45
1       5      23
2       1      58
3       2      96
4       1      38
5       5      41
6       4      33
7       3      30
8       2      82
9       1      42
10      5      42
11      3      89
12      4      66
13      1      94
14      2      25
15      4      36
16      5      52
17      1      40
18      1      93
19      1      80
20      2      44
21      3      39
22      1      79
23      2      67
24      4      38
25      4      43
26      3     100
27      4      62
28      4      54

一度, 以下の解答例を見ずに,自分でフローチャートとプログラムを考えてみましょう.

回答例

このような処理のプログラムが書けるかどうかは,どのような手順でデータを操作するかをイメージできるかで決まります. これは,プログラミングの文法知識などの問題ではなく,パズルを解くようないわゆる論理的思考や,プログラミング的思考と呼ばれる能力です.

こういった処理を｢どのようにしたら思いつくことができるのか｣はなかなか教えるのが難しいのですが,一つの手順として,一旦プログラムのことは忘れて,紙と鉛筆でどのように同じ問題を解くかを考えてみるというのが有効な場合があります.プログラムになれると,直接プログラムで記述することが出来るようになります. しかし,プログラム的思考に慣れていない人はそもそも何をすればいいのかわからないのでプログラムが書けません.

何をすればいいのか皆目検討がつかないという人は, 自分が,紙と鉛筆でどのように解くのかを考えて,それをアルゴリズムに変更し,プログラムに直すという手順を踏んでみましょう.

求めなければならないものをまずはイメージしてみましょう.求めるものは,以下のように,グループごとの値の合計値をグループの数で割ったものです.

この問題を紙と鉛筆で求める場合,どのような方法があるでしょうか.

一例として,上から1行ずつデータを確認し,グループ別にpointsの値をメモする. すべての行を記録し終えたら,グループ別のメモの値を合計値とデータの数を求めて,平均値を計算するという方法でやってみましょう. 小学生でも順番を守れば可能な方法ですね.

まず,グループ別のメモをする場所を作成します.どのようなデータ型でも構いませんが,ここでは辞書型で作成してみます.

memo = {1:[]
       ,2:[]
       ,3:[]
       ,4:[]
       ,5:[]}

データを1行ずつ確認し,メモ帳に記録していきます.

for i in df.index:
    memo[df.at[i,'group']] += [df.at[i,'points']]

print(memo)
"""
{ 1: [58, 38, 42, 94, 40, 93, 80, 79]
, 2: [96, 82, 25, 44, 67]
, 3: [30, 89, 39, 100]
, 4: [33, 66, 36, 38, 43, 62, 54]
, 5: [45, 23, 41, 42, 52]}
"""

記録したメモを元に,一つひとつ合計値とデータ数を求め,平均値を計算してみます.

#グループ1からグループ5まで順番に作業する
for i in range(1,6):
    total = 0
    length = 0
    #グループ別のリストを足していく
    for x in memo[i]:
        total += x
        length += 1
    print(f'group:{i}, mean:{total/length}')

"""
group:1, mean:65.5
group:2, mean:62.8
group:3, mean:64.5
group:4, mean:47.42857142857143
group:5, mean:40.6
"""

これで無事に,グループ別のデータが求められました. 当然,もっと効率的で,簡単に計算する方法は沢山あります. 似た問題を検索し特定のメソッドを利用したり,AIに聞くことで,何も考えずに計算することも可能です.

例えば, 先程の平均値の計算部分に関しては,組み込み関数のsum()やlen()を利用することで,自分で書かなくても計算が可能です.

for i in range(1,6):
    print(f'group:{i},mean:{sum(memo[i])/len(memo[i])}')

"""
group:1,mean:65.5
group:2,mean:62.8
group:3,mean:64.5
group:4,mean:47.42857142857143
group:5,mean:40.6
"""

また,以前扱った条件抽出を使えば,一つ一つデータを集める必要もありません. 以下の3行で同じことが可能です.

for i in range(1,6):
    group_mean = df[df['group'] == i]['points'].mean()
    print(f'group:{i},mean:{group_mean}')
"""
group:1,mean:65.5
group:2,mean:62.8
group:3,mean:64.5
group:4,mean:47.42857142857143
group:5,mean:40.6
"""

更に,pandasの.groupby()メソッドを使えば,1行で同じような処理が可能です.

print(df.groupby('group').mean())
"""
         points
group
1      65.500000
2      62.800000
3      64.500000
4      47.428571
5      40.600000
"""

しかし,そのような方法ではいつまでたっても自分でプログラムが書けるようにはなりません.また,便利なメソッドが使えても,その背後で何をしているのかを理解していないと,計算した値の意味を理解したり,正しく利用することができません.

まずは自分の頭でどのように処理することで,求めたい値が計算できるのかの手順を考えて,プログラムが書けるようになったあとで,便利なメソッドなどの利用法を覚えることをおすすめします.

1.5.1 発展: 高階関数

Pythonで反復を実現するもう一つの方法として高階関数があります.高階関数とは,関数を引数にとる関数であり,こちらも関数型言語から取り入れられ,pandasにおいて各行に同じ処理を適用したい場合に良く用いられます.

本資料ではまだ,関数に関して扱っていませんが,発展的内容としてここだけで完結する範囲で簡単に説明します. 興味がある方は, 関数を学んだあとにもう一度こちらを見てみると理解が深まるかもしれません.

以下のDataFrameを事例に考えてみましょう.

df = pd.DataFrame({'kind':['cat','dog','fish']
                  ,'weight':[30,20,10]})
print(df)

"""
   kind  weight
0   cat      30
1   dog      20
2  fish      10
"""

このデータのkind列を大文字にすることを考えてみましょう. for文を利用すると以下のようになりますね.

for i in df.index:
    df.at[i,'kind'] = df.at[i,'kind'].upper()

print(df)

"""
   kind  weight
0   CAT      30
1   DOG      20
2  FISH      10
"""

この処理を,高階関数map()を利用すると,以下のようになります.

df['kind'] = df['kind'].map(lambda x : x.upper())
print(df)
"""
   kind  weight
0   CAT      30
1   DOG      20
2  FISH      10
"""

map()は,与えられたDataFrameの列(DataSeries)の各行に対して,()内の処理を適用した結果を返す高階関数です.

lambda x: x.upper()を無名関数やラムダ式といい, lambda 変数: 変数に適用したい処理の形で書きます. 今は,DataSeriesの各行をxとして,そのxに.upper()を適用しています.

条件に合致する場合の処理 if 条件 else 合致しない場合の処理 と書くことで条件を加えることも可能です.

以下の例では, weight列の値が15より大きければ2倍するという処理を行っています.

df['weight'] = df['weight'].map(lambda x: x*2 if x > 15 else x)
print(df)
"""
   kind  weight
0   CAT      60
1   DOG      40
2  FISH      10
"""

高階関数を使った処理は,for文より簡潔に書けて,かつ処理速度も高速です. 機会があれば積極的に使ってみましょう.

例えば,先程の以下のDataFrameで,year列から年を削除し,value列の空白を150に置き換える処理は高階関数を利用すると以下のように書けます.

import pandas as pd

years = [str(x) + '年' for x in range(1800,1820)]
values = ['101','187','150','117','','168'
         ,'195','140','151','123','192','137'
         ,'なし','184','136','192','150','163','141','122']

df = pd.DataFrame({'year':years
                  ,'value':values})
print(df)

f['year'] = df['year'].map(lambda x : x[-1])
f['value'] = df['value'].map(lambda x: '150' if str.isdecimal(str(x)) else x)

演習問題

以下のURLから近世経済データのEXCELファイルをダウンロードし, 米相場の列に欠損値がないように変更し,データの基本的な構造を確認したのち米相場の西暦ごとの平均値を計算し,辞書型に格納してください.

https://www.rieb.kobe-u.ac.jp/project/kinsei-db/database_excel.html

1.6 関数とクラス

これまでは,基本的に記述したコードは,コード内で一度しか利用せず,上から順番に一つずつ行いたい処理を記述してきました. しかし,プログラミングを続けていると,同じ処理を何度も適用する場合が出てきます.その場合に,毎回処理を記述するのは労力がかかります.

ここでは, 同じ処理を再利用可能な形でまとめ,様々な場所で利用する方法を学びます.

Pythonでは,基本的に小さな一つの処理は関数にまとめて利用します.また,複数の関数やデータ型などをクラスという単位にまとめることも可能です.そのようなまとめた塊を組み合わせてプログラムを構築する手法をオブジェクト指向プログラミングといいます. 更に,いくつかの関数やクラスをまとめたものを再利用形なファイルにまとめることでモジュールが作られ,モジュールに階層構造を設定したものをライブラリといいます.

この講義では関数の利用法を学びますがクラスやオブジェクト指向プログラミング,モジュールの作成に関しては少し触れるだけにします. 興味がある方は, より専門的なプログラミングの講義などで学習してください.

1.6.1 関数

皆さんはこれまでにもいくつかの関数を利用してきました. 例えば,リストの要素数を求めるためのlen()や,標準出力するためのprint()などは関数です.

関数は基本的に()の中に引数を与えられて,返り値を返します.

print(len([1,2,3])) #>>> 3

上のlen()では,()の中に引数としてリスト[1,2,3]が与えられ,返り値として3を返しています.

一方で,関数と似ているが異なる概念として,.mean()のようにオブジェクトの後ろに.を利用してつなげるメソッドもあります. メソッドに関しては, クラスの部分で説明します.

df = pd.DataFrame({'x':[1,2,3]})
print(df.mean()) #>>> 2.0

このように,最初からPythonに実装されている関数を組み込み関数といいます.また,特定のライブラリで定義された関数もあります.

組み込み関数としては,len()以外にも,合計値を返すsum()や,文字列に変更するstr()などを利用してきました. Pythonの組み込み関数はこちらで確認できます. 利用法のわからないものに関しては調べてみましょう.

これまでは,無名関数を除いて基本的にすでに作成された関数を利用してきましたが,関数は自分で作成することも可能です.

関数は, def 関数名(引数を表す変数):という構文で定義することができます. インデントブロックの中で,引数に加えた処理を記述し, return 返り値の形で,関数の返り値を定義します.

例えば,要素数を数えるlength()という関数を実装してみましょう. まずは,関数にする前に今まで通りにリストの要素数を数えるプログラムを書いてみましょう.

xs = [1,2,3]
count = 0
for x in xs:
    count += 1
print(count) >>> 3

これを関数にしてみます. def length(xs):のインデントブロックに,行いたい処理を記述し,return countでcountを返します.

def length(xs):
    count = 0
    for x in xs:
        count += 1
    return count

print(length([1,2,3])) #>>> 3
print(length(['a','b'])) #>>> 2

関数として定義することで,毎回数を数える処理を記述しなくても,様々なリストの要素数を数えることが可能になりました.

引数には複数の値を指定することも出来ます. 例えば以下の関数get_larger_than(xs,y)はxsの中からyより大きな値のみを返します.

def get_larger_than(xs,y):
    result = []
    for x in xs:
        if x > y:
            result.append(x)
    return result

get_larger_than([2,3,4,5,6],3) #>>>[4, 5, 6]

引数名=デフォルト引数 と書くことで,引数にあらかじめ値を指定することも可能です. 関数を実行する際に,何も指定しなければ,デフォルト引数が利用されます.

def greet(name='guest', greeting="Hello"):
    return f'{greeting}, {name}!'

# デフォルト引数を利用する場合
print(greet())  # Hello, guest!

# デフォルトの引数の一部を上書きする場合
print(greet(name='Taro'))  # Hello, Taro!
print(greet(greeting='Good Morning'))  # Good Morning, guest!

# 全ての引数を指定する場合
print(greet(name='Taro', greeting='Good Morning'))  # Good Morning, Taro!

演習問題

与えられた数値のリストの合計値を返す関数
与えられた数値のリストの最大値を返す関数
与えられた数値にFizzBuzzの結果を,文字列で返す関数
組み込み関数のfilter()の仕様を調べて自分で実装してください.

1.6.2 発展:クラスとインスタンス

先ほど関数を自分で定義して使う方法を学習しましたが,Pythonではデータ型も自分で定義することができます.

クラス(Class) とは, データ型,データ型の保有するデータ(属性)とデータ型に付随する機能(メソッド)を定義する機能です. クラスを具体化したものをインスタンスと呼びます. また,インスタンスが生成される際に実行されるメソッドをコンストラクタといいます.

これまでに見た例では,pandasのDataFrameなどはライブラリによって新たに定義されたデータ型です. .DataFrame()というコンストラクタによって具体的なDataFrameインスタンスが生成されます.

DataFrameオブジェクトの属性として,shapeなどを取得することができ,.to_csv()などのDataFrameに特有の機能(メソッド)を利用することができました.

それでは,具体的にクラスを作成してみましょう. ここでは,これまでに何度か出てきた,FizzBuzz専用のクラスを作成してみましょう.

新しいクラスを宣言するには class クラス名: と記述します. インデントブロック内に,コンストラクタと,メソッドを記述します. クラス名は大文字で始めます.

コンストラクタは, def __init__(self,必要な情報):の形で宣言します. __init__(self,の部分は基本的にすべてのクラスで共通です. FizzBuzzクラスでは, 数値を引数に取ります. selfは,属性やメソッドが属するインスタンスを表す変数でコンストラクタやメソッドの第1引数は常にselfとなります. self.属性,self.メソッド()などの形で,そのインスタンスの属性やメソッドを定義します.

各インスタンスに固有の属性をインスタンス属性といい,ここでは生成されたFizzBuzzインスタンスは.numberという属性を持ちます. self.number = numberと買うことで生成時に引数として与えられた数値numberをインスタンス属性として保存します.

最後に,FizzBuzzゲームを実行するための機能,.evaluate()を実行します.

# FizzBuzzというクラスを宣言します.
class FizzBuzz:
    #コンストラクタの定義
    #FizzBazzインスタンスを生成する際に必要となるデータを定義する
    def __init__(self, number):
        #インスタンス属性
        self.number = number

    #メソッド eveluateの定義
    #FizzBuzzインスタンスは,evaluateすることで,`FizzBuzz`の
    #ゲームが実行されます
    def evaluate(self):
        if self.number % 3 == 0 and self.number % 5 == 0:
            return "FizzBuzz"
        elif self.number % 3 == 0:
            return "Fizz"
        elif self.number % 5 == 0:
            return "Buzz"
        else:
            return str(self.number)

# 使用例
# 単一の数値を評価
fb = FizzBuzz(15)
print(fb.evaluate())  # FizzBuzz

fb = FizzBuzz(9)
print(fb.evaluate())  # Fizz

fb = FizzBuzz(10)
print(fb.evaluate())  # Buzz

fb = FizzBuzz(7)
print(fb.evaluate())  # 7

クラスの重要な機能に継承があります. 継承は新しいクラス(サブクラス)を作成する際に,すでにあるクラス(スーパークラス)の属性やメソッドを引き継ぐことを意味します. これによって,コードの再利用や,拡張が用意になります.

以下では,先程定義した FizzBuzzクラスを継承して,3と5以外の場合にも特別な挙動をするAdvancedFizzBuzzクラスを定義してみましょう.

サブクラスを定義するには, class サブクラス名(スーパークラス名)と記述します. インデントブロック内では, super().属性やsuper().メソッドと書くことで,スーパークラスの属性やメソッドを利用することができます.

# 派生クラス AdvancedFizzBuzz
# ()内にスーパークラスを書きます
class AdvancedFizzBuzz(FizzBuzz):
    def __init__(self, number, custom_message=None):
        # スーパークラスの__init__を呼び出す
        super().__init__(number)
        self.custom_message = custom_message

    def evaluate(self):
        # スーパークラスのevaluateメソッドを拡張
        # self.custom_message が定義されている場合のみ実行されます
        if self.custom_message and self.number % 7 == 0:
            return self.custom_message
        else:
            # スーパークラスのevaluateメソッドを呼び出す
            return super().evaluate()


# サブクラスの使用例
afb = AdvancedFizzBuzz(21, custom_message="Hozz")
print(afb.evaluate())  # Hozz (7で割り切れるためカスタムメッセージ)

afb = AdvancedFizzBuzz(10)
print(afb.evaluate())  # Buzz (スーパークラスのメソッドが呼ばれる)

演習

FizzBuzzクラスを拡張して, 3かつ5かつ7の倍数のときにHozzと表示されるようにしてください.
ジャンケンを行うためのクラスを定義してください.

2 (発展) その他のデータの処理

本講義では基本的に, 扱うデータの種類をExcel及びCSVに限定しています. しかし, 世の中には多くのデータが存在し,選択したテーマによってはCSV以外のデータを読み込む必要があります. ここでは, 本講義において過去に使用されたデータの基本と,その処理方法に関して扱います. ただし,他の章と整合性を取るため基本的な方針として,それらのデータを直接操作するのではなくCSVに変換,あるいは直接pandasのDataFrameオブジェクトへ変換する方針を取ります.

2.1 ファイル操作

実際のデータ分析では, 以下のような状況に遭遇することがよくあります:

データが複数のファイルに分割されている
異なる期間のデータが別々のファイルに保存されている
複数のソースからデータを収集する必要がある
ファイル名やディレクトリ構造に規則性がある

このような場合, 個別のファイルを手動で読み込んで結合するのは非効率的です. そのため, プログラムを使って自動的にファイルを探索し, 必要なデータを抽出・結合することが重要になります.

例えば, 以下のような状況を考えてみましょう: - 毎月のデータがsales_202301.csv, sales_202302.csvのように保存されている - 複数の店舗のデータがstore1/, store2/のように別々のディレクトリに保存されている - データファイルの中には破損や形式の不一致があるかもしれない

このような場合, ファイル操作のライブラリを使用して, データを効率的に収集・統合することができます. 以下の例では, 月次データが複数のCSVファイルに分割されている状況を想定します.

ファイル操作では主に以下のライブラリを使用します.

os: ファイルシステム操作の基本機能を提供
glob: ファイル名パターンマッチングに使用
pathlib.Path: モダンなファイルパス操作を提供

パターンマッチとは, ファイル名やパスに含まれる文字列を特定のパターンで検索する機能です. 例えば, *.csvは「任意の文字列で終わりが.csvのファイル」を表し, data_*.txtは「data_で始まり.txtで終わる任意のファイル」を表します. これにより, 多数のファイルから条件に合うものを効率的に見つけることができます.

これらのライブラリを組み合わせることで、以下のような操作が可能になります.

glob: ワイルドカード(*)を使用したファイル検索
os.path: ファイルの存在確認、サイズ取得など
Path: オブジェクト指向的なパス操作

2.1.1 ファイルの結合

まず, サンプルデータを作成してみましょう.

import pandas as pd
import numpy as np
from pathlib import Path

# データディレクトリを作成
data_dir = Path("monthly_data")
data_dir.mkdir(exist_ok=True)

# 2023年の月次データを作成
for month in range(1, 13):
    # 各月のデータを生成
    dates = pd.date_range(f'2023-{month:02d}-01', 
                         f'2023-{month:02d}-28', freq='D')
    
    data = {
        'date': dates,
        'sales': np.random.randint(1000, 5000, len(dates)),
        'customers': np.random.randint(50, 200, len(dates)),
        'month': month
    }
    
    df = pd.DataFrame(data)
    filename = data_dir / f"sales_2023{month:02d}.csv"
    df.to_csv(filename, index=False)
    print(f"作成: {filename}")

print("サンプルデータの作成が完了しました")

Path("monthly_data"): pathlibのPathクラスを使用してパスオブジェクトを作成します. これにより, WindowsやMacなどOSに依存しない形でパス操作が可能になります.
mkdir(exist_ok=True): ディレクトリを作成するメソッドです. exist_ok=Trueを指定することで, 既にディレクトリが存在する場合でもエラーを発生させません.
filename = data_dir / f"sales_2023{month:02d}.csv": Pathオブジェクトでは, /演算子を使用してパスを結合できます. この例では, data_dirディレクトリパスと各月のファイル名を結合して, 完全なファイルパスを生成しています.

lsコマンドでファイルが存在してるか確認してみましょう. ~~~ shell ls monthly_data sales_202301.csv sales_202303.csv sales_202305.csv sales_202307.csv sales_202309.csv sales_202311.csv sales_202302.csv sales_202304.csv sales_202306.csv sales_202308.csv sales_202310.csv sales_202312.csv ~~~

データの中身をcatコマンドで確認してみます. catコマンドは, ファイルの内容を表示するためのUNIXコマンドです. 複数のファイルを指定すると, それらを連結して表示することもできます.

❯ cat monthly_data/sales_202301.csv
date,sales,customers,month
2023-01-01,1575,100,1
2023-01-02,4531,79,1
2023-01-03,4385,142,1
2023-01-04,4350,64,1
2023-01-05,4718,197,1
2023-01-06,4782,126,1
2023-01-07,4322,146,1
2023-01-08,3027,52,1
2023-01-09,3671,102,1
2023-01-10,2535,158,1
2023-01-11,4810,66,1
2023-01-12,3868,162,1
2023-01-13,1770,145,1
2023-01-14,2280,162,1
2023-01-15,3904,76,1
2023-01-16,4240,151,1
2023-01-17,3532,54,1
2023-01-18,3114,172,1
2023-01-19,3107,91,1
2023-01-20,1123,83,1
2023-01-21,1076,139,1
2023-01-22,2953,77,1
2023-01-23,1324,156,1
2023-01-24,4330,180,1
2023-01-25,4154,57,1
2023-01-26,4398,126,1
2023-01-27,2964,190,1
2023-01-28,4372,173,1

次に, 作成したファイルを自動的に読み込んで結合する処理を行います.

import pandas as pd
import glob

# パターンにマッチするファイルを検索
pattern = "monthly_data/sales_*.csv"
files = glob.glob(pattern)

# ファイルが見つからない場合の処理
if not files:
    print(f"パターン '{pattern}' にマッチするファイルが見つかりません")
else:
    # 各ファイルを読み込んでリストに格納
    dataframes = []
    
    for file in sorted(files):  # ファイル名でソート
        try:
            df = pd.read_csv(file)
            
            # ファイル名から月を抽出
            # 例: "monthly_data/sales_202301.csv" → "202301" → "01" → 1
            month = int(file.split('.')[0][-2:])
            df['source_file'] = file  # 元のファイル名を記録
            df['month'] = month       # 月の数字を追加
            
            dataframes.append(df)     # リストにDataFrameを追加
            print(f"読み込み完了: {file} ({len(df)} 行)")
            
        except Exception as e:
            print(f"エラー - {file}: {e}")
            continue
    
    # 読み込んだファイルがある場合の処理
    if dataframes:
        # すべてのDataFrameを縦方向に結合
        # ignore_index=True: 元のインデックスを無視して新しい連続したインデックスを付与
        combined_df = pd.concat(dataframes, ignore_index=True)
        print(f"\n結合完了: 総行数 {len(combined_df)}")
        
        print("\n結合されたデータの概要:")
        print(combined_df.head())
        print(f"\n月別の行数:")
        print(combined_df.groupby('month').size())
    else:
        print("読み込めるファイルがありませんでした")

重要なポイントの説明:

not files: filesリストが空の場合（パターンにマッチするファイルが見つからない場合）にTrueになります
month = int(file.split('_')[1].split('.')[0][-2:]): ファイル名から月の数字を抽出する処理です. 例として”monthly_data/sales_202301.csv”から”01”を抽出して整数1に変換します
dataframes.append(df): 読み込んだDataFrameをリストに追加します. これにより各ファイルのデータを順次蓄積していきます
pd.concat(dataframes, ignore_index=True): 複数のDataFrameを縦方向（行方向）に結合します. ignore_index=Trueにより元のインデックスを無視して新しい連続したインデックスを付与します

複数ファイルの結合において,pandasのconcatメソッドは重要です.

pd.concat()は複数のDataFrameを結合するための関数です. 主なパラメータは以下の通りです.

横結合/縦結合

axis=0（デフォルト）: 縦方向（行方向）に結合 - 列名が同じ場合に使用
axis=1: 横方向（列方向）に結合 - 列名が異なる場合に使用

ignore_index

ignore_index=True: 元のインデックスを無視して新しい連続したインデックスを付与
ignore_index=False: 元のインデックスを保持

join

join='inner': 両方のDataFrameに共通するインデックスのみを保持
join='outer': すべてのインデックスを保持（欠損値はNaN）

縦結合（axis=0）の例 - 列名が同じ場合:

import pandas as pd
# 同じ列名を持つDataFrame
df1 = pd.DataFrame({
    'date': ['2023-01-01', '2023-01-02'],
    'sales': [1000, 2000],
    'month': [1, 1]
})

df2 = pd.DataFrame({
    'date': ['2023-02-01', '2023-02-02'],
    'sales': [3000, 4000],
    'month': [2, 2]
})

print("df1:")
print(df1)
print("\ndf2:")
print(df2)

"""
df1:
         date  sales  month
0  2023-01-01   1000      1
1  2023-01-02   2000      1

df2:
         date  sales  month
0  2023-02-01   3000      2
1  2023-02-02   4000      2
"""

# 縦方向に結合 (ignore_index=True)
combined = pd.concat([df1, df2], ignore_index=True)
print("\nignor_index=True:")
print(combined)
"""
         date  sales  month
0  2023-01-01   1000      1
1  2023-01-02   2000      1
2  2023-02-01   3000      2
3  2023-02-02   4000      2
"""
# 縦方向に結合 (ignore_index=False)
combined = pd.concat([df1, df2], ignore_index=False)
print("\nignor_index=False:")
print(combined)
"""
ignor_index=False:
         date  sales  month
0  2023-01-01   1000      1
1  2023-01-02   2000      1
0  2023-02-01   3000      2
1  2023-02-02   4000      2
"""

横結合（axis=1）の例 - 列名が異なる場合:

# 異なる列名を持つDataFrame
df_sales = pd.DataFrame({
    'date': ['2023-01-01', '2023-01-02', '2023-01-03'],
    'sales': [1000, 2000, 1500]
})

df_customers = pd.DataFrame({
    'date': ['2023-01-01', '2023-01-02', '2023-01-03'],
    'customers': [50, 80, 60]
})

print("売上データ:")
print(df_sales)
print("\n顧客数データ:")
print(df_customers)

"""
売上データ:
         date  sales
0  2023-01-01   1000
1  2023-01-02   2000
2  2023-01-03   1500

顧客数データ:
         date  customers
0  2023-01-01         50
1  2023-01-02         80
2  2023-01-03         60
"""


# 横方向に結合（列名が異なるので横結合が適切）
combined = pd.concat([df_sales, df_customers], axis=1)
print("\n横結合後:")
print(combined)

"""
横結合後:
         date  sales        date  customers
0  2023-01-01   1000  2023-01-01         50
1  2023-01-02   2000  2023-01-02         80
2  2023-01-03   1500  2023-01-03         60
"""

# 重複するdate列を削除
# combined.columns.duplicated() で重複する列名をTrue/Falseで判定
# 論理否定演算子~ を用いて ~combined.columns.duplicated() で重複していない列のみをTrueに変換
# combined.loc[:, ~combined.columns.duplicated()] で重複していない列のみを選択
combined_clean = combined.loc[:, ~combined.columns.duplicated()]
print("\n重複列を削除後:")
print(combined_clean)
"""
重複列を削除後:
         date  sales  customers
0  2023-01-01   1000         50
1  2023-01-02   2000         80
2  2023-01-03   1500         60
"""

joinパラメータを使用した結合の例:

# インデックスが異なるDataFrame
df_left = pd.DataFrame({
    'sales': [1000, 2000, 3000]
}, index=['2023-01-01', '2023-01-02', '2023-01-03'])

df_right = pd.DataFrame({
    'customers': [50, 80, 60, 90]
}, index=['2023-01-01', '2023-01-02', '2023-01-04', '2023-01-05'])

print("左側のデータ:")
print(df_left)
print("\n右側のデータ:")
print(df_right)

"""
左側のデータ:
            sales
2023-01-01   1000
2023-01-02   2000
2023-01-03   3000

右側のデータ:
            customers
2023-01-01         50
2023-01-02         80
2023-01-04         60
2023-01-05         90
"""

# inner join（共通のインデックスのみ）
combined_inner = pd.concat([df_left, df_right], axis=1, join='inner')
print("\ninner join:")
print(combined_inner)

"""
inner join:
            sales  customers
2023-01-01   1000         50
2023-01-02   2000         80
"""

# outer join（すべてのインデックス）
combined_outer = pd.concat([df_left, df_right], axis=1, join='outer')
print("\nouter join:")
print(combined_outer)
"""
outer join:
             sales  customers
2023-01-01  1000.0       50.0
2023-01-02  2000.0       80.0
2023-01-03  3000.0        NaN
2023-01-04     NaN       60.0
2023-01-05     NaN       90.0
"""

2.1.2 複数ディレクトリの操作

複数の店舗や部門のデータが別々のディレクトリに保存されている場合の処理例です.

2.1.3 サンプルデータの作成

まずは,ディレクトリとデータを生成してみます.

import pandas as pd
import numpy as np
from pathlib import Path

# 店舗名のリスト
stores = ['store1', 'store2', 'store3']

# 各店舗のデータを作成
for store in stores:
    # 店舗ディレクトリを作成
    store_dir = Path(f"store_data/{store}")
    store_dir.mkdir(parents=True, exist_ok=True)
    
    # 各店舗の月次データを作成
    for month in range(1, 13):
        dates = pd.date_range(f'2023-{month:02d}-01', 
                             f'2023-{month:02d}-28', freq='D')
        
        # 店舗ごとに異なる売上パターンを設定
        base_sales = {'store1': 2000, 'store2': 3000, 'store3': 1500}
        sales = np.random.normal(base_sales[store], 500, len(dates))
        
        data = {
            'date': dates,
            'sales': sales,
            'store': store,
            'month': month
        }
        
        df = pd.DataFrame(data)
        filename = store_dir / f"sales_{store}_{month:02d}.csv"
        df.to_csv(filename, index=False)
        print(f"作成: {filename}")

print("店舗別データの作成が完了しました")

データを確認してみます.

❯ tree store_data
store_data
├── store1
│   ├── sales_store1_01.csv
│   ├── sales_store1_02.csv
│   ├── sales_store1_03.csv
│   ├── sales_store1_04.csv
│   ├── sales_store1_05.csv
│   ├── sales_store1_06.csv
│   ├── sales_store1_07.csv
│   ├── sales_store1_08.csv
│   ├── sales_store1_09.csv
│   ├── sales_store1_10.csv
│   ├── sales_store1_11.csv
│   └── sales_store1_12.csv
├── store2
│   ├── sales_store2_01.csv
│   ├── sales_store2_02.csv
│   ├── sales_store2_03.csv
│   ├── sales_store2_04.csv
│   ├── sales_store2_05.csv
│   ├── sales_store2_06.csv
│   ├── sales_store2_07.csv
│   ├── sales_store2_08.csv
│   ├── sales_store2_09.csv
│   ├── sales_store2_10.csv
│   ├── sales_store2_11.csv
│   └── sales_store2_12.csv
└── store3
    ├── sales_store3_01.csv
    ├── sales_store3_02.csv
    ├── sales_store3_03.csv
    ├── sales_store3_04.csv
    ├── sales_store3_05.csv
    ├── sales_store3_06.csv
    ├── sales_store3_07.csv
    ├── sales_store3_08.csv
    ├── sales_store3_09.csv
    ├── sales_store3_10.csv
    ├── sales_store3_11.csv
    └── sales_store3_12.csv

作成した店舗別データを収集して結合します.

import pandas as pd
from pathlib import Path

# ベースディレクトリのパス
base_dir = "store_data"
base_path = Path(base_dir)
all_data = []

# 各店舗ディレクトリを処理
for store_dir in base_path.iterdir():
    if store_dir.is_dir():
        store_name = store_dir.name
        print(f"処理中: {store_name}")
        
        # 店舗ディレクトリ内のCSVファイルを検索
        csv_files = list(store_dir.glob("*.csv"))
        
        for csv_file in sorted(csv_files):
            try:
                df = pd.read_csv(csv_file)
                df['store'] = store_name
                df['source_file'] = str(csv_file)
                
                all_data.append(df)
                print(f"  読み込み: {csv_file.name}")
                
            except Exception as e:
                print(f"  エラー - {csv_file}: {e}")
                continue

# データが収集できた場合の処理
if not all_data:
    print("読み込めるデータがありませんでした")
else:
    # すべてのデータを結合
    combined_df = pd.concat(all_data, ignore_index=True)
    print(f"\n収集完了: 総行数 {len(combined_df)}")
    print(combined_df)
"""
収集完了: 総行数 1008
            date        sales   store  month                            source_file
0     2023-01-01  1224.888300  store1      1  store_data/store1/sales_store1_01.csv
1     2023-01-02  2598.341936  store1      1  store_data/store1/sales_store1_01.csv
2     2023-01-03  1632.373470  store1      1  store_data/store1/sales_store1_01.csv
3     2023-01-04  2807.153794  store1      1  store_data/store1/sales_store1_01.csv
4     2023-01-05  1835.156832  store1      1  store_data/store1/sales_store1_01.csv
...          ...          ...     ...    ...                                    ...
1003  2023-12-24  2300.085257  store3     12  store_data/store3/sales_store3_12.csv
1004  2023-12-25  2537.667225  store3     12  store_data/store3/sales_store3_12.csv
1005  2023-12-26  1482.390704  store3     12  store_data/store3/sales_store3_12.csv
1006  2023-12-27  1283.915166  store3     12  store_data/store3/sales_store3_12.csv
1007  2023-12-28  1517.512984  store3     12  store_data/store3/sales_store3_12.csv
"""

base_dir = "store_data": データが格納されているベースディレクトリを指定します
base_path = Path(base_dir): pathlibのPathオブジェクトを作成し、パス操作を簡単にします
base_path.iterdir(): ディレクトリ内のすべてのファイル/ディレクトリを列挙します
store_dir.is_dir(): パスがディレクトリであることを確認します
store_dir.glob("*.csv"): 指定ディレクトリ内の全CSVファイルを検索します
df['store'] = store_name: 各データに店舗名を追加します
df['source_file'] = str(csv_file): データの出所を追跡できるようにファイル名を記録します
pd.concat(all_data, ignore_index=True): 全てのデータフレームを結合します

2.2 XML

XMLはExtensible Markup Languageの略で, データを階層構造(ツリー構造)で表現するためのマークアップ言語です.

XMLの基本的な構造は以下のようになっています.

<?xml version="1.0" encoding="UTF-8"?>
<root>
    <person id="001" age="25" city="Tokyo">
        <name>田中太郎</name>
        <email>tanaka@example.com</email>
    </person>
    <person id="002" age="30" city="Osaka">
        <name>佐藤花子</name>
        <email>sato@example.com</email>
    </person>
    <person id="003" age="28" city="Kyoto">
        <name>鈴木一郎</name>
        <email>suzuki@example.com</email>
    </person>
</root>

XMLでは, <タグ名>と</タグ名>で囲まれた部分を要素と呼び, 要素の中に他の要素やデータを格納できます. また, <タグ名属性名="値">の形で属性を指定することもできます.

2.2.1 XMLの属性について

XMLの属性は, 要素に関する追加情報を提供するために使用されます. 属性は要素の開始タグ内に記述され, 属性名="値"の形式で指定します.

2.2.1.1 属性の例

<person id="001" age="25" city="Tokyo">
    <name>田中太郎</name>
    <email>tanaka@example.com</email>
</person>

<book isbn="978-4-1234-5678-9" price="1500" category="小説">
    <title>データサイエンス入門</title>
    <author>山田花子</author>
</book>

上記の例では: - person要素にはid, age, cityという属性があります - book要素にはisbn, price, categoryという属性があります

2.2.1.2 属性の特徴

要素の識別: id属性を使って要素を一意に識別できます
メタデータの格納: 要素に関する追加情報（年齢, 価格, カテゴリなど）を格納できます
検索・フィルタリング: 属性値を使って要素を検索したり, フィルタリングしたりできます
データの分類: categoryやtypeなどの属性でデータを分類できます

2.2.1.3 属性と子要素の使い分け

同じ情報を属性としても子要素としても表現できますが, 使い分けの指針があります:

属性を使う場合: - 要素の識別子（ID, 名前など） - 単純な値（数値, 真偽値など） - メタデータ（作成日, バージョンなど）

子要素を使う場合: - 複雑な構造を持つデータ - 長いテキスト - 複数の値を持つデータ

上記のXMLデータをツリー構造で表現すると以下のようになります.

root
├── person (id="001", age="25", city="Tokyo")
│   ├── name: "田中太郎"
│   └── email: "tanaka@example.com"
├── person (id="002", age="30", city="Osaka")
│   ├── name: "佐藤花子"
│   └── email: "sato@example.com"
└── person (id="003", age="28", city="Kyoto")
    ├── name: "鈴木一郎"
    └── email: "suzuki@example.com"

このツリー構造では, 各要素がノードとして表現され, 親子関係が矢印で示されています. person要素にはid, age, cityという属性が付いており, その下にnameとemailの子要素があります.

2.2.2 XMLデータの読み込み

PythonでXMLデータを扱うには, xml.etree.ElementTreeモジュールを使用します. 以下の例では, XMLファイルを読み込んでpandasのDataFrameに変換する方法を示します. xml.etree.ElementTreeはPythonの標準ライブラリなので, 追加インストールは不要です.

xmlをどのようなテーブルデータに変更するかは,目的と元のxmlファイルによりますが,ここでは属性を含むサンプルxmlファイルをtest.xmlとして保存し,person毎にid,age,city,name,emailを持つテーブルデータに変換してみます.

import xml.etree.ElementTree as ET  # XMLファイルを解析するためのライブラリ
import pandas as pd

# XMLファイルを読み込んで解析する
tree = ET.parse('test.xml')         # XMLファイルをパースしてツリー構造を作成
root = tree.getroot()               # ルート要素を取得

# XMLからデータを抽出してリストに格納
data = []                           # 最終的なデータを格納するリスト
for person in root.findall('person'):  # 'person'タグを持つすべての要素を検索
    # 属性の値を取得
    person_id = person.get('id')     # id属性の値を取得
    age = person.get('age')          # age属性の値を取得
    city = person.get('city')        # city属性の値を取得
    
    # 子要素の値を取得
    name = person.find('name').text  # name要素のテキストを取得
    email = person.find('email').text  # email要素のテキストを取得
    
    data.append({
        'id': person_id,             # 属性値を辞書に追加
        'age': age,
        'city': city,
        'name': name,                # 子要素の値を辞書に追加
        'email': email
    })

# 抽出したデータをpandasのDataFrameに変換
df = pd.DataFrame(data)             # リストをDataFrameに変換
print(df)                          # 結果を表示

"""
    id age   city  name               email
0  001  25  Tokyo  田中太郎  tanaka@example.com
1  002  30  Osaka  佐藤花子    sato@example.com
2  003  28  Kyoto  鈴木一郎  suzuki@example.com
"""

2.2.3 階層が深いXMLファイルの処理例

複雑な階層構造を持つXMLファイルから特定の情報を抽出する例を示します. 以下のような漫画のデータを想定します:

<?xml version="1.0" encoding="UTF-8"?>
<book title="DataScienceStory">
  <characters>
    <character id="char001" name="田中太郎"/>
    <character id="char002" name="佐藤花子"/>
    <character id="char003" name="鈴木一郎"/>
    <character id="char004" name="高橋美咲"/>
    <character id="char005" name="渡辺健太"/>
  </characters>
  <pages>
    <page index="0" width="1200" height="800"/>
    <page index="1" width="1200" height="800">
      <text id="text001" xmin="100" ymin="150" xmax="300" ymax="200">データサイエンスって面白そうだね</text>
      <text id="text002" xmin="400" ymin="250" xmax="600" ymax="300">Pythonで分析してみよう</text>
      <text id="text003" xmin="200" ymin="350" xmax="500" ymax="400">pandasが便利だよ</text>
      <text id="text004" xmin="300" ymin="450" xmax="550" ymax="500">統計学の基礎も重要だね</text>
      <text id="text005" xmin="150" ymin="550" xmax="450" ymax="600">機械学習もやってみたい</text>
    </page>
    <page index="2" width="1200" height="800">
      <text id="text006" xmin="100" ymin="100" xmax="350" ymax="150">データの前処理が大切だよ</text>
      <text id="text007" xmin="450" ymin="200" xmax="700" ymax="250">可視化も重要だね</text>
      <text id="text008" xmin="250" ymin="300" xmax="500" ymax="350">matplotlibでグラフを作ろう</text>
      <text id="text009" xmin="350" ymin="400" xmax="600" ymax="450">seabornも使いやすいよ</text>
      <text id="text010" xmin="200" ymin="500" xmax="450" ymax="550">データの品質チェックを忘れずに</text>
    </page>
    <page index="3" width="1200" height="800">
      <text id="text011" xmin="100" ymin="120" xmax="400" ymax="170">仮説検定も理解しよう</text>
      <text id="text012" xmin="500" ymin="220" xmax="750" ymax="270">回帰分析で予測してみよう</text>
      <text id="text013" xmin="300" ymin="320" xmax="550" ymax="370">分類問題も面白いね</text>
      <text id="text014" xmin="400" ymin="420" xmax="650" ymax="470">深層学習も挑戦してみたい</text>
      <text id="text015" xmin="250" ymin="520" xmax="500" ymax="570">データサイエンスの未来は明るい</text>
    </page>
  </pages>
</book>

このXMLファイルから, 各ページのテキスト情報を抽出してDataFrameにまとめるコードを作成します.

import xml.etree.ElementTree as ET  # XMLファイルを解析するためのライブラリ
import pandas as pd                 # データ処理用のライブラリ

# XMLファイルを読み込んで解析する
tree = ET.parse('manga_data.xml')   # XMLファイルをパースしてツリー構造を作成
root = tree.getroot()               # ルート要素を取得

# テキストデータを格納するリスト
text_data = []

# 各ページを処理
for page in root.findall('.//page'):  # すべてのpage要素を検索
    page_index = page.get('index')    # ページ番号を取得
    
    # 各ページ内のテキスト要素を処理
    for text_elem in page.findall('text'):
        text_id = text_elem.get('id')           # テキストIDを取得
        text_content = text_elem.text           # テキスト内容を取得
        xmin = text_elem.get('xmin')            # X座標最小値を取得
        ymin = text_elem.get('ymin')            # Y座標最小値を取得
        xmax = text_elem.get('xmax')            # X座標最大値を取得
        ymax = text_elem.get('ymax')            # Y座標最大値を取得
        
        # データを辞書に格納
        text_data.append({
            'page_index': page_index,
            'text_id': text_id,
            'text_content': text_content,
            'xmin': xmin,
            'ymin': ymin,
            'xmax': xmax,
            'ymax': ymax
        })

# DataFrameに変換
df = pd.DataFrame(text_data)

# データ型を適切に変換
df['page_index'] = pd.to_numeric(df['page_index'])
df['xmin'] = pd.to_numeric(df['xmin'])
df['ymin'] = pd.to_numeric(df['ymin'])
df['xmax'] = pd.to_numeric(df['xmax'])
df['ymax'] = pd.to_numeric(df['ymax'])


print("抽出されたテキストデータ:")
print(df.head(10))  # 最初の10行を表示

print(f"\n総テキスト数: {len(df)}")
print(f"ページ数: {df['page_index'].nunique()}")

"""
抽出されたテキストデータ:
   page_index text_id                                    text_content  xmin  ymin  xmax  ymax
0           1  text001                    データサイエンスって面白そうだね   100   150   300   200
1           1  text002                     Pythonで分析してみよう   400   250   600   300
2           1  text003                         pandasが便利だよ   200   350   500   400
3           1  text004                  統計学の基礎も重要だね   300   450   550   500
4           1  text005                    機械学習もやってみたい   150   550   450   600

総テキスト数: 15
ページ数: 3

"""
# csvとして保存
# 分析はこのcsvを読み込む
df.to_csv('manga_data.csv')

XMLの階層構造の理解:
- book → pages → page → text という深い階層構造
- 各要素には属性（id, index, xminなど）が付いている
データ抽出の手順:
- ルート要素からpage要素をすべて検索（.//page）
- 各ページ内のtext要素を検索
- 属性値とテキスト内容を取得
重要なポイント:
- findall('.//page'): 現在の要素以下のすべてのpage要素を検索
- get('属性名'): 要素の属性値を取得
- text: 要素のテキスト内容を取得
データの整理:
- 数値データはpd.to_numeric()で適切な型に変換
- DataFrameに変換して分析しやすい形式に整理

このように, 階層が深いXMLファイルからも, 適切なパスを指定することで必要な情報を抽出できます.

2.3 JSON

JSONはJavaScript Object Notationの略で, データを階層構造で表現する軽量なデータ交換形式です. XMLと比べて読み書きが簡単で, Web APIなどでよく使用されます.

JSONの基本的な構造は以下のようになっています:

{
    "string": "文字列",
    "number": 123,
    "boolean": true,
    "array": [1, 2, 3],
    "object": {
        "key": "value"
    }
}

JSONでは, キーと値のペアでデータを表現し, オブジェクト（{}で囲まれた部分）や配列（[]で囲まれた部分）を使って階層構造を作ります. XMLと比べて, タグ名が不要でより簡潔に記述できます.

2.3.1 JSONデータの読み込み

PythonでJSONデータを扱うには, jsonモジュールを使用します. jsonはPythonの標準ライブラリなので, 追加インストールは不要です

# 必要なライブラリをインポート
import json                        # JSONデータを処理するためのライブラリ
import pandas as pd                # データ処理用のライブラリ

# JSONファイルを読み込む
with open('data.json', 'r', encoding='utf-8') as f:  # ファイルをUTF-8エンコーディングで開く
    data = json.load(f)            # JSONデータをPythonオブジェクトに変換

# JSONデータをDataFrameに変換
df = pd.DataFrame(data)            # 辞書やリストのデータをDataFrameに変換
print(df)                         # 結果を表示

2.4 pickle

pickleは, Pythonオブジェクトをシリアライズ（直列化）してファイルに保存したり, ファイルから読み込んだりするためのモジュールです. Python固有の形式ですが, 複雑なオブジェクト構造をそのまま保存できる利点があります. 大規模なCSVファイルを利用すると,読み書きだけで非常に長い時間がかかることがあります.そのような場合には,pickleファイルとして保存することで高速化・効率化が可能となります. pickleはPythonの標準ライブラリなので, 追加インストールは不要です

# 必要なライブラリをインポート
import pickle                      # Pythonオブジェクトのシリアライズ用ライブラリ
import pandas as pd                # データ処理用のライブラリ

# pickleファイルからデータを読み込む
with open('data.pkl', 'rb') as f:  # バイナリモードでファイルを開く
    data = pickle.load(f)          # pickleデータをPythonオブジェクトに復元

# 読み込んだデータの種類を判定して処理
if isinstance(data, pd.DataFrame):  # データがDataFrame型かどうかをチェック
    print(data)                    # DataFrameの場合はそのまま表示
else:
    # 他のオブジェクトの場合
    print(type(data))              # オブジェクトの型を表示
    print(data)                    # オブジェクトの内容を表示

2.4.1 DataFrameをpickleで保存する

# 必要なライブラリをインポート
import pickle                      # Pythonオブジェクトのシリアライズ用ライブラリ
import pandas as pd                # データ処理用のライブラリ

# サンプルDataFrameを作成
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],  # 名前の列
    'age': [25, 30, 35],                  # 年齢の列
    'city': ['Tokyo', 'Osaka', 'Kyoto']   # 都市の列
})

# DataFrameをpickleファイルに保存
with open('data.pkl', 'wb') as f:  # バイナリ書き込みモードでファイルを開く
    pickle.dump(df, f)             # DataFrameをpickle形式でファイルに保存

print("DataFrameをpickleファイルに保存しました")  # 保存完了のメッセージ

2.5 その他のデータ形式

2.5.1 Excelファイル（.xlsx, .xls）

Excelファイルはopenpyxlやxlrdライブラリを使用して読み込むことができますが, pandasのread_excel()関数を使用するのが最も簡単です.

# 必要なライブラリをインポート
import pandas as pd                # データ処理用のライブラリ

# Excelファイルを読み込む
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')  # Excelファイルの指定シートを読み込み
print(df)                         # 読み込んだデータを表示

2.5.2 HTMLテーブル

WebページのHTMLテーブルからデータを抽出するには, read_html()関数を使用します.

# 必要なライブラリをインポート
import pandas as pd                # データ処理用のライブラリ

# HTMLファイルまたはURLからテーブルを読み込む
tables = pd.read_html('https://example.com/table.html')  # HTMLからすべてのテーブルを抽出
df = tables[0]                    # 最初のテーブルをDataFrameとして取得
print(df)                         # 読み込んだテーブルを表示

2.5.3 SQLデータベース

SQLデータベースからデータを読み込むには, sqlite3やpymysqlなどのライブラリを使用します.

# 必要なライブラリをインポート
import pandas as pd                # データ処理用のライブラリ
import sqlite3                     # SQLiteデータベース操作用のライブラリ

# SQLiteデータベースに接続
conn = sqlite3.connect('database.db')  # データベースファイルに接続

# SQLクエリを実行してDataFrameに変換
df = pd.read_sql_query("SELECT * FROM table_name", conn)  # SQLクエリの結果をDataFrameに変換
print(df)                         # クエリ結果を表示

# データベース接続を閉じる
conn.close()                      # 接続を適切に閉じる（重要）

2.6 データ形式の変換

異なるデータ形式間で変換する際は, まずpandasのDataFrameに変換してから, 目的の形式で保存するのが一般的です.

# 必要なライブラリをインポート
import pandas as pd                # データ処理用のライブラリ
import json                        # JSONデータ処理用のライブラリ
import xml.etree.ElementTree as ET # XMLデータ処理用のライブラリ

# CSVファイルからデータを読み込む
df = pd.read_csv('data.csv')      # CSVファイルをDataFrameに読み込み

# DataFrameをJSON形式に変換して保存
df.to_json('data.json', orient='records', force_ascii=False)  # 日本語文字を正しく保存

# DataFrameをExcel形式に変換して保存
df.to_excel('data.xlsx', index=False)  # インデックス列は含めない

# DataFrameをpickle形式に変換して保存
df.to_pickle('data.pkl')          # Pythonオブジェクトとして保存

print("データ形式の変換が完了しました")  # 変換完了のメッセージ

このように, 様々なデータ形式をpandasのDataFrameに変換することで, 統一された方法でデータを処理することができます.

Contents

Links

Index