特別講義DS Ch1 本資料の読み方

資料
Published on 2024-03-29 under the tag datascience, statistics, python

Table of Contents

1 本資料の読み方

特別講義(データサイエンス)の授業資料などを書いてく予定です. (現在執筆中)

本資料は,文系学部生向けにデータサイエンスを体験することを目的にしたものです. これまでにプログラミングや理数系科目を学習していないことを前提にしているので, 初歩の初歩から一つずつ扱う科目です.

こちらの資料では,授業に必要な技術的な内容に限定して掲載します. 授業概要,授業の注意点,成績等については講義中に別資料で説明します.

2 章立て

本資料の章立ては以下のようになっています (クリックすることで各章に飛べます.)

第1章 本資料の読み方

第2章 データサイエンスを始めよう

第3章 Pythonと環境構築

第4章 Pythonことはじめ

第5章 ライブラリの利用

第6章 データの取得と編集

第7章 アルゴリズムとPythonの基本構文

第8章 データの可視化

第9章 データの数値化

第10章 検定

第11章 線形回帰分析

第12章 一般化線形モデル

第13章 教師あり/なし学習

第14章 画像認識

第15章 自然言語処理

第16章 カテゴリーデータ処理

現在執筆中のため,章の構成等は変更される可能性があります.

2.1 デザインについて

文章中で色の変わっているブロックはオレンジ色が注意(warn),青色が演習や強調(note)など独立した部分を表しています. 講義ではwarnに関しては,飛ばす場合があるので,興味のある人は自分で読み進めてください.

これは注意や発展的内容を示しています.

これは演習や強調したい箇所に利用されています.

リンクはGoogleのように下線で表示されます.クリックすることでリンクに飛ぶことが可能です. 右クリックして,新しいタブで開くことを推奨しています.

2.2 演習回答及びデータ

演習回答はこちらからダウンロードできます. ただし,こちらの演習の回答は,講義中に出た学生の回答をSAがまとめたものです. 間違い等が含まれている場合は教員まで伝えてください.

利用するデータはこちらからダウンロード可能です. 本資料で扱われるデータは基本的に,ダミーデータです.したがって,分析例として導かれている結論も,現実の事象を表しているわけではないことに注意してください.研究などにも利用することはできません.

2.3 シンタックスとコーディングスタイル

本講義ではプログラムブロックは以下のように黒い背景でシンタックスハイライトが適用されています.

import pandas as pd

print('Sample')

コピー&ペーストが可能なので, 自分のプログラムに利用してください.

Pythonの書き方は,基本的に可読性を高めるために,決まったルールで記載されます. このルールをコーディングスタイルといいます. Pythonにおける標準的なコーディングスタイルにはPEP8(Python Enhancement Proposal)などがありますが,本講義では一部従っていません.

特に,リストや辞書型などの改行において

といった記法を採用しています.これは,関数型言語(特にHaskell)の講義との対応関係を持たせるために筆者が好んでいるものですが, 一般的な手続き型言語のコーディングスタイルではありませんので注意してください.

また, リストなどをxsなどのsをつけた複数形で表現する命名規則も多用していますが, こちらも一般的なコーディングスタイルではありません.


#通常の記法
animals = ['cat',
           'dog',
           'bird']

#本資料における記法
animals = ['cat'
          ,'dog'
          ,'bird'
          ]
ce0f13b2-4a83-4c1c-b2b9-b6d18f4ee6d2