特別講義DS Ch2 データサイエンスを始めよう
1 はじめに(注意点)
本講義で行われた研究は基本的に本講義内で完結するものです. 本講義の結果を踏まえて,卒論として継続する,他の講義で分析結果を利用するなどの場合には,必ず 「卒論/講義の指導教官」及び「特別講義データサイエンス」の指導教官の双方から事前に許可を取って下さい.
特に,アンケート調査,その他の調査データの利用に関しては,使用目的を本講義での分析用途に限定して,倫理審査を行っています. その場合, 他の講義等目的外で利用すると違反となりますので,行わないように注意して下さい.
また,卒論/その他の学会発表等において,本講義の内容から大きな変更なく提出した場合二重利用,自己剽窃となり倫理違反とみなされる可能性があります.
具体的にどのような行為が自己剽窃にあたるか
過去の論文の一部をそのまま再利用する: 例えば,過去に書いた論文の文章を,新しい論文にそのままコピー&ペーストして利用する場合.
過去のデータやグラフを再利用する: 以前の論文で使用したデータやグラフを、新しい論文に引用表示なく再利用する場合.
過去のアイデアをそのまま再利用する: 以前に発表したアイデアを、新しい論文であたかもオリジナルであるかのように表現する場合.
以前の論文の結論をそのまま再利用する: 以前の論文で導き出した結論を,新しい論文で引用なしに再利用する場合.
この講義で作成/発表した論文の分析結果及びデータ等を卒論その他の講義,外部発表等で利用する場合は,適切な引用,参考元として利用して下さい.
また,研究を継続することを希望する場合は,ゼミ,IEEESB等何かしら我々が関与している講義,組織を通じて実行して下さい. それ以外の場合に,卒論の指導,外部発表の指導等は実施できません.
2 データサイエンスを始めよう 研究計画の建て方
この講義ではデータサイエンスの一通りの過程を実際に自分で実施することを目指します. まずは,データサイエンスとはどのようなものなのか,一連の流れを確認してみましょう. データサイエンスを実施する場合の一般的な作業は以下のような順序で行われます.

これらのうち,考察までの部分は基本的にプログラムによって実行され,それぞれ基本的にその作業に適したライブラリを利用します.
どのようなライブラリを利用するのかに関しては,図の下側に記載されていますが,その詳細に関しては後の章で扱います.
いずれによせ皆さんは,ここに記載された一連の流れを実施するために,まずは
- プログラミングの基礎
- 各ライブラリの利用方法
- 前処理,可視化,数値化などの基本的な知識
- 分析手法とその解釈の仕方
を学習する必要があります.
それと並行して,この一連の流れで具体的に何を研究するのかという研究計画を立てる必要があります. この講義では,基本的な学習と研究計画の立案を並行して行い,研究の進展に沿って必要となる技能を身に着けていきます.
そのために,まずは研究計画の立て方について学習してみましょう.
3 モデルとデータ
統計学やデータサイエンスはいずれもデータを利用しますが,データを利用して得たいものは何でしょうか. 統計学や,データサイエンスは,世界に何かしらの構造(モデル)が存在するという仮定をおいて,情報を利用してその構造を明らかにすることを目的としています.
星の動きは特定のルールに従っている
コインを投げて表が出るか,裏が出るかは,コインの構造や投げ方で決まる
社会科学では,そのような構造がない,あるいは変化する,作るなどの立場もありますが,ここでは深くは扱いません.
しかし, 世の中の何かしらの対象の動きや現象を決める構造はどのようにすれば明らかになるのでしょうか. 私達は,情報を解釈することでお野中の何かしらの現象の背景にモデルを見出します. 単純な法則であれば,目で見て,耳で聞いて,触ってという五感によってモデルを発見しますが, そのようなものも,視覚,聴覚,触覚などの情報といえます. 自然の情報は複雑すぎるためにそのような情報全ては利用できません, 私達はデータと言う形で情報を抽出し,利用可能な形態にまとめます. 情報をそのまま眺めていても,まだ人間には複雑過ぎます,そこで,統計やデータサイエンスの技法を用いてそれらの情報を何らかの基準でまとめて,理解可能な形,すなわちモデルに変形します.

統計におけるモデルの話(あとで載せる予定)
この講義はデータサイエンスを扱うので, データからデータを生み出した世界の背景にある構造を明らかにすることを目指します. なので, これから皆さんに立ててもらう研究テーマを決めるには,自分が明らかにしたい構造を決めて貰う必要があります.
参考にするために,この講義で扱った過去の研究事例を確認してみましょう.
過去の研究事例(3年分のみ)はこちらから閲覧できます.(GitHub上だと,見にくいのでDLすることを推奨します.)
過去のこの講義における研究テーマでは,
漫画の画像データを利用し,ニューラルネットワークを利用した画像解析手法によって,年代ごとの漫画の顔の絵柄に違いがあることを明らかにしました.
大学生のアンケートデータを元に, どのような特性が投票行動の有無に影響を及ぼすのかを明らかにしました.
大学の学習データを用いたカテゴリーデータ解析によって, 授業形態別に良い成績を取る学生とそうでない学生の特徴を明らかにしました.
過去のヒット曲データや歌詞を利用したクラスタリングによって, 時代ごとのヒット曲の変遷と,ヒット曲になりやすい曲の特徴を明らかにしました.
大学の棟別の電力データを利用した時系列解析によって,大学の電力消費に影響の大きい要素を明らかにしました.
言語毎のLGBTQに関するWikipediaの記事の自然言語解析結果と,世界LGBTQ需要度ランキングの関係性を明らかにしました.
アンケート調査を利用した共分散構造分析によって,大学生の大学生活の様子とメンタルヘルスの関係を明らかにしました.
Webページ閲覧時の視線移動を実験により計測して,Webページの特徴と,視線移動の関係性を明らかにしました.
- その他多数
など,それぞれが知りたい,何かの現象を生み出す構造を明らかにする研究を実施しました.
皆さんが研究テーマを決めるにあたって,必要となる第一歩は,何の,何を決める構造が知りたいのかを決めることです.
ところで,構造を明らかにすると言ってもどのようにするのでしょうか.
これから学ぶ様々な統計,データサイエンスの手法によって,明らかにすることができる構造は異なります.
例えば,
関係がある → 相関
SDGsに取り組む企業は, 生産性が高い傾向がある 成績が良い学生は, 勉強時間が長い傾向がある ただし, 傾向があるだけで, 勉強を沢山すれば,成績が伸びるという説明(因果関係)はできない
違いがある → 検定
オンデマンド授業の方が, 対面授業よりも学生の成績が高い
モデルで説明できる(予測できる) → 多変量解析, 統計モデリング(回帰など)
生産性がX高まると,SDGsへの取り組みの量がY増える
区別/要約できる → クラスタリング,次元削減
流行りの音楽は,5つのグループに区別できる 流行りの音楽の特徴をまとめると,XやYである.
といった手法があります. 自分が,対象の何を知りたいのかを明らかにすることで,使用する手法は異なります.
また,そのような分析を実施する対象となるデータの種類によって更に手法は枝分かれします(統計学入門/データ活用の統計学(旧 統計学入門)などで扱っています.)
画像データ → 画像処理
自然言語データ → 自然言語処理
点過程・時系列データ → 時系列解析
カテゴリーデータ → カテゴリーデータ分析
などなど
この講義では, 分析手法を扱う章でこれらの手法を扱います. 時間の都合上すべてを詳細に扱うことはできません. したがって皆さんの学習における目標は講義を通して,数ある手法の中から自分の知りたい対象に使える手法1つか2つだけ選択し,それだけを利用できるようにすることとなります.
選んだテーマによっては既存の手法が適用できない場合もあります.
その場合には,教員が資料を新たに作成します. (今までは年1,2個程度増えています.)
今後の追加候補
時系列解析
一般化線形モデル(ベイズ統計モデル)
傾向スコア解析
エージェント・ベース・モデリング
3.1 手法の決め方
統計やデータサイエンスは非常に広い学問なので,その学習では様々な手法を断片的に学習し, その後必要となる特定の手法を深く学ぶというのが一般的です. では,必要となる手法はどのように決めるのでしょうか.
手法は,目的とデータによって決まります. まず,目的(何が知りたいか)が決まり,利用できるデータが決まったあとに,使える手法(何が言えるか)が決まります. これは目的が先にあるパターンですが,データが先,使いたい手法が先などで研究計画が決まる場合もあります.

HARKingについて
この講義はあくまで,研究を通じてデータサイエンスの手法を学習することを目指しているため, 以下の様に,手法やデータ優先で研究計画を立てることも認めていますが,研究の世界では, データが有り,何かしらの手法で分析した後に,その結果を元々知りたかったかのように報告することはHARKingと呼ばれる研究不正の一種とみなされる場合があります.
データ優位の分析は,データサイエンス分野や,観察研究と呼ばれる分野でしばしば行われていますし,特定の手法が利用可能な分野やデータを選択することは特定の手法の学習のためには有用です.
しかし,統計的仮説検定などの統計的な仮説を前提とする分野では,望ましい態度ではないとされています.
卒業研究などで,研究をする場合には,指導教官の指導方針に従って,研究計画を立てるようにしましょう.
目的から
この構造を明らかにしたい.
→ この構造から生じたデータを集める → このデータを使って構造を表す手法を選ぶ
→ この手法で明らかになる →この手法が使えるデータを集める
データから
このデータを分析したい
→ このデータを分析できる手法を選ぶ → この手法とデータから明らかになることを考える
→ このデータから明らかにしたい構造を考える → データから構造を明らかにする手法を考える
手法から
この手法を使いたい,作りたい
→ この手法で何が明らかになるのかを決める → この手法が使えるデータを集める
→この手法が使えるデータを集める → この手法とデータから明らかになることを考える
3.2 研究計画を建てよう
目的,データ,手法いずれかを決めましょう.
目的の決め方
自分の知りたい構造を沢山挙げる
その構造の仮説を立てる
例: Twitterでバズる方法には規則があるかもしれない?, 少子高齢化には背景に構造があるかもしれない?
→ すでに明らかになっていないか,本,論文を探す(先行研究).
何が分かっていて何が分かっていないのか?
大変なところ: アイデア勝負(創造性), 先行研究を調べるのが大変
手法の決め方
沢山の手法の原理/使い方を学ぶ
興味のある,自分で使えるようになりたい手法を選ぶ
例:兎に角テキスト解析してみたい!, 取り敢えず統計モデルっていうものを作ってみたい!
→ その手法について学習して, 使えるようにする.
どんな原理で,何が明らかになるもので,どのように使うのか?
大変なところ: 手法は難しい,沢山ありすぎる,数学,プログラミングの知識が必要
データの決め方
様々なデータを探す/自分でデータを作ってみる(実験,調査)
→ データの特徴を分析(記述統計学),設計する(実験計画)
例: 取り敢えずYoutubeの視聴データが面白そう!, 大学の教育のデータから何が言えるかな?, アンケート調査とかしてみたい!
大変なところ: 実験や調査は手間がかかる. データの特徴を調べないといけない.
この3つをそれぞれ,自分の興味のあるものを考えて見よう. 最低3アイデアを考えてみましょう.(目的1つで3つでも, それぞれ1つずつでもOK)
どれか1つ(目的/手法/データ)が決まったら,残り2つを順番に探してみましょう. しかし, 実際に行ってみると,途中でうまくいかないことが大半です.
目的も手法も決まったけどデータがない!
- 千葉商科大学生の親の所得と成績について,回帰分析したい!
→ けどそんなデータはない
→ アンケート調査する?/変更する
データも手法も決まったけど,出てくる構造がすでに知られている/つまらない
天気と気温のデータがあるので検定をすれば,晴れの日は雨の日より気温が高いことが分かる
→ そんな当たり前のことが分かっても…..
目的もデータもあるけど,手法が難しすぎる/存在しない
企業の会計データと取引経路のデータがあるので,これで経済構造を明らかにできる!
→ エージェントベースモデリングをやるには,数百万円の計算機と,数万行のコードを書く必要があるし,モデル作成も複雑すぎる….
ので行ったり来たりするのが通常です.
卒業研究などではこの過程に,1年以上かけますが,この講義では数ヶ月しか時間がとれません. そこで,少し妥協する必要があります.
本当に知りたいこと,本当にやりたいこと,本当に分析したいデータなどが,上手く使えればそれに越したことはありませんが,なかなか上手くは行きません.
研究の面白さは,自分の知りたいことを探求するところにあります.新しい対象を分析する場合には,データが存在しない,手法が存在しない場合があります.
この講義ではあくまでも,基本的な教養として,すでに存在する手法を用いて,一度自分で一通りの流れを体験してみることです.
残念ながらその意味でも,この講義で本当の研究ができるわけではありません.
データや手法の開発は,それ自体一生物の仕事になる場合もあるので,そういった自分自身の問を持っている人は是非,大学院に進んで研究者になりましょう.
この講義では,1年で0から行うので,
すぐに結果が出そうな目的
おおよそ明らかになっていることを少し変える
既に知られていることでも取り敢えずやってみる
本当に知りたいことのほんの一部だけに限定する
手頃なデータ
昨年の講義で利用されているデータ
簡単に手に入るデータ
教員が提示したデータ
簡単な手法
授業で扱っている基礎的な手法に限定する
やりたいことの簡単なバージョンを利用する
教員の研究の一部を担当する
など一定の妥協をする必要があります(それでも半年で行うのはかなり大変です.)
これから,具体的な統計やデータサイエンスの手法を学習するので, 並行してできるだけ早くに,自分がこの講義で何をやるのかを決めていきましょう.
- 演習
この講義の過去の研究事例をどれか一つ読み,以下のことをそれぞれ一行程度の文章でスライド1枚にまとめてください.
目的
知りたいことは何か?
手法
どのような手法を利用したか(名称のみで構いません.)
データ
どのようなデータか,データをどのように集めたか. データの種類は何か.
自分がこの講義で行う研究の,目的,手法,データ,どれでも良いので,3つ思いついたものをスライドにまとめてください.
デザインを入れるなど,きれいにまとめる必要はありません.議論のためのメモ帳として作成してください.
あとで補足,追加できるように1つのテーマにつき,1ページ使用してください.
何かを調べた,読んだ,参考にした場合はその出典を書いておいてください.
URL直張りでも構わないので,必ずあとで参照できる形でメモを残しておいてください.
途中経過で構わないのでグループウェアの自分のチャネルにアップロードしてください.
現時点では,実現が困難なものでも,不可能なものでも,つまらないものでも構いません,取り敢えず沢山やってみたいこと,興味のあることをまとめましょう.後ほど,その資料を元に,説明してもらい,ディスカッションします.