特別講義DS Ch2 データサイエンスを始めよう

資料
Published on 2024-03-29 under the tag datascience, statistics, python

Table of Contents

1 はじめに(注意点)

本講義で行われた研究は基本的に本講義内で完結するものです. 本講義の結果を踏まえて,卒論として継続する,他の講義で分析結果を利用するなどの場合には,必ず 「卒論/講義の指導教官」及び「特別講義データサイエンス」の指導教官の双方から事前に許可を取って下さい.

特に,アンケート調査,その他の調査データの利用に関しては,使用目的を本講義での分析用途に限定して,倫理審査を行っています. その場合, 他の講義等目的外で利用すると違反となりますので,行わないように注意して下さい.

また,卒論/その他の学会発表等において,本講義の内容から大きな変更なく提出した場合二重利用,自己剽窃となり倫理違反とみなされる可能性があります.

この講義で作成/発表した論文の分析結果及びデータ等を卒論その他の講義,外部発表等で利用する場合は,適切な引用,参考元として利用して下さい.

また,研究を継続することを希望する場合は,ゼミ,IEEESB等何かしら我々が関与している講義,組織を通じて実行して下さい. それ以外の場合に,卒論の指導,外部発表の指導等は実施できません.

2 データサイエンスを始めよう 研究計画の建て方

この講義ではデータサイエンスの一通りの過程を実際に自分で実施することを目指します. まずは,データサイエンスとはどのようなものなのか,一連の流れを確認してみましょう. データサイエンスを実施する場合の一般的な作業は以下のような順序で行われます.

データ分析の流れ

これらのうち,考察までの部分は基本的にプログラムによって実行され,それぞれ基本的にその作業に適したライブラリを利用します.

どのようなライブラリを利用するのかに関しては,図の下側に記載されていますが,その詳細に関しては後の章で扱います.

いずれによせ皆さんは,ここに記載された一連の流れを実施するために,まずは

  1. プログラミングの基礎
  2. 各ライブラリの利用方法
  3. 前処理,可視化,数値化などの基本的な知識
  4. 分析手法とその解釈の仕方

を学習する必要があります.

それと並行して,この一連の流れで具体的に何を研究するのかという研究計画を立てる必要があります. この講義では,基本的な学習と研究計画の立案を並行して行い,研究の進展に沿って必要となる技能を身に着けていきます.

そのために,まずは研究計画の立て方について学習してみましょう.

3 モデルとデータ

統計学やデータサイエンスはいずれもデータを利用しますが,データを利用して得たいものは何でしょうか. 統計学や,データサイエンスは,世界に何かしらの構造(モデル)が存在するという仮定をおいて,情報を利用してその構造を明らかにすることを目的としています.

社会科学では,そのような構造がない,あるいは変化する,作るなどの立場もありますが,ここでは深くは扱いません.

しかし, 世の中の何かしらの対象の動きや現象を決める構造はどのようにすれば明らかになるのでしょうか. 私達は,情報を解釈することでお野中の何かしらの現象の背景にモデルを見出します. 単純な法則であれば,目で見て,耳で聞いて,触ってという五感によってモデルを発見しますが, そのようなものも,視覚,聴覚,触覚などの情報といえます. 自然の情報は複雑すぎるためにそのような情報全ては利用できません, 私達はデータと言う形で情報を抽出し,利用可能な形態にまとめます. 情報をそのまま眺めていても,まだ人間には複雑過ぎます,そこで,統計やデータサイエンスの技法を用いてそれらの情報を何らかの基準でまとめて,理解可能な形,すなわちモデルに変形します.

情報の抽出

統計におけるモデルの話(あとで載せる予定)

この講義はデータサイエンスを扱うので, データからデータを生み出した世界の背景にある構造を明らかにすることを目指します. なので, これから皆さんに立ててもらう研究テーマを決めるには,自分が明らかにしたい構造を決めて貰う必要があります.

参考にするために,この講義で扱った過去の研究事例を確認してみましょう.

過去の研究事例(3年分のみ)はこちらから閲覧できます.(GitHub上だと,見にくいのでDLすることを推奨します.)

過去のこの講義における研究テーマでは,

漫画の画像データを利用し,ニューラルネットワークを利用した画像解析手法によって,年代ごとの漫画の顔の絵柄に違いがあることを明らかにしました.

大学生のアンケートデータを元に, どのような特性が投票行動の有無に影響を及ぼすのかを明らかにしました.

大学の学習データを用いたカテゴリーデータ解析によって, 授業形態別に良い成績を取る学生とそうでない学生の特徴を明らかにしました.

過去のヒット曲データや歌詞を利用したクラスタリングによって, 時代ごとのヒット曲の変遷と,ヒット曲になりやすい曲の特徴を明らかにしました.

大学の棟別の電力データを利用した時系列解析によって,大学の電力消費に影響の大きい要素を明らかにしました.

言語毎のLGBTQに関するWikipediaの記事の自然言語解析結果と,世界LGBTQ需要度ランキングの関係性を明らかにしました.

アンケート調査を利用した共分散構造分析によって,大学生の大学生活の様子とメンタルヘルスの関係を明らかにしました.

Webページ閲覧時の視線移動を実験により計測して,Webページの特徴と,視線移動の関係性を明らかにしました.

など,それぞれが知りたい,何かの現象を生み出す構造を明らかにする研究を実施しました.

皆さんが研究テーマを決めるにあたって,必要となる第一歩は,何の,何を決める構造が知りたいのかを決めることです.

ところで,構造を明らかにすると言ってもどのようにするのでしょうか.

これから学ぶ様々な統計,データサイエンスの手法によって,明らかにすることができる構造は異なります.

例えば,

といった手法があります. 自分が,対象の何を知りたいのかを明らかにすることで,使用する手法は異なります.

また,そのような分析を実施する対象となるデータの種類によって更に手法は枝分かれします(統計学入門/データ活用の統計学(旧 統計学入門)などで扱っています.)

などなど

この講義では, 分析手法を扱う章でこれらの手法を扱います. 時間の都合上すべてを詳細に扱うことはできません. したがって皆さんの学習における目標は講義を通して,数ある手法の中から自分の知りたい対象に使える手法1つか2つだけ選択し,それだけを利用できるようにすることとなります.

選んだテーマによっては既存の手法が適用できない場合もあります.

その場合には,教員が資料を新たに作成します. (今までは年1,2個程度増えています.)

3.1 手法の決め方

統計やデータサイエンスは非常に広い学問なので,その学習では様々な手法を断片的に学習し, その後必要となる特定の手法を深く学ぶというのが一般的です. では,必要となる手法はどのように決めるのでしょうか.

手法は,目的とデータによって決まります. まず,目的(何が知りたいか)が決まり,利用できるデータが決まったあとに,使える手法(何が言えるか)が決まります. これは目的が先にあるパターンですが,データが先,使いたい手法が先などで研究計画が決まる場合もあります.

目的,手法,データ

この講義はあくまで,研究を通じてデータサイエンスの手法を学習することを目指しているため, 以下の様に,手法やデータ優先で研究計画を立てることも認めていますが,研究の世界では, データが有り,何かしらの手法で分析した後に,その結果を元々知りたかったかのように報告することはHARKingと呼ばれる研究不正の一種とみなされる場合があります.

データ優位の分析は,データサイエンス分野や,観察研究と呼ばれる分野でしばしば行われていますし,特定の手法が利用可能な分野やデータを選択することは特定の手法の学習のためには有用です.

しかし,統計的仮説検定などの統計的な仮説を前提とする分野では,望ましい態度ではないとされています.

卒業研究などで,研究をする場合には,指導教官の指導方針に従って,研究計画を立てるようにしましょう.

3.2 研究計画を建てよう

目的,データ,手法いずれかを決めましょう.

この3つをそれぞれ,自分の興味のあるものを考えて見よう. 最低3アイデアを考えてみましょう.(目的1つで3つでも, それぞれ1つずつでもOK)

どれか1つ(目的/手法/データ)が決まったら,残り2つを順番に探してみましょう. しかし, 実際に行ってみると,途中でうまくいかないことが大半です.

ので行ったり来たりするのが通常です.

卒業研究などではこの過程に,1年以上かけますが,この講義では数ヶ月しか時間がとれません. そこで,少し妥協する必要があります.

本当に知りたいこと,本当にやりたいこと,本当に分析したいデータなどが,上手く使えればそれに越したことはありませんが,なかなか上手くは行きません.

研究の面白さは,自分の知りたいことを探求するところにあります.新しい対象を分析する場合には,データが存在しない,手法が存在しない場合があります.

この講義ではあくまでも,基本的な教養として,すでに存在する手法を用いて,一度自分で一通りの流れを体験してみることです.

残念ながらその意味でも,この講義で本当の研究ができるわけではありません.

データや手法の開発は,それ自体一生物の仕事になる場合もあるので,そういった自分自身の問を持っている人は是非,大学院に進んで研究者になりましょう.

この講義では,1年で0から行うので,

など一定の妥協をする必要があります(それでも半年で行うのはかなり大変です.)

これから,具体的な統計やデータサイエンスの手法を学習するので, 並行してできるだけ早くに,自分がこの講義で何をやるのかを決めていきましょう.

  1. この講義の過去の研究事例をどれか一つ読み,以下のことをそれぞれ一行程度の文章でスライド1枚にまとめてください.

    • 目的

      知りたいことは何か?

    • 手法

      どのような手法を利用したか(名称のみで構いません.)

    • データ

      どのようなデータか,データをどのように集めたか. データの種類は何か.

  2. 自分がこの講義で行う研究の,目的,手法,データ,どれでも良いので,3つ思いついたものをスライドにまとめてください.

    • デザインを入れるなど,きれいにまとめる必要はありません.議論のためのメモ帳として作成してください.

    • あとで補足,追加できるように1つのテーマにつき,1ページ使用してください.

    • 何かを調べた,読んだ,参考にした場合はその出典を書いておいてください.

      URL直張りでも構わないので,必ずあとで参照できる形でメモを残しておいてください.

    • 途中経過で構わないのでグループウェアの自分のチャネルにアップロードしてください.

    現時点では,実現が困難なものでも,不可能なものでも,つまらないものでも構いません,取り敢えず沢山やってみたいこと,興味のあることをまとめましょう.後ほど,その資料を元に,説明してもらい,ディスカッションします.

ce0f13b2-4a83-4c1c-b2b9-b6d18f4ee6d2