スプレッドシートを使用したデータ整理


Figure 1

スプレッドシートとREADME.txtファイルのスクリーンショット
スプレッドシート設定例

Figure 2

一つの列にABO型とRh因子が混在して記録された表
単一列に複数の変数を混在させた例

Figure 3

ABO型とRh因子がそれぞれ別の列に記録された表
各変数を別々の列に配置した例

Figure 4

サブテーブルが多数存在するシートの例
サブテーブルが多数存在するシートの例

Figure 5

論文から抜粋した、一般的に使用されているnull値を示す表
一般的に使用されているnull値の例

Figure 6

サンプル汚染を示すために黄色で強調表示された複数のセルを示す表
情報符号化に使用される色の例

Figure 7

上記と同じ表に、汚染を示す新しい変数を追加したもの
サンプル汚染を符号化する新しい変数

Figure 8

MacOSでExcelデータをCSV形式でエクスポートするメニュー
ExcelファイルをCSV形式で保存する方法

Figure 9

セル内にカンマが含まれるために正しくインポートされなかったデータの例。該当セルは2つのセルに分割されている
カンマを含む区切りデータを読み込む際の問題点

Figure 10

データ変換・可視化・モデリングを繰り返すデータ分析のサイクル。tidyデータ分析の概念図
典型的なデータ分析ワークフロー

RとRStudio


Figure 1

2000年から2018年までのCRANパッケージ数の指数関数的増加を示す2つのグラフ。右側のグラフはパッケージ数の対数に対する線形トレンドを示しています。
CRANで利用可能なパッケージ数の指数関数的増加。『R Journal』第10巻第2号(2018年12月)より。2000年から2018年までのCRANパッケージ数の指数関数的増加を示す2つのグラフ。右側のグラフはパッケージ数の対数に対する線形トレンドを示しています。

Figure 2

典型的な4パネル構成のRStudioインターフェースを示すスクリーンショット
RStudioインターフェースのスクリーンショット。左上から時計回りに、ソース、環境/履歴、ファイル/プロット/パッケージ/ヘルプ/ビューア、コンソールの各パネルを表示。

Figure 3

RStudioの一般オプションパネルのスクリーンショット
終了時にワークスペースを.RDataに保存する設定を「しない」に設定

Figure 4

RStudioのコードオプションパネルのスクリーンショット
今後のトラブルを防ぐため、デフォルトのテキストエンコーディングをUTF-8に設定します。(上記リンクの図を参照)

Figure 5

典型的なRStudioプロジェクトにおける作業ディレクトリと各種ディレクトリの構造を示すフロー図
作業ディレクトリの構造例

Figure 6

RStudioのファイルパネルのスクリーンショット
本レッスン開始時の理想的な作業ディレクトリの状態

Figure 7

Noble et al. (2009)による複雑なバイオインフォマティクスプロジェクト構造を示す図
サンプルバイオインフォマティクスプロジェクトのディレクトリ構造

Figure 8

子猫の写真を使用した架空の書籍カバー。「Changing Stuff and Seeing What Happens.」のタイトル付き

Figure 9

RStudioヘルプパネルのスクリーンショット
RStudioヘルプインターフェース

R の紹介


Figure 1

Two normal distributions: *N(0, 1)* on the left and *N(100, 5)* on the right.
Two normal distributions: N(0, 1) on the left and N(100, 5) on the right.

データから始める


Figure 1

異なる色で表現された列と変数タイプを示す表形式構造の模式図
データフレームの概念的表現

Figure 2

「男性」と「女性」の出現回数を示す棒グラフ
女性と男性の数を示す棒グラフ

Figure 3

「M」と「F」の出現回数を示す棒グラフ

dplyrによるデータの操作と分析


Figure 1

図は左側がロング形式、右側がワイド形式のテーブルを示しており、左側の'sample'列の値が右側の列名に、左側の'expression'列の値が右側の列値に変換される過程を矢印で示しています。以下は'pivot_wider()'関数の呼び出し例で、'sample'と'expression'引数に対応する注釈を付けています
rnaデータのワイド形式への変換例

Figure 2

図は左側が縦長形式、右側が幅広形式を示しており、矢印は左側の列名が新しい列'sample'として変換され、右側の値が新しい列'expression'として変換される過程を表しています。以下は'pivot_wider()'関数の呼び出し例で、'sample'、'expression'、および'-gene'引数に注釈を付けています
rnaデータの縦長変換例

Figure 3

X染色体とY染色体を行名、FemaleとMaleを列名とした2×2の表。各X/YおよびFemale/Maleの組み合わせごとの合計カウント数を示しています。Y/Femaleの組み合わせは3カウントで、その他の組み合わせはすべて2000カウントを超えています

データの可視化


Figure 1

ggplot()とgeom_histogram()で生成したexpressionデータのデフォルトヒストグラム

Figure 2

ビン幅15の場合(上)とビン幅2000の場合(下)におけるggplot()とgeom_histogram()で生成された発現データのヒストグラム

Figure 3

ビン幅15の場合(上)とビン幅2000の場合(下)におけるggplot()とgeom_histogram()で生成された発現データのヒストグラム

Figure 4

事前に計算した発現量の対数値に基づくヒストグラム(ggplot()とgeom_histogram()で生成)

Figure 5

発現量の対数に対する ggplot()、geom_histogram()、および scale_x_log10() で生成されたヒストグラム

Figure 6

上記で計算した対数2倍変化を比較する散布図。すべての点は黒色で表示されます

Figure 7

上記で計算した対数2倍変化を比較する散布図。すべての点は半透明の黒色で表示されます

Figure 8

上記で計算した対数2倍変化を比較する散布図。すべての点は半透明の青色で表示されます

Figure 9

上記で計算した対数2倍変化を比較する散布図。点の色は遺伝子のバイオタイプに基づいて色分けされています

Figure 10

上記で計算した対数2倍変化を比較する散布図。点の色は遺伝子のバイオタイプに基づいて色分けされています

Figure 11

上記で計算した対数2倍変化を比較する散布図。点の色は遺伝子のバイオタイプに基づいて色分けされています。原点を通る傾き1の黒色の直線がgeom_abline()によって追加されています

Figure 12

Scatter plot produced by ggplot() and geom_point() comparing the log-foldchanges computed above. Dots are colour-coded based on the gene's biotype. A black line of slope 1 crossing the origin was added by geom_abline().

Figure 13

Scatter plot produced by ggplot() and geom_hexbin() comparing the log-foldchanges computed above shows hexagons coloured based on the underlying dot density. A black line of slope 1 crossing the origin was added by geom_abline().

Figure 14

Figures showing a stretch of overlapping points indicating the log of expression + 1 for each sample. The points are coloured with different shades of blue for samples collected at different time points.

Figure 15

geom_boxplot()によって生成された各サンプルの対数変換発現量+1値の分布を示す箱ひげ図。各箱ひげ図は白色で塗りつぶされています。

Figure 16

geom_boxplot()によって生成された各サンプルの対数変換発現量+1値の分布を示す箱ひげ図と点プロット。各箱ひげ図は半透明で、ジッター処理された点プロットは半透過のトマト色で表示され、箱ひげ図の背面に配置されています。

Figure 17

Boxplot and dots showing the distribution of log expression + 1 values for each sample, as produced by geom_boxlpot(). Each boxplot is transparent and the jittered dots are semi-transparent tomato-coloured. This time, the boxplots are behind the dots.

Figure 18

Boxplot and dots showing the distribution of log expression + 1 values for each sample, as produced by geom_boxlpot(). Each boxplot is transparent and the jittered dots are semi-transparent tomato-coloured. The sample labels are displayed vertically and readable.

Figure 19

Boxplot and dots showing the distribution of log expression + 1 values for each sample, as produced by geom_boxlpot(). On the first figure, each boxplot is transparent and the jittered dots are semi-transparent and coloured in different shares of blue. On the second figures, each boxplot is transparent and the jittered dots are semi-transparent and coloured red, green and blue.

Figure 20

Boxplot and dots showing the distribution of log expression + 1 values for each sample, as produced by geom_boxlpot(). On the first figure, each boxplot is transparent and the jittered dots are semi-transparent and coloured in different shares of blue. On the second figures, each boxplot is transparent and the jittered dots are semi-transparent and coloured red, green and blue.

Figure 21

Violin plot showing the distribution of log expression + 1 values for each sample, as produced by geom_violin(). Each boxplot is transparent and the jittered dots are semi-transparent and coloured red, green and blue.

Figure 22

Violin plot showing the distribution of log expression + 1 values for each sample, as produced by geom_violon(). Each violin plot is coloured in red or blue depending on the sex variable.

Figure 23

geom_line()で生成した折れ線グラフですが、実際のデータが期待通りの傾向を示していません

Figure 24

geom_line()で生成した折れ線グラフで、10本の線がそれぞれ異なる遺伝子の時間経過に伴う発現量の増加を示しています

Figure 25

geom_line()で生成した折れ線グラフで、10本の色分けされた線がそれぞれ異なる遺伝子の時間経過に伴う発現量の増加を示しています

Figure 26

geom_line()で生成した折れ線グラフで、10個のサブプロット/面分割があり、それぞれが時間経過に伴う発現量の増加を示す1本の線を表示しています。すべてのy軸スケールは同一です

Figure 27

geom_line()で生成した折れ線グラフで、10個のサブプロット/面分割があり、それぞれが時間経過に伴う発現量の増加を示す1本の線を表示しています。各面分割/遺伝子ごとにy軸スケールが発現量の範囲に合わせて調整されています

Figure 28

geom_line()で生成した折れ線グラフで、10個のサブプロット/面分割があり、それぞれが時間経過に伴う発現量の増加を示す2本の色分けされた線(メスは赤、オスは青)を表示しています

Figure 29

geom_line()で生成した折れ線グラフで、10個のサブプロット/面分割があり、それぞれが時間経過に伴う発現量の増加を示す2本の色分けされた線(メスは赤、オスは青)を表示しています。図の背景が白になっています

Figure 30

Line plot, as produced by geom_line(), with 21 sub-plots/facets, each showing one line with expression values over time for each chromosome.

Figure 31

2つの折れ線グラフが上下に配置され、それぞれ遺伝子ごとに10本の線が色分けされています。上部のサブプロットは女性サンプルの発現値を、下部のサブプロットは男性サンプルの発現値を示しています

Figure 32

2つの折れ線グラフが左右に配置され、それぞれ遺伝子ごとに10本の線が色分けされています。左側のサブプロットは女性サンプルの発現値を、右側のサブプロットは男性サンプルの発現値を示しています

Figure 33

白背景の折れ線グラフで、カスタムタイトルと軸ラベルが表示されています

Figure 34

白背景の折れ線グラフで、カスタムタイトルと軸ラベルのフォントサイズが拡大されています

Figure 35

白背景の折れ線グラフで、カスタムタイトルと軸ラベルのフォントサイズが拡大され、グリッドが青色になっています

Figure 36

theme_bw()と空白のグリッド上に生成されたシンプルな面グラフ付き折れ線プロット

Figure 37

theme_bw()と幅広のグリッド線を使用したシンプルな面グラフ付き折れ線プロット

Figure 38

theme_bw()と名称変更された色ラベルを使用したシンプルな面グラフ付き折れ線プロット

Figure 39

異なるカラーパレットと名称変更された色ラベルを使用したtheme_bw()と空白のグリッド上のシンプルな面グラフ付き折れ線プロット

Figure 40

手動で設定した色と名称変更された色ラベルを使用したtheme_bw()と空白のグリッド上のシンプルな面グラフ付き折れ線プロット

Figure 41

染色体ごとの遺伝子数を対数10スケールで表示したシンプルなヒストグラム(棒グラフ)

Figure 42

異なる時間ポイントにおける雌雄別の発現値を示す、透明度を持たせた赤と青の箱ひげ図

Figure 43

左側にヒストグラム、右側に箱ひげ図を配置した合成図

Figure 44

上部にヒストグラム、下部に箱ひげ図を配置した合成図

Figure 45

上部にヒストグラム、下部に箱ひげ図を配置した合成図

Figure 46

上部にヒストグラム、中央にヒストグラムと箱ひげ図の組み合わせ、左右に並べて表示、下部に箱ひげ図を配置した4プロット構成の図

Figure 47

上記と同様、上部にヒストグラム、中央にヒストグラムと箱ひげ図の組み合わせ、左右に並べて表示、下部に箱ひげ図を配置した4プロット構成の図

Figure 48

左側にヒストグラム、右側に箱ひげ図を配置した合成図

Figure 49

左から右へ、対角線上に20個の空の点、その上に垂直な赤色の線、さらにその上にプロット中央の長方形を重ねた「基本」グラフィックスの比較図
順次重ね合わされるレイヤー

Figure 50

上部に2つのボックスプロット、下部に2つのヒストグラムを配置した2×2の構成図
ボックスプロット(上)とヒストグラム(下)をベクトルデータ(左)または行列データ(右)で作成する例

次のステップ


Figure 1


Figure 2