クロス集計結果のまとめ方について(学内のみ)
卒業研究ページ
立教大学 村瀬 洋一
複数の国がまざったデータは、1つの国に絞ってから分析する。以下にあるデータ分割の説明をよく読むこと。
卒業研究の課題について 村瀬の解説 (締め切りなど日付は2022年のもの)
・クロス集計をする時は、必ず適切なカテゴリー合併をする。
年齢別のクロス集計も必ず作る。回答者年齢は、2カテゴリー、3カテゴリー以上など、複数のものを作って、分析結果を表にすること。SPSSシンタックスや、その他のプログラムを用いて、カテゴリー合併をして新変数を作ること(値の再割り当て機能を使ってもよい)。シンタックスを使うと効率的にできる。SPSS上にてエラーが出た場合は村瀬他編『SPSSによる多変量解析』などのシンタックス注意点をよく読む。SPSSシンタックス内には、全角空白を入れないように注意する。また、命令文の最後はピリオドで終わることを理解する。ピリオドを付けすぎるとエラーになるが、その点に気をつければ、とくに難しくはない。
・分析結果は、以下の資料を参考に、適切な形式の表を作ること。分析ソフトの出力やSPSS出力の表をそのまま使ってはいけません。
100%が何人か分かる表にすること。縦%か横%のどちらか適切な方を書く。
表の中には%のみを書き人数は書かない。100%の人数のみを書くこと。資料にある表形式注意点をよく読む。
データ分析の資料★分析実習用の各種データ ★データ資料ページその3(学内のみ) 社会調査データは、このリンクをたどり「資料ページその3」の中にあるデータファイルなどを使ってください。あるいは他のものでもいいです。ただし、400人以上のサンプル数のある社会調査データを使うこと。47都道府県データや数十の国のデータなどは不可です。学内ホームページに家からアクセスするには、メディアセンターの、イントラ内アクセスの設定についての説明をよく読む。 クロス集計表の形式などについては、以下の資料を参照。適切な形式の表を作ること。クロス集計の結果をもとに自分で自由に結果を解釈し、文章を書けば良い。さらに高度な分析をやりたい人は、実習や多変量解析のテキストを読みつつやっても良いでしょう。資料を読み、シンタックスを書いて実行し、カテゴリー合併をしてから、クロス集計をすると良い。「SPSSシンタックスの基本」などをよく読むこと。
|
統計分析の解説PDF
|
◆クロス表とグラフ形式
見本エクセルファイル
これの表1か、男女別の横棒グラフの形式で、結果をまとめるとよい。
2 仮説に従って分析を行う。ただし、仮説は必ず因果関係を含む文にすること。原因と結果の関連を明確に書けばよい。必修科目での仮説構築や因果関係についての内容を復習するとよい。
3 村瀬研究室ホームページにある社会調査データファイルを用い、男女別、年齢別のクロス集計を行う。学歴や職業、その他の変数も必要に応じて用い、仮説に基づき分析する。データファイルは自分で検索して入手する等、他のデータファイルを用いてもよい。ただし、データアーカイブにデータファイル入手申請する時は時間がかかるので注意する。
4 年齢については、自分で分析ソフトを操作し、適切にカテゴリー合併を行うこと。また、自分がどのようにカテゴリー合併を行ったかレポート内で説明すること。必修科目で学んだ内容をやればよい。年齢については、2カテゴリーのものと、3カテゴリー以上の変数を、自分で作った上で、表を作ること。なお数十カ国のデータなど、国際比較データを使う時は、1つの国(あるいはいくつかの国)に絞った結果を出すこと。各国が混ざった結果を出しても意味がないので注意する。なお、何年の何というデータを使ったか、データの人数は何人かなどを明確に書くこと。また、主な変数については、どのような質問文かなど、読み手が分かるように書くこと。
5 村瀬研究室ホームページにあるクロス集計の資料を参考に、適切な形式のクロス集計表を作り、表内には、分析目的に応じて縦または横の%を書くこと。分析ソフトの出力の表をそのまま使ってはいけない。自分で適切な形式の表を作る。また、三重クロス集計によるエラボレイションを行い、関連係数を出し、変数間の因果関係について検討すること。
6 分析結果をどう解釈するか、各クロス集計表について自分の意見を数行でよいので自由に書く。クロス集計表は、エラボレイション以外に、5個以上を作ること。また、結論として自分が何を主張するか、レポートの最後に明確に書く。分析結果と関連させつつ、最後に自分の主張や意見を書けばよい。
7 レポート冒頭部では、自分のテーマと仮説に関する先行研究について、3つ以上の文献の要約を書くこと。関連する学術論文や学術書を自分で検索し、代表的なものについて書くこと。
グラフにしたい部分の数字や、回答選択肢の部分のセル結合を外しておく。セルの間に余計な空白行は入れない。そして、必要なセルの最小限を、マウスで選択し(合計や100%のセルは選択しない)、画面上「挿入」→おすすめグラフで、適切な形式のグラフを選択する(おすすめグラフ→「すべてのグラフ」タブ→横棒→左から3つめの形式)。男女別の集計結果ならば、足して100%になることが分かりやすい形式の横帯グラフにするとよい。グラフを作った後に、形を変えることができる。
・自分が作ったグラフをマウスで選択する(1回だけグラフをクリック)。
・画面の上に「グラフツール」が出る。
・その下に「グラフのデザイン」や「レイアウト」タブが出るので、グラフタイトルやデータラベルなどを選択し、タイトルなどを追加する。
・エクセルのバージョンによっては、グラフを選択した時に、グラフの右に+ボタンが出るので、それを押して、タイトルやデータラベルなどを追加する。書式タブなども必要に応じて使う。
・自分が以前作ったグラフや、見本エクセルファイルのグラフ形式を、テンプレートとして保存しておくとよい。その後、グラフを何か作ってから、グラフ種類の変更→すべてのグラフタブ→テンプレートで再利用できる。
1)分析したい変数を2つ選ぶ。その後、
「セル」ボタンを押し、列%などを選ぶ。
「統計」ボタンを押し、カイ二乗や相関係数やファイ係数を選ぶ。変数が3カテゴリー以上の時は、クラマーのV(質的変数)、タウBかタウC(量的変数)を選ぶとよい。3×3など正方形の表の時はタウBを使う。
2)「貼り付け」ボタンを押すと、シンタックス見本が出る。
関連係数は、有意水準が0.05未満なら、統計的に有意と考えて良い。有意水準(危険率)とは、分析結果として出てきた関連が実は誤差(ゼロ)である可能性である。慣例として、その危険が5%未満ならば、結果は統計的に意味があるとする。
★クロス集計表の形式は、見本のエクセルファイル表1か、あるいは原・海野『社会調査演習 第2版』2.4エラボレイションの表形式を参照。
★3重クロス集計のシンタックスを書くときは、tab行の一番最後にZ(第三変数)にあたる変数を書くと良い。シンタックスの中で、変数を書く順番に注意する。
クリックして操作するより、シンタックスを書いて実行した方が大量な分析を効率よくできる。シンタックスの使い方を覚えること。
例えば、国の変数がcountryならば、グループ化変数としてcountryを選び、「グループごとの分析」とする。データファイル自体が国別に分割される。その後に、クロス集計表などすること。国が混ざった結果を出しても意味がない。分割後のデータファイルを保存する時は、名前を変えて保存しておくこと。国を表す変数は、ISSP2017データではcountryである。データにより、V2やareaなど変数名は異なるので、データ画面で確認すること。値ボックスの右端をクリックすると、変数の値が表示される。
図1.3.データ画面での国の変数の内容を確認
シンタックスは、まず初めにデータ読み込み命令文(データファイルの場所とデータけた(カラム)指定文などのデータ定義文)を書く。その後、欠損値処理命令文や、データの加工文、分析命令文を書きます。
SPSS形式データがある場合は、データ読み込み命令文を使う必要はない。まずデータファイルを開き(あるいはデータ定義文を実行した後)、データを開いた状態で、SPSSのシンタックスウィンドウにて、以下のようなデータ加工や分析命令のシンタックスを自分で書いて実行する。
まずは、データを開いた状態で、見本シンタックスを開いて、すべて選択(ctrl+A)して実行(ctrl+R)すればよい。
/***** シンタックスによる分析命令文 *****/ /***** 例 単純集計の例 *****/ /***** 変数名を正確に書くこと *****/ /***** ピリオドは最後に1つだけつけること *****/ FRE VAR= Q6A Q10 Q33. /***** 例 2重クロス集計 縦%を出す例 ***/ /***** 変数名を正確に書くこと ***/ /***** ピリオドは最後に1つだけつけること ***/ /***** CEL行はCOUが実数、COLが縦%、rowが横% ***/ CRO /TAB = Q10 BY Q46SEX /STA = CHI PHI COR BTAU CTAU /cel = COL . /***** シンタックスによる変数の処理について *****/ /***** 例1 既存の変数Q10の4段階回答を2段階にする ***/ COMPUTE N10 = Q10 . RECODE N10 (1,2=1)(3,4=2) . MISSING VALUES N10 (9) . /***** 上記の1行目は、新変数名(新しい質問項目)として *****/ /***** N10を設定し、その中身をQ10と同じにしている。 *****/ /***** 新変数がN10ということを理解する。N10は好きな名前で良い*****/ /***** 2行目はリコード文でのカテゴリー合併 *****/ /***** 3行目は欠損値処理。無回答9を分析から除く処理 *****/ /***** 例2 Q46AGEという細かい変数(既存変数)をNENDAIという5段階の変数に変換 *****/ /***** クロス集計の時は、あまりカテゴリーが細かいと表が読みにくいので、カテゴリー合併をする *****/ /***** この例では、NENDAIが新変数名だということを、まず理解すること *****/ COMPUTE NENDAI =Q46AGE. RECODE NENDAI(10 THRU 29 =2)(30 THRU 39 =3)(40 THRU 49 =4) (50 THRU 59 =5)(60 THRU 98 =6) . /***** 例3 学歴を教育年数に変換する *****/ /***** 旧制の教育制度については原・海野(2004)p.204参照 *****/ COMPUTE EDU=Q43. RECODE EDU(1=6)(2=9)(3=12)(4=13)(5=14)(6=16)(7,9=99). MISSING VALUES EDU(99). /***** 例4 問33の変数(従業上の地位)をもとに、自営業ダミー変数を作成 *****/ /***** 問が6か7の場合に、自営業ダミー変数の値を1にする *****/ COMPUTE JIEI =0. IF (Q33=6) JIEI =1. IF (Q33=7) JIEI =1. /***** IF文の例 *****/ /***** 書式 IF (条件式) 条件があった場合の命令文 ピリオド *****/ /***** 例5 本人の従業上地位作成シンタックス *****/ /***** まず新変数jobstatsはQ33と同じ内容とする。その後RECODE文でjobstatsの内容を変更している *****/ /***** 次にIF文で、q34従業先規模が大きい場合、q36で4課長相当の人を管理職にする *****/ /***** 次にIF文で、q34従業先規模が大きい場合、q36で5部長相当の人を管理職にする *****/ /***** 次にIF文で、q34従業先規模が小さい場合、q33で1経営者・役員を自営業にする *****/ Compute jobstats= q33. RECODE jobstats (1=1)(2=3) (3,4,5=4)(6,7=5)(else=9). IF ((q34>5) and (q36 = 4)) jobstats=2. IF ((q34>5) and (q36 = 5)) jobstats=2. IF ((q34<6) and (q33 = 1)) jobstats=5. VALUE LABELS jobstats 1 '経営者' 2 '管理職' 3 '常時雇用' 4 '非正規雇用' 5 '自営・家族従業者' 9 '無職' . ★これを実行するとN3ができるが、何もおきない。このあとに、N3を使ったクロス集計など分析をするとデータの最後に変数N3が作られる。 ★変数名や、RECODEを RECORD など間違えると、エラーが出るので、シンタックスを修正する。 自分で書いたシンタックスを保存しておくこと。 ★大文字と小文字はこだわらなくてよい。空白は見やすいように入れる。 ただし文中に全角空白があるとエラーになるので注意。空白があってもなくても、ピリオドまでが1文として実行される。 /***** 例6 問2Bの変数の回答を逆転。N2Bが逆転した新変数だということを理解する *****/ Compute N2B=5-Q2B. /***** 例7 問7Aと問7Bの回答内容を足して、合計得点の新変数NEW7を作成する *****/ Compute NEW7=Q7A+Q7B. /***** 例8 データの分割 *****/ /***** 国を表す変数countryによりデータファイルを分割する *****/ /***** 分割後に分析すると国ごとに結果が出る *****/ SORT CASES BY country. SPLIT FILE SEPARATE BY country. /***** 例9 3重クロス集計の例 *****/ CRO /TABLES=Q2A BY Q10 BY Q46SEX /STA = CHI PHI COR BTAU CTAU /CEL = COL . /***** 例10 カテゴリー合併 年齢三段階の新変数作成 ***/ COMPUTE NEN3 =Q46AGE. RECODE NEN3 (10 THRU 39 =3)(40 THRU 59 =5)(60 THRU 97 =7). VALUE LABELS NEN3 3 'under39' 5 'under59' 7 'over60' . /*** 例11 新旧変数のクロス集計で分布を確認 ***/ CRO /TAB = NEN3 BY Q46AGE. /***** 例12 カテゴリー合併 *****/ /***** はじめに新変数としてEDUCT4を設定している *****/ /***** 新変数名は何でも好きな名前で良い *****/ /***** 1〜9までの9段階の変数を4段階に変更している例 *****/ /***** 旧制の教育制度については原・海野(2004)p.204参照***/ COMPUTE EDUCT4 =Q43. RECODE EDUCT4 (1,2,3=1)(4=2)(5=3)(6=4)(7,9=9). MISSING VALUES EDUCT4 (9). VALUE LABELS EDUCT4 1 '高卒以下' 2 '専門学校' 3 '短大高専' 4 '大卒以上' 9 'わからない' . /***** 例13 既婚ダミー変数作成 ***/ COMPUTE MADMY =0. IF (Q28 =1) MADMY =1. MISSING VALUES MADMY (9). /***** 例14 非正規雇用ダミー変数作成 ***/ /***** 臨時雇用、アルバイト、派遣、嘱託、契約社員などはすべて非正規とする ***/ compute HISEIKI = 0. if (Q33 =3) HISEIKI = 1. if (Q33 =4) HISEIKI = 1. if (Q33 =5) HISEIKI = 1. if (Q33 =8) HISEIKI = 1. /***** シンタックスによる分析命令文 *****/ /*** 例15 平均値折れ線グラフ ***/ ONEWAY Q6A Q6B edu BY nendai /PLOT MEANS /STA DES. ★BYの後は、説明変数になるものを1つだけ書く。前は、複数の変数を書いても良い。 onewayは、一元配置分散分析をせよ、という命令文(変数nendaiごとの平均値の例) PLOT文で平均値の折れ線グラフを出す。 STA文で基本統計量を出す。年代ごとの平均値など出すと便利。 例11のように逆転した新変数の平均値を出した方が分かりやすいことがある。 例12のように合計得点の平均値を出してもよい。 年代など各カテゴリーの人数は度数分布を見て事前に確認しておく。 /***** 例16 欠損値を除いてデータ人数を減らす *****/ /***** AMOS使用前に人数を減らしたデータを作り保存しておくこと***/ SELECT IF age < 99. SELECT IF edu ne 99. SELECT IF Q1 ne 99. SELECT IF livrate < 2. SELECT IF Q2A <9. SELECT IF Q2B <9. SELECT IF PROPERTY <99. SELECT IF FAMILYNO <9. SELECT IF TYONAI <9. SELECT IF YAKUNIN <9. /*** その他のシンタックス見本 変数名は調査によって異なる ***/ /*** 全角空白や全角のかっこやピリオドがあるとエラーになる ***/ /*** 行末にピリオドがない、ピリオドをつけすぎなどもエラーになるので注意 ***/ /***** 例17 個人収入と世帯収入を万円に直す *****/ compute incomei = q48i. recode incomei (1=0) (2=50) (3=110) (4=200) (5=300) (6=400) (7=500) (8=600) (9=700) (10=800) (11=925) (12=1100) (13=1300) (14=1500) (16=1700). compute incomeh = q48h. recode incomeh (1=0) (2=50) (3=110) (4=200) (5=300) (6=400) (7=500) (8=600) (9=700) (10=800) (11=925) (12=1100) (13=1300) (14=1500) (16=1700). /***** 例18 財産保有項目の合計値の新変数property *****/ compute property = Q32_01+Q32_02+Q32_03+Q32_04+Q32_05+Q32_06+Q32_07+Q32_08+Q32_09+Q32_10+Q32_11+Q32_12+Q32_13+Q32_14. /***** 例19 性別ダミー *****/ select if Q46SEX < 9. compute sexdmy =0. if (Q46SEX=1) sexdmy =1. IF (Q46SEX=9) sexdmy =9. missing values sexdmy(9). /***** データチェック 値が0という人のIDを出す ***/ compute ch1 =0. if (q34 =0) ch1 =ID. /***** 福島市2015年調査 *****/ /***** ガス停止無回答を0日に *****/ /***** 直前の3問で無回答の人はガス停止日数を無回答でなく値を0にする*****/ COMPUTE Q5ch1 =0. IF ((Q5EL ne 99) and (Q5WA ne 99)) Q5ch1 =1. COMPUTE Q5ch2 =0. IF ((Q5ch1=1) and (Q5FL ne 99)) Q5ch2 =1. COMPUTE Q5GA2 =Q5GA. IF ((Q5GA=99) and (Q5ch2=1)) Q5GA2 =0.より詳しくは、参考文献か、 「応用調査実習」ホームページを見てください。
あるいは 「練習用データのページ」(学内のみ)の最後の解説を参照。
・データのあるドライブ名、フォルダ名はあっているか。CドライブをHと書いた等
・変数名はあっているか。Q6AをQ6と書いた、Q1AをQ01Aと書いた等
・単純なスペルのミス。例えば、RECODEと書くべきところを RECORDと書いた等
・最後にピリオドをつけるのを忘れた。あるいは途中で余計なピリオドをつけた。
・シンタックスの中に全角スペースがあると、エラーが出て止まるので注意!
Hドライブの場合は、H:と書く。\ マークで区切ってフォルダ位置を書く。
RECORDS=2は1人分が2行のデータの場合。この後に桁指定文を書きピリオドを書く。その後に、リコード文や、各種の分析命令文を書けばよい。
この後に桁指定文はいらない。この後にリコード文や分析命令文などを書く。
その他、
・シンタックス内では、大文字と小文字は区別されない。
・シンタックス内では、半角space、改行、tabは区別されない。ピリオドがあるまで1文として処理される。
参考リンク
ワード画面で挿入 → オブジェクトを選ぶ
挿入するのはエクセルワークシート
ワード画面上の「罫線」をクリックすると表になってしまうので、線だけを引きたいときは以下のようにする。
・ワードの画面上「挿入」をクリック
・図形 → 線を選択し、マウスで線を引く書いた線や図を微調整したいときは、書いた線や図を右クリックして「図形の書式設定」を選ぶ。線の太さや矢印種類などを変更できる。
二乗などの、小さい2を書きたいときは、2を書いてからマウスで字を選んで右クリックし「フォント」を選ぶ。「文字飾り」の中の上付ボックスをチェックする。
All Rights Reserved, Copyright(c), MURASE,Yoichi
ご意見、お問い合わせは、お気軽に E-mail : murase○ rikkyo.ac.jp