大学受験に必要な英単語数を調べてみた
今回は大学受験において必要な英単語の語数を調べてみたいと思います.
大学入試共通テストに出現する単語数を調べるときに使ったコードを旧帝国大学 + 一橋大学の20年分の過去問に対して使うことで
大学受験において必要な英単語の数を調べます.
受験の役に立つ情報と言うよりかは,データ分析の題材が大学受験というだけなので受験勉強の合間の息抜き程度にご覧ください.
- 集計方法
- 出現した単語数 ~大学別~
- 大学入試共通テストと二次試験の比較
- 覚える必要のある単語数
- 本当に6400語で足りるのか
- 語彙レベル診断
集計方法
単語の集計は以下の通り行います.
- 過去20年で出題された大学入試共通テスト(センター試験) + 旧帝国大学 + 一橋大学の長文(会話文は除く)から集計します.(一部データ欠損あり)
- 1つの大問で複数回出現した場合も1回の出現として集計します.
- 出現した単語の集計は見出し語(原形)に直して行います.
- 固有名詞などを削除するために英和辞典に載っていない単語は集計しません.
※ 4については一部の人名・地名などが除去しきれていません.
出現した単語数 ~大学別~
大学別の分析に使用した長文の語数,出現した単語数,高校程度の単語数,高校程度の単語の割合
,文全体における高校程度の単語の割合の表が以下の通りです.(中学卒業程度の単語以外を高校程度としています.)
二次試験で出題されている長文の長さは大学によって差があるものの,出現した単語に占める高校程度の単語の割合や文中に占める高校程度の単語の割合はあまり差がありません.
表から共通テストでは難関大学の二次試験と比較すると文章の長さこそ長いものの平易な文章が出題されているように考えられます.
全体では出現した単語は9179単語でした.
大学入試共通テストと二次試験の比較
大学入試共通テストと二次試験で出た単語についてベン図にしたものが以下の通りです.
中学卒業レベルの基本的な単語を除外したものが以下の通りです.
ここで注意しておきたいのが,共通テストの方が長文の分量が多いにも関わらず出現する単語数は二次試験と変わらない もっと言えば,中学卒業レベルの
基本的な単語を除けば共通テストの方が単語数が少ないということです.
共通テストの方が読みやすい文章が出ているという体感に合致する結果になりました.
また,共通テスト,東大,京大,一橋に関して,それぞれ過去20年間で出現した単語を出現頻度順に覚えていく場合を考え,文章をY%理解するために必要な単語数Xのグラフが以下の通りです.
同じ単語数の学習でも二次試験の方が理解できる割合が低く難しいことが分かります..
覚える必要のある単語数
全体で出現した単語数は先述した通り9179語でした.
しかし,単語の出現回数の分布を見てみると半数以上の単語が438の長文のうち2問以下でしか出現していないことが分かります.
1回しか出現していない単語を見てみるとpaleontologistやquarrelsome, irrevocablyなどの覚える必要のなさそうな単語がたくさんあることが分かります.(中学卒業レベルのambulance, chestなども入ってはいます)
受験勉強に充てられる時間は限られていますから,目標点を取るのに必要最小限の単語に絞り込んで学習の負担を減らしたいです.
出現頻度順に単語を覚えていく場合を考え,文章をY%理解するために必要な単語数Xのグラフが以下の通りです.
ただし,中学卒業レベルの単語は既に覚えているものとします.
2000語で今回分析に使用した長文の95%,2500語で96%,3200語で97%,4100語で98%の単語を理解できるようです.
ここでは中学卒業レベルの単語(約2300語) + 4100語の計6400語が難関大学の受験に必要な単語数と結論付けておきます.
本当に6400語で足りるのか
本当に6400語で足りるのかを確かめるために6400語で 東工大(※) + その他の国立大学 の長文をどの程度理解できるのかを以下の表にまとめました.
共通テスト + 旧帝大 + 一橋 の20年分のから考えた単語学習で未知の英文を読んだ場合でも96%程度は理解できるようです.
(※) 東工大は総語数43610で最多,文中に占める高校程度の単語の割合が唯一の20%台でしたので長文に出現する単語の観点から評価すると今回扱った大学の中で最も難しい試験になります.
語彙レベル診断
今回分析した共通テスト + 二次試験(神戸大・横国などを含む15校)の過去20年分のデータを使って,語彙レベル診断を作ってみました.
日本語訳には機械翻訳を利用しているためカタカナ英語や翻訳の誤りがあります.
英語語彙力診断
おわりに
データをすべて使ってしまった旧帝大や一橋に関してはなんとも言えませんが,
おそらく来年度以降に出題される文章に対しても4100語を知っていれば96%程度の理解ができるのではないかと思います(?).
2020年までのデータで必要な単語数について考え,2021年~2023年のデータで評価するなどすればスマートにできた気がしますが,今回のところはこれで良しとしようと思います.