皆さん,英語の試験は好きでしょうか?私は嫌いです.
今回は英語の試験における英単語の出現頻度について調べてみようと思います.
具体的には2004年から2023年に出題された20年分の大学入試共通テスト(センター試験)における英単語の出現頻度を調べました.
文章の解析にはPythonを利用しました.
使用したコードはこちら
単語出現回数カウントのサンプルはこちら→単語出現回数カウンター
英語の試験対策に役立つような情報は特にないと思いますので,試験勉強の合間の息抜き程度にご覧ください.
【関連ページ】大学入試共通テストの英単語出現回数を調べる (自然言語処理ライブラリ使用版)
Spacyによる自然言語を利用したバージョンはこちら
【関連ページ】大学受験に必要な英単語数を調べてみた
二次試験に関して調べたものはこちら
過去20年分の大学入試共通テストにおいて出現した単語の数は5053単語. 最近10年で出現した単語は3812単語,最近5年では2632単語でした.
出現回数の多い単語トップ100の表が以下の通りです. to, of, in などの前置詞や the, a, anのような冠詞,I, You, Weなどの人称代名詞が特に多く目立ちます.
こちらのサイトで紹介されている70の前置詞について出現頻度を表にしました.
頻繁に出現する100位までに18個の前置詞がランクインしています.
頻出する前置詞についてしっかりと理解していないと文章の理解に支障をきたしそうです.
分かりやすそうな前置詞の一覧があったのでついでに紹介しておきます.
前置詞とは?35種類をイラストで徹底解説!使い分け方も伝授【中学英語】
11の助動詞の出現頻度の表です. shall以外の10個の助動詞は出現頻度が高く300位以内にランクインしています. used to, have to, ought to なども含めてよく出てきそうです.
助動詞,前置詞に加えて冠詞,人称代名詞を取り除いた単語の出現頻度が以下の表です. 基本的な単語や過去形などの被りが多い気がします. 今回はやりませんが,品詞の解析をして動詞,名詞で分けて表にしたほうが面白そうです.
出現頻度上位200位までの単語の出現回数をグラフにしたのが以下のグラフです. 単語の出現頻度は指数関数的に減少するようです.
一度出現した単語は同一年度,特に同じ文中に複数回出現することが考えられます. 単語が出現した年を数えることで出現頻度を調べたのが以下のグラフです. 出現頻度2回以上が2200語程度,3回以上が1400語程度,6回以上が550語程度でした.
今回,分析に使用した長文の語数は36159語でした. 1回の試験で2000語の英文を読むとすると,出現回数がn回の単語と遭遇する確率は 1-(1-(n/36159))**2000 です. 出現数30回以上の頻繁に出現する単語との遭遇確率は約80%,20回で約67%,10回で約42%でした. 出現頻度の少ないほうでは1, 2, 3, 4回でそれぞれ約 5, 10, 15, 20%となります.
出現頻度の多い単語から順番に覚えていく場合にどの程度 英文が読めるようになるかを考えます. 実際は文章の理解度を考えるには,文中における単語の重要度や英文法・構文理解が必要となりますが, 今回は単純に,文中に占める知っている単語の割合を文章の理解率として考えます. 1単語ずつ読んでいった場合,その単語を知っている確率と暗記している単語の数のグラフが以下です.
今後は品詞の解析をして単数・複数を区別しない,動詞の時制の変化を区別しないことでより正確に文章の分析をしてみたいと思います.
機会があればTOEICや二次試験に関しても調べてみたいと思います.
大学入試共通テストの英単語出現回数を調べる (自然言語処理ライブラリ使用版)で品詞判定や見出し語に修正して集計しました.
大学受験に必要な英単語数を調べてみたで二次試験に関して調べました.