大学受験に必要な英単語数を調べてみたで使用した単語の出現回数を調べるコードを紹介します.
本質的な部分だけですが,以下のコードでファイルを読み込んで単語,見出し語,品詞を出力します.
【関連ページ】
大学受験に必要な英単語数を調べてみた
大学受験英語 頻出熟語ランキングを作ってみた
大学入試共通テストの英単語出現回数を調べる (自然言語処理ライブラリ使用版)
【関連ページ(外部)】
spaCyについてはこちら→spaCy
コードの例はこちら→Natural Language Processing With spaCy in Python
利用できるタグの一覧はこちら→List spaCy Tags
import spacy
import pathlib
nlp = spacy.load("en_core_web_sm")
file_name = "test.txt" # ファイルのパスを指定
doc = nlp(pathlib.Path(file_name).read_text(encoding="utf-8"))
sents = list(doc.sents)
for doc in sents:
for token in doc:
lemma = token.lemma_ # 見出し語(原形)
lemma = lemma.lower() # 小文字に統一
tag = token.tag_ # 単語の品詞
print(f"単語:{token}, 見出し語:{lemma}, 品詞:{tag}")
print("========================")