您可以使用
wordsNLTK的语料库:
import nltkwords = set(nltk.corpus.words.words())sent = "Io andiamo to the beach with my amico."" ".join(w for w in nltk.wordpunct_tokenize(sent) if w.lower() in words or not w.isalpha())# 'Io to the beach with my'
不幸的是, 艾奥 恰好是一个英语单词。通常,可能很难确定一个单词是否为英语。



