Natural Language Toolkit (NLTK): Thư viện cơ bản để tiền xử lý ngôn ngữ tự nhiên
NLTK (Natural Language Toolkit)
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
# Tải dữ liệu cần thiết
nltk.download('punkt')
nltk.download('stopwords')
# Văn bản mẫu
text = "Natural Language Processing with Python is powerful and fun."
# Tiền xử lý
tokens = word_tokenize(text.lower())
stop_words = set(stopwords.words('english'))
filtered_tokens = [w for w in tokens if w.isalpha() and w not in stop_words]
stemmer = PorterStemmer()
stemmed = [stemmer.stem(word) for word in filtered_tokens]
print(stemmed)PreviousPhần 4: Xử Lý Ngôn Ngữ Tự Nhiên (NLP)NextspaCy: Thư viện NLP nhanh và mạnh mẽ, hỗ trợ nhiều ngôn ngữ
Last updated
