so sánh 2 văn bản trong python

NguyenvanLinh

em có bài tập là so sánh tìm xác xuất độ giống nhau giữa 2 văn bản. mn có thể cho e hướng làm vs được ko ạ.

sonnh

NguyenvanLinh Hi em em cần vector hoá 2 văn bản đó rồi sau đó có thể tính khoảng cách bằng thuật toán tìm khoảng cách giữa 2 vector bằng khoảng cách eclip hoặc cosin.
khoảng các eclip thì khá đơn giản giống việc tính khoảng cách giữa 2 điểm hồi học cấp 3 đó.
Ngoài ra có 1 số thuật toán khác nếu chưa giải quyết được vấn đề của em thì em cứ comment nhé anh sẽ hỗ trợ

sonnh

Đầu tiên cần cài thư viện ví dụ trên linux ubuntu

Open terminal(Linux).
sudo pip3 install nltk
python3
import nltk
nltk.download(‘all’)

Trên windows thì
python -m pip install nltk
hoặc pip install nltk

# Program to measure similarity between  
# two sentences using cosine similarity. 
from nltk.corpus import stopwords 
from nltk.tokenize import word_tokenize 
  
# X = input("Enter first string: ").lower() 
# Y = input("Enter second string: ").lower() 
X ="I love horror movies"
Y ="Lights out is a horror movie"
  
# tokenization 
X_list = word_tokenize(X)  
Y_list = word_tokenize(Y) 
  
# sw contains the list of stopwords 
sw = stopwords.words('english')  
l1 =[];l2 =[] 
  
# remove stop words from string 
X_set = {w for w in X_list if not w in sw}  
Y_set = {w for w in Y_list if not w in sw} 
  
# form a set containing keywords of both strings  
rvector = X_set.union(Y_set)  
for w in rvector: 
    if w in X_set: l1.append(1) # create a vector 
    else: l1.append(0) 
    if w in Y_set: l2.append(1) 
    else: l2.append(0) 
c = 0
  
# cosine formula  
for i in range(len(rvector)): 
        c+= l1[i]*l2[i] 
cosine = c / float((sum(l1)*sum(l2))**0.5) 
print("similarity: ", cosine)

Kết quả chúng ta thu được

similarity:  0.6666666666666666

NguyenvanLinh

nếu em so sánh ngôn ngữ tiếng việt thì làm ntn ạ?