- Đối với các bài toán NLP (xử lý ngôn ngữ tự nhiên) thì điều quan trọng nhất vẫn là xử lý data. Ở trong file data
real_estates.xlsx
thì sẽ thấy khá nhiều các từ dính liền, từ không dấu nhưng có nghĩa, emoji, icons, urls, email lẫn lộn. Nếu cứ để đó mà train mô hình n-gram thì không ổn. Nên phải xử lý trước. Thì xử lý dữ liệu là nằm trong filepreprocessing_data.ipynb
. Chạy file đó xong sẽ có một file tên làreal_estates_preprocesed.txt
. File này chính là đoạn text đã được ghép lại và xử lý qua. - Xong phần xử lý thì đến phần training language model n-gram. Thì trong hướng dẫn ở link https://viblo.asia/p/language-modeling-mo-hinh-ngon-ngu-va-bai-toan-them-dau-cau-trong-tieng-viet-1VgZveV2KAw, tác giả đã nói đến Statistical Language Model, là tính xác xuất xuất hiện của một bộ từ (w_1...w_n), cái này thì chắc chắn sẽ ổn, vì thường các bộ w như thế sẽ giống văn viết hơn, và model sẽ học được từ văn viết đó. Một hướng tiếp cận cụ thể của statistical language model là N-gram language model, nghĩa là giới hạn lại n, trong bộ (w_1...w_n), và tính xác xuất có điều kiện của bộ này, dựa trên các bộ nhỏ hơn như là (w_1...w_n-1). Cái này thì đã có code dựa theo link trên đó, ở trong file
n_gram_model.ipynb
. - Để sử dụng được data và các notebook thì phải giải nén thư mục
datasets.zip
ra trước.
tuanio/real-estates-recommend-search
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
About
No description or website provided.
Topics
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published