Paper “An Empirical Study of Discriminative Sequence Labeling Models for Vietnamese Text Processing” (KSE 2017)

138

Paper “An Empirical Study of Discriminative Sequence Labeling Models for Vietnamese Text Processing” đăng trong kỉ yếu của hội nghị KSE 2017, trình bày một nghiên cứu thực nghiệm về hai mô hình gán nhãn chuỗi, mô hình trường ngẫu nhiên có điều kiện (Conditional Random Fields hay viết tắt là CRF) và mạng nơ ron truy hồi LSTM cho xử lý ngôn ngữ tiếng Việt.

Nhóm tác giả thực hiện các thực nghiệm cho hai bài toán trong xử lý tiếng Việt là gán nhãn từ loại (PoS tagging) và nhận dạng thực thể có tên gọi (named entity recognition). Nhóm tác giả đã minh họa hiệu quả của kĩ thuật sử dụng thông tin từ biểu diễn véc-tơ cho vấn đề gán nhãn từ loại và nhận dạng thực thể tên gọi và đưa ra một số khuyến nghị về cách sử dụng hiệu quả hai mô hình gán nhãn chuỗi nói trên trong những ứng dụng thực tế. Kết quả thực nghiệm đã chỉ ra rằng chúng ta có thể đạt được một hệ thống baseline mạnh chỉ với những đặc trưng ở mức từ với mô hình CRF và LSTM. Với những ứng dụng thực tế với lượng dữ liệu nhỏ hoặc vừa, sử dụng mô hình CRF với những đặc trưng phù hợp cho miền ứng dụng trong nhiều trường hợp là hiệu quả hơn so với LSTM, vì CRF tốn ít tài nguyên tính toán hơn so với LSTM và độ chính xác không quá chênh lệch so với LSTM.

Download tại ĐÂY

BÌNH LUẬN

Please enter your comment!
Please enter your name here