Bài báo đăng trên tạp chí khoa học trong nước

Phân cụm nửa giám sát dựa trên đồ thị, Volume 58

Tác giả: Vũ Việt Vũ

Nhà xuất bản: Tạp chí khoa học , Khoa Công nghệ thông tin, ĐHSP HN

Thuật toán phân cụm nửa giám sát sử dụng một số lượng ít các dữ liệu đã gán nhãn (seeds) hoặc một số ràng buộc (must - link hoặc can - not link) giữa các dữ liệu nhằm mục đích cải tiến chất lượng của bài toán phân cụm. Trong bài báo này, chúng tôi mở rộng một thuật toán phân cụm nửa giám sát sử dụng các seed bằng cách thêm vào một kĩ thuật học tích cực (active learning) để thu thập các ràng buộc từ người sử dụng. Theo chúng tôi biết đây là thuật toán đầu tiên trên thế giới sử dụng đồng thời cả hai loại seed và constraint vào trong cùng một quá trình phân cụm. Kết quả thực nghiệm cho thấy thuật toán của chúng tôi cải tiến đáng kể chất lượng của quá trình phân cụm trên các tập dữ liệu thực.