Bài báo đăng trên tạp chí khoa học trong nước

Xử lý dữ liệu thiếu trong khai phá dữ liệu

Tác giả: Phùng Thị Thu Hiền, Phùng Trung Nghĩa, Đoàn Xuân Ngọc

Nhà xuất bản: Tạp chí Khoa học và Công nghệ - ĐH Thái Nguyên Tập 86(10), trang 55-60

Thông tin đóng một vai trò rất quan trọng trong cuộc sống. Sự phát triển của nhiều lĩnh vực nghiên cứu phụ thuộc vào khả năng phát hiện tri thức trong các cơ sở dữ liệu lớn. Các nhà khoa học trong nhiều lĩnh vực nghiên cứu khác nhau đã phát triển các phương thức để phân tích dữ liệu từ đó thu được thông tin có ích. Các phương thức này phụ thuộc vào dữ liệu và yêu cầu của người sử dụng. Thật không may, các phương thức truyền thống thường không tương ứng với dữ liệu thực do sự mất mát dữ liệu hoặc dữ liệu sai. Các giá trị thiếu gây ra: (i) Giảm chất lượng của các luật phân lớp sinh bởi hệ thống khai phá dữ liệu. (ii) Ảnh hưởng tới chất lượng của các luật thu được từ hệ thống khai phá dữ liệu. (iii) Gây khó khăn cho việc rút ra thông tin có ích từ tập dữ liệu. Giải quyết vấn đề của dữ liệu thiếu là vấn đề quan trọng trong khai phá dữ liệu và khám phá tri thức. Việc thay thế các giá trị thiếu bởi một giá trị cụ thể mà không ảnh hưởng tới chất lượng của dữ liệu. Bài báo đưa ra bốn mô hình tiêu biểu để giải quyết vấn đề thiếu dữ liệu và cuối cùng là thảo luận về kết quả, so sánh và đưa ra kết luận.