Phòng Lab Mô phỏng và Tính toán hiệu năng cao tổ chức Seminar báo cáo chuyên đề: “Lựa chọn thuộc tính trong vấn đề xử lý dữ liệu lớn”
Sáng ngày 17/6/2022, phòng Lab Mô phỏng và Tính toán hiệu năng cao (SHPC) tổ chức seminar báo cáo chuyên đề: “Lựa chọn thuộc tính trong vấn đề xử lý dữ liệu lớn” dưới sự trình bày của ThS. Phạm Việt Anh tại phòng họp của Viện. Tham dự buổi báo cáo có PGS. TS. Nguyễn Quang Tùng – Phó Viện trưởng, cùng các nhà khoa học trong Viện tham dự.
Trong sự phát triển của công nghệ thông tin, dữ liệu lớn đóng một vai trò quan trọng trong rất nhiều lĩnh vực của đời sống, đặc biệt trong các lĩnh vực về khai phá tri thức. Tuy nhiên, với tính chất đa dạng, dữ liệu lớn chứa nhiều những thông tin nhiễu, dư thừa làm giảm đi hiệu quả xử lý của các mô hình dự đoán. Bảng quyết định được biết đến là một hệ thông tin bao gồm các thuộc tính điều kiện và tập thuộc tính quyết định.
Hình 1: ThS. Phạm Việt Anh báo cáo các kết quả nghiên cứu trước hội đồng
Trong thực tế, các lĩnh vực luôn sử dụng bảng quyết định để lưu trữ dữ liệu. Tại đây, bảng quyết định (Hình 2) sẽ lưu trữ các bản ghi, là nguyên liệu để xây dựng các mô hình dự đoán, các kho dữ liệu lưu trữ số lượng lớn các dữ liệu từ bảng quyết định, là công cụ để thực hiện các phân tích, khai phá tri thức và xây dựng các hệ chuyên gia và được sử dụng trong mọi lĩnh vực của đời sống. Bảng quyết định là một công cụ thông dụng để lưu trữ dữ liệu và là thành phần chủ yếu tạo nên các mô hình phân lớp. Việc xây dựng các thuật toán lựa chọn thuộc tính đang rất sôi động và tạo nên những thách thức cho nhiều nhà nghiên cứu và những kỹ sư dữ liệu trong và ngoài nước.
Hình 2: Bảng quyết định – Nguyên liệu để xây dựng các mô hình dự đoán
Dựa trên nền tảng lý thuyết về tập thô truyền thống và các mô hình tập thô mờ mở rộng đặc biệt là mô hình tập thô mờ trực cảm, ThS. Phạm Việt Anh thuộc phòng Lab Mô phỏng và Tính toán hiệu năng cao (SHPC) đã trình bày một số thuật toán về rút gọn thuộc tính trên bảng quyết định đầy đủ. Các thuật toán được ThS. Phạm Việt Anh trình bày qua những chứng minh chặt chẽ về nền tảng lý thuyết toán học và sự hiệu quả của quá trình thực nghiệm trên các bộ dữ liệu mẫu được lấy từ kho dữ liệu UCI. Một số thuật toán cũng được làm rõ và so sánh với các thuật toán cũ trước đó để thấy được tính ưu việt và mang tính ứng dụng vào ngành khoa học dữ liệu phục vụ cho các doanh nghiệp trong lĩnh vực Big Data.
Qua quá trình nghiên cứu và thực nghiệm được thực hiện trên các bộ dữ liệu mẫu từ kho UCI, thực hiện dựa trên hai thuật toán Filter và lai ghép Filter-Wrapper. ThS. Phạm Việt Anh đã so sánh với thuật toán dựa trên không gian nền thô mờ với 3 tiêu chí: Kích thước tập rút gọn, độ chính xác phần lớp và thời gian tính toán. Đồng thời, đánh giá độ chính xác dựa trên hai bộ phân lớp là C4.5 và SVM bước đầu đã cho ra các kết quả như mong đợi (Hình 3).
Hình 3: Thực nghiệm và kết quả nghiên cứu
Cuối cùng, ThS. Phạm Việt Anh cũng báo cáo các hướng nghiên cứu tiếp theo của mình trong thời gian tới đây, trên cơ sở kế thừa và phát huy các kết quả nghiên cứu trong giai đoạn vừa qua, anh đề xuất một số hướng nghiên cứu mới, có thể kể đến:
Nâng cao độ chính xác của thuật toán: Nghiên cứu, cải tiến và xây dựng các độ đo đánh giá thuộc tính; Cải tiến không gian nền của tập thô mờ trực cảm; Phát triển các thuật toán trong việc tính toán các ma trận quan hệ mờ trực cảm; So sánh, đối chiếu và kết hợp các phương pháp để đưa ra một phương pháp tối ưu.
Tối ưu kích thước tập rút gọn: Nghiên cứu, cải tiến thuật toán đóng gói và lai ghép; Nghiên cứu cải tiến điều kiện dừng của thuật toán.
Tối ưu thời gian tính toán: Kết hợp bổ sung với kỹ thuật lát cắt alpha để giảm thiểu một số thông tin nhiễu; Kết hợp với không gian tập thương để rút gọn miền tính toán; Nghiên cứu các thuật toán chuyển đổi dữ liệu về các ma trận mờ trực cảm.
Sau khi lắng nghe phần trình bày của ThS. Phạm Việt Anh, các nhà khoa học tham dự buổi seminar đã biểu dương các kết quả nghiên cứu của đồng chí trong thời gian vừa qua. Đây là một hướng nghiên cứu mới, có giá trị sử dụng cao, hỗ trợ công tác xử lý dữ liệu trong lầu hết mọi lĩnh vực, đặc biệt là các ngành khoa học dữ liệu lớn Big Data. Kết quả của nghiên cứu mang lại những giá trị đóng góp lớn cho công tác nghiên cứu, triển khai thực hiện các nhiệm vụ KH&CN các cấp... Sau buổi báo cáo này, dưới sự đóng góp ý kiến của các nhà khoa học, đồng chí sẽ tiếp tục phấn đấu và hoàn thiện nội dung nghiên cứu của mình hơn nữa.
Thứ Hai, 11:08 20/06/2022
Copyright © 2018 Hanoi University of Industry.