Tích hợp dữ liệu là gì?
A. Quá trình phân loại dữ liệu theo nhóm
B. Quá trình kết hợp dữ liệu từ nhiều nguồn khác nhau
C. Quá trình giảm kích thước tập dữ liệu
D. Quá trình làm sạch dữ liệu trước khi sử dụng
Làm thế nào để phát hiện dữ liệu trùng lặp trong quá trình tích hợp?
A. Xóa toàn bộ dữ liệu có cùng một ID
B. Chuyển đổi dữ liệu sang định dạng văn bản để so sánh
C. Tăng kích thước tập dữ liệu để kiểm tra trực quan
D. Sử dụng thuật toán so khớp dữ liệu để xác định bản ghi giống nhau
Dữ liệu nhiễu là gì?
A. Dữ liệu dư thừa
B. Dữ liệu bị mất
C. Dữ liệu thiếu đơn vị đo
D. Dữ liệu không phản ánh đúng thực tế
Xung đột dữ liệu trong tích hợp dữ liệu là gì?
A. Khi cùng một thuộc tính có giá trị khác nhau giữa các nguồn dữ liệu
B. Khi dữ liệu không có đủ thuộc tính để sử dụng
C. Khi dữ liệu không được cập nhật kịp thời
D. Khi dữ liệu bị trùng lặp trong cùng một bảng
Việc tạo hệ thống phân cấp khái niệm (Concept Hierarchy) có tác dụng gì?
A. Giúp phát hiện dữ liệu ngoại lai dễ dàng hơn
B. Giúp tổ chức dữ liệu theo các mức độ trừu tượng khác nhau
C. Giúp giảm kích thước tập dữ liệu bằng PCA
D. Giúp mô hình học máy chạy nhanh hơn
Một ví dụ nào sau đây thể hiện dữ liệu có tính khả tín (Believability) cao?
A. Dữ liệu từ một trang web cá nhân
B. Dữ liệu từ mạng xã hội
C. Dữ liệu từ một bài báo không rõ nguồn gốc
D. Dữ liệu được công bố trong tạp chí khoa học uy tín
Phương pháp nào giúp phát hiện và loại bỏ dữ liệu nhiễu dựa trên mô hình hồi quy?
A. Binning
B. Phân cụm
C. Hồi quy
D. Điền dữ liệu thiếu
Chất lượng dữ liệu được đánh giá dựa trên bao nhiêu yếu tố chính?
Giảm kích thước dữ liệu nhằm mục đích gì?
A. Giảm lượng dữ liệu lưu trữ mà vẫn giữ lại thông tin quan trọng
B. Loại bỏ tất cả dữ liệu không liên quan
C. Chuyển đổi dữ liệu thành văn bản để dễ đọc hơn
D. Tăng độ phức tạp của mô hình học máy
Vì sao cần kết hợp nhiều phương pháp khi làm sạch dữ liệu?
A. Vì mỗi phương pháp có ưu và nhược điểm riêng
B. Để tăng độ phức tạp của quá trình tiền xử lý
C. Vì mỗi phương pháp có ưu và nhược điểm riêng và không có phương pháp nào có thể làm sạch dữ liệu hoàn toàn
D. Vì không có phương pháp nào có thể làm sạch dữ liệu hoàn toàn
Mối liên hệ giữa toán học và DMML (Khai phá dữ liệu và Máy học) là gì?
A. Đại số tuyến tính giúp biểu diễn dữ liệu dưới dạng ma trận
B. Tất cả các đáp án đều đúng
C. Xác suất thống kê giúp phân tích dữ liệu không chắc chắn
D. Giải tích hỗ trợ xử lý dữ liệu phi tuyến tính
Có những thách thức nào với khai phá dữ liệu?
A. Thay đổi cấu trúc dữ liệu liên tục
B. Giảm chiều của dữ liệu để tăng tốc độ xử lý
C. Tất cả các đáp án đều đúng
D. Xử lý nhiễu trong dữ liệu
Học không giám sát khác học có giám sát ở điểm nào?
A. Học có giám sát không dự đoán được kết quả
B. Học không giám sát không cần dữ liệu nhãn
C. Học không giám sát sử dụng cây quyết định
D. Học không giám sát sử dụng dữ liệu có nhãn
Khai phá dữ liệu (Data Mining) là gì?
A. Sử dụng các công cụ trực quan hóa để trình bày dữ liệu
B. Tìm kiếm dữ liệu trên internet
C. Tạo báo cáo từ dữ liệu đã phân tích
D. Phát hiện thông tin hữu ích từ dữ liệu lớn
Thuật toán hồi quy trong học máy thường được sử dụng để làm gì?
A. Nhóm các phần tử giống nhau
B. Phân loại dữ liệu
C. Dự đoán giá trị liên tục
D. Giảm chiều dữ liệu
Tại sao Python là lựa chọn phổ biến trong DMML?
A. Vì chỉ hoạt động trên một hệ điều hành cụ thể
B. Vì nó là ngôn ngữ lập trình thương mại
C. Vì cú pháp phức tạp phù hợp với chuyên gia
D. Vì có nhiều thư viện hỗ trợ cho khai phá dữ liệu và máy học
Kỹ thuật nào sau đây không thuộc về khai phá dữ liệu?
A. Phân cụm
B. Tạo đồ thị
C. Luật kết hợp
D. Phân lớp
Nếu một dữ liệu bị nhập sai do lỗi đánh máy, phương pháp nào phù hợp để sửa lỗi?
A. Dùng kỹ thuật khớp chuỗi
B. Điền dữ liệu thiếu
C. Loại bỏ bản ghi
D. Giữ nguyên dữ liệu
Biến đổi dữ liệu là gì?
A. Quá trình thay đổi định dạng hoặc cấu trúc dữ liệu để phân tích tốt hơn
B. Quá trình tăng kích thước dữ liệu để đảm bảo tính đầy đủ
C. Quá trình thu thập dữ liệu từ nhiều nguồn
D. Quá trình lọc dữ liệu để loại bỏ nhiễu
Dữ liệu có thể bị sai lệch do lỗi nhập liệu, điều này ảnh hưởng đến yếu tố nào?
A. Tính chính xác (Accuracy)
B. Tính nhất quán (Consistency)
C. Tính khả diễn giải (Interpretability)
D. Tính đầy đủ (Completeness)