Vì sao tính đầy đủ (Completeness) quan trọng trong dữ liệu?
A. Giảm kích thước tập dữ liệu
B. Giúp dữ liệu không bị thiếu thông tin quan trọng
C. Giúp tăng tốc độ xử lý mô hình
D. Không quan trọng lắm
Nếu dữ liệu không được cập nhật kịp thời, nó có thể gặp vấn đề gì?
A. Không có vấn đề gì
B. Giảm tính chính xác (Accuracy)
C. Giảm tính thời sự (Timeliness)
D. Giảm tính đầy đủ (Completeness)
Làm sạch dữ liệu gồm những bước nào?
A. Xử lý dữ liệu nhiễu
B. Xử lý dữ liệu thiếu
C. Biến đổi dữ liệu và Phân tích tương quan
D. Xử lý dữ liệu thiếu và Xử lý dữ liệu nhiễu
Phương pháp nào giúp điền dữ liệu thiếu bằng giá trị trung bình hoặc trung vị?
A. Sử dụng hằng số chung
B. Sử dụng đại lượng trung tâm
C. Loại bỏ bản ghi
D. Không làm gì
Một cách để giải quyết vấn đề dư thừa thuộc tính là gì?
A. Loại bỏ các thuộc tính có thể suy luận từ các thuộc tính khác
B. Giữ lại tất cả các thuộc tính để có nhiều thông tin hơn
C. Chỉ sử dụng một nguồn dữ liệu duy nhất
D. Bỏ qua bước tích hợp dữ liệu
Tích hợp dữ liệu là gì?
A. Quá trình phân loại dữ liệu theo nhóm
B. Quá trình kết hợp dữ liệu từ nhiều nguồn khác nhau
C. Quá trình giảm kích thước tập dữ liệu
D. Quá trình làm sạch dữ liệu trước khi sử dụng
Làm thế nào để phát hiện dữ liệu trùng lặp trong quá trình tích hợp?
A. Xóa toàn bộ dữ liệu có cùng một ID
B. Chuyển đổi dữ liệu sang định dạng văn bản để so sánh
C. Tăng kích thước tập dữ liệu để kiểm tra trực quan
D. Sử dụng thuật toán so khớp dữ liệu để xác định bản ghi giống nhau
Dữ liệu nhiễu là gì?
A. Dữ liệu dư thừa
B. Dữ liệu bị mất
C. Dữ liệu thiếu đơn vị đo
D. Dữ liệu không phản ánh đúng thực tế
Xung đột dữ liệu trong tích hợp dữ liệu là gì?
A. Khi cùng một thuộc tính có giá trị khác nhau giữa các nguồn dữ liệu
B. Khi dữ liệu không có đủ thuộc tính để sử dụng
C. Khi dữ liệu không được cập nhật kịp thời
D. Khi dữ liệu bị trùng lặp trong cùng một bảng
Việc tạo hệ thống phân cấp khái niệm (Concept Hierarchy) có tác dụng gì?
A. Giúp phát hiện dữ liệu ngoại lai dễ dàng hơn
B. Giúp tổ chức dữ liệu theo các mức độ trừu tượng khác nhau
C. Giúp giảm kích thước tập dữ liệu bằng PCA
D. Giúp mô hình học máy chạy nhanh hơn
Một ví dụ nào sau đây thể hiện dữ liệu có tính khả tín (Believability) cao?
A. Dữ liệu từ một trang web cá nhân
B. Dữ liệu từ mạng xã hội
C. Dữ liệu từ một bài báo không rõ nguồn gốc
D. Dữ liệu được công bố trong tạp chí khoa học uy tín
Phương pháp nào giúp phát hiện và loại bỏ dữ liệu nhiễu dựa trên mô hình hồi quy?
A. Binning
B. Phân cụm
C. Hồi quy
D. Điền dữ liệu thiếu
Chất lượng dữ liệu được đánh giá dựa trên bao nhiêu yếu tố chính?
Giảm kích thước dữ liệu nhằm mục đích gì?
A. Giảm lượng dữ liệu lưu trữ mà vẫn giữ lại thông tin quan trọng
B. Loại bỏ tất cả dữ liệu không liên quan
C. Chuyển đổi dữ liệu thành văn bản để dễ đọc hơn
D. Tăng độ phức tạp của mô hình học máy
Vì sao cần kết hợp nhiều phương pháp khi làm sạch dữ liệu?
A. Vì mỗi phương pháp có ưu và nhược điểm riêng
B. Để tăng độ phức tạp của quá trình tiền xử lý
C. Vì mỗi phương pháp có ưu và nhược điểm riêng và không có phương pháp nào có thể làm sạch dữ liệu hoàn toàn
D. Vì không có phương pháp nào có thể làm sạch dữ liệu hoàn toàn
Khi nào nên sử dụng chọn mẫu ngẫu nhiên phân tầng (Stratified Sampling)?
A. Khi muốn tăng tốc độ xử lý bằng cách chọn ngẫu nhiên một phần nhỏ dữ liệu
B. Khi muốn giảm kích thước dữ liệu bằng cách loại bỏ toàn bộ một nhóm dữ liệu
C. Khi muốn làm sạch dữ liệu trước khi tích hợp
D. Khi muốn đảm bảo tỷ lệ các nhóm dữ liệu trong tập mẫu giống như trong tập dữ liệu gốc
Một cách để giải quyết xung đột dữ liệu là gì?
A. Giữ nguyên tất cả các giá trị để đảm bảo không mất dữ liệu
B. Xác định nguồn dữ liệu đáng tin cậy nhất để ưu tiên sử dụng
C. Chỉ sử dụng dữ liệu từ nguồn có nhiều giá trị trùng lặp nhất
D. Xóa tất cả các bản ghi bị xung đột
Nếu một bộ dữ liệu có kích thước quá lớn và gây tốn kém tài nguyên xử lý, phương pháp nào phù hợp nhất?
A. Tăng thêm dữ liệu để đảm bảo mô hình hoạt động tốt hơn
B. Giữ nguyên dữ liệu và chỉ thay đổi thuật toán xử lý
C. Chọn mẫu hoặc giảm số chiều bằng PCA
D. Tách dữ liệu thành nhiều phần nhỏ và xử lý riêng biệt
Khi sử dụng Python, thư viện nào thường được dùng để chuẩn hóa dữ liệu?
A. Matplotlib
B. Scikit-learn
C. Pandas
D. TensorFlow
Điều gì sẽ xảy ra nếu áp dụng PCA lên một tập dữ liệu không có sự tương quan giữa các thuộc tính?
A. PCA sẽ làm tăng độ phức tạp của dữ liệu
B. PCA sẽ tự động loại bỏ tất cả các thuộc tính
C. PCA vẫn hoạt động bình thường nhưng không làm giảm kích thước dữ liệu
D. PCA sẽ không mang lại hiệu quả vì không có phương sai cần giảm