Tại sao Python là lựa chọn phổ biến trong DMML?
A. Vì chỉ hoạt động trên một hệ điều hành cụ thể
B. Vì nó là ngôn ngữ lập trình thương mại
C. Vì cú pháp phức tạp phù hợp với chuyên gia
D. Vì có nhiều thư viện hỗ trợ cho khai phá dữ liệu và máy học
Khi xây dựng mô hình máy học, bước tiền xử lý dữ liệu đóng vai trò gì?
A. Là bước cuối cùng để kiểm tra mô hình
B. Là bước phân phối mô hình đã xây dựng
C. Là bước loại bỏ nhiễu và chuẩn hóa dữ liệu
D. Là bước để xây dựng thuật toán học sâu
Trong Weka, chức năng nào được sử dụng để thực hiện phân cụm dữ liệu?
A. Associate
B. Cluster
C. Classify
D. Preprocess
Điểm khác biệt chính giữa học sâu (Deep Learning) và học máy truyền thống là gì?
A. Học sâu không sử dụng mạng nơ-ron nhân tạo
B. Học sâu tự động học đặc trưng từ dữ liệu
C. Học sâu chỉ sử dụng các thuật toán tuyến tính
D. Học sâu không cần dữ liệu để huấn luyện
Kỹ thuật nào sau đây không thuộc về khai phá dữ liệu?
A. Phân cụm
B. Tạo đồ thị
C. Luật kết hợp
D. Phân lớp
Nếu một dữ liệu bị nhập sai do lỗi đánh máy, phương pháp nào phù hợp để sửa lỗi?
A. Dùng kỹ thuật khớp chuỗi
B. Điền dữ liệu thiếu
C. Loại bỏ bản ghi
D. Giữ nguyên dữ liệu
Tại sao tiền xử lý dữ liệu quan trọng đối với Machine Learning?
A. Giúp giảm thời gian xử lý của máy tính
B. Không có tác dụng gì
C. Làm tăng kích thước dữ liệu
D. Giúp mô hình học chính xác hơn
Một phương pháp để xác định dữ liệu ngoại lai (outliers) là gì?
A. Loại bỏ dữ liệu có giá trị nhỏ nhất
B. Sử dụng biểu đồ boxplot
C. Điền dữ liệu thiếu
D. Giữ nguyên dữ liệu
Biến đổi dữ liệu là gì?
A. Quá trình thay đổi định dạng hoặc cấu trúc dữ liệu để phân tích tốt hơn
B. Quá trình tăng kích thước dữ liệu để đảm bảo tính đầy đủ
C. Quá trình thu thập dữ liệu từ nhiều nguồn
D. Quá trình lọc dữ liệu để loại bỏ nhiễu
Dữ liệu có thể bị sai lệch do lỗi nhập liệu, điều này ảnh hưởng đến yếu tố nào?
A. Tính chính xác (Accuracy)
B. Tính nhất quán (Consistency)
C. Tính khả diễn giải (Interpretability)
D. Tính đầy đủ (Completeness)
Chọn mẫu dữ liệu (Sampling) có tác dụng gì?
A. Giúp tăng tốc độ xử lý bằng cách nén dữ liệu
B. Làm tăng số lượng dữ liệu để mô hình học tốt hơn
C. Tạo ra nhiều phiên bản dữ liệu khác nhau để thử nghiệm
D. Giảm kích thước tập dữ liệu bằng cách chọn một phần nhỏ đại diện
Trong chọn mẫu hệ thống (Systematic Sampling), mẫu được chọn như thế nào?
A. Chọn mẫu dựa trên phân cụm trước đó
B. Theo một quy tắc nhất định, ví dụ chọn mỗi hàng thứ n trong tập dữ liệu
C. Chọn hoàn toàn ngẫu nhiên từ tập dữ liệu
D. Chọn các bản ghi có giá trị trung bình cao nhất
Khi nào dữ liệu được coi là khả diễn giải (Interpretability)?
A. Khi dữ liệu dễ hiểu và có ý nghĩa đối với người dùng
B. Khi dữ liệu không có giá trị trống
C. Khi dữ liệu có nhiều giá trị số
D. Khi dữ liệu có kích thước nhỏ
Trong Python, rời rạc hóa dữ liệu có thể được thực hiện bằng công cụ nào?
A. DecisionTreeClassifier() từ Scikit-learn
B. groupby() từ Pandas
C. KBinsDiscretizer() từ Scikit-learn
D. LabelEncoder() từ Scikit-learn
Vấn đề định danh thực thể trong tích hợp dữ liệu là gì?
A. Khi một thực thể có nhiều cách biểu diễn khác nhau trong các nguồn dữ liệu
B. Khi dữ liệu bị trùng lặp trong cùng một nguồn
C. Khi dữ liệu bị mất trong quá trình thu thập
D. Khi dữ liệu không có nhãn rõ ràng
Một cách phổ biến để giải quyết vấn đề định danh thực thể là gì?
A. Giữ nguyên tất cả các định dạng từ các nguồn
B. Bỏ qua sự khác biệt giữa các nguồn dữ liệu
C. Sử dụng phương pháp chuẩn hóa dữ liệu để tạo định dạng chung
D. Chỉ sử dụng một nguồn dữ liệu duy nhất
Tính nhất quán (Consistency) của dữ liệu có nghĩa là gì?
A. Dữ liệu không chứa giá trị trùng lặp
B. Dữ liệu không có mâu thuẫn giữa các nguồn
C. Dữ liệu có tính bảo mật cao
D. Dữ liệu luôn được cập nhật
Phương pháp nào giúp phân chia dữ liệu liên tục thành các nhóm có kích thước bằng nhau?
A. Chuẩn hóa dữ liệu
B. Loại bỏ dữ liệu ngoại lai
C. Phân tích tương quan
D. Phân khối dữ liệu (Binning)
Khi nào nên sử dụng phân tích biểu đồ (Histogram Analysis) trong rời rạc hóa dữ liệu?
A. Khi muốn xác định số lượng khoảng tối ưu dựa trên phân bố dữ liệu
B. Khi muốn chuẩn hóa dữ liệu về cùng một tỷ lệ
C. Khi muốn làm sạch dữ liệu bằng cách loại bỏ giá trị trùng lặp
D. Khi muốn nén dữ liệu để giảm dung lượng
Tại sao phương pháp PCA lại hữu ích trong giảm kích thước dữ liệu?
A. Vì nó giúp tìm ra các thành phần quan trọng nhất của dữ liệu
B. Vì nó thay thế dữ liệu gốc bằng dữ liệu mới hoàn toàn
C. Vì nó loại bỏ hoàn toàn các thuộc tính không liên quan
D. Vì nó làm tăng độ phức tạp của mô hình