Khi nào dữ liệu được coi là khả diễn giải (Interpretability)?
A. Khi dữ liệu dễ hiểu và có ý nghĩa đối với người dùng
B. Khi dữ liệu không có giá trị trống
C. Khi dữ liệu có nhiều giá trị số
D. Khi dữ liệu có kích thước nhỏ
Trong Python, rời rạc hóa dữ liệu có thể được thực hiện bằng công cụ nào?
A. DecisionTreeClassifier() từ Scikit-learn
B. groupby() từ Pandas
C. KBinsDiscretizer() từ Scikit-learn
D. LabelEncoder() từ Scikit-learn
Khai phá dữ liệu (Data Mining) là gì?
A. Sử dụng các công cụ trực quan hóa để trình bày dữ liệu
B. Tìm kiếm dữ liệu trên internet
C. Tạo báo cáo từ dữ liệu đã phân tích
D. Phát hiện thông tin hữu ích từ dữ liệu lớn
Thuật toán hồi quy trong học máy thường được sử dụng để làm gì?
A. Nhóm các phần tử giống nhau
B. Phân loại dữ liệu
C. Dự đoán giá trị liên tục
D. Giảm chiều dữ liệu
Trong Weka, chức năng nào được sử dụng để thực hiện phân cụm dữ liệu?
A. Associate
B. Cluster
C. Classify
D. Preprocess
Điểm khác biệt chính giữa học sâu (Deep Learning) và học máy truyền thống là gì?
A. Học sâu không sử dụng mạng nơ-ron nhân tạo
B. Học sâu tự động học đặc trưng từ dữ liệu
C. Học sâu chỉ sử dụng các thuật toán tuyến tính
D. Học sâu không cần dữ liệu để huấn luyện
Kỹ thuật nào sau đây không thuộc về khai phá dữ liệu?
A. Phân cụm
B. Tạo đồ thị
C. Luật kết hợp
D. Phân lớp
Vấn đề định danh thực thể trong tích hợp dữ liệu là gì?
A. Khi một thực thể có nhiều cách biểu diễn khác nhau trong các nguồn dữ liệu
B. Khi dữ liệu bị trùng lặp trong cùng một nguồn
C. Khi dữ liệu bị mất trong quá trình thu thập
D. Khi dữ liệu không có nhãn rõ ràng
Một cách phổ biến để giải quyết vấn đề định danh thực thể là gì?
A. Giữ nguyên tất cả các định dạng từ các nguồn
B. Bỏ qua sự khác biệt giữa các nguồn dữ liệu
C. Sử dụng phương pháp chuẩn hóa dữ liệu để tạo định dạng chung
D. Chỉ sử dụng một nguồn dữ liệu duy nhất
Khi xử lý dữ liệu thiếu của một cột chứa dữ liệu danh mục (categorical), phương pháp nào hợp lý?
A. Loại bỏ tất cả dữ liệu
B. Điền bằng giá trị trung bình
C. Điền bằng số 0
D. Điền bằng giá trị phổ biến nhất
Khi nào nên sử dụng rời rạc hóa dữ liệu (Discretization)?
A. Khi muốn giảm kích thước dữ liệu bằng PCA
B. Khi muốn chuyển đổi dữ liệu liên tục thành các nhóm giá trị rời rạc
C. Khi muốn chuẩn hóa dữ liệu về cùng một tỷ lệ
D. Khi muốn lọc bỏ dữ liệu nhiễu khỏi tập dữ liệu
Phương pháp nào giúp phân chia dữ liệu liên tục thành các nhóm có kích thước bằng nhau?
A. Chuẩn hóa dữ liệu
B. Loại bỏ dữ liệu ngoại lai
C. Phân tích tương quan
D. Phân khối dữ liệu (Binning)
Khi nào nên sử dụng phân tích biểu đồ (Histogram Analysis) trong rời rạc hóa dữ liệu?
A. Khi muốn xác định số lượng khoảng tối ưu dựa trên phân bố dữ liệu
B. Khi muốn chuẩn hóa dữ liệu về cùng một tỷ lệ
C. Khi muốn làm sạch dữ liệu bằng cách loại bỏ giá trị trùng lặp
D. Khi muốn nén dữ liệu để giảm dung lượng
Tại sao phương pháp PCA lại hữu ích trong giảm kích thước dữ liệu?
A. Vì nó giúp tìm ra các thành phần quan trọng nhất của dữ liệu
B. Vì nó thay thế dữ liệu gốc bằng dữ liệu mới hoàn toàn
C. Vì nó loại bỏ hoàn toàn các thuộc tính không liên quan
D. Vì nó làm tăng độ phức tạp của mô hình
Nếu một dữ liệu bị nhập sai do lỗi đánh máy, phương pháp nào phù hợp để sửa lỗi?
A. Dùng kỹ thuật khớp chuỗi
B. Điền dữ liệu thiếu
C. Loại bỏ bản ghi
D. Giữ nguyên dữ liệu
Tại sao tiền xử lý dữ liệu quan trọng đối với Machine Learning?
A. Giúp giảm thời gian xử lý của máy tính
B. Không có tác dụng gì
C. Làm tăng kích thước dữ liệu
D. Giúp mô hình học chính xác hơn
Một phương pháp để xác định dữ liệu ngoại lai (outliers) là gì?
A. Loại bỏ dữ liệu có giá trị nhỏ nhất
B. Sử dụng biểu đồ boxplot
C. Điền dữ liệu thiếu
D. Giữ nguyên dữ liệu
Biến đổi dữ liệu là gì?
A. Quá trình thay đổi định dạng hoặc cấu trúc dữ liệu để phân tích tốt hơn
B. Quá trình tăng kích thước dữ liệu để đảm bảo tính đầy đủ
C. Quá trình thu thập dữ liệu từ nhiều nguồn
D. Quá trình lọc dữ liệu để loại bỏ nhiễu
Trong tiền xử lý dữ liệu, bước nào giúp chuyển đổi dữ liệu dạng số thành dạng phân loại?
A. Giảm số chiều dữ liệu
B. Làm sạch dữ liệu
C. Chuẩn hóa dữ liệu
D. Rời rạc hóa dữ liệu
Trong Python, phương pháp nào sau đây giúp chuẩn hóa dữ liệu về khoảng [0,1]?
A. normalize() từ Pandas
B. one_hot_encoding() từ NumPy
C. StandardScaler() từ Scikit-learn
D. MinMaxScaler() từ Scikit-learn