Mối liên hệ giữa toán học và DMML (Khai phá dữ liệu và Máy học) là gì?
A. Đại số tuyến tính giúp biểu diễn dữ liệu dưới dạng ma trận
B. Tất cả các đáp án đều đúng
C. Xác suất thống kê giúp phân tích dữ liệu không chắc chắn
D. Giải tích hỗ trợ xử lý dữ liệu phi tuyến tính
Có những thách thức nào với khai phá dữ liệu?
A. Thay đổi cấu trúc dữ liệu liên tục
B. Giảm chiều của dữ liệu để tăng tốc độ xử lý
C. Tất cả các đáp án đều đúng
D. Xử lý nhiễu trong dữ liệu
Học không giám sát khác học có giám sát ở điểm nào?
A. Học có giám sát không dự đoán được kết quả
B. Học không giám sát không cần dữ liệu nhãn
C. Học không giám sát sử dụng cây quyết định
D. Học không giám sát sử dụng dữ liệu có nhãn
Khai phá dữ liệu (Data Mining) là gì?
A. Sử dụng các công cụ trực quan hóa để trình bày dữ liệu
B. Tìm kiếm dữ liệu trên internet
C. Tạo báo cáo từ dữ liệu đã phân tích
D. Phát hiện thông tin hữu ích từ dữ liệu lớn
Thuật toán hồi quy trong học máy thường được sử dụng để làm gì?
A. Nhóm các phần tử giống nhau
B. Phân loại dữ liệu
C. Dự đoán giá trị liên tục
D. Giảm chiều dữ liệu
Tại sao Python là lựa chọn phổ biến trong DMML?
A. Vì chỉ hoạt động trên một hệ điều hành cụ thể
B. Vì nó là ngôn ngữ lập trình thương mại
C. Vì cú pháp phức tạp phù hợp với chuyên gia
D. Vì có nhiều thư viện hỗ trợ cho khai phá dữ liệu và máy học
Khi xây dựng mô hình máy học, bước tiền xử lý dữ liệu đóng vai trò gì?
A. Là bước cuối cùng để kiểm tra mô hình
B. Là bước phân phối mô hình đã xây dựng
C. Là bước loại bỏ nhiễu và chuẩn hóa dữ liệu
D. Là bước để xây dựng thuật toán học sâu
Trong Weka, chức năng nào được sử dụng để thực hiện phân cụm dữ liệu?
A. Associate
B. Cluster
C. Classify
D. Preprocess
Điểm khác biệt chính giữa học sâu (Deep Learning) và học máy truyền thống là gì?
A. Học sâu không sử dụng mạng nơ-ron nhân tạo
B. Học sâu tự động học đặc trưng từ dữ liệu
C. Học sâu chỉ sử dụng các thuật toán tuyến tính
D. Học sâu không cần dữ liệu để huấn luyện
Kỹ thuật nào sau đây không thuộc về khai phá dữ liệu?
A. Phân cụm
B. Tạo đồ thị
C. Luật kết hợp
D. Phân lớp
Nếu một dữ liệu bị nhập sai do lỗi đánh máy, phương pháp nào phù hợp để sửa lỗi?
A. Dùng kỹ thuật khớp chuỗi
B. Điền dữ liệu thiếu
C. Loại bỏ bản ghi
D. Giữ nguyên dữ liệu
Tại sao tiền xử lý dữ liệu quan trọng đối với Machine Learning?
A. Giúp giảm thời gian xử lý của máy tính
B. Không có tác dụng gì
C. Làm tăng kích thước dữ liệu
D. Giúp mô hình học chính xác hơn
Một phương pháp để xác định dữ liệu ngoại lai (outliers) là gì?
A. Loại bỏ dữ liệu có giá trị nhỏ nhất
B. Sử dụng biểu đồ boxplot
C. Điền dữ liệu thiếu
D. Giữ nguyên dữ liệu
Biến đổi dữ liệu là gì?
A. Quá trình thay đổi định dạng hoặc cấu trúc dữ liệu để phân tích tốt hơn
B. Quá trình tăng kích thước dữ liệu để đảm bảo tính đầy đủ
C. Quá trình thu thập dữ liệu từ nhiều nguồn
D. Quá trình lọc dữ liệu để loại bỏ nhiễu
Trong tiền xử lý dữ liệu, bước nào giúp chuyển đổi dữ liệu dạng số thành dạng phân loại?
A. Giảm số chiều dữ liệu
B. Làm sạch dữ liệu
C. Chuẩn hóa dữ liệu
D. Rời rạc hóa dữ liệu
Trong Python, phương pháp nào sau đây giúp chuẩn hóa dữ liệu về khoảng [0,1]?
A. normalize() từ Pandas
B. one_hot_encoding() từ NumPy
C. StandardScaler() từ Scikit-learn
D. MinMaxScaler() từ Scikit-learn
Dữ liệu có thể bị sai lệch do lỗi nhập liệu, điều này ảnh hưởng đến yếu tố nào?
A. Tính chính xác (Accuracy)
B. Tính nhất quán (Consistency)
C. Tính khả diễn giải (Interpretability)
D. Tính đầy đủ (Completeness)
Chọn mẫu dữ liệu (Sampling) có tác dụng gì?
A. Giúp tăng tốc độ xử lý bằng cách nén dữ liệu
B. Làm tăng số lượng dữ liệu để mô hình học tốt hơn
C. Tạo ra nhiều phiên bản dữ liệu khác nhau để thử nghiệm
D. Giảm kích thước tập dữ liệu bằng cách chọn một phần nhỏ đại diện
Trong chọn mẫu hệ thống (Systematic Sampling), mẫu được chọn như thế nào?
A. Chọn mẫu dựa trên phân cụm trước đó
B. Theo một quy tắc nhất định, ví dụ chọn mỗi hàng thứ n trong tập dữ liệu
C. Chọn hoàn toàn ngẫu nhiên từ tập dữ liệu
D. Chọn các bản ghi có giá trị trung bình cao nhất
Khi nào dữ liệu được coi là khả diễn giải (Interpretability)?
A. Khi dữ liệu dễ hiểu và có ý nghĩa đối với người dùng
B. Khi dữ liệu không có giá trị trống
C. Khi dữ liệu có nhiều giá trị số
D. Khi dữ liệu có kích thước nhỏ