Nhập môn Khai phá dữ liệu và máy học - IT61 (60)

Câu hỏi 207394:

Có những thách thức nào với khai phá dữ liệu?

A. Thay đổi cấu trúc dữ liệu liên tục

B. Giảm chiều của dữ liệu để tăng tốc độ xử lý

C. Tất cả các đáp án đều đúng

D. Xử lý nhiễu trong dữ liệu

Câu hỏi 207393:

Học không giám sát khác học có giám sát ở điểm nào?

A. Học có giám sát không dự đoán được kết quả

B. Học không giám sát không cần dữ liệu nhãn

C. Học không giám sát sử dụng cây quyết định

D. Học không giám sát sử dụng dữ liệu có nhãn

Câu hỏi 207392:

Khai phá dữ liệu (Data Mining) là gì?

A. Sử dụng các công cụ trực quan hóa để trình bày dữ liệu

B. Tìm kiếm dữ liệu trên internet

C. Tạo báo cáo từ dữ liệu đã phân tích

D. Phát hiện thông tin hữu ích từ dữ liệu lớn

Câu hỏi 207391:

Thuật toán hồi quy trong học máy thường được sử dụng để làm gì?

A. Nhóm các phần tử giống nhau

B. Phân loại dữ liệu

C. Dự đoán giá trị liên tục

D. Giảm chiều dữ liệu

Câu hỏi 207390:

Tại sao Python là lựa chọn phổ biến trong DMML?

A. Vì chỉ hoạt động trên một hệ điều hành cụ thể

B. Vì nó là ngôn ngữ lập trình thương mại

C. Vì cú pháp phức tạp phù hợp với chuyên gia

D. Vì có nhiều thư viện hỗ trợ cho khai phá dữ liệu và máy học

Câu hỏi 207389:

Khi xây dựng mô hình máy học, bước tiền xử lý dữ liệu đóng vai trò gì?

A. Là bước cuối cùng để kiểm tra mô hình

B. Là bước phân phối mô hình đã xây dựng

C. Là bước loại bỏ nhiễu và chuẩn hóa dữ liệu

D. Là bước để xây dựng thuật toán học sâu

Câu hỏi 207388:

Trong Weka, chức năng nào được sử dụng để thực hiện phân cụm dữ liệu?

A. Associate

B. Cluster

C. Classify

D. Preprocess

Câu hỏi 207387:

Điểm khác biệt chính giữa học sâu (Deep Learning) và học máy truyền thống là gì?

A. Học sâu không sử dụng mạng nơ-ron nhân tạo

B. Học sâu tự động học đặc trưng từ dữ liệu

C. Học sâu chỉ sử dụng các thuật toán tuyến tính

D. Học sâu không cần dữ liệu để huấn luyện

Câu hỏi 207386:

Kỹ thuật nào sau đây không thuộc về khai phá dữ liệu?

A. Phân cụm

B. Tạo đồ thị

C. Luật kết hợp

D. Phân lớp

Câu hỏi 207385:

Nếu một dữ liệu bị nhập sai do lỗi đánh máy, phương pháp nào phù hợp để sửa lỗi?

A. Dùng kỹ thuật khớp chuỗi

B. Điền dữ liệu thiếu

C. Loại bỏ bản ghi

D. Giữ nguyên dữ liệu

Câu hỏi 207384:

Tại sao tiền xử lý dữ liệu quan trọng đối với Machine Learning?

A. Giúp giảm thời gian xử lý của máy tính

B. Không có tác dụng gì

C. Làm tăng kích thước dữ liệu

D. Giúp mô hình học chính xác hơn

Câu hỏi 207383:

Một phương pháp để xác định dữ liệu ngoại lai (outliers) là gì?

A. Loại bỏ dữ liệu có giá trị nhỏ nhất

B. Sử dụng biểu đồ boxplot

C. Điền dữ liệu thiếu

D. Giữ nguyên dữ liệu

Câu hỏi 207382:

Biến đổi dữ liệu là gì?

A. Quá trình thay đổi định dạng hoặc cấu trúc dữ liệu để phân tích tốt hơn

B. Quá trình tăng kích thước dữ liệu để đảm bảo tính đầy đủ

C. Quá trình thu thập dữ liệu từ nhiều nguồn

D. Quá trình lọc dữ liệu để loại bỏ nhiễu

Câu hỏi 207381:

Trong tiền xử lý dữ liệu, bước nào giúp chuyển đổi dữ liệu dạng số thành dạng phân loại?

A. Giảm số chiều dữ liệu

B. Làm sạch dữ liệu

C. Chuẩn hóa dữ liệu

D. Rời rạc hóa dữ liệu

Câu hỏi 207380:

Trong Python, phương pháp nào sau đây giúp chuẩn hóa dữ liệu về khoảng [0,1]?

A. normalize() từ Pandas

B. one_hot_encoding() từ NumPy

C. StandardScaler() từ Scikit-learn

D. MinMaxScaler() từ Scikit-learn

Câu hỏi 207379:

Dữ liệu có thể bị sai lệch do lỗi nhập liệu, điều này ảnh hưởng đến yếu tố nào?

A. Tính chính xác (Accuracy)

B. Tính nhất quán (Consistency)

C. Tính khả diễn giải (Interpretability)

D. Tính đầy đủ (Completeness)

Câu hỏi 207378:

Chọn mẫu dữ liệu (Sampling) có tác dụng gì?

A. Giúp tăng tốc độ xử lý bằng cách nén dữ liệu

B. Làm tăng số lượng dữ liệu để mô hình học tốt hơn

C. Tạo ra nhiều phiên bản dữ liệu khác nhau để thử nghiệm

D. Giảm kích thước tập dữ liệu bằng cách chọn một phần nhỏ đại diện

Câu hỏi 207377:

Trong chọn mẫu hệ thống (Systematic Sampling), mẫu được chọn như thế nào?

A. Chọn mẫu dựa trên phân cụm trước đó

B. Theo một quy tắc nhất định, ví dụ chọn mỗi hàng thứ n trong tập dữ liệu

C. Chọn hoàn toàn ngẫu nhiên từ tập dữ liệu

D. Chọn các bản ghi có giá trị trung bình cao nhất

Câu hỏi 207376:

Khi nào dữ liệu được coi là khả diễn giải (Interpretability)?

A. Khi dữ liệu dễ hiểu và có ý nghĩa đối với người dùng

B. Khi dữ liệu không có giá trị trống

C. Khi dữ liệu có nhiều giá trị số

D. Khi dữ liệu có kích thước nhỏ

Câu hỏi 207375:

Trong Python, rời rạc hóa dữ liệu có thể được thực hiện bằng công cụ nào?

A. DecisionTreeClassifier() từ Scikit-learn

B. groupby() từ Pandas

C. KBinsDiscretizer() từ Scikit-learn

D. LabelEncoder() từ Scikit-learn

DONATE

Để giúp chúng tôi phát triển sản phẩm tốt hơn, đạt kết quả học tập cao hơn

Trung tâm giáo dục thể chất và quốc phòng an ninh

Viện Công nghệ sinh học và Công nghệ thực phẩm

Bản tin HOU-TV số 06 năm 2025

[Unable to find Component]

Nhập môn Khai phá dữ liệu và máy học - IT61 (60)