Nhập môn Khai phá dữ liệu và máy học - IT61 (60)

Câu hỏi 207390:

Tại sao Python là lựa chọn phổ biến trong DMML?

A. Vì chỉ hoạt động trên một hệ điều hành cụ thể

B. Vì nó là ngôn ngữ lập trình thương mại

C. Vì cú pháp phức tạp phù hợp với chuyên gia

D. Vì có nhiều thư viện hỗ trợ cho khai phá dữ liệu và máy học

Câu hỏi 207389:

Khi xây dựng mô hình máy học, bước tiền xử lý dữ liệu đóng vai trò gì?

A. Là bước cuối cùng để kiểm tra mô hình

B. Là bước phân phối mô hình đã xây dựng

C. Là bước loại bỏ nhiễu và chuẩn hóa dữ liệu

D. Là bước để xây dựng thuật toán học sâu

Câu hỏi 207388:

Trong Weka, chức năng nào được sử dụng để thực hiện phân cụm dữ liệu?

A. Associate

B. Cluster

C. Classify

D. Preprocess

Câu hỏi 207387:

Điểm khác biệt chính giữa học sâu (Deep Learning) và học máy truyền thống là gì?

A. Học sâu không sử dụng mạng nơ-ron nhân tạo

B. Học sâu tự động học đặc trưng từ dữ liệu

C. Học sâu chỉ sử dụng các thuật toán tuyến tính

D. Học sâu không cần dữ liệu để huấn luyện

Câu hỏi 207386:

Kỹ thuật nào sau đây không thuộc về khai phá dữ liệu?

A. Phân cụm

B. Tạo đồ thị

C. Luật kết hợp

D. Phân lớp

Câu hỏi 207385:

Nếu một dữ liệu bị nhập sai do lỗi đánh máy, phương pháp nào phù hợp để sửa lỗi?

A. Dùng kỹ thuật khớp chuỗi

B. Điền dữ liệu thiếu

C. Loại bỏ bản ghi

D. Giữ nguyên dữ liệu

Câu hỏi 207384:

Tại sao tiền xử lý dữ liệu quan trọng đối với Machine Learning?

A. Giúp giảm thời gian xử lý của máy tính

B. Không có tác dụng gì

C. Làm tăng kích thước dữ liệu

D. Giúp mô hình học chính xác hơn

Câu hỏi 207383:

Một phương pháp để xác định dữ liệu ngoại lai (outliers) là gì?

A. Loại bỏ dữ liệu có giá trị nhỏ nhất

B. Sử dụng biểu đồ boxplot

C. Điền dữ liệu thiếu

D. Giữ nguyên dữ liệu

Câu hỏi 207382:

Biến đổi dữ liệu là gì?

A. Quá trình thay đổi định dạng hoặc cấu trúc dữ liệu để phân tích tốt hơn

B. Quá trình tăng kích thước dữ liệu để đảm bảo tính đầy đủ

C. Quá trình thu thập dữ liệu từ nhiều nguồn

D. Quá trình lọc dữ liệu để loại bỏ nhiễu

Câu hỏi 207379:

Dữ liệu có thể bị sai lệch do lỗi nhập liệu, điều này ảnh hưởng đến yếu tố nào?

A. Tính chính xác (Accuracy)

B. Tính nhất quán (Consistency)

C. Tính khả diễn giải (Interpretability)

D. Tính đầy đủ (Completeness)

Câu hỏi 207378:

Chọn mẫu dữ liệu (Sampling) có tác dụng gì?

A. Giúp tăng tốc độ xử lý bằng cách nén dữ liệu

B. Làm tăng số lượng dữ liệu để mô hình học tốt hơn

C. Tạo ra nhiều phiên bản dữ liệu khác nhau để thử nghiệm

D. Giảm kích thước tập dữ liệu bằng cách chọn một phần nhỏ đại diện

Câu hỏi 207377:

Trong chọn mẫu hệ thống (Systematic Sampling), mẫu được chọn như thế nào?

A. Chọn mẫu dựa trên phân cụm trước đó

B. Theo một quy tắc nhất định, ví dụ chọn mỗi hàng thứ n trong tập dữ liệu

C. Chọn hoàn toàn ngẫu nhiên từ tập dữ liệu

D. Chọn các bản ghi có giá trị trung bình cao nhất

Câu hỏi 207376:

Khi nào dữ liệu được coi là khả diễn giải (Interpretability)?

A. Khi dữ liệu dễ hiểu và có ý nghĩa đối với người dùng

B. Khi dữ liệu không có giá trị trống

C. Khi dữ liệu có nhiều giá trị số

D. Khi dữ liệu có kích thước nhỏ

Câu hỏi 207375:

Trong Python, rời rạc hóa dữ liệu có thể được thực hiện bằng công cụ nào?

A. DecisionTreeClassifier() từ Scikit-learn

B. groupby() từ Pandas

C. KBinsDiscretizer() từ Scikit-learn

D. LabelEncoder() từ Scikit-learn

Câu hỏi 207374:

Vấn đề định danh thực thể trong tích hợp dữ liệu là gì?

A. Khi một thực thể có nhiều cách biểu diễn khác nhau trong các nguồn dữ liệu

B. Khi dữ liệu bị trùng lặp trong cùng một nguồn

C. Khi dữ liệu bị mất trong quá trình thu thập

D. Khi dữ liệu không có nhãn rõ ràng

Câu hỏi 207373:

Một cách phổ biến để giải quyết vấn đề định danh thực thể là gì?

A. Giữ nguyên tất cả các định dạng từ các nguồn

B. Bỏ qua sự khác biệt giữa các nguồn dữ liệu

C. Sử dụng phương pháp chuẩn hóa dữ liệu để tạo định dạng chung

D. Chỉ sử dụng một nguồn dữ liệu duy nhất

Câu hỏi 207372:

Tính nhất quán (Consistency) của dữ liệu có nghĩa là gì?

A. Dữ liệu không chứa giá trị trùng lặp

B. Dữ liệu không có mâu thuẫn giữa các nguồn

C. Dữ liệu có tính bảo mật cao

D. Dữ liệu luôn được cập nhật

Câu hỏi 499787:

Phương pháp nào giúp phân chia dữ liệu liên tục thành các nhóm có kích thước bằng nhau?

A. Chuẩn hóa dữ liệu

B. Loại bỏ dữ liệu ngoại lai

C. Phân tích tương quan

D. Phân khối dữ liệu (Binning)

Câu hỏi 499786:

Khi nào nên sử dụng phân tích biểu đồ (Histogram Analysis) trong rời rạc hóa dữ liệu?

A. Khi muốn xác định số lượng khoảng tối ưu dựa trên phân bố dữ liệu

B. Khi muốn chuẩn hóa dữ liệu về cùng một tỷ lệ

C. Khi muốn làm sạch dữ liệu bằng cách loại bỏ giá trị trùng lặp

D. Khi muốn nén dữ liệu để giảm dung lượng

Câu hỏi 499785:

Tại sao phương pháp PCA lại hữu ích trong giảm kích thước dữ liệu?

A. Vì nó giúp tìm ra các thành phần quan trọng nhất của dữ liệu

B. Vì nó thay thế dữ liệu gốc bằng dữ liệu mới hoàn toàn

C. Vì nó loại bỏ hoàn toàn các thuộc tính không liên quan

D. Vì nó làm tăng độ phức tạp của mô hình

DONATE

Để giúp chúng tôi phát triển sản phẩm tốt hơn, đạt kết quả học tập cao hơn

Trung tâm giáo dục thể chất và quốc phòng an ninh

Viện Công nghệ sinh học và Công nghệ thực phẩm

Bản tin HOU-TV số 06 năm 2025

[Unable to find Component]

Nhập môn Khai phá dữ liệu và máy học - IT61 (60)