Nhập môn Khai phá dữ liệu và máy học - IT61 (60)

Câu hỏi 21629:

Vì sao cần kết hợp nhiều phương pháp khi làm sạch dữ liệu?

A. Vì mỗi phương pháp có ưu và nhược điểm riêng
B. Để tăng độ phức tạp của quá trình tiền xử lý
C. Vì mỗi phương pháp có ưu và nhược điểm riêng và không có phương pháp nào có thể làm sạch dữ liệu hoàn toàn
D. Vì không có phương pháp nào có thể làm sạch dữ liệu hoàn toàn

Câu hỏi 21631:

Giảm kích thước dữ liệu nhằm mục đích gì?

A. Giảm lượng dữ liệu lưu trữ mà vẫn giữ lại thông tin quan trọng
B. Loại bỏ tất cả dữ liệu không liên quan
C. Chuyển đổi dữ liệu thành văn bản để dễ đọc hơn
D. Tăng độ phức tạp của mô hình học máy

Câu hỏi 21633:

Chất lượng dữ liệu được đánh giá dựa trên bao nhiêu yếu tố chính?

A. 3
B. 5
C. 6
D. 4

Câu hỏi 21634:

Phương pháp nào giúp phát hiện và loại bỏ dữ liệu nhiễu dựa trên mô hình hồi quy?

A. Binning
B. Phân cụm
C. Hồi quy
D. Điền dữ liệu thiếu

Câu hỏi 21635:

Một ví dụ nào sau đây thể hiện dữ liệu có tính khả tín (Believability) cao?

A. Dữ liệu từ một trang web cá nhân
B. Dữ liệu từ mạng xã hội
C. Dữ liệu từ một bài báo không rõ nguồn gốc
D. Dữ liệu được công bố trong tạp chí khoa học uy tín

Câu hỏi 21636:

Việc tạo hệ thống phân cấp khái niệm (Concept Hierarchy) có tác dụng gì?

A. Giúp phát hiện dữ liệu ngoại lai dễ dàng hơn
B. Giúp tổ chức dữ liệu theo các mức độ trừu tượng khác nhau
C. Giúp giảm kích thước tập dữ liệu bằng PCA
D. Giúp mô hình học máy chạy nhanh hơn

Câu hỏi 21637:

Xung đột dữ liệu trong tích hợp dữ liệu là gì?

A. Khi cùng một thuộc tính có giá trị khác nhau giữa các nguồn dữ liệu
B. Khi dữ liệu không có đủ thuộc tính để sử dụng
C. Khi dữ liệu không được cập nhật kịp thời
D. Khi dữ liệu bị trùng lặp trong cùng một bảng

Câu hỏi 21638:

Dữ liệu nhiễu là gì?

A. Dữ liệu dư thừa
B. Dữ liệu bị mất
C. Dữ liệu thiếu đơn vị đo
D. Dữ liệu không phản ánh đúng thực tế

Câu hỏi 21639:

Làm thế nào để phát hiện dữ liệu trùng lặp trong quá trình tích hợp?

A. Xóa toàn bộ dữ liệu có cùng một ID
B. Chuyển đổi dữ liệu sang định dạng văn bản để so sánh
C. Tăng kích thước tập dữ liệu để kiểm tra trực quan
D. Sử dụng thuật toán so khớp dữ liệu để xác định bản ghi giống nhau

Câu hỏi 21640:

Tích hợp dữ liệu là gì?

A. Quá trình phân loại dữ liệu theo nhóm
B. Quá trình kết hợp dữ liệu từ nhiều nguồn khác nhau
C. Quá trình giảm kích thước tập dữ liệu
D. Quá trình làm sạch dữ liệu trước khi sử dụng

Câu hỏi 21641:

Một cách để giải quyết vấn đề dư thừa thuộc tính là gì?

A. Loại bỏ các thuộc tính có thể suy luận từ các thuộc tính khác
B. Giữ lại tất cả các thuộc tính để có nhiều thông tin hơn
C. Chỉ sử dụng một nguồn dữ liệu duy nhất
D. Bỏ qua bước tích hợp dữ liệu

Câu hỏi 21642:

Phương pháp nào giúp điền dữ liệu thiếu bằng giá trị trung bình hoặc trung vị?

A. Sử dụng hằng số chung
B. Sử dụng đại lượng trung tâm
C. Loại bỏ bản ghi
D. Không làm gì

Câu hỏi 21643:

Làm sạch dữ liệu gồm những bước nào?

A. Xử lý dữ liệu nhiễu
B. Xử lý dữ liệu thiếu
C. Biến đổi dữ liệu và Phân tích tương quan
D. Xử lý dữ liệu thiếu và Xử lý dữ liệu nhiễu

Câu hỏi 21666:

Nếu dữ liệu không được cập nhật kịp thời, nó có thể gặp vấn đề gì?

A. Không có vấn đề gì
B. Giảm tính chính xác (Accuracy)
C. Giảm tính thời sự (Timeliness)
D. Giảm tính đầy đủ (Completeness)

Câu hỏi 21678:

Vì sao tính đầy đủ (Completeness) quan trọng trong dữ liệu?

A. Giảm kích thước tập dữ liệu
B. Giúp dữ liệu không bị thiếu thông tin quan trọng
C. Giúp tăng tốc độ xử lý mô hình
D. Không quan trọng lắm

Câu hỏi 21679:

Vì sao cần chuẩn hóa dữ liệu (Normalization)?

A. Giúp dữ liệu có nhiều giá trị phong phú hơn
B. Giúp tăng tốc độ xử lý dữ liệu
C. Giúp tạo ra dữ liệu mới từ dữ liệu gốc
D. Giúp dữ liệu có cùng đơn vị đo, tránh ảnh hưởng bởi giá trị quá lớn hoặc quá nhỏ

Câu hỏi 21680:

Khi nào nên loại bỏ bản ghi có dữ liệu thiếu?

A. Không bao giờ nên loại bỏ bản ghi
B. Khi bản ghi chứa quá nhiều giá trị bị thiếu
C. Khi dữ liệu có giá trị âm
D. Khi bản ghi chỉ thiếu một giá trị

Câu hỏi 21681:

Vì sao không nên sử dụng giá trị mặc định như "Unknown" để thay thế dữ liệu thiếu?

A. Vì nó làm giảm tính chính xác
B. Vì nó làm mất dữ liệu
C. Vì nó làm tăng kích thước dữ liệu
D. Vì nó có thể làm sai lệch phân tích dữ liệu

Câu hỏi 499782:

Phương pháp nào giúp giảm số chiều dữ liệu mà vẫn giữ lại phần lớn thông tin?

A. Phân tích thành phần chính (PCA)
B. Chuẩn hóa dữ liệu
C. Nhóm các bản ghi thành từng cụm
D. Loại bỏ bản ghi có dữ liệu thiếu

Câu hỏi 499783:

Tiền xử lý dữ liệu là gì?

A. Quá trình thu thập dữ liệu
B. Quá trình xây dựng mô hình ML
C. Quá trình đánh giá mô hình
D. Quá trình chuẩn bị dữ liệu trước khi sử dụng
Trung tâm giáo dục thể chất và quốc phòng an ninh
Khoa kinh tế
Khoa đào tạo từ xa
Trung tâm đào tạo trực tuyến
Khoa đào tạo cơ bản
Khoa điện - điện tử
Khoa du lịch
Khoa Công nghệ thông tin
Viện Công nghệ sinh học và Công nghệ thực phẩm
Trung tâm đại học Mở Hà Nội tại Đà Nẵng
Khoa tiếng Trung Quốc
Khoa tạo dáng công nghiệp
Khoa tài chính ngân hàng
Khoa Tiếng anh
Khoa Luật

Bản tin HOU-TV số 06 năm 2025

Tuyển sinh đại học Mở Hà Nội - HOU

Rejoining the server...

Rejoin failed... trying again in seconds.

Failed to rejoin.
Please retry or reload the page.

The session has been paused by the server.

Failed to resume the session.
Please reload the page.