Nhập môn Khai phá dữ liệu và máy học - IT61 (60)

Câu hỏi 21678:

Vì sao tính đầy đủ (Completeness) quan trọng trong dữ liệu?

A. Giảm kích thước tập dữ liệu
B. Giúp dữ liệu không bị thiếu thông tin quan trọng
C. Giúp tăng tốc độ xử lý mô hình
D. Không quan trọng lắm

Câu hỏi 21666:

Nếu dữ liệu không được cập nhật kịp thời, nó có thể gặp vấn đề gì?

A. Không có vấn đề gì
B. Giảm tính chính xác (Accuracy)
C. Giảm tính thời sự (Timeliness)
D. Giảm tính đầy đủ (Completeness)

Câu hỏi 21643:

Làm sạch dữ liệu gồm những bước nào?

A. Xử lý dữ liệu nhiễu
B. Xử lý dữ liệu thiếu
C. Biến đổi dữ liệu và Phân tích tương quan
D. Xử lý dữ liệu thiếu và Xử lý dữ liệu nhiễu

Câu hỏi 21642:

Phương pháp nào giúp điền dữ liệu thiếu bằng giá trị trung bình hoặc trung vị?

A. Sử dụng hằng số chung
B. Sử dụng đại lượng trung tâm
C. Loại bỏ bản ghi
D. Không làm gì

Câu hỏi 21641:

Một cách để giải quyết vấn đề dư thừa thuộc tính là gì?

A. Loại bỏ các thuộc tính có thể suy luận từ các thuộc tính khác
B. Giữ lại tất cả các thuộc tính để có nhiều thông tin hơn
C. Chỉ sử dụng một nguồn dữ liệu duy nhất
D. Bỏ qua bước tích hợp dữ liệu

Câu hỏi 21640:

Tích hợp dữ liệu là gì?

A. Quá trình phân loại dữ liệu theo nhóm
B. Quá trình kết hợp dữ liệu từ nhiều nguồn khác nhau
C. Quá trình giảm kích thước tập dữ liệu
D. Quá trình làm sạch dữ liệu trước khi sử dụng

Câu hỏi 21639:

Làm thế nào để phát hiện dữ liệu trùng lặp trong quá trình tích hợp?

A. Xóa toàn bộ dữ liệu có cùng một ID
B. Chuyển đổi dữ liệu sang định dạng văn bản để so sánh
C. Tăng kích thước tập dữ liệu để kiểm tra trực quan
D. Sử dụng thuật toán so khớp dữ liệu để xác định bản ghi giống nhau

Câu hỏi 21638:

Dữ liệu nhiễu là gì?

A. Dữ liệu dư thừa
B. Dữ liệu bị mất
C. Dữ liệu thiếu đơn vị đo
D. Dữ liệu không phản ánh đúng thực tế

Câu hỏi 21637:

Xung đột dữ liệu trong tích hợp dữ liệu là gì?

A. Khi cùng một thuộc tính có giá trị khác nhau giữa các nguồn dữ liệu
B. Khi dữ liệu không có đủ thuộc tính để sử dụng
C. Khi dữ liệu không được cập nhật kịp thời
D. Khi dữ liệu bị trùng lặp trong cùng một bảng

Câu hỏi 21636:

Việc tạo hệ thống phân cấp khái niệm (Concept Hierarchy) có tác dụng gì?

A. Giúp phát hiện dữ liệu ngoại lai dễ dàng hơn
B. Giúp tổ chức dữ liệu theo các mức độ trừu tượng khác nhau
C. Giúp giảm kích thước tập dữ liệu bằng PCA
D. Giúp mô hình học máy chạy nhanh hơn

Câu hỏi 21635:

Một ví dụ nào sau đây thể hiện dữ liệu có tính khả tín (Believability) cao?

A. Dữ liệu từ một trang web cá nhân
B. Dữ liệu từ mạng xã hội
C. Dữ liệu từ một bài báo không rõ nguồn gốc
D. Dữ liệu được công bố trong tạp chí khoa học uy tín

Câu hỏi 21634:

Phương pháp nào giúp phát hiện và loại bỏ dữ liệu nhiễu dựa trên mô hình hồi quy?

A. Binning
B. Phân cụm
C. Hồi quy
D. Điền dữ liệu thiếu

Câu hỏi 21633:

Chất lượng dữ liệu được đánh giá dựa trên bao nhiêu yếu tố chính?

A. 3
B. 5
C. 6
D. 4

Câu hỏi 21631:

Giảm kích thước dữ liệu nhằm mục đích gì?

A. Giảm lượng dữ liệu lưu trữ mà vẫn giữ lại thông tin quan trọng
B. Loại bỏ tất cả dữ liệu không liên quan
C. Chuyển đổi dữ liệu thành văn bản để dễ đọc hơn
D. Tăng độ phức tạp của mô hình học máy

Câu hỏi 21629:

Vì sao cần kết hợp nhiều phương pháp khi làm sạch dữ liệu?

A. Vì mỗi phương pháp có ưu và nhược điểm riêng
B. Để tăng độ phức tạp của quá trình tiền xử lý
C. Vì mỗi phương pháp có ưu và nhược điểm riêng và không có phương pháp nào có thể làm sạch dữ liệu hoàn toàn
D. Vì không có phương pháp nào có thể làm sạch dữ liệu hoàn toàn

Câu hỏi 499792:

Khi nào nên sử dụng chọn mẫu ngẫu nhiên phân tầng (Stratified Sampling)?

A. Khi muốn tăng tốc độ xử lý bằng cách chọn ngẫu nhiên một phần nhỏ dữ liệu
B. Khi muốn giảm kích thước dữ liệu bằng cách loại bỏ toàn bộ một nhóm dữ liệu
C. Khi muốn làm sạch dữ liệu trước khi tích hợp
D. Khi muốn đảm bảo tỷ lệ các nhóm dữ liệu trong tập mẫu giống như trong tập dữ liệu gốc

Câu hỏi 499791:

Một cách để giải quyết xung đột dữ liệu là gì?

A. Giữ nguyên tất cả các giá trị để đảm bảo không mất dữ liệu
B. Xác định nguồn dữ liệu đáng tin cậy nhất để ưu tiên sử dụng
C. Chỉ sử dụng dữ liệu từ nguồn có nhiều giá trị trùng lặp nhất
D. Xóa tất cả các bản ghi bị xung đột

Câu hỏi 499790:

Nếu một bộ dữ liệu có kích thước quá lớn và gây tốn kém tài nguyên xử lý, phương pháp nào phù hợp nhất?

A. Tăng thêm dữ liệu để đảm bảo mô hình hoạt động tốt hơn
B. Giữ nguyên dữ liệu và chỉ thay đổi thuật toán xử lý
C. Chọn mẫu hoặc giảm số chiều bằng PCA
D. Tách dữ liệu thành nhiều phần nhỏ và xử lý riêng biệt

Câu hỏi 499789:

Khi sử dụng Python, thư viện nào thường được dùng để chuẩn hóa dữ liệu?

A. Matplotlib
B. Scikit-learn
C. Pandas
D. TensorFlow

Câu hỏi 499788:

Điều gì sẽ xảy ra nếu áp dụng PCA lên một tập dữ liệu không có sự tương quan giữa các thuộc tính?

A. PCA sẽ làm tăng độ phức tạp của dữ liệu
B. PCA sẽ tự động loại bỏ tất cả các thuộc tính
C. PCA vẫn hoạt động bình thường nhưng không làm giảm kích thước dữ liệu
D. PCA sẽ không mang lại hiệu quả vì không có phương sai cần giảm
Trung tâm giáo dục thể chất và quốc phòng an ninh
Khoa kinh tế
Khoa đào tạo từ xa
Trung tâm đào tạo trực tuyến
Khoa đào tạo cơ bản
Khoa điện - điện tử
Khoa du lịch
Khoa Công nghệ thông tin
Viện Công nghệ sinh học và Công nghệ thực phẩm
Trung tâm đại học Mở Hà Nội tại Đà Nẵng
Khoa tiếng Trung Quốc
Khoa tạo dáng công nghiệp
Khoa tài chính ngân hàng
Khoa Tiếng anh
Khoa Luật

Bản tin HOU-TV số 06 năm 2025

Tuyển sinh đại học Mở Hà Nội - HOU

Rejoining the server...

Rejoin failed... trying again in seconds.

Failed to rejoin.
Please retry or reload the page.

The session has been paused by the server.

Failed to resume the session.
Please reload the page.