Nhập môn Khai phá dữ liệu và máy học - IT61 (60)

Câu hỏi 207374:

Vấn đề định danh thực thể trong tích hợp dữ liệu là gì?

A. Khi một thực thể có nhiều cách biểu diễn khác nhau trong các nguồn dữ liệu
B. Khi dữ liệu bị trùng lặp trong cùng một nguồn
C. Khi dữ liệu bị mất trong quá trình thu thập
D. Khi dữ liệu không có nhãn rõ ràng

Câu hỏi 207373:

Một cách phổ biến để giải quyết vấn đề định danh thực thể là gì?

A. Giữ nguyên tất cả các định dạng từ các nguồn
B. Bỏ qua sự khác biệt giữa các nguồn dữ liệu
C. Sử dụng phương pháp chuẩn hóa dữ liệu để tạo định dạng chung
D. Chỉ sử dụng một nguồn dữ liệu duy nhất

Câu hỏi 207372:

Tính nhất quán (Consistency) của dữ liệu có nghĩa là gì?

A. Dữ liệu không chứa giá trị trùng lặp
B. Dữ liệu không có mâu thuẫn giữa các nguồn
C. Dữ liệu có tính bảo mật cao
D. Dữ liệu luôn được cập nhật

Câu hỏi 207371:

Khi xử lý dữ liệu thiếu của một cột chứa dữ liệu danh mục (categorical), phương pháp nào hợp lý?

A. Loại bỏ tất cả dữ liệu
B. Điền bằng giá trị trung bình
C. Điền bằng số 0
D. Điền bằng giá trị phổ biến nhất

Câu hỏi 207370:

Khi nào nên sử dụng rời rạc hóa dữ liệu (Discretization)?

A. Khi muốn giảm kích thước dữ liệu bằng PCA
B. Khi muốn chuyển đổi dữ liệu liên tục thành các nhóm giá trị rời rạc
C. Khi muốn chuẩn hóa dữ liệu về cùng một tỷ lệ
D. Khi muốn lọc bỏ dữ liệu nhiễu khỏi tập dữ liệu

Câu hỏi 207369:

Khi dữ liệu có quá nhiều thuộc tính không liên quan, phương pháp nào phù hợp để xử lý?

A. Giữ nguyên tất cả thuộc tính để đảm bảo không mất thông tin
B. Chuyển đổi dữ liệu về dạng văn bản để dễ xử lý hơn
C. Sử dụng PCA hoặc lựa chọn đặc trưng
D. Thêm nhiều thuộc tính mới để tăng tính đa dạng

Câu hỏi 207368:

Một trong những yếu tố chất lượng dữ liệu là gì?

A. Dung lượng dữ liệu
B. Tốc độ xử lý
C. Hệ điều hành sử dụng
D. Tính chính xác

Câu hỏi 207367:

Khi nào nên sử dụng phương pháp giảm số lượng dữ liệu (Numerosity Reduction)?

A. Khi muốn thay thế dữ liệu ban đầu bằng một dạng biểu diễn nhỏ hơn
B. Khi muốn giữ nguyên dữ liệu nhưng thay đổi cách tổ chức
C. Khi muốn tăng độ chính xác của dữ liệu bằng cách làm sạch nó
D. Khi muốn tạo thêm dữ liệu từ dữ liệu gốc

Câu hỏi 207366:

Một trong những nguyên nhân gây dư thừa thuộc tính trong dữ liệu là gì?

A. Khi dữ liệu chứa nhiều bản ghi lỗi
B. Khi dữ liệu bị thiếu thông tin quan trọng
C. Khi cùng một thông tin được lưu trữ dưới nhiều dạng khác nhau
D. Khi dữ liệu không được chuẩn hóa đúng cách

Câu hỏi 207365:

Dữ liệu dư thừa trong quá trình tích hợp có thể gây ra điều gì?

A. Không ảnh hưởng đến dữ liệu
B. Làm tăng tốc độ phân tích dữ liệu
C. Lãng phí tài nguyên lưu trữ và xử lý
D. Giúp mô hình học nhanh hơn

Câu hỏi 499792:

Khi nào nên sử dụng chọn mẫu ngẫu nhiên phân tầng (Stratified Sampling)?

A. Khi muốn tăng tốc độ xử lý bằng cách chọn ngẫu nhiên một phần nhỏ dữ liệu
B. Khi muốn giảm kích thước dữ liệu bằng cách loại bỏ toàn bộ một nhóm dữ liệu
C. Khi muốn làm sạch dữ liệu trước khi tích hợp
D. Khi muốn đảm bảo tỷ lệ các nhóm dữ liệu trong tập mẫu giống như trong tập dữ liệu gốc

Câu hỏi 499791:

Một cách để giải quyết xung đột dữ liệu là gì?

A. Giữ nguyên tất cả các giá trị để đảm bảo không mất dữ liệu
B. Xác định nguồn dữ liệu đáng tin cậy nhất để ưu tiên sử dụng
C. Chỉ sử dụng dữ liệu từ nguồn có nhiều giá trị trùng lặp nhất
D. Xóa tất cả các bản ghi bị xung đột

Câu hỏi 499790:

Nếu một bộ dữ liệu có kích thước quá lớn và gây tốn kém tài nguyên xử lý, phương pháp nào phù hợp nhất?

A. Tăng thêm dữ liệu để đảm bảo mô hình hoạt động tốt hơn
B. Giữ nguyên dữ liệu và chỉ thay đổi thuật toán xử lý
C. Chọn mẫu hoặc giảm số chiều bằng PCA
D. Tách dữ liệu thành nhiều phần nhỏ và xử lý riêng biệt

Câu hỏi 499789:

Khi sử dụng Python, thư viện nào thường được dùng để chuẩn hóa dữ liệu?

A. Matplotlib
B. Scikit-learn
C. Pandas
D. TensorFlow

Câu hỏi 499788:

Điều gì sẽ xảy ra nếu áp dụng PCA lên một tập dữ liệu không có sự tương quan giữa các thuộc tính?

A. PCA sẽ làm tăng độ phức tạp của dữ liệu
B. PCA sẽ tự động loại bỏ tất cả các thuộc tính
C. PCA vẫn hoạt động bình thường nhưng không làm giảm kích thước dữ liệu
D. PCA sẽ không mang lại hiệu quả vì không có phương sai cần giảm

Câu hỏi 499787:

Phương pháp nào giúp phân chia dữ liệu liên tục thành các nhóm có kích thước bằng nhau?

A. Chuẩn hóa dữ liệu
B. Loại bỏ dữ liệu ngoại lai
C. Phân tích tương quan
D. Phân khối dữ liệu (Binning)

Câu hỏi 499786:

Khi nào nên sử dụng phân tích biểu đồ (Histogram Analysis) trong rời rạc hóa dữ liệu?

A. Khi muốn xác định số lượng khoảng tối ưu dựa trên phân bố dữ liệu
B. Khi muốn chuẩn hóa dữ liệu về cùng một tỷ lệ
C. Khi muốn làm sạch dữ liệu bằng cách loại bỏ giá trị trùng lặp
D. Khi muốn nén dữ liệu để giảm dung lượng

Câu hỏi 499785:

Tại sao phương pháp PCA lại hữu ích trong giảm kích thước dữ liệu?

A. Vì nó giúp tìm ra các thành phần quan trọng nhất của dữ liệu
B. Vì nó thay thế dữ liệu gốc bằng dữ liệu mới hoàn toàn
C. Vì nó loại bỏ hoàn toàn các thuộc tính không liên quan
D. Vì nó làm tăng độ phức tạp của mô hình

Câu hỏi 499784:

Khi các thuộc tính từ các nguồn dữ liệu khác nhau có cách đặt tên khác nhau, cách giải quyết nào hợp lý nhất?

A. Định nghĩa một bảng ánh xạ để đồng nhất tên thuộc tính
B. Giữ nguyên tất cả tên thuộc tính khác nhau
C. Bỏ qua dữ liệu từ nguồn có tên thuộc tính khác biệt
D. Xóa tất cả các dữ liệu có tên không trùng khớp

Câu hỏi 499783:

Tiền xử lý dữ liệu là gì?

A. Quá trình thu thập dữ liệu
B. Quá trình xây dựng mô hình ML
C. Quá trình đánh giá mô hình
D. Quá trình chuẩn bị dữ liệu trước khi sử dụng
Trung tâm giáo dục thể chất và quốc phòng an ninh
Khoa kinh tế
Khoa đào tạo từ xa
Trung tâm đào tạo trực tuyến
Khoa đào tạo cơ bản
Khoa điện - điện tử
Khoa du lịch
Khoa Công nghệ thông tin
Viện Công nghệ sinh học và Công nghệ thực phẩm
Trung tâm đại học Mở Hà Nội tại Đà Nẵng
Khoa tiếng Trung Quốc
Khoa tạo dáng công nghiệp
Khoa tài chính ngân hàng
Khoa Tiếng anh
Khoa Luật

Bản tin HOU-TV số 06 năm 2025

Tuyển sinh đại học Mở Hà Nội - HOU

Rejoining the server...

Rejoin failed... trying again in seconds.

Failed to rejoin.
Please retry or reload the page.

The session has been paused by the server.

Failed to resume the session.
Please reload the page.