[Unable to find Component]

Nhập môn Khai phá dữ liệu và máy học - IT61 (60)

Câu hỏi 21634:

Phương pháp nào giúp phát hiện và loại bỏ dữ liệu nhiễu dựa trên mô hình hồi quy?

A. Binning
B. Phân cụm
C. Hồi quy
D. Điền dữ liệu thiếu

Câu hỏi 207384:

Tại sao tiền xử lý dữ liệu quan trọng đối với Machine Learning?

A. Giúp giảm thời gian xử lý của máy tính
B. Không có tác dụng gì
C. Làm tăng kích thước dữ liệu
D. Giúp mô hình học chính xác hơn

Câu hỏi 207383:

Một phương pháp để xác định dữ liệu ngoại lai (outliers) là gì?

A. Loại bỏ dữ liệu có giá trị nhỏ nhất
B. Sử dụng biểu đồ boxplot
C. Điền dữ liệu thiếu
D. Giữ nguyên dữ liệu

Câu hỏi 207382:

Biến đổi dữ liệu là gì?

A. Quá trình thay đổi định dạng hoặc cấu trúc dữ liệu để phân tích tốt hơn
B. Quá trình tăng kích thước dữ liệu để đảm bảo tính đầy đủ
C. Quá trình thu thập dữ liệu từ nhiều nguồn
D. Quá trình lọc dữ liệu để loại bỏ nhiễu

Câu hỏi 207381:

Trong tiền xử lý dữ liệu, bước nào giúp chuyển đổi dữ liệu dạng số thành dạng phân loại?

A. Giảm số chiều dữ liệu
B. Làm sạch dữ liệu
C. Chuẩn hóa dữ liệu
D. Rời rạc hóa dữ liệu

Câu hỏi 207380:

Trong Python, phương pháp nào sau đây giúp chuẩn hóa dữ liệu về khoảng [0,1]?

A. normalize() từ Pandas
B. one_hot_encoding() từ NumPy
C. StandardScaler() từ Scikit-learn
D. MinMaxScaler() từ Scikit-learn

Câu hỏi 207379:

Dữ liệu có thể bị sai lệch do lỗi nhập liệu, điều này ảnh hưởng đến yếu tố nào?

A. Tính chính xác (Accuracy)
B. Tính nhất quán (Consistency)
C. Tính khả diễn giải (Interpretability)
D. Tính đầy đủ (Completeness)

Câu hỏi 207378:

Chọn mẫu dữ liệu (Sampling) có tác dụng gì?

A. Giúp tăng tốc độ xử lý bằng cách nén dữ liệu
B. Làm tăng số lượng dữ liệu để mô hình học tốt hơn
C. Tạo ra nhiều phiên bản dữ liệu khác nhau để thử nghiệm
D. Giảm kích thước tập dữ liệu bằng cách chọn một phần nhỏ đại diện

Câu hỏi 207377:

Trong chọn mẫu hệ thống (Systematic Sampling), mẫu được chọn như thế nào?

A. Chọn mẫu dựa trên phân cụm trước đó
B. Theo một quy tắc nhất định, ví dụ chọn mỗi hàng thứ n trong tập dữ liệu
C. Chọn hoàn toàn ngẫu nhiên từ tập dữ liệu
D. Chọn các bản ghi có giá trị trung bình cao nhất

Câu hỏi 207376:

Khi nào dữ liệu được coi là khả diễn giải (Interpretability)?

A. Khi dữ liệu dễ hiểu và có ý nghĩa đối với người dùng
B. Khi dữ liệu không có giá trị trống
C. Khi dữ liệu có nhiều giá trị số
D. Khi dữ liệu có kích thước nhỏ

Câu hỏi 207375:

Trong Python, rời rạc hóa dữ liệu có thể được thực hiện bằng công cụ nào?

A. DecisionTreeClassifier() từ Scikit-learn
B. groupby() từ Pandas
C. KBinsDiscretizer() từ Scikit-learn
D. LabelEncoder() từ Scikit-learn

Câu hỏi 207374:

Vấn đề định danh thực thể trong tích hợp dữ liệu là gì?

A. Khi một thực thể có nhiều cách biểu diễn khác nhau trong các nguồn dữ liệu
B. Khi dữ liệu bị trùng lặp trong cùng một nguồn
C. Khi dữ liệu bị mất trong quá trình thu thập
D. Khi dữ liệu không có nhãn rõ ràng

Câu hỏi 207373:

Một cách phổ biến để giải quyết vấn đề định danh thực thể là gì?

A. Giữ nguyên tất cả các định dạng từ các nguồn
B. Bỏ qua sự khác biệt giữa các nguồn dữ liệu
C. Sử dụng phương pháp chuẩn hóa dữ liệu để tạo định dạng chung
D. Chỉ sử dụng một nguồn dữ liệu duy nhất

Câu hỏi 207372:

Tính nhất quán (Consistency) của dữ liệu có nghĩa là gì?

A. Dữ liệu không chứa giá trị trùng lặp
B. Dữ liệu không có mâu thuẫn giữa các nguồn
C. Dữ liệu có tính bảo mật cao
D. Dữ liệu luôn được cập nhật

Câu hỏi 207371:

Khi xử lý dữ liệu thiếu của một cột chứa dữ liệu danh mục (categorical), phương pháp nào hợp lý?

A. Loại bỏ tất cả dữ liệu
B. Điền bằng giá trị trung bình
C. Điền bằng số 0
D. Điền bằng giá trị phổ biến nhất

Câu hỏi 207370:

Khi nào nên sử dụng rời rạc hóa dữ liệu (Discretization)?

A. Khi muốn giảm kích thước dữ liệu bằng PCA
B. Khi muốn chuyển đổi dữ liệu liên tục thành các nhóm giá trị rời rạc
C. Khi muốn chuẩn hóa dữ liệu về cùng một tỷ lệ
D. Khi muốn lọc bỏ dữ liệu nhiễu khỏi tập dữ liệu

Câu hỏi 207369:

Khi dữ liệu có quá nhiều thuộc tính không liên quan, phương pháp nào phù hợp để xử lý?

A. Giữ nguyên tất cả thuộc tính để đảm bảo không mất thông tin
B. Chuyển đổi dữ liệu về dạng văn bản để dễ xử lý hơn
C. Sử dụng PCA hoặc lựa chọn đặc trưng
D. Thêm nhiều thuộc tính mới để tăng tính đa dạng

Câu hỏi 207368:

Một trong những yếu tố chất lượng dữ liệu là gì?

A. Dung lượng dữ liệu
B. Tốc độ xử lý
C. Hệ điều hành sử dụng
D. Tính chính xác

Câu hỏi 207367:

Khi nào nên sử dụng phương pháp giảm số lượng dữ liệu (Numerosity Reduction)?

A. Khi muốn thay thế dữ liệu ban đầu bằng một dạng biểu diễn nhỏ hơn
B. Khi muốn giữ nguyên dữ liệu nhưng thay đổi cách tổ chức
C. Khi muốn tăng độ chính xác của dữ liệu bằng cách làm sạch nó
D. Khi muốn tạo thêm dữ liệu từ dữ liệu gốc

Câu hỏi 207366:

Một trong những nguyên nhân gây dư thừa thuộc tính trong dữ liệu là gì?

A. Khi dữ liệu chứa nhiều bản ghi lỗi
B. Khi dữ liệu bị thiếu thông tin quan trọng
C. Khi cùng một thông tin được lưu trữ dưới nhiều dạng khác nhau
D. Khi dữ liệu không được chuẩn hóa đúng cách
Trung tâm giáo dục thể chất và quốc phòng an ninh
Khoa kinh tế
Khoa đào tạo từ xa
Trung tâm đào tạo trực tuyến
Khoa đào tạo cơ bản
Khoa điện - điện tử
Khoa du lịch
Khoa Công nghệ thông tin
Viện Công nghệ sinh học và Công nghệ thực phẩm
Trung tâm đại học Mở Hà Nội tại Đà Nẵng
Khoa tiếng Trung Quốc
Khoa tạo dáng công nghiệp
Khoa tài chính ngân hàng
Khoa Tiếng anh
Khoa Luật

Bản tin HOU-TV số 06 năm 2025

Tuyển sinh đại học Mở Hà Nội - HOU

Rejoining the server...

Rejoin failed... trying again in seconds.

Failed to rejoin.
Please retry or reload the page.

The session has been paused by the server.

Failed to resume the session.
Please retry or reload the page.