Nhập môn Khai phá dữ liệu và máy học - IT61 (60)

Câu hỏi 21640:

Tích hợp dữ liệu là gì?

A. Quá trình phân loại dữ liệu theo nhóm
B. Quá trình kết hợp dữ liệu từ nhiều nguồn khác nhau
C. Quá trình giảm kích thước tập dữ liệu
D. Quá trình làm sạch dữ liệu trước khi sử dụng

Câu hỏi 21639:

Làm thế nào để phát hiện dữ liệu trùng lặp trong quá trình tích hợp?

A. Xóa toàn bộ dữ liệu có cùng một ID
B. Chuyển đổi dữ liệu sang định dạng văn bản để so sánh
C. Tăng kích thước tập dữ liệu để kiểm tra trực quan
D. Sử dụng thuật toán so khớp dữ liệu để xác định bản ghi giống nhau

Câu hỏi 21638:

Dữ liệu nhiễu là gì?

A. Dữ liệu dư thừa
B. Dữ liệu bị mất
C. Dữ liệu thiếu đơn vị đo
D. Dữ liệu không phản ánh đúng thực tế

Câu hỏi 21637:

Xung đột dữ liệu trong tích hợp dữ liệu là gì?

A. Khi cùng một thuộc tính có giá trị khác nhau giữa các nguồn dữ liệu
B. Khi dữ liệu không có đủ thuộc tính để sử dụng
C. Khi dữ liệu không được cập nhật kịp thời
D. Khi dữ liệu bị trùng lặp trong cùng một bảng

Câu hỏi 21636:

Việc tạo hệ thống phân cấp khái niệm (Concept Hierarchy) có tác dụng gì?

A. Giúp phát hiện dữ liệu ngoại lai dễ dàng hơn
B. Giúp tổ chức dữ liệu theo các mức độ trừu tượng khác nhau
C. Giúp giảm kích thước tập dữ liệu bằng PCA
D. Giúp mô hình học máy chạy nhanh hơn

Câu hỏi 21635:

Một ví dụ nào sau đây thể hiện dữ liệu có tính khả tín (Believability) cao?

A. Dữ liệu từ một trang web cá nhân
B. Dữ liệu từ mạng xã hội
C. Dữ liệu từ một bài báo không rõ nguồn gốc
D. Dữ liệu được công bố trong tạp chí khoa học uy tín

Câu hỏi 21634:

Phương pháp nào giúp phát hiện và loại bỏ dữ liệu nhiễu dựa trên mô hình hồi quy?

A. Binning
B. Phân cụm
C. Hồi quy
D. Điền dữ liệu thiếu

Câu hỏi 21633:

Chất lượng dữ liệu được đánh giá dựa trên bao nhiêu yếu tố chính?

A. 3
B. 5
C. 6
D. 4

Câu hỏi 21631:

Giảm kích thước dữ liệu nhằm mục đích gì?

A. Giảm lượng dữ liệu lưu trữ mà vẫn giữ lại thông tin quan trọng
B. Loại bỏ tất cả dữ liệu không liên quan
C. Chuyển đổi dữ liệu thành văn bản để dễ đọc hơn
D. Tăng độ phức tạp của mô hình học máy

Câu hỏi 21629:

Vì sao cần kết hợp nhiều phương pháp khi làm sạch dữ liệu?

A. Vì mỗi phương pháp có ưu và nhược điểm riêng
B. Để tăng độ phức tạp của quá trình tiền xử lý
C. Vì mỗi phương pháp có ưu và nhược điểm riêng và không có phương pháp nào có thể làm sạch dữ liệu hoàn toàn
D. Vì không có phương pháp nào có thể làm sạch dữ liệu hoàn toàn

Câu hỏi 207395:

Mối liên hệ giữa toán học và DMML (Khai phá dữ liệu và Máy học) là gì?

A. Đại số tuyến tính giúp biểu diễn dữ liệu dưới dạng ma trận
B. Tất cả các đáp án đều đúng
C. Xác suất thống kê giúp phân tích dữ liệu không chắc chắn
D. Giải tích hỗ trợ xử lý dữ liệu phi tuyến tính

Câu hỏi 207394:

Có những thách thức nào với khai phá dữ liệu?

A. Thay đổi cấu trúc dữ liệu liên tục
B. Giảm chiều của dữ liệu để tăng tốc độ xử lý
C. Tất cả các đáp án đều đúng
D. Xử lý nhiễu trong dữ liệu

Câu hỏi 207393:

Học không giám sát khác học có giám sát ở điểm nào?

A. Học có giám sát không dự đoán được kết quả
B. Học không giám sát không cần dữ liệu nhãn
C. Học không giám sát sử dụng cây quyết định
D. Học không giám sát sử dụng dữ liệu có nhãn

Câu hỏi 207392:

Khai phá dữ liệu (Data Mining) là gì?

A. Sử dụng các công cụ trực quan hóa để trình bày dữ liệu
B. Tìm kiếm dữ liệu trên internet
C. Tạo báo cáo từ dữ liệu đã phân tích
D. Phát hiện thông tin hữu ích từ dữ liệu lớn

Câu hỏi 207391:

Thuật toán hồi quy trong học máy thường được sử dụng để làm gì?

A. Nhóm các phần tử giống nhau
B. Phân loại dữ liệu
C. Dự đoán giá trị liên tục
D. Giảm chiều dữ liệu

Câu hỏi 207390:

Tại sao Python là lựa chọn phổ biến trong DMML?

A. Vì chỉ hoạt động trên một hệ điều hành cụ thể
B. Vì nó là ngôn ngữ lập trình thương mại
C. Vì cú pháp phức tạp phù hợp với chuyên gia
D. Vì có nhiều thư viện hỗ trợ cho khai phá dữ liệu và máy học

Câu hỏi 207389:

Khi xây dựng mô hình máy học, bước tiền xử lý dữ liệu đóng vai trò gì?

A. Là bước cuối cùng để kiểm tra mô hình
B. Là bước phân phối mô hình đã xây dựng
C. Là bước loại bỏ nhiễu và chuẩn hóa dữ liệu
D. Là bước để xây dựng thuật toán học sâu

Câu hỏi 207388:

Trong Weka, chức năng nào được sử dụng để thực hiện phân cụm dữ liệu?

A. Associate
B. Cluster
C. Classify
D. Preprocess

Câu hỏi 207387:

Điểm khác biệt chính giữa học sâu (Deep Learning) và học máy truyền thống là gì?

A. Học sâu không sử dụng mạng nơ-ron nhân tạo
B. Học sâu tự động học đặc trưng từ dữ liệu
C. Học sâu chỉ sử dụng các thuật toán tuyến tính
D. Học sâu không cần dữ liệu để huấn luyện

Câu hỏi 207386:

Kỹ thuật nào sau đây không thuộc về khai phá dữ liệu?

A. Phân cụm
B. Tạo đồ thị
C. Luật kết hợp
D. Phân lớp
Trung tâm giáo dục thể chất và quốc phòng an ninh
Khoa kinh tế
Khoa đào tạo từ xa
Trung tâm đào tạo trực tuyến
Khoa đào tạo cơ bản
Khoa điện - điện tử
Khoa du lịch
Khoa Công nghệ thông tin
Viện Công nghệ sinh học và Công nghệ thực phẩm
Trung tâm đại học Mở Hà Nội tại Đà Nẵng
Khoa tiếng Trung Quốc
Khoa tạo dáng công nghiệp
Khoa tài chính ngân hàng
Khoa Tiếng anh
Khoa Luật

Bản tin HOU-TV số 06 năm 2025

Tuyển sinh đại học Mở Hà Nội - HOU

Rejoining the server...

Rejoin failed... trying again in seconds.

Failed to rejoin.
Please retry or reload the page.

The session has been paused by the server.

Failed to resume the session.
Please reload the page.