Chào mừng bạn đến blog Cốc Cốc News Tin Tức Trang Chủ

Table of Content

Clip Ví dụ về làm sạch dữ liệu ?

Mẹo về Ví dụ về làm sạch tài liệu 2022

Hà Quang Phong đang tìm kiếm từ khóa Ví dụ về làm sạch tài liệu được Update vào lúc : 2022-10-29 01:15:06 . Với phương châm chia sẻ Kinh Nghiệm về trong nội dung bài viết một cách Chi Tiết 2022. Nếu sau khi tham khảo Post vẫn ko hiểu thì hoàn toàn có thể lại Comment ở cuối bài để Mình lý giải và hướng dẫn lại nha.

Dữ liệu sau khi đã được nhập chưa thể đưa ngay vào xử lý, phân tích bởi hoàn toàn có thể còn nhiều lỗi nên phải được vô hiệu do:

    Chất lượng của việc khảo sát: người trả lời hiểu sai thắc mắc dẫn đến tài liệu thu thập sai; người được khảo sát trả lời qua loa cho xong, không hợp tác để hoàn thành xong tốt cuộc phỏng vấn; người được khảo sát vì nhiều nguyên do hoàn thành xong không đầy đủ phiếu khảo sát; người thực hiện khảo sát ghi chép nhầm,…Lỗi nhập liệu: trong quá trình nhập liệu kết quả từ phiếu khảo sát vào phần mềm, người nhập tài liệu nhập thiếu, thừa hoặc sai tài liệu.

Các lỗi phát sinh hoàn toàn có thể đến từ những nguyên do chủ quan hoặc nguyên do khách quan. Nếu có quá nhiều lỗi trong tài liệu, những kết quả thống kê, phân tích sẽ không hề đúng chuẩn, thậm chí một số trong những trường hợp lỗi tài liệu làm cho toàn bộ tài liệu khảo sát bị hủy bỏ.

Ví dụ về làm sạch dữ liệu

Dưới đây là 2 phương pháp làm sạch tài liệu phổ biến được những nhà nghiên cứu và phân tích sử dụng để nhận diện những tài liệu sai lệch, outlier.

1. Dùng bảng tần số

Lập bảng tần số cho tất cả những biến, đọc soát để tìm những giá trị lạ như ví dụ ở mục 3.1. Sau đó, tại những biến có tài liệu lỗi, sử dụng lệnh tìm kiếm/thay thế Find and Replace để tìm giá trị lỗi và sửa đổi. Cách lập bảng tần số những bạn sẽ làm quen ở chương 4, còn phương pháp dùng lệnh Find tìm giá trị lỗi tác giả sẽ trình bày ngay dưới đây.

Ở giao diện Data View, nhấp chuột vào tên biến đầu cột để chọn cột biến có mức giá trị bị lỗi. Tác giả sẽ thực hành ví dụ với biến Giới tính:

Ví dụ về làm sạch dữ liệu

Có sự bất hợp lý ở đây khi biến Giới tính chỉ có 2 giá trị 1, 2 tương ứng với Nam, Nữ nhưng bảng thống kê tần số xuất hiện giá trị 3, 11, 12 và 1 giá trị Missing, cần rà soát lại những tài liệu lỗi này. Sau khi chọn cột biến Giới tính, vào Edit > Find hoặc nhấn tổ hợp phím Ctrl + F để mở hộp thoại Find and Replace.

Ví dụ về làm sạch dữ liệu

Nhập giá trị 11 vào ô Find, nhấp nút Find Next thì vị trí của ô chứa giá trị lỗi 11 sẽ đổi sang màu vàng và những vùng khác sẽ có white color mặc định.

Ví dụ về làm sạch dữ liệu

Dò ngược lại số thứ tự hàng, giá trị lỗi 11 vừa tìm được nằm ở hàng số 14, kiểm tra lại phiếu khảo sát số 14 và sửa giá trị lỗi. Nếu có nhiều giá trị 11, những bạn tiếp tục nhấn Find Next để tìm hết những lỗi và sửa đổi.

2. Dùng bảng phối hợp

Sử dụng bảng phối hợp 2, 3 biến rồi nhờ vào những quan hệ hợp lý để tìm ra lỗi. Cách lập bảng phối hợp những bạn sẽ làm quen ở chương 4. Ví dụ như khi lập bảng phối hợp biến tuổi với học vấn, bạn phát hiện có trường hợp tuổi chỉ có 15 tuổi nhưng học vấn lại là sau đại học, tức là hoặc tài liệu biến tuổi hoặc biến học vấn đã bị nhập sai. Để tìm và sửa lỗi, tất cả chúng ta sẽ sử dụng lệnh Select Case trong SPSS. Tác giả sẽ thực hành ví dụ bảng phối hợp giữa biến Độ tuổi và biến Học vấn:

Ví dụ về làm sạch dữ liệu

Nhận thấy rằng đang có sự bất hợp lý ở đây khi độ tuổi dưới 18 lại sở hữu trình độ học vấn trên đại học, cần kiểm tra lại tài liệu lỗi này bằng lệnh Select Cases. Vào Data  > Select Cases… Hộp thoại Select Cases xuất hiện.

Ví dụ về làm sạch dữ liệu

Tích chọn vào mục If condition is sastified, sau đó nhấp vào nút If… ngay bên dưới để mở hộp thoại điều kiện lọc.

Ví dụ về làm sạch dữ liệu

Nhập hàm vào khung điều kiện: DoTuoi=1 & HocVan=3 để lọc ra những trường hợp có độ tuổi dưới 18 và học vấn trên đại học. Trong số đó DoTuoi, HocVan là tên gọi biến được mã hóa trong file tài liệu. Mức giá trị 1 của độ tuổi là “Dưới 18 tuổi”, mức giá trị 3 của học vấn là “Trên đại học”. Sau khi đã nhập hàm xong, tiếp tục nhấp vào nút Continue, sau đó chọn OK.

Ví dụ về làm sạch dữ liệu

Ví dụ về làm sạch dữ liệu

Khi lệnh này được thực hiện, SPSS tạo ra một biến mới mang tên filter_$, biến này nhận giá trị 0 tại tất cả những tình huống không thỏa mãn và nhận giá trị 1 tại những tình huống thỏa điều kiện của lệnh If, tức là tình huống có sai sót. Lưu ý, biến filter_$ chỉ là biến tạm, khi bạn thực hiện một lệnh Select Cases mới, biến này sẽ mất đi. Bên cạnh đó, những ô thứ tự hàng sẽ được gạch chéo tại những hàng không thỏa điều kiện (giá trị filter_$ là 0), những ô không còn dấu gạch chéo nghĩa là hàng này thỏa điều kiện lọc (giá trị filter_$ là một trong).

Ví dụ về làm sạch dữ liệu

Sau khi đã lọc ra được những hàng theo điều kiện, một vấn đề khác phát sinh đó là nếu số lượng hàng quá lớn thì việc tìm được hàng chứa giá trị lỗi (dòng có mức giá trị 1 ở cột filter_$ và không biến thành gạch chéo ô thứ tự hàng) sẽ rất mất thời gian và công sức của con người. Lúc này, bạn cần sử dụng đến sự trợ giúp của lệnh Sort Case bằng phương pháp vào Data > Sort Cases…

Ví dụ về làm sạch dữ liệu

Hộp thoại Sort Cases xuất hiện, đưa biến bạn muốn sắp xếp thứ tự vào khung Sort by. Cụ thể trong ví dụ này là biến filter_$. Chọn hình thức sắp xếp tăng dần (Ascending) hoặc giảm dần (Descending). Nếu sắp xếp giảm dần thì những hàng mang giá trị 1 sẽ ở trên cùng và ngược lại. Tiếp tục nhấp vào OK.

Ví dụ về làm sạch dữ liệu

Sau khi đã sắp xếp thứ tự giá trị của cột biến filter_$, tiến hành kiểm tra những hàng chứa giá trị nằm trong điều kiện lọc để tìm tài liệu bị lỗi và sửa đổi.

Cũng cần để ý quan tâm rằng, bất kể lúc nào đã thực hiện thành công lệnh Select Cases, bạn phải trở lại giao diện cửa số Select Cases và trả lại trạng thái tài liệu thông thường All Case, nếu không những lệnh thống kê sau đó sẽ chỉ được thực hiện với những trường hợp được lọc.

Ví dụ về làm sạch dữ liệu

Trên đây là 2 phương pháp làm sạch tài liệu bằng SPSS được sử dụng nhiều lúc bấy giờ, ngoài ra còn nhiều phương pháp khác những bạn hoàn toàn có thể tìm kiếm thêm trên Internet. Tuy nhiên, nguyên tắc để có một bộ tài liệu tốt vẫn là “phòng bệnh hơn chữa bệnh”, để hạn chế cao nhất những lỗi tài liệu phát sinh về sau, tất cả chúng ta cần làm tốt những giải pháp ngăn ngừa lỗi sau:

    Thiết kế bảng khảo sát rõ ràng, tham khảo qua sự đánh giá của những Chuyên Viên, giảng viên hướng dẫn.Thiết kế bảng khảo sát nên sử dụng “thắc mắc gài” và “thắc mắc đảo ngược đáp án” để vô hiệu những bảng khảo sát kém chất lượng, người được khảo sát trả lời qua loa. Các bạn hoàn toàn có thể tham khảo 2 dạng thắc mắc này tại nội dung bài viết Câu hỏi gài trong xây dựng bảng thắc mắc khảo sát.Các thắc mắc khảo sát nên phải dễ hiểu để người trả lời hoàn toàn có thể đưa ra đánh giá, câu trả lời đúng chuẩn vấn đề được hỏi.Thực hiện khảo sát sơ bộ để đưa ra những điều chỉnh thiết yếu trước khi đi vào khảo sát chính thức quy mô lớn.Lựa chọn người trả lời một cách tinh lọc, những đáp viên không còn thái độ tương hỗ hoặc không nằm trong nhóm đối tượng khảo sát sẽ đưa ra những đánh giá không phù hợp, làm sai lệch kết quả so với thực tế.Bảng khảo sát sau khi thu về, nên phải được rà soát lỗi, sửa đổi trước khi tiến hành nhập liệu.

Post Views: 7,590

Tải thêm tài liệu liên quan đến nội dung bài viết Ví dụ về làm sạch tài liệu Hỏi Đáp Ví dụ

Review Ví dụ về làm sạch tài liệu ?

Bạn vừa tham khảo nội dung bài viết Với Một số hướng dẫn một cách rõ ràng hơn về Video Ví dụ về làm sạch tài liệu tiên tiến nhất

Share Link Cập nhật Ví dụ về làm sạch tài liệu miễn phí

Bạn đang tìm một số trong những ShareLink Tải Ví dụ về làm sạch tài liệu miễn phí.

Giải đáp thắc mắc về Ví dụ về làm sạch tài liệu

Nếu sau khi đọc nội dung bài viết Ví dụ về làm sạch tài liệu vẫn chưa hiểu thì hoàn toàn có thể lại Comment ở cuối bài để Ad lý giải và hướng dẫn lại nha #Ví #dụ #về #làm #sạch #dữ #liệu - 2022-10-29 01:15:06 Ví dụ về làm sạch tài liệu

Post a Comment