11.1 संपादन, कोडिंग और सारणीयन
(Data Processing: Editing, Coding, Tabulation)
प्रस्तावना: जब हम डेटा इकट्ठा करते हैं, तो वह 'कच्चा' (Raw Data) होता है—अव्यवस्थित, त्रुटिपूर्ण और बिखरा हुआ। विश्लेषण से पहले इसे साफ-सुथरा और व्यवस्थित करना जरूरी है। इसे ही डेटा प्रोसेसिंग कहते हैं।
(Editing)
(Coding)
(Tabulation)
डेटा प्रोसेसिंग गंदे कपड़ों को धोने जैसा है:
1. संपादन: जेब चेक करना (फटे कपड़े अलग करना, कचरा हटाना)।
2. कोडिंग: टैग लगाना (सफेद अलग, रंगीन अलग, ऊनी अलग)।
3. सारणीयन: अलमारी में तय करके रखना (शर्ट एक तरफ, पैंट दूसरी तरफ)।
कच्चे डेटा की जांच करना ताकि उसमें से गलतियों, कमियों और विसंगतियों को हटाया जा सके।
- उद्देश्य: डेटा को पूर्ण (Complete), सुसंगत (Consistent) और सटीक (Accurate) बनाना।
- कार्य: अगर किसी ने फॉर्म में उम्र "200 साल" लिखी है, तो उसे ठीक करना या हटाना।
गुणात्मक उत्तरों (शब्दों) को सांख्यिकीय विश्लेषण के लिए संख्यात्मक प्रतीकों (Numbers/Symbols) में बदलना। कंप्यूटर शब्दों को नहीं, नंबरों को समझता है।
उत्तर: पुरुष → Code: 1
उत्तर: महिला → Code: 2
उत्तर: अन्य → Code: 3
(इसे 'Codebook' बनाना कहते हैं।)
डेटा को संक्षिप्त और तार्किक क्रम में पंक्तियों (Rows) और स्तंभों (Columns) में व्यवस्थित करना। यह डेटा को पढ़ने योग्य बनाता है।
निष्कर्ष: "बिना संपादन के डेटा 'कचरा' है, बिना कोडिंग के 'गूंगा' है, और बिना सारणीयन के 'बिखरा' हुआ है। ये तीनों मिलकर ही डेटा को 'सूचना' (Information) बनाते हैं।"
