Data Collection Cleaning Preprocessing Presentation

The document outlines the essential steps in data science, focusing on data collection, cleaning, and transformation. It emphasizes the importance of accurate data collection for informed decision-making and discusses various data sources and methods. Additionally, it covers the necessity of data cleaning to ensure reliability and introduces data transformation techniques like normalization and standardization.

Uploaded by

Anish Patnaik

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

66 views13 pages

Data Collection Cleaning Preprocessing Presentation

Uploaded by

Anish Patnaik

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

Collection,

Cleaning and
Transformatio
n
INTRODUCTION TO ESSENTIAL DATA
SCIENCE STEPS
Agenda
- Data Collection
- Data Cleaning
- Data Transformation
Importance of Data
Collection
•Why data collection is crucial?
Data collection is crucial because it forms the foundation for informed
decision-making in any field. By gathering accurate and relevant data,
organizations can identify trends, measure performance, and gain insights into
customer behavior, market dynamics, and operational efficiency

•Impact of good data collection on analysis and results

Good data collection enhances the accuracy and reliability of analysis, leading
to more precise and actionable results. It ensures that insights are based on
solid evidence, reducing the risk of errors and improving decision-making
outcomes.
Types of Data
- Structured Data

- Unstructured Data
Common Data Sources
- Surveys and Questionnaires
- Databases and Data Warehouses
- Web Scraping
- APIs and Public Data Sets
Data Collection Methods
Manual Data Collection
◦ Pros – ◦ Cons –
◦ Flexibility and Customization ◦ Time Consuming
◦ Human Insight ◦ Prone to Human Error
◦ Cost-Effective for Small-Scale Projects ◦ Scalability Issues

Automated Data Collection

◦ Pros – ◦ Cons –
◦ Speed and Efficiency ◦ High Initial Costs
◦ Accuracy and Consistency ◦ Lack of Flexibility
◦ Scalability ◦ Technical Issues
Introduction to Data
Cleaning
The necessity of cleaning data before analysis
◦ Data cleaning is essential to remove inaccuracies, inconsistencies, and errors
from datasets, ensuring the reliability of analysis. Clean data leads to more
accurate insights and better decision-making, preventing misleading
conclusions.

Brief overview of common issues in raw data

◦ Missing Data
◦ Duplicate Entries
◦ Inconsistent Formats
◦ Outliers
Handling Missing Values
Types of missing data
◦ Missing Completely at Random (MCAR)
◦ Missing at Random (MAR)
◦ Missing Not at Random (MNAR)

Techniques for handling missing values (e.g., removal, imputation)

◦ Deletion Methods
◦ Listwise Deletion
◦ Pairwise Deletion
◦ Imputation Methods
◦ Mean/Median/Mode Imputation
◦ Predictive Imputation
◦ Multiple Imputation
◦ Time Series Imputation
Dealing with Outliers
Definition of outliers
◦ Outliers are data points that significantly deviate from the rest of the
dataset. They can be much higher or lower than the other values and can
skew or mislead statistical analyses.

Handling Outliers
◦ Identification
◦ Transformation
◦ Removal
◦ Imputation
◦ Segmentation
◦ Modeling
Data Transformation
Aspect Normalization Standardization

Rescales data to a fixed range, usually [0, 1] or [-1, Transforms data to have a mean of 0 and a standard
Definition
1]. deviation of 1.

Does not alter the shape of the distribution; only Alters the distribution by centering it around 0 and
Effect on Distribution
scales it. scaling by standard deviation.

Sensitive to Outliers More sensitive to outliers as they can skew the Less sensitive; outliers may still be present but are
range. scaled differently.

Commonly used in scenarios where data needs to fit Preferred

in statistical analyses and machine
Use Case learning algorithms that assume normally
within a bounded range, e.g., image processing.
distributed data, e.g., linear regression.

Assumes data is within a known range and is Assumes data is normally distributed and is
Assumption
bounded. unbounded.
Example Workflow
Tools for Data Cleaning
and Preprocessing
Python Libraries:
• Pandas
• NumPy
• SciPy
• Scikit-learn

•SQL-Based Tools:
• SQL
• Apache Hive

•Data Visualization Tools:

• Tableau Prep
• Power BI
Q&A

Questions?

Unit 2 Preprocessing in Data Analytics
No ratings yet
Unit 2 Preprocessing in Data Analytics
36 pages
Lec 3 Data Preprocessing and Transformation
No ratings yet
Lec 3 Data Preprocessing and Transformation
73 pages
Chapter - 2 - Cleaning and Transforming Data
No ratings yet
Chapter - 2 - Cleaning and Transforming Data
27 pages
DMDW Unit II
No ratings yet
DMDW Unit II
57 pages
Data Mining
No ratings yet
Data Mining
22 pages
Data Preparation Guide COS10022
No ratings yet
Data Preparation Guide COS10022
61 pages
Data Cleaning
No ratings yet
Data Cleaning
4 pages
Data Preprocessing Essentials
No ratings yet
Data Preprocessing Essentials
9 pages
Foundation of DS
No ratings yet
Foundation of DS
21 pages
Cours Preprocessing
No ratings yet
Cours Preprocessing
23 pages
Data Mining Group Assignment4
No ratings yet
Data Mining Group Assignment4
10 pages
Unit II (DWDM)
No ratings yet
Unit II (DWDM)
19 pages
Study Material Data Preprocessing
No ratings yet
Study Material Data Preprocessing
11 pages
Data Mining for Quality Improvement
100% (1)
Data Mining for Quality Improvement
34 pages
Lec 3 Data Preprocessing and Transformation
No ratings yet
Lec 3 Data Preprocessing and Transformation
66 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
17 pages
C2 - Data Cleaning & Preprocessing
No ratings yet
C2 - Data Cleaning & Preprocessing
59 pages
Estimasi Anggaran Biaya Google Adwords Iklan Website
No ratings yet
Estimasi Anggaran Biaya Google Adwords Iklan Website
54 pages
02 Data - Preprocessing - 4,5,6
No ratings yet
02 Data - Preprocessing - 4,5,6
54 pages
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
No ratings yet
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
36 pages
SCA - Module 3
No ratings yet
SCA - Module 3
48 pages
Data Cleaning and Transformation Techniques
No ratings yet
Data Cleaning and Transformation Techniques
13 pages
Pre Processing
No ratings yet
Pre Processing
52 pages
MFA-106-Unit III Data Preparation and Data Warehousing-16Apr2024
No ratings yet
MFA-106-Unit III Data Preparation and Data Warehousing-16Apr2024
15 pages
DSV-S8 Data Cleaning
No ratings yet
DSV-S8 Data Cleaning
34 pages
Pre Processing
No ratings yet
Pre Processing
68 pages
Understanding Data Cleaning Processes
No ratings yet
Understanding Data Cleaning Processes
8 pages
Data Preprocessing Essentials
No ratings yet
Data Preprocessing Essentials
33 pages
Data Cleaning for Analysts
No ratings yet
Data Cleaning for Analysts
1 page
Essential Steps in Data Preparation
No ratings yet
Essential Steps in Data Preparation
37 pages
DWDM 3
No ratings yet
DWDM 3
12 pages
Preprocessing
No ratings yet
Preprocessing
13 pages
Chapter 2
No ratings yet
Chapter 2
37 pages
22UCS303 DS-Unit II-N
No ratings yet
22UCS303 DS-Unit II-N
71 pages
Session 4
No ratings yet
Session 4
40 pages
Data Science Course Overview
No ratings yet
Data Science Course Overview
34 pages
Data Cleaning: Missing Values: - For Example in Attribute Income If
No ratings yet
Data Cleaning: Missing Values: - For Example in Attribute Income If
30 pages
Lecture Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
No ratings yet
Lecture Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
40 pages
Chap 3
No ratings yet
Chap 3
26 pages
Week 3
No ratings yet
Week 3
23 pages
Module II - Data Processing
No ratings yet
Module II - Data Processing
54 pages
DWM
No ratings yet
DWM
14 pages
Integrating Data From Different Sources
No ratings yet
Integrating Data From Different Sources
11 pages
Mod2 DM
No ratings yet
Mod2 DM
86 pages
Unit 1
No ratings yet
Unit 1
21 pages
FDS UNIT 1 Part2
No ratings yet
FDS UNIT 1 Part2
47 pages
Exploratory Data
No ratings yet
Exploratory Data
47 pages
2 Data Preprocessing
No ratings yet
2 Data Preprocessing
57 pages
Mod1 DM Part2
No ratings yet
Mod1 DM Part2
34 pages
Introduction To Data Science: Data Science Methodology & Data Preparation DR Shuhaida Mohamed Shuhidan Jan 2025
No ratings yet
Introduction To Data Science: Data Science Methodology & Data Preparation DR Shuhaida Mohamed Shuhidan Jan 2025
34 pages
Data Preprocessing for Tech Students
No ratings yet
Data Preprocessing for Tech Students
59 pages
Ba CH-2
No ratings yet
Ba CH-2
6 pages
M 2.3 Data Preprocessing
No ratings yet
M 2.3 Data Preprocessing
22 pages
Exploratory Data Analysis Guide
No ratings yet
Exploratory Data Analysis Guide
33 pages
EDA Guide for Data Analysts
No ratings yet
EDA Guide for Data Analysts
35 pages
Unit 2 Data Preprocessing
No ratings yet
Unit 2 Data Preprocessing
66 pages
Introduction To Data Science
No ratings yet
Introduction To Data Science
33 pages
Data Cleaning and Preparation
No ratings yet
Data Cleaning and Preparation
20 pages
Linear Algebra For Image Processing
No ratings yet
Linear Algebra For Image Processing
31 pages
O LVL A Math 1 Simultaneous Equations Notes - Textmark
No ratings yet
O LVL A Math 1 Simultaneous Equations Notes - Textmark
8 pages
Transformer-Based Models in Natural Language Processing
No ratings yet
Transformer-Based Models in Natural Language Processing
3 pages
Stock Prediction via Sentiment Analysis
No ratings yet
Stock Prediction via Sentiment Analysis
5 pages
Relativistic Momentum and Energy Concepts
No ratings yet
Relativistic Momentum and Energy Concepts
22 pages
Sheets-BAS111 Numerical Analysis-Part
No ratings yet
Sheets-BAS111 Numerical Analysis-Part
6 pages
ASCE - SEI 41-13 - Seismic Evaluation and Retrofit of Existing Buildings - 7 CRITERIA - InDICE
No ratings yet
ASCE - SEI 41-13 - Seismic Evaluation and Retrofit of Existing Buildings - 7 CRITERIA - InDICE
2 pages
Common Univariate Random Variables
No ratings yet
Common Univariate Random Variables
3 pages
CEA Control Systems
No ratings yet
CEA Control Systems
5 pages
Practice Questions For Simulation Lab - R
No ratings yet
Practice Questions For Simulation Lab - R
3 pages
Comprehensive Index of General Relativity Concepts
No ratings yet
Comprehensive Index of General Relativity Concepts
4 pages
Characteristics of Binomial Experiments
No ratings yet
Characteristics of Binomial Experiments
3 pages
Transportation and Assignment Models Guide
No ratings yet
Transportation and Assignment Models Guide
46 pages
Focal Loss
No ratings yet
Focal Loss
7 pages
Machine Learning in Wireless Systems
No ratings yet
Machine Learning in Wireless Systems
16 pages
Chapter 7 Algorithms Cs
No ratings yet
Chapter 7 Algorithms Cs
10 pages
Ensemble Learning in Machine Learning
No ratings yet
Ensemble Learning in Machine Learning
124 pages
Solutions of Nonlinear Equations
No ratings yet
Solutions of Nonlinear Equations
68 pages
LP-II Oral Questions
No ratings yet
LP-II Oral Questions
2 pages
Research Article: Improved KNN Algorithm Based On Preprocessing of Center in Smart Cities
No ratings yet
Research Article: Improved KNN Algorithm Based On Preprocessing of Center in Smart Cities
10 pages
Somshekhar Savanur (2kl20ec119)
No ratings yet
Somshekhar Savanur (2kl20ec119)
17 pages
7:46 PM Me: Hello Sir !
No ratings yet
7:46 PM Me: Hello Sir !
9 pages
EX506
No ratings yet
EX506
22 pages
Linear Equation
No ratings yet
Linear Equation
6 pages
Wang Et Al. - 2020 - Artificial Intelligence Enabled Wireless Networkin
No ratings yet
Wang Et Al. - 2020 - Artificial Intelligence Enabled Wireless Networkin
8 pages
5.2 Fundamentals of Equalization: Wireless Communications 104
No ratings yet
5.2 Fundamentals of Equalization: Wireless Communications 104
2 pages
37 4 Hyprgmytrc Dist
No ratings yet
37 4 Hyprgmytrc Dist
8 pages
CST301 Formal Languages and Automata Theory, November 2024
No ratings yet
CST301 Formal Languages and Automata Theory, November 2024
2 pages
Midterm-Sample-Paper-2 Solution
No ratings yet
Midterm-Sample-Paper-2 Solution
7 pages
FunAI Assignment Week 7
No ratings yet
FunAI Assignment Week 7
4 pages

Data Collection Cleaning Preprocessing Presentation

Uploaded by

Data Collection Cleaning Preprocessing Presentation

Uploaded by

Collection,

•Impact of good data collection on analysis and results

Automated Data Collection

Brief overview of common issues in raw data

Techniques for handling missing values (e.g., removal, imputation)

Commonly used in scenarios where data needs to fit Preferred

•Data Visualization Tools:

You might also like