Difference between revisions of "Data Preprocessing"

Revision as of 11:09, 19 September 2020

Splitting Data - training and testing sets

Time-Series Data

Categorical Variables

All about Categorical Variable Encoding | Baijayanta Roy - Towards Data Science

Categorical variables require special attention in regression analysis because, unlike dichotomous or continuous variables, they cannot by entered into the regression equation just as they are. Instead, they need to be recoded into a series of variables which can then be entered into the regression model. There are a variety of coding systems that can be used when recoding categorical variables. Coding Systems for Categorical Variables In Regression Analysis | UCLA institute for Digital Research & Education Statistical Consulting

@@ Line 9: / Line 9: @@
 * [[Data Cleaning]]
-* [http://scikit-learn.org/stable/modules/preprocessing.html Sklearn.preprocessing]
-* The Passenger Screening Kaggle challenge [http://www.kaggle.com/c/passenger-screening-algorithm-challenge/discussion/45805 1st place solution] was won in part due to data preparation/generation.
-* [http://towardsdatascience.com/data-pre-processing-techniques-you-should-know-8954662716d6 Data Pre Processing Techniques You Should Know | Maneesha Rajaratne - Towards Data Science]
-* [http://medium.com/datadriveninvestor/machine-learning-ml-data-preprocessing-5b346766fc48 Machine Learning(ML) — Data Preprocessing | Raji Adam Bifola]
-* [http://sci2s.ugr.es/most-influential-preprocessing Most Influential Data Preprocessing Algorithms | S. García, J. Luengo, F. Herrera]
-* [http://www.kdnuggets.com/2019/05/fix-unbalanced-dataset.html How to fix an Unbalanced Dataset | Will Badr -] [[Amazon | Amazon Web Services]]
-* [http://docs.aws.amazon.com/machine-learning/latest/dg/creating-and-using-datasources.html Creating and Using Datasources |] [[Amazon | Amazon Web Services]]
 * [[Datasets]]
 * [[Imbalanced Data]]
@@ Line 24: / Line 17: @@
 * [[Data Augmentation, Data Labeling, and Auto-Tagging]]
 * [[Visualization]]
+* [[Master Data Management  (MDM) / Feature Store / Data Lineage / Data Catalog]]
 * [[Python]]
-* [[Master Data Management  (MDM) / Feature Store / Data Lineage / Data Catalog]]
+* [http://scikit-learn.org/stable/modules/preprocessing.html Sklearn.preprocessing]
+* The Passenger Screening Kaggle challenge [http://www.kaggle.com/c/passenger-screening-algorithm-challenge/discussion/45805 1st place solution] was won in part due to data preparation/generation.
+* [http://towardsdatascience.com/data-pre-processing-techniques-you-should-know-8954662716d6 Data Pre Processing Techniques You Should Know | Maneesha Rajaratne - Towards Data Science]
+* [http://medium.com/datadriveninvestor/machine-learning-ml-data-preprocessing-5b346766fc48 Machine Learning(ML) — Data Preprocessing | Raji Adam Bifola]
+* [http://sci2s.ugr.es/most-influential-preprocessing Most Influential Data Preprocessing Algorithms | S. García, J. Luengo, F. Herrera]
+* [http://www.kdnuggets.com/2019/05/fix-unbalanced-dataset.html How to fix an Unbalanced Dataset | Will Badr -] [[Amazon | Amazon Web Services]]
+* [http://docs.aws.amazon.com/machine-learning/latest/dg/creating-and-using-datasources.html Creating and Using Datasources |] [[Amazon | Amazon Web Services]]
 * [http://github.com/jontupitza Jon Tupitza Famous Jupyter Notebooks:]
 ** [http://github.com/JonTupitza/Data-Science-Process/blob/master/01-Data-Preparation.ipynb Data Preparation 01]

Difference between revisions of "Data Preprocessing"

Revision as of 11:09, 19 September 2020

Contents

Splitting Data - training and testing sets

Time-Series Data

Categorical Variables

SQL Database Optimization

Navigation menu

Personal tools

Namespaces

Variants

Views

More

Search

Navigation

Tools