intro.Rmd

# Introducción {-}

La demanda de profesionales cualificados en ciencias de datos en la industria, la academia y el gobierno está creciendo rápidamente. Este libro presenta conceptos y destrezas que pueden ayudarles a enfrentar los desafíos del análisis de datos en situaciones reales. El texto abarca los conceptos de probabilidad, inferencia estadística, regresión lineal y _machine learning_. También les ayudará a desarrollar destrezas como la programación en R, el _wrangling_ de datos, __dplyr__, la visualización de datos con __ggplot2__, la creación de algoritmos con __caret__, la organización de archivos con UNIX/Linux _shell_, el control de versiones con Git y GitHub y la preparación de documentos reproducibles con __knitr__ y R markdown. El libro se divide en seis partes: __R__, __Visualización de datos__, ___Wrangling_ de datos__, __Estadísticas con R__, ___Machine Learning___ y __Herramientas de productividad__. Cada parte tiene varios capítulos que se deben presentar como una sola clase e incluye docenas de ejercicios distribuidos a través de los capítulos.

## Los casos de estudio {-}

A lo largo del libro, utilizamos casos de estudio motivantes. En cada caso de estudio, intentamos imitar de manera realista la experiencia de los científicos de datos. Para cada uno de los conceptos que discutimos, comenzamos haciendo preguntas específicas a las que entonces respondemos mediante un análisis de datos. Aprendemos los conceptos como un medio para responder a las preguntas. Ejemplos de los casos de estudio que incluimos en este libro son:

| Caso de estudio | Concepto |
| ---- | ---| --- |
| Tasas de asesinatos en Estados Unidos por estado | Conceptos básicos de R|
| Alturas de estudiantes | Resúmenes estadísticos |
| Tendencias en la salud y la economía mundial | Visualización de datos |
| El impacto de las vacunas en las tasas de enfermedades infecciosas | Visualización de datos |
| La crisis financiera de 2007-2008 | Probabilidad |
| Previsión de elecciones | Inferencia estadística |
| Alturas autoreportadas de estudiantes | _Wrangling_ de datos |
| _Moneyball_: Construyendo un equipo de béisbol | Regresión lineal |
| MNIST: Procesamiento de imagen de dígitos escritos a mano | _Machine Learning_ |
| Sistemas de recomendación de películas | _Machine Learning_ |

## ¿Quién encontrará útil este libro? {-}

El próposito de este libro es servir como un texto para un primer curso de ciencia de datos. No es necesario tener conocimientos previos de R, aunque algo de experiencia en la programación puede ser útil. Los conceptos estadísticos utilizados para responder a las preguntas de los casos de estudio se presentan solo brevemente y, por lo tanto, recomendamos un libro de texto de probabilidad y estadística para los que quieran entender a fondo estos conceptos. Al leer y comprender todos los capítulos y completar todos los ejercicios, los estudiantes estarán bien posicionados para realizar tareas básicas de análisis de datos y aprender los conceptos y las destrezas más avanzadas que son necesarios para convertirse en expertos.

## ¿Que cubre este libro? {-}

Comenzamos repasando los **conceptos básicos de R** y el __tidyverse__. Aprenderán R a lo largo del libro, pero en la primera parte nos dedicamos a revisar los componentes básicos necesarios para seguir aprendiendo.

La creciente disponibilidad de sets de datos informativos y de herramientas de software ha conducido a que más y más campos dependan de la **visualización de datos**. En la segunda parte, demostramos cómo usar __ggplot2__ para generar gráficos y describir principios importantes de la visualización de datos.

En la tercera parte, demostramos la importancia de las estadísticas en el análisis de datos respondiendo a preguntas de estudios de caso usando la **probabilidad**, la **inferencia** y la **regresión** con R.

La cuarta parte utiliza varios ejemplos para familiarizar a los lectores con el **_wrangling_ de datos**. Entre las destrezas específicas que estudiamos están la extracción de la web (_web scraping_ en inglés), el uso de expresiones regulares y la unión y el cambio de formato de tablas de datos. Hacemos esto usando las herramientas de __tidyverse__.

En la quinta parte presentamos varios desafíos que nos llevan a introducir **_machine learning_**. Aprendemos a usar el paquete __caret__ para construir algoritmos de predicción que incluyen k vecinos más cercanos y bosques aleatorios.

En la parte final, ofrecemos una breve introducción a las **herramientas de productividad** que usamos diariamente en los proyectos de ciencia de datos. Estas son RStudio, UNIX/Linux shell, Git y GitHub, y __knitr__ y R Markdown.

## ¿Qué no cubre este libro? {-}

Este libro se enfoca en los aspectos del análisis de datos de la ciencia de datos. Por consiguiente, no discutimos aspectos relacionados con el manejo de datos (_data management_ en inglés) o la ingeniería. Aunque la programación en R es una parte esencial del libro, no enseñamos temas informáticos más avanzados como las estructuras de datos, la optimización y la teoría de algoritmos. Del mismo modo, no discutimos temas como los servicios web, los gráficos interactivos, la computación paralela y el procesamiento de flujos de datos (_data streaming processing_ en inglés). Los conceptos estadísticos se presentan principalmente como herramientas para resolver problemas y no se incluyen descripciones teóricas detalladas en este libro.