Todo viaje comienza con un primer paso, y por eso una pregunta que recibimos regularmente en ixpantia pero que no es fácil de responder es: “Como puedo aprender ciencia de datos”. Es una de esas preguntas donde la única respuesta correcta es “depende’. Depende te tus intereses, aptitudes, necesidades profesionales y la cantidad de tiempo que tienes disponible para estudiar y practicar. Al fin de cuentas la respuesta es diferente para cada persona.
Quizás lo más importante es ser lo suficientemente honesto contigo mismo para diferenciar entre interés y aptitud. Hay tantos campos dentro de ciencia de datos que la clave está en encontrar lo que te hace feliz hacer, que ojalá sea algo que logras absorber con suficiente facilidad para que no te desanimes.
Hay una respuesta a una pregunta similar sobre matemáticas que usa un desglose útil.
Al principio toma tantos cursos introductorios como puedas y terminales, inclusive cuando ya te aburren, a menos que después de los primeros dos vídeos dices: esto no es para mi (esta bien cuando eso pasa!). Como hay tantas áreas en que te puedes especializar, es bueno tomar un poco de tiempo para entender que tan amplio es el campo. Y aún si dejas algunos de esos temas a un lado es bueno saber que existen para que puedas buscar el apoyo correspondiente en un proyecto futuro.
Para explorar sobre el tema y escuchar sobre experiencia de otros están los Data Latam Podcasts en www.datalatam.com para inspirarte con ideas de gente en las trincheras de datos.
Mi recomendación personal es la siguiente: Si aun no sabes programar escoge R y deja Python por ahora a un lado (a menos que tengas una necesidad puntual para aprenderlo, de ser así escoge Python y deja R a un lado). R y Python son diferentes en la forma en que te expresas, y es mejor tener una buena base en una antes de aproximar el siguiente lenguaje de programación.
No te desgastes en debatir si uno es mejor que el otro: El que tu escojas es el mejor para ti. Asimismo, si ya sabes programar, sigue en el lenguaje que conozcas hasta que te sientas cómodo y te expreses de forma fluida, antes de comenzar con uno nuevo. Después de R y Python hay un mundo abierto de cosas por aprender, donde ya depende de lo que necesites para tu especialidad, o proyecto actual.
Antes de comenzar a aprender a programar, toma el tiempo para revisar tus bases en estadísticas, y quizás también matemáticas. En general los siguientes sitios ofrecen cursos desde introductorio a avanzado:
Me cuesta recomendar cursos en MOOCs porque entre gustos no hay disgustos, y mucho tiene que ver con estilo. A mi me han gustado los cursos de Cognitive class. Son sobretodo los labs que tienen profundidad (mucho mas que los vídeos). Pero aquí realmente es lo que te llama la atención a ti, y el estilo que te guste lo que es lo mas importante.
Una de las ventajas de R es que al ser un lenguaje enfocado a un solo dominio: análisis de datos, se aprende mucho sobre ciencia de las datos a la misma vez que sobre programación. Este sería mi lista de recomendaciones en este momento.
Hands on programming with R - A muchos les gusta este libro para comenzar. Es practico y enfocado en aprender hacer cosas útiles.
Ciencia de Datos para Gente Sociable - Antonio es un excelente instructor de R, y creo que logró escribir uno de los libros de más fácil acceso para sumergirte de forma guiada al mundo de análisis de datos con R. Hay muchos ejemplos de presentación de datos geográficos lo que lo hace divertido, porque vez información en formas que quizás no acostumbras ver.
Introduccion to statistical learning - un libro clásico, leído por mucho sobre aprendizaje maquina. Todos los ejercicios están elaborados en R. Quizás no el R mas moderno, pero funcionan y te dan la sensación de tenerlo en los dedos. Muy recomendado. Si cae un poco pesado, haz los ejercicios y vuelve leer el capitulo.
R for data science - Otra muy buena introducción, quizás uno que va a otro paso mas adecuado que Hands on Programming with R. Es cuestión de gustos, recomiendo ver los dos. La ventaja de esta es que hay hay una traducción al español.
Mosaic Guia de Estudiantes - MOSAIC es un proyecto enfocado en fomentar el desarrollo de un currículum de enseñanza de estadísticas. Francisco Jara hizo una traducción del manual para estudiantes A mi me gusta por su enfoque en la parte estadística.
Si te puedes dar el lujo de estudiar meramente por el amor al arte esto no aplica. Para todos los demás tenemos que usar el tiempo limitado que tenemos para profundizar en temas que son directamente aplicables para nuestro trabajo. De que sacas mas beneficio: aprender a programar Spark en Scala, o aprender sobre Spark y aprender mas sobre R a la misma vez? Es un balanceo constante, y no sobra escribir tu razonamiento en notas para que después puedas regresar y ver porque tomaste una dirección u otra.
Hay tanto por hacer, y aproximaciones por reconocer, que te deseo que te diviertas mucho al aprender. Eso hará mas fácil también conectarte con otros que están aprendiendo y te van a ayudar en tu camino (así como pronto podrás encaminar a otros). Y si tienes otros tips y recomendaciones que funcionan para ti, mándamelo para incluirlos aquí.