logo-UNSAM

UNSAM - ECYT

logo-UNSAM

Carreras y cursos

Pre-grado
Grado
Posgrado
Diplomaturas
Licenciatura en Ciencia de Datos

Resolución Ministerial: RM 3079/21

Duración:

4 años

Modalidad: Presencial (41% de carga virtual)
Sede de cursada:

Escuela de Ciencia y Tecnología - Campus Miguelete - San Martín

Martín de Irigoyen 3100


Informes:

Departamento de Estudiantes  - ECyT - Martín de Irigoyen 3100, 1º piso - Campus Miguelete
4006-1500 int. 1161/1162/1163
ecyt.estudiantes@unsam.edu.ar
Días y horarios de atención: Lunes a Viernes 9 a 13 y 15 a 19.

Objetivos

La Licenciatura en Ciencia de Datos se propone:

  • Proporcionar un marco formativo integral referido al objeto de estudio de la Estadística, la informática, la matemática y la ciencia de datos.
  • Favorecer la orientación hacia la investigación y el asesoramiento en los diferentes campos de estudio relacionados.
  • Capacitar en la creación de conocimientos para la resolución de problemas novedosos que se plantean en campos interdisciplinarios.
  • Generar recursos humanos altamente capacitados para un área de fuerte desarrollo y relevancia socioeconómica.
Perfil académico del/a egresado/a

 

El/la graduado/a en Ciencia de Datos posee una sólida formación en áreas diversas, como matemática, informática y estadística, desde la obtención de datos, evaluación y preparación, hasta la implementación de los modelos, producción y puesta en funcionamiento de una herramienta o solución adaptada.

Tiene una gran capacidad analítica para el desarrollo de modelos estadísticos y la implementación de algoritmos que permitan obtener información a partir de gran cantidad de datos. Es capaz de evaluar el cumplimiento de las hipótesis que subyacen cada algoritmo o técnica, de evaluar el funcionamiento de una solución implementada, así como de revisarla y corregirla, de ser necesario.

Cuenta con una vasta experiencia en el análisis de datos, lo que le permite acercarse de forma crítica a un problema y al conjunto de datos relacionado. Es capaz de generar las preguntas relevantes para un conjunto de datos dado, y de evaluar qué información puede obtenerse del análisis de ellos (y qué información no). Su formación en temas de estadística y matemática le permiten cuantificar sus respuestas y depurar la información clave para, por ejemplo, comunicarla a otros.

Es capaz de participar en proyectos de desarrollo tecnológico y científico que requieran de sus habilidades particulares, ya sea en equipos nacionales e internacionales. Su perfil es ideal para desarrollar sus actividades en empresas, administración e industrias, tanto en el ámbito privado como público, ya que ha tenido como parte de su formación tiempo de práctica en estos ámbitos, pero también en el campo académico y científico. Debido a la naturaleza fuertemente interdisciplinaria de la ciencia de datos y de sus aplicaciones, quien concluya la carrera en Ciencia de Datos puede tener un rol relevante de grupos de desarrollo e investigación en un amplio espectro de áreas, tanto dentro como fuera del ámbito académico. De hecho, la aplicación de los conocimientos adquiridos durante la licenciatura es de interés para áreas desde las ciencias básicas, hasta la economía y las finanzas, pasando por las ciencias sociales y el desarrollo tecnológico.

Finalmente, se podrá dedicar a la docencia universitaria, a la asesoría y a la gestión pública o privada en temas de su competencia.

Podrá iniciar estudios de posgrado, en particular con continuidad en los Doctorados en Ciencias de la UNSAM, y acceder a becas de investigación científica.

 

Entre las habilidades y destrezas de quienes se gradúen de la carrera, se cuenta:

  1. Una sólida formación en matemática, informática y estadística.
  2. Amplia experiencia práctica con el manejo y análisis de datos.
  3. Sólido conocimiento estadístico, que le permite identificar los algoritmos y técnicas apropiados para utilizar en la resolución de problemas concretos.
  4. Conocimiento de las limitaciones y capacidades de las técnicas estadísticas disponibles.
  5. Formación práctica en informática, que le permite desarrollar programas prototipo.

Desarrollo de estrategias de autoaprendizaje, mediante las cuales orientará acciones de actualización continua.

 

Estructura del plan de estudios

 

Ciclo básico

 

Código

Materia

CH
semanal

CH cuatrimestral

Créditos

Correlativas

Cuatrimestre 1

N1

Análisis 1

8

128

8

---------------

CD01

Introducción a la Ciencia de datos

6

96

6

---------------

CD02

Programación 1

6

96

6

---------------

 

TOTAL

20

320

20

 

Cuatrimestre 2

N10

Análisis 2

8

128

8

N1

CD03

Matemática Discreta

8

128

8

N1

CD04

Introducción al Aprendizaje Automático

6

96

6

N1, CD01, CD02

 

TOTAL

22

352

22

 

 

Ciclo general

Código

Materia

CH
semanal

CH cuatrimestral

Créditos

Correlativas

Cuatrimestre 3

CD05

Infraestructura para Ciencia de Datos

6

96

6

CD02

TPI07

Algoritmos I

10

160

10

N1

CB34

Probabilidad y Estadística

4

64

4

N10

 

TOTAL

20

320

20

 

Cuatrimestre 4

CD06

Estadística e Inferencia I

8

128

8

CB34, CD03

TPI10

Algoritmos II

9

144

9

N10, CD03, TPI07

 

Electiva 1

4

64

4

 

 

TOTAL

21

336

21

 

 

Ciclo avanzado

 

Código

Materia

CH
semanal

CH cuatrimestral

Créditos

Correlativas

Cuatrimestre 5

CD07

Estadística e Inferencia II

8

128

8

CD06

CD08

Programación 2

6

96

6

CD02, TPI10

 

Electiva 2

6

96

6

 

 

TOTAL

20

320

20

 

Cuatrimestre 6

CD09

Ciencia de datos

8

128

8

CD07, CD08

TPI14

Bases de datos

8

128

8

TPI10

CD10

Ingeniería de Software

6

96

6

CD08, TPI10

 

TOTAL

22

352

22

 

Cuatrimestre 7

CD11

Aprendizaje Automático

6

96

6

CD07, CD08

 

Electiva 3

8

128

8

CD09, CD10

 

Optativa 1

6

96

6

 

 

TOTAL

20

320

20

 

Cuatrimestre 8

CD12

Aprendizaje Profundo

6

96

6

CD11

 

Optativa 2

8

128

8

CD12

 

Optativa 3

6

96

6

 

 

TOTAL

20

320

20

 

                       

 

Contenidos mínimos

 

ANÁLISIS 1

Números reales. Propiedades. Intervalos en R. Módulo. Concepto de función. Dominio. Gráficas. Inyectividad y suryectividad. Función inversa. Funciones polinomiales, racionales, exponenciales y logarítmicas. Límites de funciones y Continuidad. Discontinuidades: clasificación. Cálculo diferencial. Reglas de derivación. Fórmula de Taylor. Aplicaciones de las derivadas. Intervalos de monotonía. Extremos locales. Extremos absolutos. Concavidad. Puntos de inflexión. Análisis de funciones. Gráficas aproximadas. Integral. Primitivas. Fórmula de Barrow. Cálculo integral y sus aplicaciones. Integrales impropias. Introducción a las ecuaciones diferenciales ordinarias. Métodos elementales de integración. Ecuaciones con variables separables y lineales de primer y de segundo orden.

 

ALGORITMOS I

Especificación e implementación de programas. Corrección de programas. Tipos de datos.  Tipos abstractos. Tratamiento de secuencias. Archivos secuenciales.

 

ANÁLISIS II

Funciones vectoriales reales. Límites y continuidad. Cálculo diferencial vectorial. Regla de la cadena. Funciones implícitas. Curvas y superficies parametrizadas.  Fórmula de Taylor vectorial. Plano tangente. Problemas de máximos y mínimos. Multiplicadores de Lagrange. Campos escalares y vectoriales. Potencial. Campo tangente y normal. Formas diferenciales exactas. Análisis geométrico de ecuaciones diferenciales. Cambio de coordenadas. Coordenadas polares, esféricas y cilíndricas. Integrales múltiples. Integrales paramétricas, curvilíneas y de superficie. Aplicaciones geométricas. Operadores gradiente, divergencia, rotor y laplaciano.

 

PROBABILIDAD Y ESTADÍSTICA (IE012)

Experimentos aleatorios. Frecuencias relativas. Modelo de Laplace.  Probabilidad. Independencia y probabilidad condicional. Teorema de Bayes. Cálculo de probabilidades. Variables aleatorias. Funciones de densidad y de probabilidad. Funciones de distribución.  Principales distribuciones discretas y continuas. Variables aleatorias vectoriales.  Distribuciones conjuntas y marginales.  Momentos de primer y segundo orden. Ley de Grandes Números, Teorema Central del Límite. Correlación. Nociones de procesos estocásticos. Función de autocorrelación. Procesos estacionarios. Regresión lineal. Nociones de estadística descriptiva y paramétrica. Test de hipótesis.

 

ALGORITMOS II

Recursión. Tipos de datos abstractos pila, cola, diccionario, árbol, grafo, etc. Metodologías de especificación formal. Lenguajes de especificación formal. Implementaciones.

 

INTRODUCCIÓN A LA CIENCIA DE DATOS

Introducción práctica al análisis de datos. La relación entre los datos y los problemas prácticos. Formulación de preguntas relevantes y pasos de resolución de un problema realista de ciencia de datos. Presentación en casos reales. Obtención y carga de datos. Formato de almacenamiento de datos (csv, tsv, ascii). Encabezados. Formato de los datos (numérico, string, fechas y otros). Técnicas y herramientas de exploración y visualización de los datos. Evaluación y corrección de datos. Datos faltantes, datos incorrectos. Análisis exploratorio de los datos. Selección, descubrimiento y diseño de features relevantes para la resolución de un problema dado.

Técnicas descriptivas de los datos. Muestras. Valor medio, desvío estándar. Estadísticos. Estimadores. Concepto de correlación y covarianza. Coeficiente de correlación. Coeficiente de Pearson. Coeficiente de Spearman. Outliers. Sensibilidad de distintos estimadores a los outliers.

Modelado de los datos. Modelos estadísticos básicos. Parámetros de los modelos. Regresión lineal simple. Interpretación. Nociones de ajuste por cuadrados mínimos. Estimadores de los parámetros del modelo lineal. Supuestos del modelo lineal. Diagnósticos del ajuste. Evaluación del modelo. Introducción básica a test estadísticos, residuos, QQplots. Residuos. Leverage. Outliers. Extensión de los modelos. Modelos aditivos. Regresión lineal múltiple.

 

PROGRAMACIÓN 1

Introducción al pensamiento algorítmico. Presentación del lenguaje de programación Python. Diferentes entornos de programación (consola, IDE, notebooks). Sintaxis del lenguaje. Tipos de datos básicos. Funciones y documentación. Estructuras de control básicas: condicionales (if; while), iteraciones (for), comprensión de listas. Estructuras de datos: diccionarios, listas, tuplas, vectores, matrices y árboles. Módulos y paquetes. Concepto de namespace. Introducción a la programación orientada a objetos. Conceptos básicos, métodos, atributos, herencia. Estructuras de lectura y escritura de datos. Visualización de datos. Testeo y debuggeo de los programas. Manejo de excepciones. Control de flujos. Introducción a paquetes de cálculo (numpy) y visualización (matplotlib). Elementos de cálculo numérico para análisis matemático.

 

MATEMÁTICA DISCRETA

Introducción a la Teoría de Números, Lógica proporcional clásica y de Predicados de primer orden. Combinatoria. Conjuntos, relaciones y funciones. Relaciones de recurrencia. Algebra de Boole. Teoría de Grafos- Arboles. Sistemas y códigos de numeración. Polinomios. Geometría en el plano y el espacio. Vectores. Producto escalar. Magnitud, distancia y ángulo. Rectas y planos.  Paralelismo y perpendicularidad. Matrices. Operaciones aritméticas matriciales. Transposición. Matriz inversa. Sistemas de ecuaciones lineales. Eliminación gaussiana. Determinantes. Espacios vectoriales R^n. Sub-espacios. Generadores. Independencia lineal. Bases y dimensión. Intersección, suma y suma directa de sub-espacios. Espacios vectoriales generales. Transformaciones lineales. Producto interno. Ortogonalidad. Bases. Matrices asociadas a una transformación lineal. Autovalores y autovectores. Diagonalización de matrices.

 

INTRODUCCIÓN AL APRENDIZAJE AUTOMÁTICO

Funcionamiento de los algoritmos de aprendizaje automático. Validez, aplicabilidad, y limitaciones. Conjunto de datos de entrenamiento, validación y testeo. Repaso de regresión lineal. Funciones de error. Sobreajuste. Regularización. Regresión ridge y lasso. Aplicación de algoritmos de aprendizaje automático: regresión y clasificación lineal; discriminante linear de Fischer; perceptrón; support vector machine; árboles de decisión; naive Bayes.

 

ESTADÍSTICA E INFERENCIA I

Conceptos teóricos. Estimación Puntual. Estadísticos suficientes y completos. Estimadores de momentos y de Máxima Verosimilitud. Regiones de confianza.

Distribuciones multivariadas. Normal multivariada. Wishart

Regresión lineal simple y múltiple. Modelos paramétricos lineales. Regresión paso a paso (stepwise regression). Regresión lineal multivariada. Modelos lineales generalizados.

Teoría de la probabilidad como una extensión de la lógica. Razonamiento en presencia de incertidumbre. Lógica bayesiana. Teorema de Bayes. Bayes como un modelo de aprendizaje. Elementos de estadística. Verosimilitud. Priors. Posteriors. Inferencia bayesiana. Modelos con un solo parámetro. Resultados analíticos. Priors conjugados. Familia exponencial. Testeo A/B bayesiano. Visión bayesiana de la regresión con modelos lineales. Construcción de modelos multi-paramétricos. Modelos de mixturas finitas. Mixturas gaussianas. Responsabilidades. El algoritmo esperanza-maximización (EM). Generalización a los modelos de variables latentes. Detección de anomalías. Validación estadística de los modelos. Distribución predictiva posterior. Validación cruzada. Comparación de modelos bayesiana. Consideración de la complejidad de los modelos. Nociones de teoría de la decisión. Modelos gráficos.

INFRAESTRUCTURA PARA CIENCIA DE DATOS

Funcionamiento de una computadora. Unidad de procesamiento central. Memoria RAM. Redes. Tiempo de latencia. Recursos compartidos. Clusters de cálculo. Cálculo usando Unidades de procesamiento de gráficos (GPU). Nociones de escala y capacidades. Conceptos básicos de "cloud computing". Diferencias y ventajas con respecto a las infraestructuras tradicionales. Almacenamiento definido por software. Soluciones de redes definidas por software. Sistemas operativos para servidores. Virtualización. Servicios de red. Servicios de directorio (Active Directory, OpenLDAP)

ESTADÍSTICA E INFERENCIA II

Revisión de la regresión con modelos lineales bayesiana.  Modelos generativos. Modelos de variables latentes. Responsabilidades. Generalización del algoritmo esperanza-maximización (EM). Modelos no paramétricos. Estimación de densidades. Métodos de kernel. K-means. Procesos gaussianos. Procesos de Dirichlet. Modelos jerárquicos bayesianos.

PROGRAMACIÓN 2

Análisis de rendimiento de software (perfilaje). Manejo de aserciones. Utilización avanzada de las clases en python. Herencia múltiple. Variables privadas. Iteradores y generadores. Decoradores. Uso y funcionalidad de los decoradores. Ambientes virtuales. Paquetes de python para la ciencia de datos: pandas, seaborn. Aplicaciones. Utilización de código C, C++, y Fortran desde python.

Ambientes integrales de desarrollo (IDE). Nociones vinculadas con los sistemas de control de versión. Introducción al lenguaje de análisis estadístico R.

BASES DE DATOS

Funciones de los sistemas de Base de Datos. Modelos de datos. Lenguajes de consulta. Diseño de Base de Datos. Estructuras físicas y lógicas de datos. Optimización de consultas. Transacciones. Concurrencia y recuperación. Implementaciones.

CIENCIA DE DATOS

La materia se propone presentar una serie de técnicas de cálculo, preparación de datos y visualización, necesarias para llevar adelante análisis de datos en situaciones de la vida real.

Técnicas de muestreo. Muestreo simple con y sin reposición. Muestreo por rechazo. Muestreo de importancia. Importance-sampling-resampling. Gibbs sampling. Markov Chain Monte Carlo. Metropolis Hastings. Muestreo con ensambles.

Extracción de features y reducción de la dimensionalidad. Variables latentes continuas. Análisis en componentes principales (PCA). PCA probabilístico. PCA bayesiano. PCA con núcleos (kernel PCA). Modelos con variables latentes no lineales. Análisis de componentes independientes.

Inferencia aproximada. Métodos variacionales bayesianos. Cálculo Bayesiano Aproximado (ABC). Nociones del lenguaje de programación estadístico R y de la plataforma Stan.

Visualización. Acercamientos modernos a la visualización de datos. Biplots, etc.

INGENIERÍA DE SOFTWARE

El proceso de software. Ciclos de vida del software. Prácticas DevOps de desarrollo (Dev) y operaciones (Ops). Prácticas ágiles. Ingeniería de requerimientos. Arquitectura y diseño. Patrones. Conceptos de arquitecturas orientadas a servicios. Reingeniería de software. Calidad de software: del producto y del proceso. Diseño centrado en el usuario. Administración y control de proyectos. Nociones de auditoría y peritaje. Teoría general de sistemas. Sistemas de información. Privacidad integridad y seguridad en sistemas de información. Nociones de sistemas colaborativos. Documentación. Responsabilidad y ética profesional. Computación y sociedad. Propiedad intelectual, licenciamiento de software y contratos informáticos. Aspectos legales.

NetDevOps, Redes basadas en la intención, Redes basadas en la experiencia. Redes definidas por software. Redes autoconfigurables.

APRENDIZAJE AUTOMÁTICO

Clasificación con modelos lineales. Problemas linealmente separables. Clases balanceadas y no balanceadas. Clasificación multi-clase. Los tres acercamientos a la clasificación: función discriminativa, modelos discriminativos y modelos generativos. Discriminante lineal de Fischer. El algoritmo del perceptrón. Método de descenso por gradiente. La función sigmoidea. Regresión logística. IRLS (cuadrados mínimos iterativamente reponderado; iteratively reweighted least squares). Clasificador de Bayes Ingenuo (Naive Bayes). Clasificadores de margen máximo. Support Vector Machines. El truco del kernel. Bases infinitas de funciones. Márgenes suaves.  Árboles de decisión. Combinación de modelos. Descomposición en varianza y sesgo. Métodos de ensamble: comités (voto, voto suave), boosting, stacking. Extra trees. Bosques aleatorios (Random Forests). Redes neuronales. Parametrización de las funciones de base. Funciones de activación. Redes neuronales prealimentadas. Capas ocultas y pesos. El perceptrón multicapa. Entrenamiento de redes neuronales.

APRENDIZAJE PROFUNDO

Retropropagación. Descenso por gradiente estocástico. Gradientes que se desvanecen. Regularización. Priors gaussianos consistentes. Detención temprana. Dropout. Redes convolucionales. Invariancia de translación. Capas convolucionales y filtros. Pesos compartidos. Mapas de features. Capas de pooling (MaxPooling y AveragePooling). Arquitecturas de redes convolucionales. Encoders-decoders. Redes Neuronales recurrentes. Respuesta finita al impulso (FIR) y respuesta infinita al impulso (IIR). Problemas para entrenar redes recurrentes. Gradientes que se desvanecen. Long short-term memory (LSTM). Celdas LSTM: puertas de entrada, de salida, y de olvido. Pronóstico de series temporales univariadas y multivariadas. Utilización de redes previamente entrenadas. Transfer learning.

Entrenamiento de redes profundas. Inestabilidad de los gradientes y posibles soluciones. Aplicaciones de redes recurrentes. Procesamiento del lenguaje natural. Redes stateless y statefull. Encoders-decoders para modelos de traducción. Redes no supervisadas: Autoencoders. Redes generativas antagónicas (GAN). Aplicaciones de autoencoders y GAN. Entrenamiento de GANs. Aprendizaje por refuerzo. Agente y sistema de recompensas. Aprendizaje por imitación.

Plantel docente

Docentes LCD (al 2do cuatrimestre de 2023)

 

Profesorxs

Nombre de pila

email

📚 Materias

Mariano Aprea

meaprea@gmail.com

Algoritmos 1

Nadia Avendaño

nadiasan@gmail.com

Infraestructura para CD

Rodrigo Díaz

rdiaz@unsam.edu.ar

Introducción a la Ciencia de Datos

Esteban Roitberg

eroitberg@unsam.edu.ar

Introducción al Aprendizaje Automático

Oscar Filevich

ofilevich@unsam.edu.ar

Programación 1

Rafael Grimson

rgrimson@unsam.edu.ar

Programación 1

Martina Negrín Barcellos

mnegrinbarcellos@unsam.edu.ar

Análisis II

María Alicia Piñeiro

mapineiro@unsam.edu.ar

Matemática discreta

Lucio Ponzoni

lponzoni@unsam.edu.ar

Análisis I

Emilio Rasic

erasic@unsam.edu.ar

Ingeniería de Software

 

JTPs

Nombre

email

📚 Materias

Juan Manuel Bertinat 

jbertinat@unsam.edu.ar

Infraestructura para CD

Julián Epstein

jepstein@unsam.edu.ar

Análisis II

Luis Agustín Nieto

lnieto@unsam.edu.ar

Introducción a la Ciencia de Datos

Romina Landa

rlanda@unsam.edu.ar

Programación 1

Rocio Priegue

rochipriegue@gmail.com

Programación 1

Iván Siacara

ivansiac@hotmail.com

Matemática discreta

 

Auxiliares

Nombre

email

Cargo

Leila Asplanato

lasplanato@unsam.edu.ar

Introducción a la Ciencia de Datos

Gianfranco Bianchi

giabianchi@unsam.edu.ar

Programación 1

Matías Cveczilberg

mcvec@unsam.edu.ar

Programación 1

Manuel da Ponte

mdaponte@estudiantes.unsam.edu.ar

Programación 1

Maria Sol Espain

mespain@unsam.edu.ar

Introducción a la Ciencia de Datos

Lucas Palma Conte

lpalmaconte@unsam.edu.ar

Introducción a la Ciencia de Datos

Jonathan Tissoni

jonathantissoni@gmail.com

Programación 1

Florencia Oppenheimer

foppenheimer@unsam.edu.ar

Introducción al Aprendizaje Automático

Federico Ravanedo

fravanedo@unsam.edu.ar

Matemática discreta

Ian Saura

isauraellis@estudiantes.unsam.edu.ar

Infraestructura para CD

Luna Schteingart

lschteingart@estudiantes.unsam.edu.ar

Introducción al Aprendizaje Automático

 

Condiciones de admisión

Podrán ingresar a la carrera Licenciatura en Ciencia de Datos quien egrese del nivel medio o polimodal con título de instituciones reconocidas oficialmente, que deberán, además, cumplimentar los siguientes requisitos:

 

  1. Aprobar el CPU de la Escuela de Ciencia y Tecnología de la UNSAM, que se extiende por un período de 20 horas con una actividad diaria de entre tres y cuatro horas (ver más).
  2. Presentar la documentación requerida por la normativa vigente para la educación superior universitaria.

Mayores de 25 años que no hayan aprobado el nivel medio o el ciclo polimodal de enseñanza, podrán postularse como aspirantes a la Carrera siempre que cumplan los requisitos que a tal efecto determinan el Artículo n° 7 de la Ley n°24521 de Educación Superior y el Artículo n° 1 de la Resolución n° 454/96 de la Universidad Nacional de General San Martín.

Informes

Departamento de Estudiantes  - ECyT - Martín de Irigoyen 3100, 1º piso - Campus Miguelete
4006-1500 int. 1161/1162/1163
ecyt.estudiantes@unsam.edu.ar
Días y horarios de atención: Lunes a Viernes 9 a 13 y 15 a 19.