Kursplan för
Dataanalys: statistisk inlärning och visualisering med projekt
Data Analysis: Statistical Learning and Visualization with Project
FMSF90, 7.5 högskolepoäng, G2 (Grundnivå, fördjupad)
Gäller för: 2024/25
Fakultet: Lunds tekniska högskola
Beslutad av: Programledning I
Beslutsdatum: 2024-04-16
Ikraftträdande: 2024-05-08
Allmänna uppgifter
Huvudområde: Teknik
Fördjupning: Grundnivå, kurs/er som inte kan klassificeras
Valfri för: C4-adv, F4, Pi4, R4
Undervisningsspråk: Kursen ges på engelska
Syfte
Kursen inleds med en överblick av grundläggande datahantering och visualisering, med fokus på att kunna identifiera och illustrera olika egenskaper och särdrag hos data.
Därefter presenteras viktiga metoderna inom modern statistisk inlärning. Stor vikt läggs vid övervakad och oövervakad inlärning. Problem med att anpassa och utvärdera flera olika modeller och metodernas relation till linjär regression diskuteras. Datorbaserade laborationer och projekt utgör en viktig lärandeaktivitet. Kursen avslutas med ett projekt där studenterna ska välja lämpliga metoder för att analysera ett givet data material.
Mål
Kunskap och förståelse
För godkänd kurs skall studenten
- Beskriva olika sätt att aggregera, sammanfatta och visualisera data.
- Förklara principerna för några olika typer övervakad och oövervakad inlärning.
- Förklara vikten av att utvärdera modeller baserat på deras prediktionsförmåga.
Färdighet och förmåga
För godkänd kurs skall studenten
- kunna hantera, presentera och visualisera data för att belysa viktiga egenskaper och kännetecken i ett komplext datamaterial.
- kunna använda vanliga metoder för övervakad inlärning och oövervakad inlärning
- kunna dra slutsatser om data baserat på resultaten från metoder för klassificering och regressionsproblem.
- kunna använda vanliga metoder för utvärdering av prediktionsförmåga på ny data.
- redovisa analys av och slutsatser från ett praktiskt problem i en skriftlig rapport.
Värderingsförmåga och förhållningssätt
För godkänd kurs skall studenten
- Reflektera över den valda modellens och metodens begränsningar samt möjliga alternativa lösningsmetoder.
- Reflektera över eventuella problem med att anpassa flera olika modeller till samma datamaterial.
Kursinnehåll
- Grundläggande datahantering och vanliga visualiseringsmetoder för data.
- Metoder för oövervakad och övervakad inlärning så som: klustring; hierarkisk klustring; samt regressions- och beslutsträdsmetoder för klassificering och regressionsproblem.
- Metoder för modellval och modellvalidering så som: bootstrap, uppdelning av data i träning och test, samt korsvalidering
Kursens examination
Betygsskala: TH - (U, 3, 4, 5) - (Underkänd, Tre, Fyra, Fem)
Prestationsbedömning:
Slutbetyget ges av det avslutande projektet. Godkänt på samtliga laborationsrapporter och närvaro på hälften av laborationerna.
Om så krävs för att en student med varaktig funktionsnedsättning ska ges ett likvärdigt examinationsalternativ jämfört med en student utan funktionsnedsättning, så kan examinator efter samråd med universitetets avdelning för pedagogiskt stöd fatta beslut om alternativ examinationsform för berörd student.
Moduler
Kod: 0124. Benämning: Datorlaboration 1.
Antal högskolepoäng: 2.0. Betygsskala: UG - (U, G).
Prestationsbedömning: Redovisning av laborationen
Modulen omfattar: Datahantering and visualisering.
Kod: 0224. Benämning: Datorlaboration 2.
Antal högskolepoäng: 2.0. Betygsskala: UG - (U, G).
Prestationsbedömning: Redovisning av laborationen
Modulen omfattar: Kontinuerliga utfall (regression)
Kod: 0324. Benämning: Projekt.
Antal högskolepoäng: 3.5. Betygsskala: TH - (U, 3, 4, 5).
Prestationsbedömning: Skriftlig och muntlig projektredovisning
Modulen omfattar: Klassificering och syntes av hela kursen.
Antagningsuppgifter
Förkunskapskrav:
- ((FMAA20 Linjär algebra med introduktion till datorhjälpmedel eller FMAA21 Linjär algebra med numeriska tillämpningar eller FMAB20 Linjär algebra eller FMAB22 Lineär algebra)
och
(FMAB30 Flerdimensionell analys eller FMAB35 Flerdimensionell analys med vektoranalys))
eller
(FMSF20 Matematisk statistik, allmän kurs eller FMSF25 Matematisk statistik - kompletterande projekt eller FMSF32 Matematisk statistik eller FMSF45 Matematisk statistik, allmän kurs eller FMSF50 Matematisk statistik, allmän kurs eller FMSF55 Matematisk statistik, allmän kurs eller FMSF70 Matematisk statistik eller FMSF75 Matematisk statistik, allmän kurs eller FMSF80 Matematisk statistik, allmän kurs)
Förutsatta förkunskaper:
En grundkurs i matematisk statistik samt kunskaper i linjär algebra
Begränsat antal platser: 50
Urvalskriterier: Avklarade högskolepoäng inom programmet. (Observera att endast högskolepoäng som enligt Ladok tillgodoräknats inom programmet före antagningen räknas. För studenter på masterprogram adderas 180 hp motsvarande tidigare kandidatexamen.) Förtur ges till studenter vars program har kursen listad i läro- och timplanen. Bland dessa studenter ges platsgaranti till studerande på specialiseringen i Riskmodellering inom civilingenjörsprogrammet i Risk, säkerhet och krishantering.
Kursen överlappar följande kurser:
FMSF86
FMAN45
EDAN96
Kurslitteratur
- Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani: An Introduction to Statistical Learning with Applications in R. Springer, 2021, ISBN: 978-1071614174. Antingen boken för Python eller R. Tillgänglig på
https://www.statlearning.com.
- Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani, Jonathan Taylor: An introduction to statistical learning with applications in Python - Essential Tools for Working with Data. Springer, 2023, ISBN: 3031387465. Antingen boken för Python eller R. Tillgänglig på https://www.statlearning.com.
- Vanderplas, Jacob T: Python data science handbook : essential tools for working with data. O'Reilly, 2022, ISBN: 1098121228. Bredvidläsning.
- Hadley Wickham, Mine Cetinkaya-Rundel, Garrett Grolemund: R for Data Science, 2nd Edition. O'Reilly Media, 2023, ISBN: 1492097403. Bredvidläsning. Tillgänglig på https://r4ds.hadley.nz..
https://r4ds.hadley.nz.
Kontaktinfo
Kursansvarig: Linda Hartman,
linda.hartman@matstat.lu.se
Studierektor: Johan Lindström,
studierektor@matstat.lu.se
Kursadministratör: Susann Nordqvist,
expedition@matstat.lu.se
Hemsida: https://www.maths.lu.se/utbildning/civilingenjoersutbildning/matematisk-statistik-paa-civilingenjoersprogram/
Övrig information
Ges tillsammans med FMSF86. Endast en av kurserna FMSF86 och FMSF90 får ingå i examen. Kursen överlappar EDAN96.