Pythons styrke inden for datavidenskab og analyse kommer i høj grad fra NumPy- og Pandas-bibliotekerne. NumPy giver grundlaget for numeriske operationer og multidimensionelle arrays; Pandas bygger på dette grundlag med kraftfulde værktøjer til manipulation af tabulære data (tabel-lignende). I 2026 er disse to biblioteker uundværlige for datavidenskabsfolk, maskinlæringsingeniører og analytikere. Især når man arbejder med store datasæt (CSV, Excel, databaser) er deres ydeevne uovertruffen.
På Google er søgninger som "Python NumPy tutorial", "Pandas dataframe", "Python dataanalyse", "NumPy array" blandt de mest søgte Python-emner i Tyrkiet og verden over. At lære disse biblioteker giver en stor fordel i din karriere: De fleste jobannoncer søger "Pandas-erfaring".
Hvorfor skal du lære NumPy og Pandas? (2026 Perspektiv)
Installation
I terminalen:
Jupyter Notebook anbefales (ideel til dataanalyse):
1. NumPy: Grundlaget for Numeriske Beregninger
NumPy arbejder med ndarray (n-dimensional array). Homogene datatyper, hurtige operationer.
Ydeevne eksempel: 1 million elementer liste vs NumPy array addition. NumPy er 50-100 gange hurtigere.
2. Pandas: Manipulation af Tabulære Data
Pandas' to grundlæggende strukturer: Series (1D) og DataFrame (2D tabel).
Filtrering
Ny kolonne tilføjelse
Gruppering og aggregering
Manglende data håndtering
Sammenføjning (merge, concat)
Pivot tabel
NumPy og Pandas Sammen Brug
Pandas bruger internt NumPy:
Data Visualisering Integration (Kort Introduktion)
Pandas integrerer med Matplotlib:
Avancerede Emner og Tips
Konklusion og Praktiske Anbefalinger
NumPy og Pandas er grundstenene i din dataanalyse rejse. Med denne guide har du forstået grundlæggende operationer. Til praksis:
Med denne guide kan du begynde at bruge NumPy og Pandas effektivt. Til eksempel datasæt eller specifik analyse, efterlad en kommentar! I 2026 vil disse biblioteker åbne store døre i din datavidenskab karriere.
På Google er søgninger som "Python NumPy tutorial", "Pandas dataframe", "Python dataanalyse", "NumPy array" blandt de mest søgte Python-emner i Tyrkiet og verden over. At lære disse biblioteker giver en stor fordel i din karriere: De fleste jobannoncer søger "Pandas-erfaring".
Hvorfor skal du lære NumPy og Pandas? (2026 Perspektiv)
- Ydeevne: NumPy-arrays er op til 50 gange hurtigere end Python-lister.
- Datavidenskab økosystem: Scikit-learn, TensorFlow, PyTorch er bygget på Pandas/NumPy.
- Reel verden brug: Finansiel analyse, salgsrapporter, forbehandling af data til maskinlæring.
- Bekvemmelighed: Med Pandas kan du filtrere, gruppere og sammenføje millioner af rækker på sekunder.
Installation
I terminalen:
Kode Vælg
pip install numpy pandasJupyter Notebook anbefales (ideel til dataanalyse):
Kode Vælg
pip install jupyter
jupyter notebook1. NumPy: Grundlaget for Numeriske Beregninger
NumPy arbejder med ndarray (n-dimensional array). Homogene datatyper, hurtige operationer.
Kode Vælg
import numpy as np
# Array oprettelse
array = np.array([1, 2, 3, 4, 5])
print(array) # [1 2 3 4 5]
print(array.dtype) # int64
# 2D array (matrix)
matrix = np.array([[1, 2, 3], [4, 5, 6]])
print(matrix)
# [[1 2 3]
# [4 5 6]]
# Nul, et og tilfældige arrays
nuller = np.zeros((3, 4)) # 3x4 nul-matrix
ener = np.ones((2, 2))
tilfældig = np.random.rand(3, 3) # 0-1 tilfældig
# Arange, linspace
interval = np.arange(0, 10, 2) # 0 til 10 i 2-trin: [0 2 4 6 8]
lige_interval = np.linspace(0, 1, 5) # 0-1 i 5 lige dele
# Matematiske operationer (vektorielle - meget hurtige)
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
print(a + b) # [5 7 9]
print(a * b) # [ 4 10 18]
print(np.sqrt(a)) # [1. 1.41421356 1.73205081]
# Indeksering og slicing
print(matrix[0, 1]) # 2 (række 0, kolonne 1)
print(matrix[:, 1]) # alle rækker, kolonne 1: [2 5]
print(matrix[matrix > 3]) # boolean indeksering: [4 5 6]
# Statistiske funktioner
print(array.mean()) # gennemsnit
print(array.sum())
print(array.max())
print(np.median(array))
# Formændring
ny_form = array.reshape(5, 1) # 5x1 matrixYdeevne eksempel: 1 million elementer liste vs NumPy array addition. NumPy er 50-100 gange hurtigere.
2. Pandas: Manipulation af Tabulære Data
Pandas' to grundlæggende strukturer: Series (1D) og DataFrame (2D tabel).
Kode Vælg
import pandas as pd
# Series oprettelse
serie = pd.Series([10, 20, 30, 40], index=["a", "b", "c", "d"])
print(serie)
# a 10
# b 20
# c 30
# d 40
# dtype: int64
# DataFrame oprettelse
data = {
"navn": ["Ahmet", "Ayşe", "Mehmet", "Zeynep"],
"alder": [28, 34, 22, 41],
"by": ["Istanbul", "Ankara", "Izmir", "Bursa"]
}
df = pd.DataFrame(data)
print(df)
# Læs fra fil (CSV, Excel)
df = pd.read_csv("data.csv")
df = pd.read_excel("fil.xlsx")
# Grundlæggende operationer
print(df.head(2)) # første 2 rækker
print(df.tail()) # sidste rækker
print(df.info()) # struktur info
print(df.describe()) # statistisk oversigt
# Kolonne/række valg
print(df["navn"]) # enkelt kolonne (Series)
print(df[["navn", "alder"]]) # flere
print(df.iloc[0]) # indeks række
print(df.loc[0]) # labelFiltrering
Kode Vælg
voksne = df[df["alder"] > 30]
print(voksne)Ny kolonne tilføjelse
Kode Vælg
df["løn"] = [5000, 6000, 4500, 7000]
df["netto_løn"] = df["løn"] * 0.8Gruppering og aggregering
Kode Vælg
alder_gennemsnit = df.groupby("by")["alder"].mean()
print(alder_gennemsnit)
løn_total = df.groupby("by").agg({"løn": "sum", "alder": "mean"})
print(løn_total)Manglende data håndtering
Kode Vælg
df.loc[1, "alder"] = None
print(df.isnull().sum()) # antal manglende
df.dropna() # slet manglende rækker
df.fillna(0) # udfyldSammenføjning (merge, concat)
Kode Vælg
df2 = pd.DataFrame({"navn": ["Ahmet", "Mehmet"], "afdeling": ["IT", "HR"]})
sammenføjet = pd.merge(df, df2, on="navn", how="left")
print(sammenføjet)Pivot tabel
Kode Vælg
pivot = df.pivot_table(values="løn", index="by", columns="alder", aggfunc="sum")NumPy og Pandas Sammen Brug
Pandas bruger internt NumPy:
Kode Vælg
# Fra DataFrame til NumPy array
array = df[["alder", "løn"]].to_numpy()
print(array.mean(axis=0)) # kolonne gennemsnitData Visualisering Integration (Kort Introduktion)
Pandas integrerer med Matplotlib:
Kode Vælg
import matplotlib.pyplot as plt
df["alder"].plot(kind="hist")
plt.show()
df.plot(x="alder", y="løn", kind="scatter")
plt.show()Avancerede Emner og Tips
- Store data: df.sample(), chunk læsning (pd.read_csv(chunksize=1000)).
- Tidsserier: pd.to_datetime(), resample.
- Ydeevne: Brug vektoriserede operationer i stedet for df.apply().
- Andre biblioteker: Seaborn (smukke grafer), Scikit-learn (ML med Pandas).
Konklusion og Praktiske Anbefalinger
NumPy og Pandas er grundstenene i din dataanalyse rejse. Med denne guide har du forstået grundlæggende operationer. Til praksis:
- Download Kaggle datasæt og analyser (salgsdata, Titanic).
- Reel projekt: Opsummer firmasalgsrapport med Pandas.
- Ressourcer: Pandas officielle docs, "Python for Data Analysis" bog (Wes McKinney), Kaggle kurser.
Med denne guide kan du begynde at bruge NumPy og Pandas effektivt. Til eksempel datasæt eller specifik analyse, efterlad en kommentar! I 2026 vil disse biblioteker åbne store døre i din datavidenskab karriere.

