Nächstes Kapitel: Dealing with NaN
Inhalt: Numerisches Python
# invisible import numpy as np import pandas as pd np.core.arrayprint._line_width = 60 pd.set_option('display.max_colwidth', 65) pd.set_option('display.max_columns', 5)
Dateien lesen und schreiben
All die starken Daten-Strukturen wie Series und DataFrames würden fast nichts nützen, wenn das Pandas-Modul keine Funktionalitäten unterstützen würde, um Daten einzulesen und rauszuschreiben. Dabei geht es nicht um die einfache Möglichkeit mit Dateien umzugehen. Damit der Nutzen für Data-Scientists sichtbar wird, müssen die wichtigsten Daten-Formate unterstützt werden, wie z.B.:
- Trenner-Separierte Dateien, z.B. csv
- Microsoft Excel Dateien
- HTML
- XML
- JSON
Trennerseparierte Werte
Die meisten Menschen verwenden den Namen "CSV-Datei" als Synonym für eine trennerseparierte-Datei. Sie beachten nicht die Tatsache, das CSV ein Akronym ist für "comma separated values" (also in Deutsch "kommaseparierte-Liste"), was in den meisten Situationen nicht der Fall ist. Pandas verwendet "csv" ebenfalls in Zusammenhängen, in denen "dsv" die passendere Bezeichnung wäre.
Trennerseparierte Werte (Delimiter-separated values - DSV) sind definiert und abgelegt in zweidimensionalen Arrays, bei denen die Werte mit zweckmäßig definierten Trennzeichen in jeder Zeile getrennt sind. Diese Arte und Weise wird oft in Kombination mit Tabellenprogrammen eingesetzt, die Daten als DSV ein- und auslesen können. Auch wird die Implementierung in allgemeinen Datenaustauschformaten verwendet.
Bei der Datei dollar_euro.txt handelt es sich um eine DSV-Datei, die Tabulatoren (\t) als Trennzeichen benutzt.
CSV- und DSV-Dateien lesen
Pandas bietet zwei Wege, um CSV/DSV Dateien zu lesen. Das bedeutet konkret:
- DataFrame.from_csv
- read_csv
Es gibt zwischen beiden Methoden keinen großen Unterschied, d.h. es gibt in manchen Fällen verschiedene Default-Werte, und read_csv
hat mehr Parameter. Wir konzentrieren uns auf read_csv
, weil DataFrame.from_csv
nur wegen Auf- und Abwärtskompatibilität innerhalb von Pandas gehalten wird.
import pandas as pd exchange_rates = pd.read_csv("data1/dollar_euro.txt", sep="\t") print(exchange_rates)
Wie wir gesehen haben, benutzt read_csv
automatisch die erste Zeile als Überschriften bzw. Spaltennamen für die Spalten. Wir können den Spalten auch beliebige andere Namen geben. Dazu muss die erste Zeile übersprungen werden, was wir dadurch erreichen, dass wir den Parameter header
auf 0
setzen, und eine Liste mit Spalten-Namen an den Parameter names
zuweisen:
import pandas as pd exchange_rates = pd.read_csv("data1/dollar_euro.txt", sep="\t", header=0, names=["year", "min", "max", "days"]) print(exchange_rates.head())
Schreiben von CSV-Dateien
CSV-Dateien können wir mit der Methode to_csv
schreiben. Wir werden dies an einem Beispiel demonstrieren. Zuerst erzeugen wir jedoch Daten, die wir dann rausschreiben werden. Im Verzeichnis data1
liegen die beiden Dateien countries_male_population.csv und countries_female_population.csv, die entsprechend die Zahlen der männlichen und weiblichen Bevölkerungs von Ländern enthalten.
column_names = ["Country"] + list(range(2003, 2013)) male_pop = pd.read_csv("data1/countries_male_population.csv", header=None, index_col=0, names=column_names) female_pop = pd.read_csv("data1/countries_female_population.csv", header=None, index_col=0, names=column_names) population = male_pop + female_pop population.head()
In der Datei countries_total_population.csv
im Verzeichnis data1
speichern wir die eben erzeugte DataFrame population
:
population.to_csv("data1/countries_total_population.csv")
Wir möchten nun ein DataFrame bzw. eine Datei erzeugen, die alle Informationen enthalten soll, also sowohl die weibliche und die männliche Bevölkerung als auch die Gesamtbevölkerung. Dazu konkatenieren wir die drei DataFrames:
pop_complete = pd.concat([population, male_pop, female_pop], keys=["total", "male", "female"])
Um das Ergebnis der vorigen Konkatenation besser zu verstehen, geben wir im Folgenden nur die interessanten Indizes aus:
pop_complete.iloc[[0, 1, 2, 29, 30, 31, 32, 59, 60, 61, 62]]
Wir wollen nun den hierarchischen Index umdrehen, sodass man für jedes Land direkt alle Bevölkerungsinformationen im Blick hat:
df = pop_complete.swaplevel() df.sort_index(inplace=True) df.head(12)
df.to_csv("data1/countries_total_population.csv")
Lesen und Schreiben von Excel-Dateien
Es ist auch möglich, Microsoft-Excel-Dateien zu lesen und zu schreiben. Um diese Funktionalitäten bereitzustellen, benutzt Pandas die Module xlrd
und openpyxl
. Diese Module werden automatisch von Pandas installiert, sodass man sie nicht extra installieren muss.
Wir werden ein einfaches Excel-Dokument benutzen, um Lesemöglichkeiten von Pandas zu demonstrieren. Das Dokument sales.xls enthält zwei Blätter (englisch "sheet"), das eine mit dem Namen 'week1' und das andere 'week2'.
Eine Excel-Datei lässt sich mit der Funktion "read_excel" einlesen. Wir zeigen dies mit dem folgenden Python-Programm:
excel_file = pd.ExcelFile("data1/sales.xls") sheet = pd.read_excel(excel_file) sheet
Von den beiden Blättern der Datei "sales.xls" haben wir nur eine mit read_excel
eingelesen. Eine Excel-Datei, die aus zahlreichen Blättern bestehen kann, kann mit allen Blättern wie folgt eingelesen werden:
document = {} excel_file = pd.ExcelFile("data1/sales.xls") for sheet_name in excel_file.sheet_names: document[sheet_name] = excel_file.parse(sheet_name) for sheet_name in document: print("\n" + sheet_name + ":\n", document[sheet_name])
#prog4book pop = pd.read_csv("data1/countries_population.csv", header=None, names=["Country", "Population"], index_col=0, quotechar="'", sep=" ", thousands=",") print(pop.head(5))
#prog4book lands = pd.read_csv('data1/bundeslaender.txt', sep=" ") print(lands.columns.values)
#prog4book # swap the columns of our DataFrame: lands = lands.reindex(columns=['land', 'area', 'female', 'male']) lands[:2]
#prog4book lands.insert(loc=len(lands.columns), column='population', value=lands['female'] + lands['male']) lands[:3]
#prog4book lands.insert(loc=len(lands.columns), column='density', value=(lands['population'] * 1000 / lands['area']).round(0)) lands[:4]
#prog4book print(lands.loc[(lands.area>30000) & (lands.population>10000)])
#prog4book pop = pd.read_csv("data1/person_data.txt", header=None, names=["Vorname", "Nachname", "Größe", "Gewicht", "Geschlecht"], index_col=0, quotechar="'", sep=" ", thousands=",") pop.insert(loc=len(pop.columns), column='BMI', value=pop["Gewicht"]*10000 / (pop["Größe"]**2)) pop.head(10)
Nächstes Kapitel: Dealing with NaN
Inhalt: Numerisches Python

Numerisches Python
Die Bücher zur Webseite
Bücher zur Webseite
Im Hanser-Verlag sind vier Bücher von Bernd Klein und Philip Klein erschienen, die auf den Inhalten dieser Webseite aufbauen, aber auch über die Inhalte hinausgehen. Es lohnt sich also die Bücher zu kaufen, womit Sie außerdem diese Webseite unterstützen!Einführung in Python3

Zum Online-Shop des Hanser-Verlages, wo Sie das Buch versandkostenfrei bestellen können!
Numerisches Python: Arbeiten mit NumPy, Matplotlib und Pandas

Bernd Klein, Philip Klein:
Funktionale Programmierung mit Python

Mit dem Hanser eCampus „Python-Grundlagen“ erhalten Einsteiger:innen eine Einführung in die Programmiersprache Python.

Bücher kaufen
Wenn Ihnen diese Webseite gefällt, - was wir natürlich sehr hoffen, - dann können Sie meine Arbeit unterstützen, wenn Sie eines meiner Bücher oder beide Bücher kaufen oder weiterempfehlen.Die Bücher können Sie über jede Buchhandlung in Ihrer Nähe beziehen. Alternativ können Sie sie auch direkt über den Hanser-Verlag beziehen:
Bücher von Bernd Klein und Philip Klein
Spenden
Ihre Unterstützung ist dringend benötigt. Diese Webseite ist frei von Werbeblöcken und -bannern! So soll es auch bleiben! Dazu benötigen wir Ihre Unterstützung:Weshalb wir Ihre Spende dringend benötigen erfahren Sie hier
Tutorial
Diese Webseite bietet ein Tutorial für Python. Der Unterschied zu anderen Online-Tutorials und Python-Kursen besteht darin, dass wir hier mehr Beispiele und Übungen bieten wollen. Außerdem werden komplexe Probleme in zahlreichen Diagrammen und Bildern veranschaulicht, um einen leichteren Zugang zu gewährleisten. In zahlreichen Python-Kursen hat Bernd Klein die Erfahrungen gesammelt, die in die Entwicklung dieser Webseite eingeflossen sind.Fortgeschrittene Themen
Auf dieser Webseite befinden sich auch zahlreiche fortgeschrittene Themen zu Python, wie man sie in dieser Art vergeblich in anderen Python-Tutorials sucht. Themen, die insbesondere auch für Studierende der Informatik von besonderem Interesse sind: Turingmaschine, Endliche Automaten, Threads, GraphentheorieAber auch für Mathematikerinnen und Mathematiker, Ingenieurinnen und Ingenieure und andere naturwissenschaftlich Orientierte sind zum Beispiel die Einführungen in NumPy, Matplotlib und Pandas von großem Nutzen.
Suchen in dieser Webseite:
Webseite durchsuchen:English Version / Englische Übersetzung
This chapter is also available in our English Python tutorial: Pandas Tutorial: Reading and Writing Data FilesSchulungen
Wenn Sie Python schnell und effizient lernen wollen, empfehlen wir den Kurs
Einführung in Python von Bodenseo. Dieser Kurs wendet sich an totale Anfänger, was Programmierung betrifft. Wenn Sie bereits Erfahrung mit Python oder anderen Programmiersprachen haben, könnte der Python-Kurs für Fortgeschrittene der geeignete Kurs sein.
Python Courses
For those who prefer Python training courses in English: All our Python classes are available in English as well: Python Courses
Dem Autor Bernd Klein auf Facebook folgen:
Bernd Klein on Facebook
Spenden
Ihre Unterstützung ist dringend benötigt. Diese Webseite ist frei von Werbeblöcken und -bannern! So soll es auch bleiben! Dazu benötigen wir Ihre Unterstützung:Weshalb wir Ihre Spende benötigen erfahren Sie hier
Spruch des Tages:
"Schlichtheit geht der Komplexität nicht voraus, sondern folgt ihr.", sagte Perlis in seinen "Epigrams on Programming". Er schrieb auch: "Es geht der modernen Erziehung gegen den Strich, Kindern das Programmieren beizubringen. Worin liegt der Spaß zu planen, Disziplin zu gewinnen, indem man seine Gedanken ordnet, seine Aufmerksamkeit Details zu schenken und zu lernen selbstkritisch zu sein?"
Und noch ein Spruch:
Es gibt Dinge, die den meisten Menschen unglaublich erscheinen, die nicht Mathematik studiert haben.
Archimedes (287 - 212 v. Chr.)
Hilfe
Diese Dokumentation zu Python mit Einführung und Tutorial wurde mit großer Sorgfalt erstellt und wird ständig erweitert. Dennoch können wir für die Korrektheit der Texte und der zahlreichen Beispiele keine Garantie übernehmen. Die Benutzung und Anwendung der Beispiele erfolgt auf eigenes Risiko. Wir freuen uns über alle Anregungen und Fehlerkorrekturen!
Datenschutzerklärung
Datenschutzerklärung nach DSGVONächstes Kapitel: Dealing with NaN
Inhalt: Numerisches Python