Taxpayer-Panel
Seit seiner ersten Bereitstellung im Jahr 2007 bietet das Taxpayer-Panel (TPP) Forschenden die Möglichkeit, die Daten der Lohn- und Einkommensteuerstatistik (LESt) im Längsschnitt zu analysieren. Hierzu werden Beobachtungen derselben Steuerpflichtigen aus den Querschnittsdaten über die Zeit verknüpft. Von 2001 bis 2011 wurden die Daten der jährlichen Einkommensteuerstatistik (Geschäftsstatistik) und ab 2012 die Daten der jährlichen Lohn- und Einkommensteuerstatistik (Bundesstatistik) genutzt. Diese Querschnittsdaten enthalten die Angaben aus den Einkommensteuererklärungen der ca. 29 Millionen veranlagten deutschen Steuerpflichtigen und wurden über die Steuernummern sowie indirekte Identifikatoren zu einem Panel verknüpft.
Seit dem Veranlagungsjahr 2012 entfällt die Geschäftsstatistik. Die bis dahin dreijährliche Bundesstatistik zur Lohn- und Einkommensteuer wird seitdem jährlich erhoben. Das TPP wurde deshalb ab dem Veranlagungsjahr 2012 mit den Daten der Bundesstatistik fortgeführt. Die Bundesstatistik umfasst neben den veranlagten Steuerpflichtigen auch ca. 13 Millionen nicht veranlagte Steuerpflichtige, die sogenannten Lohnsteuerfälle.
Das TPP 2001-2020 weist insgesamt ca. 66 Millionen Beobachtungen (im wide-Format) auf, zu denen Angaben für mindestens zwei Jahreswellen vorliegen. Aufgrund des großen Umfangs von mehreren Millionen Steuerpflichtigen wird das TPP über die Forschungsdatenzentren primär als Stichprobe angeboten. Nähere Informationen zur Nutzung des TPP sind im zum Download verfügbaren Nutzungskonzept dargestellt.
Es ist zu beachten, dass es durch den Wechsel der Datengrundlage (Bundes- anstelle Geschäftsstatistik) teilweise zu Verschiebungen bei der Belegung der Kennzahlen ab Welle 2012 kommt. So werden in der Bundesstatistik alle Informationen zu Frauen in den B-Kennziffern ausgegeben, in den Geschäftsstatistiken standen die Werte alleinveranlagter Frauen dagegen in den A-Kennziffern (analog zu alleinveranlagten Männern). Die unterschiedliche Belegung dieser Kennzahlen muss insbesondere bei geschlechtsspezifischen Auswertungen beachtet werden.
Aktualisierung des TPP – TPP2
Mit dem Veranlagungsjahr 2020 endet die Aktualisierung des „alten“ TPP. Dieses wird der Wissenschaft weiterhin als TPP 2001-2020 zur Verfügung stehen, aber nicht um zusätzliche Veranlagungsjahre erweitert.
Es wird ergänzt durch das „neue“ TPP, Taxpayer-Panel 2 (TPP2). Für das TPP2 wurde die Methodik zur Erstellung des Panels umfassend überarbeitet, um insbesondere in der Stichprobe eine bessere Nachverfolgung von Beobachtungseinheiten zu erreichen. Es wird erstmals für den Beobachtungszeitraum 2012-2020 in Form zweier Datenbestände – 10%-Stichprobe und 1%-Stichprobe – zur Verfügung gestellt, wobei der bisherige zweijährige Veröffentlichungsturnus beibehalten wird. Da das TPP2 auf Basis der Bundesstatistik erstellt wird, gelten die o.g. Einschränkungen aus dem „alten“ TPP zur Belegung der Kennzahlen hier nicht mehr.
An die Stelle der Verknüpfung von Beobachtungen desselben Steuerpflichtigen über die Zeit als zentrale Einheit der Datenaufbereitung und Stichprobenziehung, treten nun als Cluster bezeichnete Zusammenhänge von Steuerpflichtigen im Beobachtungszeitraum. Ein Cluster stellt die Gesamtheit aller Beobachtungen von Steuerpflichtigen dar, welche sich aus sukzessiven Zusammenveranlagungen derselben Steuerfälle im Beobachtungszeitraum ergeben. Nähere Informationen zur Methodik enthalten die zum Download bereitstehenden Informationen zum TPP2.
Die 10%-Stichprobe des TPP2 2012-2020 enthält ca. 44 Millionen Beobachtungen (im long-Format) und ca. 7,5 Millionen distinkte Steuerfälle.
Datensatzbeschreibung und Analysepotenzial
Von den Steuerpflichtigen werden u. a. Bruttolohn, Einkünfte, Einkommen, zu versteuerndes Einkommen, Sonderausgaben, Lohn-, Einkommen- und Kirchensteuer erfasst. Weiterhin enthält das Datenmaterial Angaben über Geschlecht, Geburtsjahr, Religion, Kinderfreibeträge, Kindergeld, Art der Steuerpflicht, Steuerklasse und Veranlagungsart. Eine Aufstellung der Variablen - differenziert nach Veranlagungsjahren - ist in den zum Download verfügbaren Datensatzbeschreibungen enthalten.
Aufgrund des breiten Spektrums an Erhebungsmerkmalen bieten das TPP und das TPP 2 vielfältige Analysemöglichkeiten. Neben rein steuerlichen Betrachtungen sind u.a. auch Untersuchungen und Simulationsrechnungen über die Einkommensverteilung möglich.
Weitere Informationen zur Grundlage des Taxpayer-Panels und des Taxpayer-Panels 2 sowie die zugehörigen Qualitätsberichte und Rechtsgrundlagen finden Sie auf der Seite der Lohn- und Einkommenssteuerstatistik.
Besonderheiten bei der Datennutzung
Für das Taxpayer-Panel und das Taxpayer-Panel 2 gilt folgende Besonderheit bezüglich der Datenzugangswege: Wird die Nutzung des TPP oder TPP2 über die kontrollierte Datenfernverarbeitung (KDFV) beantragt, so kann der Zugang am Gastwissenschaftsarbeitsplatz (GWAP) kostenfrei zusätzlich genutzt werden. Voraussetzung hierfür ist, dass die Ergebnisfreigabe ausschließlich über die KDFV erfolgt. Der GWAP kann in diesem Fall für die Datenexploration und die Erstellung von Syntaxen genutzt werden.
Wir empfehlen diese Möglichkeit zu nutzen. Wenn Sie davon Gebrauch machen wollen, beantragen Sie im Nutzungsantrag bitte beide Zugangswege und vermerken Sie unter „Ergänzende Anmerkungen“ am Ende des Antrags, dass Sie für das TPP oder TPP2 die kostenfreie Nutzung ohne Ergebnisfreigabe nutzen möchten.
FAQ
Die Antworten zu häufig gestellten Fragen finden Sie unten auf dieser Seite.
Verfügbare Mikrodaten
Die folgenden Erhebungsjahre dieser Statistik können über die einzelnen Zugangswege genutzt werden. Bitte beachten Sie dabei, dass die Gemeindekennziffer für das Bundesland Bayern ab dem Berichtsjahr 2012 am Gastwissenschaftsarbeitsplatz lediglich pseudonymisiert zur Verfügung steht (bis zum Jahr 2011 sind die Bundesländer tiefste regionale Auswertungsebene).
Taxpayer-Panel (EVAS 73111)
| Erhebungsjahr | Form des Datenzugangs | |||
|---|---|---|---|---|
| Off-Site-Zugang | On-Site-Zugang | |||
| Public Use File (PUF) | Scientific Use File (SUF) | Gastwissenschaftsarbeitsplatz (GWAP) | Kontrollierte Datenfernverarbeitung (KDFV) | |
| 2012-2020 (TPP2) | - | - |
verfügbar Metadaten/DOI |
verfügbar Metadaten/DOI |
| 2001-2020 (TPP) | - | - |
verfügbar Metadaten/DOI |
verfügbar Metadaten/DOI |
Rechtsgrundlage
Gesetz über Steuerstatistiken (StStatG) vom 11. Oktober 1995
FAQ - Häufig gestellte Fragen
Hinweis: Weitere Antworten finden Sie auf der Seite der Lohn- und Einkommensteuerstatistik.
Fragen zur Bereitstellung der Daten
Ist es möglich, nur einzelne Wellen des Taxpayer-Panels zu nutzen?
Ja, das ist möglich. Das Taxpayer-Panel kann als Ganzes genutzt werden oder es werden nur einzelne Erhebungsjahre beantragt. Werden nur einzelne Jahre beantragt, müssen diese nicht zusammenhängend sein.
Warum werden für das TPP nur Stichproben bereitgestellt?
Das Vollmaterial zum Taxpayer-Panel ist so umfangreich, dass wir es nicht dauerhaft in verknüpfter Form vorliegen haben. Dies ist vor allem eine Frage der technischen Kapazitäten, sowohl was den physischen Speicherplatz als auch den verfügbaren Arbeitsspeicher betrifft. Zuschnitte des Vollmaterials können auf Anfrage mit einer begrenzten Variablenliste mit max. 25 Variablen erstellt werden. Die über die FDZ bereitgestellten Stichproben sind jedoch erfahrungsgemäß für die meisten Forschungsfragen ausreichend groß.
Können aus dem Vollmaterial des Taxpayer-Panels nutzerspezifische Datenfiles erstellt werden, die nur bestimmte Fälle enthalten?
Es ist grundsätzlich möglich, nutzerspezifische Datensätze mit den Sie interessierenden Beobachtungen aus dem Vollmaterial zu erstellen und Ihnen per KDFV bereitzustellen. Das zählt als projektspezifische Aufbereitung, für die zusätzliche Kosten anfallen. Zuschnitte des Vollmaterials können auf Anfrage mit einer begrenzten Variablenliste mit max. 25 Variablen erstellt werden. Die ausgewählten Variablen werden dann für alle beantragten Wellen bereitgestellt, sofern sie verfügbar sind. Auswertungen damit laufen analog zu Auswertungen mit der 5%-Stichprobe. Es sollten nur Ergebnisse erstellt und freigegeben werden, die tatsächlich benötigt werden.
Fragen zu den enthaltenen Angaben
Wo finde ich Informationen zum Taxpayer-Panel?
Neben den Metadaten auf dieser Seite stellt das Statistische Bundesamt zum Taxpayer-Panel folgende Publikationen zur Verfügung:
- Auszug aus der Publikation „WISTA – Wirtschaft und Statistik“, Januar 2007: Das Taxpayer-Panel der jährlichen Einkommensteuerstatistik
- Auszug aus der Publikation „WISTA – Wirtschaft und Statistik“, Oktober 2013: Das Taxpayer-Panel 2001 bis 2008
Sind die angegebenen Beträge die auf der Lohnsteuererklärung eingereichten Werte oder die vom Finanzamt anerkannten Werte?
Die c65***-Kennzahlen zu den Werbungskosten sind Ergebniskennzahlen, die im Rahmen des Festsetzungsverfahrens von der Finanzverwaltung ermittelt werden. Die zugehörigen Eingabekennzahlen aus der Anlage N beginnen mit normalerweise mit c87/88. Diese Eingabekennzahlen sind aber nicht vollständig in der Lohn- und Einkommenssteuerstatistik (und entsprechend im TPP) enthalten, sondern in der Regel nur dann, wenn keine korrespondierende Ergebniskennzahl vorliegt.
Sind die Daten des TPP für das Jahr 2001 in DM oder in Euro erfasst?
Für das Jahr 2001 wurden die Angaben in DM erhoben und bei der Aufbereitung entsprechend dem offiziellen Wechselkurs in Euro umgerechnet.
Was ist der Hochrechnungsfaktor und wofür wird er benötigt?
Der Hochrechnungsfaktor ist darauf ausgelegt, die Werte aus den Stichproben auf die Werte hochzurechnen, die man bekommen würde, wenn man mit dem vollen Datenmaterial arbeiten würde. Der Hochrechnungsfaktor ist daher der Kehrwert der Auswahlwahrscheinlichkeit eines Falls (probability weight). Dieser berücksichtigt die der Stichprobe zugrundeliegende Schichtung, u.a. für wie viele Wellen zu dem Fall Angaben vorliegen.
Die Schichtung im Taxpayer-Panel erfolgt nach Bundesland, Grund- oder Splittingtabelle, überwiegende Einkunftsart sowie unter Berücksichtigung des Gesamtbetrags der Einkünfte (GdE). Dieser wurde hierfür in sechs Größenklassen eingeteilt: unter 0 Euro, 0-30.000 Euro, 30.000-50.000 Euro, 50.000-100.000 Euro, 100.000-150.000, über 150.000 Euro. Darüber hinaus wurde bei der Schichtung eine relative Variation des Gesamtbetrags der Einkünfte (GdE) zwischen den Jahren berücksichtigt.
Weitere Informationen zur Schichtung und Hochrechnung stellen die FDZ zur Stichprobenziehung für das Taxpayer-Panel 2018 zur Verfügung.
Bei der Feldlänge für die c-Merkmale steht hinter der Feldlänge der Zusatz „(NMV13K00)“. Was bedeutet das?
„NMV13K00“ stammt aus der Lieferdatensatzbeschreibung und bedeutet „numerischer Wert in Zeichendarstellung mit Vorzeichen“ mit 13 Stellen insgesamt und null Kommastellen.
Werden nach der Entscheidung zur gemeinsamen Veranlagung weiterhin beide Steuerzahler im TPP erfasst oder kommt es zu einer Verschmelzung zu einem Steuerfall?
In der Lohn- und Einkommensteuerstatistik (auf dem das Taxpayer-Panel basiert) werden als Erhebungseinheit die Steuerpflichtigen erfasst. Das kann eine Person sein oder es können (im Fall eines gemeinsam veranlagten Ehepaares) zwei Personen sein. Deshalb sind für viele Angaben zwei Felder vorgesehen (A und B, siehe hierzu auch die Datensatzbeschreibung für die GWAP-Nutzung und die KDFV-Nutzung).
Für das Taxpayer-Panel wurden bis zum Bezugsjahr 2012 die Datensätze der ESt anhand der ID- und Steuernummern von einem Jahr zum nächsten verknüpft. Das heißt für ein Paar, das 2011 noch nicht verheiratet und einzeln veranlagt war, 2012 dann verheiratet und gemeinsam veranlagt war, gibt es in der ESt2011 zwei Datensätze, in der ESt2012 nur noch einen. Im Taxpayer-Panel sind zwei Datensätze enthalten, einer hat ab Welle 2012 keine Angaben mehr, dafür sind im anderen Datensatz ab Welle 2012 sowohl die A- als auch die B-Kennzahlen besetzt.
Leider ist die Wahrscheinlichkeit, dass der Datensatz des Mannes oder der der Frau weitergeführt wird, nicht gleich verteilt. Zum einen behält meist der Mann seine Steuernummer (von Seiten der Finanzverwaltung), zum anderen werden bei der (technischen) Verknüpfung zum Taxpayer-Panel zuerst die A-ID-Nummern (für die Männer) verglichen. Sobald ein Match gefunden wurde, werden keine weiteren Verbindungen gesucht – da mehrere Heiraten und Scheidungen möglich sind, würde das sonst zu einem heillosen Durcheinander führen.
Ab Welle 2010 war durch die Einführung der Steuer-ID eine eindeutige Zuordnung der Personen gegeben (vorher „verschwand“ die Steuernummer der Frau einfach und konnte dem neuen Paar gar nicht zugeordnet werden). Die Steueridentifikationsnummer wurde nun zum einen für die Verknüpfung des Datensatzes genutzt. Zum anderen wurde analog zur Steuer-ID eine Panel-ID einführt (ida und idb). Diese ID-Nummer ist personenbezogen und kann interessierten Wissenschaftler/innen helfen, die Partner bei Heiraten oder Scheidungen im Taxpayer-Panel zu identifizieren.
Um damit sinnvolle Auswertungen vornehmen zu können, muss der Taxpayer-Panel-Datensatz anhand der erwähnten ID-Merkmale komplett umstrukturiert werden. Die genaue Vorgehensweise obliegt hier den Datennutzenden.
Wie wird im Taxpayer-Panel die festzusetzende Einkommenssteuer erhoben?
Die festzusetzende Einkommenssteuer wird von der Finanzverwaltung geliefert. Sie stellt ein Ergebnis des Besteuerungsprozesses dar. Die aktuellen Berechnungsschemata werden in den Informationen zur Lohn- und Einkommensteuerstatistik auf der Homepage des Statistischen Bundesamtes veröffentlicht.
Ist es möglich, mit Daten des TPP das Abgabedatum einer Steuererklärung zu analysieren?
Leider ist das nicht möglich. Das Datum, wann eine Steuererklärung abgegeben wurde, wird bei der Finanzverwaltung nicht gespeichert.
Kann man anhand der Daten erkennen, bei dem ein Kind nach der Scheidung seiner Eltern wohnt?
Es ist erst ab 2010 möglich, ursprünglich gemeinsam veranlagte Personen nach einer Scheidung beide weiter zu beobachten. In der Variablen c36115 ist das gewährte Kindergeld enthalten. In der Regel erhält derjenige (ehemalige) Partner das Kindergeld, bei dem die Kinder leben. Rein rechtlich ist es allerdings auch möglich, dass das Kindergeld auf beide Elternteile aufgeteilt wird.
In den Merkmalen c65273 und c65274 sind zusätzlich „Einnahmen aus Unterhaltsleistungen“ sowie in c65475 die „Unterhaltsaufwendungen (§ 33a Abs.1 EStG)“ und in c65401 die „Unterhaltsleistungen nach § 10 Abs. 1 Nr. 1 EstG“ enthalten, die ebenfalls zur Klärung der Frage, bei wem das Kind lebt, beitragen können. Die beiden letztgenannten Variablen sind allerdings nicht für jedes Bundesland besetzt.
Lassen sich im TPP Besatzungsmitglieder auf deutschflaggigen Schiffen identifizieren?
Hintergrund: Für Besatzungsmitglieder auf deutschflaggigen Schiffen wird die Lohnsteuer nicht an das Finazamt abgeführt, sondern vom Arbeitgeber einbehalten.
Die betroffenen Besatzungsmitglieder von Handelsschiffen können im TPP nicht identifiziert werden. Der Arbeitgeber behält die Lohnsteuer ein, muss diese aber nicht an das Finanzamt abführen. Für den Arbeitnehmer ändert sich erstmal nichts, da der Lohnsteuerabzug weiterhin vorgenommen wird. Eine Unterscheidung bzw. Identifizierung ist damit mit den Daten nicht möglich.
Informationen zur Lohnsteuerstatistik auf Arbeitgeberbasis finden Sie in Genesis-Online unter der EVAS 73151. Hier werden auch die „Kürzungsbeträge für Besetzungsmitglieder von Handelsschiffen“ in Anzahl und Volumen dargestellt.
Fragen zur Aufbereitung der Daten
Wie können die Daten des TPP vom wide- in das long-Format überführt werden?
Das FDZ des Statistischen Bundesamts kann Ihnen für die Umwandlung vom wide- ins long-Format auf Nachfrage einen Beispielcode in Stata zur Verfügung stellen. Bitte wenden Sie sich dazu an ihre Ansprechperson. Weitere Umformungen des Datensatzes müssten Sie nach erfolgter Datenbereitstellung selbst vornehmen.
Im wide-Format stellt dabei jede Datenzeile eine „Steuerzahlereinheit“ dar. Ein Single wäre demnach bis exklusive dem Jahr der Hochzeit (bei gemeinsamer Veranlagung) eine Einheit/Datenzeile und die Eheleute eine weitere. Die Zeilennummer kann damit als ID für den reshape ins long-Format verwenden kann?
Liegt im TPP ein ID-Merkmal vor, das eine Verfolgung von Personen im Zeitablauf ermöglicht (z. B. bei Scheidung, Heirat, Tod des Ehepartners, Umzug)?
Ab dem Veranlagungsjahr 2010 enthält das TPP die Merkmale ida und idb. Diese Panel-IDs stellen die pseudonymisierte Steuer-ID der Personen dar. Sie können interessierten Wissenschaftlerinnen und Wissenschaftlern helfen, die Partner bei Heiraten oder Scheidungen im Taxpayer-Panel zu identifizieren. Bei einzelveranlagten Steuerfällen ist dabei nur eines der Merkmale besetzt, bei zusammenveranlagten Steuerfällen sind beide ID-Merkmale befüllt. Um damit sinnvolle Auswertungen vornehmen zu können, muss der Taxpayer-Panel-Datensatz anhand der erwähnten ID-Merkmale komplett umstrukturiert werden. Die genaue Vorgehensweise obliegt hier den Datennutzenden.
Für die Wellen davor wurden neben der Steuernummer auch sozioökonomische Angaben zur Verknüpfung genutzt. Durch den Wechsel der Steuernummer bei Eheschließung oder -scheidung lassen sich solche Fälle in den früheren Wellen nicht verfolgen. Zudem bestand bei größeren Lücken zwischen veranlagten Jahren das Problem, das in manchen Bundesländern die Steuernummern nach einiger Zeit neu vergeben wurden. Eine solche Person taucht nach einer längeren Lücke zu einem späteren Zeitpunkt möglicherweise als ein neuer Steuerfall auf. Das heißt: Vor der Steueridentifikationsnummer haben wir ausschließlich Steuerfälle als Beobachtungen, erst danach kann man von einer Personenebene sprechen.
Ich möchte auch für die Wellen ab 2012 nur die Steuerfälle betrachten, die tatsächlich eine Steuererklärung eingereicht haben. Wie muss ich dafür filtern?
Bis einschließlich der Welle 2011 sind in den Daten nur solche Personen enthalten, die eine Steuererklärung abgegeben haben. Um diese Fallauswahl auf die Wellen ab 2012 zu übertragen, entfernen Sie alle Steuerfälle aus dem Datenmaterial, für die gilt: ef1 = [6, 9, 10, 18]. Damit werden die Fälle entfernt, die keine Steuererklärung eingereicht haben.
Zur Präzisierung: Verlustfestsetzungen (ef1=09) und Nur-Sparzulagenfälle (ef1=06) gelten als veranlagte Steuerpflichtige. Sie geben auch eine verkürzte Steuererklärung ab. Lohnsteuerfälle haben den Merker ef1=18 (Wohnsitz im Inland) oder ef1=10 (Wohnsitz im Ausland). Im TPP fehlten bis 2012 aber auch die Verlustfestsetzungen und Nur-Sparzulagenfälle. Um die Zusammensetzung im Panel einheitlich zu halten, werden ab 2012 nur die Fälle beibehalten für die gilt: ef1 nicht 06, 09, 10, 18.
Lassen sich die „alten“ Datenprodukte des TPP replizieren, wenn an den neueren Produkten die neusten Wellen entfernt werden?
Nicht ganz. Ein Beispiel: Wenn ein Steuerpflichtiger im Panel bis 2016 nur in einem Jahr der Statistik auftauchte, ist er im Taxpayer-Panel 2016 nicht enthalten. Kommt in den Jahren 2017 und/oder 2018 ein weiterer Datensatz zu dem Steuerpflichtigen hinzu, wird das erste Jahr (also 2016 oder früher) auch ins Taxpayer-Panel 2018 aufgenommen. Dieser Steuerfall ist kommt im neuen Panel dann also neu dazu. Man müsste also die Jahre 2017 und 2018 entfernen und zusätzlich alle Steuerpflichtigen löschen, die dann nur noch eine oder keine Angaben mehr haben.
Diese Angaben bezieht sich jedoch auf das Vollmaterial des Taxpayer-Panels. Bei den Stichproben (wie sie für die KDFV- und die GWAP-Nutzung zur Verfügung stehen, siehe Nutzungskonzept (PDF) können ältere Versionen nicht repliziert werden, weil die Stichproben anhand der aktualisierten Schichtungsmerkmale neu gezogen werden.
Fragen zu demografischen Merkmalen
Woraus ergibt sich das Geschlecht des Steuerfalls (ef8)?
Das Geschlecht wird in der Steuererklärung nicht abgefragt. Stattdessen wird es von den Bearbeitenden der Finanzämter auf Basis des Anredeschlüssels abgleitet, der aus dem Vornamen geschlussfolgert wird. EF8 enthält diese abgeleitete Geschlechtsangabe, wobei gilt 0 = männlich und 1 = weiblich.
Auf welche Person bezieht sich die Variable ef8 (Geschlecht) bei (zusammenveranlagten) Ehepaaren? Kann eine Abgrenzung des Geschlechts über die Zuordnung zu den A- bzw. B-Fällen erfolgen?
Das Merkmal ef8 gilt leider nur für die einzelveranlagten Steuerfälle. Bei zusammenveranlagten Fällen hat das Merkmal keine Aussagekraft und ist in den meisten Fällen leer.
Eine eindeutige Zuordnung über die A- und B-Kennziffern ist erst ab dem Jahr 2012 möglich. Davor waren nicht nur Männer, sondern auch einzelveranlagte Frauen unter der A-Kennziffer enthalten. Bei zusammenveranlagten Fällen ist es jedoch in der Regel so, dass die Männer mit A und die Frauen mit B vercodet wurden. Für einzeln veranlagte Steuerfälle kann also das Merkmal ef8 herangezogen werden. Bei zusammenveranlagten Steuerfällen steht im Regelfall der Mann hinter der A-Kennziffer und die Frau hinter der B-Kennziffer. Leider kann nicht beobachtet werden, wenn sich die Frau als A und der Mann als B einträgt, etwa weil sie mehr als er verdient.
Wie werden gleichgeschlechtliche Ehen und eingetragenen Lebenspartnerschaften markiert?
Bis in das Veranlagungsjahr 2016 wurden in dem Merkmal c65961 = 1 eine Lebenspartnerschaft unter Männer und c65961 = 2 eine Lebenspartnerschaft kenntlich gemacht. 2017 wurde die Ausprägung c65961 = 3 für eine gleichgeschlechtliche Ehe hinzugenommen. In diesem Fall ergibt sich das Geschlecht über die Ausprägung von Ef8 (0 = Ehe zweier Männer und 1 = Ehe zweier Frauen.
Da das Geschlecht für das Festsetzungsverfahren keine Relevanz hat, können Inkonsistenzen über Veranlagungsjahre hinweg nicht ausgeschlossen werden. Soweit möglich, werden die Geschlechtsangaben Ef8 bei der Erstellung de TPP harmonisiert.
Ab 2013 konnten sich gleichgeschlechtliche Paare zusammenveranlagen, was auch rückwirkend beantragt werden konnte. Wie geht das TPP damit um?
Wir bekommen die Daten für ein Veranlagungsjahr bis zweieinhalb Jahre nach diesem Veranlagungsjahr. Wenn in diesen drei Jahren die Veranlagung rückwirkend korrigiert wurde, sind die neuen Angaben in der Statistik (und im Taxpayer-Panel) enthalten. Erfolgt die Neufestsetzung erst nach dem 30.9. des dritten Folgejahres (weil z. B. der Einspruch oder ein Gerichtsbeschluss später kamen), erscheinen die Korrekturen nicht in der Statistik.
Wer ist in einer Ehe Steuerfall A und wer B?
Bei einer gemeinsamen Veranlagung heterosexueller Ehepartner ist die Vorgabe bei der Befüllung der entsprechenden Anlage seitens der Finanzverwaltung, dass der Ehemann als Steuerfall A und die Ehefrau als Steuerfall B eingetragen wird. Entsprechend ist auch in den Daten der Ehemann der Steuerfall A und die Ehefrau der Steuerfall B. Abweichungen dazu sollten eine Ausnahme sein und sind nicht identifizierbar.
Bei gleichgeschlechtlichen Ehen hängt die Zuordnung davon ab, welche Person sich auf der Einkommensteuererklärung in A und wer in B einträgt.
Sofern es sich um eine gemeinsame Veranlagung einer eingetragenen Lebenspartnerschaft handelt, wird dies über das Merkmal C65961 kenntlich gemacht, wobei C65691 = 1 die Lebenspartnerschaft zweier Männer und C65691 = 2 die Lebenspartnerschaft zweier Frauen anzeigt. Für die gemeinsame Veranlagung gleichgeschlechtlicher Ehepartner wurde ab dem Veranlagungsjahr 2017 eine neue C65691-Ausprägung aufgenommen: 3 = Gleichgeschlechtliche Ehe. In diesen Fällen wird dann auch das Geschlecht über EF8 signiert (Ausprägung: 0 = Ehe zweier Männer, 1 = Ehe zweier Frauen).
Hinweis: Da das Geschlecht für das Festsetzungsverfahren keine Relevanz hat, können Inkonsistenzen über die Veranlagungsjahre hinweg nicht ausgeschlossen werden. Soweit möglich, werden die Geschlechtsangaben EF8 bei der Erstellung des TPP harmonisiert.
Kann man das Geschlecht eines Kindes anhand der Daten erkennen?
Das Geschlecht des Kindes geht aus den Steuerdaten nicht hervor.
Wie kann die Zahl der Kinder zuverlässig festgestellt werden?
Es gibt eine Variable c65748 „Zahl der Kinder (ZK+ZHK)“. Die Frage bezieht sich auf folgenden Hinweis in den Metadaten: „In NRW (und einige Fälle in anderen Ländern) stimmt die Zahl der Kinder nicht mit der durch die angegebenen Geburtsjahre errechneten überein. Achtung: unbestimmbare Anzahl von Kindern wird bei getrennter Veranlagung der Eltern doppelt nachgewiesen.“
Beim Vergleich der Angaben im Merkmal c65748 „Zahl der Kinder (ZK+ZHK)“ und der Anzahl der angegebenen Kinder-Geburtsdaten kommt es für alle Erhebungsjahre und Bundesländer zu Differenzen. Beide Wege führen aber in deutlich über 99% der Fälle zum gleichen Ergebnis.
Für Veröffentlichungen der Statistischen Ämter zu diesem Thema wird das Merkmal c65748 verwendet. Wir empfehlen daher, die Ergebnisse auf dieses Merkmal zu beziehen.
Fragen zur Identifikation spezifischer Gruppen
Ist der Übergang von der Arbeitslosigkeit zur Erwerbstätigkeit im TPP identifizierbar?
Die Variablen zum Progressionsvorbehalt bei ALG I bzw. ALG I-Zahlungen (c18120/1 sowie c47020/c48020) können hierfür ein Indikator sein. Eine sichere Zuordnung ist aber nicht möglich, da Sie damit z.B. keine Personen sicher identifizieren können, die ALG II beziehen bzw. bezogen haben, da dieses steuerfrei ist und auch nicht dem Progressionsvorbehalt unterliegt. Wenn ein Steuerfall vor oder zwischen Zeiten mit steuerlich relevanten Einkünften nicht im Datensatz auftaucht, kann das ein Indikator für Arbeitslosigkeit sein - muss es aber nicht, da auch aus anderen Gründen keine Steuererklärung eingereicht bzw. keine Lohnsteuer abgeführt worden sein kann (keine steuerlich relevanten Einkünfte, Wohnsitzverlagerung ins Ausland, …).
Können im TPP privat Krankenversicherte identifiziert werden?
Im Jahr 2009 geht das mit den Variablen c52080/c52069. Ab der Welle 2015 können die Merkmale c52350/c52450 dafür genutzt werden.
Leider wurden die Kennzahlen (Zeilen) aus der Anlage „Vorsorgeaufwand“ erst ab dem Veranlagungsjahr 2015 in den Datensatz aufgenommen. Für die Veranlagungsjahre 2010-2014 gibt es die Kennzahlen c52350/c52450 nicht. Die Beiträge zur privaten KV für 2010 - 2014 sind daher nicht gesondert ausgewiesen. Es gibt nur die berechneten Kennzahlen mit den Beiträgen zur Basiskrankenversicherung insgesamt (c69400/69401).
Daher können die Personen mit privater KV für diesen Zeitraum leider nicht direkt identifiziert werden. Hier bliebe nur eine indirekte Identifikation, möglicherweise z.B. über die soziale Gliederung sowie eine Approximation der Beitragsbemessungsgrenze über eine der Einkommensvariablen (z.B. Summe der Einkünfte), abgeglichen mit der direkten Beobachtung ab 2015.
Lässt sich im TPP zwischen Tod eines Ehepartners und Scheidung unterscheiden?
Eine Unterscheidung zwischen „Ehe geschieden“ und „Ehepartner verstorben“ ist nicht direkt möglich. Mit der Variablen ef18 lassen sich die Fälle herausfiltern, in denen die Partner weiterhin verheiratet sind, aber nach einem oder mehreren zusammenveranlagten Jahren (EF18=2) zu einer getrennten Veranlagung wechseln (EF18=1).
Ab dem Bezugsjahr 2010 lassen sich über die Panel-ID (ida und idb) Personen nachverfolgen. Wechselt hier eine Person in eine andere Beobachtung im Datensatz, sollte eine Scheidung vorliegen (Wechsel von ef18=1, 2 zu EF18=3). Der Tod einer Person lässt sich nicht ganz sicher identifizieren, da diese auch aus anderen Gründen nicht mehr in den Daten auftauchen könnte (z.B. Wegzug ins Ausland, und damit einhergehend keine Steuererklärung in DEU mehr). Bei Ehepaaren könnte aber der Wegfall einer Person und der Wechsel der verbleibenden Person ins Witwensplitting (ef18 = 4) ein Anhaltspunkt sein.
Lassen sich im Taxpayer-Panel bei Personen, die nach der Grundtabelle besteuert werden, verheiratete Personen identifizieren?
Die Veranlagungsart (getrennte vs. gemeinsame Veranlagung) von Ehepaaren lässt sich über die Variable ef18 bestimmten, die Besteuerung nach Grund- oder Splittingtabelle über ef19. Verheiratete bzw. Getrennte lassen sich vor und nach Heirat/Trennung ab dem Bezugsjahr 2010 über die Panel-IDs ida und idb verfolgen.
Ist eine Veränderung in ef44 (Geburtsjahr Ehepartner-/in) bei unveränderter ef43 (Geburtsjahr Steuerpflichtiger) ein eindeutiges Zeichen für einen neuen Ehepartner bzw. eine neue Ehepartnerin?
Es sollte nur aufgrund von Tippfehlern oder fehlenden Angaben vorkommen, dass sich das Geburtsdatum für die gleiche Person ändert. Hierbei handelt es sich dann um Ausnahmefälle.
Ich möchte im TPP Beamte identifizieren. Ist das möglich?
Die soziale Gliederung (ef11 und ef12) wird anhand der Angaben aus der Anlage Vorsorgeaufwand eingetragen (Kz52.380, Kz52.381, Kz52.382). Die Anlagen der Einkommensteuererklärung sind beim Formular-Management-System der Bundesfinanzverwaltung zu finden. Demnach werden die Beamten ab 2010 mit den Soldaten und Richtern gemeinsam ausgewertet. Eine Trennung dieser Personengruppen ist daher nicht möglich. Das ist für die Steuerfestsetzung wohl irrelevant.
Bis zum Jahr 2009 sind unter der Ausprägung ef11 = 1 neben Beamten, Richtern und Soldaten auch verschiedene andere Personenkreise zusammengefasst, wie beispielsweise weitere nicht rentenversicherungspflichtige Personen wie Schüler, Praktikanten, weiterbeschäftigte Altersrentner oder Geistliche.
Wie können verheiratete / unverheiratete Steuerfälle im TPP unterschieden werden?
Die Variable ef18 nimmt für verheiratete Steuerzahler die Werte „1“ (verheiratet und getrennte Veranlagung) und „2“ (verheiratet und gemeinsame Veranlagung) an. Für unverheiratete Steuerzahler nimmt die Variable ef18 den Wert „3“ an.
Eine Heirat kann im Panel-Verlauf mit einem Vergleich von ef18 (= 2) mit dem Wert des Vorjahres (= 3) erkannt werden.
Wie lassen sich im TPP einzelveranlagte Fälle von gemeinsam veranlagten Fällen unterscheiden?
Diese Unterscheidung funktioniert am einfachsten über das Merkmal ef18 „Veranlagungsart“.
Fragen zur Verknüpfbarkeit
Kann das TPP mit anderen Datensätzen verknüpft werden?
Eine Verknüpfung des TPP mit externen Merkmalen ist prinzipiell möglich, unterliegt aber Einschränkungen. Bis einschließlich der Welle 2011 kann eine regionale Verknüpfung nur auf Ebene der Bundesländer erfolgen, ab der Welle 2012 bis auf Ebene der Gemeinde. Bei der Nutzung der 0,5%-Stichprobe am GWAP liegt der Amtliche Gemeindeschlüssel für bayerische Gemeinden lediglich in pseudonymisierter Form vor.
Können die Daten des Taxpayer-Panels auf Personenebene verknüpft werden?
Eine Verknüpfung von Einzelangaben auf Personenebene ist nach §21 des Bundesstatistikgesetzes (Verbot der Reidentifizierung) nicht zulässig, sofern das einzelstatistische Gesetz – in diesem Fall das Steuerstatistikgesetz (StStatG) – nicht etwas Gegenteiliges festlegt. Im StStatG sind in §2 jedoch nur Ausnahmen für Verknüpfungen innerhalb der Steuerstatistiken vorgesehen. Eine Verknüpfung von Einzelangaben auf Personenebene mit anderen Merkmalen/Daten ist daher für die Steuerstatistiken nicht möglich.
Fragen zu auffälligen Ergebnissen
Wieso häufen sich in einigen Variablen bestimmte Einzelwerte?
Diese Häufungen treten unter anderem bei den Variablen c65176/c65177 (tatsächlich anerkannte Werbungskosten) auf. Eine Erklärung dafür sind typischerweise von den Finanzämtern anerkannte Pauschalen, automatische Einfüllungen in Steuererklärungssoftware. Häufungen treten bei den Werbungskosten bspw. bei folgenden Werten auf:
- Eine pauschale Angabe von 16€ für Kontoführungsgebühren ist üblich und daher häufig in den Daten zu beobachten.
- Eine Angabe von 119€ wird von einer häufig genutzten Steuersoftware eingefüllt, um Ausgaben für Arbeitsmittel und die erwähnten Kontoführungsgebühren abzudecken.
- Eine Angabe von 126€ tritt ebenfalls gehäufter auf und könnte durch die Angabe der in vielen Bundesländern üblicherweise anerkannten 110€ für Arbeitsmittel und 16€ Kontoführungsgebühren entstehen.
Bei der GWAP-Stichprobe des TPP gibt es am aktuellen Rand kaum neue Steuerfälle. Woran liegt das?
Das liegt daran, dass für das Material der kontrollierten Datenfernverarbeitung (5%-Stichprobe) und der Gastwissenschaftsarbeitsplätze (0,5%-Stichprobe) nur Fälle in das TPP-Datenmaterial aufgenommen wurden, die in mindestens 5 Bezugsjahren beobachtet werden. Im Vollmaterial sind dagegen auch Steuerfälle enthalten, für die nur zu zwei Jahren Angaben vorliegen. In diesem Datensatz wären also auch Steuerfälle enthalten, für die nur für die beiden aktuellsten Jahre Angaben vorliegen.
Mehr Informationen dazu finden Sie im Nutzungskonzept (PDF) für das Taxpayer-Panel.
Im TPP wechseln die erfassten Geburtsjahre in ef43 und ef44 bei gemeinsam Veranlagten gelegentlich zwischen den beiden Variablen. Hat das eine inhaltliche Bedeutung?
Das könnte eventuell daran liegen, dass einige Steuerpflichtige den Eintrag der Ehepartner/innen als Person A und B wechseln, z.B. je nachdem wer mehr verdient.
Achtung: Bei allein veranlagten Frauen wechselt die Belegung der Kennzahlen vor 2012 (A-Kennzahlen) und ab 2012 (B-Kennzahlen). Ursache hierfür ist der Wechsel der Datengrundlage von der bis dahin jährlichen Geschäftsstatistik der Einkommensteuer auf die ab 2012 jährlich vorliegende Bundesstatistik der Lohn- und Einkommensteuer.
Fragen zu spezifischen Merkmalen
Was bedeuten die Ausprägungen 0, 1 und 2 in den Merkmalen c18116 und c18117?
Bis einschließlich Veranlagungszeitraum 2017 mussten Steuerpflichtige Angaben über auf Dauer angelegte Geschäftsbeziehungen zu Finanzinstituten im Ausland im „Hauptvordruck ESt 1 A“ machen — und zwar in Zeile 99 des Formulars. Dort sind auch die Ausprägungen zur Frage, ob solche Geschäftsbeziehungen bestehen, angegeben (1= ja, 2=nein). Der Wert 0 ist gleichbedeutend mit einen missings value.
Die Steuervordrucke der vergangenen Jahre sind hier zu finden: https://www.formulare-bfinv.de/
Auf was bezieht sich die Variable „Kinderfreibetrag“?
Die Variable „Kinderfreibetrag“ (in Welle 2001 als die Variable c36010, in den Wellen 2002-2006 als c36110 und ab 2006 nicht mehr enthalten), bezieht sich auf die Monate im Veranschlagungszeitraum, in denen ein Kinderfreibetrag genutzt wird.
Ist Krankengeld ein Lohn- oder Einkommensersatz?
Das Krankengeld ist in c18120 (A) und c14121 (B) enthalten. Dabei handelt es sich um Einkommensersatzleistungen unter Progressionsvorbehalt (Kranken-, Arbeitslosen-, Insolvenz-, Eltern-, bzw. Mutterschaftsgeld).
Die Variable ef18 (Veranlagungsart) ist in einigen Fällen unbesetzt. Was bedeutet das?
Die Variable ef18 ist nur dann befüllt, wenn das Merkmal ef1 die Ausprägung 01 (Antragsveranlagung), 02 (Zwangsveranlagung mit Einkünften aus nichtselbständiger Arbeit) oder 05 (Zwangsveranlagung ohne Einkünfte aus nichtselbständiger Arbeit) aufweist. In allen anderen Fällen (z. B. nicht veranlagte Fälle, Nur-Sparzulagenfälle, Verlustfeststellungen) ist das Merkmal ef18 leer.
Wie setzt sich die Variable ef10 (Steuerklasse) zusammen?
Die Steuerklasse (ef10) ist nur für Personen mit Einkünften aus nichtselbständiger Arbeit relevant. Je nach Steuerklasse wird ein bestimmter Prozentsatz an Lohnsteuer abgezogen. Gibt diese Person dann eine Einkommensteuererklärung ab, wird die Steuerklasse in das Feld ef10 eingetragen. Das Feld ist zwei Zeichen lang, an erster Stelle steht die Steuerklasse für Person A, an zweiter Stelle die Steuerklasse für Person B. Hat ein Partner bei einer Zusammenveranlagung keine Einkünfte aus nichtselbständiger Arbeit, bleibt das Feld leer. Für die Festsetzung der Einkommensteuer ist die Steuerklasse unwichtig.
Messen die Variablen zu Kinderbetreuungskosten die in der Steuererklärung angegebenen Kosten oder die absetzbaren Kinderbetreuungskosten?
Betroffen sind die Variablen c65499, c65904, c65905, c65399, c65204 und c65205. In diesen Kennzahlen der Finanzverwaltung sind die angerechneten (absetzbaren) Kinderbetreuungskosten enthalten.
Zum Hintergrund: In manchen Jahren war nur ein Anteil (meist 2/3) der Kinderbetreuungskosten steuerlich abzugsfähig. Die Frage bezieht sich darauf, ob in den Daten die Gesamtkosten oder eben 2/3 der Kosten ersichtlich sind.
Die Einkommensteuererklärung enthält die Angabe, ob Angehörige der steuerberatenden Berufe an der Erstellung der Steuerklärung beteiligt waren. Ist diese Information im TPP enthalten?
Dieses Merkmal wird dem Statistischen Bundesamt nicht geliefert und steht daher nicht zu Auswertungszwecken zur Verfügung.
Wie können Progressionseinkünfte für die Jahre 2001 und 2002 ausgewertet werden?
Die für die übrigen Wellen zu nutzenden Variablen c18122 und c18123 sind für die Jahre 2001 und 2002 nicht besetzt. Sie liegen in den Daten zwar vor, enthalten aber nur die Werten „0“ oder „.“. Stattdessen sollten für diese beiden Jahre die Merkmale c18022 und c18023 genutzt werden.
Zusätzlich gilt es bei den Einkünften unter Progressionsvorbehalt die Anmerkung in der Datensatzbeschreibung bei den Variablen c66200 und c66201 zu beachten.