Lohn- und Einkommensteuerstatistik
Die Lohn- und Einkommensteuerstatistik gibt einen detaillierten Überblick über den Kreis der lohn- und einkommensteuerpflichtigen natürlichen Personen sowie die Höhe, Verteilung und Besteuerung des Einkommens.
Von den Steuerpflichtigen werden neben Bruttolohn, Einkünften, Einkommen, zu versteuerndem Einkommen, steuerlichen Abzügen wie Werbungskosten, Sonderausgaben und außergewöhnlichen Belastungen, Lohn-, Einkommen- und Kirchensteuer, vermögenswirksamen Leistungen einschließlich Arbeitnehmer-Sparzulage, sonstige Zulagen sowie Lohn- und Einkommensersatzleistungen auch das Geschlecht, Geburtsjahr, Religionszugehörigkeit, Stellung im Beruf, Kinderfreibeträge, Kindergeld, Wohnsitzgemeinde, Wirtschaftszweig/Art des freien Berufs, Art der Steuerpflicht, Steuerklasse und Veranlagungsart erfasst.
Aufgrund des breiten Spektrums an Erhebungsmerkmalen bietet die Lohn- und Einkommensteuerstatistik vielfältige Analysemöglichkeiten. Neben rein steuerlichen Betrachtungen sind Untersuchungen und Simulationsrechnungen über die Einkommensverteilung möglich. Besonders hohe und höchste Einkommen sind in keiner anderen statistischen Quelle so genau erfasst wie in der Lohn- und Einkommensteuerstatistik.
Bei Auswertungen der Lohn- und Einkommensteuerstatistik ist gleichwohl zu beachten, dass die Daten zuvörderst im Rahmen des Besteuerungsprozesses erhoben werden. So sind die Steuerpflichtigen zwar gesetzlich zu korrekten Angaben verpflichtet; diese können allerdings durch ein Ausweichverhalten verzerrt sein (Steuervermeidung/hinterziehung). Zudem folgen die erhobenen Merkmale steuerrechtlichen Definitionen und können daher von wissenschaftlichen Konzepten abweichen, etwa des Einkommens.
Durch häufige Änderungen des Steuerrechts sind die Ergebnisse einzelner Berichtsjahre nur eingeschränkt vergleichbar. Von 1992 bis 2010 wurde die Statistik nur alle drei Jahre erstellt. Ab 2012 liegt die Lohn- und Einkommensteuerstatistik jährlich vor. Die Daten eignen sich gut für regionale Vergleiche.
Weitergehende Informationen zur Lohn- und Einkommensteuerstatistik im Allgemeinen stehen in Form des Metadatenreports Teil I zur Statistik bereit. Entsprechende Angaben zu den einzelnen Erhebungsjahren und Zugangswegen finden sich in den Metadatenreports Teil II zu den jeweiligen Produkten.
Verfügbare Mikrodaten
Die Lohn- und Einkommensteuerstatistik steht über die in der Tabelle gekennzeichneten Erhebungsjahre und Zugangswege für die Wissenschaft zur Verfügung. Die Zugangswege unterscheiden sich wie folgt:
Die Scientific Use Files beinhalten eine faktisch anonymisierte 10%-Stichprobe der Lohn- und Einkommensteuerstatistik (FAST), welche den Forschungseinrichtungen bereitgestellt werden. Für nähere Angaben zu den Anonymisierungsmaßnahmen sowie der Stichprobe bitten wir die hinterlegten Metadaten einzusehen.
An den Gastwissenschaftsarbeitsplätzen (GWAP) steht die gleiche 10%-Stichprobe nur formal anonymisiert zur Verfügung. Eine Ausnahme bilden die Gemeindeangaben für das Bundesland Bayern; diese werden am GWAP nur pseudonymisiert angeboten.
Per kontrollierter Datenfernverarbeitung kann die Lohn- und Einkommensteuerstatistik in vollem Umfang formal anonymisiert genutzt werden. Aufgrund der Datengröße gelten hier für Auswertungen mit R technisch bedingte Einschränkungen.
Lohn- und Einkommensteuerstatistik (EVAS 73111)
| Erhebungsjahr | Form des Datenzugangs | ||||
|---|---|---|---|---|---|
| Off-Site-Zugang | On-Site-Zugang | ||||
| Campus File (CF) | Public Use File (PUF) | Scientific Use File (SUF) | Gastwissenschaftsarbeitsplatz (GWAP) | Kontrollierte Datenfernverarbeitung (KDFV) | |
| 2020 | - | - |
verfügbar Metadaten/DOI |
verfügbar Metadaten/DOI |
verfügbar Metadaten/DOI |
| 2019 | - | - | - |
verfügbar Metadaten/DOI |
verfügbar Metadaten/DOI |
| 2018 | - | - | - |
verfügbar Metadaten/DOI |
verfügbar Metadaten/DOI |
| 2017 | - | - |
verfügbar Metadaten/DOI |
verfügbar Metadaten/DOI |
verfügbar Metadaten/DOI |
| 2016 | - | - | - |
verfügbar Metadaten/DOI |
verfügbar Metadaten/DOI |
| 2015 | - | - | - |
verfügbar Metadaten/DOI |
verfügbar Metadaten/DOI |
| 2014 | - | - |
verfügbar Metadaten/DOI |
verfügbar Metadaten/DOI |
verfügbar Metadaten/DOI |
| 2013 | - | - | - |
verfügbar Metadaten/DOI |
verfügbar Metadaten/DOI |
| 2012 | - | - | - |
verfügbar Metadaten/DOI |
verfügbar Metadaten/DOI |
| 2010 | - | - |
verfügbar Metadaten/DOI |
verfügbar Metadaten/DOI |
verfügbar Metadaten/DOI |
| 2007 | - | - |
verfügbar Metadaten/DOI |
verfügbar Metadaten/DOI |
verfügbar Metadaten/DOI |
| 2004 | - | - |
verfügbar Metadaten/DOI |
verfügbar Metadaten/DOI |
verfügbar Metadaten/DOI |
| 2001 |
verfügbar Metadaten/DOI |
- |
verfügbar Metadaten/DOI |
verfügbar Metadaten/DOI |
verfügbar Metadaten/DOI |
| 1998 |
verfügbar Metadaten/DOI |
- |
verfügbar Metadaten/DOI |
verfügbar Metadaten/DOI |
verfügbar Metadaten/DOI |
| 1995 | - | - | - |
verfügbar Metadaten/DOI |
verfügbar Metadaten/DOI |
| 1992 | - | - | - |
verfügbar Metadaten/DOI |
verfügbar Metadaten/DOI |
Rechtsgrundlage
Gesetz über Steuerstatistiken (StStatG) vom 11. Oktober 1995
FAQ - Häufig gestellte Fragen
Hinweis: Weitere Antworten finden Sie auf der Seite des Taxpayer-Panels.
Fragen zu Änderungen im Zeitverlauf
Zwischen den Veranlagungsjahren 2010 und 2016 haben sich Variablen verändert. Wie kann ich herausfinden, ob eine bestimmte Variable noch enthalten ist?
Auch im StBA ist das Wissen über einzelne Kennzahlen mitunter begrenzt. Unser Vorgehen, wenn wir versuchen herauszufinden, was hinter einer Kennzahl steckt, ist die Recherche mit Hilfe der Formulare der Einkommensteuererklärung, der dazugehörigen Anleitungen und Steuerseiten im Internet. Hier finden sich die meisten Formulare: https://www.formulare-bfinv.de/
Es empfiehlt sich im konkreten Fall, das ESt-Formular für 2010 mit 2016 zu vergleichen. Die Kennzahlen finden sich in Anlage S. So erkennt man vermutlich am besten die Unterschiede und auch ob sich die Kennzahlen vielleicht mit anderen Angaben aus dem Formular ersetzen lassen.
Kennzahlen findet man auf folgende Art: Oben rechts in der Ecke findet man die ersten zwei Zahlen der Kennzahl (in diesem Fall 22). Die drei nachfolgenden Zahlen sind dann die entsprechende Kennzahl auf dem Formular, z. B. 240 ist das Feld 240 in Anlage S.
Einige Merkmale sind in neueren Wellen der LESt nicht mehr enthalten, es finden sich aber noch Unterkomponenten davon. Findet man diese Variablen jetzt unter anderem Namen?
Ergänzung: Ein Beispiel hierfür sind Variablen aus der Anlage KAP (Kapitalerträge), die 2010 im Datensatz enthalten waren, 2016 aber nicht mehr. Dabei sind Unterkomponenten dieser Variablen, nämlich Gewinne aus Aktienveräußerungen weiterhin enthalten.
Nur weil eine Kennzahl nicht mehr an die amtliche Statistik geliefert wird, heißt es nicht, dass es sie nicht mehr gibt. Wir stimmen den Datensatz jedes Jahr neu mit der Finanzverwaltung ab. Aufgrund von Steuerrechtsänderungen kann es zu Änderungen der Vordrucke kommen. Hierbei ist nicht auszuschließen, dass Kennzahlen eine andere Bezeichnung erhalten, komplett entfallen, oder mit anderen Kennzahlen zusammengeführt werden.
Zu den einzelnen Kennzahlen aus dieser Anlage liegen uns leider keine weiteren Informationen vor.
Warum wurde die Codierung des Merkmals EF11 „Soziale Gliederung“ geändert? Gibt es einen Schlüssel für die Umcodierung?
Ergänzung: Die Codierung von EF11, soziale Gliederung, hat sich von 2010 auf 2016 geändert:
- Codierungen 2010:
- 1 = Beamte
- 2 = versicherungspflichtige Arbeitnehmer
- 3 = versorgungsempfangende Beamte
- 4 = versorgungs-/rentenempfangende Arbeitnehmer
- 5 = Selbständige mit Lohn
- 6 = Selbständige ohne Lohn
- Codierung 2016:
- 1= Beamte
- 2 = nichtversicherungspflichtige Arbeitnehmer
- 3 versicherungspflichtige Arbeitnehmer
- 0 = ohne Lohn
Bei der EF11 handelt es sich um eine Kennzahl, die uns von der Finanzverwaltung geliefert wird, daher haben wir auf die Kategorien keinen Einfluss. Die Angaben für 2016 ergeben sich aus der Anlage Vorsorge:
- Beamter, wenn Feld 380/480 = 1
- sonstige nicht rentenversicherungspflichtige Arbeitnehmer, wenn Feld 381/481 = 1
- rentenversicherungspflichtiger Arbeitnehmer, wenn Feld 382/482 = 1
Fragen zu spezifischen Merkmalen
Wie kann das Merkmal „Steuerklassen/-kombinationen“ (EF48 bzw. EF50) interpretiert werden?
Bitte beachten Sie, dass es hier um die Lohnsteuerklassen für den Vorabzug der Lohn- und Einkommensteuer während des Veranlagungsjahres geht und nicht um die Veranlagungsart. Im Einzelnen:
Kategorie 0 "kein Bruttolohn" bezieht sich auf die Steuerfälle, die keine Einkünfte aus nichtselbstständiger Tätigkeit erzielt und daher auch keine Lohnsteuerklasse zugewiesen haben. Die Fälle sollen so abgrenzbar sein, statt sie als Missings stehen zu lassen (analog zur EF10U1/EF10U2).
Kategorien 1, 2, 4 und 5 (Steuerklassen I, II, IV/IV und III/V oder V/III) sind keine Besonderheiten zu berücksichtigen.
Kategorie "Steuerklasse III ohne V": Sobald ein Partner die Steuerklasse III aufweist und der andere keine V oder wenn nur ein Partner Einkünfte aus nichtselbständiger Arbeit hat, wird diese Ausprägung zugewiesen. Nach unserem Verständnis handelt es sich auch nicht um eine Residualkategorie, da weitere „Reste“ anderen Ausprägungen zugewiesen werden: Hat bei einer Splittingveranlagung keiner der Partner die Steuerklasse III und nicht beide IV/IV, aber beide haben Einkünfte aus nichtselbständiger Arbeit, werden anhand der Höhe der Einkünfte auch die Ausprägungen 4 (IV/IV) und 5 (III/V und V/III) vergeben.
Kategorie 6 „nichtveranlagte Splittingfälle der Steuerklassen III, IV, V“: „Nichtveranlagt“ bezieht sich hier darauf, dass für die betreffende Person keine Einkommensteuererklärung für das betreffende Jahr eingereicht wurde, nicht auf die Veranlagungsart. Diese Steuerpflichtigen sind eigentlich verpflichtet, eine Steuererklärung abzugeben, was allerdings nicht (oder zu spät für die Statistik) erfolgt ist. Wahrscheinlich wurden sie deshalb bei der initialen Konzeption der Lohn- und Einkommensteuerstatistik in einer separaten Ausprägung erfasst. (Genauer gesagt ist man bei Steuerklasse IV/IV nur verpflichtet, eine Erklärung abzugeben, wenn man das Faktorverfahren nutzt. Aber das können wir in den Daten nicht unterscheiden.)
Wie können die Merkmale zur sozialen Gliederung, EF11 und EF12, voneinander abgegrenzt werden?
Die Bezeichnungen der Merkmale zur sozialen Gliederung (EF11/EF12) sind inhaltlich nicht ganz zutreffend. Dies sorgt immer wieder für Missverständnisse. EF11/12 geben für die veranlagten Fälle die ergänzenden Angaben zu Vorsorgeaufwendungen aus den Steuererklärungen wieder.
Die dort zu machenden Angaben beziehen sich explizit nur auf aktive Beschäftigungs-verhältnisse. Wer Versorgungsbezüge erhält, wird mit dem Schlüssel 3 für „rentenversicherungspflichtige Arbeitnehmer“ geliefert. Ab der Statistik 2021 werden die Merkmalsausprägungen 1 in „aktive Beamte“ und 3 in „rentenversicherungspflichtige Arbeitnehmer und Versorgungsempfänger“ umbenannt. Bei der Zuordnung der nicht-veranlagten Fälle erhalten Fälle mit überwiegend Versorgungsbezügen dann die Ausprägung 3.
In Deutschland besteht eine Krankenversicherungspflicht. Warum weisen Merkmale zur Krankenversicherung trotzdem auch bei Personen, die Bruttolohn beziehen, häufig Missings auf?
Bei den nicht veranlagten Fällen werden die Angaben zu Beiträgen zur Basiskranken-versicherung (Zeile 25 der Lohnsteuerbescheinigung) in die Kennzahlen C69400 und C69414 übernommen. Für knapp ein Viertel der nicht veranlagten Fälle liegen uns keine Informationen zu Krankenversicherungsbeiträgen vor.
Befinden sich in der Variable C66204/C66205 nur Nicht-Lohneinkommen aus dem Ausland und in C66202/C66203 nur ausländische Lohneinkommen? Oder sind die Variablen überlappend?
Hinweis: Die Antwort bezieht sich auf die entsprechenden Kennzahlen der Steuererklärung. Diese finden Sie in den letzten drei Ziffern der Variablennamen der C-Merkmale.
Laut unseren Unterlagen sind Kennzahlen 202 und 203 "DBA-Einkünfte aus nichtselbständiger Arbeit n.§ 32b EStG. ATE = "Auslandstätigkeitserlass"" und 204 und 205 "Summe der DBA-Einkünfte aus den übrigen Einkünften (also, ausgenommen nichtselbständiger Arbeit)".
Die Kennzahlen 204/205 umfassen also neben steuerfreien Einkünften aus Gewerbe auch solche aus selbstständiger Tätigkeit, Land- und Forstwirtschaft, sonstige und Vermietung und Verpachtung.
Somit sollten die Kennzahlen 204 und 202 komplementär bzgl. der Gesamtsumme der steuerfreien DBA-Einkünfte sein. Ebenso die Kennzahlen 203 und 205.
Eine Gesamtsumme in einer separaten Kennzahl existiert in der DSB nicht.
Können die Merkmale c66204/c66205 auch ausländische Lohneinkünfte anzeigen? Wie stehen sie Beziehung zu c66202/c66203?
Hinweis: Die Antwort bezieht sich auf die entsprechenden Kennzahlen der Steuererklärung. Diese finden Sie in den letzten drei Ziffern der Variablennamen der C-Merkmale.
Laut der DSB sollten die Lohneinkünfte, die nach Doppelbesteuerung steuerfrei sind, nur in den Kennzahlen 202 und 203 auftauchen. Die restlichen Einkünfte, bis solche aus Kapitalvermögen, sind in den Kennzahlen 204 und 205 vermerkt.
Kapitalerträge werden gesondert in der Anlage KAP (Kapitalerträge) in Zeile 15 erfasst, liegen aber seit Einführung der Abgeltungsteuer im Jahr 2009 nur lückenhaft vor, da sie als Quellensteuer versteuert und somit nicht in der Kennzahl enthalten sind.
Welche Informationen enthalten die Merkmale zur Art der Rente (C69500-504 und C69660-664)? Was sind die Ausprägungen?
Die Erklärung der Merkmalsausprägungen ist in Anlage R der ESt 2018 zu finden. Ab der LESt 2020 sind sie in der Datensatzbeschreibung aufgenommen.
Für c69500- c69504:
- 1 = aus inländischen gesetzlichen Rentenversicherungen
- 2 = aus inländischer landwirtschaftlicher Alterskasse
- 3 = aus inländischen berufsständischen Versorgungseinrichtungen
- 4 = aus eigenen zertifizierten Basisrentenverträgen
- 9 = aus ausländischen Versicherungen / Rentenverträgen
Für c69660- c69664:
- 6 = aus inländischen privaten Rentenversicherungen
- 7 = aus inländischen privaten Rentenversicherungen mit zeitlich befristeter Laufzeit
- 8 = aus sonstigen Verpflichtungsgründen (z. B. Renten aus Veräußerungsgeschäften)
- 9 = aus ausländischen Versicherungen
Die Merkmalsausprägungen 0 ist als Missing zu interpretieren.
Warum ist die Religionsvariable EF13 in der LESt vor 2007 für Niedersachsen nicht besetzt?
Die Finanzverwaltung in Niedersachsen hat für die Wellen bis 2007 den Religionsschlüssel anders kodiert geliefert. Folgende Codes wurden für Niedersachsen vergeben: '01' '02' '03' '04' '07' '99':
- Kategorien 01/03/07: evangelisch-lutherisch (andere Länder: 11) bzw. evangelisch-reformiert (andere Länder: 13)
- Kategorien 02/04: römisch-katholisch (andere Länder: 15) bzw. altkatholisch (andere Länder: 15)
- Kategorie 99: Missing
Ab 2010 ist die Religionsvariable für Niedersachsen dann genauso kodiert wie in den anderen Ländern.
Zeigt das Merkmal EF2 „Bundesland (Ost/West)“ in der LESt 1992 den Wohnort oder den Betriebs-/Arbeitsort des/der Steuerpflichtigen an? Zu was wird Berlin gezählt?
Das Merkmal EF2 bezieht sich auf den Wohnort des bzw. der Steuerpflichtigen.
Für die zweite Frage haben wir in unseren alten Veröffentlichungen gesucht und einige Auswertungen laufen lassen. Es sieht so aus, als ob Westberlin zu West gezählt wird und Ostberlin zu Ost. Es wurde anscheinend versucht, in der LESt 1992 Ost und West für Berlin auseinanderzuhalten.
Fragen zu Unterschieden zwischen den Datenprodukten
Warum unterscheiden sich einzelne Merkmalsbezeichnungen in der LESt und der FAST der gleichen Wellen?
Hinweis: Ein Beispiel ist das Merkmal „Steuerklassen/-kombinationen“ in der Welle 2017, die in der LESt im Merkmal EF50 und in der FAST im Merkmal EF48 enthalten ist.
Unglücklicherweise gab es hier in der Vergangenheit unterschiedliche Bezeichnungen in den Datensätzen: In der FAST heißt die Variable "Steuerklassen/-kombinationen" EF48, in der Lohn- und Einkommensteuerstatistik (LESt, aus der die Stichprobe der FAST gezogen ist) hat dieselbe Variable hingegen die Bezeichnung EF50. Der Grund für diese inkongruente Benennung ist mutmaßlich ein historisches Artefakt der Datenaufbereitung.
Sind im oberen Einkommensbereich bei der FAST alle Steuerfälle aus dem Vollmaterial enthalten (HRF = 1)? Ab welcher Grenze der Einkünfte/Einkommen (Perzentil) wäre das der Fall?
Hinweis: Diese Frage entstand aufgrund von Angaben in den Metadaten und der Berücksichtigung der Hochrechnungsfaktoren.
Aufgrund des Schichtplanes sind alle Schichten nach dem Gesamtbetrag der Einkünfte (GdE) mit absoluten Werten eingeteilt, d.h. pro Schicht kann nicht angenommen werden, dass dort ein gewisser Prozentsatz vorhanden ist. Auch wird nicht ein gleicher Prozentsatz gezogen.
Bei einem Hochrechnungsfaktor von 1 wird die Schicht komplett enthalten sein. Ob das die obersten 1% sind, kann anhand der Hochrechnungsfaktoren abgeschätzt werden. Wenn man Wertsummen hochrechnen kann, dann sollte das auch mit der Stichprobengröße gehen.
Würde eine Sonderauswertung, die das StBA selbst ausführt, mehr nutzbare Merkmale bieten als die KDFV?
Für Sonderauswertungen stehen nur dieselben Merkmale zur Verfügung, wie für den Zugang per Gastwissenschaftsarbeitsplatz oder kontrollierter Datenfernverarbeitung im FDZ.
Fragen zur Identifikation spezifischer Gruppen
Können wir in der LESt oder im TPP Personengruppen abgrenzen, die in den Versorgungswerken der Freien Berufe versichert sind?
Hinweis: Dabei handelt es sich z.B. um Ärzte, Zahnärzte, Rechtsanwälte, Steuerberater, Architekten.
Eine unmittelbare Abgrenzung von Personen, die in Versorgungswerke einzahlen, von jenen, welche in die Deutsche Rentenversicherung einzahlen, ist nicht möglich. Für den Bericht der Lohn- und Einkommensteuerstatistik für Freie Berufe werden EF22 („1.-5. Stelle Gewerbekennzahl -A-“) und EF23 („1.-5. Stelle Gewerbekennzahl -B-“) genutzt. EF22 und EF23 sind ab VJ 2012 auch Teil des TPP.
Ggf. können über diese Merkmale die in Versorgungswerken der Freien Berufe versicherten Personen annäherungsweise abgegrenzt werden. Hierzu müsste zunächst festgestellt werden, welche der aufgeführten Gewerbekennzahlen auf Gewerbe mit eigenen Versorgungswerken hindeuten, wie z.B. „68210“ für Arztpraxen für Allgemeinmediziner. Im nächsten Schritt müsste geprüft werden, ob die Personen Einkünfte aus freiberuflicher Tätigkeit erzielt haben (C65143/C65144).
Können wir in der LESt oder im TPP Personengruppen abgrenzen, die als geschäftsführende Gesellschafter ihre Kapitalgesellschaft führen oder die aktive Beamte sind?
Hinweis: Diese Personengruppe ist damit nicht rentenversicherungspflichtig.
EF28 „Rechtsform“ wird in der Finanzverwaltung befüllt und an das StBA geliefert. Das Merkmal ist in der LESt enthalten. Wie die Befüllung dieses Merkmals erfolgt, entzieht sich unserer Kenntnis.
Für das TPP wird EF28 nicht angeboten. Über EF11/EF12 lassen sich die Personengruppen b) und c) abgrenzen. Die Ausprägungen gehen auf Felder des Abschnitts „Ergänzende Angaben zu Vorsorgeaufwendungen“ aus der Anlage "Vorsorgeaufwand", 2. Seite Felder 380-382 und 480-482 zurück. Die Ausprägung „1“ umfasst alle aktiven Beamten (380/480). Die Ausprägung „2“ umfasst alle sonstigen nicht rentenversicherungspflichtigen Arbeitnehmer, d.h. Vorstandsmitglieder / GmbH-Gesellschafter-Geschäftsführer (381/481) sowie Praktikanten oder Studenten im Praktikum (382/482).
Können wir in der LESt oder im TPP Personengruppen abgrenzen, die pensionierte Beamte sind?
Eine Möglichkeit wäre, Versorgungsbezüge bei der Abgrenzung der Arbeitnehmer auszuschließen (C66206 „Versorgungsbezüge -A- (nur § 19 EStG)“ / C66207 „Versorgungsbezüge -B- (nur § 19 EStG)“). Dann wären neben Beamtenpensionen auch andere Betriebsrenten und Pensionszahlungen an ehemalige Vorstandsmitglieder / GmbH-Gesellschafter-Geschäftsführer ausgeschlossen. Eine Abgrenzung von ausschließlich pensionierten Beamten ist allerdings nicht möglich.
Fragen zu auffälligen Ausprägungen
Es gibt eine Reihe von Steuerfällen, bei denen die Summe der Einkünfte (c65309) -16 beträgt. Sollten diese Fälle gelöscht werden?
In der Regel handelt es sich hierbei um Rentner oder Rentnerinnen, die eine Anlage N abgeben und dort 16 Euro Werbungskosten (pauschale Kontoführungsgebühren) angeben, ohne über Bruttolohn zu verfügen.
Abhängig von der Fragestellung können diese Steuerpflichtigen relevant sein. Eine entsprechende Datenbereinigung überlassen wir daher der Wissenschaft und nehmen sie nicht vorweg.
In der FAST 2017 tritt eine Häufung von Steuerfällen auf, bei denen das Alter der Frau gleich 11 ist. Wie ist dies zu erklären?
Bei der Anonymisierung der FAST wurde beim Alter der Steuerfälle eine Unter- (15 Jahre) und Obergrenze (70 Jahre) eingeführt. Ober- bzw. unterhalb der Grenzen wur-de das Alter als Durchschnitt derjenigen, die ober- bzw. unterhalb der Grenzen liegen, angegeben. (siehe https://www.forschungsdatenzentrum.de/sites/default/files/fast_2017_suf_ak.pdf, S. 4f.)
Bei einigen Variablen zu den Prozentsätzen des Progressionsvorbehalts tauchen in der FAST 2017 Werte auf, die nicht als Prozentsatz interpretiert werden können. Was ist hier angegeben?
Hinweis: Betroffen sind die Merkmale C65552, C65545, C65546 und C65548.
Bei der Kennzahl C65552 handelt es sich um eine Prozentangabe. Es gibt aber Fälle, in denen unplausible Werte stehen. Für NRW wird die Zahl mit sechs Nachkommastellen (ansonsten vier Nachkommastellen) geliefert. Ab dem Veranlagungsjahr 2019 gibt es dafür eine neue einheitliche Kennzahl (C65709). Die Kennzahlen c65545 und c65546 werden ebenfalls mit vier Nachkommastellen geliefert, sind aber laut Auskunft der Finanzverwaltung vermutlich fehlerhaft, da sie manchmal belegt sind, obwohl Bemessungsgrundlage und Steuer leer sind. In der Datensatzbeschreibung der Lohn- und Einkommensteuerstatistik zur Onsite-Nutzung sind einige der Angaben bereits enthalten.
Warum gibt es in der FAST 2017 eine Vielzahl von Fällen, in denen für das Alter der Kinder 27 eingetragen ist?
Bei dem Alter der Kinder wurde bei der Anonymisierung der FAST einer Obergrenze eingeführt. Bei allen Kindern ab 27 Jahren wird das Alter auf 27 Jahre festgesetzt. (siehe https://www.forschungsdatenzentrum.de/sites/default/files/fast_2017_suf_ak.pdf , S. 4f.).
Bei einigen Merkmalen der LEST 2010 treten vermehrt Missings auf, obwohl die zugehörigen Angaben in allen Steuererklärungen enthalten sein sollten. Wie ist das zu erklären?
Hinweis: Die Frage bezieht sich vor allem auf die Merkmale C65500 (Einkommen), C65613 (Festzusetzende Einkommensteuer) und EF50 (Alter).
Im Gesamtmaterial gibt es für EF50 (klassierte Altersangabe bei Person A) ca. 11,6 Mio. Missings, für c65500 (Einkommen) ca. 2,7 Mio. Missings und für c65613 (festzusetzende ESt) ca. 5,2 Mio. Missings.
Uns ist aufgefallen, dass der Großteil der Missings bei den nicht veranlagten Fällen (NV) vorkommen. Diese Fälle haben dann häufig auch keine Angaben zum GdE und zu den Einkünften aus nicht selbstständiger Arbeit. Warum das so ist, können wir leider nicht erklären. Vor der ESt2012 wurden die Daten noch nicht im zentralen Steuerstatistischen Gesamtsystem (StSys) aufbereitet. Außerdem war damals die Programmierung bei den NV-Fällen eine andere als heute.
In der LESt kann man nicht zwischen Nullen und Missings unterscheiden. Vor 2012 wurden die Werte noch nicht alle in Nullen bzw. Missings gesetzt. Daher vermuten wir, dass viele Missings eigentlich Nullen sind. Das erklärt auch, warum die Anzahl der Missings für die festzusetzende ESt höher ist. Rechnet man das Besteuerungsschema durch, um vom Einkommen zur festzusetzenden Einkommensteuer zu kommen, wird die Zahl der Steuerpflichtigen kleiner, weil ja weitere Werte, wie z.B. Kinderfreibeträge, vom Einkommen abgezogen werden. Dadurch kann es sein, dass Steuerpflichtige zwar ein (zu versteuerndes) Einkommen haben, allerdings keine Einkommensteuer festgesetzt wird.
Beim Alter sind es auch hauptsächlich die NV-Fälle, bei denen das Alter fehlt (EF1 = 18). Entweder weil wir dazu keine Angabe geliefert bekommen haben oder weil es stattdessen für Person B gefüllt ist. Ist der Lohnsteuerfall weiblich, wurde das Alter in EF51 gesetzt.
Fragen zu auffälligen Kreuzkombinationen
In Deutschland besteht eine Krankenversicherungspflicht. Warum weisen Merkmale zur Krankenversicherungspflicht trotzdem auch bei Personen, die Bruttolohn beziehen, häufig Missings auf?
Bei den nicht veranlagten Fällen werden die Angaben zu Beiträgen zur Basiskranken-versicherung (Zeile 25 der Lohnsteuerbescheinigung) in die Kennzahlen C69400 und C69414 übernommen. Für knapp ein Viertel der nicht veranlagten Fälle liegen uns keine Informationen zu Krankenversicherungsbeiträgen vor.
Bei der Angabe der Steuerklassen treten bei der getrennten Veranlagung in der FAST 2017 unplausible Kombinationen auf.
Ergänzung: Ein Beispiel dafür ist, dass Verheiratete überwiegend die Steuerklasse I aufweisen.
Einige grundsätzliche Erläuterungen zum Zusammenhang von EF10U1, EF10U2 und EF48:
EF10U1 („Steuerklasse A“) und EF10U2 („Steuerklasse B“) enthalten die von der Finanzverwaltung gelieferten Angaben zur Steuerklasse der Steuerfälle. Die Steuerklassenangaben werden verwendet, um beim Arbeitgeber die Höhe der abzuführenden Lohnsteuer zu berechnen und entsprechend abzuführen. Die Angaben der Steuerklassen haben keinen Einfluss auf die Festsetzung der Höhe der Einkommensteuer bei der Veranlagung des Steuerpflichtigen. Von Seiten des Statistischen Bundesamts werden die Angaben im Zuge der Datenaufbereitung nicht verändert. EF10U1 und EF10U2 stellen also die tatsächlichen Merkmalsausprägungen zur Steuerklasse der Steuerfälle zum Zeitpunkt des Datenabzugs in den Finanzverwaltungen dar. Da Steuerklassen teilweise unterjährig geändert werden, können die Belegungen von EF10U1 und EF10U2 daher in ihren Ausprägungen von dem Abweichen, was aufgrund der anderen Informationen zum Steuerpflichtigen zu erwarten wäre. Es kann sein, dass die Kombination von EF10U1 und EF10U2 rechtlich nicht zulässig ist.
Das FAST-Merkmal EF48 („Steuerklassen/-kombinationen“) wird vom Statistischen Verbund für Auswertungen im Auftrag des Bundesministeriums der Finanzen (BMF) sowie der Finanzministerien der Länder erstellt. Die Generierung des Merkmals ist mit dem BMF sowie den Finanzministerien der Länder abgestimmt. Es enthält nur rechtlich zulässige Steuerklassenkombinationen. EF48 stellt also nicht zwangsläufig die zum Zeit-punkt des Datenabzugs erfasste Steuerklasse (Einzelveranlagung) bzw. Steuerklassen-kombination (Gemeinsame Veranlagung) dar. Die Befüllung von EF48 erfolgt nicht aus-schließlich auf Basis der Ausprägungen von EF10U1 und EF10U2. Wenn die Ausprägungen von EF10U1 und EF10U2 bzw. deren Kombination – rechtlich und/oder technisch – nicht gültig ist, dann entspricht EF48 der aus Sicht des Steuerpflichtigen theoretisch günstigsten Steuerklasse (Einzelveranlagung) bzw. Steuerklassenkombination (Gemeinsame Veranlagung). Für die Wahl der günstigsten Steuerklasse bzw. Steuerklassenkombination werden Informationen zu Veranlagung, Grund-/Splittingtabelle, Bruttolöhnen, Entlastungsbetrag für Alleinerziehende sowie die beiden Steuerklassen her-angezogen. Aufgrund der faktischen Anonymisierung der FAST-Daten ist es nicht möglich, dieses regelbasierte Vorgehen mit den FAST-Daten nachzubilden.
Aus den Ausprägungen von EF10U1 und EF10U2 kann nicht unmittelbar auf die Ausprägung von EF48 geschlossen werden. Eine Kreuzkombination dieser beiden Merkmale ist daher nicht sinnvoll interpretierbar.
In der FAST 2017 gibt es eine Vielzahl von Beobachtungen ohne Angaben zu Kindern (EF72 = missing), aber es wird der Freibetrag für Alleinstehende (c65319) abgezogen. Wie ist dies zu erklären?
Hier ist ein Fehler bei der Erstellung von EF72 in den FAST-Daten für 2017 unterlaufen. Die Anzahl der Kinder wurde auf Basis der gelieferten Kindergeburtsjahre bestimmt. Allerdings enthalten die nichtveranlagten Fälle keine Kindergeburtsjahre. Anstelle des Merkmals EF72 kann auf C65748 („Zahl der Kinder (ganze + halbe, inl. + ausl.)“) zurückgegriffen werden.
Warum liegen in der FAST 2017 bei vielen Steuerpflichtigen Bruttolöhne (C65163/4) vor, aber die Einkünfte aus nichtselbständiger Arbeit (C65161/2) sind nicht besetzt?
In der FAST 2017 weisen ca. 130.000 Steuerpflichtige trotz eines eingetragenen Bruttoarbeitslohns für diesen Steuerfall keine Einkünfte aus nichtselbständiger Arbeit auf. Für den Großteil der Beobachtungen kann das damit erklärt werden, dass der eingetragene Bruttoarbeitslohn unter dem Arbeitnehmerpauschbetrag in Höhe von 1.000 € liegt.
Bei den übrigen Beobachtungen liegt die Differenz aus Bruttoarbeitslohn abzüglich des Versorgungsfreibetrags (inkl. Zuschlag) (C65167 bzw. C65168) und abzüglich der Werbungskosten-/Arbeitnehmer-Pauschbetrags nichtselbständiger Arbeit (C65172 bzw. C65173) unter dem Altersentlastungsbetrag von 410 Euro (§ 46 Abs. 3 EStG).
Daher gehen wir davon aus, dass bei den Einkünften aus nichtselbstständiger Tätigkeit (C65160/1/2) bereits die Werbungskosten bzw. der Versorgungsfreibetrag abgezogen sind.
Warum wird in der FAST 2017 für einige Fälle ein zu versteuerndes Einkommen nach Splittingtabelle ausgewiesen, obwohl beim Partner Einkünfte aus nichtselbstständiger Tätigkeit fehlen?
Hier lässt sich beobachten, dass bei den Fällen mit EF1 == 2 & EF19 == 2 & (C65161 == . | C65162 == .) der zweite Partner jeweils Bruttolöhne (C65163/4) hat. Diese liegen aller-dings unterhalb der Werbungskosten bzw. des Versorgungsfreibetrags. Wie oben be-schrieben, führt dies wohl dazu, dass die nichtselbstständigen Einkünfte nicht besetzt sind.
Warum passen die Anonymisierungsbereiche der FAST 2017 nicht zur Auszählung des entsprechenden Merkmals EF72, insbesondere wenn nach C65330 gefiltert wird?
Hinweis: Die Anonymisierungsbereiche der FAST können der Datensatzbeschreibung entnommen werden.
In der Regel wird der Gesamtbetrag der Einkünfte (GdE, C65330) zur Abgrenzung der verschiedenen Anonymisierungsbereiche verwendet. In den Fällen, wenn der GdE null ist, werden jedoch das Einkommen bzw. das zu versteuernde Einkommen (zvE, C65522) für die Einteilung verwendet. Außerdem wird bei bestimmten Sonderfällen unabhängig vom Einkommen der Anonymisierungsbereich 5 zugewiesen. Die Einteilung kann nur allein mit FAST nicht nachvollzogen werden, da nicht alle Kennzahlen in FAST vorliegen.
Warum ist bei einigen zusammenveranlagten Paaren das Geschlecht über EF8 angegeben, obwohl hier doch zwei Person häufig unterschiedlichen Geschlechts umfasst sind?
In der Regel ist bei zusammen veranlagten Steuerpflichtigen die Angabe zum Geschlecht leer. Ausnahmen bilden Sonderfälle, bei denen beispielsweise das Witwen-Splitting angewendet wurde, sowie weitere Sonderfälle, welche aus Gründen der Wahrung der Anonymität an dieser Stelle nicht weiter beschrieben werden. Außerdem wird auch für nicht veranlagte Fälle mit Steuerklasse 3, 4 oder 5 die Splittingtabelle eingesetzt. Hier wird angenommen, dass der Splittingtarif besser zur Höhe der abgeführten Lohnsteuer passt. Die Angabe zum Geschlecht bleibt jedoch erhalten.
Warum gibt es Fälle, bei denen ein Besteuerungsanteil von Renten angegeben ist, aber kein Rentenbetrag?
Es bestehen Unterschiede bei der Befüllung von Kennzahlen in Abhängigkeit davon, welches Finanzamt den Fall bearbeitet oder auch, welches Programm der Steuerpflichtige zur Steuererklärung verwendet. Das betrifft vor allem die Eingabekennzahlen, für die Rentenangaben sind das die Kennzahlen C71101ff. Da die Finanzverwaltung über die Rentenbezugsmitteilungen von den Rententrägern gesonderte Angaben zu den Renten erhält, kann es zu Abweichungen gegenüber den in den Steuererklärungen angegeben Werten kommen. Wesentlich zuverlässiger und einheitlicher gefüllt sind die Kennzahlen, die vom Finanzamt geprüft und festgesetzt wurden. Diese Kennzahlen beginnen mit „C6“. Für Auswertungen zu Renten ist die Kennzahl C65263 also zuverlässiger als C71101 oder c71131.
Warum kommt es bei gleichgeschlechtlichen Partnerschaften zu Abweichungen zwischen den Merkmalen „Geschlecht“ (EF8) und „Merker Lebenspartnerschaft“ (C65691)?
Der Wert in der Ergebniskennzahl C65691 wird laut der Finanzverwaltung von den Bearbeitenden erfasst bzw. aus der maschinell ermittelten Kennzahl 17.61 gebildet. Warum in den Fällen mit C65691 = 3 das Merkmal EF8 nahezu ausschließlich mit 0 besetzt ist, können wir nicht genau sagen. Der Realität entspricht dies nicht. Dadurch lässt sich die Kombination von C65691 = 3 und EF8 nicht sinnvoll auswerten. Da das Geschlecht generell keine Relevanz für das Festsetzungsverfahren hat ist EF8 nicht immer plausibilisiert und dadurch nicht immer sinnvoll interpretierbar.