Navigation überspringen


Datenangebot | Stichprobendaten von Versicherten der gesetzlichen
                         Krankenversicherung nach § 268 SGB V

Anonymisierung | Metadaten | Ansprechpartner

 

Scientific-Use-File zur Off-Site-Nutzung

Bei dem vorliegenden Scientific-Use-File (SUF) handelt es sich um eine 70%-Unterstichprobe von Versicherten der gesetzlichen Krankenversicherung (GKV). Das Datenmaterial enthält faktisch anonymisierte Mikrodaten der GKV-Stichprobenerhebung aus dem Jahr 2002 mit Informationen zu ambulanten Behandlungsfällen. Es umfasst insgesamt 62 Merkmale von 1,1 Millionen Versicherten der GKV. Aufgrund der verschiedenen Analyseebenen werden zwei Mikrodatenfiles angeboten: Die Jahresdaten der Versicherten enthalten für jede in die Unterstichprobe einbezogene Person Bestandsinformationen wie Geburtsjahr und Geschlecht. Ein zweiter File weist für jeden ambulanten Behandlungsfall Angaben zu den gestellten Diagnosen, Fachgruppen der Ärzte und Kosten der Behandlung auf. Somit sind detaillierte Analysen zu gesundheitswissenschaftlich relevanten Themen wie der Prävalenz bestimmter Erkrankungen oder gesundheitsökonomischen Fragestellungen möglich. Die Daten sind als Textdatei gespeichert. Einleseroutinen für SAS, SPSS und STATA erleichtern das Arbeiten mit den Daten.

 

Anonymisierungsmaßnahmen

Als Ausgangsmaterial für den SUF dienen die Daten von etwa 2,3 Millionen gesetzlich Krankenversicherten aus einer wissenschaftlichen Untersuchung zur Auswahl geeigneter Gruppenbildungen, Gewichtungsfaktoren und Klassifikationsmerkmale, die im Zuge der Reform des Risikostrukturausgleiches (RSA) in der gesetzlichen Krankenversicherung durchgeführt wurde. Diese bestehen aus insgesamt 11 Satzarten und wurden für den SUF teilweise zusammengeführt oder gelöscht. Versicherte, die in einem oder mehreren Merkmalen Unplausibilitäten bzw. fehlende Werte aufwiesen, wurden komplett aus dem Datenmaterial entfernt. Zusätzlich wurde beim Merkmal Geburtsjahr aufgrund geringer Fallzahlen in den älteren Jahrgängen das Bottom-Coding als Anonymisierungsmaßnahme durchgeführt. Das heißt, dass Merkmalswerte, die unterhalb des Geburtsjahres 1913 liegen, auf diesen Wert festgesetzt wurden. Weiterhin wurden die Informationen zu den finanziellen Ausgaben gruppiert sowie zwei Facharztgruppen zusammengefasst. Alle Versicherten, die zudem mehr als 50 Diagnosen pro ambulanten Behandlungsfall aufwiesen, wurden aus dem Material gelöscht.

Seitenanfang

 

Metadaten zum Download

Datei Format Größe
Dokumentation Off-Site-Datensatz
der GKV 2002
zip 662 KB

oder als einzelne Dateien:

Datei Format Größe
Anonymisierungsbeschreibung pdf 92 KB
Datensatzbeschreibung pdf 86 KB

(Stand: 12. Mai 2009)

Weitere Quellen für Metadaten:

Seitenanfang

 

Ansprechpartner

Falls Sie weitere Fragen zum Scientific-Use-File haben, wenden Sie sich bitte an einen der Standorte der Forschungsdatenzentren der Statistischen Ämter des Bundes und der Länder oder direkt an:

Ansprechpartner Telefon E-Mail
Rafael Czaja
Statistisches Bundesamt
FDZ des Statistischen Bundesamtes
0611 75-4357 forschungsdatenzentrum@destatis.de
Sebastian Scharnhorst
Information und Technik NRW
FDZ der Statistischen Landesämter
0211 9449-2873 forschungsdatenzentrum@it.nrw.de

Seitenanfang