Datenangebot | Stichprobendaten von Versicherten der gesetzlichen
Krankenversicherung nach § 268 SGB V
Anonymisierung | Metadaten | Ansprechpartner
Scientific-Use-File zur Off-Site-Nutzung
Bei dem vorliegenden Scientific-Use-File (SUF) handelt es sich um eine 70%-Unterstichprobe von Versicherten der gesetzlichen Krankenversicherung (GKV). Das Datenmaterial enthält faktisch anonymisierte Mikrodaten der GKV-Stichprobenerhebung aus dem Jahr 2002 mit Informationen zu ambulanten Behandlungsfällen. Es umfasst insgesamt 62 Merkmale von 1,1 Millionen Versicherten der GKV. Aufgrund der verschiedenen Analyseebenen werden zwei Mikrodatenfiles angeboten: Die Jahresdaten der Versicherten enthalten für jede in die Unterstichprobe einbezogene Person Bestandsinformationen wie Geburtsjahr und Geschlecht. Ein zweiter File weist für jeden ambulanten Behandlungsfall Angaben zu den gestellten Diagnosen, Fachgruppen der Ärzte und Kosten der Behandlung auf. Somit sind detaillierte Analysen zu gesundheitswissenschaftlich relevanten Themen wie der Prävalenz bestimmter Erkrankungen oder gesundheitsökonomischen Fragestellungen möglich. Die Daten sind als Textdatei gespeichert. Einleseroutinen für SAS, SPSS und STATA erleichtern das Arbeiten mit den Daten.
Anonymisierungsmaßnahmen
Als Ausgangsmaterial für den SUF dienen die Daten von etwa 2,3 Millionen gesetzlich Krankenversicherten aus einer wissenschaftlichen Untersuchung zur Auswahl geeigneter Gruppenbildungen, Gewichtungsfaktoren und Klassifikationsmerkmale, die im Zuge der Reform des Risikostrukturausgleiches (RSA) in der gesetzlichen Krankenversicherung durchgeführt wurde. Diese bestehen aus insgesamt 11 Satzarten und wurden für den SUF teilweise zusammengeführt oder gelöscht. Versicherte, die in einem oder mehreren Merkmalen Unplausibilitäten bzw. fehlende Werte aufwiesen, wurden komplett aus dem Datenmaterial entfernt. Zusätzlich wurde beim Merkmal Geburtsjahr aufgrund geringer Fallzahlen in den älteren Jahrgängen das Bottom-Coding als Anonymisierungsmaßnahme durchgeführt. Das heißt, dass Merkmalswerte, die unterhalb des Geburtsjahres 1913 liegen, auf diesen Wert festgesetzt wurden. Weiterhin wurden die Informationen zu den finanziellen Ausgaben gruppiert sowie zwei Facharztgruppen zusammengefasst. Alle Versicherten, die zudem mehr als 50 Diagnosen pro ambulanten Behandlungsfall aufwiesen, wurden aus dem Material gelöscht.
Metadaten zum Download
| Datei | Format | Größe |
|---|---|---|
| Dokumentation Off-Site-Datensatz der GKV 2002 |
zip | 662 KB |
oder als einzelne Dateien:
| Datei | Format | Größe |
|---|---|---|
| Anonymisierungsbeschreibung | 92 KB | |
| Datensatzbeschreibung | 86 KB |
(Stand: 12. Mai 2009)
Weitere Quellen für Metadaten:
- FDZ-Arbeitspapier, Nr. 22: Lugert, Patricia: Stichprobendaten von Versicherten der gesetzlichen Krankenversicherung - Grundlage und Struktur des Datenmaterials
- Klassifikationen (beim Statistischen Bundesamt)
Ansprechpartner
Falls Sie weitere Fragen zum Scientific-Use-File haben, wenden Sie sich bitte an einen der Standorte der Forschungsdatenzentren der Statistischen Ämter des Bundes und der Länder oder direkt an:
| Ansprechpartner | Telefon | |
|---|---|---|
| Rafael Czaja Statistisches Bundesamt FDZ des Statistischen Bundesamtes |
0611 75-4357 | forschungsdatenzentrum@destatis.de |
| Sebastian Scharnhorst Information und Technik NRW FDZ der Statistischen Landesämter |
0211 9449-2873 | forschungsdatenzentrum@it.nrw.de |
© Statistische Ämter des Bundes und der Länder
Letzte Änderung am 27.10.2011.
