Von 18. April 2012 Weiterlesen →

Wie zuverlässig ist die Vornamenstatistik?

Seitens der Gesellschaft für deutsche Sprache (GfdS) wird Kritik an meiner Methode zur Auswertung der beliebtesten Vornamen geäußert. Die Gründe sind allerdings nicht stichhaltig.

Für die Ranglisten der häufigsten Vornamen interessieren sich viele Menschen, entsprechend hoch sind die Aufrufzahlen von beliebte-Vornamen.de, entsprechend zahlreich die Medienberichte. Aber sind diese Auswertungen überhaupt zuverlässig?

Worauf ich immer wieder hinweise: Wer meine Vornamenstatistiken als Grundlage für wissenschaftliche Forschungen nutzen will, sollte sorgfältig prüfen, ob sie den Anforderungen genügen (siehe z. B. die Bewertung von Damaris Nübling). Der wesentliche Mangel liegt darin, dass ich die genauen Quellen nicht angebe. Ich dokumentiere meine Quellen zwar detailliert, veröffentliche diese Angaben (aus Gründen) aber nicht.

Auch Lutz Kuntzsch, Leiter der Sprachberatung der GfdS, stellt die Eignung meiner Auswertungsergebnisse für Forschungszwecke in Frage, wenn auch aus vier anderen Gründen (siehe den Aufsatz „Die beliebtesten Vornamen des Jahres 2011“ in der Ausgabe 2/12 der Zeitschrift „Der Sprachdienst“):

1. Da die Übersichten am Ende des dargestellten Jahres erscheinen (die GfdS braucht bis März, andere deutschsprachige Länder bis zum Sommer des Folgejahres), ist damit ein gravierender Mangel der Datenbasis offenkundig und die Seriosität der Sammlung in Frage gestellt. Die Datenbasis ist zufällig, denn vollständige Listen können zu diesem Zeitpunkt noch nicht vorliegen und ausgewertet sein.

In der Tat habe ich die Auswertung der Vornamen des Jahrgangs 2011 schon am 28. Dezember 2011 abgeschlossen, so dass die Geburten der letzten vier Tage des Jahres nicht berücksichtigt worden sind. Kuntzsch behauptet also zu Recht, dass es sich bei der Datenbasis nicht um vollständige Listen handelt. Zufällig ist die Datenbasis aber nicht, vielmehr handelt es sich um eine systematische Stichprobe, die zeitlich 99 Prozent der Gesamtheit abdeckt. Dieser Aspekt beeinträchtigt die Eignung als wissenschaftliche Quelle nicht entscheidend.

2. Bei der Gesamtzahl der Belege – aus 427 verschiedenen Quellen (Geburtsanzeigen, Standesämter) zusammengestellt – ist nicht ersichtlich, wie viele Standesämter, wie viele Krankenhäuser und wie viele andere zufällige (sicher dann auch untereinander gedoppelte) Quellen wie Geburtsanzeigen und andere Bekanntgaben des freudigen Ereignisses erfasst worden sind.

Zugegeben, ich war zu faul zum Zählen. Das habe ich inzwischen aber nachgeholt: 2011 habe ich die „Bekanntgaben der freudigen Ereignisse“ von 10 Standesämtern, 414 Geburtskliniken, 3 Geburtshäusern und 0 „anderen zufälligen Quellen“ ausgewertet. „Untereinander gedoppelte Quellen“ gibt es dabei keine. Somit wäre auch dieses Argument entkräftet.

Der dritte von Kuntzsch aufgeführte Grund, die Problematik der Erst- und Zweitnamen, beruht auf einem Missverständnis, wie ich kürzlich bereits aufgeklärt habe: Was ist der Erstname?

4. Ein Vergleich der Datenbasis für 2011 (24 % aller geborenen Kinder bei Bielefeld zu 73 % bei der GfdS) zeigt, dass es sich bei unseren Zusammenstellungen keinesfalls – wie im Umfeld von Bielefeld in der Presse gemutmaßt wird – um »Stichproben« handeln kann.

Widerspricht es den Grundsätzen wissenschaftlicher Arbeit, mit Stichproben zu arbeiten? Dann führe ich meinen akademischen Grad unrechtmäßig. „Wird bei einer statistischen Untersuchung nur ein Teil der interessierenden Masse erfasst, dann heißt dieser Teil Stichprobe.“ (aus: Jochen Schwarze, Grundlagen der Statistik I) Demnach handelt es sich auch bei den Zusammenstellungen der GfdS um Stichproben – schließlich entsprechen 73 Prozent keineswegs der Gesamtmenge. Aber das ist ja gar kein Problem, denn Wissenschaftler dürfen ihre Forschungen durchaus auf Stichproben aufbauen.

Somit wären alle vier Gründe aus dem Sprachdienst-Aufsatz entkräftet. Aber warum nur übergeht Kuntzsch den entscheidenden Mangel, die unvollständige Quellenangabe?

Autor:

Knud Bielefeld ist Vornamenhobbyist und erstellt Jahr für Jahr eine Auswertung der beliebtesten Vornamen Deutschlands.

11 Kommentare zu "Wie zuverlässig ist die Vornamenstatistik?"

  1. Kuddel sagt:

    Hallo,

    ich habe eine Frage zu den Angaben der Geburtskliniken und -häuser. Stammen die Angaben aus den im Internet verfügbaren Babygalerien? In denen stehen nämlich nur die Kinder drin, bei denen die Eltern der Veröffentlichung zustimmen, was natürlich längst nicht alle sind. Somit würden dir immer eine unbestimmte Anzahl Namen entgehen.

  2. Kuddel sagt:

    Ok danke. Dann kann ich die Kritik verstehen, denn die Stichprobe, die du für deine Auswertung nimmst, wird nicht aus der Gesamtheit aller Namen genommen. Wie sehr deine Statistik davon beeinträchtigt ist hängt davon ab, wie groß der Anteil der nicht genannten Namen ist.

    Ich mag die Seite aber trotzdem ;)

    • Es hängt vor allem davon ab, ob Eltern, die der Veröffentlichung zustimmen, typischerweise andere Namen vergeben als Eltern, die gegen die Veröffentlichung sind. Vielleicht möchte das mal ein Student im Rahmen einer Hausarbeit überprüfen?

    • neuhier sagt:

      Ich kenne einige Eltern (und wir zählen selbst auch dazu), die der Veröffentlichung bewusst nicht zugestimmt haben. Aus dieser Stichprobe heraus würde ich vermuten, dass eine mögliche Verschiebung zugunsten von Namen biblischen, lateinischen, griechischen bzw. deutschen Ursprungs ausfallen würde. Aber das ist natürlich auch verzerrt, denn ich habe keine Umfrage in der Fußgängerzone durchgeführt, sondern nur bei mir bereits gut bekannten Leuten.

  3. neuhier sagt:

    Werte es doch als Kompliment, dass sich die GfdS so mit deiner Arbeit auseinandersetzt ;).

    Auch wenn ich mich wiederhole: ich finde deinen Ansatz der getrennten Zählung der Namen wesentlich interessanter, da er die Realität (Kind wird nur mit einem Namen gerufen, auch wenn es mehrere hat) besser berücksichtigt.

    Bezüglich deiner Quellen kann ich den Einwand von Kuddel verstehen, darüber habe ich auch schon nachgedacht. Aber um den tatsächlichen Einfluss abschätzen zu können, müsste man die Daten einiger Standesämter nehmen und mit den dort zugehörigen Kliniken vergleichen. Dass die GfdS das noch nicht gemacht hat, um mal ein möglicherweise stichhaltiges Argument zu haben…

    • Eine weitere mögliche Fehlerquelle liegt darin, dass die Namen in den Babygalerien gar nicht die wirklichen Namen sind. Angesichts mancher Vornamen kann man schon auf den Gedanken kommen, dass sich einige Eltern einen Spaß erlauben und für die Babygalerie eine alberne Doppelnamenkombination nennen, obwohl das Kind tatsächlich Anna heißt. Beim Vergleich einiger Standesamtslisten mit den entsprechenden Kliniklisten habe ich aber festgestellt, dass die Kliniknamen bis auf ganz wenige Ausnahmen auch in den amtlichen Meldungen vorkommen.

    • neuhier sagt:

      Hmm, den Einfluss sehe ich nicht so hoch – man veröffentlicht doch das Foto und den Namen des Kindes nicht unter dem Aspekt, dass man als besonders witzig gelten möchte, sondern vielmehr aus Stolz und Mitteilsamkeit. Auch wenn ich das bei manchen Namen insgeheim für das Kind hoffe…

  4. Luu sagt:

    Egal wir ganz genau oder vielleicht auch nur annähernd genau Ihre Statistiken auch sein mögen, ich stelle mir dann die Frage: wo bitte gibt es im Internet eine ähnlich gute, strukturierte und umfassende Seite mit sovielen Statistiken, Listen, etc.? Es ist immer leicht, etwas zu kritisieren, aber oft schwierig es besser zu machen. In diesem Sinne: vielen Dank für Ihre Arbeit. Sie hat uns nun schon das zweite Mal SEHR geholfen.

  5. iolanthe sagt:

    ich kenne ein paar ausländische familien, die dem krankenhaus nur den europäischen namen des kindes mitgeteilt haben (obwohl dieser in keinem offiziellen dokument auftaucht). außerdem wurde bei den letzten geburten, die ich näher mitbekommen habe, online nur der rufname veröffentlicht, nicht zusätzliche zweit- oder drittnamen.

    kann es sein, dass herr kuntzsch und du bei nr 2 aneinander vorbeiredet? ich verstehe ihn so, dass es durchaus sein könnte, dass ein standesamt, dass du in die auswertung miteinbeziehst, in seiner statistik den namen eines kindes berüksichtigt, das bereits in einer babygalerie aufgetaucht ist, die du auswertest. wenn das passiert, wäre das kind doppelt in deiner auswertung drin, oder nicht?

    auf jeden fall finde ich es schade, dass es diese ewigen kleinen streitereien zwischen der gfds und dir gibt. ich finde, beide listen haben ihren wert. gerade in diesem jahr hat die gfds auch schöne zusätzliche infos und karten veröffentlicht und ich schaue mir auch ihre listen immer mit interesse an. deine seiten kann man aber super durchstöbern und alle vollständigen listen sind sofort online einsehbar. (wobei ich ehrlich gesagt kein fan davon bin, platzierungen weiter durchzunummerieren, obwohl die namen anscheinend streckenweise alphabetisch geordnet sind. (also würde ich 2011 zum beispiel alper bis vincenzo allesamt auf platz 479 setzen- oder zumidnest einen deutlichen hinweis setzen, dass einige platzierungen alphabetisch sortiert sind.))

    • Knud Bielefeld sagt:

      Das mit den europäischen Namen, die nicht offiziell sind, war mir neu. Ich habe in meinen Prüfquellen bisher keinen solchen Fall gefunden. Dem möchte ich aber weiter nachgehen; kennt noch jemand so etwas?

      Ich berücksichtige keine Babygalerien aus Städten, deren amtliche Mitteilung ich auswerte. Da Kinder immer im Standesamt des Geburtsorts angemeldet werden, werden Doppelerfassungen dadurch zuverlässig ausgeschlossen.

      Die Durchnummerierung trotz gleicher Häufigkeit hat technische Gründe; es wäre sehr viel komplizierter, es auf der Internetseite anders darzustellen. Den Vorschlag, einen deutlichen Hinweis auf die alphabetische Sortierung zu setzen, habe ich jetzt umgesetzt. Im “Beliebte Vornamen-Jahrbuch 2011″ sind die Top 500 von 2010 übrigens so abgedruckt, dass gleich häufige Namen den gleichen Ranglistenplatz haben.