Der Begriff Repräsentativität: Was bin ich und wenn ich bin, wie viele?

Der Begriff Repräsentativität: Was bin ich und wenn ich bin, wie viele?

Über keinen Begriff wird in der Markt- und Sozialforschung so gerne kontrovers diskutiert wie über den der Repräsentativität. Die Debatte entzündet sich oftmals bereits an der Frage danach, ob Onlinebefragungen repräsentative Ergebnisse liefern können oder nicht. In der FAMS-Ausbildung wird man jedoch mit einem viel grundsätzlicheren Problem konfrontiert, nämlich damit, was Repräsentativität überhaupt bedeutet. In der Schule wird es gelehrt, in Prüfungen abgefragt, aber eine eindeutige Antwort auf die Frage nach der ‚richtigen‘ Begriffsdefinition ist trotzdem kaum zu finden. Dieses Dilemma habe ich zum Anlass genommen, um mich einmal auf Spurensuche zu begeben und herauszufinden, wie man Repräsentativität am besten definieren kann – und ob dies überhaupt sinnvoll ist.

Repräsentativität ist, wenn drei aus vier Antwortoptionen korrekt erscheinen


Gleich vorab: Die Art der Repräsentativität, über die ich im Folgenden schreibe, hat nichts mit Queen Elisabeth II oder Frank-Walter Steinmeier zu tun. Es geht im weitesten Sinne zwar schon um das Repräsentieren einer spezifischen Gruppe von Personen, aber dies ist in einem streng statistischen Sinne gemeint. Der Text wird sich weitestgehend um die beiden Begriffe „Grundgesamtheit“ und „Stichprobe“ drehen, weshalb ich sie an dieser Stelle kurz erläutern möchte. Mit Grundgesamtheit ist die Auswahlgrundlage gemeint, aus der man im Rahmen eines Markt- oder Sozialforschungsprojekts die Personen auswählt, die an der durchzuführenden Studie teilnehmen sollen. Eine mögliche Grundgesamtheit können z.B. alle Hundebesitzer mit Hauptwohnsitz in Deutschland bilden, wovon es ca. 10 Millionen gibt. Den gesamten Anteil an Hundebesitzern, die man mittels Zufallsauswahl für die Befragung aus der Grundgesamtheit selektiert hat, bezeichnet man als Stichprobe. Beispielsweise kann eine solche Stichprobe 1.000 Hundebesitzer umfassen, die zu den Themen Futtersorten und Fütterungszeiten befragt werden.

Um nun den Bogen zum Thema zu spannen: Bei der Vorbereitung auf meine Zwischenprüfung bin ich in den Übungsbögen auf eine Frage gestoßen, die mich hat stutzen lassen. Ich kann mich nicht mehr an den genauen Wortlaut erinnern, aber der Bogenersteller wollte von mir wissen, wie man den Begriff Repräsentativität definiert. Um das zu erfahren, bot er mir im Übungsbogen vier Antwortmöglichkeiten als Multiple Choice an. Eine davon war Humbug und konnte ausgeschlossen werden, aber die anderen drei Möglichkeiten kamen mir allesamt nicht verkehrt vor. Natürlich haben wir in der Berufsschule gelernt, was der Begriff bedeutet, aber besagter Prüfungsbogen verlangte mir nun eine kurze und eindeutige Antwort ab – und davon gab es mit ziemlicher Sicherheit nur eine korrekte. Die bisher erlernte Bedeutung des Begriffs – „Repräsentativität bedeutet, dass die gezogene Stichprobe die Zusammensetzung der Grundgesamtheit, über die eine Aussage getroffen werden soll, möglichst realitätsnah abbildet“ – half mir an dieser Stelle nicht weiter. Da ich mich zwischen Antwortoption Nr. 2, 3 und 4 nicht entscheiden konnte, las ich die Antwort nach dem Ausfüllen des Übungsbogens im Lösungsheft nach. Sie ergab Sinn, selbstverständlich – aber zufrieden war ich mit ihr noch nicht, denn Sinn ergaben die anderen beiden Antwortmöglichkeiten, die ich in die engere Wahl gezogen hatte, durchaus auch. So begab ich mich auf die Suche nach der einzig wahren Definition des Begriffs Repräsentativität.


Ein Begriff, unendliche Möglichkeiten der Definition?


Wann immer man im Zeitalter des Internets ad hoc Informationsmangel verspürt und kein passendes Nachschlagewerk zur Hand ist, tut man folglich eines: Man begibt sich auf eine ausschweifende Reise durch die Weiten des World Wide Web. Dort musste ich feststellen: Wenn man nach einer Definition des Begriffs Repräsentativität sucht, findet man vieles – aber nichts, was mein Prüfungsdilemma lösen würde. Um das Problem also in einen kurzen Satz zu fassen: Alleine die ersten drei Einträge der konsultierten Suchmaschine boten mir drei unterschiedliche Definitionen an, nämlich:

  1. „Eine Stichprobe ist genau dann repräsentativ bezüglich einer zu schätzenden Größe der Grundgesamtheit, wenn der entsprechende Stichprobenschätzer erwartungstreu dafür ist.“
    https://www.marktforschung.de/dossiers/themendossiers/repraesentativitaet-2012/dossier/repraesentativitaet-von-stichproben/
  2. „Im engeren Sinne ist eine Stichprobe dann repräsentativ, wenn alle Merkmalsträger der Grundgesamtheit die gleiche Chance besessen haben, Teil dieser Stichprobe zu werden […].“
    https://de.statista.com/statistik/lexikon/definition/116/repraesentativitaet/
  3. „Eine Stichprobe ist dann repräsentativ, wenn ihre Ergebnisse ohne systematischen Fehler auf die Grundgesamtheit hochgerechnet werden können.“
    https://wirtschaftslexikon.gabler.de/definition/repraesentativitaet-51490

Bereits an dem Punkt wusste ich, dass meine Suche nach einer eindeutigen Antwort schwer werden, wenn nicht sogar vergeblich bleiben würde. Nun sind Informationsdiversität und die Anforderung, sich selbst eine Meinung zu bilden, ja grundsätzlich nichts Schlechtes, aber in diesem einen Fall wäre mir ein eindeutiges Ergebnis lieber gewesen. Wenn man jedoch die obig angeführten Definitionsversuche näher betrachtet und den kleinstmöglichen Konsens der drei Definitionen sucht, scheint das Merkmal Repräsentativität auf jeden Fall an die Art und Weise geknüpft zu sein, auf die eine Stichprobe zusammengesetzt wird bzw. daran, ob sich die in ihr erhobenen Ergebnisse ohne großen Fehler auf die Grundgesamtheit übertragen lassen. Definition 1.) nimmt an, dass dies eintritt, wenn ein Wert, den ein Forscher innerhalb seiner Stichprobe ermittelt bzw. mittels statistischer Funktionen „schätzt“, sich bestmöglich mit dem Wert deckt, der in der Grundgesamtheit angenommen bzw. „erwartet“ wird. Erwartungstreue heißt, dass der aus der Stichprobe gewonnene Schätzer nicht systematisch vom wahren Wert der Grundgesamtheit abweicht und somit unverzerrt ist. Das ist eine sehr statistisch fokussierte Begriffsauslegung, die u.a. bereits inkludiert, dass die Stichprobe entsprechend der Forderung in Definition 2.) gezogen wurde.

In Definition 2.) wird Repräsentativität sehr grundlegend verstanden: Sie liegt demnach vor, wenn alle Personen, die Teil der Grundgesamtheit sind, die gleiche Chance haben, in die Stichprobe zu gelangen, ganz unabhängig von der Stichprobengröße. Möchte man besagte Hundebesitzer beispielsweise telefonisch befragen, muss streng genommen sichergestellt werden, dass die Telefonnummern aller Hundebesitzer mit Hauptwohnsitz in Deutschland vorliegen und diese über die jeweilige Nummer erreichbar sind. Welche Personen letztendlich angerufen werden, wird dann über eine zufällige Auswahl der Telefonnummern entschieden. Aus diesem Grund spricht man bei Verfahren, die allen Elementen der Grundgesamtheit die gleiche Chance einräumen, Teil einer Befragung zu werden, von Verfahren der Zufallsauswahl (zu den z.T. wahnwitzigen Auswüchsen dieser Methode finden sich weiterführende Informationen übrigens im Blog vom 27/12/2019). In der marktforscherischen Praxis können Zufallsverfahren jedoch auch durch Quotenverfahren ersetzt werden. Definition 2.) ist zwar leicht verständlich, berücksichtigt aber nicht die Problematik, dass die Bedingung der Chancengleichheit bei der Auswahl in der Realität niemals vollständig gegeben ist. Ich würde diese Definition daher eher als im weiteren Sinne zutreffend bezeichnen.

Definition 3.) modifiziert diese Aussage noch einmal, indem hier davon ausgegangen wird, dass Ergebnisse repräsentativ sind, wenn sie aufgrund einer frei von vermeidbaren Fehlern konzipierten Studie als für die Grundgesamtheit zutreffende Aussagen angenommen werden können. Als „systematischen Fehler“ bezeichnet man in der Statistik z.B. Auswahlfehler bei der Stichprobenziehung, die zu einer Verzerrung der Ergebnisse führen. Systematische Fehler sind einseitig gerichtet und im Prinzip feststellbar, aber nicht quantifizierbar. Wenn etwa für die repräsentative Befragung der Hundebesitzer nur Frauen ausgewählt würden und die männlichen Hundehalter in der Stichprobe unberücksichtigt blieben, läge ein solch systematischer Fehler vor. Die Aussagen der weiblichen Teilnehmerinnen kann man nicht auf die Gesamtheit aller Hundebesitzer übertragen, denn die Frauen können nicht die Einstellungen und Ansichten der Männer repräsentieren. Definition 3.) finde ich jedoch ebenfalls etwas zu kurz gegriffen, denn sie suggeriert, dass die in einer Stichprobe erhobenen Ergebnisse immer repräsentativ für die Grundgesamtheit sind, wenn diese 1:1 in der Stichprobe abgebildet wird. Natürlich ist die Stichprobenzusammensetzung ein ganz entscheidender Faktor, aber eben nicht der einzige, wenn es um die Abwägung geht, ob eine Studie insgesamt repräsentativ ist, d.h., die Meinung der Grundgesamtheit abbildet – oder nicht. Im Kontext des Begriffs Repräsentativität sind darüber hinaus weitere Gesichtspunkte von Bedeutung, beispielsweise die Stichprobengröße und die Art des gewählten Auswahlverfahrens.


In der Summe entscheiden viele Faktoren darüber, ob Repräsentativität besteht


Die drei angeführten Definitionen legen nahe, dass sich Repräsentativität nicht auf einen Aspekt beschränken lässt und man nicht uneingeschränkt sagen kann, dass eine Studie repräsentativ ist, wenn dieser eine erfüllt bzw. berücksichtigt wird. Vielmehr spielen in der Summe viele Faktoren eine (mit)entscheidende Rolle bei der Umsetzung eines Projekts, wenn ein Auftraggeber ein repräsentatives Studiendesign wünscht. Bisher haben wir gesehen, dass es u.a. darauf ankommt, durch wen die Grundgesamtheit in der Stichprobe repräsentiert wird, wie die Stichprobe gezogen wird und ob statistische Schätzparameter darauf hindeuten, dass sich die in der Stichprobe ermittelten Werte auf die Grundgesamtheit übertragen lassen – was wiederum nur der Fall ist, wenn die Stichprobe entsprechend den Anforderungen an eine Zufalls- oder Quotenauswahl korrekt gezogen wurde.


Vernachlässigt wurde bisher allerdings, dass auch Auswirkungen hat, wann und mit welcher Erhebungsmethode wie viele Personen befragt werden. Für die Qualität der Ergebnisse ist es genauso fatal, die richtigen Personen zum falschen Zeitpunkt zu befragen, wie die falschen Personen generell. Liegen dem Auftraggeber z.B. Informationen aus älteren Studien vor, die belegen, dass sich besonders berufstätige Hundebesitzer intensiv mit den Fütterungszeiten und der Futtersorte ihrer Hunde auseinandersetzen und der Auftraggeber deshalb vor allem diese befragen möchte, wäre die Grundgesamtheit mit Sicherheit nicht repräsentativ abgebildet, wenn die Interviews nur am Vormittag geführt werden, einer Zeit, zu der die berufstätigen Hundebesitzer – richtig, auf der Arbeit sind. Sollen hingegen vor allem ältere Hundebesitzer befragt werden, um z.B. zu untersuchen, ob ein Zusammenhang zwischen Hundebesitz und einer geringeren sozialen Vereinsamung im Alter existiert, wäre eine telefonische Befragung die bessere Wahl gegenüber einer Onlinebefragung, denn nicht jeder ältere Mensch verfügt aktuell über einen Internetzugang. Damit würden die Personen ohne Internetanschluss aufgrund des Studiendesign von vorneherein von einer Teilnahme an der Untersuchung ausgeschlossen werden. Davon ausgehend, dass potenzielle Studienteilnehmer ohne eigenen Internetanschluss einen bestimmten Personentyp verkörpern, wäre in diesem Fall eine Teilgruppe der Grundgesamtheit nicht in der Stichprobe berücksichtigt, was ebenfalls negative Auswirkungen auf die Repräsentativität der Studienergebnisse hätte.

Ob eine Stichprobe eine bestimmte Größe haben muss, um repräsentativ für die Grundgesamtheit zu sein, kann hingegen weder mit einem eindeutigen „Ja“ noch mit einem eindeutigen „Nein“ beantwortet werden. Im Bereich B2B können bereits 100 Interviews ausreichend sein, weil die Grundgesamtheit entsprechend klein ist und vielleicht von wenigen Experten repräsentiert werden kann, während die Hundebesitzer eine sehr große Grundgesamtheit bilden und dementsprechend mehr Personen befragt werden müssen, um statistisch belastbare Ergebnisse zu erhalten. Hier sollten es schon mindestens 500 Interviews sein, damit der Stichprobenfehler nicht zu groß wird. Der Stichprobenfehler drückt aus, wie stark ein in der Stichprobe ermitteltes Ergebnis vom gesuchten ‚wahren‘ Wert in der Grundgesamtheit abweicht bzw. um diesen herum streut. Dass der Stichprobenfehler kleiner wird, je mehr Hundebesitzer man befragt, ist die logische Konsequenz, denn mit wachsender Teilnehmerzahl steigt ebenso die Menge der berücksichtigen Meinungen innerhalb der Stichprobe. Die Berechnung des Stichprobenfehlers weißt nämlich nach: Berücksichtigt die Stichprobe beispielsweise 100 Fälle und nehmen wir an, dass entsprechend den Studienergebnissen 50 Prozent dieser 100 Hundebesitzer ihren Hund zwei Mal täglich füttern, liegt die Schwankungsbreite bei +- 9,8 Prozent um den gemessenen Wert von 50 Prozent. Ob im Extremfall bzw. der Realität nun 40,2 Prozent oder 59,8 Prozent der Befragten ihren Hund zwei Mal täglich füttern, kann für die Handlungsmaßnahmen, die der Auftraggeber der Studie auf Basis der ermittelten Werte ergreifen wird, bereits eine deutliche Differenz ausmachen, denn hier liegt in den Daten ein Spielraum von insgesamt knapp 20 Prozent vor. Bei einer Stichprobengröße von 1.000 Fällen kann die Schwankungsbreite mit +- 4,3 Prozent im Gegensatz zur 100er-Stichprobe um bereits mehr als die Hälfte reduziert werden. Ob 45,7 Prozent oder 54,3 Prozent der befragten Hundebesitzer ihren Hund zwei Mal täglich füttern, gibt dem Auftraggeber sehr viel mehr Sicherheit für seine Handlungen, da ein Irrtum in den Ergebnissen auf eine Spannbreite von insgesamt knapp 10 Prozent eingegrenzt wird.


Die fünf W-Fragen der Repräsentativität


Im Zuge meiner Recherche bin ich zu dem Ergebnis gelangt, dass Repräsentativität sich am besten anhand von fünf zentralen Fragen greifen lässt:


  1. Wer wird befragt?
  2. Wie wird die Stichprobe gezogen?
  3. Wann wird befragt?
  4. Welche Methode wird für die Befragung gewählt?
  5. Wie viele Personen werden befragt?
Geht man diese Fragen durch und wägt ab, kann man bereits sehr gut entscheiden, ob eine Studie tatsächlich repräsentativ ist oder nicht. Für diesen Text ist am Ende jedoch noch eine Frage offen: Welche Definition von Repräsentativität sah besagter Übungsbogenersteller als korrekt an? Die ‚richtige‘ Antwort bewegte sich im Bedeutungskreis von Definition 1.), setzte also einen mathematischen Fokus. In meinen Augen ist diese Wahl sinnvoll, da beispielsweise die Stichprobengröße oder Art des Auswahlverfahrens zwar den äußeren Rahmen einer repräsentativen Studie abstecken, als Merkmale der Repräsentativität für sich alleinstehend aber nicht ausschlaggebend (genug) sind. Ein kleiner Stichprobenfehler sowie das (Nicht-)Vorliegen einer insgesamt möglichst geringen systematischen Verzerrung über eine Studie hinweg beinhalten die oben angeführten fünf W-Fragen allerdings gemeinsam in einer konkreten mathematischen Kennzahl sowie individuell zu beurteilenden Gesamtfehlerquelle und sind deshalb als eigentliche inhaltliche Gütekriterien für die Validität und damit Qualität der Ergebnisse einer repräsentativen Studie zu betrachten. Insgesamt finde ich den Versuch, in einer Prüfung die Definition von Repräsentativität abzufragen, jedoch eher wagemutig, denn der Begriff wird nicht einheitlich gelehrt und wie wir gesehen haben gibt es viele Teilaspekte, die in eine Definition mit hineinspielen. Dieser Umfang kann nicht adäquat in einer Multiple Choice-Frage abgebildet werden.
0 0
Feed

Einen Kommentar hinterlassen