· 

Die wunderbare Welt der Forschungs(d)evaluation

Je mehr Artikel ein Wissenschaftler in hoch gerankten Journals veröffentlicht, desto besser ist die wissenschaftliche Qualität seiner Arbeit? Ein empirischer Blick auf ein folgenreiches Paradigma im Gastbeitrag von Asvin Goel.

Asvin Goel ist Professor für Logistik an der Kühne Logistics University (KLU) in Hamburg. Foto: privat.

IN ZEITEN, in denen sich das Wissen der Welt rasant vermehrt, wird es immer schwerer, Forschungsergebnisse aus anderen Fachgebieten zu verstehen, geschweige denn zu bewerten. Gleichzeitig müssen viele wissenschaftliche Institutionen zunehmend Rechenschaft über die Mittelverwendung geben. Wie also sollen Institutionen darlegen, dass sie die zur Verfügung gestellten Gelder sinnvoll einsetzen?

 

Naheliegend ist der Einsatz von Kennzahlen. Kennzahlen bieten eine verlockende Einfachheit in einer ansonsten komplexen und oft undurchsichtigen wissenschaftlichen Landschaft. Sie reduzieren die Vielfalt und Tiefe wissenschaftlicher Arbeit auf eine handhabbare Größe, die sich leicht vergleichen und in Berichten präsentieren lässt. Ob es die Anzahl der Zitationen einer Arbeit ist, das Ranking der Zeitschriften, in denen publiziert wurde, oder die Höhe der eingeworbenen Drittmittel, jede dieser Zahlen scheint eine klare, objektive Aussage über die Qualität der Forschung zu treffen.

 

Doch Zitationen kommen oft erst spät und sind daher für eine zeitnahe Evaluation ungeeignet. Sie spiegeln den langfristigen Einfluss einer Arbeit wider, der sich erst nach Jahren vollständig entfaltet – oder aber die Popularität des Forschungsthemas. Drittmittel wiederum werden bereits vor der eigentlichen Forschungsleistung eingeworben, basierend auf dem Potenzial eines Projekts und dem Vertrauen in die Fähigkeiten der Forschenden. Über die tatsächliche Qualität und die Ergebnisse der später durchgeführten Forschung sagen sie wenig aus.

 

Viele Institutionen vertrauen daher auf Zeitschriftenlisten. Publikationen in hochrangigen Zeitschriften gelten als Indikator für hohe wissenschaftliche Qualität. Mitunter werden in Promotions- und Berufungsordnungen gar Vorgaben gemacht, die eine Mindestanzahl von Publikationen in "A"- oder "A+"-Zeitschriften fordern. Forschende sind zunehmend gezwungen, sich an solchen Kriterien zu orientieren. Ist das sinnvoll?

 

In einer aktuellen Studie haben wir untersucht, wie die Nutzung von Zeitschriftenlisten die Bewertung von Forschenden beeinflussen kann. Nun gibt es allerdings keine allgemein anerkannte Zeitschriftenliste, die die Qualität der in einer Zeitschrift veröffentlichten Artikel adäquat bemisst. Vielmehr existiert eine Vielzahl solcher Listen. Für unsere Studie haben wir gängige Zusammenstellungen aus dem Bereich der Betriebswirtschaftslehre ausgewählt: die ABDC Journal Quality List (Australien), der CABS Academic Journal Guide (Vereinigtes Königreich), der FMS Journal Rating Guide (China), die HCERES-Liste (Frankreich) und das VHB Jourqual (Deutschland). Alle diese Zeitschriftenlisten haben gemeinsam, dass sie auf nationaler Ebene durch einen Prozess erstellt wurden, der sicherstellt, dass die Bewertung der wissenschaftlichen Qualität der Zeitschriften ausgewogen und fair ist – oder eben doch nicht?

 

Vergleicht man die anhand unterschiedlicher Zeitschriftenlisten quantifizierten Forschungsevaluationen von Forschenden, stellt man fest, dass es zwar viele Forschende gibt, deren Bewertung relativ stabil ist. Allerdings gibt es andere Wissenschaftler, die anhand der einen Zeitschriftenliste zu den Top-Performern gehören, während sie bei Nutzung einer anderen Liste als Low-Performer eingestuft werden. Schaut man sich die Forschungsfelder von Forschenden mit derart unterschiedlichen Bewertungen an, stellt man fest, dass diese häufig interdisziplinär forschen, während Forschende, die anhand aller Zeitschriftenlisten gut abschneiden, überwiegend in Forschungsgebieten aktiv sind, die klassischerweise dem Kern der Betriebswirtschaftslehre zugeordnet werden.

 

Neben der Wahl der Zeitschriftenliste gibt es natürlich weitere Parameter, die eine Bewertung von Forschungsleistungen beeinflussen können, etwa den gewählte Zeitraum oder die Art und Weise, wie Artikel mit mehreren Autoren in die jeweilige Bewertung eingehen. Würde man Forschenden die Wahl geben, diese Parameter selbst zu bestimmen, könnten wahrscheinlich 90 Prozent aller Forschenden nachweisen, dass ihre Forschung überdurchschnittlich gut ist, 40 Prozent der Forschenden könnten von sich sagen, zu den Top 10 Prozent zu gehören, und ein Viertel könnte gar behaupten, zur wahren wissenschaftlichen Elite der Top 5 Prozent aller Forschenden zu gehören. Es überrascht insofern nicht, dass deutsche Forschende anhand der VHB Jourqual-Zeitschriftenliste besser bewertet werden als im Durchschnitt aller Zeitschriftenlisten. Gleiches gilt für Forschende aus Australien, China, Frankreich und den Vereinigten Königreich und deren jeweiligen Zeitschriftenlisten.

 

Aus theoretischer Sicht ist all dies wenig überraschend, erst recht, wenn man sich mit multi-kriterieller Entscheidungsanalyse beschäftigt. Dennoch setzen viele Wissenschaftler, Gutachter und Entscheider solche Bewertungsmechanismen ein – bewusst oder unbewusst. Bei der Bewertung von Forschungsleistungen werden Zeitschriftenlisten und Parameter mehr oder weniger willkürlich gewählt, und Forschende, die dementsprechend gut bewertet werden, werden belohnt und befördert in der Vermutung, sie hätten mehr geleistet als andere. 

 

Das geht oft auf Kosten von Kreativität und Risikobereitschaft. Statt mutige, interdisziplinäre Projekte zu verfolgen, konzentrieren sich Forschende auf Themen und Methoden, die sich schnell in Publikationen in den "richtigen" Zeitschriften niederschlagen lassen. Diese Entwicklung schafft eine Kultur, in der Forschende die Frage nach dem Ranking der Zeitschrift, in der sie publizieren wollen, besser beantworten können als die Frage nach der wissenschaftlichen Erkenntnis. Das Ergebnis ist ein wissenschaftliches Ökosystem, das sich zunehmend nach den Regeln der Evaluationsmechanismen richtet anstatt nach den Bedürfnissen der Forschung selbst.

 

Leider ist kein Ranking auch keine Lösung. Ohne Publikationsmetriken besteht die Gefahr, dass die Höhe der eingeworbenen Drittmittel oder wissenschaftliche Seilschaften noch stärker an Bedeutung gewinnen. Solange der Wissenschaft kein besseres System einfällt, ist daher ein umsichtiger Einsatz unterschiedlicher Metriken, die die Vielfalt wissenschaftlicher Leistungen berücksichtigen, vorzuziehen. Zumindest, so die Hoffnung, gleichen sich die unterschiedlichen Verzerrungen dann gegenseitig ein Stückweit aus.



In eigener Sache: So lief der August

Für den Herbst braucht es einen Jahresendspurt. Können wir die Lücke gemeinsam schließen? Ich durch meine Berichterstattung, Sie durch Beiträge, die Ihrem Nutzungsverhalten und finanziellen Möglichkeiten entsprechen?


Kommentar schreiben

Kommentare: 8
  • #1

    DD (Mittwoch, 04 September 2024 10:58)

    Gut, dass dieses Thema hier im Blog mal wieder zur Sprache kommt! Allerdings gibt es schon seit etlichen Jahren Ideen für "bessere Systeme" - siehe z.B. https://sfdora.org/read/read-the-declaration-deutsch/. Und hier und da ist auch die Politik und sind die universitären Systeme bereit, die Bewertungmaßstäbe für die Qualität von Forschung zu ändern, z.B. in UK, wo die impact factors der Zeitschriften in Einstellungs- und Berufungsverfahren bei Weitem nicht die Rolle spielen, die sie in Deutschland haben.

  • #2

    Hansenpansen (Mittwoch, 04 September 2024 11:37)

    Sind die Ergebnisse hinsichtlich der Risikobereitschaft bei Projekten eigentlich longitudinal über das Wirken eines Wissenschaftlers konstant? Ein Doktorand, ein tenure track professor und ein full Professor haben ganz anderen Druck, Risikobereitschaft und Innovationsdrang. Haben wir an einer Stelle eventuell sichere und schnelle Publikationen und an einer anderen Stelle etwas risikoaffinere Vorhaben mit langer Vorlaufzeit?

  • #3

    René Krempkow (Mittwoch, 04 September 2024 11:57)

    Danke für diesen Beitrag!
    Dessen Ergebnisse decken sich mit denen einer ähnlichen Studie, die vor etwa einer Dekade ein Team von Forschenden am damaligen iFQ (jetzt eine Abteilung des DZHW) für die Medizin erstellte. Sie zeigte ebenfalls auf, in welchem Ausmaß je nach unterschiedlichen Maßzahlen unterschiedliche Ergebnisse der Forschungsbewertung resultieren. Zwar geschah dies am Beispiel der fakultätsinternen Leistungsorientierten Mittelverteilung (LoM), aber das Ergebnis war sehr ähnlich:

    Inter- und transdisziplinäre Forschung wie in den psychomedizinischen Fächern war bei der an den meisten Standorten angewandten Bewertungsmethodik besonders im Nachteil (siehe S. 93ff. in: https://www.researchgate.net/publication/271131149).

    Seit Dezember 2023 gibt es mit den fortgeschriebenen Daten auch noch Analysen zu Effekten von finanziellen Leistungsanreizen über längere Zeiträume, denn diese gab es für das deutsche Hochschulsystem bislang kaum. Dieser neuere Beitrag stellt Ergebnisse von solchen Analysen für Forschungsleistungen ca. 20 Jahre nach ihrer Einführung vor. Hierbei werden Modellmerkmale der fakultätsinternen Leis-tungsorientierten Mittelvergabe (LOM), Strukturmerkmale der Einrichtungen, die Wechselwirkung mit anderen Leistungsdimensionen, und auch Ausgangsbeding-ungen für den angestrebten Wettbewerb einbezogen (siehe: https://www.researchgate.net/publication/376681495)

  • #4

    Wolfgang Kühnel (Mittwoch, 04 September 2024 13:21)

    "Das Ergebnis ist ein wissenschaftliches Ökosystem, das sich zunehmend nach den Regeln der Evaluationsmechanismen richtet anstatt nach den Bedürfnissen der Forschung selbst."

    Das haben doch wohl diejenigen zu verantworten, die diese "Evaluationsmechanismen" geschaffen haben, und das sind in erster Linie die staatlichen Technokraten, die die Drittmittel zum primären Ziel der universitären Forschung erklärt haben.
    Aber leider hat sich das ganze Publikationssystem auch selbst pervertiert: In meinem Fach sind die meisten "guten" Zeitschriften in der Hand einiger weniger Verlage, die damit ein Geschäft machen. Und dann werden ständig neue Zeitschriften gegründet, fast jede Woche kommt eine Aufforderung per E-mail, in denen zu publizieren, das würde ganz schnell gehen. Beim näheren Hinsehen findet man dann, dass dafür Gebühren verlangt werden, etwa 1000 € pro Artikel oder auch mehr. Manchmal gibt es den Hinweis, dass man Rabatt bekommt, wenn man Mitherausgeber wird. Das grenzt schon an Korruption. Das Übel besteht darin, dass das Publizieren zu kommerziellen Zwecken genutzt wird, aber von den Verlagen, nicht von den Autoren. Besser wäre wohl ein Publikationssystem in der Hand einer Non-Profit-Organisation. Die Autoren werden zum Spielball solcher Interessen, junge Wissenschaftler ohne Dauerstelle müssen da mitspielen, sonst sind sie verloren, das klassische "publish or perish". Und das Establishment ist dann vielfach schon überlastet mit dem Begutachten von eingereichten Arbeiten (und Drittmittelanträgen etc.). Wonach bitte soll der einzelne Gutachter die "wissenschaftliche Exzellenz" beurteilen? Das ist leichter gesagt als getan.

  • #5

    Susanne Rau (Mittwoch, 04 September 2024 18:52)

    Danke für den Beitrag.
    Aus geschichtswissenschaftlkcher Sicht hier ein paar ähnliche Reflexionen: https://www.historikerverband.de/aktuelles/vhd-journal/vhd-journal-8/

  • #6

    Fumarius (Donnerstag, 05 September 2024 08:21)

    Ein kleiner Einwand: "Drittmittel wiederum werden bereits vor der eigentlichen Forschungsleistung eingeworben, basierend auf dem Potenzial eines Projekts und dem Vertrauen in die Fähigkeiten der Forschenden. Über die tatsächliche Qualität und die Ergebnisse der später durchgeführten Forschung sagen sie wenig aus." Das mag im Grundsatz stimmen, wenn es aber - wie im Folgenden Ihres Beitrags - nicht um die Qualität eines einzelnen Forschungsbeitrags, sondern die Qualität wissenschaftlicher Leistungen eine*s Forschenden über längere Zeitraum geht, kann die Einwerbung von Drittmitteln, insbesondere von hochkompetitiven wie zB des ERC, durchaus _eine_ geeignete Indikatorik sein. Jedenfalls wäre es mE falsch, pauschal Drittmittel "aus dem Mix" zu nehmen, wenn es um Forschungsbewertung geht.

  • #7

    Django (Donnerstag, 05 September 2024 08:59)

    "Das Ergebnis ist ein wissenschaftliches Ökosystem, das sich zunehmend nach den Regeln der Evaluationsmechanismen richtet anstatt nach den Bedürfnissen der Forschung selbst."
    Das ist ja wenig überraschend. Das Phänomen nennt sich "Anreizsteuerung" und gilt in vielen Lebensbereichen. Und mit der zunehmenden Ökonomisierung der Gesellschaft breitet es sich natürlich aus. Dass die Anreize u.U. falsch gesetzt werden, sieht man nicht nur in der Wissenschaft - im Sport wird "nach Paris" auch heftig diskutiert, ob das Geld sinnvoll verteilt wird.
    Über Zitationskartelle wurde schon vor dreißig Jahren diskutiert bzw. gelästert.

  • #8

    Hugo (Freitag, 20 September 2024 12:23)

    Na ja, vielleicht sollte man mal versuchen, neben dem Ranking und nach Verifikation der wissenschaflich-technischen Validät auch mal das sicherlich vermessbare (interdisziplinäre) Risiko zu beziffern und mit zu ranken. Wäre doch mal was neues, um dem offenbar systematischen monodisziplineären, versäulten Bias entgegenzuwirken.

    Hier hilft auch ein Blick auf Experiment! der VW-Stiftung.