graphLab
Hier zeigen wir, wie die Zutatengraphen unter kulinarischen Aspekten interpretiert werden können.
←
Ich teile die Menge der Zutaten in drei Gruppen ein, nämlich
- in die Gruppe der big five (manchmal auch big four, big seven o.ä., je nach Datenlage)
- in die Gruppe, der ich – wahrscheinlich in grober Verkennung der Tolkienschen Ideen – den Namen Mittelerde gebe, und schließlich
- in die Gruppe der Nullknoten.
Die Gruppe der big five soll aus den etwa 5 Zutaten bestehen, die die höchsten Prävalenzwerte, die meisten Nachbarn, die höchsten Knotengrade bzw. die höchsten betweenness-Werte haben. Es wird sich zeigen, dass je nach verwendetem graphentheoretischen Maß diese Gruppe nicht immer von denselben Zutaten gebildet wird. Ich werde deshalb entsprechend von den big fiveP, den big fiveN, den big fiveD und den big fiveB sprechen.
Die Zutaten von Mittelerde tauchen in mehr als einem Rezept auf, aber nicht so oft wie die big five.
Die Nullknoten schließlich tauchen höchstens in einem Rezept auf.
Warum diese Dreiteilung?
An den big five (oder wenigstens an einigen von denen) kommt man nicht vorbei, wenn man etwas kochen will; Bevorratung ist empfehlenswert. Aber aus kulinarischer Sicht sind sie eher langweilig – weil sie eben immer dabei sind. Das verraten uns ihre hohen Prävalenz-Werte, ihre hohen Nachbar-Zahlen, ihre hohen Knotengrade und ihre hohen betweenness-Werte. Wir werden sehen, dass die Gruppe der big five in den unterschiedlichen Rezeptsammlungen von jeweils unterschiedlichen Zutaten gebildet wird.
Mittelerde sind die treuen Arbeiter: Damit kann man gute, grundsolide Gerichte kochen. Alle sind zufrieden und essen ihre Teller leer. Ich denke, die Zutaten von Mittelerde verdienen hohe Aufmerksamkeit: An diesen Zutaten läßt sich am ehesten das ablesen, was man als "Kochstil" bezeichnen könnte. In Mittelerde tauchen bevorzugt eingesetzte Kräuter auf, aber auch diverse Fleischsorten, bestimmte Gewürze usw.
Leider fehlt den Gerichten, die ausschließlich mit big five- und Mittelerde-Zutaten gekocht werden, oft das gewisse Extra. Und das können die Nullknoten bringen. Das entsprechende Gericht bekommt dadurch möglicherweise seine ganz besondere Note. Und vielleicht ist es ja so, dass man ein Kochbuch nur deshalb kauft, weil man genau dieses eine Gericht nachkochen möchte. Ich finde, wer ein Kochbuch schreibt und kein Gericht mit einem Nullknoten hat, sollte kein Kochbuch schreiben.
Wie können die in einer Rezeptsammlung enthaltenen Rezepte vergleichend bewertet werden?
Ich schlage folgendes Vorgehen vor:
- Ein Rezept wird umso besser bewertet, je weniger Zutaten verwendet werden, die auch in anderen Rezepten verwendet werden. Zutaten, die in mehreren Rezepten verwendet werden, nenne ich gemeinsame Zutaten oder shared ingredients. Präziser ausgedrückt:
- Wenn eine Zutat in nur einem Rezept verwendet wird, nennen wir sie eine exklusive Zutat. Exklusive Zutaten haben einen occurence-Wert = 1.
- Wenn eine Zutat in mehr als einem Rezept verwendet wird, nennen wir sie eine gemeinsame Zutat oder shared ingredient. Shared ingredients haben einen occurence-Wert > 1.
- Wir bevorzugen Rezepte, die eine hohe Anzahl von exklusiven und eine kleine Anzahl von gemeinsamen Zutaten haben.
- Zum Vergleich der Rezepte untereinander setzen wir je Rezept die exklusiven Zutaten in Beziehung zu den gemeinsamen Zutaten. Dabei verwenden wir zum einen die absolute Anzahl der gemeinsamen Zutaten, zum anderen die Summe der occurence-Werte der gemeinsamen Zutaten.
Die Lorenz-Kurve und den Gini-Koeffizienten kennt man meist aus volkswirtschaftlichen Analysen: Wieviel Prozent der Bevölkerung eines Staates haben wieviel Prozent des gesamten Vermögens dieses Staates? Anders gefragt: Wie ungleich ist das Vermögen in einem Staat verteilt?
Angepasst auf die kulinarische Analyse heißt das: Man geht nicht von der Frage aus, wieviele Zutaten ein Rezept hat, sondern wieviele Rezepte eine Zutat "hat". Eine Zutat "hat" ein Rezept, wenn sie in einem Rezept genannt wird. Zutaten sind – wenn man in der finanziellen Domäne bleiben will – also umso reicher, in je mehr Rezepten sie genannt werden.
Analoge Aussagen kann man offensichtlich für die Zutatenbeziehungen in einer Rezeptsammlung treffen.
Um das etwas mathematischer zu formulieren, gestatte ich mir, den Wikipedia-Eintrag zur Lorenz-Kurve für unsere Bedürfnisse anzupassen:
Die Lorenz-Kurve stellt dar, welche Anteile der gesamten Merkmalssumme auf welche Anteile der Grundmenge mit n Merkmalsträgern entfallen. So werden auf der x-Achse (Abszisse) die Anteile an der Gesamtheit der Merkmalsträger (hier: Zutaten), auf der y-Achse (Ordinate) die Anteile an der gesamten Merkmalssumme (hier: Summe aller Zutatennennungen in den Rezepten der Sammlung) abgetragen. Zur Erzeugung der Lorenz-Kurve werden die Daten zunächst aufsteigend sortiert und dann kumuliert ("aufsummiert"). Im Bild wird die Konstruktion der Lorenz-Kurve anhand einer Einkommensverteilung gezeigt.
Cmglee, CC BY-SA 4.0, via Wikimedia Commons
Es entsteht der charakteristische "Bauch" der Lorenz-Kurve unterhalb der Diagonalen, welcher das Maß der Ungleichverteilung wiedergibt. Jeder Punkt auf der Lorenz-Kurve steht für eine Aussage wie z.B.: "Die unteren 20% aller Zutaten haben 10% aller Zutatennennungen". Eine perfekte Gleichverteilung wäre eine Verteilung, bei der alle Zutaten gleich oft genannt werden. Dies lässt sich anschaulich durch eine Gerade y = x darstellen; man nennt sie perfekte Gleichverteilungsgerade (line of perfect equality). Dagegen wäre die perfekte Ungleichverteilung eine Verteilung, bei der eine Zutat in allen Rezepten genannt wird und alle anderen Zutaten in keinem Rezept. In diesem Fall wäre die Kurve y = 0 % für alle x < 100 % und y = 100 % bei x = 100 %. Diese Kurve wird als perfekte Ungleichverteilungsgerade (line of perfect inequality) bezeichnet. (Dieser Fall kommt in der Praxis natürlich nicht vor.)
Der Gini-Koeffizient ist das Verhältnis der Fläche A zur Fläche unter der Gleichverteilungsgerade. Die Fläche A ist die Fläche zwischen der perfekten Gleichverteilungsgerade und der beobachteten Lorenz-Kurve. Der Gini-Koeffizient ist damit eine Zahl zwischen 0 und 1, und je größer der Gini-Koeffizient ist, desto ungleicher ist die Verteilung.
Die Verwendung des Gini-Index als einziges Maß für die Ungleichheit ist problematisch, da diverse unterschiedliche Verläufe der Lorenzkurve zum gleichen Flächeninhalt zwischen der Lorenzkurve und der Diagonalen führen können. Zusammen mit der grafischen Darstellung der Lorenzkurve bietet er jedoch eine aussagekräftige Information.
Im kulinarischen Kontext könnte ein "hoher" Gini-Koeffizient ("hoch" im Vergleich zu anderen Rezeptsammlungen) aussagen, dass einige wenige Zutaten "immer" auftauchen (z.B. die "big five", s.o.), während im Extremfall alle anderen Zutaten nur in einem Rezept vertreten sind. Das könnte man als Beleg dafür nehmen, dass die Rezeptsammlung vielseitig zusammengestellt ist. Man sollte jedoch bei der Interpretation des Gini-Koeffizienten auch die mittlere Anzahl der Zutaten je Rezept in Betracht ziehen: Gehen "viele" Zutaten in die Rezepte einer Sammlung ein, dann steigt dadurch die Wahrscheinlichkeit der Mehrfachverwendung von Zutaten. Und dadurch wird der Bauch der Lorenz-Kurve kleiner, d.h., dass sich die Lorenz-Kurve der line of perfect equality annähert.