Was WDF*IDF bedeutet, wie man damit umgeht und welche Tools verwendbar sind

Die vermeintliche Zauberformel „WDF*IDF“ ist viel mehr als eine Spinnerei von SEO-Textern. Dahinter steht ein vernünftiges Prinzip und nicht nur Suchmaschinenoptimierer sollten sich damit auseinander setzen. Ich stelle in vielen Texter-Seminaren fest, wie scharf die Teilnehmer auf diese Analyse sind – auch, wenn sie mit SEO nichts am Hut haben. Doch Vorsicht! Man sollte wissen, was dahinter steckt…

within document frequeny - inverse dockument frequency

Eines vorab: Nein, auch WDF*IDF ist NICHT der eine Stein der Weisen, der alles gut macht. Und es ist auch keine Formel, die einfach angewendet aber ganz schnell unfassbare Erfolge verspricht. Es ist einfach eine Formel, die – richtig angewendet – Texte „googelkonformer“ und auch für den User umfassender macht. Hier eine Übersicht.

Was sind denn nun WDFs und IDFs?

Gehen wir das langsam an. Zunächt einmal, zur Erklärung ein paar andere Begriffe:

  • Termfrequenz: Das ist die Häufigkeit, mit der ein Term (vulgo „Wort“) in einem Dokument (vulgo „Webseite“) erscheint. Dieser Wert ist einfach messbar – aber sagt wenig über das Dokument aus. Denn wenn ich 2000 Wörter über „Kitesurfen“ geschrieben habe, könnte der Begriff „Welle“ zufällig drei mal darin auftauchen. Deshalb ist dieses Dokument trotzdem nicht so relevant für den Begriff „Welle“ wie eine Webseite mit 20 Wörtern, in denen der Begriff nur zwei mal steht.
  • Keyword-Density: Die Keyworddichte ist da ein wenig besser. Sie beschreibt die Häufigkeit des Wortes in Bezug auf die Gesamtzahl aller Begriffe: Keyword-Density=Häufigkeit*100/alle Wörter des Dokuments. Die Keyword-Dichte im ersten Fall läge also bei 0,15 % und im zweiten Fall bei 20 %. Das macht soweit schon einmal mehr Sinn. ABER: Die Keyword-Density ist sehr leicht manipulierbar. UND: Wieso sollte es Sinn machen, die Keyword-Density für einen häufigen Begriff wie „Internet“ genauso zu berechnen, wie für einen sehr seltenen Begriff wie „htaccess“? „Deshalb sollte sie für Suchmaschinen kein Faktor sein, der den Index bewertet.

Nun zur WDF (Within Document Frequency)

  • Das ist auch (!) eine dokumentspezifische Gewichtung eines Wortes innerhalb eines Dokuments. Die Formel ist viel komplizierter – vor allem, weil darin gleich zwei mal ein Logarithmus auftaucht:

    Aber was steht da genau dahinter? Wenn man die mathematische Komplexität, die über die Lograithmen drin steckt, weg nimmt gilt: Die WDF ist nichts anderes als die Keyworddichte aber durch den Logarithmus „gestaucht“. Das ist notwendig, damit unterschiedlich lange Texte miteinander verglichen werden können, Extremwerte nicht so extrem ins Gewicht fallen und wir den Wert nachher mit der IDF multiplizieren können.

Interessant wird nun übrigens der Umgang mit der WDF: Diese wird nicht für das vermeintliche Keyword berechnet sondern für jedes sinntragende Wort (aka Keyword) im Text des Dokumentes. Dadurch bekommt eine schöne Ansicht, welcher Begriff denn das Dokument am stärksten beschreibt, welcher am am zweitstärksten ist u.s.w.. Wir ahnen es schon: DAS beschreibt die Webseite schon mal viel besser. Wir erhalten damit so etwas wie die DNA des Textes. Auch hier allerdings ein „ABER“: Häufige Wörter (wie z.B. „Stopwörter“ wie „der“, „und“ u.s.w. die keine sinntragende sondern eher eine grammatikalische oder syntaktische Funktion im Text haben) werden hier überwiegen. Stopwörter brauchen wir für die semantische Betrachtung von Texten überhaupt nicht und es ist schlicht ungerecht, dass in einem Text über die „htaccess“ dieser exotische Begriff genauso gewertet wird, wie das „Internet“. Oder?

Jetzt kommt die IDF (Inverse Document Frequency):

  • Das ist der zweite, viel größere Schritt, um das Dokument *wirklich* gut zu erklären. Die IDF beschreibt nämlich, wie viel es überhaupt „wert“ ist, dass ein Wort häufig im Text steht. Merke: Ein seltenes Wort beschreibt den Inhalt eines Textes viel besser, als ein häufiges Wort. Wenn ich in einem Text das Wort „Internet“ (häufig) schreibe, ist der Sinn des Textes nicht sonderlich gut beschrieben. Wenn aber das Wort „htaccess“ erscheint, bekommt der Inhalt eine technische Note. Es geht in der IDF also darum, wie häufig Wörter ÜBERHAUPT verwendet werden. Wir beenden also die Nabelschau unseres eigenen Dokuments und blicken in die große Welt. Die Formel dazu sieht so aus:
    IDF
    Lasst euch auch hier nicht von den mathematischen Feinheiten stören: Eigentlich geht es um den einfachen Bruch in dem die Zahl aller Dokumente, die überhaupt bekannt sind, durch die Zahl der Dokumente geteilt wird, die den Term, äh, das Wort, enthalten. Kennt die Suchmaschine eine Million Dokumente und findet in 100.000 davon den Begriff, wäre das Ergebnis des Bruchs also 10. Je weniger Dokumente es mit dem Wort gibt, umso höher wird also der Wert, die IDF wird größer und durch die Multiplikation mit der WDF (also der Häufigkeit des Wortes in DEINEM Text) wird dieser Begriff wichtiger.
    Noch einmal anders gesagt: Steht in deinem Text der sehr häufige Begriff „Internet“ trägt er weniger zur semantischen Identifizierung des Dokumentes bei wie der eher spezielle Begriff „htaccess“. Sind beide Wörter gleich häufig im Dokument (WDF), dann wird durch die hohe IDF von „htaccess“ dessen Wert viel höher sein, als der von „Internet“. Alles klar?

Nun könnte man einwenden, dass ja kein Mensch weiß, wie viele Text-Dokumente es auf dieser Welt gibt und man deshalb so was gar nicht ausrechnen kann. Das ist wahr. Man müsste genau wissen, wie viele Dokumente es zu jedem Term (also Keyword) im Index (also bei Google) gibt. Das könnte man mit der Angabe auf Google über den Suchergebnissen („Ungefähr 884.000 Ergebnisse“) noch halbwegs abschätzen. Aber wir brauchen auch die „Vereinigungsmenge“: Wie viele Dokumente sind insgesammt im „Korpus“ – also wie viele Dokumente gibt es überhaupt, in der mindestens EINER unserer Terme steht? Da ja auch mehr als ein Termin auf jedem Dokument stehen kann, müssten wir uns eigentlich alle anschauen und sie dann zählen. Nun, zum Glück gibt es dafür ja Tools 😉

Die Formel lautet also: WDF*IDF

Falls ich das noch nicht deutlich gemacht habe: Wir berechnen diesen WDF*IDF-Wert nicht für unser Keyword, sondern für jeden einzelenen Begriff in eurem Dokument. Dank der Zauberkräfte der Mathematik haben wir dann eine Liste von allen Wörtern mit Zahlen dran:

  1. Die Begriffe, die relativ häufig vorkommen und die grundsätzlich selten sind, haben den höchsten Wert.
  2. Die Begriffe, die relativ häufig vorkommen und die sehr häufig sind (z.B. „und“) haben einen extrem geringen Wert.
  3. Die Begriffe die relativ selten vorkommen und die grundsätzlich sehr selten sind, bekommen immer noch einen guten Mittelplatz.

Alles klar?

So sieht die WDF*IDF-Kurve des WDF-Beitrags der Wikipedia aus...

So sieht die WDF*IDF-Kurve des WDF-Beitrags der Wikipedia aus…

DAS ist die DNA eines Dokuments. Und wenn die Suchmaschine zusätzlich noch ein paar semantische Dinge weiß über die Suchanfrage (z.B. der User, der gerade nach „Internet“ sucht, hat schon einmal nach „htaccess“ gesucht) und über die anderen Dokumente (z.B. dass dort „Internet“ ziemlich häufig, aber „htaccess“ selten steht), tja dann ist schnell das inhaltlich beste Ergebnis gefunden.

Nun zu den Schwächen dieser Rechnerei

  • WDF*P*IDF macht vor allem in „großen“ Dokumenten Sinn – also auf Webseiten mit viel Text. Das heißt nicht (!) dass viel Text gut für SEO ist (es gibt Suchbegriffe, bei denen das eben nicht der Fall ist). Das heißt nur, dass die Suchmaschinen etwa bei Shop-Detailseiten ein wenig anders rechnen müssen…
  • Man muss die IDF kennen (also eine Schätzung über die Zahl aller Dokumente haben und derjenigen, die den Begriff enthalten). Ich würde sagen, dass viele Tools darunter leiden, dass sie nur ein paar Webseiten durchgezählt haben und deshalb den WDF*IDF-Wert nicht ordentlich auf die Ketten bekommen..
  • Die Metrik beschreibt einen ganzen Haufen anderer semantischer Faktoren rund ums Keyword nicht: Verteilung der Begriffe über das Dokument hinweg, Stemming, Synonyme u.s.w..
  • Ein Ergebnis ist in einer normalen redaktionellen Optimierung schwer operationalisierbar. Es ist zwar möglich, dem Texter die wichtigsten Begriffe aus der WDF*IDF-Analyse vorzulegen. Aber es ist nervenaufreibendes Wörter-Schach, wenn versucht wird, diese wirklich in einem Text abzubilden.
  • Neue Aspekte könnten dadurch vermieden werden: Das ist ein häufiges Argument in meinem Seminaren. Wenn wir auf diese Weise per WDF*IDF schreiben, wird es schwierig, neue Aspekte (und damit neue Aspekte) in den Inhalt aufzunehmen.


Der beste Umgang mit den WDF*IDF-Tools

Wir brauchen uns von der Formel nicht verrückt machen zu lassen: Es reicht, wenn wir uns bei der Optimierung damit beschäftigen, gute Texte schreiben und dabei die Themen/Begriffe mitverwenden, die auch in den anderen Seiten beschrieben wurden. Mehr können wir eh nicht leisten. Denn in einer Woche sind die SERPs eh schon wieder anders – wer würde dann schon wieder seinen Text anpassen? Ich empfehle den Einsatz der Tools auf diese Weise:

  1. Kläre dein Thema aka Keyword, für das dein Beitrag vermutlich ranken wird. Checke dies in einem WDF*IDF-Tool.
  2. Notiere dir die Begriffe der Analyse, die für dich Sinn machen. Zum Beispiel die Namen von Konkurrenten oder sinnlose Begriffe wie „Datenschutz“ (taucht immer wieder auf) ignorierst du einfach. Merke: Es geht darum, sich einer WDF*IDF-Kurve anzunähern – nicht, sie zu erreichen.
  3. Schreibe mit dieser Inspiration deinen Text und verwende die Wörter so, wie es sich im Text gut liest.
  4. Prüfe den Text danach im Tool, das können die meisten mittlerweile. Dann wirst du von machen Tools auf Begriffe hingewiesen, die etwas „spammig“ verwendet wurden. Diese kannst du reduzieren. Checke aber auch, ob die Begriffe, die dir wichtig waren, auch wirklich im Text stehen.
  5. Mache deine letzten Anpassungen im Text.

Bonus-Tipp: Sehr erfolgsversprechend ist, sich die WDF*IDF-Analyse eines Textes anzuschauen, der gerade bei Google in den Rankings verloren hat. Denn häufig ist das der Fall, weil sich neue, aktuelle Aspekte in diesem Thema ergeben haben. Diese kannst du dann in dem bestehenden Text ergänzen – und wirst sehen, dass schon allein dies dein Ranking wieder verbessert. Probiere es mal.

Die WDF*IDF-Tools

Es gibt, grob geschätzt, viele WDF*IDF-Tools für Texter auf dem Markt. Schon seit Monaten habe ich den Wunsch diese alle mal zu testen. Aber dazu kam es leider noch nicht. Deshalb ist das hier auch der Punkt, an dem ich alle erfahrenen WDF*IDF-Schreiber um ihren Input bitte.

Karls Core: Das vermutlich ausgereifteste Tool ist ein Teil von Karls Core. Hier gibt es aber nur begrenzten Zutritt. Frag Karl…

Onpage.org: Die Münchner haben ihr Tool unter der Schirmherrschaft von Karl Kratz gebaut. Es ist ein Teil ihrer Onpage-Analyse und ist gut verwendbar. Die Ergebnisse erscheinen mir sehr plausibel und die Anwendung ist – fast – intuitiv. Darin können auch Texte vor der Veröffentlichung geprüft werden. Wer allerdings nur ein WDF*IDF-Tool braucht, kauft bei Onpage.org eine ganze Menge anderer Technik mit.

Searchmetrics: Auch die Berliner Toolanbieter bieten mit ihrem Content Optimizer ein sehr umfangreiches Tool mit vielen sinnvollen Funktionen. Es werden noch weitere Werte des Textes geprüft und die Analysen werden auch für eine spätere Review gespeichert. Natürlich können Texte auch vor der Veröffentlichung geprüft werden. Allerdings gilt auch hier: Die WDF*IDF-Prüfung ist ein Teil einer ganzen Suite.

SEOlyze.com: Bei SEOlyse konzentriert man sich ganz auf die Text-Optimierung. Neben WDF*IDF-Analyse gibt es noch ein gutes W-Fragen-Tool. Außerdem noch einige Funktionen, die für das Teamwork an Texten recht gut geeignet sind. SEOlyse wird offenbar von vielen Textern eingesetzt, nach einer Anmeldung kann man es auch testen. Und der Preis ist natürlich deutlich geringer als bei den SEO-Suite.

Xovi: Auch hier gibt es im eher allgemeinen SEO-Tool ein WDF*IDF-Prüftool. Leider habe ich damit keine Erfahrung gesammelt.

OnpageDoc: Gehört in die OnpageDoc-Suite hinein, die 14 Tage kostenlos getestet werden kann. Fall jemand Erfahrung damit hat, freue ich mich über einen Kommentar.

wdfif-tool.com: Ein kostenloses Tool. Sehr einfach gebaut. Und, um ehrlich zu sein: Ich habe es einmal in einem Seminar eingesetzt und war über die Ergebnisse enttäuscht. Die Teilnehmer waren danach sehr, sehr verwirrt.

Meine Empfehlung: Wer „nur“ textet, wird mit SEOlyse sicherlich am besten bedient sein. Und wer noch viele andere SEO-Aufgaben zu lösen hat, der wird sich ohnehin Searchmetrics oder onpage.org anschauen. In beiden Fällen sind die Tools eine echte Bereicherung des Funktionsumfangs.

Und nun?

Ich denke nicht, dass WDF*IDF die Zauberformel für Texter ist. Aber sie ist eine gute Unterstützung und nach unserer Erfahrung, funktionieren entsprechend optimierte Texte in den Suchergebnissen im Durchschnitt besser als nicht optimierte Texte. Warum also nicht damit arbeiten?

GD Star Rating
loading...
Was WDF*IDF bedeutet, wie man damit umgeht und welche Tools verwendbar sind, 4.6 out of 5 based on 59 ratings

Eric Kubitz

Eric Kubitz ist einer der Chefs der CONTENTmanufaktur GmbH . Außerdem ist er Redner auf Konferenzen, Dozent bei Hochschulen, schreibt über SEO (und über andere Dinge) und ist der Chefredakteur des SEO-Book.

More Posts - Website - Twitter - Facebook - LinkedIn - Google Plus

Kommentare (60)

  1. KarlKratz

    Mon

  2. KarlKratz

    Hey Eric, dankschön dass Du Dich auf das Thema stürzt. In aller Kürze ein paar Kleinigkeiten bzw. Antworten / Anregungen:
     
    – Die Wikipedia-Formeln sind nicht exakt (irgendwo hab ich auch mal was dazu geschrieben).
     
    >> WDF*P*IDF macht vor allem in “großen” Dokumenten Sinn
    Nein, das ist nicht der Fall. Die Textmenge ist eine eventuelle Abhängigkeit, um bestimmte Gewichtungswerte zu erreichen _ohne_ dass die Lesbarkeit des Textes leidet. Es geht um die Erfüllung bestimmter Kriterien, nicht um absolute Werte.
     
    >> Man muss die IDF kennen (also eine Schätzung über die Zahl aller Dokumente haben und derjenigen, die den Begriff enthalten). 
     
    >> Die Metrik beschreibt einen ganzen Haufen anderer semantischer Faktoren nicht: Verteilung der Begriffe über das Dokument hinweg, Stemming
     
    Das ist in der Regel nur bei Zwei- und Mehr-Term-Kombinationen erforderlich.
     
    >> Ein Ergebnis in einer normalen redaktionellen Arbeit kaum operationalisierbar. (…)  aber gib mal einem Redakteur die Häufigkeit aller seiner verwendeten Begriffe vor.
     
    Das wiederum ist einfach. Benötigt allerdings ein wenig Disziplin. Und das wiederum ist verdammt schwer. 😉

  3. eric108

    @KarlKratz Ich hatte gehofft, dass du der erste Kommentator sein wirst 😉
     
    Danke für die Anmerkungen. Also:
    >> Ich finde, die Formeln sind good enough. Ich habe ja bewußt auf Detailreichtum verzichtet, um das gut zu erklären. Meinste, das ist schief gegangen?
    >> Das mit den großen Dokumenten ist schon richtig – aber mangels Datenmenge werden bei einem 50-Wörter-Text andere Faktoren sicherlioch stärker gewichtet werden als bei einem Wikipedia-Oschi. Denke ich jedenfalls.
    >> Eine Verteilung über das Dokument hinweg scheint mir schon wichtig zu sein. Das legen auch unsere Erfahrungen nahe. Es macht einen Unterschied, ob ein Keyword am Ende des Textes drei mal genannt wird oder einmal am Anfang, einmal in der Mitte und einmal am Ende.
     
    Beim Redakteur kommen wir nicht zusammen. Disziplin finde ich auch gut (stamme übrigens auch aus Schwaben…)
    Aber meinst du im Ernst, dass ein Focus-Redakteur einen Beitrag über die Wahl in den USA auf eine WDF-IDF-Kurve abstimmen sollte? Ich finde, der sollte besser die politische Situation als solche Kurven analysieren. 😉

  4. Pingback: Was WDF*P*IDF bedeutet - und warum das wichtig ist - SEO Book | SEO Neuigkeiten | Scoop.it

  5. eric108

    @KarlKratz o.k. – ich gebe zu, dass mit deinem Tool eine Operationalisierung durchaus möglich ist (siehe Beitrag). Danke für die Demo!

  6. KarlKratz

    @eric108 Und jetzt mach was Geiles draus! 🙂

  7. BastianMichel

    @KarlKratz  @eric108 
     
    Ich denke, wer jetzt erwartet den heiligen SEO Gral präsentiert zu bekommen, täuscht sich. Diese Formel ist Teil eines Ganzen. Es gibt noch soviele andere Faktoren wie Proximity, Keywordplatzierung, Umfang des Dokumentes(nicht die Länge)… usw…
     
    Hinzu kommt, dass es bei der Analyse so viele Sonderfälle gibt, die es schwer machen, die Formel „einfach mal so“ anzuwenden. Nur mal das „Stemming“ als ein Beispiel von vielen.
     
    Ich denke Karl hat es schwer diese These im Markt lebendig zu machen. Auf der einen Seite muss die Thematik stark simplifiziert werden, damit die Zuhörer nicht wegknacken. Dabei gehen aber viele „Kleinigkeiten“ verloren.
     
    Das Thema ist komplex und nicht innerhalb von ein paar Stunden umfassend zu begreifen. Wer daran Interesse hat, muss sich schon tiefer mit der Materie beschäftigen. Danke Eric, dass Du es getan hast.
     
    Bastian

  8. SEOFAKTUM

    Der Hype um die „neue Seo-Formel“ macht als auch vorm Eric nicht halt. Nein mal im Ernst. Karl seine Ausführungen und Auswertungen zu einem dieser unsäglichen Seo-Contest in den letzten Wochen, haben es ja wunderbar gezeigt worum es geht. Den WDF-Wert zu berechnen ist ja noch einfach. Aber welche Kennzahl (Anzahl der Dokumente) man zur IDF-Berechnung heranzieht, erschließt sich mir noch nicht ganz. Ein paar mehr Beispiele wären da hilfreich. In den Genuss das Tool vom Karl mal auszuprobieren, kommt ja leider nicht jeder. Bei den Jungs im webmarketingblog gab es dazu ja auch einen spannenden Beitrag:
    http://www.webmarketingblog.at/2012/10/30/ranking-ohne-linkbuilding/

  9. eric108

    @SEOFAKTUM Abwarten, wir arbeiten dran 😉

  10. SEOFAKTUM

    @eric108  @SEOFAKTUM Bin gespannt!

  11. Pingback: » Ranking ohne Linkaufbau – Funktioniert das wirklich?

  12. Skyhaze

    Muss denn tatsächlich beim IDF-Wert eine möglichst große Datenbasis genommen werden? Kann ich mich nicht an die Top 10 halten? Diese scheinen ja etwas richtig zu machen, wenn ich daran anknüpfe, sollte ich doch richtig handeln?!
     
    Und was genau versteckt sich hinter „P“?

  13. KarlKratz

    @Skyhaze Der IDF wird ein wenig missverstanden. Es geht nicht um eine möglichst große Datenbasis oder die Top 10 sondern um die Schnittmenge aller Dokumente, in denen alle Terme aus dem zu analysierenden Dokument vorkommen.

  14. Skyhaze

    @KarlKratz Komplizierter als ich beim Lesen dachte. D.h. es reicht nicht aus, die Top Keywords der Top 10 auszulesen, den WDF auf Dokumentenebene zu berechnen und den IDF aus den ersten 10 Seiten zum Keyword zu berechnen? D.h. ich habe 10 Dokumente, insgesamt kommt das Keyword in allem Dokumenten 230x vor. Formel: log(10/230)
     
    Ist also nicht korrekt? Habe ich hier auch so gefunden: nlp.stanford.edu/IR-book/html/htmledition/inverse-document-frequency-1.htmlAus welcher Datenbasis generierst du denn die Schnittmenge?

  15. KarlKratz

    @Skyhaze Nimm ein Dokument. Extrahier alle Terme. Ermittle für jeden Term die Anzahl der Dokumente in der Datenbank (aka die Anzahl der Suchmaschinenresultate). Bilde die Summe aus allen Suchmaschinenresultaten für alle Terme. Das ist N(D).
     
    Das sind die Basics. Im echten Leben geht es weiter: Es ist nicht die Summe sondern die Schnittmenge. Und die Anzahl der SERPs ist ebenfalls irreführend, da seitens Google oft irrelevante oder falsche Werte bereitgestellt werden usw. Aber das oben reicht schonmal für einfache Analysen.

  16. Michael Ballweg LinguLab

    Ja, ich finde den Ansatz von Karl auch spannend. Allerdings: in den Online-Redaktionen ist das Schreiben von Online-Texten leider noch nicht angekommen. Auch wenn das Thema Keyword-Dichte heiß diskutiert wird: die Auswahl der richtigen Keywords („Kundensprache“) und zumindest die Verwendung in Überschriften, Zwischenüberschriften und im ersten Drittel des Textes stellt im Alltag wohl noch eine Herausforderung dar.
     
    Wir haben gerade die Webseiten von 40 Versicherern untersucht – und es ist erstaunlich, welche Texte dort online sind. Da wäre eine einfache Überarbeitung mit den richtigen Keywords schon ein mal der erste Schritt. Danach könnte man dann überlegen, den Ansatz von Karl über ein Tool in den Redaktionsalltag zu integrieren. Dauert in der untersuchten Branche aber bestimmt noch 2 Jahre 😉

  17. SEOFAKTUM

    @Skyhaze  @KarlKratz Langsam wird es verständlicher. Vielleicht würde ein simples Zahlenbeispiel allen ein weinig weiterhelfen.

  18. eric108

    @SEOFAKTUM @Skyhaze @KarlKratz Vielen Dank für eure spannende Dikussion. Ich kann mich – wg Kundentermin – leider erst morgen wieder einschalten. Aber eines: Karl, nach deiner Beschreibung oben bezieht sich die LDF auf das gesamte Dokument und nicht auf die einzelnen Terme. Korrekt? Das hab‘ ich bisher auch anders interpretiert und wundere mich. Liege ich falsch?
    Und, hey, vielen Dank für die Mathe-Nachhilfe.
    Ach so, weil das auch eine Frage war: P ist ein Korrekturfaktor, um danach mit den Ergebnissen besser weiter rechnen zu können. Starte doch mit P=1.

  19. eric108

    @SEOFAKTUM  @Skyhaze  @KarlKratz So, jetzt nicht mehr aus der Bahn sondern vom Schreibtisch, da sieht das anders aus. 
    Zu meinem Kommentar gestern: Das war Blösinn. Natürlich bezieht sich IDF auf den Term – aber N auf das Dokument. Man sucht also, in wie vielen Dokumenten einer der Terme aus meinem Dokument vorhanden ist. „N(D)“ ist also nicht die Gesamtheit ALLER Dokumente sondern „nur“ die Gesamtheit der Dokumente mit einem der Terme aus unserem Dokument. 
    Wenn ich das richtig einschätze, dürfte der Fehler aber gering sein, wenn man bei N(D) ein bisschen „schwindelt“ . Außerdem wird es sonst auch schwer, f(t) in halbwegs vernünftiger Zeit zu erhalten. Immerhin müsste man dann ja auch die Schnittmenge (also Dokumente, in denen Term 1 und Term 2 enthalten sind) wieder raus rechnen. Aber wenn ich mir die Formel so anschaue, wäre das zu viel Gefummel für zu wenig mehr Detailreichtum. 
    Was meinst du, Karl?

  20. eric108

    @SEOFAKTUM  @Skyhaze  @KarlKratz So, jetzt nicht mehr aus der Bahn sondern vom Schreibtisch, da sieht das anders aus. 
    Zu meinem Kommentar gestern: Das war Blösinn. Natürlich bezieht sich IDF auf den Term – aber N auf das Dokument. Man sucht also, in wie vielen Dokumenten einer der Terme aus meinem Dokument vorhanden ist. „N(D)“ ist also nicht die Gesamtheit ALLER Dokumente sondern „nur“ die Gesamtheit der Dokumente mit einem der Terme aus unserem Dokument. 
    Wenn ich das richtig einschätze, dürfte der Fehler aber gering sein, wenn man bei N(D) ein bisschen „schwindelt“ . Außerdem wird es sonst auch schwer, f(t) in halbwegs vernünftiger Zeit zu erhalten. Immerhin müsste man dann ja auch die Schnittmenge (also Dokumente, in denen Term 1 und Term 2 enthalten sind) wieder raus rechnen. Aber wenn ich mir die Formel so anschaue, wäre das zu viel Gefummel für zu wenig mehr Detailreichtum. 
    Was meinst du, Karl?

  21. SEOFAKTUM

    @eric108  @Skyhaze  @KarlKratz Ich bleibe dabei, ein kleines Beispiel würde uns alle ein wenig weiterbringen. Wie sieht’s aus Karl? Ich poste mal einfach noch zwei int. Quellen die ich in den letzten Tagen so fand:
    http://wwwthemathchannel-shazdehmath.blogspot.de/2012/10/keywordanalyse-richtige-keywords-finden.html
    http://www.doku.info/doku_article_458.html

  22. eric108

    @SEOFAKTUM  @Skyhaze  @KarlKratz  Na ja, in dem zweiten Dokument von dir ist ja ein schönes Beispiel.
     
    Aber deine Idee ist richtig. Ich werde heute oder morgen meinem Beitrag um ein Beispiel erweitern. Dazu war ich etwas zu faul – aber du hast natürlich recht… (Es sei denn, Karl hat eins schon vorbereitet)

  23. arminsanjari1789

    schönber Artikel, nicht ganz mathematisch, aber schön .-)Der WDF, sowie der IDF sind wichtige Kennzahlen ABER da gehören noch ganz Untersuchen die in diese Formel mit reingehören.Der WDF und der IDF wurden vor vielen Jahren von Donna Herman und Co. verwendet um Datenbank besser nah Textdokumenten untersuchen zu können. Auf Google bezogen muss man schon noch weitere Kennzahlen im Vektormodell mit einbeziehen.
     
    Übrigens danke für den für das verlinken SEOFAKTUM und da ist f_t im IDF darf auch nicht gelich Null sein 🙂 (mathematisch nicht korrekt)Beim IDF muss keine große Datenmenge untersucht werden. Es geht ja viel mehr um das Vorkommen eines Terms (Keywords in verschiedenen Textdokumenten) –> ergo: Key A kommt in URL 1 , in URL 3, URL 7,….. vor—> wenn man dann andere Keywords in relation zu diesen Ergebnis nimmt dann reicht das für eine erste Untersuchung, da der Korpus eine Konstante ist!Buchempfehlung: http://www.amazon.de/Multivariate-Analysemethoden-anwendungsorientierte-Einf%C3%BChrung-Springer-Lehrbuch/dp/3642164900/ref=sr_1_1?ie=UTF8&qid=1352400138&sr=8-1
     
    oder meine MasterThese 🙂
     
    Lg Armin

  24. SEOFAKTUM

    @arminsanjari1789 Das stimmt schon. Nur gehen die Berechnungen von Meister Karl Kratz und seinem Tool noch einen Schritt weiter. Aber der Eric wollte ja auch nochmal ein Beispiel bringen.

  25. arminsanjari1789

    @SEOFAKTUM
    nicht nur die Berechnungen von K.K sondern auch bei vielen anderen. In verschiedenen online Redaktionen arbeitet man schon seit vielen Jahren mit solchen Tools :-)Und auch diese gehen nicht weit genug!

  26. arminsanjari1789

    @KarlKratz
     
    aber wenn OMEGA die Menge aller Textdokumente ist, dann wird doch die Schnittmenge (Teilmenge von OMEGA) auch größer! 🙂

  27. eric108

    @SEOFAKTUM  @arminsanjari1789 Das mit dem Beispiel wird noch etwas dauern. Wir haben uns entschlossen, das Thema mal tiefer anzugehen. Und da will ich lieber keinen Schnellschuss wagen…

  28. SEOFAKTUM

    @eric108  @arminsanjari1789 Danke Eric für die Statusmeldung. Der Entschluss ist völlig richtig. Schönes WE 🙂 Tino

  29. Pingback: Week in Search - Der Wochenrückblick SEO.SEM.GUERILLA.MARKETING.BLOG.SEONAUTEN

  30. Pingback: Wochenrückblick KW 45 - Brands im Sinkflug?

  31. Pingback: Week in Search 45 – Der Wochenrückblick in SEO › News

  32. Pingback: WDF-IDF | OnPage-Tool

  33. Pingback: Top 10 der Woche 45/12 « Wochenrückblicke

  34. Pingback: Besser WDF*P*IDF als Keyword-Dichte

  35. Pingback: Top 10 der Woche 45/12 › News

  36. Pingback: Yes We Can: Wir wollen deutscher SEO-Blog des Jahres werden! - SEO Book

  37. vanvox

    Jetzt gibt es ja dieses WDF-Plugin vom Pixeldreher. Kann man das sinnvoll nutzen? Ist ja kein IDF dabei. Wenn ja, wie gehe ich da am besten vor?

  38. arminsanjari1789

    @vanvox hi vanvox, nien kann man nicht. weil kein IDF dabei ist (und auch kein P).

  39. Pingback: Was willst du mir eigentlich sagen? Eine Anleitung zur Zieldefinition von Texten - SEO Book

  40. Pingback: WDF*P*IDF – die neue Zauberformel für SEO-optimierte Texte › SEO Newsticker

  41. Pingback: Was ist in meinem Text wichtig – oder kurz: WDF | PR, Social Media und SEO aus Bielefeld

  42. Pingback: Captain OnPage Starschnitt 4/8: Das Inhalts-CARE-Paket - SEO Book

  43. Pingback: WDF*P*IDF - die neue Keyword Density?

  44. Pingback: WDF Berechnung - Einfach oder lieber schwierig? | Seomantis Blog

  45. Pingback: WebDESIGN und Programmierung aus Bautzen/Lausitz bei Dresden » Netzschau KW 17 & 18/2013 – Klinger webDESIGN

  46. Pingback: 10 Tipps für die Seophonist SEO Strategie - SEO-Contest Gewinner analysiert! im SEO-Blog von SEARCH ONE

  47. Pingback: 10 Tipps für die Seophonist SEO Strategie – SEO-Contest Gewinner analysiert! | Seophonist

  48. Pingback: Was alles in eine SEO-Analyse gehört - Allgemein -SEO Book

  49. Pingback: SEOlyze - Version 3.0 | webropolis

  50. GabrielevonSzada

    Interessant und gut durchdacht aufgeschrieben.  Vergessen wird nur, dass das ganze keine Erfindung der Neuzeit ist. Schon beim dubline core kommen diese Elemente zum tragen. Man kann sich noch soviele Formeln und Tools ausdenken, um sie gewinnbringend an den Mann/ Frau zu bringen, solange die ganze Branche  wie ein Schneeballsysthem funktioniert und der eigentlich Content am Ende für 1 Ct je Wort von Unwissenden Textern gekauft wird, bringen solche Maßnahmen nur vorübergehenden Erfolg. Google mag zwar eine Datenbank sein, Nutzer sind es nicht. Meiner >meinung nach wird mit den Tools gerade denjenigen ein Instrument in die Hand gedrückt, die von Markt bis Marketing keine Ahnung haben, um den Kunden das Geld aus der Tasche zu ziehen.

  51. Pingback: Briefing für Autoren: Suchradar & mehr - Content Marketing -SEO Book

  52. Pingback: Xovilichter - Die aktuelle SEO Keyword Challenge 2014 von Xovi

  53. Pingback: Neue SEO-Tools im Xovilichter Gewinnspiel

  54. Pingback: Gute Texte schreiben mit diesen kostenlosen Tools!

  55. Pingback: 11 Tipps für kurzfristiges SEO - SEO mit Erfolg

  56. Pingback: Ist eine Single- bzw. One-Page besser für SEO als mehrere Unterseiten? - Die SEO-Frage -SEO Book

  57. Pingback: Basic: die 15-Sekunden Keyword-Recherche (und mehr) - Onpage -SEO Book

  58. arkadiusj

    Macht WDF*IDF auch bei ganz neuen Keywords sinn? ich nehme gerade am SEO Contest für das Keyword „DeinContestHandy“ teil unter http://www.arkadiusjonczek.com/deincontesthandy/ und bin natürlich für jeglichen Tipp dankbar. Ich glaube natürlich, dass es keinen Sinn macht, weil einfach das Keyword zu neu ist? Wobei entsprechende relevante Keywords natürlich durch WDF*IDF herausgefunden werden könnten.

  59. Pingback: www.flooringrepairs.net

  60. Pingback: likri.com

Schreiben Sie einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *