content verbeteren aan de hand van formule voor zoekmachines

SEO evolueert. Elk jaar zijn er nieuwe ontwikkelingen en gaan de rages van vorig jaar weer de prullenbak in. Eén techniek die zeker niet zal verdwijnen is TF-IDF, een wiskundige formule die behalve in Duitsland vrijwel onbekend is. Dat is zonde, want TF-IDF kan een waardevolle toevoeging zijn op moderne SEO-technieken en tools.

TF-IDF staat voor term frequency (with) inverse document frequency. In feite is dit een wiskundige formule. TF-IDF is de mate van belang van een specifiek woord in een tekst, dat tot stand komt door het te vergelijken met de frequentie van dat woord in andere teksten.

Het eerste deel van de formule, de term frequency, is de frequentie van een woord in een tekst. Een hoge term frequency staat gelijk aan een woord dat vaak in die tekst voorkomt. Maar met TF alleen kom je er niet.

IDF, oftewel inverse document frequency, kan namelijk gebruikt worden om te kijken naar het belang van een woord in meerdere teksten, samen de corpus genoemd. Door de corpus als referentie te gebruiken kun je er achter komen hoe belangrijk een woord is in een tekst. Woorden zoals ‘de’ of ‘het’ worden er uitgefilterd, omdat ze ook vaak voorkomen in andere teksten.

Een voorbeeld. Stel dat je een corpus hebt van allerlei krantenartikelen en één specifiek artikel over Amerika. Door middel van TF-IDF kan je er achter komen dat het woord ‘Obama’ erg belangrijk is in dat artikel. Het komt namelijk veel vaker voor in die tekst dan in alle andere krantenartikelen die als vergelijking dienen. Dat is dus in het kort hoe de formule werkt.

Nu klinkt dat leuk en aardig, maar wat heeft dat te maken met search?

TF-IDF wordt met name gebruikt door zoekmachines. De berekening, die is ontstaan in de jaren 70 en 80, speelt een belangrijke rol in bijvoorbeeld Google en Yandex. Door het incorporeren van TF-IDF kan de zoekmachine er beter achter komen waar een tekst over gaat. Als je als gebruiker zoekt naar ‘bank’, verwacht je dan resultaten met de geldinstelling of een zitbank? Door middel van TF-IDF kan de zoekmachine kijken naar woorden die vaak in combinatie met andere termen voorkomen in een artikel, en zo er achter komen waar het artikel over gaat: de geldinstelling of de zitbank.

TF-IDF wordt dus al langer gebruikt in zoekmachines, maar nog weinig door de gemiddelde webmaster. En dat is zonde. Zo kan TF-IDF dienen als inspiratie voor sleutelwoorden. Net als de AdWords Keyword Planner, kan je met TF-IDF woorden vinden die gerelateerd zijn aan het woord dat je invoert. Op deze manier krijg je suggesties van sleutelwoorden die je kan gebruiken om een tekst uniek te maken, wat een positief effect heeft op je search ranking.

Zo zou je een analyse kunnen uitvoeren van sleutelwoorden die op jouw website moeten voorkomen. Dit kan door concurrerende websites te indexeren als corpus. Neem een webshop in geluidsapparatuur. Door gebruik te maken van TF-IDF komt de eigenaar van de webshop er achter dat de meeste concurrenten naast het woord ‘geluidsapparatuur’ vaak het woord ‘luidsprekers’ gebruiken.

SEO techniek voor tekst optimalisatie

Nu weet deze eigenaar dat hij hier een aanpassing moet maken, aangezien het woord ‘luidsprekers’ niet vaak voorkomt op zijn website. Op deze manier kan TF-IDF erg nuttig zijn.

Dan blijven er nog twee vragen onbeantwoord.

Hoe ga je aan de slag, en waarom hebben wij hier niet eerder van gehoord?

n van de nadelen van TF-IDF is dat het niet gemakkelijk zelf te berekenen is. In dat geval moet je zelf je corpus opstellen, en aan de slag gaan met de bijbehorende wiskunde (bekijk de Wikipediapagina maar eens). Je hebt er dus een online tool voor nodig. Een van de weinige beschikbare tools is de website-analyse van OnPage.org, van de Duitse search deskundige Marcus Tandler.

Dit is dan ook één van de redenen dat deze formule nog niet wijdverspreid is in het SEO-vak. Zonder online tool kom je niet ver, en er lijken tot nu toe nog weinig websites te zijn die deze dienst aanbieden. Daarnaast geeft Tandler in een podcast aan dat sommigen het te oud vinden. Het is niet relevant meer voor het SEO van vandaag. Onze Duitse buren zien dat duidelijk anders en terecht. TF-IDF kan echt een extra hulp zijn in het verbeteren van je online vindbaarheid. Of het nu al honderd jaar bestaat of niet.

Dit neemt niet weg dat er ook nadelen aan TF-IDF zitten. Een tekst wordt bijvoorbeeld gezien als een groep woorden zonder volgorde of structuur. Dit betekent dat bijvoorbeeld een website in een corpus wordt geïndexeerd als gehele website. Alle woorden op die website, inclusief menu, contactinformatie, en meer, zullen worden gebruikt als referentie. Dit kan je resultaten scheeftrekken.

Misschien een goed idee dus om het zelf eens uit te proberen, wat kan met de freemium OnPage.org tool. Er zitten wat haken en ogen aan, maar het is zonde dat de formule zo onbekend is; websitebeheerders en anderen kunnen hier zeker gebruik van maken. Maar of het ook zo’n succes in Nederland wordt valt te bezien. Hopelijk komen er meerdere tools op de markt, want anders zijn we aangewezen op OnPage, en zal de hype niet snel de landsgrenzen oversteken.