Latent Semantische Indexierung (LSI)

Bei LSI handelt es sich um einen Vorgang der Mustererkennung innerhalb von und zwischen Texten. Dieser Vorgang bedient sich der mathematischen Methode der Singulärwertzerlegung, bei der eine Matrix als Produkt dreier besonderer Matrizen dargestellt wird. Mit Hilfe dieser Methodik sollen Beziehungen zwischen Textmustern und Konzepten innerhalb der Texte erkannt werden. Terme, die in ähnlichen Kontexten vorkommen, lassen dabei Rückschlüsse auf Konzepte der jeweiligen Kontexte zu.

Im konkreten Bezug auf Suchmaschinen bedeutet das, dass mit LSI eine Themenverwandtschaft von Dokumenten auch dann erkannt werden kann, wenn bestimmte Begriffe gar nicht vorhanden sind. Alleine das Vorhandensein von bestimmten Termen in Texten lässt dann erkennen, ob ein Dokument zu einem bestimmten Thema passt. Dies stellt einen Fortschritt zu früheren Ansätzen der Relevanzbewertung zu, die noch auf konkrete und genau passende Keywords angewiesen waren.