Google hat einen Forschungsbericht veröffentlicht, in dem beschrieben wird, wie „angebotene Dienstleistungen“ aus lokalen Unternehmenswebsites extrahiert und zu Unternehmensprofilen in Google Maps und der Google-Suche hinzugefügt werden. Der Algorithmus beschreibt spezifische Relevanzfaktoren und bestätigt, dass das Google Local Search System seit einem Jahr erfolgreich im Einsatz ist. Erfahre in diesem Bericht worum es geht und was die konkreten Handlungsempfehlungen für kleine und mittlere Unternehmen sind.
Forschungsbericht von Google Local Search zur Extraktion von Geschäftstypen
Besonders interessant an dieser Forschungsarbeit ist, dass einer der Autoren Marc Najork ist, ein renommierter Wissenschaftler bei Google, der an vielen Meilensteinen in den Bereichen Informationsgewinnung, natürliche Sprachverarbeitung und künstliche Intelligenz beteiligt war.
Das Ziel dieses Systems ist es, Nutzern die Suche nach lokalen Unternehmen zu erleichtern, die die von ihnen gesuchten Dienstleistungen anbieten. Die Arbeit wurde 2024 veröffentlicht (laut Internet Archive) und ist auf 2023 datiert.
In der Forschungsarbeit heisst es:
„… um den Aufwand für die Nutzer zu reduzieren, haben wir eine Pipeline entwickelt und eingesetzt, die automatisch die Jobtypen aus Unternehmenswebsites extrahiert. Wenn beispielsweise auf der Website eines Klempnerbetriebs steht: „Wir bieten Toiletteninstallation und Wasserhahnreparatur an“, gibt unsere Pipeline „Toiletteninstallation“ und „Wasserhahnreparatur“ als Jobtypen für dieses Unternehmen aus.“
Das System nutzt BERT
Google hat das BERT-Sprachmodell verwendet, um zu klassifizieren, ob aus Unternehmenswebsites extrahierte Phrasen tatsächliche Jobtypen beschreiben. BERT wurde anhand von gekennzeichneten Beispielen feinabgestimmt und mit zusätzlichen Kontextinformationen wie Website-Struktur, URL-Mustern und Unternehmenskategorie versehen, um die Genauigkeit zu verbessern, ohne die Skalierbarkeit zu beeinträchtigen.
Entwicklung eines lokalen Suchsystems
Der erste Schritt zur Erstellung eines Systems zum Crawlen und Extrahieren von Jobtyp-Infos war die Erstellung von Trainingsdaten von Grund auf. Es wurden Milliarden von Homepages ausgewählt, die in Google-Unternehmensprofilen aufgeführt sind, und Jobtyp-Infos aus Tabellen und formatierten Listen auf Homepages oder Seiten extrahiert, die nur einen Klick von den Homepages entfernt waren. Diese Jobtyp-Daten wurden zum Ausgangssatz der Jobtypen.
Die extrahierten Jobtyp-Daten wurden als Suchanfragen verwendet und durch Sucherweiterungen (Synonyme) ergänzt, um die Liste der Jobtypen um alle möglichen Variationen von Jobtyp-Schlüsselwortphrasen zu erweitern.
Zweiter Schritt: Behebung eines Relevanzproblems
Die Forscher von Google haben ihr System auf Milliarden von Seiten angewendet, aber es hat nicht wie geplant funktioniert, weil viele Seiten Jobtyp-Phrasen enthielten, die nicht die angebotenen Dienstleistungen beschrieben.
In der Forschungsarbeit heisst es dazu:
„Wir haben festgestellt, dass viele Seiten Jobtyp-Bezeichnungen für andere Zwecke verwenden, zum Beispiel als Life-Tipps. Eine Webseite, die Lesern zeigt, wie sie mit Bettwanzen umgehen sollen, könnte zum Beispiel einen Satz enthalten wie: „Eine Lösung ist, einen Reinigungsdienst zu rufen, wenn du Bettwanzen in deiner Wohnung findest. Diese bieten normalerweise Dienstleistungen wie Bettwanzenbekämpfung an.“ Obwohl diese Seite mehrere Jobtyp-Bezeichnungen enthält, wird sie nicht von einem Reinigungsdienst bereitgestellt.“
Die Beschränkung des Crawlings und der Indizierung auf die Identifizierung von Schlüsselwortphrasen für Jobtypen führte zu falschen Ergebnissen. Die Lösung bestand darin, Sätze einzufügen, die die Schlüsselwortphrasen umgaben, damit der Kontext der Schlüsselwortphrasen für Jobtypen besser verstanden werden konnte.
Der Erfolg der Verwendung von umgebendem Text wird erklärt:
„Wie in Tabelle 2 gezeigt, schneidet JobModelSurround deutlich besser ab als JobModel, was darauf hindeutet, dass die umgebenden Wörter tatsächlich die Absicht der Erwähnungen der Jobtypen erklären könnten. Dies verbessert erfolgreich das semantische Verständnis, ohne den gesamten Text jeder Seite zu verarbeiten, wodurch unsere Modelle effizient bleiben.“
SEO-Einblick
Der beschriebene lokale Suchalgorithmus schliesst absichtlich alle Informationen auf der Seite aus und konzentriert sich auf Jobtyp-Schlüsselwortphrasen und umgebende Wörter und Phrasen um diese Schlüsselwörter herum. Dies zeigt, wie wichtig die Wörter um wichtige Schlüsselwortphrasen herum sind, um Kontext für die Schlüsselwortphrasen zu liefern und es den Crawlern von Google Local Search zu erleichtern, den Inhalt der Seite zu verstehen, ohne die gesamte Webseite verarbeiten zu müssen.
Eine weitere Erkenntnis ist, dass Google nicht die gesamte Webseite indexiert, um Schlüsselwortphrasen für Jobtypen zu identifizieren. Der Algorithmus sucht nach der Schlüsselwortphrase und den umgebenden Schlüsselwortphrasen.
SEO Insight
Das Konzept, nur einen Teil einer Seite zu analysieren, ähnelt Googles „Centerpiece Annotation”, bei dem ein Abschnitt des Inhalts als Hauptthema der Seite identifiziert wird. Ich sage nicht, dass diese beiden Konzepte miteinander zusammenhängen. Ich weise lediglich auf eine von vielen Funktionen hin, bei denen ein Google-Algorithmus sich auf einen bestimmten Abschnitt einer Seite konzentriert.
Das Extraktionssystem lässt sich auf andere Kontexte übertragen
Eine interessante Erkenntnis aus der Forschungsarbeit ist, dass das entwickelte System auch in anderen Bereichen (Domänen) als lokalen Unternehmen eingesetzt werden kann, z. B. zur „Suche nach Fachwissen sowie zur Extraktion von rechtlichen und medizinischen Informationen“.
Sie schreiben
„Die Erkenntnisse, die wir bei der Entwicklung der gross angelegten Extraktionspipeline von Grund auf gewonnen haben, lassen sich auf andere Aufgaben der Informationsextraktion oder des maschinellen Lernens übertragen. Sie finden direkte Anwendung bei domänenspezifischen Extraktionsaufgaben, wie beispielsweise der Suche nach Fachwissen oder der Extraktion von rechtlichen und medizinischen Informationen.
Die drei wichtigsten Erkenntnisse sind:
(1) Die Nutzung von Dateneigenschaften wie strukturierten Inhalten könnte das Kaltstartproblem bei der Datenannotation verringern.
(2) Die Formulierung der Aufgabe als Abrufproblem könnte Forschern und Praktikern helfen, mit großen Datensätzen umzugehen.
(3) Die Kontextinformationen könnten die Modellqualität verbessern, ohne die Skalierbarkeit zu beeinträchtigen.”
Jobtyp-Extraktion ist ein Erfolg
Die Forschungsarbeit besagt, dass ihr System ein Erfolg ist, eine hohe Präzision (Genauigkeit) aufweist und skalierbar ist. Die Forschungsarbeit besagt, dass es bereits seit einem Jahr im Einsatz ist. Die Forschung ist auf das Jahr 2023 datiert, aber laut dem Internetarchiv (Wayback Machine) wurde sie irgendwann im Juli 2024 veröffentlicht.
Die Forscher schreiben:
„Unsere Pipeline wird regelmässig ausgeführt, um die extrahierten Inhalte auf dem neuesten Stand zu halten. Sie ist aktuell in der Produktion und die Jobtypen werden Millionen von Google-Such- und Maps-Nutzern angezeigt.”
Zusammenfassung
- Googles Algorithmus, der Jobtypen aus Webseiten extrahiert
- Google Local Search hat einen Algorithmus entwickelt, der „Jobtypen” (also angebotene Dienstleistungen) aus Unternehmenswebseiten extrahiert, um sie in Google Maps und der Suche anzuzeigen.
- Pipeline extrahiert aus unstrukturierten Inhalten
- Anstatt sich auf strukturierte HTML-Elemente zu verlassen, liest der Algorithmus Freitextinhalte und ist somit auch dann effektiv, wenn Dienstleistungen in Absätzen versteckt sind.
- Kontextuelle Relevanz ist wichtig
- Das System wertet umgebende Wörter aus, um zu bestätigen, dass dienstleistungsbezogene Begriffe tatsächlich für das Unternehmen relevant sind, wodurch die Genauigkeit verbessert wird.
- Potenzial zur Modellverallgemeinerung
- Der Ansatz kann auf andere Bereiche wie die Extraktion von rechtlichen oder medizinischen Informationen angewendet werden und zeigt, wie er auf andere Arten von Wissen übertragen werden kann.
- Hohe Genauigkeit und Skalierbarkeit
- Das System ist seit über einem Jahr im Einsatz und liefert skalierbare, hochpräzise Ergebnisse für Milliarden von Webseiten.
Google hat eine Forschungsarbeit über einen Algorithmus veröffentlicht, der automatisch Dienstleistungsbeschreibungen aus lokalen Unternehmenswebsites extrahiert, indem er Schlüsselwortphrasen und ihren Kontext analysiert, wodurch genauere und aktuellere Einträge in Google Maps und der Suche ermöglicht werden. Diese Technik vermeidet die Abhängigkeit von der HTML-Struktur und kann für andere Branchen angepasst werden, in denen Informationen aus unstrukturierten Texten extrahiert werden müssen.
Bedeutung der neuen Google-Algorithmen für lokale Unternehmen
Googles neues System extrahiert automatisch die angebotenen Dienstleistungen („job types“) von lokalen Unternehmenswebseiten, um diese Informationen in Google Maps und der lokalen Suche anzuzeigen. Der Algorithmus nutzt dabei Künstliche Intelligenz (BERT), analysiert aber nicht die gesamte Webseite, sondern konzentriert sich gezielt auf relevante Schlüsselbegriffe und deren unmittelbaren Kontext im Text. Das Ziel: Nutzer sollen schneller und präziser passende Anbieter finden, weil die tatsächlich angebotenen Leistungen besser erkannt und ausgespielt werden.
Das bedeutet für lokale Unternehmen:
-
Die Sichtbarkeit in Google Maps und der lokalen Suche hängt zunehmend davon ab, wie klar und kontextbezogen die eigenen Dienstleistungen auf der Website beschrieben sind.
-
Google verlässt sich weniger auf strukturierte Daten (wie spezielle HTML-Tags) und mehr auf frei formulierte Textpassagen, in denen Leistungen genannt werden.
-
Die Algorithmen achten besonders darauf, dass die genannten Leistungen tatsächlich vom Unternehmen angeboten werden – und nicht nur allgemein erwähnt sind (z.B. in Ratgebern oder Blogposts).
Direkte Handlungsempfehlungen für lokale Unternehmen
1. Klare und präzise Leistungsbeschreibungen auf der Website
-
Beschreibe alle angebotenen Dienstleistungen explizit, am besten in eigenen Absätzen oder Listen auf der Startseite oder den wichtigsten Unterseiten.
-
Vermeide vage Formulierungen – nenne konkrete Leistungen („Toiletteninstallation und Wasserhahnreparatur“ statt nur „Sanitärarbeiten“).
2. Kontext schaffen
-
Stelle sicher, dass die umgebenden Sätze klar machen, dass dein Unternehmen diese Leistungen anbietet („Wir bieten … an“, „Unser Service umfasst …“).
-
Vermeide es, Dienstleistungen nur in allgemeinen Tipps oder Blogartikeln zu erwähnen, ohne klaren Bezug zum eigenen Angebot.
3. Strukturierte, aber auch freie Texte nutzen
-
Auch wenn strukturierte Daten weiterhin sinnvoll sind, sollte der Fokus auf gut lesbaren, frei formulierten Texten liegen, in denen die Leistungen genannt werden.
4. Google Business Profile aktuell halten
-
Ergänze und aktualisiere die angebotenen Dienstleistungen regelmäßig auch im Google Business Profile, da diese Daten eng mit den Website-Informationen verknüpft werden.
5. Regelmässige Überprüfung und Anpassung
-
Prüfe regelmässig, ob alle wichtigen Leistungen auf der Website und im Google Business Profile genannt und aktuell sind.
-
Passe die Texte ggf. an, wenn sich das Angebot oder die Nachfrage verändert.
6. Nutzerfreundliche Website-Struktur
-
Halte die wichtigsten Leistungsbeschreibungen maximal einen Klick von der Startseite entfernt, damit sie vom Algorithmus leichter gefunden werden1.
Fazit:
Lokale Unternehmen sollten ihre Webseiten darauf optimieren, dass angebotene Leistungen klar, präzise und im richtigen Kontext genannt werden. So erhöht sich die Chance, in der lokalen Google Local Search und auf Google Maps mit den richtigen Dienstleistungen gefunden zu werden – und damit die Sichtbarkeit sowie die Kundengewinnung spürbar zu steiger
Die Zusammenfassung der Forschungsarbeit und die PDF-Version kannst du hier herunterladen:
Job Type Extraction for Service Businesses