Wir haben Tests durchgeführt, automatische Branchenklassifikationen nach Wirtschaftszweigen (WZ 2003/2008) bzw. NACE (Nomenclature statistique des activités économiques dans la Communauté européenne) auf Basis öffentlicher Selbstbeschreibungen von Firmen vorzunehmen. Unsere Annahme ist, dass die Firmenwebpräsenzen innerhalb einer Branche ähnliche Begriffe aufweisen und man später unbekannte Firmen aufgrund ihrer ähnlichen Beschreibung einer oder mehreren Branchen automatisch zuordnen kann. Unklar ist bislang, welche Begriffe für eine Branchenzuordnung ausschlaggebend sind.

In dem Buch von Christopher D. Manning, Prabhakar Raghavan und Hinrich Schütze wird beschrieben, wie man den Informationsgehalt von Begriffen berechnet, um Klassen voneinander gut abgrenzen zu können. Die Klassen sind in unserem Fall die Branchen und die Begriffe sind alle Wörter, die sich aus den einzelnen Firmenwebpräsenzen herausfiltern lassen. Häufige Wörter wie „der, die, das, und, er usw.“ werden von diesem Ansatz als wenig abgrenzend bewertet (niedriger Score) und Begriffe wie Kaltfliesspressteile, Rohtabak oder pulvermetallurgischen höher bewertet (hoher Score).

Im Detail sieht das für drei exemplarische Branchen nach WZ 2003 so aus:

Branche: Ernährungsgewerbe

001. 0,0167030 leckere
002. 0,0163800 zutaten
003. 0,0157303 geschmack
004. 0,0152514 rezepte
005. 0,0149070 spezialitäten
006. 0,0141082 wurst
007. 0,0138228 aprikosen
008. 0,0138228 hefe
009. 0,0134308 inhaltsstoffe
010. 0,0132752 schinken
011. 0,0132752 fettsäuren
012. 0,0132752 mandeln
013. 0,0131221 getraenke
014. 0,0131221 schlachtung
015. 0,0131221 walnüsse
016. 0,0131221 durstlöscher
017. 0,0131221 glasflasche
018. 0,0131221 geschmacklich
019. 0,0131221 maracuja
020. 0,0123445 vitaminen

Branche: Verlagsgewerbe, Druckgewerbe, Vervielfältigung von bespielten Ton-, Bild- und Datenträgern

001. 0,0299083 offsetdruck
002. 0,0265665 druckvorstufe
003. 0,0248398 digitaldruck
004. 0,0225159 druckerei
005. 0,0210515 druckindustrie
006. 0,0201732 kleinauflagen
007. 0,0191415 verlag
008. 0,0184550 falzen
009. 0,0183902 druckprodukte
010. 0,0183902 perforieren
011. 0,0183902 offsetdruckerei
012. 0,0171418 mediadaten
013. 0,0169352 druckverfahren
014. 0,0169352 vorhergehenden
015. 0,0168219 stanzungen
016. 0,0168219 freehand
017. 0,0164834 exemplare
018. 0,0162947 auflagen
019. 0,0161550 illustrator
020. 0,0161550 indesign

Branche: Herstellung von Metallerzeugnissen
001. 0,0401622 metallbau
002. 0,0202955 vordächer
003. 0,0152999 geländer
004. 0,0145063 schweissen
005. 0,0129756 cnc
006. 0,0126539 sondermaschinen
007. 0,0120290 überzüge
008. 0,0117767 edelstahl
009. 0,0117056 stahl
010. 0,0112361 fertigungsprogramm
011. 0,0112361 brandschutztüren
012. 0,0112361 handläufen
013. 0,0111862 maschinen
014. 0,0110676 werkzeugbau
015. 0,0110676 kleinserien
016. 0,0107301 stahlbau
017. 0,0104817 wärmebehandlung
018. 0,0104447 aluminium
019. 0,0099760 löten
020. 0,0099760 sonderwerkzeuge

Die Listen sind aus Gründen der Übersichtlichkeit ab Eintrag 20 abgeschnitten. Es zeigt sich für den Menschen jedoch, dass jede dieser Branchen bestimmte Begrifflichkeiten aufweist, die charakteristisch sind. Ein Analyseverfahren kann nun darauf trainiert werden, die Häufigkeit der Begriffe einer neuen Firmenwebpräsenz mit allen analysierten Branchen abzugleichen und Vorschläge zur Branchenklassifikation nach NACE oder WZ 2003 bzw. 2008 zu machen.

Auf diese Weise können wir eine automatische Branchenklassifikation auf Basis von Text einsetzen, die das (Nach-)Pflegen unserer großen Datenbasis über Firmen enorm erleichtert.

Facebooktwittergoogle_plus