SkillExtract

SkillExtract

Ziel des Projektes war die Identifikation von Skills und deren Beziehungen zueinander aus unstrukturierten Textdaten.

Projektbeschreibung

Die Firma Lyncronize wurde 2014 als smarTransfer GmbH gegründet und versteht sich als Technologieanbieter im Bereich Data Science und People Data. Mit der gleichnamigen Plattform (www.lyncronize.com) bietet Lyncronize ein Portal zur Besetzung von Digitalisierungsbedarfen durch KMU und Freelancer, das sich durch einen hohen Grad an Automatisierung, Transparenz und Datenschutz auszeichnet. Das Fachgebiet Wirtschaftsinformatik an der Universität Kassel (Prof. Dr. Jan Marco Leimeister) zeichnet sich u.a. aus durch Anwendungsnähe, Gestaltungsorientierung und Integration ökonomischer, technischer und sozialer Aspekte. Der Lehrstuhl forscht intensiv über Gestaltung, Einführung und Management von IT-gestützten Organisationsformen und Innovationen. Des Weiteren ist auch das Forschungsfeld rund um Machine Learning und Hybride Intelligenz ein Schwerpunkt des Fachbereichs. Hierbei befasst sich das Fachgebiet hauptsächlich mit der Frage, wie die komplementären Stärken von menschlicher Intelligenz und künstlicher Intelligenz genutzt werden können, um ein System zu entwickeln, welches komplexe Lernprozesse meistern kann.

Mitarbeiter-Skills sind die wichtigste Ressource von Unternehmen. Entsprechend wichtig sind aussagekräftige Skill-Profile auf Projektplattformen oder in Expertensuchsystemen. Diese greifen oft auf Verschlagwortungen ("Tags") zurück, die wiederum auf einer Ontologie basieren, d.h. einem hierarchisch gegliederten Begriffssystem. Im Projekt SkillExtract wurde ein Algorithmus entwickelt, der hilft, Ontologien für fachliche Skills automatisiert zu erstellen und zu pflegen. Hierzu wurden zunächst Datenquellen erschlossen, bspw. das Forum Stackoverflow, und durch klassische NLP-Verfahren wie Part-of-Speech Tagging vorverarbeitet. Mögliche Fachbegriffe werden anschließend extrahiert und in Vektoren überführt. Zusammenhänge zwischen Begriffen werden auf zwei Weisen identifiziert: 1. Über sprachliche Muster, sogenannte Hearst Patterns. Dabei handelt es sich bspw. um Formulierungen wie "I used Keras to build the deep learning model". 2. Über Wortvektoren und deren Ähnlichkeiten. Über Experteninput und die besagten Hearst Patterns wird die Ontologie initial befüllt. Anschließend kann sie durch weitere Durchläufe über die genannten Methoden immer mehr erweitert und um zusätzliche Beziehungen ergänzt werden.

Anwendungsbereich waren Expertise-Profile im IT- und Tech-Bereich. In diesem Bereich ändern sich eingesetzte Technologien und Frameworks ständig. Um auf online Portalen oder auch unternehmensintern geeignete Kandidat:innen zu identifizieren, sind genaue und aktuelle Profile unabdingbar. Die Erstellung und Pflege von Ontologien ist eine entsprechend zeitraubende Arbeit. Mit Hilfe des Algorithmus wurde eine mehrere Tausend Skills umfassende Ontologie in deutscher und englischer Sprache und inkl. Synonymen erstellt und kontinuierlich erweitert. Diese Ontologie kann zusammen mit entsprechenden NLP-Verfahren zudem genutzt werden, um aus Textdaten - bspw. Präsentationen oder Einträgen auf IT-Foren - unmittelbar Profilvorschläge zu erstellen und damit die Expertise von Personen besser auffindbar zu machen. Die Ontologie und erstellten Verfahren kommen im Produkt Lyncronize zum Einsatz, einer Plattform, auf der Tech-Projekte und passende Profile gematcht werden.

Fördermittelgeber

Hessisches Ministerium für Wissenschaft und Kunst
LOEWE Logo HMWK