Also known as tokenisation
in der Computerlinguistik die Segmentierung eines Textes in Einheiten der Wortebene
Tokenisierung bezeichnet in der Computerlinguistik die Segmentierung eines Textes in Einheiten der Wortebene (manchmal auch Sätze, Absätze o. Ä.). Die Tokenisierung des Textes ist Voraussetzung für dessen Weiterverarbeitung, beispielsweise zur syntaktischen Analyse durch Parser, im Textmining oder Information Retrieval. In der Informatik bezeichnet der Begriff analog die Zerlegung eines in einer Programmiersprache verfassten Computerprogrammes in kleinste Einheiten, siehe Token (Übersetzerbau) und Tokenbasierte Kompression. Außerdem wird mit Tokenisierung im Finanzwesen auch der Trend zur Abschaffung des Trägermediums Papier-Urkunde durch digitale Daten bezeichnet.
Abstract from DBpedia / Wikipedia · CC BY-SA
Discovered by embedding cosine similarity (sentence-transformers MiniLM, 384-dim).