Numberland - New Processes, New Materials

GermanAfrikaansArabicBelarusianBulgarianChinese (Simplified)CzechDanishDutchEnglishEstonianFilipinoFinnishFrenchGreekHebrewHindiHungarianIndonesianItalianJapaneseKoreanLatvianLithuanianMalayNorwegianPersianPolishPortugueseRussianSlovakSpanishSwedishThaiTurkishVietnamese
  • Wer wir sind

    Wir sind - seit 1996 - als Ingenieurbüro auf dem Werkstoffsektor aktiv. Dabei verbinden wir Themen wie Innovations- Wissens- und Technologiemanagement mit sehr guten Kontakten zu Wissenschaft und Wirtschaft ...
    +Read More
  • Your man in Germany

                Your man in Germany Need a partner in Germany to get in contact with German institutions or companies? Are you tired of long distance phone calls or expensive trips from abroad with no or little results? Read more ...
    +Read More
  • Neue Werkstoffe

    Wir übersetzen technische Anforderungen in physikalische Effekte oder Eigenschaften, und finden dann den dazu passenden Werkstoff ... We translate technical demands intophysical effects or properties, andthen find the suitable material ...    
    +Read More
  • Neue Prozesse

    Wir analysieren, optimieren und dokumentieren Prozesse, die oft nicht im QM-Handbuch stehen,und bringen ihnen das Laufen bei ... We analyse, optimize and document processesoften not covered by quality management handbooks, and teach them to run ...
    +Read More
  • Leistungen

    Wir finden neue Werkstoffe, Bauteile, Herstellungs- und Analytikverfahren, Projektpartner, Entwickler oder Forschungseinrichtungen, Know-how oder Geräte, etc. Damit all diese neuen Erkenntnisse dann bei Ihnen auch effektiv eingesetzt werden können, helfen wir Ihnen, Ihr Wissen besser zu erfassen, Prozesse zu optimieren, F&E-Projekte durchzuführen, technische Angebote zu beurteilen oder Lastenhefte zu erstellen.  
    +Read More
  • 1
  • 2
  • 3
  • 4
  • 5

NumberlandTechnologyNews available in English und auf Deutsch

Publish Offers and Requests for free

This month offers and requests from the materials sector

We publish your materials conference

State of the Art over Night / Über Nacht zum Stand der Technik

Über Nacht zum Stand der Technik

 State of the Art over Night / Über Nacht zum Stand der Technik

 

English

Deutsch

By combining the text mining methods clustering, summarization, association (=correlations) and visualization  to open best possible the content of patents, publications, books or other documents we succeed in analysing and visualising YOUR state of the art.

Stress with technical or strategic projects like product development or R&D ventures comes up again and again - especially at the beginning - because too much time is required to acquire state of the art from books, publications or patents. Although this task has an outstanding importance, it often is time consuming and annoying, notably when orientation is neccessary and new topics have to be trained.

In situations like that we are able to adopt the steps find, screen, sort and file, so that you can fully concentrate on understand and decide.

To be able to do this, Numberland has own search engines and technologies to provide large document collections, analyse them with respect of thematic key aspects and coherence and sort dinamically. In this way the structure of the document collection easily fits to the viewpoint you just have.

We are able to find temporal dependencies as well as dependencies regarding content, thematic core areas and even topics whose´s existence you are not aware of (and therefore are not able to search for ...).

Wir kombinieren die Text Mining Verfahren Clustern, Zusammenfassen, Assoziieren (=Korrelationen) und Visualisieren, um den Inhalt von Patenten, technisch-wissenschaftlichen Publkationen, Büchern oder internen Dokumenten bestmöglich zu erschließen und so IHREN Stand von Wissenschaft und Technik zu erfassen und darzustellen.

Immer wieder gibt es - besonders am Anfang – Stress in technischen oder strategischen Projekten (Produktentwicklung, geförderte Forschungsvorhaben, etc.), weil zu viel Zeit dafür benötigt wird, den aktuellen Stand der Technik aus Büchern, technisch-wissenschaftlich Publikationen oder Patenten zusammen zu tragen.Obwohl diese Aufgabe sehr wichtig ist, ist sie doch ausgesprochen lästig und zeitraubend, besonders dann, wenn es darum geht, sich in neue Themen einzuarbeiten und eine Orientierung zu bekommen.

Wir nehmen Ihnen die Schritte Beschaffen, Sichten, Sortieren und Ablegen ab, so dass Sie sich ganz auf das Verstehen und Entscheiden konzentrieren können.

Numberland verfügt neben eigenen Suchmaschinen auch über Technologien, mit deren Hilfe auch sehr umfangreiche Kollektionen von elektronischen Dokumenten beschafft, hinsichtlich inhaltlicher Schwerpunkte und Zusammenhänge analysiert und dynamisch sortiert werden können, so dass die Struktur sich automatisch an den Blickwinkel anpasst, unter dem Sie das Thema gerade sehen.

Wir finden zeitliche und inhaltliche Abhängigkeiten, thematische Schwerpunkte und sogar die Themen, von deren Existenz Sie bisher nichts wussten (und deswegen auch nicht suchen konnten).

 

 

Possible applications are manifold; exemplary samples are as follows:

  • We produce product "ABC"; do we already consider all possible markets?
  • Who acts in which position on which market (especially interesting for R&D-institutions wondering about who might be interested of their new material, part, manufacturing - or analytical process)?
  • Which patent - suitable for our business model - already became freely available?
  • We want to start a R&D-project on topic "XYZ"; what is the state of the art?
  • TRIZ (or TIPS): which solutions already exist for a certain problem?
  • Technology roadmapping:
  • SWOT-analysis to assist positioning and strategy development
  • Competitive advantege (five forces of M. E. Porter)
  • Portfolio analysis
  • Business plans

 

What we can do for you:

  • acquire scientific publications concerning your topics
  • acquire EU- and US-patents related to your search terms
  • consider documents you already have available
  • analyse all documents in connection and determine variations in time, content related core areas and relationship
  • find key aspects you are not aware of up to now (and are therefore not able to search for)
  • deliver all analysis together with the original documents ans a full text index
Please have a look at the showcase of analysis included in this article consisting of a stock of about 2000 patents. Please understand every analysis as an example which can be varied to adopt at your specific situation.

Interested? Diese E-Mail-Adresse ist vor Spambots geschützt! Zur Anzeige muss JavaScript eingeschaltet sein!

Entsprechend vielfältig sind die Anwendungsszenarien; exemplarische Beispiele dafür sind:

  • Wir stellen „ABC“ her: haben wir bereits alle Märkte berücksichtigt?
  • Wer ist in welcher Situation auf welchem Markt tätig (für Forschungseinrichtungen sehr interessant, die sich Gedanken darüber machen, wer ihr neu entwickeltes Material, Bauteil, Herstellungs- oder Analytikverfahren wohl brauchen könnte)?
  • Welches Patent, das zu meinem Geschäftsmodell passt, ist in der Zwischenzeit frei geworden?
  • Wir möchten ein F&E-Vorhaben zum Thema „XYZ“ beginnen; wie ist der Stand von Forschung und Technik?
  • TRIZ: welche Lösungen existieren bereits für ein bestimmtes Problem (bitte lesen Sie dazu auch unseren Artikel "Grammatikkenntnisse für die Produktentwicklung". Im Prinzip kombiniert man bestimmte Adjektive und/oder Verben, z. B. das Verb "absorbieren", mit Suchbegriffen über Werkstoffe oder Anwendungen um herauszufinden, welche Varianten dazu bereits existieren.
  • Technologieroadmapping: wohin wollen wir uns entwickeln, in welchen Schritten gehen wir vor, und welche Technologien werden dazu wann benötigt?
  • SWOT-Analyse: die SWOT-Analyse (engl. Akronym für Strengths (Stärken), Weaknesses (Schwächen), Opportunities (Chancen) und Threats (Gefahren)) ist ein Instrument der Strategischen Planung; sie dient der Positionsbestimmung und der Strategieentwicklung von Unternehmen und anderen Organisationen.
  • Branchenstrukturanalyse nach dem Fünf-Kräfte-Modell von Michael Porter: wer sind meine Wettbewerber, was machen meine Kunden, meine Zulieferer, gibt es potentielle Mitbewerber oder Ersatzprodukte?
  • Portfolioanalysen
  • Untersuchungen zur Marktpositionierung
  • Zielgruppenanalysen
  • Businesspläne

 

Das übernehmen wir für Sie:

  • Wir beschaffen technisch-wissenschaftliche Publikationen nach Ihren Stichworten in elektronischer Form,
  • Wir beschaffen US- und EU-Patente in elektronischer Form nach Ihren Stichworten,
  • Wir berücksichtigen bei Ihnen bereits vorhandene elektronische Dokumente,
  • Wir analysieren die alle Texte im Zusammenhang und bestimmen Zeitverläufe, inhaltliche Schwerpunkte oder Zusammenhänge
  • Wir finden auf Wunsch Themenkomplexe, deren Existenz Ihnen nicht bekannt ist, so dass Sie sie nicht suchen können
  • Wir liefern alle bestellten Analysen zusammen mit den Originaldokumenten und einem Volltextindex incl. Suchmaske

Exemplarische Analysen für eine Kollektion von ca. 2000 Patenten haben wir Ihnen im folgenden Teil des Artikels zusammen gestellt. Alle Auswertungen sind als Beispiel zu verstehen, und können nahezu beliebig an Ihre Situation angepasst werden.

Interessiert? Diese E-Mail-Adresse ist vor Spambots geschützt! Zur Anzeige muss JavaScript eingeschaltet sein!

 


 

Everything starts with an electronic document (book, publication or patent), or - to tell the truth - with a collection of such documents, gathered with search terms provided by you.Alles fängt mit einem elektronischen Dokument an (Buch, Publikation oder Patent), besser gesagt mit einer ganzen Kollektion solcher Dokumente, die nach von Ihnen vorgegebenen Stichworten gesammelt, oder aus Ihrem Bestand übernommen wurden.

 

DocumentAnalysis-01

 

Figure 1: A single document, i. e., a patentBild 1: Ein einzelnes Dokument, z. B. ein Patent

 

Possible document sources are:

  • your organisation,
  • Universities and R&D-institutions worldwide (Numberland  posesses own search engines constantly searching about 16.000 universities and research institutions worldwide)
  • Patent offices (EPO and USPTO).

Mögliche Quellen dafür sind z. B.:

  • Sie selbst,
  • Universitäten und Forschungseinrichtungen weltweit (Numberland verfügt über eigene Suchmaschinen, die ständig ca. 16.000 Universitäten und Forschungseinrichtungen durchsuchen)
  • Patentämter (z. B. EU- und US-Patentamt).

 

Possible document types:

  • MS-Office, Libreoffice, .pdf, .txt, .xml,
  • Images (.jpg, .gif, .png, .tif (direkt vom Scanner))
  • Databases (.sql)
  • BIBTEX abstracts (.bib)
  • Websites (.htm, .html, .php)
  • EPO, USPTO

Folgende Dokumentformate sind möglich:

  • MS-Office, Libreoffice, .pdf, .txt, .xml,
  • Bildformate (.jpg, .gif, .png, .tif (direkt vom Scanner))
  • Datenbanken (.sql)
  • Abstracts im BIBTEX-Format (.bib)
  • Webseiten (.htm, .html, .php)
  • Inhalte von Patentdatenbanken (EPO, USPTO)

 


 

If only patents are affected, it is quite easy to prepare lists sorted in differet ways:

  • Who is doing what when?

Wenn es sich bei den Dokumenten nur um Patente handelt, ist es ganz einfach, zuerst einmal Listen mit unterschiedlichen Sortierungen zu erzeugen:

  • Wer macht was wann?

 

DocumentAnalysis-02

 

Figure 2: Patent list, alphabetically sorted by assigneesBild 2: Liste von Patenten, alphabetisch sortiert nach Anmelder

 

  • When anybody is doing what?
  • Wann macht wer was?

 

DocumentAnalysis-03

 

Figure 3: Patents sorted by dateBild 3: Liste von Patenten, sortiert nach Datum

 

It is possible of course, to generate such lists a linked HTML documents which directly connect to basic documents as well as further analysis.

Natürlich ist es auch möglich, solche Listen als verlinkte HTML-Dokumente zu gestalten, die z. B. direkte Verknüpfungen mit dem Basisdokument oder solchen Auswertungen enthalten, wie sie im weiteren Verlauf dargestellt sind.

 

While you are obliged to intend short result lists with classical patent search (remember, you have to read through all of these documents!) collection can consist of many thousand documents in this case. The reason for this is due to the fact that during further handling of documents both a summary view and a detail view to arbitrary facts is possible.

You will get both:

  • market overview (who is active in which part of the business)?
  • what are possible applications (i. e., what is "XYZ" used for in general)?
  • what has already been realised and what has been thought about?
to mention just some.

Anders als z. B. bei einer klassischen Patentrecherche, bei der es darum geht, die Ergebnisliste möglichst klein zu halten (man muss ja schließlich alles lesen), kann die Dokumentkollektion (= der Korpus) einige tausend Dokumente umfassen. Dies ist möglich, weil durch die weitere Verarbeitung sowohl ein Gesamtüberblick, als auch Detailansichten für jeden beliebigen thematischen Schwerpunkt möglich sind.

Man hat also beides: den Überblick

  • über einen Markt (=wer macht was)
  • über denkbare Anwendungsmöglichkeiten (=wofür wird XYZ überhaupt benutzt)
  • über das, was bereits realisiert, und das, was angedacht ist

um nur einige davon zu nennen.

 


 

In the course of further analysis all documents
  • will be separated into single words
  • stop words (=meaningless words) will be removed
  • stemming will be executed
  • relative importance of a word will be computed (for a certain document as well as for the whole collection)
  • as a result a matrix will be build up containing one line for each document and one column for each word. Each cell of the matrix contains a number which is a measure for the importance of the selected word within a certain document
  • Importance of documents as well as importance of words are expressed with numbers so that you are able to calculate with documents and words.

 

Im weiteren Verlauf der Analyse werden alle Dokumente des Korpus

  • automatisch in einzelne Worte zerlegt, wobei
  • bedeutungslose Worte entfernt, und
  • alle Worte auf ihre Stammformen reduziert werden (hinter Automat, automatisch, automatischer, automatisches, etc. steckt immer der selbe Sinn). Anschließend wird für jedes Wort
  • berechnet: wie groß ist die Bedeutung des Wortes sowohl für das einzelne Dokument, als auch für die gesamte Kollektion.
  • Als Ergebnis entsteht eine Matrix, die so viele Zeilen enthält, wie Dokumente im Korpus vorhanden sind, und so viele Spalten (im Korpus) wie Worte besitzt. Jede Zelle der Matrix enthält die Bedeutung eines bestimmten Wortes für ein ausgesuchtes Dokument.
  • Sowohl die Bedeutung der Dokumente, als auch die Bedeutung einzelner Worte wird als Zahl ausgedrückt, so dass man damit rechnen kann.

 

DocumentAnalysis-04

 

Figure 4: Feature matrix of a document collection. There is a line for each document in the collection; first column contains document names (patent number in this case). Beginning with the second column there is a column for each word in the collection (after stop words have been removed, about 3000 words in this case). The matrix cells contain values which are a measure of the relative importance of this word in the document.Bild 4: Eigenschaftsmatrix der Dokumentkollektion. Jede Zeile steht für ein Dokument, der Dokumentname (hier: Patentnummer) steht in der ersten Spalte. Ab der zweiten Spalte folgen so viele Spalten, wie Worte in der Dokumentkollektion enthalten sind, nachdem alle überflüssigen Worte entfernt worden sind (in diesem Beispiel ca. 3000). In den Zellen der Matrix steht ein Zahl als Maß für die relative Häufigkeit des betreffenden Wortes im Dokument.

 


 

Using a feature matrix it is possible to determine the significance of a topic for a selected document (this technique is different to that know as "Search Eingine Optimization - SEO", because only the clean text is analyzed without considering text attributes (headlines, page names, picture text, etc.). To obtain a result one has to calculate word freuencies which can be done in different ways.

It is cumbersome however to determine topic importance not only for a single document, but for a collection. Basically this can be achieved with procedures like that shown in figure 7 (one has to visualize word frequency for each document in the collection); but it is hard to concurrently show the significance of several topics for a whole document collection.

In these cases network diagrams are a possible solution. Topics as well as documents are shown as points, connected by lines. Line lenght is a measure of thematic proximity. Shorter lines thus mean higher proximity (and therefore also a higher word frequency). Topics and documents a spread over the plane of projection in a kind that thematic distance of topics to certain documents can be found out easily. Figure 4a shows an example with three topics and about 850 documents (patents in this case). Topics are sized corresponding to their importance for the collection as a whole.
Mit Hilfe der Eingenschaftsmatrix ist es möglich, zu ermitteln, wie wichtig ein bestimmtes Thema für ein ausgewähltes Dokument ist (das Verfahren dazu läuft anders als das, was üblicherweise unter dem Begriff Suchmaschinenoptimierung (Search Engine Optimization - SEO) verstanden wird, weil in diesem Fall der reine Text analysiert wird, ohne dass Textattribute wie z. B. Überschriften, Seitennamen, Bildunterschriften, etc. berücksichtigt werden). Man berechnet - in unterschiedlicher Weise, das Verhältnis von Worthäufigkeit zu Artikellänge, um die Bedeutung eines Wortes für den Artikel zu erfahren.

Will man diese Information nicht für ein Dokument, sondern für eine Dokumentkollektion erfahren, ist dies im Prinzip mit Darstellungen wie in Bild 7 möglich: man zeigt die Häufigkeit eines ausgewählten Wortes für jedes einzelne Dokument der Kollektion. Schwieriger wird es jedoch, wenn die Bedeutung mehrerer Begriffe für viele Dokumente übersichtlich darzugestellt ist.

Abhilfe schafft in solchen Fällen ein Netzwekdiagramm. Sowohl Dokumente, als auch Themen sind als Punkte dargestellt, die durch Linien verbunden werden. Die Länge der Linie ist dabei ein Maß für die thematische Nähe. Kürzere Linien bedeuten also größere Nähe, und damit einen höheren Wert für die Worthäufigkeit in der Eigenschaftsmatrix. Die Punkte der Dokumente und Themen werden dabei so auf der Zeichenfläche verteilt, dass die "Entfernung" der Themen von einem bestimmten Dokument auf einen Blick ersichtlich ist. Bild 4a zeigt ein Beispiel mit drei Themen, und ca. 850 Dokumenten. Themenpunkte sind - entsprechend ihrer Bedeutung für die Dokumentkollektion - in passender Größe gezeigt.

 

 DocumentAnalysis-04a

 

Figure 4a: network diagram showing thematic distance of about 850 patents to three topics (for explanation see text)Bild 4a: Netzwerkdiagramm zur Darstellung der thematischen Entfernung von ca. 850 Patenten zu drei Themen (weitere Erklärung im Text).

 

Figure 4b shows the same document collection, however with 20 topicsBild 4b zeigt die gleiche Dokumentkollektion, diesmal jedoch mit 20 Themen.

 

 DocumentAnalysis-04b

 

Figure 4b: as figure 4a, however with 20 topicsBild 4b: wie Bild 4a, jedoch mit 20 Themen

 

Figure 4c a detail view of figure 4b, showing not only topic labels but also document labelsBild 4c zeigt einen Ausschnitt aus 4b, in dem nicht nur die Beschriftungen der Themen, sondern ebenso die Beschriftungen der Dokumente sichtbar werden.

 

 DocumentAnalysis-04c

 

Figure 4c: detail view of figure 4bBild 4c: Ausschnitt aus Bild 4b

 


 

As a next step it is i. e. possible to show,

  • how many patents have been published within at which time

Der nächste Schritt könnte z. B. sein,

  • darzustellen, wann wie viel zu einem Thema veröffentlicht worden ist

 

DocumentAnalysis-05

 

Figure 5: Number of patentes for a certain topic per half year

Bild 5: Anzahl der Patente zu einem bestimmten Thema pro Halbjahr

 

  • to show selected documents regarding their word profile
  • sich ausgewählte Dokumente hinsichtlich ihres Wortprofils anzusehen

 

DocumentAnalysis-06

Figure 6: Word profile of a selected document (= relative importance of specific words)

Bild 6: Wortprofil eines Dokument (=Darstellung der relativen Worthäufigkeit)

 

  • sort words regarding their frequencies to get an impression about thematic core areas
  • die Worte der Häufigkeit nach zu sortieren, um einen Eindruck von Themenschwerpunkten zu bekommen

 

DocumentAnalysis-07

 

Figure 7: Most frequent words of a document, sorted by importance (declining)

Bild 7: Die häufigsten Worte eines Dokuments, sortiert abfallend nach Häufigkeit

 


 

  • or to devide the whole collection into specific clusters
  • oder die gesamte Dokumentkollektion in einzelne Cluster zu zerlegen

 

 DocumentAnalysis-08

Figure 8: Splitting of a document collection into specific clusters (hierarchical clustering)Bild 8: Zerlegung einer Dokumentkollektion in einzelne Cluster (hierarchisches Clustern)

 

Analysis, as shown in figures five, six and seven cannot only be generated for single documents, but for certain clusters or the whole collection as well.

Analysen, wie in den Bildern fünf, sechs und sieben dargestellt, können natürlich nicht nur für einzelne Dokumente, sondern auch für die ganze Kollektion oder jedes beliebige Cluster erstellt werden.

 


 

By breaking down a document collection specific clusters will be build in a way that deviation of cluster members from a common mean become minimal. A presentaion of this step in two dimensions is shown in the next image:Bei der Zerlegung in Cluster werden Gruppen von Dokumenten so gebildet, dass die Lageabweichungen der Gruppenmitglieder vom gemeinsamen Schwerpunkt möglichst gering sind. Eine Darstellung des Vorgangs in zwei Dimensionen zeigt die nächste Abbildung:

 

 

DocumentAnalysis-09

Figure 9: clustering of measurement values with K-Means

Bild 9: Gruppierung von einzelnen Werten in unterschiedliche Cluster nach der Methode K-Means

 

Measurement values in red, green and blue are shown together with their cluster means. In contrast to document analysis already discussed this clustering happens within a two dimensional space (2D) whereas in the example above clustering takes place in a 3000D space (not imaginable, but nearly the same from a mathematical point of view).

To get a result comparable that which is shown in figure 8 one has to execute the clustering procedure several times, starting with a division of the whole document collection into two clusters. After that each of these clustern again is devided into two cluster and so on, until a maximum hierarchy is reached.

Man erkennt einzelne Messwerte (rot, grün, blau), zusammen mit den Clusterschwerpunkten). Der Unterschied zur hier besprochenen Dokumentanalyse besteht jetzt nur darin, dass der Vorgang nicht im zweidimensionalen Raum, sondern z. B. im 3000-dimensionalen Raum stattfindet. Obwohl man sich einen solchen Raum nicht vorstellen kann, besteht aus mathematischer Sicht kein Unterschied: das Vorgehen ist das gleiche.

Um zu der Darstellung von Bild 8 zu gelangen, wurde das Verfahren mehrfach angewandt; es wurden zuerst eine Aufteilung in zwei Cluster vorgenommen, dann jedes der beiden Cluster wieder in zwei Cluster unterteilt, usw. (hierarchisches Clustern).

 


 

The next figure shows a diagram which is comparable with regard to content, but layout is made with a so called self-organising graph. Documents belonging to a certain cluster are shown on the right.

Die nächste Abbildung zeigt eine inhaltlich vergleichbare Darstellung der Clusterdarstellung mit Hilfe eines sogenannten „Selbstorganisierenden Graphen“, wobei auf der rechten Seite die Dokumente gelistet werden, die zu einem bestimmten Cluster gehören.

 

 

 

DocumentAnalysis-10

 

Figure 10: Visualisation of clustering a document collection according to image 9, but with the help of a self-organising graph.Bild 10: Darstellung der Zerlegung einer Dokumentkollektion in einzelne Cluster (wie Bild 9), jedoch mit Hilfe eines selbstorganisierenden Graphen.

 

Figure 11 shows a result like figure 10, but with a different kind of self-organising graph.Bild 11 zeigt das Ergebnis wie in Bild 10, jedoch mit einem Graphen anderen Typs.

 

 

DocumentAnalysis-11

 

Figure 11: like figure 10, however with a different kind of graphBild 11: wie Bild 10, jedoch mit einem Graphen anderen Typs

 


 

Obviously you can canculate means for thematic core areas for every year (like those shown in figure 9) and then make a visualisation of these means as a function of time ( showing the  displacement of the core areas over time).Natürlich besteht auch die Möglichkeit, inhaltliche Schwerpunkt analog zu Bild 9 für jedes Jahr zu berechnen, und die Lage der Schwerpunkte im Verlauf der Zeit darzustellen (=wie verschiebt sich ein inhaltlicher Schwerpunkt mit der Zeit).

 

 

DocumentAnalysis-12

 

Figure 12: A "thematic center of mass" has been calculated for all documents having a publication date within a certain year and plotted on a cartesian plane. By connecting the points in a chronologically way a thematic "path comes" out showing a displacement relating content over the years.

Bild 12: Für alle Dokumente mit einem Veröffentlichungsdatum in einem bestimmten Jahr wird die Lage des thematischen Schwerpunkts berechnet und in einem Koordinatensystem eingezeichnet. Auf diese Weise entsteht durch Verbinden der Punkte in chronologischer Reihenfolge ein "thematischer Pfad", der zeigt, welche inhaltlichen Verschiebungen von Jahr zu Jahr aufgetreten sind.

 


 

What does "summarize" mean?

Summarizing a text means distilling its essential concepts into some few paragraphs by omitting anything of no importance. As an extrem case a summary may only consist of the most important key words.

While summarizing has been a task which can only be done by humans in the past, computer algorithms are good enough to deliver results comparable to humans.

Was versteht man unter dem Begriff "Zusammenfassen"?

Zusammenfassen bedeutet, die wesentlichen Konzepte eines Textes in wenigen Abschnitten zu  konzentrieren, und alles unwesentliche weg zu lassen. Im Extremfall kann eine Zusammenfassung sogar nur aus den wichtigsten Worten bestehen.

Während die Aufgabe des Zusammenfassens von Texten in der Vergangenheit nur durch Menschen durchgeführt werden konnte, sind Computeralgorithmen in der Zwischenzeit gut genug, um vergleichbare Ergebnisse zu liefern.

 


 

Having come so far, knowledge about the document collection has substancially grown compared to the beginning of the examination. Nevertheless it would not only be of importance to know which clusters exist, and which documents belong to them, but also by which topics each of these clusters are dominated.

While you normally are only able to search what you already know, you are in this way able to find, what you don´t know so far ...

Ist man bis hierher gekommen, sind die Kenntnisse über die Dokumentkollektion bereits deutlich umfangreicher als am Anfang der Untersuchung. Es wäre zum Beispiel aber noch wichtig, nicht nur zu wissen, welche Cluster vorhanden sind, und welche Dokumente zu den einzelnen Clustern gehören, sondern welche Themenkomplexe die einzelnen Clustern bestimmen.

Während man sonst nur suchen kann, was man kennt, kann man auf diese Art auch das finden, was man nicht kennt ...

 

An analysis like such is shown in figure 13.  Again the document collection has been separated in clusters of different size (according to the circle size shown on the left, one cluster marked in red). On the right a bar chart shows which collection of words make up the topic of the marked cluster (red bars) while showing frequencies of these words in the whole collection in blueEine derartige Analyse zeigt Bild 13. Hier ist eine Dokumentkollektion wieder in mehrere Cluster unterteilt (linke Seite), wobei die Clustergröße durch die Kreisgröße visualisiert wird. Auf der rechten Seite ist für ein markiertes Cluster zu sehen, welche Begriffe in diesem Cluster besonders häufig sind (rote Balken). Die blaugrauen Balken zeigen die Häufigkeit der Begriffe in der gesamten Kollektion

 

 

DocumentAnalysis-13

 

Figure 13. For a description see text.Bild 13: Erklärung im Text

 


 

DocumentAnalysis-13b

Figure 13b. With this list of 25 topics, consisting of 20 keywords each, a collection of about 450 documents can be opened.Bild 13b: Mit Hilfe dieser Liste aus 25 Themen, mit jeweils 20 Schlüsselworten wird eine Kollektion von ca. 450 Patenten erschlossen.

 

Instead of clustering documents and determine, which content predominates in which cluster, you can also go the other way round.

As a first step, topics of the whole document collection are identified. Then - as a second step - each document of the collection is related to one or more topics. Exactly this is also the main difference between these algorithms.

In the first case, a certain document is attributed to just one specific cluster. In the second case, a document is considered to consist of several different parts, and each of them can belong to a different topic.

The following example show the result of an analysis where about 450 patents are gouped into 25 topics consisting of 20 keywords each ...

Clicking on a topic one gets a list of documents belonging to that topic, sorted downward with respect to the words within the document (of that topic).

Anstatt Dokumente in Cluster zu gruppieren, und anschließend zu ermitteln, welche Inhalte in welchen Clustern dominieren, kann auch ein anderer Weg beschritten werden.

Man ermittelt, welche Themenkomplexe in der gesamten Dokumentkollektion vorhanden sind, und ordnet dann die Dokumente der Kollektion den Themen zu. Obwohl auf den ersten Blick kein gravierender Unterschied zum zuerst genannten Verfahren besteht, ist dieser Unterschied jedoch serwohl vorhanden.

Bei der Zuordnung von Dokumenten zu Clustern wird davon ausgegangen, dass ein bestimmtes Dokument eindeutig einem bestimmten Cluster zugewiesen werden kann. Im Gegensatz dazu ist das umgekehrte Verfahren in der Lage, ein Dokument als aus mehreren Abschnitten bestehend aufzufassen, die ihrerseits zu unterschiedlichen Themenkomplexen gehören können.

Das nachfolgende Beispiel zeigt das Ergebnis einer Analyse, bei der ca. 450 Patente in 25 Themenkomplexe zerlegt worden sind, wobei jedes Thema durch max. 20 Stichworte repräsentiert wird.

Klickt man ein Thema an, erhält man eine Liste der zugehörigen Dokumente, absteigend sortiert nach der Anzahl der Worte des Themas, die im Dokument enthalten sind.

 

Read more ... / mehr dazu ...

 


 

Of course one can ask for the frequency with which a certain  term occurs in different clusters. An answer to this question is shown in figure 14.Natürlich kann man auch die Frage stellen, mit welcher Häufigkeit ein bestimmter Begriff in unterschiedlichen Clustern vorhanden ist. Die Antwort auf eine solche Frage wird in Bild 14 gezeigt.

 

DocumentAnalysis-14

 

Figure 14: Frequency with which a specific term occurs in different clustersBild 14: Darstellung der Häufigkeit eines Begriffs in unterschiedlichen Clustern

 

Figure 15 shows - as a further alternative - the relevance of some terms for individual documents in different clustersBild 15 zeigt – als weitere Variante – die Bedeutung mehrerer Begriffe für die einzelnen Dokumente in unterschiedlichen Clustern.

 

DocumentAnalysis-15

 

Figure 15: Relevance of different terms (encoded by colors, see upper left) for documents in different clustersBild 15: Bedeutung unterschiedlicher Begriffe (kodiert durch Punktfarben, vgl. oben links) für die Dokumente in unterschiedlichen Clustern

 

In the next figure the relevance of a certain term in a document is shown (first number), together with a second number (in parenthesis) showing how often this is the case. Im nächsten Bild sieht man, mit welcher inhaltlichen Bedeutung ein bestimmter Begriff in einem Dokument gemessen wird (erste Zahl), und in wie vielen Fälle dies so ist (zweite Zahl in Klammern).

 

 

DocumentAnalysis-16

Figure 16: Which relevance  for a document does a certain term have (first number), and how often this is the case (second number in parenthesis).Bild 16: Welche inhaltliche Bedeutung hat ein bestimmter Begriff in einem Dokument, (erste Zahl), und in wie vielen Fälle ist dies so (zweite Zahl in Klammern).

 

Figure 17 shows a different presentation. Distributions of different width are shown, where each curve represents the distribution of a term in a cluster. Narrow curves denote that the term can be found with nearly the same frequency in in every document of the cluster. Wide curves however denote that the term frequency varies over the documents of the cluster (figure 16 shows a frequency distribution between 0.002 and 0.122, i. e. a rather wide range).Eine etwas andere Art der Darstellung zeigt Bild 17. Hier sind unterschiedlich breite Verteilungskurven gezeigt, wobei jede Kurve die Verteilung eines Begriffes in einem Cluster darstellt. Eine enge Verteilungskurve bedeutet, dass der Begriff in allen Dokumenten eines Clustern mit ungefähr gleicher Häufigkeit zu finden ist. Eine breite Verteilungskurve meint hingegen, die Begriffshäufigkeit in den einzelnen Dokumenten des Clusters variiert über einen weiten Bereich (in Bild 16 variiert die Begriffshäufigkeit zwischen 0,002 und 0,122, also eher über einen weiten Bereich).

 

DocumentAnalysis-17

Figure 17: Term frequency distribution in different clusters (for explanation see text).

Bild 17: Verteilungskurve eines Begriffs in unterschiedlichen Clustern (Erklärung siehe Text).

 


 

What does Correlation mean?

Correlation means interaction and describes a connection between two or more features, events, conditions or functions. Positive correlation means that increasing the value of a specific feature does increase the value of a correlated feature as well. Negative correlation means the opposite.

Was versteht man unter dem Begriff Korrelation?

Korrelation bedeutet Wechselbeziehung und beschreibt einen Zusammenhang zwischen zwei oder mehreren Merkmalen, Ereignissen, Zuständen oder Funktionen. Positive Korrelation bedeutet, dass bei der Vergrößerung des Wertes eines Merkmals auch der Wert des damit korrelierten Merkmals ansteigt. Für negative Korrelation gilt das Gegenteil.

 


 

Figure 18 shows a correlation of three terms in about 2000 individual documents belonging to 10 clusters. X-axis: cluster, y-axis: relevance of first term, circle size: relevance of second term, color: relevance of third term.Bild 18 zeigt dann die Korrelation von drei Begriffen in den ca. 2000 Einzeldokumenten von 10 Clustern. X-Achse: Cluster, Position auf der Y-Achse: Bedeutung des ersten Begriffes, Kreisgröße: Bedeutung des zweiten Begriffes, Farbe: Bedeutung des dritten Begriffes.

 

DocumentAnalysis-18

 

Figure 18: correlation of three different terms in 10 clusters, consisting of about 2000 documents (for explanation see text)Bild 18: Korrelation von drei unterschiedlichen Begriffen in 10 Clustern, bestehend aus ca. 2000 Dokumenten (Erklärung siehe Text).

 


 

Corelations like this are mostly known from market basket analysis (motto: woman of age 25 buying chocolate and gherkins at the same time - might be pregnant ...). Correlations like this can be used in document analysis in the same way. Die Bedeutung von Korrelation hat man unter Umständen zum Beispiel im Zusammenhang von Warenkorbanalysen vielleicht bereits gehört (nach dem Motto: eine Frau, die gleichzeitig Schokolade und Gurken kauft, ist wahrscheinlich schwanger). Solche Korrelationen zu finden ist natürlich auch für Dokumentanalysen ausgesprochen interessant.

 

DocumentAnalysis-19

 

Figure 19: All Correlations (=associations) found in a collection of documents.Bild 19: Alle in einer Dokumentkollektion gefundenen Korrelationen (=Assoziationen).

 


 

Figure 20 shows - picked from the correlations shown in figure 19 - all correlations of a specific term (i. e., which terms appear again and again in relation to the specific term).Bild 20 zeigt – herausgegriffen aus allen Korrelationen aus Bild 19 – die Korrelationen in Zusammenhang mit einem ausgewählten Begriff (d. h., welche Worten treten immer wieder im Zusammenhang mit einem ausgewählten Wort auf).

 

DocumentAnalysis-20

 

Figure 20: Correlations in connection to the term "temperatur".Bild 20: Korrelationen im Zusammenhang mit dem Begriff "temperatur".

 


 

Figure 21 finally shows the interface of a search screen. In combination with a full text index of the collection it is possible to search the documents interactively. Results

  • are shown as a result list (1),
  • are automatically grouped (2), while
  • relationship among the groups are visually shown (3).
  • subimages (4) und (5) finally show group sizes in two different ways.

Bild 21 schließlich zeigt die Oberfläche einer Suchmaske. Zusammen mit einem Volltextindex über alle Dokumente ist es so möglich, im Zusammenhang mit den bisher vorgestellten Untersuchungen interaktiv in allen Dokumenten zu suchen. Die Ergebnisse der Suche erhält man

  • als normale Trefferliste angezeigt (1),
  • automatisch in Untergruppen eingeteilt (2), wobei
  • der inhaltliche Zusammenhang zwischen den Gruppen (=Cluster) grafisch dargestellt wird (3).
  • Die Teilbilder (4) und (5) schließlich zeigen eine Darstellung der Gruppengröße auf zwei unterschiedliche Weisen.

 

 DocumentAnalysis-21

 

Figure 21: search screen for a collection of about 2000 patents (for explanation see text).Bild 21: Suchmaske, die den interaktiven Zugriff auf eine Kollektion von ca. 2000 Patenten ermöglicht (Erklärung siehe Text).