sbDataStats (VBA)

Sun, 10 May 2026 15:44:00 +0100

“Statistics are like bikinis. What they reveal is suggestive, but what they conceal is vital.” [Aaron Levenstein]

Abstract

Selbstverständlich kann man für jede Eingabe ein spezielles Datenprüfprogramm erzeugen.

Aber was wenn Sie beliebige Daten (in einer CSV Datei) durch eine allgemeine Datenanalyse untersuchen lassen wollten?

Für eine allgemeine numerische Analyse könnten Sie einfach Minimum, Durchschnitt und Maximum ermitteln und z. B. bezüglich Extremwerten warnen, die um mehr als 2.5 Standardabweichungen vom Durchschnitt abweichen. Bei Textdaten könnte ein Analyseprogramm die Häufigkeit von Worten und Zeichen ausgeben.

Vergleiche Korrelationsmatrizen (Perl)

Sun, 10 May 2026 15:44:00 +0100

“Remember, my friend, that knowledge is stronger than memory, and we should not trust the weaker.” [Bram Stoker]

Abstract

Vor einigen Jahren entwickelte ich ein Perl Programm für einen AlgoOne Kunden. Im Laufe der Zeit erweiterte ich das Programm und ließ es die RMLinks.cfg Datei einlesen, so dass neue Risikofaktoren automatisch einbezogen wurden.

Implementierungsansatz

Mein Implementierungsansatz war:

1. Erste Matrix einlesen
    Prüfungen:
    Matrix quadratisch?
    Risikofaktorsortierung links->rechts (in der obersten Zeile) == oben->unten (in der linkesten Spalte)?
    Diagonalen == 1 (Warnung)?
    Keine NC Kategorie (Warnung falls doch)?
    Matrix symmetrisch: M(i,j) == M(j,i) für alle i,j?
    [Nicht bei DC Dateien weil dort nicht gegeben.]

2. Zweite Matrix einlesen
    Prüfungen wie oben

3. Risikofaktoren in beiden Matrizen identisch?
    Warnung bei Risikofactoren die in der ersten aber nicht in der zweiten Matrix sind und umgekehrt
    Zeige die Ausreißer pro Kategorie
    Zeige die Ausreißer pro Währung

Parameter

b - breaches: do not report differences between the two input matrices but breaches beyond tolerances.
d - debug [level] gives debugging information at detail level level
    level 1: -
    level 2: -
    level 3: Print all elements of matrices 1 and 2
f - read deviation file [-f needs to be followed by a valid filename]
    Reads min and max values for all slices for differences which should
    be ignored during comparison. See option -w to get format example
h - help: list parameters and their explanation
i -  ignore risk factors in a given file [-i needs to be followed by a valid filename]
m - set max rank index [default is 6 (=return highest 3
    and lowest 3 of each slice); m needs to be even and >= 4 !
n - tolerate risk factor category NC
r - set Algo risk factor category file [default is ./RMLinks.cfg
s - summarize findings, no detailed warnings or error messages
t - read file with tolerated changes for each matrix element and apply tolerance check
v - print version
w - write deviation file with min and max values of all slices.
    This file is comma-separated to be easily readable via Excel.
    It can be amended and used with option -f later
    [-w needs to be followed by a valid filename, preferrably ending with .csv
x - read translation table [-x needs to be followed by a valid filename].
    Risk factor names of matrix 1 will be translated by second name in comma-separated row

Beispiel für einen Programmaufruf

Ein typischer Aufruf dieses Programms von einem Shell Script aus könnte so aussehen:

AlgoOne Datenqualitätssicherung on Bernd Plumhoff

sbDataStats (VBA)

Abstract

Vergleiche Korrelationsmatrizen (Perl)

Abstract

Implementierungsansatz

Parameter

Beispiel für einen Programmaufruf