objektiv geht das nur mit einem Ozilloskop. Nur so bekommt man die Gesamte Signallaufzeit vom Anschlag bis zur Ausgabe des Tons.
Mikro direkt aufs Pad, das Mikro in den Oskar, den Audioausgang auch an den Oskar. Der Schlag wird als erstes Aufgezeichnet, dann kommt irgendwann der Ton aus dem Audioausgang auch an. das Zeitintervall ist dann die Gesamtlatenz, die bei USB irgendwo zwischen 15 und 30ms liegen wird.
Vergessen wird leider bei solchen Latenzvergleichen meist die nicht beeinflußbare Verzögerung am recht langsamen USB, die immerhin je nach Rechner irgendwo zwischen 5-10ms liegt (also 10-20ms hin und zurück)
Das Signal beginnt seine Reise mit dem Anschlag ans Pad. Der Sensor(Piezo) schickt das Signal ins Modul, dieses generiert daraus ein Midiwort.
Dieses kommt dann recht zügig am USB Port des Rechners an und hat da erst mal Pause, da der USB Eingang nur sehr selten vom Rechner abgefragt wird, etwa alle 5-10ms.
Im Rechner gehts dann zügig weiter in die DAW/VSTi dort wird der Ton dann gerechnet. Das passiert nahezu in Echtzeit.
Das ist dann aber noch kein Audio sondern nur Daten die wieder über USB ins Interface geschickt werden und erst dort in etwas hörbares gewandelt werden was dann letztendlich am Verstärker/Lautsprecher ankommt.
Das bedeutet jeder der in seinem Asiotreiber eine Latenz von 2ms angezeigt bekommt hat tatsächlich eine Latenz >12ms je nach Drummodul und Rechner auch locker bis 20ms und mehr.
Folgende Grafik veranschaulicht das sehr schön, auch wenn es da um Audio geht was zusätzlich noch mehr Latenz erzeugt als Midi da auch das Eingangssignal erst gewandelt werden muss.
Die Wandler arbeiten deutlich im Microsekundenbereich was man als Echtzeit bezeichnet, das ist schneller als der Schall von einem InEar bis zum Trommelfell braucht.
Die Werte in der schon etwas älteren Grafik sind auch bis auf die USB Werte etwas großzügig angegeben.

Was auch interessant ist, die Zeit die ein Modul braucht vom Anschlag bis zur Ausgabe eines Sounds.
Man nimmt einmal auf einer Midispur das empfangene Midievent auf, auf einer Audiospur noch den dazugehörigen Sound vom Modul.
Eventuell noch auf einer weiteren Audiospur über ein Mikrofon den Padanschlag.
Damit lassen sich die relativen zeitlichen Abstände messen, jedoch nicht die Gesamtlatenz.
Für low latency Fetischisten ist eine alte RS232 Schnittstelle die bessere Wahl, da dort die Mididaten im stream durchgereicht werden und nicht erst endlos am USB Bus parken.
Ich denke auch das auf einer internen Karte auch reichlich Midilatenz eingespart werden kann.
Ohne es zu wissen vermute ich, das der Midieingang auf meiner internen Juli@ Karte deutlich schneller ist.
Sowieso sind interne Karten unschlagbar was performance betrifft. Besonders die von RME 
Auch ist dieser Latenzkrieg ist völlig überbewertet. Für Puristen mag das entscheidend sein, aber der Hobbymusiker wird auch mit einem TD50 über USB gefühlt in Echtzeit spielen können.