Danke schon mal! 
Was ist denn die Frage? Meine generelle Empfehlung war ja, sich selber ein Bild durch kritisches Hören zu machen. Wenn Du ein Bauchgefühl von mir willst: am Ende werden die Songs ja ziemlich sicher in 48kHz vertrieben (und selbst wenn sie auf Tidal oder Amazon HD o.ä. landen, wird wohl nur ein sehr kleiner Teil der Hörer sie in 96kHz anhören). Damit hätte eine Aufnahme in 96kHz höchstwahrscheinlich keinen Vorteil (von theoretischen Unterschieden des verwendeten Tiefpasses mal abgesehen). Und selbst für 96kHz-Hörer ist der Unterschied sicher äußerst gering.
Wenn 96kHz aber einen Unterschied für Deine Performance macht (Verwendung von weniger Toms), macht das mit Sicherheit einen für jeden hörbaren Unterschied. Ganz nach dem Motto je weiter vorne in der Gesamtkette, desto wichtiger. Insofern: pfeif auf 96kHz
.
Die eigentliche Frage hatte ich ganz vergessen. Du hast sie aber im Prinzip schon beantwortet.
Das Album soll tatsächlich - ganz "modern"
- auf Vinyl und ansonsten nur digital ohne Medium erscheinen. Also keine CD und auch keine USB-Sticks oder so. Was ich übrigens schade finde. Denn m.E. ist lossless 44,1kHz / 16bit (was ja auch mit FLAC geht) oder auch 48kHz immer noch die optimale digitale Qualitätsstufe für fertige Masters. Ich kaufe mir keine Musik in MP3 o.ä. ... wenn überhaupt nur lossy streamen.
Aber zurück zum Thema:
Da du ja meintest, man sollte sich übers Hören selbst ein Bild machen ... das habe ich für dieses Szenario hier nach einem theoretischen Test für mich bereits ausgeschlossen. Ich habe mal die Overheads einer kürzlichen Drums-Aufnahme von mir von 44,1kHz in 96kHz und dann wieder in 44,1kHz konvertiert - mit der höchsten Resample Qualitätsstufe von REAPER. Das gleiche dann noch mal mit 88,2kHz. Dann habe ich den Test mit dem Phasendreher gemacht und mit dem Analyzer geprüft, was übrig bleibt. Die Differenz von Nutzsignal und Resampling-Artefakten beläuft sich sowohl bei 96kHz als auch 88,2kHz ganz grob übern Daumen auf 70dB - Peak als auch RMS (und auch LUFS Integrated). Zieht man dazu in Betracht, dass ich das Resampling bereits 2x durchgeführt habe, wird der Unterschied wohl vernachlässigbar. Die Artefakte ähneln übrigens einem weißen Rauschen.
Die Hörfläche umfasst bei Musik ja ca. 60dB, dazu kommt beim Abmischen für gewöhnlich noch viel weiteres Rauschen.
Ja, der Engineer verlangt von mir keine 96kHz Aufnahme. Ich werde kommendes Wochenende aber noch mal persönlich mit ihm drüber reden - bisher hab ich erstmal nur die grundsätzliche Info dazu, dass das bei den restlichen beiden Songs so laufen wird.
Um die Sache zu vereinfachen, werde ich wohl einfach selbst noch auf 96kHz hoch sampeln. Das REAPER Resampling im "Extreme HQ" Modus ist meines Wissens schon brauchbar.
Experimente mit 8 Kanälen (mit 4 Toms hab ich momentan schon 11 Kanäle in Benutzung) lass ich einfach sein.
Eine Sache finde ich aber immer noch verwirrend:
Wenn Delta-Sigma Wandler und auch Plugins mit Oversampling so einfach um Zweierpotenzen (z.B. 4x oder 32x) hoch- und wieder runtersampeln können, warum ist das dann bei einem Resampling mit der DAW immer gleich rechen-aufwändig und Artefakt-behaftet? 
In einem Clipper-Plugin nutze ich standardmäßig 32-faches Oversampling (die neueste Version bietet sogar 256-fach Offline an). Aber der erhöhte Rechenaufwand kommt sicher vor allem durch die höhere Samplingrate selbst, nicht durch das Up- und Downsampling.
HIER steht zumindest folgendes:
In der Praxis werden beim Oversampling ganzzahlige Frequenzverhältnisse, vorzugsweise Zweierpotenzen verwendet.
Das reduziert den Rechenaufwand. Bei Oversampling höherer Ordnung ( k ≥ 8 ) {\displaystyle (k\geq 8)}
wird häufig die notwendige Abtastratenkonvertierung mehrstufig durchgeführt.
Höhere Abtastraten werden hierbei dadurch erreicht, dass im Frequenzbereich die Summen- und Differenzbänder bei ungeradzahligen Vielfachen der Abtastfrequenz entfernt werden. Dadurch treten im Zeitbereich doppelt so viele Abtastwerte auf, die Abtastrate ist also verdoppelt. Dieses Verfahren nennt man Zweifach-Oversampling. Bei Vierfach-Oversampling werden die Summen- und Differenzbänder auch bei geradzahligen Vielfachen, außer bei 4*n, der Abtastfrequenz entfernt.
Demnach müsste ein simples 2-faches Oversampling ja rechnerisch so einfach sein, dass es komplett verlustfrei ist, oder?
Mit stellt sich dann nämlich noch die Frage, ob es sinnvoll ist, in 48 statt 44,1kHz für ein anschließendes Upsampling auf 96kHz aufzunehmen. 