Ik begon in bitdiepte en sample rate in mijn laatste mixing / mastering tut te komen en hoewel we niet noodzakelijkerwijs digitale audio-ingenieurs zijn, is enige basisinformatie over wat precies bitdiepte en sample rate zijn, goede informatie voor iedereen die betrokken is bij digitale muziek. Het is iets waar je altijd mee werkt, of je het nu weet of niet, en het is geweldige achtergrondinformatie om te hebben of het is om de basisbouwstenen van digitale audio te begrijpen voor persoonlijk gewin, of gewoon om er slim uit te zien als het gesprek zou beginnen ooit ontstaan.
Het eerste dat je moet begrijpen is dat bitdiepte en samplefrequentie alleen bestaan in digitale audio. In digitale audio beschrijft de bitdiepte de amplitude (verticale as) en de samplefrequentie de frequentie (horizontale as). Dus bij het verhogen van het aantal bits dat we gebruiken, verhogen we de amplitudesolutie van ons geluid en bij het verhogen van het aantal samples per seconde dat we gebruiken, verhogen we de frequentieresolutie van ons geluid.
In een analoog systeem (en in de natuur) is de audio continu en vloeiend. In een digitaal systeem wordt de soepele analoge golfvorm alleen benaderd door samples en moet deze worden vastgesteld op een beperkt aantal amplitudewaarden. Bij het samplen van een geluid wordt de audio opgesplitst in kleine plakjes (samples) en deze samples worden vervolgens gefixeerd op een van de beschikbare amplitudeniveaus. Het proces van het fixeren van het signaal op een amplitudeniveau wordt kwantisatie genoemd en het proces van het maken van de monsterplakken wordt natuurlijk sampling genoemd.
In het onderstaande diagram kun je een visualisatie hiervan zien waar een organische sinusgolf gedurende één seconde wordt afgespeeld. Het begint op 0 seconden en eindigt op 1 seconde. De blauwe balken vertegenwoordigen de digitale benadering van de sinusgolf waarbij elke staaf een voorbeeld is en is vastgesteld op een van de beschikbare amplitudeniveaus. (Dit diagram is natuurlijk veel grover dan in het echte leven.)
Deze audio van één seconde zou samples van 44,1K, 48K, etc. hebben die van links naar rechts gaan, afhankelijk van de samplefrequentie die tijdens de opname werd geselecteerd en zou -144 dB tot 0 dB op 24 bit beslaan (of -96 dB tot 0 dB op 16 beetje). De resolutie van het dynamische bereik (het aantal mogelijke amplitudeniveaus voor het monster waarop rust) zou 65.536 zijn bij 16 bits en -get dit- 16.777.216 indien opgenomen bij 24 bit.
Het vergroten van de bitdiepte verhoogt dus duidelijk onze amplitude resolutie en dynamisch bereik. Wat niet zo voor de hand ligt, is waar de toename in dynamisch bereik optreedt. De toegevoegde dB's worden toegevoegd aan de zachtere deel van het geluid omdat de amplitude nooit boven 0 dB kan komen. Wat dit doet is zorgen voor meer delicate geluiden (bijvoorbeeld een nagalmstaart die achterloopt tot -130 dB) om gehoord te worden, wat anders misschien korter is geweest bij een 16 bit en een -96 dB sample.
In digitale audio wordt elk sample geanalyseerd, verwerkt, geconverteerd naar audio en door de luidsprekers geduwd. Wanneer een sample wordt verwerkt (versterkingsverandering, vervorming, enz.) In uw DAW, wordt deze verzonden via een eenvoudig vermenigvuldigings- of delingsalgoritme en wordt het nummer dat de steekproef representeert overeenkomstig en uitgespuugd gewijzigd. Simpel als het niet zo was dat we niet te maken hebben met eenvoudige of ronde getallen (een versterkingstoename van 1 dB vereist vermenigvuldiging met 1.122018454) dus zelfs een 8- of 4-bit-sample kan gemakkelijk worden uitgebreid tot ver buiten onze 24 bit sample ruimte.
Omdat we maar 24 bits hebben, moeten deze lange nummers in die ruimte passen. Om dit te doen, gebruiken DSP ofwel een afronding of afknotting van het minst significante bit (LSB - het laatste bit in een digitaal woord - bijvoorbeeld het 16e cijfer in een 16 bit monster). Afronding is redelijk eenvoudig en handelt zoals u mag verwachten in elementaire rekenkunde. Truncatie verlaagt eenvoudig de informatie na de LSB zonder verdere analyse.
Dit is duidelijk problematisch omdat beide processen fouten in de vergelijking introduceren en deze fouten zich vermenigvuldigen naarmate proces na proces wordt geaccumuleerd door de signaalketen. De positieve kant hiervan is dat de LSB in een digitaal woord de zachtste amplitude van dat woord is, dus in een 16-bits sample is de fout bij -96 dB en bij -144 dB voor een 24-bits sample. Toch ligt het verschil tussen een DSP met een goede architectuur en een die vreselijk klinkt grotendeels in de manier waarop de DSP deze lange woorden en gecompliceerde processen beheert.
Dus we weten nu dat DSP's noodzakelijkerwijs vol fouten zitten; dat zelfs de grove benaderingen die ze maken van een van nature voorkomend fenomeen zelf met fouten vergeven zijn. Deze fouten maken niet alleen het geluid minder zuiver, maar kunnen ook hoorbare artefacten van die persoon introduceren.
Om deze artefacten tegen te gaan, wordt een type wiskundig berekende ruis (willekeurigheid) met een lage amplitude, dithither genoemd, op het signaal toegepast. Deze willekeurigheid breekt periodieke fouten in het signaal op die nieuwe frequenties of andere artefacten kunnen creëren. De ditherruis is een zeer lage amplitude en hoewel hij op hoge niveaus licht hoorbaar is, creëert hij nog steeds een eindproduct dat veel beter is dan zonder.
Een golfvorm die de effecten van dither aangeeft. Dither is toegepast op de bovenste golfvorm.
Een ding om op te merken over dither is dat het geluid accumulatief is. Bij het toevoegen van ruis aan het signaal, vermindert u in wezen de signaal / ruis-verhouding (de verhouding tussen bruikbaar signaal en ruis). Als dit herhaaldelijk wordt gedaan, blijft deze verhouding afnemen terwijl verdere randomisatie wordt toegevoegd aan een signaal dat het niet langer nodig heeft. Daarom wordt dither altijd toegepast als de laatste stap van het masteringproces en wordt het maar één keer toegepast.
Dither heeft een relatief kleurrijke geschiedenis:
Een van de eerste [toepassingen] van dither kwam in de Tweede Wereldoorlog. Vliegtuigbommenwerpers gebruikten mechanische computers om navigatie- en bomtrajectberekeningen uit te voeren. Merkwaardig genoeg presteerden deze computers (dozen gevuld met honderden tandwielen en tandwielen) nauwkeuriger bij het vliegen aan boord van het vliegtuig en minder goed op de grond. Ingenieurs realiseerden zich dat de vibratie van het vliegtuig de fout verminderde van kleverige bewegende delen. In plaats van korte rukbewegingen, bewogen ze meer continu. Kleine vibrerende motoren werden in de computers ingebouwd, en hun vibratie werd dither genoemd uit het Midden-Engelse werkwoord "didderen", wat "beven" betekent ... moderne woordenboeken definiëren dither als een zeer nerveuze, verwarde of geagiteerde toestand. In kleine hoeveelheden maakt dither met succes een digitaliseringssysteem een beetje meer analoog.
- Ken Pohlmann, Principles of Digital Audio
Volgens de theorie zouden 44.1K-samples per seconde meer dan voldoende moeten zijn om elke frequentie binnen (en iets buiten) het menselijk gehoorbereik te dekken. Mogelijk bent u de Nyquist-stelling tegengekomen waarin staat dat om aliasing (een soort vervorming) te vermijden en om nauwkeurig alle frequenties na het samplen te recreëren, men ten minste tweemaal de snelheid van de hoogste frequentie in een gegeven signaal moet nemen (deze stelling is van toepassing op media buiten audio, maar daar komen we hier niet op in).
Het menselijk oor kan zogenaamd tot 20K horen (de meeste studies geven aan dat het op zijn hoogst meer is dan 17K) cycli per seconde (Hz), dus een samplefrequentie van 40K samples per seconde zou voldoende moeten zijn om elke frequentie te horen. 44.1K is industriestandaard, werd om verschillende redenen gemaakt en werd uiteindelijk gekozen door de oligarchie die bekend staat als Sony.
Om een lang verhaal kort (er) te maken, moeten digitale audiomonsters noodzakelijkerwijs boven de Nyquist-frequentie liggen, omdat in de praktijk de samples ook laagdoorlaatgefilterd moeten zijn tijdens A / D- en D / A-conversie om ook bij die stap aliasing te voorkomen. Hoe zachter de helling van het laagdoorlaatfilter, des te gemakkelijker (lees goedkoper) het is om te maken. Aldus moet een audiosignaal met een laagdoorlaatfilter met een lichte helling die 2 kHz bedekt en begint bij 20 kHz om het gehele frequentiespectrum door te laten, worden bemonsterd bij 44K monsters per seconde (20K (hoogste frequentie) + 2K (helling van LPF) x 2 (Nyquist-stelling) = 44K).
Uiteindelijk werd de 44.1K-standaard gekozen na een strijd tussen Sony en Philips (ze hadden allebei vergelijkbare eindvoorstellen) en werd gekozen op basis van de wiskunde achter audiosample-snelheid en video-tape-anatomie; zodat audio en video zich op dezelfde videocassette kunnen bevinden in een goede getrouwheid tot prijsverhouding. 48K is nu echter de standaard voor video-gerelateerde audio. CD-audio blijft op 44.1K.
Deze afbeelding toont het voorbeeldniveau van een 'organische' kick-drumopname in Logic. U kunt zien hoe het geluid is bemonsterd en gekwantiseerd uit de scherpe rechthoekige benaderingen van de golfvorm. Het originele drumgeluid zou niet zo'n vervorming hebben gehad.
Sommige mensen beweren een duidelijk verschil te kunnen horen tussen een samplefrequentie van 44.1K en, bijvoorbeeld, een 96K-samplefrequentie. De meeste mensen schrijven dit verschil toe aan de verhoogde bandbreedte die wordt geproduceerd (96K zou frequenties tot 48 kHz vertegenwoordigen). Hoewel ik ook subtiele duidelijkheidsveranderingen heb opgemerkt bij overbemonstering, is het onjuist om te denken dat deze verschillen aanwezig zijn vanwege de hogere frequenties die aanwezig zijn (of tenminste zijn ze niet direct gerelateerd).
Door verschillende tests is aangetoond dat het in feite de laagdoorlaatfiltering is die hoorbare verschillen oplevert en dat bij hogere bemonsteringsfrequenties die LPF-artefacten buiten het hoorbare spectrum vallen. Door de filterafschakeling van 22 kHz naar 48 kHz tijdens het samplen te vergroten, verminderen we de vraag naar het filter om in het hoorbare bereik te werken, waardoor meer, zo niet alle filterartefacten in het ultrasone spectrum achterblijven.
Dit ruimt het hoorbare spectrum op en geeft de illusie dat een hogere bandbreedte / sample-snelheid een meer ongerepte audio creëert. Hoewel een meer ongerepte audio wordt gecreëerd, is het een effect van de sample rate die hoog genoeg is om de artefacten van een slecht ontworpen (helaas een standaard) laagdoorlaatfilter tegen te gaan tijdens A / D en D / A conversie.
Dus dat dekt het. Ik besef dat dit misschien meer een les dan een tutorial is geweest, maar het is goede informatie om niet-de-minder te hebben. Het kennen van de tools waarmee je werkt is nooit erg en dit is ongeveer zo gedetailleerd als je het onderwerp ooit zult moeten kennen voor een praktisch doel als muziekproducent. Mastering engineers en audiofielen moeten misschien ergens anders zoeken;)
Tot de volgende keer.
-w