Ljud med hög bithastighet är överflödigt: CD-kvalitet är fortfarande bra
Alla vill ha bra ljud, men ibland leder vår strävan efter förbättring oss ner i några riktigt mörka och… dumma… korridorer. Som det är med många discipliner, går det med musik en liten kunskap långt. Du kanske har sett diskussioner på nätet kring bitdjup och samplingsfrekvenser, men vad du förmodligen inte vet är att det inte finns någon magisk inställning som får allt att låta bättre. Det beror på att den digitala musiken som den är idag redan har lämnat våra perceptuella gränser i backspegeln. Du behöver inte ha filer av galet hög kvalitet om du inte skapar musik som kräver tung redigering.
Som varje bra journalist visar jag bevisen, även om jag inte är främmande för att leverera dåliga nyheter. Sanningen är att människor helt enkelt inte kan uppfatta skillnaden mellan filer vid en viss punkt, och du bör inte låta dig sugas in i marknadsföringshype om det är dyrare än vad du redan har. Även om jag inte tvivlar på att format som MQA är tekniskt imponerande kommer de flesta inte riktigt att kunna uppskatta den ökade trovärdigheten. Chansen är nära 100 procent att ditt nuvarande bibliotek är helt okej.
Du behöver bara en samplingsfrekvens på 44,1 kHz
Om du har tittat på informationsfliken i din musikspelare kanske du märker att en del av dina låtar har samplingsfrekvenser på 44,1 kHz, eller 48 kHz. Du kanske också märker att din DAC eller en telefon som LG V30 stöder filer med samplingsfrekvenser på upp till 384 kHz.
Det är överdrivet. Ingen på Guds gröna jord kommer att känna till eller bry sig om skillnaden eftersom våra öron helt enkelt inte är så känsliga. Tror du mig inte? Det är dags för lite matematik. För att förstå vad gränsen för mänsklig uppfattning är för samplingsfrekvenser måste vi identifiera tre saker:
- Gränsen för de frekvenser som du kan höra
- Vad är den minsta samplingsfrekvens som behövs för att uppfylla det området (2 x högsta hörbara frekvens i Hz)
- Överskrider samplingsfrekvensen i dina musikfiler den siffran?
Låter enkelt nog, och det är det också. Det vanligaste området för mänsklig hörsel når sin topp vid cirka 20 kHz, vilket är 20 000 perioder per sekund. Låt oss för diskussionens skull utvidga det området till den högsta gränsen för vad vi vet är möjligt: 22 kHz. Om du vill kontrollera gränserna för din hörsel kan du använda det här verktyget för att hitta de övre gränserna för din perception. Se bara till att du inte ställer in volymen för högt innan du gör det. Om du är över 20 år bör den siffran vara ungefär 16-17 kHz, lägre om du är över 30 år och så vidare.
Om din hörsel inte kan nå något högre än 22,05 kHz kan 44,1 kHz-filen överträffa det frekvensområde som du kan höra.
Med hjälp av Nyquist-Shannon samplingssats vet vi att en samplingsfrekvens som ger två samplingar per period är tillräcklig för att återge en signal (i det här fallet din musik). 2 x 22 000 = 44 000, eller strax under de 44 100 samplingar per sekund som erbjuds av en samplingsfrekvens på 44,1 kHz. Allt över det antalet kommer inte att ge dig någon större förbättring eftersom du helt enkelt inte kan höra de frekvenser som en ökad samplingsfrekvens skulle låsa upp för dig.
Alla samplingsfrekvenser som överstiger två gånger frekvensen kommer att representeras perfekt (ovan). Det är först när samplingsfrekvensen sjunker under den punkten som problem uppstår (nedan).
Det är dessutom så att de frekvenser du hör i den högsta änden minskar med tiden när du åldras, får öroninfektioner eller utsätts för höga ljud. Jag kan till exempel inte höra något över 16 kHz. Det är därför som musik för äldre öron har mindre hörbar distorsion om du använder ett lågpassfilter för att bli av med ljud som du inte kan höra – det gör att musiken låter bättre även om den tekniskt sett inte är lika ”högupplöst” som originalfilen. Om din hörsel inte kan nå något högre än 22,05 kHz, kan 44,1 kHz-filen med lätthet lösa upp det frekvensområde som du kan höra.
16-bitarsljud är bra för alla
Den andra myten om ljudkvalitet är att 24-bitarsljud kommer att öppna upp för ett slags audiofilt nirvana eftersom det är så mycket mer datatätt, men i termer av perceptuellt ljud kommer alla förbättringar att gå förlorade för de mänskliga öronen. Att fånga mer data per sampling har fördelar för det dynamiska omfånget, men fördelarna finns nästan uteslutande inom inspelningsområdet.
Och även om det är sant att en 24-bitarsfil kommer att ha mycket större dynamiskt omfång än en 16-bitarsfil, är 144 dB dynamiskt omfång tillräckligt för att lösa upp en mygga bredvid en Saturn V-raketuppskjutning. Även om det är bra, kan dina öron inte höra denna skillnad i ljudet på grund av ett fenomen som kallas auditiv maskering. Din fysiologi gör att tystare ljud dämpas av högre ljud, och ju närmare varandra de ligger i frekvens: desto mer maskeras de av din hjärna. Med förbättringar som dithering kan 16-bitars ljud ”bara” lösa upp den tidigare nämnda myggan bredvid en 120dB jetmotor som startar. Fortfarande dramatisk overkill.
Detta är hur en 24-bitars musikfil ser ut innan någon data tas bort. Frekvensen är Y-axeln, tiden är X-axeln och intensiteten är färgen.
Det är dock de tystare ljuden som många audiofiler hävdar är den stora skillnaden, och det är delvis sant. Ett bredare dynamiskt område gör det till exempel möjligt att höja volymen längre utan att öka det hörbara bruset, och det är den stora punkten här. Om 24- och till och med 32-bitarsfiler har sin plats i mixerbordet, ger de någon fördel för MP3-, FLAC- eller OGG-filer?
Hej barn, prova det här hemma!
Men medan min kollega Rob på Android Authority redan har bevisat det här med ett oscilloskop och en del hardcore-forskning, kommer vi att utföra ett experiment som du kan göra själv – eller bara läsa om du inte har något emot spoilers. Efter att ha skummat runt på nätet hittade jag ett par filer på Bandcamp som faktiskt släpptes i 24-bitars lossless-filer. Många av dem jag hittade på påstådda ”HD Audio”-sidor var helt enkelt uppkonverterade från 16-bitars, vilket innebär att de var identiska på alla sätt utom priset. Därefter följde jag denna procedur:
- Gör en kopia av den ursprungliga 24-bitarsfilen
- Öppna i ditt valfria ljudredigeringsprogram (jag föreslår Audacity) och invertera filen; spara som 16-bit/44.1kHz WAV
- Öppna både moderfilen och din nyredigerade fil, och exportera den som ett spår
- Öppna det nedblandade spåret i ett program som tillåter dig att visa det som kallas spektrogram
- Fnittra för dig själv över att du har spenderat en massa pengar på Hi-res audio
Essentiellt sett är det vi just gjorde här att vi tog en 96kHz/24-bitarsfil, sedan subtrahera all data som du kan höra i en CD-kvalitetsversion av sig själv. Det som återstår är skillnaden mellan de två! Detta är exakt samma princip som Active Noise Canceling bygger på. Detta är resultatet jag fick:
Och även om de små lila bitarna är synliga i spektrogrammet ligger de långt under tröskeln för hörbarhet i närvaro av musik.
Okej, det finns en liten skillnad i de översta delarna av filen, men det ligger utanför den mänskliga hörselns räckvidd. Faktum är att du förmodligen borde filtrera bort det ändå. Så låt oss visa vad en människa faktiskt kan höra genom att tillämpa ett lågpass vid 20 kHz bara för att täcka våra baser. Et voila: en slutlig topp på… -85 dB i bästa fall. Okej, vi är lite grann på gränsen till hörbarhet här, men här är problemet – för att faktiskt kunna höra någon av dessa extra data måste du:
- Lyssna på musik på en nivå som är osäker att lyssna på i mer än en minut (96+dB)
- Har mikrofoner för öron
Men även om den sista punkten kan verka lite snorkig vet vi att din hjärna filtrerar bort ljud som ligger nära varandra i frekvens (se: auditiv maskering, länkad ovan). Så när du lyssnar på musik hör du faktiskt inte allt ljud på en gång, du hör bara det som din hjärna har separerat ut för dig. Så för att höra skillnaden mellan 24-bit/96kHz-filer och ljud av CD-kvalitet: de enskilda ljuden kan bara uppta ett mycket smalt frekvensområde, vara mycket högljudda, och de andra tonerna som uppträder under samma tidsperiod måste ligga mycket långt ifrån varandra i fråga om frekvens.
Det finns ingen säker lyssningsnivå för att höra skillnaden mellan dessa filer.
Om vi har lärt oss något av det här Yanny/Laurel-fiaskot, så passar en mänsklig röst inte in på dessa kriterier (Redaktörens anmärkning: Det är ”Laurel”). Så egentligen är de mest sannolika platserna där du faktiskt skulle kunna höra skillnaderna mellan de två i lågfrekventa toner med något dämpade övertoner. Men det finns en hake: Människor är riktigt dåliga på att höra lågfrekventa ljud. För att höra dessa toner med samma ljudstyrka som toner med högre frekvenser behöver du mellan 10 och 40 dB extra effekt. Så dessa toppar på -87 dB i intervallet 20-90 Hz kan lika gärna vara -97 till -127 dB, vilket ligger utanför det mänskliga hörselns räckvidd. Det finns ingen säker lyssningsnivå för att höra skillnaden mellan dessa filer.
Snygg, va? Det är alltid bra att veta att någon som kommer och säger att din musiksamling måste köpas om för att den inte är tillräckligt ”högupplöst” har bevisligen fel. Om du är en blivande audiofil är det du måste ta med dig från detta är att slappna av: vi befinner oss i en guldålder för ljud här – CD-kvalitet är mer än tillräckligt bra, njut bara av din musik! Vissa kanske vill ha högre ljudkvalitet, men det är inte nödvändigt om allt du vill göra är att lyssna på bra musik.