MP3 Nedir, Ne İşe Yarar?

MP3 (MPEG-1 Ses Katmanı 3), MPEG (Moving Picture Experts Group) tarafından MPEG video formatının 1 versiyonunun bir parçası olmak üzere geliştirilmiş kayıplı bir sıkıştırılmış dijital ses formatıdır.

MP3 Dosya Formatı Tanımı ve Özellikleri

MP3 Dosyası ve Uzantısı Nedir?

MP3’ün standart değeri 144 kHz ve kalite/boyut oranı için 317 kbps bittir. Bu terim MPEG-1 Ses Katmanı 3’ün kısaltmasıdır ve bir MP3 çalar ile karıştırılmamalıdır.

Tarihi

MP3 uzantısı, Thomson Multimedia ile birlikte MP3 ile ilgili patentlerin çoğunu kontrol eden Fraunhofer-Gesellschaft Alman araştırma merkezleri ağının bir parçası olan Fraunhofer IIS Enstitüsü’nün elektronik medya teknolojileri direktörü Karlheinz Brandenburg tarafından geliştirilmiştir.

Birinci versiyon 1986’da yayınlandı fakat 1991’de geliştirilmiş sürümler devam etti. Ancak Brandenburg, bilgisayarında tuttuğu MP3 ile ilgili dosyalar için .mp3 uzantısını ilk kez Temmuz 1995’de kullandı.

Bir yıl sonra, enstitüsü patentler için 1,2 milyon avro ödedi ve on yıl sonra bu miktar 26,1 milyona ulaştı.

MP3, sıkıştırma kalitesini, saniye başına boyut bit hızı ile orantılı olarak ayarlayabilme ve dolayısıyla dosyanın kaplayabileceği son boyut ayarlaması sayesinde ses akışı ve yüksek kaliteli ses için orijinal sıkıştırılmamış dosyadan 12 ve hatta 15 kat daha az olan standart oldu.

Müzik dosyalarının değişimini mümkün kıldığı için İnternet sayesinde popüler hale gelen ilk ses sıkıştırma formatıdır.

Bu tür dosyaların paylaşılma kolaylığının sonucunda Napster ve AudioGalaxy gibi şirketlere yönelik yasal işlemler başlatıldı.

Müzik kanallarında (stereo) otonom, taşınabilir veya entegre oynatıcıların geliştirilmesinden sonra, MP3 formatı bilgisayar dünyasının vazgeçilmez bir unsuru oldu.

2002’nin başında, Windows Media Audio ve Ogg Vorbis gibi diğer sıkıştırılmış ses formatları, programlara, işletim sistemlerine ve oynatıcılara büyük ölçüde dahil edilmeye başladı ve bunun sonucunda MP3’ün diğer formatlar karşısında yavaş yavaş kullanılmayacağı öngörüldü.

MP3 ses formatının düşüşünü etkileyen faktörlerden biri de patent sorunlarıdır.

Teknik olarak, kalitesinin düşük veya üstün olduğu anlamına gelmez, ancak topluluğun onu geliştirmeye devam etmesini önler ve bazı codec bileşenlerinin kullanımı için ödeme yapmaya zorlayabilir, bu durum MP3 çalarlarda olan birşeydir.

Yine de, MP3 dosya formatı ve uzantısı günümüzde en çok kullanılan ve en başarılı buluşlardan biridir.

Ses formatını daha karmaşık hale getiren hibrit filtre bankası olarak adlandırılan MPEG-1 ve MPEG-2 standartları ile ilgili farklılıklar vardır.

Frekans çözünürlüğündeki bu gelişme, öngörülen ve düzeltilen yankı öncesi problemler getirerek zamansal çözünürlüğü kötüleştirir ve 64 kbps’ye kadar düşük hızlarda ses kalitesi sağlar.

Filtre Bankası

Bu katmanda kullanılan filtre bankası, hibrit çok fazlı / MDCT filtre bankasıdır.

Zaman alanını hem kodlayıcı hem de kod çözücü yeniden yapılandırma filtreleri için frekansla eşlemekten sorumludur.

Değişken frekans çözünürlüğü, 6×32 veya 18×32 alt bantlar sağlar ve farklı frekansların kritik bantlarına çok daha iyi ayarlanır.

18 nokta kullanıldığında, maksimum frekans bileşeni sayısı 32 x 18 = 576’dır. Bunun sonucu olarak 24000/576 = 41,67 Hz frekans çözünürlüğü elde edilir.

6 frekans çizgisi kullanılırsa, frekans çözünürlüğü daha düşüktür, ancak zamansal çözünürlük daha yüksektir ve eko öncesi etkilerin yüksek enerji seviyelerinde ani sessizlik geçişleri beklendiği alanlarda uygulanır.

Katman III, 32 filtre bankası çıkışının tümünün pencerelerden ve MDCT dönüşümlerinden geçebileceği üç çalışma bloğu moduna ve en düşük iki frekans bandının uzun bloklar ve ilk 30 bandın kısa bloklar kullandığı karışık bir blok moduna sahiptir.

MPEG-1 standardı için üçüncü ses katmanı anlamına gelen MPEG-1 Ses Katmanı 3’ün özel durumu için dört tür pencere belirtir; normal, uzun pencereden kısa pencereye geçiş (BAŞLAT), 3 kısa pencereden (KISA) ve kısa pencereden uzun pencereye geçiş (DURDUR).

MP3 Yapısı

Bir Mp3 dosyası, bir başlık ve verilerden oluşan farklı çerçevelerden oluşur ve bu veri elementer stream olarak adlandırılır.

Çerçevelerin her biri bağımsızdır, yani bir kişi bir MP3 dosyasının çerçevelerini kesebilir ve daha sonra bunları herhangi bir MP3 çalarda çalabilir.

Başlık, geçerli bir karenin başlangıcını belirtmek için kullanılan bir senkronizasyon kelimesinden oluşur.

Psikoakustik Model

Sıkıştırma, alakasız dinamik aralığın azaltılmasına, yani işitme sisteminin maskeleme koşulları altında niceleme hatalarını tespit edememesine dayanır.

Bu standart, sinyali kritik bantlara yaklaşan frekans bantlarına böler ve ardından her alt bandı o bant içindeki gürültü algılama eşiğine göre nicelleştirir.

Psikoakustik model bir değişikliktir ve polinom tahmini olarak adlandırılan bir yöntem kullanır.

Ses sinyalini analiz eder ve frekansın bir fonksiyonu olarak sokulabilen gürültü miktarını, yani frekansın bir fonksiyonu olarak maskeleme miktarını/eşiğini hesaplar.

Kodlayıcı bu bilgileri, kullanılabilir bitleri harcamanın en iyi yoluna karar vermek için kullanır.

Bu standart, farklı karmaşıklık model I’in psikoakustik model II’den daha az karmaşık olduğu iki psikoakustik model sağlar ve hesaplamaları büyük ölçüde basitleştirir.

Bu durumda, üretilen bozulmanın, 256 kbps ve normal koşullar altında optimal bir ortamda deneyimli kulağa algılanamayacağını göstermektedir.

128 kbps veya 96 kbps’ye kadar deneyimsiz veya ortak kulak için, bas eksikliğinin aşırı derecede farkedildiği ve tiz sesinin yüksek olduğu ses kalitesine sahip olmadığınız sürece iyi bir ses duyabilirsiniz.

Çok fazla müzik dinleyen ve deneyime sahip insanlar, 192 veya 256 kbps’den sesi iyi duyabilir. İnternette dolaşan müzik çoğunlukla 128 ila 192 kbps arasında kodlanmıştır.

Kodlama

Bu standart tarafından bitlerin veya gürültünün dağıtımı, dahili ve harici bir döngüden oluşan bir yineleme döngüsünde yapılır.

Hem filtre bankası çıktı örneklerini hem de psikoakustik model tarafından sağlanan sinyal-maske oranını (SMR) inceler ve bit hızı gereksinimlerini ve maskelemeyi aynı anda karşılamak için kullanılan şemaya bağlı olarak bit veya gürültü ayarlanabilir.

Dahili Döngü

Dahili döngü, her bir MDCT spektral değerinin 3/4 gücüne yükseltildiği kayan nokta sistemine göre eşit olmayan nicemleme yapar.

Çevrim belirli bir nicemleme aralığı seçer ve Huffman kodlaması bir sonraki bloktaki nicelenmiş verilere uygulanır.

Huffman ile kodlanan nicelenmiş değerler, izin verilen maksimum bit sayısından daha az veya eşit sayıda bit kullandığında döngü sona erer.

Harici Döngü

Şimdi dış döngü, her alt bant için ölçek faktörünün izin verilenden daha fazla bozulmaya sahip olup olmadığını doğrulamaktan sorumludur. Ölçek faktörünün her bandını daha önce psikoakustik analizde hesaplanan verilerle karşılaştırır.

Harici döngü, her iki ölçek faktörü bandında fazla gürültü olmadığında veya bir sonraki yineleme bantlardan birini izin verilenden daha fazla arttırdığında sona erer. Sonuçta, bantlar en az bir kez amplifiye edilmiştir.

Bit Akımı Paketleme

Bu blok, ses verileriyle birlikte nicelenen örnekleri filtre bankasından alır ve kodlanan sesi ve bazı ek verileri karelerde saklar.

Her çerçeve 1152 ses örneğinden bilgi içerir ve bir başlık, ses verileri ve CRC tarafından hata kontrolü ve yardımcı verilerden oluşur.

Başlık, kodlanmış ses için hangi katmanın, bit hızının ve örnek hızının kullanıldığını açıklar.

Çerçeveler aynı senkronizasyon ve farklılaştırma üstbilgisiyle başlar ve uzunlukları değişebilir.

Bu bilgi ile uğraşmanın yanı sıra, bilgi kaybı olmadan fazlalığı ortadan kaldıran bir kodlama yöntemi olan değişken uzunlukta Huffman kodlamasını da içerir.

Bilgiyi kodlamak için sıkıştırma sonunda hareket eder.

Değişken uzunluklu yöntemler genellikle en sık karşılaşılan olaylara kısa sözcükler atayarak, en sık rastlananlar için uzun kelimeler bırakarak karakterize edilir.

Dijital Sesin Efsanevi Formatı MP3 Hakkında SSS

Kulağımla duyamayacağım sesleri silerek dosyayı küçülttüğü söyleniyor, bu sihirli eleme nasıl çalışıyor?

Bu işin büyüsü psikoakustik modelde saklı. Ses mühendisleri insan kulağının anatomik sınırlarını acımasızca kullanır. Kısık bir sesin hemen ardından gelen yüksek bir ses duyduğunuzu düşünün. Beyniniz o kısık sesi duymazlıktan gelir.

İşte kodlayıcı tam da bu anlık sağırlığı taklit ediyor. Frekans bantlarını tarayıp maskeleme eşiğinin altında kalan verileri siliyor. Buna ‘alakasız dinamik aralığın azaltılması’ diyoruz.

Sanki gürültülü bir kafede konuşurken, ortam uğultusunun kelimelerinizi yutması gibi. Kodlayıcı da bitleri en çok ihtiyaç duyulan frekanslara ustalıkla paylaştırır. Deneyimsiz kulaklar 128 kbps’de bile sorun yaşamazken, altın kulaklı bir müzik tutkunu 192 kbps altında basların ufalandığını hemen fark eder.

Bir MP3 dosyasını ortadan ikiye bölsem, ikinci yarı hala çalar mı?

Evet, hem de en ufak bir hıçkırık olmadan. Bunu sağlayan zekice düşünülmüş çerçeve yapısıdır. Her bir kare bağımsızlığını ilan etmiş küçük birer ada gibidir. Kendi içinde bir başlık, hata kontrolü ve en kritiği bir senkronizasyon kelimesi taşır.

Bir ses dosyasını kestiğinizde oynatıcı ilk gördüğü senkronizasyon kelimesine atlar. Hemen akabinde başlıktaki bit hızı ve örnekleme oranı gibi bilgileri okur. Sonra da veriyi çalmaya başlar.

Yani dosyanın başında bir bütünlük kontrolü yapacak bir indeks aramaz. Bu yapı sayesinde radyo yayınlarındaki streamler bile kesintisiz akar.

Sıkıştırma kalitesini belirlerken sürekli konuşulan bit hızı aslında tam olarak neyi ifade ediyor?

Bit hızı, bir saniyelik sesi paketlemek için cebinizden çıkan veri miktarıdır. Dosyanın boyutunu ve sesin ruhunu belirleyen tek düğmedir. Standart 128 kbps dediğimizde, saniyede 128 bin bit bilgi akıyor demektir.

Kalite ve boyut arasındaki acımasız dengeyi bu ayar kurar. Düşük bit hızlarında dosya minicik olur ama tiz sesler metalik bir hışırtıya dönüşür. Yüksek bit hızlarında ise neredeyse stüdyo kalitesine ulaşırsınız.

Filtre bankası ve kodlama döngüleri, işte tam da bu veri bütçesine sadık kalmak için çılgınca hesaplama yapar. Dış döngü gürültüyü baskılamaya çalışırken, iç döngü de kayan nokta hesaplarıyla niceleme yapar.

Bu formatı bu kadar efsanevi yapan ve en büyük rakiplerine karşı hala hayatta tutan neydi?

Hikayesinin başlangıcı epey sancılı. Brandenburg ve Fraunhofer ekibi daha 1986’da temelleri attı. Uzantıyı ise ancak 1995 Temmuz’unda bir dosya adının sonuna yazdı ve patentler için ilk 1,2 milyon avroyu ödedi. İnternetin altın çağında, bu mütevazı başlangıç bir devrime dönüştü.

Telefon hattıyla bağlanılan günlerde bir şarkıyı 12 ila 15 kat küçültebilmesi rakipsiz bir güçtü. Napster dalgası ve taşınabilir oynatıcıların doğuşu, onu bir alt kültür ikonu yaptı.

Sonrasında daha verimli rakipler çıktı. Evet, patent sorunları yüzünden topluluğun geliştirme hızı kesildi. Ancak milyarlarca cihazın ortak dili olmayı başardığı için hiçbir format onu tahtından tam anlamıyla indiremedi.

Şarkıyı kodlarken sadece bit hızına mı bakmalıyım, yoksa dikkat etmemiz gereken başka bir detay var mı?

Bit hızı buzdağının sadece görünen kısmı. Asıl maharet kodlayıcının içindeki filtre bankasının modunda yatıyor. Ses akışı sakin giderken sistem uzun bloklar kullanır. Bu daha iyi frekans çözünürlüğü yani daha temiz bir ton dengesi sağlar.

Ani bir davul vuruşu ya da sert bir geçiş geldiğinde senaryo tamamen değişir. Kodlayıcı hemen kısa blok moduna geçer. Zamansal çözünürlüğü yükseltip rahatsız edici yankı öncesi bozulmaları engeller.

Hatta karışık blok moduyla basları uzun, yüksek frekansları ise kısa bloklarla işler. İyi kodlayıcıyı kötüsünden ayıran şey, bu modlar arasında START ve STOP pencereleriyle sırıtmadan geçiş yapabilme zarafetidir.

Fraunhofer'ın patentleri süreç içinde tükenmesine rağmen teknoloji dünyasında ismi neden hep bir yük olarak anıldı?

Olaya sadece müzik dinlemek olarak bakarsanız konuyu ıskalarsınız. Yazılım geliştiriciler için bu patentler büyük bir baş belasıydı. Bir kod çözücü (decoder) yazmak istediğinizde lisans kâbusu başlardı. Bu sert kısıtlama, özgür yazılım camiasını çileden çıkardı.

Topluluğun enerjisi bu formatı iyileştirmeye akamadı. Herkes patent kısıtı olmayan Ogg Vorbis ya da AAC gibi alternatiflere koştu. Düşüşünü hızlandıran teknik bir yetersizlik değil, tamamen bu yasal prangalardı.

Ne var ki bu prangalar, yaygınlığını engellemeye yetmedi. Destek çoktan donanımlara kazınmıştı. Bugün artık birçok patentin süresi dolmuş olsa da o geçmişin gölgesi hep üzerinde kaldı.