Apa Perbedaan Antara ASCII dan Teks Unicode?

ASCII dan Unicode adalah standar yang mengacu pada representasi digital teks, khususnya karakter yang menyusun teks. Namun, kedua standar ini sangat berbeda, dengan banyak properti yang mencerminkan urutan pembuatannya masing-masing.

Amerika versus Alam Semesta

The American Standard Code for Information Interchange (ASCII), tidak mengejutkan, melayani audiens Amerika, menulis dalam alfabet Inggris. Ini berkaitan dengan huruf tanpa aksen, seperti A-Z dan a-z, ditambah sejumlah kecil simbol tanda baca dan karakter kontrol.

Secara khusus, tidak ada cara untuk merepresentasikan kata pinjaman yang diadopsi dari bahasa lain, seperti kafe dalam ASCII, tanpa membuatnya menjadi miring dengan mengganti karakter beraksen (mis., kafe). Ekstensi ASCII yang dilokalkan dikembangkan untuk memenuhi kebutuhan berbagai bahasa, tetapi upaya ini membuat interoperabilitas menjadi canggung dan jelas memperluas kemampuan ASCII.

Sebaliknya, Set Karakter Berkode Universal (Unicode) terletak di ujung skala ambisi yang berlawanan. Unicode berusaha untuk melayani sebanyak mungkin sistem penulisan di dunia, sejauh itu mencakup bahasa kuno dan kumpulan simbol ekspresif favorit semua orang, emoji.

instagram viewer

Kumpulan Karakter atau Pengodean Karakter?

Sederhananya, himpunan karakter adalah pilihan karakter (mis., A-Z) sementara karakter encoding adalah pemetaan antara himpunan karakter dan nilai yang dapat direpresentasikan secara digital (mis., A = 1, B = 2).

Standar ASCII secara efektif adalah keduanya: ini mendefinisikan sekumpulan karakter yang diwakilinya dan metode untuk memetakan setiap karakter ke nilai numerik.

Sebaliknya, kata Unicode digunakan dalam beberapa konteks berbeda untuk mengartikan hal yang berbeda. Anda dapat menganggapnya sebagai istilah yang mencakup semua, seperti ASCII, untuk merujuk ke kumpulan karakter dan sejumlah pengkodean. Namun, karena ada beberapa pengkodean, istilah Unicode sering digunakan untuk merujuk pada kumpulan karakter secara keseluruhan, daripada bagaimana mereka dipetakan.

Ukuran

Karena cakupannya, Unicode mewakili lebih banyak karakter daripada ASCII. ASCII standar menggunakan rentang 7-bit untuk menyandikan 128 berbeda karakter. Unicode, di sisi lain, sangat besar sehingga kita perlu menggunakan terminologi yang berbeda hanya untuk membicarakannya!

Unicode melayani 1.111.998 yang dapat dialamatkan poin kode. Titik kode secara kasar dianalogikan dengan ruang yang disediakan untuk karakter, tetapi situasinya jauh lebih rumit daripada saat Anda mulai mempelajari detailnya!

Perbandingan yang lebih berguna adalah berapa banyak skrip (atau sistem penulisan) yang saat ini didukung. Tentu saja, ASCII hanya menangani alfabet Inggris, pada dasarnya skrip Latin atau Romawi. Versi Unicode yang diproduksi pada tahun 2020 melangkah lebih jauh: ini mencakup dukungan untuk total 154 skrip.

Penyimpanan

Rentang 7-bit ASCII berarti bahwa setiap karakter disimpan dalam satu byte 8-bit; bit cadangan tidak digunakan dalam ASCII standar. Ini membuat penghitungan ukuran menjadi sepele: panjang teks, dalam karakter, adalah ukuran file dalam byte.

Anda dapat mengonfirmasi ini dengan urutan perintah bash berikut. Pertama, kami membuat file yang berisi 12 huruf teks:

$ echo -n 'Halo, dunia'> foo

Untuk memeriksa bahwa teks ada dalam pengkodean ASCII, kita dapat menggunakan mengajukan perintah:

$ file foo
foo: teks ASCII, tanpa terminator baris

Terakhir, untuk mendapatkan jumlah pasti byte yang ditempati file, kami menggunakan stat perintah:

$ stat -f% z foo
12

Karena standar Unicode menangani rentang karakter yang jauh lebih besar, file Unicode secara alami membutuhkan lebih banyak ruang penyimpanan. Berapa tepatnya tergantung pada pengkodean.

Mengulangi set perintah yang sama dari sebelumnya, menggunakan karakter yang tidak dapat direpresentasikan dalam ASCII, memberikan hal berikut:

$ echo -n '€'> foo
$ file foo
foo: UTF-8 Unicode text, tanpa terminator baris
$ stat -f% z foo
3

Karakter tunggal itu menempati 3 byte dalam file Unicode. Perhatikan bahwa bash secara otomatis membuat file UTF-8 karena file ASCII tidak dapat menyimpan karakter yang dipilih (€). UTF-8 sejauh ini merupakan pengkodean karakter yang paling umum untuk Unicode; UTF-16 dan UTF-32 adalah dua pengkodean alternatif, tetapi penggunaannya jauh lebih jarang.

UTF-8 adalah pengkodean lebar-variabel, yang berarti menggunakan jumlah penyimpanan yang berbeda untuk titik kode yang berbeda. Setiap titik kode akan menempati antara satu dan empat byte, dengan maksud bahwa karakter yang lebih umum memerlukan lebih sedikit ruang, menyediakan jenis kompresi bawaan. Kerugiannya adalah bahwa menentukan persyaratan panjang atau ukuran dari suatu potongan teks menjadi jauh lebih rumit.

ASCII Adalah Unicode, tetapi Unicode Bukan ASCII

Untuk kompatibilitas mundur, 128 titik kode Unicode pertama mewakili karakter ASCII yang setara. Karena UTF-8 menyandikan masing-masing karakter ini dengan satu byte, teks ASCII apa pun juga merupakan teks UTF-8. Unicode adalah superset dari ASCII.

Namun, seperti yang ditunjukkan di atas, banyak file Unicode tidak dapat digunakan dalam konteks ASCII. Karakter apa pun yang di luar batas akan ditampilkan dengan cara yang tidak terduga, sering kali dengan karakter pengganti yang sama sekali berbeda dari yang dimaksudkan.

Penggunaan Modern

Untuk sebagian besar tujuan, ASCII sebagian besar dianggap sebagai standar warisan. Bahkan dalam situasi yang hanya mendukung skrip Latin — di mana dukungan penuh untuk kompleksitas Unicode ada tidak perlu, misalnya — biasanya lebih nyaman menggunakan UTF-8 dan memanfaatkan ASCII-nya kesesuaian.

Secara khusus, halaman web harus disimpan dan dikirim menggunakan UTF-8, yang merupakan default untuk HTML5. Ini berbeda dengan web sebelumnya, yang ditangani dalam ASCII secara default sebelum digantikan oleh Latin 1.

Standar yang Berubah

Revisi terakhir ASCII terjadi pada tahun 1986.

Sebaliknya, Unicode terus diperbarui setiap tahun. Skrip baru, karakter, dan, khususnya, emoji baru ditambahkan secara teratur. Dengan hanya sebagian kecil dari alokasi ini, set karakter lengkap kemungkinan akan tumbuh dan tumbuh di masa mendatang.

Terkait: Penjelasan 100 Emoji Paling Populer

Penjelasan 100 Emoji Paling Populer

Ada begitu banyak emoji, mungkin sulit untuk mengetahui apa artinya semua itu. Berikut penjelasan emoji paling populer.

ASCII versus Unicode

ASCII melayani tujuannya selama beberapa dekade, tetapi Unicode sekarang telah secara efektif menggantikannya untuk semua tujuan praktis selain sistem lama. Unicode lebih besar dan, karenanya, lebih ekspresif. Ini mewakili upaya kolaboratif di seluruh dunia dan menawarkan fleksibilitas yang jauh lebih besar, meskipun dengan mengorbankan beberapa kerumitan.

Surel

Apa Itu Teks ASCII dan Bagaimana Ini Digunakan?

Teks ASCII tampak samar, tetapi memiliki banyak kegunaan di internet.

Topik-topik terkait

Teknologi Dijelaskan
Emoji
Jargon
Budaya Web
Unicode

Tentang Penulis

Bobby Jack (23 Artikel Dipublikasikan)

Bobby adalah penggemar teknologi yang bekerja sebagai pengembang perangkat lunak selama hampir dua dekade. Dia sangat menyukai game, bekerja sebagai Editor Ulasan di Majalah Switch Player, dan tenggelam dalam semua aspek penerbitan online & pengembangan web.

Selebihnya Dari Bobby Jack

Berlangganan newsletter kami

Bergabunglah dengan buletin kami untuk mendapatkan tip teknologi, ulasan, ebook gratis, dan penawaran eksklusif!

Satu langkah lagi…!

Harap konfirmasi alamat email Anda di email yang baru saja kami kirimkan.

About Technology - denizatm.com

Apa Perbedaan Antara ASCII dan Teks Unicode?

Amerika versus Alam Semesta

Kumpulan Karakter atau Pengodean Karakter?

Ukuran

Penyimpanan

ASCII Adalah Unicode, tetapi Unicode Bukan ASCII

Penggunaan Modern

Standar yang Berubah

ASCII versus Unicode

Berlangganan newsletter kami

Satu langkah lagi…!

kategori

Recent Post

Ulasan PS4, Moto G, Chromebook 11, Domainapalooza [Tech News Digest]

Rahasia Google, Iklan Instagram, Perang Paten, Netflix 4K [Intisari Berita Teknologi]

Tidal Ups the Ante untuk Banding ke Audiophiles