קאָמפּיוטערס, Programming

UTF-8 - character encoding

אוניקאָד שטיצט כּמעט אַלע יגזיסטינג העלד שטעלט. דער בעסטער סיסטעם פֿאַר אַ אוניקאָד כאַראַקטער שטעלן איז די UTF-8 קאָדירונג. עס גיט קאַמפּאַטאַבילאַטי מיט ASCII, קעגנשטעל צו דאַטן קאָרופּציע, עפעקטיווקייַט און גרינג צו פּראַסעסינג. אבער וועגן אַלץ אין סדר.

פארמען פון קאָדירונג

קאָמפּיוטערס אַרבעט מיט נומערן ניט נאָר אַבסטראַקט מאַטאַמאַטיקאַל אַבדזשעקס, אָבער ווי קאַמבאַניישאַנז פון סטאָרידזש און פּראַסעסינג פאַרפעסטיקט-גרייס אינפֿאָרמאַציע-ביטעס און 32-ביסל ווערטער. קאָדירונג נאָרמאַל מוזן נעמען דעם אין חשבון ווען דיטערמאַנינג ווי צו פאָרשטעלן די נומער פון אותיות.

אין קאָמפּיוטער סיסטעמען, ינטאַדזשערז זענען סטאָרד אין זכּרון סעלז פון 8 ביץ (1 ביי), 16 אָדער 32 ביטן. יעדער אוניקאָד סיסטעם פאָרמירונג באשלאסן וואָס סיקוואַנס פון זכּרון סעלז רעפּראַזענץ אַ ינטאַדזשער קאָראַספּאַנדינג צו אַ ספּעציפיש כאַראַקטער. דער נאָרמאַל גיט דרייַ פאַרשידענע פארמען פון קאָדירונג אוניקאָד אותיות: 8, 16 און 32-ביסל בלאַקס. דעריבער, זיי זענען גערופן UTF-8, UTF-16 און UTF-32. דער נאָמען UTF stands for Unicode conversion format. יעדער פון די דרייַ פארמען פון קאָדירונג איז אַן גלייַך מיטל פון רעפּריזענטינג אוניקאָד אותיות, האט אַדוואַנידזשיז אין פארשיידענע אַפּלאַקיישאַנז.

די קאָדירונג קענען ווערן גענוצט צו פאָרשטעלן אַלע די אותיות פון די אוניקאָד נאָרמאַל. אזוי, זיי זענען גאָר קאַמפּאַטאַבאַל פֿאַר סאַלושאַנז פֿאַר פאַרשידענע סיבות ניצן פאַרשידענע פארמען פון קאָדירונג. יעדער קאָדירונג קענען זיין יוניקלי קאָנווערטעד אין יעדער פון די אנדערע צוויי אָן אָנווער פון דאַטן.

פּרינציפּן פון ניט-ימפּאַזישאַן

יעדער פון די וניקאָד קאָד פאָרמס זענען דיזיינד צו נעמען די אַנאַדמיססיביליטי פון פּאַרטיייש אָוווערלאַפּינג. פֿאַר בייַשפּיל, פֿענצטער -932 דזשענערייץ אותיות פון איין אָדער צוויי ביטעס פון קאָד. די לענג פון די סיקוואַנס דעפּענדס אויף דער ערשטער בייט, אַזוי די לידינג בייט וואַלועס אין די סיקוואַנס פון צוויי ביטעס און אַ איין ביי טאָן נישט ינטערסעקשאַן. אָבער, די וואַלועס פון די איין ביטע און די קלאָוזינג ביטע פון די סיקוואַנס קען זיין די זעלבע. דעם מיטל, פֿאַר בייַשפּיל, אַז ווען איר זוכט פֿאַר די כאַראַקטער D (קאָד 44), איר קענען מיסטייקאַנלי געפינען עס קומט אין די רגע טייל פון די סיקוואַנס פון צוויי ביטעס פון די כאַראַקטער "די" (קאָד 84 44). צו באַשטימען וואָס סיקוואַנס איז ריכטיק, די פּראָגראַם מוזן נעמען אין חשבון די פריערדיקע ביטעס.

דער סיטואַציע ווערט מער קאָמפּליצירט אויב די האר און די קלאָוזינג ביטע גלייַכן. דעם מיטל אַז פאַרקערט די אַמביגיואַטי, אַ פאַרקערט זוכן וועט זיין געטאן ביז דעם אָנהייב פון דעם טעקסט אָדער אַ אַנאַמביגיואַס סיקוואַנס פון קאָד. דאָס איז נישט בלויז באַטלאָניש, אָבער נישט פּראָטעקטעד קעגן מעגלעך ערראָרס, ווייַל איינער שלעכט בייט איז גענוג צו מאַכן די גאנצע טעקסט אַנרידאַבאַל.

די אוניקאָד קאַנווערזשאַן פֿאָרמאַט אַוווידיד דעם פּראָבלעם ווייַל די וואַלועס פון די לידינג, טריילינג און איין אַפּאַראַט פון אינפֿאָרמאַציע סטאָרידזש טאָן ניט גלייַכן. דעריבער, אַלע אוניקאָד ענקאָדינגס זענען פּאַסיק פֿאַר שאַרף און קאַמפּערינג, קיינמאָל געבן אַ עראָוניאַס רעזולטאַט רעכט צו דער צופאַל פון פאַרשידענע פּאַרץ פון די כאַראַקטער קאָד. דער פאַקט אַז די קאָדירונג פארמען צו נאָכפאָלגן די פּרינציפּן פון ניט-אַסיינמאַנט דיסטינגגווישיז זיי פון אנדערע מאַלטי-ביי מזרח אַסיאַן ענדינגז.

אן אנדער אַספּעקט נאָנינטערסעקטיאָן אוניקאָד ענקאָדינגס איז אַז יעדער כאַראַקטער האט אַ קלאר Defined גרענעץ. דעם ילימאַנייץ דעם דאַרפֿן צו יבערקוקן אַן אַנדיטערמינד נומער פון פרייַערדיק אותיות. דעם שטריך פון ענקאָדינגס איז מאל גערופן זיך-סינגקראַנאַזיישאַן. דיסטאָרשאַן פון איין אַפּאַראַט פון קאָד וועט פירן צו דיסטאָרשאַן פון בלויז איין כאַראַקטער, און אַרומיק סימבאָלס בלייַבן בעשאָלעם. אין דעם 8-ביסל קאַנווערזשאַן פֿאָרמאַט, אויב די טייַטל רעפערס צו אַ ביטע אָנהייב מיט 10 קסקסקסקסקס (אין ביינערי סיסטעם), איין-דרייַ פאַרקערט טראַנזישאַנז זענען פארלאנגט צו זוכן פֿאַר די אָנהייב פון די כאַראַקטער.

קאָנסיסטענסי

די אוניקאָד קאָנסאָרטיום גאָר שטיצט אַלע 3 סיסטעם פאָרמאַץ. עס איז וויכטיק נישט צו אַנטקעגנשטעלנ זיך UTF-8 און Unicode, ווייַל אַלע קאַנווערזשאַן פֿאָרמאַטירונגען זענען גלייַך לאַדזשיטאַמאַט ימפּלאַמענטיישאַן פון אוניקאָד כאַראַקטער קאָדירונג פארמען.

ביי-אָריענטירונג

צו פאָרשטעלן די UTF-32 סימבאָל, איר דאַרפֿן אַ 32-ביסל אַפּאַראַט פון קאָד וואָס גלייַכן די אוניקאָד קאָד. UTF-16 - 16-1-ביסל אַפּאַראַט. און UTF-8 ניצט אַרויף צו 4 ביטעס.

די סיסטעם פון UTF-8 איז דיזיינד פֿאַר קאַמפּאַטאַבילאַטי מיט בייט-אָריענטיד סיסטעמס באזירט אויף אַסקי. רובֿ פון די יגזיסטינג ווייכווארג און אינפֿאָרמאַציע טעכנאָלאָגיע פּראַקטיסיז האָבן פֿאַר אַ לאַנג צייַט רילייד אויף די פאַרטרעטונג פון סימבאָלס אין די פאָרעם פון אַ סיקוואַנס פון ביטעס. מער ווי איין פּראָטאָקאָלס דעפּענדס אויף די קאַנסטאַנסי פון אַסקי סיסטעם און ניצט אָדער אַוווידז די ספּעציעל קאָנטראָל אותיות. אַ גרינג וועג צו אַדאַפּט אוניקאָד צו אַזאַ סיטואַטיאָנס איז ביי ניצן 8-ביסל קאָדירונג צו פאָרשטעלן וניקאָדע אותיות עקוויוואַלענט צו קיין ASCII כאַראַקטער אָדער קאָנטראָל כאַראַקטער. פֿאַר דעם, UTF-8 קאָדירונג איז בדעה.

Variable length

UTF-8 איז אַ בייַטעוודיק-לענג קאָדירונג קאַנסיסטינג פון 8-ביסל אינפֿאָרמאַציע סטאָרידזש וניץ וואָס הויך-סדר ביטן אָנווייַזן וואָס טייל פון די סיקוואַנס יעדער איין ביטע געהערט צו. איינער קייט פון וואַלועס איז רעזערווירט פֿאַר דער ערשטער עלעמענט פון די קאָד סיקוואַנס, די אנדערע פֿאַר די סאַבסאַקוואַנט עלעמענטן. דעם ענשורז דיסדזשאָינט סיסטעם.

ASCII

די UTF-8 סיסטעם גאָר שטיצט ASCII קאָודז (0 קס00-0 קס 7 ף). דעם מיטל אַז וניקאָדע אותיות ו + 0000-ו +007 ף זענען קאָנווערטעד צו אַ איין ביטע 0 קס00-0 קס 7 ף וטף -8 און אַזוי ווערן ינדיסטינגגווישאַבאַל פון אַסקי. דערצו, צו ויסמייַדן אַמביגיואַט, די וואַלועס 0 קס00-0 קס 7 ף זענען נישט געניצט אין קיין בייט פון די אוניקאָד כאַראַקטער פאַרטרעטונג. צו ענקריפּן ניט-יידישאַפייינג סימבאָלס ווי אַסקי, אַ סיקוואַנס פון צוויי ביטעס איז געניצט. סימבאָלס פון די קייט ו + 0800-ו + פפף זענען רעפּראַזענטאַד דורך דרייַ ביטעס, און נאָך אָנעס מיט קאָודז גרעסער ווי ו + פפפף דאַרפן פיר ביטעס.

פאַרנעם פון אַפּלאַקיישאַן

די קאָדירונג פון UTF-8 איז יוזשאַוואַלי בילכער אין די HTML פּראָטאָקאָל און ענלעך צו עס.

קסמל איז דער ערשטער נאָרמאַל מיט פול UTF-8 קאָדירונג שטיצן. אָרגאַניזאַציעס אין נאָרמאַליזיישאַן אויך רעקאַמענדיד. שטיצן פּראָבלעם אין די URL אַדרעס אַז איז אַנדערש פון די אַסקי-אותיות, איז געווען ריזאַלווד ווען די קאָנסאָרטיום וו 3 ק און יעטף ינזשעניעריע גרופּע זענען געקומען צו אַ העסקעם אויף די קאָודינג פון אַלע URL ווענדט אויסשליסלעך אין UTF-8.

קאָמפּאַטיביליטי מיט ASCII facilitates the transition to new software. מיט UTF-8, most text editors work, including JEdit, Emacs, BBEdit, Eclipse and Notepad of the Windows operating system. קיין אנדערע פאָרעם פון אוניקאָד קאָודינג קענען באַרימערייַ פון אַזאַ שטיצן פון די מכשירים.

דער רעזולטאַט פון די קאָדירונג איז אַז עס באשטייט פון אַ סיקוואַנס פון ביטעס. מיט UTF-8 סטרינגס, עס איז גרינג צו אַרבעטן אין C און אנדערע פּראָגראַממינג שפּראַכן. דאָס איז דער בלויז פאָרעם פון די קאָדירונג וואָס טוט נישט דאַרפן די מאַרקינג פון די סדר פון די באָמבע ביטעס אָדער די קאָדירונג דעקלאַראַציע אין קסמל.

Self-Sync

אין אַ סביבה ניצן 8-ביסל כאַראַקטער פּראַסעסינג, קאַמפּערד מיט אנדערע מאַלטי-ביי קעודינגז, UTF-8 האט די פאלגענדע אַדוואַנידזשיז:

דער ערשטער ביטע פון די קאָד סיקוואַנס כּולל אינפֿאָרמאַציע וועגן זייַן לענג. דעם ינקריסאַז די עפעקטיווקייַט פון דירעקט זוכן.
עס איז סימפּליפיעד צו געפֿינען די אָנהייב פון די כאַראַקטער, זינט די ערשט בייט איז לימיטעד צו אַ פאַרפעסטיקט קייט פון וואַלועס.
עס איז קיין ינטערסעקשאַן פון בייט וואַלועס.

פאַרגלייַך פון אַדוואַנטידזשיז

די UTF-8 קאָדירונג איז סאָליד. אבער ווען אַפּלייינג פֿאַר די קאָדירונג פון מזרח אַסיאַן אותיות (כינעזיש, יאַפּאַניש, קאָרעיִש, ניצן כינעזיש אותיות) 3-ביי סיקוואַנסיז זענען געניצט. אויך UTF-8-קאָדירונג איז ינפעריער צו אנדערע פארמען פון סיסטעם דורך פּראַסעסינג גיכקייַט. א ביינערי שטריקל סאָרטינג טראגט דער זעלביקער רעזולטאַט ווי אַ אוניקאָד ביינערי סאָרט.

כאַראַקטער קאָדירונג סכעמע

דער שריפֿטצייכן סיסטעם באשטעטיקט פון אַ סימפּלע קאָדירונג פאָרמע און אַ מעטאָד פון בייט-ביי-פּיקסעל אָרדענונג פון קאָד וניץ. צו באַשטימען דעם סיסטעם סכעמע דורך די אוניקאָד סטאַנדאַרדס, די נוצן פון די ערשט בייבי סדר ציל (באָם, ביטע סאָרט) איז צוגעשטעלט.

ווען איר ווענדן אויף די באָם אין UTF-8, די פאַנגקשאַנז פון די פירמע איז באגרענעצט בלויז דורך ינדיקייץ די נוצן פון די קאָדירונג פאָרעם. דער פּראָבלעם פון דיטערמאַנינג די סדר פון ביטעס אין UTF-8 איז נישט, זינט זייַן אַפּאַראַט גרייס אַפּאַראַט איז איין ביטע. די נוצן פון באָם פֿאַר דעם קאָדירונג פאָרעם איז ניט מאַנדאַטאָרי אדער רעקאַמענדיד. באָם קענען פּאַסירן אין טעקסץ קאָנווערטעד פון אנדערע ענקאָדינגס וואָס נוצן די בייט סדר ציל, אָדער פֿאַר די UTF-8 קאָדירונג כסימע. איז אַ סיקוואַנס פון 3 בייטן עף בב ₁₆ ₁₆ בף _16.

ווי צו שטעלן UTF-8 קאָדירונג

די HTML קאָודינג UTF-8 איז אינסטאַלירן מיט די ווייַטערדיק קאָד:

˂head˃

Http-equiv = "אינהאַלט טיפּ" צופרידן = "טעקסט / HTML, טשאַרסעט = וטף -8" ˃

אין פפּ, UTF-8 קאָדירונג איז ספּעסאַפייד ניצן די כעדער () פונקציאָנירן אין דער זייער אָנהייב פון דער טעקע נאָך באַשטעטיקן די ווערט פון די טעות רעזולטאַט מדרגה:

˂? פפּ

Error_reporting (-1);

כעדער ( "אינהאַלט-טיפּ: טעקסט / HTML; טשאַרסעט = UTF-8 ');

צו פאַרבינדן צו מיסקל דייטאַבייסיז, די סיסטעם פון UTF-8 איז שטעלן ווי גייט:

˂? פפּ

מיסקל_סעט_טשאַרסעט ('וטפ 8');

אין CSS טעקעס, UTF-8 character encoding is specified as follows:

@charset "UTF-8";

ווען שפּאָרן טעקעס פון אַלע טיפן, UTF-8 קאָדירונג אָן באָם איז אויסגעקליבן, אַנדערש די פּלאַץ וועט נישט אַרבעטן. צו דעם, אין די דרעאַמוועאַווע פּראָגראַם, אויסקלייַבן די מעניו נומער "מאָדיפיקאַטיאָנס - זייַט פּראָפּערטיעס - טיטל / קאָדירונג", טוישן די קאָדירונג צו UTF-8. דערנאָך זאָל איר איבערחזרן די בלאַט, דעקט צו די קעסטל "Connect Unicode Signatures (BOM)" און צולייגן די ענדערונגען. אויב קיין טעקסט אויף דעם בלאַט אָדער אין די דאַטאַבאַסע איז איינגעווארצלט דורך אן אנדער פאָרעם פון קאָדירונג, דעמאָלט עס מוזן זיין שייַעך-אריין אָדער שייַעך-קאָדעד. ווען ארבעטן מיט רעגולער אויסדרוקן, עס איז פארלאנגט צו נוצן די ו מאָדיפיער.

איר קענען אויך ראַטעווען די טעקע אין די UTF-8 קאָדירונג אין Windows נאָטעפּאַד. נאָך סעלינג די מעניו נומער "טעקע - היט ווי ..." שטעלן די נייטיק סיסטעם פאָרעם און ראַטעווען די טעקע אין UTF-8 קאָדירונג.

אין די נאָטעפּאַד + + טעקסט רעדאַקטאָר, אויב די קאָדירונג איז אַנדערש פון UTF-8, טוישן די קאָדירונג און ראַטעווען עס אין UTF-8 קאָדירונג דורך די מעניו נומער "Convert to UTF-8 without BOM".

עס איז קיין אָלטערנאַטיוו

אין דעם קאָנטעקסט פון גלאָובאַליזיישאַן, ווען פּאַלאַטיש און שפּראַך באַונדריז זענען בלערד, כאַראַקטער שטעלט וואָס האָבן היגע קעראַקטעריסטיקס ווערן ווייניקער נוצלעך. אוניקאָד איז די בלויז כאַראַקטער באַשטימט וואָס שטיצט אַלע לאָקאַליזאַטיאָנס. און UTF-8 איז אַ בייַשפּיל פון די ריכטיק ימפּלאַמענטיישאַן פון אוניקאָד, וואָס:

שטיצט אַ ברייט קייט פון מכשירים, אַרייַנגערעכנט קאַמפּאַטאַבילאַטי מיט אַסקי סיסטעם;
האט אַ קעגנשטעל צו דאַטן קאָרופּציע;
גרינג און עפעקטיוו אין פּראַסעסינג;
טוט נישט אָפענגען אויף די פּלאַטפאָרמע.

מיט דעם אַדווענט פון UTF-8, דיסקוסיעס וועגן וואָס פאָרעם פון קאָדירונג אָדער כאַראַקטער שטעלן איז בעסער האָבן ווערן מינינגלאַס.

קאָמפּיוטערס, Programming

UTF-8 - character encoding

פארמען פון קאָדירונג

פּרינציפּן פון ניט-ימפּאַזישאַן

קאָנסיסטענסי

ביי-אָריענטירונג

Variable length

ASCII

פאַרנעם פון אַפּלאַקיישאַן

Self-Sync

פאַרגלייַך פון אַדוואַנטידזשיז

כאַראַקטער קאָדירונג סכעמע

ווי צו שטעלן UTF-8 קאָדירונג

עס איז קיין אָלטערנאַטיוו

Similar articles

קאָמפּיוטערס

קאָמפּיוטערס

קאָמפּיוטערס

קאָמפּיוטערס

קאָמפּיוטערס

קאָמפּיוטערס

Trending Now

געזונטהייַט

עסנוואַרג און בעוורידזשיז

פון טעכנאָלאָגיע

געזונטהייַט

געזונטהייַט

קאָמפּיוטערס

Newest

קאָמפּיוטערס

פאָרמירונג

פון טעכנאָלאָגיע

געזונטהייַט

האָמעלינעסס

געזונטהייַט