Web

Замена диакритических знаков php

Я пытаюсь заменить акцентированные символы на обычные. Ниже приведено то, что я делаю в настоящее время.

    $string = "Éric Cantona";

    $strict = strtolower($string);

    echo "На входе: ".$strict;

    $patterns[0] = '/[á|â|à|å|ä]/';

    $patterns[1] = '/[ð|é|ê|è|ë]/';

    $patterns[2] = '/[í|î|ì|ï]/';

    $patterns[3] = '/[ó|ô|ò|ø|õ|ö]/';

    $patterns[4] = '/[ú|û|ù|ü]/';

    $patterns[5] = '/æ/';

    $patterns[6] = '/ç/';

    $patterns[7] = '/ß/';

    $replacements[0] = 'a';

    $replacements[1] = 'e';

    $replacements[2] = 'i';

    $replacements[3] = 'o';

    $replacements[4] = 'u';

    $replacements[5] = 'ae';

    $replacements[6] = 'c';

    $replacements[7] = 'ss';

    $strict = preg_replace($patterns, $replacements, $strict);

    echo "Результат: ".$strict;

 Это дает мне следующий результат:

    На входе: éric cantona

    Результат: ric cantona

 Из приведенного выше ric cantona я хочу, чтобы результат был eric cantona.

Может ли кто-нибудь помочь мне в решении данной задачи?

 

 Ответ 1

Если кто-то еще ищет решение «все-в-одном», вот код:

/**

* Замена символов, специфичных для конкретного языка, на ASCII-эквиваленты.

 * @param string $s

 * @return string

 */

public static function normalizeChars($s) {

    $replace = array(

        'ъ'=>'-', 'Ь'=>'-', 'Ъ'=>'-', 'ь'=>'-',

        'Ă'=>'A', 'Ą'=>'A', 'À'=>'A', 'Ã'=>'A', 'Á'=>'A', 'Æ'=>'A', 'Â'=>'A', 'Å'=>'A', 'Ä'=>'Ae',

        'Þ'=>'B',

        'Ć'=>'C', 'ץ'=>'C', 'Ç'=>'C',

        'È'=>'E', 'Ę'=>'E', 'É'=>'E', 'Ë'=>'E', 'Ê'=>'E',

        'Ğ'=>'G',

        'İ'=>'I', 'Ï'=>'I', 'Î'=>'I', 'Í'=>'I', 'Ì'=>'I',

        'Ł'=>'L',

        'Ñ'=>'N', 'Ń'=>'N',

        'Ø'=>'O', 'Ó'=>'O', 'Ò'=>'O', 'Ô'=>'O', 'Õ'=>'O', 'Ö'=>'Oe',

        'Ş'=>'S', 'Ś'=>'S', 'Ș'=>'S', 'Š'=>'S',

        'Ț'=>'T',

        'Ù'=>'U', 'Û'=>'U', 'Ú'=>'U', 'Ü'=>'Ue',

        'Ý'=>'Y',

        'Ź'=>'Z', 'Ž'=>'Z', 'Ż'=>'Z',

        'â'=>'a', 'ǎ'=>'a', 'ą'=>'a', 'á'=>'a', 'ă'=>'a', 'ã'=>'a', 'Ǎ'=>'a', 'а'=>'a', 'А'=>'a', 'å'=>'a', 'à'=>'a', 'א'=>'a', 'Ǻ'=>'a', 'Ā'=>'a', 'ǻ'=>'a', 'ā'=>'a', 'ä'=>'ae', 'æ'=>'ae', 'Ǽ'=>'ae', 'ǽ'=>'ae',

        'б'=>'b', 'ב'=>'b', 'Б'=>'b', 'þ'=>'b',

        'ĉ'=>'c', 'Ĉ'=>'c', 'Ċ'=>'c', 'ć'=>'c', 'ç'=>'c', 'ц'=>'c', 'צ'=>'c', 'ċ'=>'c', 'Ц'=>'c', 'Č'=>'c', 'č'=>'c', 'Ч'=>'ch', 'ч'=>'ch',

        'ד'=>'d', 'ď'=>'d', 'Đ'=>'d', 'Ď'=>'d', 'đ'=>'d', 'д'=>'d', 'Д'=>'D', 'ð'=>'d',

        'є'=>'e', 'ע'=>'e', 'е'=>'e', 'Е'=>'e', 'Ə'=>'e', 'ę'=>'e', 'ĕ'=>'e', 'ē'=>'e', 'Ē'=>'e', 'Ė'=>'e', 'ė'=>'e', 'ě'=>'e', 'Ě'=>'e', 'Є'=>'e', 'Ĕ'=>'e', 'ê'=>'e', 'ə'=>'e', 'è'=>'e', 'ë'=>'e', 'é'=>'e',

        'ф'=>'f', 'ƒ'=>'f', 'Ф'=>'f',

        'ġ'=>'g', 'Ģ'=>'g', 'Ġ'=>'g', 'Ĝ'=>'g', 'Г'=>'g', 'г'=>'g', 'ĝ'=>'g', 'ğ'=>'g', 'ג'=>'g', 'Ґ'=>'g', 'ґ'=>'g', 'ģ'=>'g',

        'ח'=>'h', 'ħ'=>'h', 'Х'=>'h', 'Ħ'=>'h', 'Ĥ'=>'h', 'ĥ'=>'h', 'х'=>'h', 'ה'=>'h',

        'î'=>'i', 'ï'=>'i', 'í'=>'i', 'ì'=>'i', 'į'=>'i', 'ĭ'=>'i', 'ı'=>'i', 'Ĭ'=>'i', 'И'=>'i', 'ĩ'=>'i', 'ǐ'=>'i', 'Ĩ'=>'i', 'Ǐ'=>'i', 'и'=>'i', 'Į'=>'i', 'י'=>'i', 'Ї'=>'i', 'Ī'=>'i', 'І'=>'i', 'ї'=>'i', 'і'=>'i', 'ī'=>'i', 'ij'=>'ij', 'IJ'=>'ij',

        'й'=>'j', 'Й'=>'j', 'Ĵ'=>'j', 'ĵ'=>'j', 'я'=>'ja', 'Я'=>'ja', 'Э'=>'je', 'э'=>'je', 'ё'=>'jo', 'Ё'=>'jo', 'ю'=>'ju', 'Ю'=>'ju',

        'ĸ'=>'k', 'כ'=>'k', 'Ķ'=>'k', 'К'=>'k', 'к'=>'k', 'ķ'=>'k', 'ך'=>'k',

        'Ŀ'=>'l', 'ŀ'=>'l', 'Л'=>'l', 'ł'=>'l', 'ļ'=>'l', 'ĺ'=>'l', 'Ĺ'=>'l', 'Ļ'=>'l', 'л'=>'l', 'Ľ'=>'l', 'ľ'=>'l', 'ל'=>'l',

        'מ'=>'m', 'М'=>'m', 'ם'=>'m', 'м'=>'m',

        'ñ'=>'n', 'н'=>'n', 'Ņ'=>'n', 'ן'=>'n', 'ŋ'=>'n', 'נ'=>'n', 'Н'=>'n', 'ń'=>'n', 'Ŋ'=>'n', 'ņ'=>'n', 'ʼn'=>'n', 'Ň'=>'n', 'ň'=>'n',

        'о'=>'o', 'О'=>'o', 'ő'=>'o', 'õ'=>'o', 'ô'=>'o', 'Ő'=>'o', 'ŏ'=>'o', 'Ŏ'=>'o', 'Ō'=>'o', 'ō'=>'o', 'ø'=>'o', 'ǿ'=>'o', 'ǒ'=>'o', 'ò'=>'o', 'Ǿ'=>'o', 'Ǒ'=>'o', 'ơ'=>'o', 'ó'=>'o', 'Ơ'=>'o', 'œ'=>'oe', 'Œ'=>'oe', 'ö'=>'oe',

        'פ'=>'p', 'ף'=>'p', 'п'=>'p', 'П'=>'p',

        'ק'=>'q',

        'ŕ'=>'r', 'ř'=>'r', 'Ř'=>'r', 'ŗ'=>'r', 'Ŗ'=>'r', 'ר'=>'r', 'Ŕ'=>'r', 'Р'=>'r', 'р'=>'r',

        'ș'=>'s', 'с'=>'s', 'Ŝ'=>'s', 'š'=>'s', 'ś'=>'s', 'ס'=>'s', 'ş'=>'s', 'С'=>'s', 'ŝ'=>'s', 'Щ'=>'sch', 'щ'=>'sch', 'ш'=>'sh', 'Ш'=>'sh', 'ß'=>'ss',

        'т'=>'t', 'ט'=>'t', 'ŧ'=>'t', 'ת'=>'t', 'ť'=>'t', 'ţ'=>'t', 'Ţ'=>'t', 'Т'=>'t', 'ț'=>'t', 'Ŧ'=>'t', 'Ť'=>'t', '™'=>'tm',

        'ū'=>'u', 'у'=>'u', 'Ũ'=>'u', 'ũ'=>'u', 'Ư'=>'u', 'ư'=>'u', 'Ū'=>'u', 'Ǔ'=>'u', 'ų'=>'u', 'Ų'=>'u', 'ŭ'=>'u', 'Ŭ'=>'u', 'Ů'=>'u', 'ů'=>'u', 'ű'=>'u', 'Ű'=>'u', 'Ǖ'=>'u', 'ǔ'=>'u', 'Ǜ'=>'u', 'ù'=>'u', 'ú'=>'u', 'û'=>'u', 'У'=>'u', 'ǚ'=>'u', 'ǜ'=>'u', 'Ǚ'=>'u', 'Ǘ'=>'u', 'ǖ'=>'u', 'ǘ'=>'u', 'ü'=>'ue',

        'в'=>'v', 'ו'=>'v', 'В'=>'v',

        'ש'=>'w', 'ŵ'=>'w', 'Ŵ'=>'w',

        'ы'=>'y', 'ŷ'=>'y', 'ý'=>'y', 'ÿ'=>'y', 'Ÿ'=>'y', 'Ŷ'=>'y',

        'Ы'=>'y', 'ž'=>'z', 'З'=>'z', 'з'=>'z', 'ź'=>'z', 'ז'=>'z', 'ż'=>'z', 'ſ'=>'z', 'Ж'=>'zh', 'ж'=>'zh'

    );

    return strtr($s, $replace);

}

 Обратите внимание на некоторые незначительные изменения, касающиеся немецких умляутов (ä => ae).

 

 

Ответ 2

В PHP 5.4 расширение intl предоставляет новый класс Transliterator.

Я считаю, что это лучший способ удаления диакритических знаков по двум причинам:

  1. Transliterator основан на ICU, поэтому вы используете таблицы библиотеки ICU. ICU это замечательный проект, который развивался в течение года, чтобы предоставить исчерпывающие таблицы и функциональные возможности. Какую бы таблицу вы ни захотели написать сами, она никогда не будет такой же полной, как таблица из ICU.

  2. В UTF-8 символы могут быть представлены по-разному. Например, символ «ñ» может быть сохранен как один (многобайтовый) символ или как комбинация символов ˜ (многобайтовый) и n. Кроме того, некоторые символы в Юникоде являются гомографами: они выглядят одинаково, но имеют разные кодовые точки. По этой причине также важно нормализовать строку.

Вот пример кода:

<?php

$transliterator = Transliterator::createFromRules(':: NFD; :: [:Nonspacing Mark:] Remove; :: NFC;', Transliterator::FORWARD);

$test = ['abcd', 'èe', '€', 'àòùìéëü', 'àòùìéëü', 'tiësto'];

foreach($test as $e) {

    $normalized = $transliterator->transliterate($e);

    echo $e. ' --> '.$normalized."\n";

}

?>

 Результат:

abcd --> abcd

èe --> ee

€ --> €

àòùìéëü --> aouieeu

àòùìéëü --> aouieeu

tiësto --> tiesto

Первый аргумент класса Transliterator выполняет удаление диакритических знаков, а также нормализацию строки.

 

Ответ 3

function replace_spec_char($subject) {

    $char_map = array(

        "ъ" => "-", "ь" => "-", "Ъ" => "-", "Ь" => "-",

        "А" => "A", "Ă" => "A", "Ǎ" => "A", "Ą" => "A", "À" => "A", "Ã" => "A", "Á" => "A", "Æ" => "A", "Â" => "A", "Å" => "A", "Ǻ" => "A", "Ā" => "A", "א" => "A",

        "Б" => "B", "ב" => "B", "Þ" => "B",

        "Ĉ" => "C", "Ć" => "C", "Ç" => "C", "Ц" => "C", "צ" => "C", "Ċ" => "C", "Č" => "C", "©" => "C", "ץ" => "C",

        "Д" => "D", "Ď" => "D", "Đ" => "D", "ד" => "D", "Ð" => "D",

        "È" => "E", "Ę" => "E", "É" => "E", "Ë" => "E", "Ê" => "E", "Е" => "E", "Ē" => "E", "Ė" => "E", "Ě" => "E", "Ĕ" => "E", "Є" => "E", "Ə" => "E", "ע" => "E",

        "Ф" => "F", "Ƒ" => "F",

        "Ğ" => "G", "Ġ" => "G", "Ģ" => "G", "Ĝ" => "G", "Г" => "G", "ג" => "G", "Ґ" => "G",

        "ח" => "H", "Ħ" => "H", "Х" => "H", "Ĥ" => "H", "ה" => "H",

        "I" => "I", "Ï" => "I", "Î" => "I", "Í" => "I", "Ì" => "I", "Į" => "I", "Ĭ" => "I", "I" => "I", "И" => "I", "Ĩ" => "I", "Ǐ" => "I", "י" => "I", "Ї" => "I", "Ī" => "I", "І" => "I",

        "Й" => "J", "Ĵ" => "J",

        "ĸ" => "K", "כ" => "K", "Ķ" => "K", "К" => "K", "ך" => "K",

        "Ł" => "L", "Ŀ" => "L", "Л" => "L", "Ļ" => "L", "Ĺ" => "L", "Ľ" => "L", "ל" => "L",

        "מ" => "M", "М" => "M", "ם" => "M",

        "Ñ" => "N", "Ń" => "N", "Н" => "N", "Ņ" => "N", "ן" => "N", "Ŋ" => "N", "נ" => "N", "ʼn" => "N", "Ň" => "N",

        "Ø" => "O", "Ó" => "O", "Ò" => "O", "Ô" => "O", "Õ" => "O", "О" => "O", "Ő" => "O", "Ŏ" => "O", "Ō" => "O", "Ǿ" => "O", "Ǒ" => "O", "Ơ" => "O",

        "פ" => "P", "ף" => "P", "П" => "P",

        "ק" => "Q",

        "Ŕ" => "R", "Ř" => "R", "Ŗ" => "R", "ר" => "R", "Р" => "R", "®" => "R",

        "Ş" => "S", "Ś" => "S", "Ș" => "S", "Š" => "S", "С" => "S", "Ŝ" => "S", "ס" => "S",

        "Т" => "T", "Ț" => "T", "ט" => "T", "Ŧ" => "T", "ת" => "T", "Ť" => "T", "Ţ" => "T",

        "Ù" => "U", "Û" => "U", "Ú" => "U", "Ū" => "U", "У" => "U", "Ũ" => "U", "Ư" => "U", "Ǔ" => "U", "Ų" => "U", "Ŭ" => "U", "Ů" => "U", "Ű" => "U", "Ǖ" => "U", "Ǜ" => "U", "Ǚ" => "U", "Ǘ" => "U",

        "В" => "V", "ו" => "V",

        "Ý" => "Y", "Ы" => "Y", "Ŷ" => "Y", "Ÿ" => "Y",

        "Ź" => "Z", "Ž" => "Z", "Ż" => "Z", "З" => "Z", "ז" => "Z",

        "а" => "a", "ă" => "a", "ǎ" => "a", "ą" => "a", "à" => "a", "ã" => "a", "á" => "a", "æ" => "a", "â" => "a", "å" => "a", "ǻ" => "a", "ā" => "a", "א" => "a",

        "б" => "b", "ב" => "b", "þ" => "b",

        "ĉ" => "c", "ć" => "c", "ç" => "c", "ц" => "c", "צ" => "c", "ċ" => "c", "č" => "c", "©" => "c", "ץ" => "c",

        "Ч" => "ch", "ч" => "ch",

        "д" => "d", "ď" => "d", "đ" => "d", "ד" => "d", "ð" => "d",

        "è" => "e", "ę" => "e", "é" => "e", "ë" => "e", "ê" => "e", "е" => "e", "ē" => "e", "ė" => "e", "ě" => "e", "ĕ" => "e", "є" => "e", "ə" => "e", "ע" => "e",

        "ф" => "f", "ƒ" => "f",

        "ğ" => "g", "ġ" => "g", "ģ" => "g", "ĝ" => "g", "г" => "g", "ג" => "g", "ґ" => "g",

        "ח" => "h", "ħ" => "h", "х" => "h", "ĥ" => "h", "ה" => "h",

        "i" => "i", "ï" => "i", "î" => "i", "í" => "i", "ì" => "i", "į" => "i", "ĭ" => "i", "ı" => "i", "и" => "i", "ĩ" => "i", "ǐ" => "i", "י" => "i", "ї" => "i", "ī" => "i", "і" => "i",

        "й" => "j", "Й" => "j", "Ĵ" => "j", "ĵ" => "j",

        "ĸ" => "k", "כ" => "k", "ķ" => "k", "к" => "k", "ך" => "k",

        "ł" => "l", "ŀ" => "l", "л" => "l", "ļ" => "l", "ĺ" => "l", "ľ" => "l", "ל" => "l",

        "מ" => "m", "м" => "m", "ם" => "m",

        "ñ" => "n", "ń" => "n", "н" => "n", "ņ" => "n", "ן" => "n", "ŋ" => "n", "נ" => "n", "ʼn" => "n", "ň" => "n",

        "ø" => "o", "ó" => "o", "ò" => "o", "ô" => "o", "õ" => "o", "о" => "o", "ő" => "o", "ŏ" => "o", "ō" => "o", "ǿ" => "o", "ǒ" => "o", "ơ" => "o",

        "פ" => "p", "ף" => "p", "п" => "p",

        "ק" => "q",

        "ŕ" => "r", "ř" => "r", "ŗ" => "r", "ר" => "r", "р" => "r", "®" => "r",

        "ş" => "s", "ś" => "s", "ș" => "s", "š" => "s", "с" => "s", "ŝ" => "s", "ס" => "s",

        "т" => "t", "ț" => "t", "ט" => "t", "ŧ" => "t", "ת" => "t", "ť" => "t", "ţ" => "t",

        "ù" => "u", "û" => "u", "ú" => "u", "ū" => "u", "у" => "u", "ũ" => "u", "ư" => "u", "ǔ" => "u", "ų" => "u", "ŭ" => "u", "ů" => "u", "ű" => "u", "ǖ" => "u", "ǜ" => "u", "ǚ" => "u", "ǘ" => "u",

        "в" => "v", "ו" => "v",

        "ý" => "y", "ы" => "y", "ŷ" => "y", "ÿ" => "y",

        "ź" => "z", "ž" => "z", "ż" => "z", "з" => "z", "ז" => "z", "ſ" => "z",

        "™" => "tm",

        "@" => "at",

        "Ä" => "ae", "Ǽ" => "ae", "ä" => "ae", "æ" => "ae", "ǽ" => "ae",

        "ij" => "ij", "IJ" => "ij",

        "я" => "ja", "Я" => "ja",

        "Э" => "je", "э" => "je",

        "ё" => "jo", "Ё" => "jo",

        "ю" => "ju", "Ю" => "ju",

        "œ" => "oe", "Œ" => "oe", "ö" => "oe", "Ö" => "oe",

        "щ" => "sch", "Щ" => "sch",

        "ш" => "sh", "Ш" => "sh",

        "ß" => "ss",

        "Ü" => "ue",

        "Ж" => "zh", "ж" => "zh",

    );

    return strtr($subject, $char_map);

}

$string = "Ħí ŧħə®ë, юßť å test!";

echo replace_spec_char($string);

 

Ħí ŧħə®ë, юßť å test! => Hi there, jusst a test!

Это не смешивает символы верхнего и нижнего регистра, за исключением длинных символов (например: ss, ch, sch). Также, если вы хотите построить регекс, не зависящий от специальных символов:

rss => '[rŕřŘŗŖרŔРр](?:[sșсŜšśסşСŝ][sșсŜšśסşСŝ]|[ß])'

 Реализация vala:

 https://code.launchpad.net/~jeremy-munsch/synapse-project/ascii-smart/+merge/277477.

 Вот базовый список, с которым вы можете работать; с помощью regex-замены (в sublime text) или с помощью небольшого скрипта вы можете создать из этого массива что угодно, чтобы решить вашу задачу.

"-" => "ъьЪЬ",

"A" => "АĂǍĄÀÃÁÆÂÅǺĀא",

"B" => "БבÞ",

"C" => "ĈĆÇЦצĊČ©ץ",

"D" => "ДĎĐדÐ",

"E" => "ÈĘÉËÊЕĒĖĚĔЄƏע",

"F" => "ФƑ",

"G" => "ĞĠĢĜГגҐ",

"H" => "חĦХĤה",

"I" => "IÏÎÍÌĮĬIИĨǏיЇĪІ",

"J" => "ЙĴ",

"K" => "ĸכĶКך",

"L" => "ŁĿЛĻĹĽל",

"M" => "מМם",

"N" => "ÑŃНŅןŊנʼnŇ",

"O" => "ØÓÒÔÕОŐŎŌǾǑƠ",

"P" => "פףП",

"Q" => "ק",

"R" => "ŔŘŖרР®",

"S" => "ŞŚȘŠСŜס",

"T" => "ТȚטŦתŤŢ",

"U" => "ÙÛÚŪУŨƯǓŲŬŮŰǕǛǙǗ",

"V" => "Вו",

"Y" => "ÝЫŶŸ",

"Z" => "ŹŽŻЗז",

"a" => "аăǎąàãáæâåǻāא",

"b" => "бבþ",

"c" => "ĉćçцצċč©ץ",

"ch" => "ч",

"d" => "дďđדð",

"e" => "èęéëêеēėěĕєəע",

"f" => "фƒ",

"g" => "ğġģĝгגґ",

"h" => "חħхĥה",

"i" => "iïîíìįĭıиĩǐיїīі",

"j" => "йĵ",

"k" => "ĸכķкך",

"l" => "łŀлļĺľל",

"m" => "מмם",

"n" => "ñńнņןŋנʼnň",

"o" => "øóòôõоőŏōǿǒơ",

"p" => "פףп",

"q" => "ק",

"r" => "ŕřŗרр®",

"s" => "şśșšсŝס",

"t" => "тțטŧתťţ",

"u" => "ùûúūуũưǔųŭůűǖǜǚǘ",

"v" => "вו",

"y" => "ýыŷÿ",

"z" => "źžżзזſ",

"tm" => "™",

"at" => "@",

"ae" => "ÄǼäæǽ",

"ch" => "Чч",

"ij" => "ijIJ",

"j" => "йЙĴĵ",

"ja" => "яЯ",

"je" => "Ээ",

"jo" => "ёЁ",

"ju" => "юЮ",

"oe" => "œŒöÖ",

"sch" => "щЩ",

"sh" => "шШ",

"ss" => "ß",

"tm" => "™",

"ue" => "Ü",

"zh" => "Жж"

 

Ответ 4

Вы можете взять этот код за основу. Код из WordPress, используется для генерации красивых урлов (точкой входа является функция slugify()):

/**

* Преобразует все знаки ударения в символы ASCII.

 *

 * Если символов ударения нет, то возвращается только заданная строка.

 *

 * @param string $string Текст, в котором могут присутствовать акцентные символы.

 * @return string Отфильтрованная строка с замененными "красивыми" символами.

 */

function remove_accents($string) {

 if (!preg_match('/[\x80-\xff]/', $string))

  return $string;

 if (seems_utf8($string)) {

  $chars = array(

  // Декомпозиция для дополнения Latin-1

  chr(195).chr(128) => 'A', chr(195).chr(129) => 'A',

  chr(195).chr(130) => 'A', chr(195).chr(131) => 'A',

  chr(195).chr(132) => 'A', chr(195).chr(133) => 'A',

  chr(195).chr(135) => 'C', chr(195).chr(136) => 'E',

  chr(195).chr(137) => 'E', chr(195).chr(138) => 'E',

  chr(195).chr(139) => 'E', chr(195).chr(140) => 'I',

  chr(195).chr(141) => 'I', chr(195).chr(142) => 'I',

  chr(195).chr(143) => 'I', chr(195).chr(145) => 'N',

  chr(195).chr(146) => 'O', chr(195).chr(147) => 'O',

  chr(195).chr(148) => 'O', chr(195).chr(149) => 'O',

  chr(195).chr(150) => 'O', chr(195).chr(153) => 'U',

  chr(195).chr(154) => 'U', chr(195).chr(155) => 'U',

  chr(195).chr(156) => 'U', chr(195).chr(157) => 'Y',

  chr(195).chr(159) => 's', chr(195).chr(160) => 'a',

  chr(195).chr(161) => 'a', chr(195).chr(162) => 'a',

  chr(195).chr(163) => 'a', chr(195).chr(164) => 'a',

  chr(195).chr(165) => 'a', chr(195).chr(167) => 'c',

  chr(195).chr(168) => 'e', chr(195).chr(169) => 'e',

  chr(195).chr(170) => 'e', chr(195).chr(171) => 'e',

  chr(195).chr(172) => 'i', chr(195).chr(173) => 'i',

  chr(195).chr(174) => 'i', chr(195).chr(175) => 'i',

  chr(195).chr(177) => 'n', chr(195).chr(178) => 'o',

  chr(195).chr(179) => 'o', chr(195).chr(180) => 'o',

  chr(195).chr(181) => 'o', chr(195).chr(182) => 'o',

  chr(195).chr(182) => 'o', chr(195).chr(185) => 'u',

  chr(195).chr(186) => 'u', chr(195).chr(187) => 'u',

  chr(195).chr(188) => 'u', chr(195).chr(189) => 'y',

  chr(195).chr(191) => 'y',

  // Decompositions for Latin Extended-A

  chr(196).chr(128) => 'A', chr(196).chr(129) => 'a',

  chr(196).chr(130) => 'A', chr(196).chr(131) => 'a',

  chr(196).chr(132) => 'A', chr(196).chr(133) => 'a',

  chr(196).chr(134) => 'C', chr(196).chr(135) => 'c',

  chr(196).chr(136) => 'C', chr(196).chr(137) => 'c',

  chr(196).chr(138) => 'C', chr(196).chr(139) => 'c',

  chr(196).chr(140) => 'C', chr(196).chr(141) => 'c',

  chr(196).chr(142) => 'D', chr(196).chr(143) => 'd',

  chr(196).chr(144) => 'D', chr(196).chr(145) => 'd',

  chr(196).chr(146) => 'E', chr(196).chr(147) => 'e',

  chr(196).chr(148) => 'E', chr(196).chr(149) => 'e',

  chr(196).chr(150) => 'E', chr(196).chr(151) => 'e',

  chr(196).chr(152) => 'E', chr(196).chr(153) => 'e',

  chr(196).chr(154) => 'E', chr(196).chr(155) => 'e',

  chr(196).chr(156) => 'G', chr(196).chr(157) => 'g',

  chr(196).chr(158) => 'G', chr(196).chr(159) => 'g',

  chr(196).chr(160) => 'G', chr(196).chr(161) => 'g',

  chr(196).chr(162) => 'G', chr(196).chr(163) => 'g',

  chr(196).chr(164) => 'H', chr(196).chr(165) => 'h',

  chr(196).chr(166) => 'H', chr(196).chr(167) => 'h',

  chr(196).chr(168) => 'I', chr(196).chr(169) => 'i',

  chr(196).chr(170) => 'I', chr(196).chr(171) => 'i',

  chr(196).chr(172) => 'I', chr(196).chr(173) => 'i',

  chr(196).chr(174) => 'I', chr(196).chr(175) => 'i',

  chr(196).chr(176) => 'I', chr(196).chr(177) => 'i',

  chr(196).chr(178) => 'IJ',chr(196).chr(179) => 'ij',

  chr(196).chr(180) => 'J', chr(196).chr(181) => 'j',

  chr(196).chr(182) => 'K', chr(196).chr(183) => 'k',

  chr(196).chr(184) => 'k', chr(196).chr(185) => 'L',

  chr(196).chr(186) => 'l', chr(196).chr(187) => 'L',

  chr(196).chr(188) => 'l', chr(196).chr(189) => 'L',

  chr(196).chr(190) => 'l', chr(196).chr(191) => 'L',

  chr(197).chr(128) => 'l', chr(197).chr(129) => 'L',

  chr(197).chr(130) => 'l', chr(197).chr(131) => 'N',

  chr(197).chr(132) => 'n', chr(197).chr(133) => 'N',

  chr(197).chr(134) => 'n', chr(197).chr(135) => 'N',

  chr(197).chr(136) => 'n', chr(197).chr(137) => 'N',

  chr(197).chr(138) => 'n', chr(197).chr(139) => 'N',

  chr(197).chr(140) => 'O', chr(197).chr(141) => 'o',

  chr(197).chr(142) => 'O', chr(197).chr(143) => 'o',

  chr(197).chr(144) => 'O', chr(197).chr(145) => 'o',

  chr(197).chr(146) => 'OE',chr(197).chr(147) => 'oe',

  chr(197).chr(148) => 'R',chr(197).chr(149) => 'r',

  chr(197).chr(150) => 'R',chr(197).chr(151) => 'r',

  chr(197).chr(152) => 'R',chr(197).chr(153) => 'r',

  chr(197).chr(154) => 'S',chr(197).chr(155) => 's',

  chr(197).chr(156) => 'S',chr(197).chr(157) => 's',

  chr(197).chr(158) => 'S',chr(197).chr(159) => 's',

  chr(197).chr(160) => 'S', chr(197).chr(161) => 's',

  chr(197).chr(162) => 'T', chr(197).chr(163) => 't',

  chr(197).chr(164) => 'T', chr(197).chr(165) => 't',

  chr(197).chr(166) => 'T', chr(197).chr(167) => 't',

  chr(197).chr(168) => 'U', chr(197).chr(169) => 'u',

  chr(197).chr(170) => 'U', chr(197).chr(171) => 'u',

  chr(197).chr(172) => 'U', chr(197).chr(173) => 'u',

  chr(197).chr(174) => 'U', chr(197).chr(175) => 'u',

  chr(197).chr(176) => 'U', chr(197).chr(177) => 'u',

  chr(197).chr(178) => 'U', chr(197).chr(179) => 'u',

  chr(197).chr(180) => 'W', chr(197).chr(181) => 'w',

  chr(197).chr(182) => 'Y', chr(197).chr(183) => 'y',

  chr(197).chr(184) => 'Y', chr(197).chr(185) => 'Z',

  chr(197).chr(186) => 'z', chr(197).chr(187) => 'Z',

  chr(197).chr(188) => 'z', chr(197).chr(189) => 'Z',

  chr(197).chr(190) => 'z', chr(197).chr(191) => 's',

  // Euro Sign

  chr(226).chr(130).chr(172) => 'E',

  // GBP (Pound) Sign

  chr(194).chr(163) => '');

  $string = strtr($string, $chars);

 } else {

  // Привязка ISO-8859-1 если нет UTF-8

  $chars['in'] = chr(128).chr(131).chr(138).chr(142).chr(154).chr(158)

   .chr(159).chr(162).chr(165).chr(181).chr(192).chr(193).chr(194)

   .chr(195).chr(196).chr(197).chr(199).chr(200).chr(201).chr(202)

   .chr(203).chr(204).chr(205).chr(206).chr(207).chr(209).chr(210)

   .chr(211).chr(212).chr(213).chr(214).chr(216).chr(217).chr(218)

   .chr(219).chr(220).chr(221).chr(224).chr(225).chr(226).chr(227)

   .chr(228).chr(229).chr(231).chr(232).chr(233).chr(234).chr(235)

   .chr(236).chr(237).chr(238).chr(239).chr(241).chr(242).chr(243)

   .chr(244).chr(245).chr(246).chr(248).chr(249).chr(250).chr(251)

   .chr(252).chr(253).chr(255);

  $chars['out'] = "EfSZszYcYuAAAAAACEEEEIIIINOOOOOOUUUUYaaaaaaceeeeiiiinoooooouuuuyy";

  $string = strtr($string, $chars['in'], $chars['out']);

  $double_chars['in'] = array(chr(140), chr(156), chr(198), chr(208), chr(222), chr(223), chr(230), chr(240), chr(254));

  $double_chars['out'] = array('OE', 'oe', 'AE', 'DH', 'TH', 'ss', 'ae', 'dh', 'th');

  $string = str_replace($double_chars['in'], $double_chars['out'], $string);

 }

 return $string;

}

 

/**

 * Проверяет, закодирована ли строка в формате utf8.

 *

 * @author bmorel at ssi dot fr

 *

 * @param string $Str Проверяемая строка.

 * @return bool True, если $Str соответствует модели UTF-8, false в противном случае.

 */

function seems_utf8($Str) { # by bmorel at ssi dot fr

 $length = strlen($Str);

 for ($i = 0; $i < $length; $i++) {

  if (ord($Str[$i]) < 0x80) continue; # 0bbbbbbb

  elseif ((ord($Str[$i]) & 0xE0) == 0xC0) $n = 1; # 110bbbbb

  elseif ((ord($Str[$i]) & 0xF0) == 0xE0) $n = 2; # 1110bbbb

  elseif ((ord($Str[$i]) & 0xF8) == 0xF0) $n = 3; # 11110bbb

  elseif ((ord($Str[$i]) & 0xFC) == 0xF8) $n = 4; # 111110bb

  elseif ((ord($Str[$i]) & 0xFE) == 0xFC) $n = 5; # 1111110b

  else return false; # Does not match any model

  for ($j = 0; $j < $n; $j++) { # n bytes matching 10bbbbbb follow ?

   if ((++$i == $length) || ((ord($Str[$i]) & 0xC0) != 0x80))

   return false;

  }

 }

 return true;

}

 

function utf8_uri_encode($utf8_string, $length = 0) {

 $unicode = '';

 $values = array();

 $num_octets = 1;

 $unicode_length = 0;

 $string_length = strlen($utf8_string);

 for ($i = 0; $i < $string_length; $i++) {

  $value = ord($utf8_string[$i]);

  if ($value < 128) {

   if ($length && ($unicode_length >= $length))

    break;

   $unicode .= chr($value);

   $unicode_length++;

  } else {

   if (count($values) == 0) $num_octets = ($value < 224) ? 2 : 3;

   $values[] = $value;

   if ($length && ($unicode_length + ($num_octets * 3)) > $length)

    break;

   if (count( $values ) == $num_octets) {

    if ($num_octets == 3) {

     $unicode .= '%' . dechex($values[0]) . '%' . dechex($values[1]) . '%' . dechex($values[2]);

     $unicode_length += 9;

    } else {

     $unicode .= '%' . dechex($values[0]) . '%' . dechex($values[1]);

     $unicode_length += 6;

    }

    $values = array();

    $num_octets = 1;

   }

  }

 }

 return $unicode;

}

 

/**

 * Санирует название, заменяя пробелы на тире.

 *

 * Ограничивает вывод буквенно-цифровыми символами, подчеркиванием (_) и тире (-).

 * Пробел превращается в тире.

 *

 * @param string $title Заголовок, подлежащий преобразованию.

 * @return string Преобразованный заголовок.

 */

function slugify($title) {

 $title = strip_tags($title);

// Сохраняем экранированные октеты.

 $title = preg_replace('|%([a-fA-F0-9][a-fA-F0-9])|', '---$1---', $title);

// Удалите знаки процентов, которые не являются частью октета.

 $title = str_replace('%', '', $title);

// Восстановить октеты.

 $title = preg_replace('|---([a-fA-F0-9][a-fA-F0-9])---|', '%$1', $title);

 $title = remove_accents($title);

 if (seems_utf8($title)) {

  if (function_exists('mb_strtolower')) {

   $title = mb_strtolower($title, 'UTF-8');

  }

  $title = utf8_uri_encode($title, 200);

 }

 $title = strtolower($title);

 $title = preg_replace('/&.+?;/', '', $title); // kill entities

 $title = preg_replace('/[^%a-z0-9 _-]/', '', $title);

 $title = preg_replace('/\s+/', '-', $title);

 $title = preg_replace('|-+|', '-', $title);

 $title = trim($title, '-');

 return $title;

}

 

Схожие статьи

Как стать веб-разработчиком и что нужно знать веб-разработчику
Web

Как стать веб-разработчиком и что нужно знать веб-разработчику

Web

Как усечь строку в PHP до слова, ближайшего к определенному количеству символов

Что такое промышленный интернет вещей: особенности, преимущества и недостатки
Web

Что такое промышленный интернет вещей: особенности, преимущества и недостатки

Список доменов Google: все доменные имена, принадлежащие компании
Web

Список доменов Google: все доменные имена, принадлежащие компании