html_entity_decode

(PHP 4 >= 4.3.0, PHP 5, PHP 7, PHP 8)

html_entity_decode — Wandelt HTML-Entities in ihre entsprechenden Zeichen um

Beschreibung

function html_entity_decode(string $string, int $flags = ENT_QUOTES | ENT_SUBSTITUTE | ENT_HTML401, ?string $encoding = null): string

html_entity_decode() ist das Gegenstück zu htmlentities(), welches HTML-Entities innerhalb von string in ihre entsprechenden Zeichen zurückwandelt.

Genau gesagt dekodiert diese Funktion alle Entities (einschließlich aller numerischen Entities), die a) auf jeden Fall gültig für den gewählten Dokumenttyp sind — d. h. für XML dekodiert diese Funktion keine benannten Entities, die in einer DTD definiert sein könnten — und b) deren Zeichen in der Zeichenkodierung und im gewählten Dokumenttyp erlaubt sind. Alle anderen Entities bleiben wie sie sind.

Parameter-Liste

string

Die Eingabezeichenkette.

flags

Eine Bitmaske von einem oder mehreren der folgenden Flags, die die Behandlung von Anführungszeichen sowie den zu nutzenden Dokumententyp festlegen. Der Standardwert ist ENT_QUOTES | ENT_SUBSTITUTE | ENT_HTML401.

**Verfügbare `flags`-Konstanten**
Name der Konstante	Beschreibung
`ENT_COMPAT`	Wandelt doppelte Anführungszeichen um und lässt einfache Anführungszeichen unverändert.
`ENT_QUOTES`	Wandelt sowohl doppelte als auch einfache Anführungszeichen um.
`ENT_NOQUOTES`	Lässt sowohl doppelte als auch einfache Anführungszeichen unverändert.
`ENT_SUBSTITUTE`	Ersetzt ungültige Code-Unit-Sequenzen mit dem Unicode-Ersatzzeichen U+FFFD (UTF-8) oder � (andernfalls), anstatt eine leere Zeichenkette zurückzugeben.
`ENT_HTML401`	Behandle Code als HTML 4.01.
`ENT_XML1`	Behandle Code als XML 1.
`ENT_XHTML`	Behandle Code als XHTML.
`ENT_HTML5`	Behandle Code als HTML 5.

encoding

Ein optionaler Parameter, der die Zeichenkodierung für eine Konvertierung definiert.

Wird der Parameter encoding ausgelassen, so wird der Wert der Konfigurationsoption default_charset als Standardwert dafür verwendet.

Obwohl dieser Parameter technisch gesehen optional ist, wird dringend empfohlen, den korrekten Wert für den jeweiligen Code anzugeben, falls die Konfigurationsoption default_charset für die jeweilige Eingabe möglicherweise falsch gesetzt ist.

Die folgenden Zeichensätze werden unterstützt:

**Unterstützte Zeichensätze**
Zeichensatz	Alias	Beschreibung
ISO-8859-1	ISO8859-1	Westeuropäisch, Latin-1.
ISO-8859-5	ISO8859-5	Wenig verwendeter kyrillischer Zeichensatz (Latin/Cyrillic).
ISO-8859-15	ISO8859-15	Westeuropäisch, Latin-9. Enthält das Euro-Zeichen sowie französische und finnische Buchstaben, die in Latin-1(ISO-8859-1) fehlen.
UTF-8		ASCII-kompatibles Multi-Byte 8-Bit Unicode.
cp866	ibm866, 866	DOS-spezifischer kyrillischer Zeichensatz.
cp1251	Windows-1251, win-1251, 1251	Windows-spezifischer kyrillischer Zeichensatz.
cp1252	Windows-1252, 1252	Windows spezifischer Zeichensatz für westeuropäische Sprachen.
KOI8-R	koi8-ru, koi8r	Russisch.
BIG5	950	Traditionelles Chinesisch, hauptsächlich in Taiwan verwendet.
GB2312	936	Vereinfachtes Chinesisch, nationaler Standard-Zeichensatz.
BIG5-HKSCS		Big5 mit Hongkong-spezifischen Erweiterungen; traditionelles Chinesisch.
Shift_JIS	SJIS, SJIS-win, cp932, 932	Japanisch
EUC-JP	EUCJP, eucJP-win	Japanisch
MacRoman		Zeichensatz, der von Mac OS verwendet wurde.
`''`		Eine leere Zeichenkette aktiviert die Erkennung durch die Kodierung des Skripts (Zend multibyte), default_charset und die aktuelle Sprachumgebung (siehe nl_langinfo() und setlocale()), in dieser Reihenfolge. Nicht empfehlenswert.

Hinweis: Weitere Zeichensätze sind nicht implementiert. Statt dessen wird die Standard-Kodierung verwendet und eine Warnung ausgegeben.

Rückgabewerte

Gibt die dekodierte Zeichenkette zurück.

Changelog

Version	Beschreibung
8.1.0	`flags` geändert von `ENT_COMPAT` zu `ENT_QUOTES` \| `ENT_SUBSTITUTE` \| `ENT_HTML401`.
8.0.0	`encoding` ist jetzt nullable (akzeptiert den `null`-Wert).

Beispiele

Beispiel #1 Dekodieren benannter HTML-Zeichen

<?php
$orig = "I'll \"walk\" the <b>dog</b> now";

$a = htmlentities($orig);

$b = html_entity_decode($a);

echo $a, PHP_EOL; // I'll &quot;walk&quot; the &lt;b&gt;dog&lt;/b&gt; now

echo $b, PHP_EOL; // I'll "walk" the <b>dog</b> now
?>

Anmerkungen

Hinweis:
Sie wundern sich vielleicht, warum trim(html_entity_decode(' ')); die Zeichenkette nicht zu einer leeren Zeichenkette reduziert. Der Grund dafür ist, dass ' ' in der Standard-Kodierung nicht dem Zeichen mit ASCII-Code 32 entspricht (dieses wird von trim() entfernt), sondern dem Zeichen mit ASCII-Code 160 (0xa0).

Siehe auch

htmlentities() - Wandelt alle geeigneten Zeichen in entsprechende HTML-Entities um
htmlspecialchars() - Wandelt Sonderzeichen in HTML-Entities um
get_html_translation_table() - Liefert die Umwandlungstabelle, die von htmlspecialchars und htmlentities verwendet wird
urldecode() - Dekodiert eine URL-kodierte Zeichenkette

Found A Problem?

Learn How To Improve This Page • Submit a Pull Request • Report a Bug

＋add a note

User Contributed Notes 5 notes

down

136

Martin ¶

15 years ago

If you need something that converts &#[0-9]+ entities to UTF-8, this is simple and works:

<?php
/* Entity crap. /
$input = "Fovi&#269;";

$output = preg_replace_callback("/(&#[0-9]+;)/", function($m) { return mb_convert_encoding($m[1], "UTF-8", "HTML-ENTITIES"); }, $input);

/* Plain UTF-8. */
echo $output;
?>

down

txnull ¶

10 years ago

Use the following to decode all entities:
<?php html_entity_decode($string, ENT_QUOTES | ENT_XML1, 'UTF-8') ?>

I've checked these special entities: 
- double quotes (&#34;)
- single quotes (&#39; and &apos;) 
- non printable chars (e.g. &#13;)
With other $flags some or all won't be decoded.

It seems that ENT_XML1 and ENT_XHTML are identical when decoding.

down

aidan at php dot net ¶

21 years ago

This functionality is now implemented in the PEAR package PHP_Compat.

More information about using this function without upgrading your version of PHP can be found on the below link:

http://pear.php.net/package/PHP_Compat

down

Benjamin ¶

13 years ago

The following function decodes named and numeric HTML entities and works on UTF-8. Requires iconv.

function decodeHtmlEnt($str) {
    $ret = html_entity_decode($str, ENT_COMPAT, 'UTF-8');
    $p2 = -1;
    for(;;) {
        $p = strpos($ret, '&#', $p2+1);
        if ($p === FALSE)
            break;
        $p2 = strpos($ret, ';', $p);
        if ($p2 === FALSE)
            break;
            
        if (substr($ret, $p+2, 1) == 'x')
            $char = hexdec(substr($ret, $p+3, $p2-$p-3));
        else
            $char = intval(substr($ret, $p+2, $p2-$p-2));
            
        //echo "$char\n";
        $newchar = iconv(
            'UCS-4', 'UTF-8',
            chr(($char>>24)&0xFF).chr(($char>>16)&0xFF).chr(($char>>8)&0xFF).chr($char&0xFF) 
        );
        //echo "$newchar<$p<$p2<<\n";
        $ret = substr_replace($ret, $newchar, $p, 1+$p2-$p);
        $p2 = $p + strlen($newchar);
    }
    return $ret;
}

down

-1

Daniel A. ¶

7 years ago

I wanted to use this function today and I found the documentation, especially about the flags, not particularly helpful.

Running the code below, for example, failed because the flag I used was the wrong one...

$string = 'Donna&#039;s Bakery';
$title = html_entity_decode($string, ENT_HTML401, 'UTF-8');
echo $title;

The correct flag to use in this case is ENT_QUOTES.

My understanding of the flag to use is the one that would correspond to the expected, converted outcome. So, ENT_QUOTES for a character that would be a single or double quote when converted... and so on.

Please help make the documentation a bit clearer.

＋add a note