데이터 압축을 위한 엔트로피 계산

문제

"기호당 평균 비트 수"를 계산하는 방법에 대해 약간 혼란스럽습니다.이것은 각 문자의 확률을 일반 엔트로피와 같은 lg(1/확률)로 곱하여 계산됩니까, 아니면 다른 방법으로 계산됩니까?

또한 이것이 사실이라면 문자의 평균 발생 횟수가 얼마인지 어떻게 확실히 알 수 있습니까?

해결책

저는 압축에 대해 잘 모르기 때문에 이 질문에 대답할 수는 없지만 다음과 같이 말할 수 있습니다.

당신이 올바른지;정규 엔트로피는 다음과 같이 정의됩니다. -Σp·log(p).참고로 이건 실제로는 아니다 문자의 빈도 하지만 메시지 빈도.즉, 다음 메시지 세트

{ abcdefghijklmnopqrstuvwxyz }

문자별로 분석한 결과는 훌륭해 보이지만 엔트로피는 0입니다.

메시지가 생성되는 정확한 프로세스를 알지 않는 한 이론적으로 확실히 아는 것은 불가능합니다.경험적 방법을 사용해야 합니다.큰 샘플을 채취하여 개수를 세거나 중복의 징후인 패턴을 찾는 것과 같습니다.영어 텍스트 등

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow