Як обчислити медіану кластерних даних

Зміст

Інструкції
Як

Медіана є серединою набору впорядкованих даних. Наприклад, набір (2,4,7,9,10) має медіанну 7. Впорядковані дані агрегуються в категорії з точними деталями кожної точки втрати даних. Таким чином, точна медіана не може бути відома тільки з кластерних даних. Однак, якщо ви знаєте кількість даних у кожному інтервалі, ви можете сказати, що це "середній діапазон", тобто, що містить точку, яка є медіаною. Можна додатково уточнити оцінку медіанної точки за формулою, виходячи з припущення, що середні точки даних рівномірно розподілені.

Інструкції

Навчання розрахунку медіани групи даних є простим завданням (Hemera Technologies / AbleStock.com / Getty Images)

Згрупуйте значення в інтервалах, якщо їх ще немає. Визначте, який інтервал повинен містити середину.

Для дидактичних цілей розглянемо набір даних (1,2,4,5,6,7,7,7,9). Медіана тут дорівнює 6. Ви можете групувати набір у ширину, рівну 4, наприклад. Потім їх розподіл частоти може бути, наприклад: 1-4: 3 5-8: 5 9-12: 1 У не об'єднаних даних медіана явно знаходиться в категорії 5-8. Можна навіть сказати, що не бачачи вихідний набір даних.
Розрахуйте різницю в кількості точок даних над середнім і половиною загальної кількості точок даних.

Відповідно до згаданого, це дорівнює 9/2 - 3 = 1.5. Цей розрахунок оцінює, наскільки далеко від середнього діапазону має бути знайдена медіана.
Розділіть на кількість точок у середньому діапазоні.

Продовжуючи приклад, 1.5 / 5 = 0.3. Це дає співвідношення, наскільки середній діапазон медіани.
Помножити отримане значення на ширину середнього діапазону.

Продовжуючи приклад, 0.3 x 4 = 1.2. Це перетворює відношення в діапазоні до фактичного приросту даних.
Додайте вищеописаний результат до значення середнього діапазону та нижнього діапазону.

Оскільки розріз між середнім і нижчим діапазоном становить 4,5, то отримаємо рівняння 4,5 + 1,2 = 5,7, яке може мати свій результат округленого до 6, правильна відповідь.

Як

Фактично, вищеописаний розрахунок такий же, як у формулі "L + (n / 2 - c) / fxw", де L - число між середнім і наступним нижчим інтервалом, n - загальна кількість точок даних, c - загальна кількість точок нижче середнього, f - кількість точок даних у середньому діапазоні, w - ширина.