Як обчислити медіану кластерних даних

Автор: Peter Berry
Дата Створення: 15 Серпень 2021
Дата Оновлення: 21 Листопад 2024
Anonim
Як обчислити медіану кластерних даних - Статті
Як обчислити медіану кластерних даних - Статті

Зміст

Медіана є серединою набору впорядкованих даних. Наприклад, набір (2,4,7,9,10) має медіанну 7. Впорядковані дані агрегуються в категорії з точними деталями кожної точки втрати даних. Таким чином, точна медіана не може бути відома тільки з кластерних даних. Однак, якщо ви знаєте кількість даних у кожному інтервалі, ви можете сказати, що це "середній діапазон", тобто, що містить точку, яка є медіаною. Можна додатково уточнити оцінку медіанної точки за формулою, виходячи з припущення, що середні точки даних рівномірно розподілені.


Інструкції

Навчання розрахунку медіани групи даних є простим завданням (Hemera Technologies / AbleStock.com / Getty Images)
  1. Згрупуйте значення в інтервалах, якщо їх ще немає. Визначте, який інтервал повинен містити середину.

    Для дидактичних цілей розглянемо набір даних (1,2,4,5,6,7,7,7,9). Медіана тут дорівнює 6. Ви можете групувати набір у ширину, рівну 4, наприклад. Потім їх розподіл частоти може бути, наприклад: 1-4: 3 5-8: 5 9-12: 1 У не об'єднаних даних медіана явно знаходиться в категорії 5-8. Можна навіть сказати, що не бачачи вихідний набір даних.

  2. Розрахуйте різницю в кількості точок даних над середнім і половиною загальної кількості точок даних.

    Відповідно до згаданого, це дорівнює 9/2 - 3 = 1.5. Цей розрахунок оцінює, наскільки далеко від середнього діапазону має бути знайдена медіана.

  3. Розділіть на кількість точок у середньому діапазоні.


    Продовжуючи приклад, 1.5 / 5 = 0.3. Це дає співвідношення, наскільки середній діапазон медіани.

  4. Помножити отримане значення на ширину середнього діапазону.

    Продовжуючи приклад, 0.3 x 4 = 1.2. Це перетворює відношення в діапазоні до фактичного приросту даних.

  5. Додайте вищеописаний результат до значення середнього діапазону та нижнього діапазону.

    Оскільки розріз між середнім і нижчим діапазоном становить 4,5, то отримаємо рівняння 4,5 + 1,2 = 5,7, яке може мати свій результат округленого до 6, правильна відповідь.

Як

  • Фактично, вищеописаний розрахунок такий же, як у формулі "L + (n / 2 - c) / fxw", де L - число між середнім і наступним нижчим інтервалом, n - загальна кількість точок даних, c - загальна кількість точок нижче середнього, f - кількість точок даних у середньому діапазоні, w - ширина.