소개
에 오신 것을 환영합니다 세계의 확률의 데이터 과학! 직관적 인 예제로 일을 시작하겠습니다.
당신이 대학의 교사라고 가정 해보십시오. 일주일 동안 과제를 확인한 후 모든 학생들에게 등급을 매겼습니다. 게 주신 이러한 등급을 매긴 논문을 데이터 항목에서 남자대학교 및 그에게 말을 만들기 스프레드시트에 포함된 등급의 모든 학생들., 그러나 그 사람은 해당 학생이 아닌 성적 만 저장합니다.
그는 또 다른 실수를,그는 몇 가지의 항목에서 서둘러리고 우리는 아무 생각이 없는 성적이 없습니다. 이 문제를 해결할 방법을 찾아 보겠습니다.한 가지 방법은 성적을 시각화하고 데이터에서 추세를 찾을 수 있는지 확인하는 것입니다.
그래프가 있는 줄거리라고 주파수 분포 데이터의. 당신은 우리의 데이터를 정의하는 구조와 같은 부드러운 곡선이 있음을 알 수 있지만,당신은 이상을 알 수 있습니까?, 우리는 특정 점수 범위에서 비정상적으로 낮은 빈도를 가지고 있습니다. 따라서 가장 좋은 추측은 분포의 덴트를 제거하는 누락 된 값을 갖는 것입니다.이것이 데이터 분석을 사용하여 실제 문제를 해결하려고 시도하는 방법입니다. 에 대한 모든 데이터 과학자,학생 또는 개업자,유통은 알아야 하는 개념입니다. 분석 및 추론 통계의 기초를 제공합니다.
동안의 개념을 확률은 우리에게 수학적 계산,배포 도움을 우리가 실제로 시각화의 일어나고 있습니다.,
이 문서에서 덮여 있는 몇 가지 중요한 확률 분포에 대한 설명은 명쾌한뿐만 아니라 포괄적인 방식이다.
참고:이 기사에서는 확률에 대한 기본 지식이 있다고 가정합니다. 그렇지 않은 경우이 확률 분포를 참조 할 수 있습니다.,
테이블의 내용을
- 일반적인 데이터 유형
- 형식의 배포판
- 베르누이 분포
- 유니폼 배포
- 항 분포
- 일반 유통
- Poisson Distribution
- 지수 유통
- 사이의 관계를 분포
- 지식을 테스트!
일반적인 데이터 유형
하기 전에 우리는 점에 대해 배포하자는 어떤 종류의 볼 수 있는 데이터는 우리가 발생합니다. 데이터는 이산 또는 연속 일 수 있습니다.,이름에서 알 수 있듯이 이산 데이터는 지정된 값만 취할 수 있습니다. 예를 들어,다이를 굴릴 때 가능한 결과는 1.5 또는 2.45 가 아닌 1,2,3,4,5 또는 6 입니다.
연속 데이터는 주어진 범위 내에서 임의의 값을 취할 수 있습니다. 범위는 유한하거나 무한 할 수있다. 예를 들어,소녀의 체중이나 신장,도로의 길이. 무게는 여자의 임의의 값이 될 수 있습 54 킬로그램,또는 54.5 킬로그램,또는 54.5436 킬로그램입니다.
이제 배포판의 유형부터 시작하겠습니다.,
형식의 배포판
베르누이 분포
의 가장으로 시작 배포하는 베르누이 배포합니다. 실제로 소리보다 이해하기 쉽습니다!
모두 당신이 거기 마약 중독자 크리켓! 어떤 크리켓 경기의 시작 부분에서,당신은 어떻게 박쥐 또는 공에가는 사람을 결정합니까? 토스! 그것은 모두 당신이이기 든 던지기를 잃든간에 달려 있습니다,그렇죠? 의 토스가 머리에 결과 경우 가정 해 봅시다,당신은 승리. 그렇지 않으면 잃게됩니다. 중도는 없습니다.
은 베르누이 분포라는 두 가지 가능한 결과,즉 1(성)및 0(전),그리고 한다., 그래서 임의로 변 X 있는 베르누이 배포할 수 있습을 값에 1 을 성공의 확률,말 p,값 0 확률과 실패의 말 q 또는 1-p.
여기에서 발생한의 머리를 나타낸 성공,그리고 발생 꼬리의 실패를 나타냅.
머리를 얻을 확률=0.5=두 가지 가능한 결과 만 있기 때문에 꼬리를 얻을 확률.
확률 질량 함수는 다음에 의해 주어진다:px(1-p)1-x 여기서 x€(0,1).,
그것을 작성할 수도 있습니다로.
가능성의 성공과 실패 할 필요는 없이 동등하게 할 가능성이처럼,결과의 싸움이 나와 장의사입니다. 그는 이길 꽤 많이 확실하다. 그래서 이 경우에는 확률의 성공은 0.15 동안 실패에 0.85
여기에 성공의 확률(p)은 동일한의 확률로 실패입니다. 그래서 아래 차트는 우리 싸움의 베르누이 분포를 보여줍니다.
여기서 성공 확률=0.15 및 실패 확률=0.85 입니다., 예상 값은 정확히 들리는 것입니다. 내가 너를 펀치하면,네가 나를 다시 펀치하기를 기대할지도 모른다. 기본적으로 모든 분포의 예상 값은 분포의 평균입니다., 예상의 가치를 임의로 변 X 부터 베르누이 분포를 찾을 다음과 같다:
E(X)=1*p+0*(1-p)=p
의 분산을 임의의 변수에서 베르누이 분포가:
V(X)=E(X2) –2=p–p2=p(1-p)
의 많은 예제가 있 베르누이 배포할지 여부 등의 비가 내 또는지 어디에 비 나타낸 성공과 비가 실패를 나타냅 및 경력(성)또는 잃고(실패)게임.
균일 분포
공정한 다이를 굴릴 때 결과는 1 에서 6 입니다., 이러한 결과를 얻을 확률은 똑같이 가능성이 있으며 이는 균일 한 분포의 기초입니다. 베르누이 분포와는 달리,균일 한 분포의 가능한 결과의 모든 n 수는 똑같이 가능성이 있습니다.
variable X 은 균일하게 배포하는 경우 밀도 함수입니다:
그래프의 균일한 분포 곡선 같
당신이 볼 수있는 모양의 균일한 분포 곡선은 사각형, 는 이유 분포 균일이라는 직사각형 배포합니다.,
균일 한 분포의 경우 a 와 b 가 매개 변수입니다.
꽃 가게에서 매일 판매되는 꽃다발의 수는 최대 40 개,최소 10 개로 균일하게 분배됩니다.
일일 판매량이 15 에서 30 사이에 떨어질 확률을 계산해 보겠습니다.
는 확률이 매일 영업 사이에 떨어질 것이 15 30(30-15)*(1/(40-10)) = 0.5
마찬가지로,확률이 매일 매출은 더 큰 것보다 20=0.,667
평균과 분산 X 다음과 같은 동일한다:
의미->E(X)=(a+b)/2
Variance->V(X)=(b-a)2/12
표준 밀도 균일 매개 변수가 있=0b=1,도록 PDF 에 대한 표준 통일밀도에 의해 제공됩니다.
항 분포
의 다시 얻을 크리켓. 오늘 토스에서 우승했다고 가정하고 이것이 성공적인 이벤트를 나타냅니다. 당신은 다시 던져하지만 당신은이 시간을 잃었다., 오늘 토스에서 이기면 내일 토스에서 이길 필요는 없습니다. 임의의 변수 인 X 를 toss 에서 우승 한 횟수에 할당 해 보겠습니다. X 의 가능한 값은 무엇이 될 수 있습니까? 동전을 던진 횟수에 따라 임의의 숫자가 될 수 있습니다.
가능한 결과는 두 가지뿐입니다. 성공을 나타내는 머리와 실패를 나타내는 꼬리. 따라서 머리를 얻을 확률=0.5 및 실패 확률은 다음과 같이 쉽게 계산할 수 있습니다.,
배포만 두 가지 결과가 가능하며,같은 성공이나 실패를,이익 또는 손실,이기거나 잃게되고 확률의 성공과 실패에 대해 동일한 모든 시험이라고 합항 분포.결과는 똑같이 가능성이있을 필요는 없습니다. 나와 장의사 사이의 싸움의 예를 기억하십니까? 따라서 실험에서 성공 확률이 0.2 인 경우 실패 확률은 q=1-0.2=0.8 로 쉽게 계산할 수 있습니다.
각 재판은 이전 토스의 결과가 현재 토스의 결과를 결정하거나 영향을 미치지 않으므로 독립적입니다., 가능한 두 가지 결과 만 n 번 반복 된 실험을 이항이라고합니다. 이항 분포의 매개 변수는 n 및 p 여기서 n 은 총 시험 수이고 p 는 각 시험에서 성공 확률입니다.
위의 설명에 기초하여,이항 분포의 특성은
- 각 시험은 독립적이다.
- 재판에는 성공 또는 실패 중 두 가지 가능한 결과 만 있습니다.
- 총 n 개의 동일한 시험이 실시됩니다.
- 성공과 실패의 확률은 모든 시험에서 동일합니다., (시련은 동일합니다.,
이제,때 성공의 확률=의 오류 발생 가능성,이러한 상황에서의 그래프항 분포럼
평균과 분산의 이항 분포에 의해 지정:
의미->µ=n*p
Variance->Var(X) =n*p*q
일반 유통
정상적인 분포를 나타내는 행동의 대부분의 상황에서 우주의(그 때문이라고”정상”배포합니다., 나는 추측한다!). (작은)무작위 변수의 큰 합은 종종 일반적으로 분포되어있는 것으로 밝혀져 광범위한 적용에 기여합니다. 어떤 분배 알려져 있으로 정상적인 유통 경우는 다음과 같은 특징이 있습니다.
- 의 평균값,중앙값 및 모드의 배포에 일치합니다.
- 분포의 곡선은 종 모양이며 선 x=μ 에 대해 대칭입니다.
- 곡선 아래의 총 면적은 1 입니다.
- 값의 정확히 절반은 중앙의 왼쪽에 있고 나머지 절반은 오른쪽에 있습니다.,
정규 분포는 이항 분포와 매우 다릅니다. 그러나 시험 횟수가 무한대에 접근하면 모양이 매우 비슷할 것입니다.
PDF 의 임의 변 X 다음과 같은 정상 유통에 의해 제공됩니다.
평균과 분산의 임의 변 X 말하는 일반적으로는 분산에 의해 제공됩니다.
의미->E(X) =µ
Variance->Var(X)=σ^2
여기에,µ(평균)및 σ(표준 편차)매개 변수입니다.,
랜덤 변수 X~N(μ,σ)의 그래프가 아래에 나와 있습니다.표준 정규 분포는 평균 0 과 표준 편차 1 을 갖는 분포로 정의됩니다. 이러한 경우,PDF 된다:
Poisson Distribution
일하고 있다고 가정 콜 센터에서 대략 얼마나 많은 통화를 할 당신이 하루에? 그것은 어떤 숫자 일 수있다. 이제 하루에 콜센터의 전체 통화 수는 포아송 분포에 의해 모델링됩니다., 몇 가지 더 많은 예는
- 하루에 병원에서 기록 된 긴급 통화 수입니다.
- 하루에 한 지역에서보고 된 절도의 수.
- 한 시간 만에 살롱에 도착하는 고객 수입니다.
- 특정 도시에서보고 된 자살 건수.
- 책의 각 페이지에서 인쇄 오류의 수입니다.
이제 같은 과정을 따르는 많은 예를 생각할 수 있습니다., Poisson Distribution 가 해당되는 상황에서는 이벤트 발생 시에는 임의의 점의 시간과 공간의 점에서 우리의 관심 속에서만 발생 횟수의 이벤트입니다.
다음과 같은 가정이 유효 할 때 분포를 포아송 분포라고합니다.
1. 모든 성공적인 이벤트는 다른 성공적인 이벤트의 결과에 영향을 미치지 않아야합니다.
2 입니다. 짧은 간격 이상의 성공 확률은 더 긴 간격 이상의 성공 확률과 같아야합니다.
3. 간격의 성공 확률은 간격이 작아짐에 따라 0 에 접근합니다.,이제,어떤 분포가 위의 가정을 검증한다면 그것은 포아송 분포입니다. 일부를 표에 사용되는 Poisson distribution 습니다:
- λ 는 비율 이벤트가 발생
- t 의 길이는 시간 간격,
- X 은 이벤트의 수에서는 시간 간격입니다.
여기서 X 는 포아송 랜덤 변수라고하며 X 의 확률 분포는 포아송 분포라고합니다.
let μ 는 길이 t 의 간격에서 평균 이벤트 수를 나타냅니다.,
PMF X 다음과 같은 포아송 유통에 의해 제공됩니다.
균 µ 은 매개변수를 이 배포합니다. μ 는 또한 해당 간격의 λ 배 길이로 정의됩니다. 그래프의 Poisson distribution 수정된 서비스는 다음과 같습니다.
그래프 표시 아래 설명에는 이 곡선으로 인해 증가를 의미합니다.
그것은 지각으로 이미 증가,곡선으로 이동하여 오른쪽에 있습니다.,
평균과 분산 X 다음과 같은 포아송 배급:
의미->E(X)=µ
Variance->Var(X) =µ지수 유통
하자 고려는 전화 센터의 예를 하나 더 많은 시간입니다. 통화 사이의 시간 간격은 어떻습니까? 여기서 지수 분포가 우리의 구조에옵니다. 지수 분포는 호출 사이의 시간 간격을 모델링합니다.
다른 예는 다음과 같습니다:
1. 시간 beteeen 지하철 도착의 길이,
2., 주유소에서 도착 사이의 시간의 길이
3. 에어 컨디셔너의 수명지수 분포는 생존 분석에 널리 사용됩니다. 기계의 예상 수명에서 인간의 예상 수명까지 지수 분포는 결과를 성공적으로 전달합니다.
임의의 변 X 가 지수 유통 PDF
f(x)={λe-λx,x≥0
이 매개 변수 λ>0 라고도 합니다.,
을 위한 생존분석,λ 라고의 실패율이 장치에서 어떤 시간 t 주어진,그것은 살아있을 수 있습니다 t.
평균과 분산의 임의 변 X 다음과 같은 기하 급수적 배급:
의미->E(X)=1/λ
Variance->Var(X)=(1/λ)2
또한,더 큰 속도,빠른 곡선을 삭제하고 낮은 속도,아첨 곡선입니다. 이것은 아래에 표시된 그래프로 더 잘 설명됩니다.,
을 쉽게 계산,거기에 몇 가지 수식은 아래와 같습니다.
P{X≤x}=1–e-λx,해당 지역에서 밀도 곡선의 왼쪽 x.P{X>x}=e-λx,해당 지역에서 밀도 곡선의 오른쪽 x.
P{x1<X≤x2}=e-λx1–e-λx2,해당 지역에서 밀도 곡선 사 x1 과 x2.
분포 사이의 관계
베르누이와 이항 분포 사이의 관계
1., 베르누이 분포는 단일 시험으로 이항 분포의 특별한 경우입니다.피>2. 베르누이와 이항 분포의 두 가지 가능한 결과,즉 성공과 실패 만 있습니다.피>3. 베르누이와 이항 분포 모두 독립적 인 산책로가 있습니다.
관련 사이의 푸아송과항 분포
푸아송 유통은 제한의 경우 이항 유통 다음과 같은 조건을 따라야 합니다:
- 의 수련은 무기한 큰 n→∞.,
- 각 재판에 대한 성공 확률은 동일하고 무기한 작거나 p→0 입니다.
- np=λ,유한하다.
사이의 관계 정상 및항 분포&정상적이고 Poisson Distribution:
정상적인 분포를 다른 제한 형태 이항 유통 다음과 같은 조건을 따라야 합니다:
- 의 수련은 무기한 큰,n→∞.
- p 와 q 는 모두 무한정 작지 않습니다.
정규 분포는 또한 파라미터 λ→∞를 갖는 포아송 분포의 제한적인 경우이다.,
사이의 관계 지수 및 포아송 배급:
경우에 회 사의 이벤트에 따라 지수 유통과 평가 λ,다음의 총 수에서의 이벤트 기간의 길이는 t 을 다음과 같은 포아송 분포 매개 변수 λt.
지식을 테스트
당신은 지금까지 왔습니다. 이제 다음 질문에 답할 수 있습니까? 아래 의견에 알려주십시오!피>1. 표준 정규 랜덤 변수를 계산하는 공식은 다음과 같습니다.
a.(x+μ)/σ
b.(x-μ)/σ
c.(x-σ)/μ2., 에서 베르누이 분포를 계산하는 공식 표준 편차에 의해 제공됩니다.
니다. p(1–p)
b. SQRT(p(p–1))
c. SQRT(p(1–p))3. 를 위해 정상적인 분포,의 증가를 의미한 것입니다.
니다. 이동하여
b. 이동이의 곡선을 권
c. 을 평평하게 곡4. 배터리의 수명은 시간당 λ=0.05 로 기하 급수적으로 분배됩니다. 배터리가 10 시간에서 15 시간 사이에 지속될 확률은
a.0.1341
b.0.1540
c.0 입니다.,0079끝 주
확률 분포가 널리 퍼져 많은 분야에서,즉,보험료,물리학,공학,컴퓨터 과학과 심지어 사회는 점에서 학생들의 심리학과 의료는 널리 사용하여 확률 분포. 그것은 쉬운 응용 프로그램과 광범위한 사용이 있습니다. 이 기사에서는 일상 생활에서 관찰되는 6 가지 중요한 분포를 강조하고 그 적용을 설명했습니다. 이제 이러한 배포판을 식별하고 관련 시키며 차별화 할 수있게 될 것입니다.,의심의 여지가 있고 배포판에 대한 더 많은 기사를보고 싶다면 아래의 코멘트 섹션에 작성하십시오. 이러한 배포판을보다 깊이있게 작성하려면이 리소스를 참조 할 수 있습니다.피>