Booking.com 에서의 축차 검정 (Sequential Testing)
원문: Sequential Testing at Booking.com
원문: TidyTuesday GitHub Repository
R 생태계를 겨냥한 주단위 데이터 프로젝트. 이 프로젝트는 R4DS 온라인 학습 커뮤니티
와 R for Data Science
책에서 태어났으며, tidyverse
생태계 안에 있는 ggplot2
, tidyr
, dplyr
등을 이용해서 데이터를 요약하고 정리해서 의미있는 차트를 만드는 데에 방점을 둡니다. 그렇다고 해서 다른 코드를 사용하면 안 된다는 규칙은 없지만, 그 결과를 만드는 데에 사용한 코드는 공유해주기 바랍니다.
매주 열리는 R4DS 온라인 학습 커뮤니티
의 #TidyTuesday
에 참가해보세요! 매주 원본 데이터와 그 데이터셋과 관련된 차트나 기사를 올려드리니 여러분께서는 그 데이터를 탐색하시면 됩니다. 데이터셋을 “길들일” 수는 있지만, 항상 정리가 된 것은 아닐 겁니다! 그렇기 때문에 여러분은 데이터를 진정한 정리된 형태로 만들기 위해 다양한 R for Data Science
기법을 사용해야할 겁니다. TidyTuesday 의 목적은 여러분의 R 스킬을 적용하고, 피드백을 받고, 다른 사람의 작업물을 살펴보고, 더 큰 #RStats
커뮤니티와 관계를 맺는 것입니다! 그렇기 때문에 저희는 다양한 기술을 가진 다양한 사람들이 참가하기를 독려합니다!
저희는 다양한 출처에서 데이터를 가지고 올 것이며, 그 어떤 인과관계도 내포하고 있지 않다는 것을 강조하고 싶습니다. 모든 데이터에 영향을 주는 다양한 조절변수가 있으며, 이것들 중 다수가 데이터셋 내에 제대로 집계되지 않았을 수 있습니다. 그렇기 때문에 저희는 제공된 데이터를 데이터 정리와 차트를 그리는 기술을 연마하는 데에만 사용하시길 권합니다. 참가자들은 스스로 어떤 미묘한 요인 (nuancing factors) 가 이러한 관계 아래에 깔려있는지 생각해야 합니다.
Tidy Tuesday 의 의도는 결론을 도출하는 것과는 무관하게 개인들이 스스로 데이터 전처리와 시각화 연습을 할 수 있도록 안전하고 서로 지원해주는 장을 만들기 위함입니다. 이 둘이 관련이 있다는 것을 저희도 이해하고 있으나, 이 연습의 목적은 순수하게 실제 데이터를 가지고 연습하는 것입니다.
모든 데이터는 월요일에 data sets
페이지에 올라갈 것입니다. 데이터와 함께 문맥을 파악할 수 있도록 원문도 같이 포함할 예정입니다.
저희는 모든 초심자, 열정이 있는 사람, 그리고 전문가가 참여하도록 환영합니다. 하지만 몇 가지 명심해주셨으면 하는 게 있습니다.
#RStats
사용자와 그의 코드를 뜯어보는 게 목적이 아닙니다! 서로를 지지하고 친절하게 대하세요! 다른 사람의 글에 좋아요도 눌러주시고, #RStats
커뮤니티를 널리 알리는 것을 도와주세요!#TidyTuesday
해시태그를 꼭 붙여주세요.흥미로운 데이터셋을 제공하고 싶으신가요? 이슈 를 열어서 데이터를 사용한 글 (또는 블로그 글 등) 의 링크를 달아주세요. 그런 뒤에 향후의 TidyTuesday 행사에 이 데이터를 추가할 지 이야기 해보시죠!
유용한 코드를 제출하고 싶다고요? 풀 리퀘스트 (Pull Request) 형태로 제출해주시고 가이드 를 꼭 지켜주세요.
원문: Sequential Testing at Booking.com
가장 좋은 방법은 당연히 영어 밖에 사용하지 못하는 환경에 강제로 처해지는 것이겠지만 그것이 어려우니…
고민의 흔적을 보여주세요
을 찾습니다.
원문: Charts & Accessibility
모수, 큰 수의 법칙, 그리고 중심극한정리에 대하여
그리고 여러분들도 (아마도) 하지 않아야 하는 이유
회사 서비스의 추천 시스템을 개선하기 위해 팀 내에서 (아직까진 두 명이긴 하지만) 지난 두 달 동안 스터디를 진행했습니다. 얼마 전 두 번째 스터디가 끝났고 이에 대한 회고를 해보려고 합니다.
원문: Dark Side of Data: Privacy by Emre Rencberoglu
원문: RStudio Projects and Working Directories: A Beginner’s Guide by Martin Chan
원문: TidyTuesday GitHub Repository
원문: How programming languages got their names
원문: How to Make Meetings Less Terrible 팟캐스트: How to Make Meetings Less Terrible (Ep. 389)
생키 다이어그램 (Sankey Diagram) 은 흐름(Flow) 다이어그램의 한 종류로써 그 화살표의 너비로 흐름의 양을 비율적으로 보여준다.
2년 전 일본어로 책을 내긴 했지만 대부분의 독자들이 이 책을 읽을 수는 없을 것 같았다.
자기회귀 모형이란 무엇인가?
회귀분석을 실행하기 위해 필요한 가정과 조건들에 대해 알아보자.
통계적 검정과 회귀분석에서 자주 사용되는 정규성 가정과 정규성 검정에 대해 알아보자.
여러 통계 검정과 모형에서 사용되는 독립성 가정에 대해 알아보자.
시계열 모형 중 ARMA 모형에대해 알아보자.
시각화에서 주의할 점인 넓이를 표시하는 원칙에 대해 알아보자.
평균 양쪽의 z-값들 사이의 넓이를 구하는 방법에 대해 알아보자.
분산분석의 개념과 방법에 대해 알아보자.
분산분석(ANOVA; ANalysis Of VAriance) 와 회귀분석의 개념을 섞은 공분산분석(ANCOVA; ANalysis of COVAriance)에 대해 알아보자. 이 글을 이해하기 위해서는 아래의 글을 먼저 읽는 것이 좋다.
Akaike’s Information Criterion 의 정의와 이를 구하는 방법에 대해 알아보자.
수정된 R제곱과 그 용도에 대해서 알아보자.
통계 용어 중 정확도(Accuracy)와 정밀도(Precision) 에 대해서 알아보자.
절대 오차와 평균 절대 오차에 대해서 알아보자.
가설 검정이란 무엇이며, 가설 검정의 다양한 방법에 대해 알아보자.
회귀분석이란 무엇이며, 회귀분석 과정에서 사용하는 용어와 다양한 방법에 대해 알아보자.
이 글은 MathJax 를 GitHub Pages Jekyll blog 에 추가하는 방법을 다룬다. 이탤릭체로 된 부분은 본문에는 없고 제가 따라하면서 고치거나 추가한 부분이니 참고하세요.
모집단과 표본집단을 이용하는 경우 통계학에서 말하는 10% 조건이 무엇인지에 대해 알아보자.
여러분의 GitHub 블로그에 Jupyter notebook 을 바꿔서 올릴 수 있도록 도와줄 글입니다. 직접 바꾸는 방법은 1회성 글들을 위해서 추가했고, 변환 과정과 파일 이동, 그리고 여러분의 블로그에 올리는 것까지 한 번에 할 수 있는 자동화 bash 를 만드는 자세한 방법...
68 95 99.7의 법칙이란 무엇인가?
단위근 검정 방법 중 하나인 Augmented Dickey Fuller 검정에 대해 알아보자.
이 자료는 데이터 과학과 관련된 특정 주제에 대한 연재물이며, 다룰 주제는 다음과 같다. 회귀분석, 군집화, 신경망, 딥러닝, 의사결정나무, 앙상블, 상관관계, 파이썬, R, 텐서플로우, SVM, 데이터 축소, 피쳐 선택, 실험 계획법, 교차검증, 모델 피팅 등. 이 글을 계속 받...