Hiển thị các bài đăng có nhãn SPC. Hiển thị tất cả bài đăng

PSPP: Phần mềm phân tích thống kê nguồn mở - Hướng dẫn sử dụng

PSPP: Phan mem phan tich thong ke nguon mo - Huong dan su dung

TCVN 10432-1:2014 (ISO 11462-1:2001)

HƯỚNG DẪN THỰC HIỆN KIỂM SOÁT THỐNG KÊ QUÁ TRÌNH (SPC) - PHẦN 1: CÁC THÀNH PHẦN CỦA SPC

Tiêu chuẩn này đưa ra các thành phần của SPC để hướng dẫn tổ chức trong việc lập kế hoạch, xây dựng, thực hiện và/hoặc đánh giá hệ thống kiểm soát thống kê quá trình. Bằng việc áp dụng các yếu tố mà khách hàng và nhà cung cấp cho là khả thi và phù hợp, tổ chức có thể thỏa mãn yêu cầu để thực hiện một hệ thống SPC toàn diện và hiệu quả

[[MORE]]

ISO 11462-2: GUIDELINES FOR IMPLEMENTATION OF SPC - PART 2 CATALOGUE OF TOOLS AND TECHNIQUES

ISO 11462-2: GUIDELINES FOR IMPLEMENTATION OF SPC - PART 2 CATALOGUE OF TOOLS AND TECHNIQUES

ISO 11462-2: GUIDELINES FOR IMPLEMENTATION OF  SPC - PART 2 CATALOGUE OF TOOLS AND TECHNIQUES

ISO 11462-1: GUIDELINES FOR IMPLEMENTATION OF SPC - PART 1 ELEMENTS OF SPC

ISO 11462-1: GUIDELINES FOR IMPLEMENTATION OF STATISTICAL PROCESS CONTROL ( SPC ) - PART 1 ELEMENTS OF SPC

ISO 11462-1: GUIDELINES FOR IMPLEMENTATION OF  STATISTICAL PROCESS CONTROL ( SPC )

Giới thiệu về Regression trong LibreOffice 4.0

Một ví dụ về hồi quy trên excel

Trước tiên bạn cần cài ToolPak. Để cài đặt ToolPak bạn xem tại đây

Chúng ta có số liệu đơn giản như hình, đề bài: Ảnh hưởng của tuổi tác và thu nhập đến chi tiêu
Chọn Data Analysis, trong cửa sổ hiện ra chọn Regression rồi ấn OK
Làm như trong hình, chúng ta quan tâm đến các thông số

Input Y Range: Vùng chứa biến phụ thuộc (click chuột vào ô nhập bên phải sau đó ra ngoài màn hình chính kéo chọn vùng chứa biến phụ thuộc – bao gồm cả tên biến)

Input X Range: Vùng chứa các biến độc lập (click chuột vào ô nhập bên phải sau đó ra ngoài màn hình chính kéo chọn vùng chứa các biến độc lập – bao gồm cả tên biến)

Labels: Click chọn ô này để có sử dụng tên biến

Confidence Level: Độ tin cậy (1-a), mặc định 95%, nếu muốn thay đổi thì click chuột chọn ô này và nhập độ tin cậy mới.

Output Range: Vùng xuất, click chuột chọn tùy chọn này, sau đó click chuột vào ô nhập bên phải rồi ra ngoài màn hình chính click chọn một ô bất kỳ làm nơi xuất ra.
Kết quả ta được
Xét tương quan giữa các biến

Chọn Data Analysis, cửa sổ hiện ra chọn Correlation
Trong hộp thoại hiện ra Input Range: chọn vùng chứa các biến độc lập, bao gồm tên biến
Output Range: ô xuất kết quả
Kết quả tương quan giữa 2 biến như sau
Tương quan giữa X và Z = 0.14 nhỏ hơn căn bậc hai của (R bình phương của mô hình), có thể bỏ qua đa cộng tuyến.

Các hệ số hồi quy gắn với biến X và Z đều có ý nghĩa (vì các giá trị P-value tương ứng với các hệ số hồi quy này đều nhỏ hơn anpha (a)

Mô hình có ý nghĩa vì trị thống kê của kiếm định F nhỏ hơn anpha

Kết luận: Cả thu nhập và độ tuổi đều có tác động lên chi tiêu, tuy nhiên tác động của thu nhập lên chi tiêu lớn hơn

Nguồn: http://phamloc120893.blogspot.com

Statistical Process Control - SPC - Reference Manual

Statistical Process Control - SPC - Reference Manual

Statistical Process Control - SPC - Reference Manual

Sự khác nhau giữa Cp, Cpk và Pp, Ppk

In the Six Sigma quality methodology, process performance is reported to the organization as a sigma level. The higher the sigma level, the better the process is performing.

Sự khác nhau giữa Cp, Cpk, Pp, Ppk Another way to report process capability and process performance is through the statistical measurements of Cp, Cpk, Pp, and Ppk. This article will present definitions, interpretations and calculations for Cpk and Ppk though the use of forum quotations. Thanks to everyone below that helped contributed to this excellent reference.

Definitions

    Cp= Process Capability. A simple and straightforward indicator of process capability. Cpk= Process Capability Index. Adjustment of Cp for the effect of non-centered distribution. Pp= Process Performance. A simple and straightforward indicator of process performance. Ppk= Process Performance Index. Adjustment of Pp for the effect of non-centered distribution.

Interpreting Cp, Cpk

“Cpk is an index (a simple number) which measures how close a process is running to its specification limits, relative to the natural variability of the process. The larger the index, the less likely it is that any item will be outside the specs.” Neil Polhemus

“If you hunt our shoot targets with bow, darts, or gun try this analogy. If your shots are falling in the same spot forming a good group this is a high Cp, and when the sighting is adjusted so this tight group of shots is landing on the bullseye, you now have a high Cpk.” Tommy

“Cpk measures how close you are to your target and how consistent you are to around your average performance. A person may be performing with minimum variation, but he can be away from his target towards one of the specification limit, which indicates lower Cpk, whereas Cp will be high. On the other hand, a person may be on average exactly at the target, but the variation in performance is high (but still lower than the tolerance band (i.e., specification interval). In such case also Cpk will be lower, but Cp will be high. Cpk will be higher only when you r meeting the target consistently with minimum variation.” Ajit

“You must have a Cpk of 1.33 [4 sigma] or higher to satisfy most customers.” Joe Perito

“Consider a car and a garage. The garage defines the specification limits; the car defines the output of the process. If the car is only a little bit smaller than the garage, you had better park it right in the middle of the garage (center of the specification) if you want to get all of the car in the garage. If the car is wider than the garage, it does not matter if you have it centered; it will not fit. If the car is a lot smaller than the garage (Six Sigma process), it doesn’t matter if you park it exactly in the middle; it will fit and you have plenty of room on either side. If you have a process that is in control and with little variation, you should be able to park the car easily within the garage and thus meet customer requirements. Cpk tells you the relationship between the size of the car, the size of the garage and how far away from the middle of the garage you parked the car.” Ben
“The value itself can be thought of as the amount the process (car) can widen before hitting the nearest spec limit (garage door edge).

Cpk =1/2 means you’ve crunched nearest the door edge (ouch!)
Cpk =1 means you’re just touching the nearest edge
Cpk =2 means your width can grow 2 times before touching
Cpk =3 means your width can grow 3 times before touching” Larry Seibel

Interpreting Pp, Ppk

“Process Performance Index basically tries to verify if the sample that you have generated from the process is capable to meet Customer CTQs (requirements). It differs from Process Capability in that Process Performance only applies to a specific batch of material. Samples from the batch may need to be quite large to be representative of the variation in the batch. Process Performance is only used when process control cannot be evaluated. An example of this is for a short pre-production run. Process Performance generally uses sample sigma in its calculation; Process capability uses the process sigma value determined from either the Moving Range, Range or Sigma control charts.” Praneet

Differences Between Cpk and Ppk

“Cpk is for short term, Ppk is for long term.” Sundeep Singh “Ppk produces an index number (like 1.33) for the process variation. Cpk references the variation to your specification limits. If you just want to know how much variation the process exhibits, a Ppk measurement is fine. If you want to know how that variation will affect the ability of your process to meet customer requirements (CTQ’s), you should use Cpk.” Michael Whaley “It could be argued that the use of Ppk and Cpk (with sufficient sample size) are far more valid estimates of long and short term capability of processes since the 1.5 sigma shift has a shaky statistical foundation.” Eoin “Cpk tells you what the process is CAPABLE of doing in future, assuming it remains in a state of statistical control. Ppk tells you how the process has performed in the past. You cannot use it predict the future, like with Cpk, because the process is not in a state of control. The values for Cpk and Ppk will converge to almost the same value when the process is in statistical control. that is because sigma and the sample standard deviation will be identical (at least as can be distinguished by an F-test). When out of control, the values will be distinctly different, perhaps by a very wide margin.” Jim Parnella “Cp and Cpk are for computing the index with respect to the subgrouping of your data (different shifts, machines, operators, etc.), while Pp and Ppk are for the whole process (no subgrouping). For both Ppk and Cpk the ‘k’ stands for ‘centralizing facteur’ – it assumes the index takes into consideration the fact that your data is maybe not centered (and hence, your index shall be smaller). It is more realistic to use Pp and Ppk than Cp or Cpk as the process variation cannot be tempered with by inappropriate subgrouping. However, Cp and Cpk can be very useful in order to know if, under the best conditions, the process is capable of fitting into the specs or not.It basically gives you the best case scenario for the existing process.” Chantal “Cp should always be greater than 2.0 for a good process which is under statistical control. For a good process under statistical control, Cpk should be greater than 1.5.” Ranganadha Kumar “As for Ppk/Cpk, they mean one or the other and you will find people confusing the definitions and you WILL find books defining them versa and vice versa. You will have to ask the definition the person is using that you are talking to.” Joe Perito “I just finished up a meeting with a vendor and we had a nice discussion of Cpk vs. Ppk. We had the definitions exactly reversed between us. The outcome was to standardize on definitions and move forward from there. My suggestion to others is that each company have a procedure or document (we do not), which has the definitions of Cpk and Ppk in it. This provides everyone a standard to refer to for WHEN we forget or get confused.” John Adamo “The Six Sigma community standardized on definitions of Cp, Cpk, Pp, and Ppk from AIAG SPC manual page 80. You can get the manual for about $7.” Gary

Calculating Cpk and Ppk

“Pp = (USL – LSL)/6*Std.dev
Cpl = (Mean – LSL)/3*Std.dev
Cpu = (USL – Mean)/3*Std.dev
Cpk= Min (Cpl, Cpu)” Ranganadha Kumar “Cpk is calculated using an estimate of the standard deviation calculated using R-bar/d2. Ppk uses the usual form of the standard deviation ie the root of the variance or the square root of the sum of squares divided by n – 1. The R-bar/D2 estimation of the standard deviation has a smoothing effect and the Cpk statistic is less sensitive to points which are further away from the mean than is Ppk.” Eoin

“Cpk is calculated using RBar/d2 or SBar/c4 for Sigma in the denominator of you equation. This calculation for Sigma REQUIRES the process to be in a state of statistical control. If not in control, your calculation of Sigma (and hence Cpk) is useless – it is only valid when in-control.” Jim Parnella

“You can have a ‘good’ Cpk yet still have data outside the specification, and the process needs to be in control before evaluating Cpk.” Matt

Source: isixsigma.com

Cách tính chỉ số Cp, Cpk

cách tính chỉ số Cp, Cpk Vừa rồi có bạn gửi mail hỏi về cách tính chỉ số Cp, Cpk. Tài liệu bên dưới mô tả từng bước cách tính hai chỉ số này.

Vẽ biểu đồ ma trận đồ thị phân tán bởi R

Giao diện dễ dùng cho R

Giao diện mặc định của chương trình R rất đơn giản và có hạn chế là bạn phải thuộc các hàm để nhập lệnh thì chương trình mới xử lý dữ liệu bằng các thuật toán thống kê. May thay, bạn có thể bỏ qua một số hạn chế này bằng gói ứng dụng Rcmdr vừa mới được phát hành.

Nguồn: Làm bạn với máy tính.

Khắc phục lỗi không sử dụng được một số gói tiện ích trong R

Các chỉ số năng lực quá trình: Cp, Cpk, Pp, Ppk - Ý nghĩa và cách thức sử dụng

For many years industries have used Cp, Cpk, Pp and Ppk as statistical measures of process quality capability. Some segments in manufacturing have specified minimal requirements for these parameters, even for some of their key documents, such as advanced product quality planning and ISO/TS-16949. Six Sigma, however, suggests a different evaluation of process capability by measuring against a sigma level, also known as sigma capability.

Incorporating metrics that differ from traditional ones may lead some companies to wonder about the necessity and adaptation of these metrics. It is important to emphasize that traditional capability studies as well as the use of sigma capability measures carry a similar purpose. Once the process is under statistical control and showing only normal causes, it is predictable. This is when it becomes interesting for companies to predict the current process’s probability of meeting customer specifications or requirements.

Capability Studies


Traditional capability rates are calculated when a product or service feature is measured through a quantitative continuous variable, assuming the data follows a normal probability distribution. A normal distribution features the measurement of a mean and a standard deviation, making it possible to estimate the probability of an incident within any data set.

The most interesting values relate to the probability of data occurring outside of customer specifications. These are data appearing below the lower specification limit (LSL) or above the upper specification limit (USL). An ordinary mistake lies in using capability studies to deal with categorical data, turning the data into rates or percentiles. In such cases, determining specification limits becomes complex. For example, a billing process may generate correct or incorrect invoices. These represent categorical variables, which by definition carry an ideal USL of 100 percent error free processing, rendering the traditional statistical measures (Cp, Cpk, Pp and Ppk) inapplicable to categorical variables.

When working with continuous variables, the traditional statistical measures are quite useful, especially in manufacturing. The difference between capability rates (Cp and Cpk) and performance rates (Pp and Ppk) is the method of estimating the statistical population standard deviation. The difference between the centralized rates (Cp and Pp) and unilateral rates (Cpk and Ppk) is the impact of the mean decentralization over process performance estimates.

The following example details the impact that the different forms of calculating capability may have over the study results of a process. A company manufactures a product that’s acceptable dimensions, previously specified by the customer, range from 155 mm to 157 mm. The first 10 parts made by a machine that manufactures the product and works during one period only were collected as samples during a period of 28 days. Evaluation data taken from these parts was used to make a Xbar-S control chart (Figure 1).
Figure 1: Xbar-S Control Chart of Evaluation Data
Figure 1: Xbar-S Control Chart of Evaluation Data

This chart presents only common cause variation and as such, leads to the conclusion that the process is predictable. Calculation of process capability presents the results in Figure 2.
Figure 2: Process Capability of Dimension
Figure 2: Process Capability of Dimension

Calculating Cp


The Cp rate of capability is calculated from the formula:
The Cp rate of capability is calculated from the formula
where s represents the standard deviation for a population taken from , with s-bar representing the mean of deviation for each rational subgroup and c4 representing a statistical coefficient of correction.

In this case, the formula considers the quantity of variation given by standard deviation and an acceptable gap allowed by specified limits despite the mean. The results reflect the population’s standard deviation, estimated from the mean of the standard deviations within the subgroups as 0.413258, which generates a Cp of 0.81.

Rational Subgroups


A rational subgroup is a concept developed by Shewart while he was defining control graphics. It consists of a sample in which the differences in the data within a subgroup are minimized and the differences between groups are maximized. This allows a clearer identification of how the process parameters change along a time continuum. In the example above, the process used to collect the samples allows consideration of each daily collection as a particular rational subgroup.

The Cpk capability rate is calculated by the formula:

considering the same criteria of standard deviation.

In this case, besides the variation in quantity, the process mean also affects the indicators. Because the process is not perfectly centralized, the mean is closer to one of the limits and, as a consequence, presents a higher possibility of not reaching the process capability targets. In the example above, specification limits are defined as 155 mm and 157 mm. The mean (155.74) is closer to one of them than to the other, leading to a Cpk factor (0.60) that is lower than the Cp value (0.81). This implies that the LSL is more difficult to achieve than the USL. Non-conformities exist at both ends of the histogram.

Estimating Pp


Similar to the Cp calculation, the performance Pp rate is found as follows:

where s is the standard deviation of all data.

The main difference between the Pp and Cp studies is that within a rational subgroup where samples are produced practically at the same time, the standard deviation is lower. In the Pp study, variation between subgroups enhances the s value along the time continuum, a process which normally creates more conservative Pp estimates. The inclusion of between-group variation in the calculation of Pp makes the result more conservative than the estimate of Cp.

With regard to centralization, Pp and Cp measures have the same limitation, where neither considers process centralization (mean) problems. However, it is worth mentioning that Cp and Pp estimates are only possible when upper and lower specification limits exist. Many processes, especially in transactional or service areas, have only one specification limit, which makes using Cp and Pp impossible (unless the process has a physical boundary [not a specification] on the other side). In the example above, the population’s standard deviation, taken from the standard deviation of all data from all samples, is 0.436714 (overall), giving a Pp of 0.76, which is lower than the obtained value for Cp.

Estimating Ppk


The difference between Cp and Pp lies in the method for calculating s, and whether or not the existence of rational subgroups is considered. Calculating Ppk presents similarities with the calculation of Cpk. The capability rate for Ppk is calculated using the formula:

Once more it becomes clear that this estimate is able to diagnose decentralization problems, aside from the quantity of process variation. Following the tendencies detected in Cpk, notice that the Pp value (0.76) is higher than the Ppk value (0.56), due to the fact that the rate of discordance with the LSL is higher. Because the calculation of the standard deviation is not related to rational subgroups, the standard deviation is higher, resulting in a Ppk (0.56) lower than the Cpk (0.60), which reveals a more negative performance projection.

Calculating Sigma Capability


In the example above, it is possible to observe the incidence of faults caused by discordance, whether to the upper or lower specification limits. Although flaws caused by discordance to the LSL have a greater chance of happening, problems caused by the USL will continue to occur. When calculating Cpk and Ppk, this is not considered, because rates are always calculated based on the more critical side of the distribution.

In order to calculate the sigma level of this process it is necessary to estimate the Z bench. This will allow the conversion of the data distribution to a normal and standardized distribution while adding the probabilities of failure above the USL and below the LSL. The calculation is as follows:

Above the USL:

Below the LSL:

Summing both kinds of flaws produces the following result:

(Figure 3)

Figure 3: Distribution Z

The calculation to achieve the sigma level is represented below:

Sigma level = Zbench + 1.5 = 1.51695 + 1.5 = 3.1695

There is great controversy about the 1.5 deviation that is usually added to the sigma level. When a great amount of data is collected over a long period of time, multiple sources of variability will appear. Many of these sources are not present when the projection is ranged to a period of some weeks or months. The benefit of adding 1.5 to the sigma level is seen when assessing a database with a long historical data view. The short-term performance is typically better as many of the variables will change over time to reflect changes in business strategy, systems enhancements, customer requirements, etc. The addition of the 1.5 value was intentionally chosen by Motorola for this purpose and the practice is now common throughout many sigma level studies.

Comparing the Methods


When calculating Cp and Pp, the evaluation considers only the quantity of process variation related to the specification limit ranges. This method, besides being applicable only in processes with upper and lower specification limits, does not provide information about process centralization. At this point, Cpk and Ppk metrics are wider ranging because they set rates according to the most critical limit.

The difference between Cp and Pp, as well as between Cpk and Ppk, results from the method of calculating standard deviation. Cp and Cpk consider the deviation mean within rational subgroups, while Pp and Ppk set the deviation based on studied data. It is worth working with more conservative Pp and Ppk data in case it is unclear if the sample criteria follow all the prerequisites necessary to create a rational subgroup.

Cpk and Ppk rates assess process capability based on process variation and centralization. However, here only one specification limit is considered, different from the sigma metric. When a process has only one specification limit, or when the incidence of flaws over one of the two specification limits is insignificant, sigma level, Cpk and Ppk bring very similar results. When faced with a situation where both specification limits are identified and both have a history of bringing restrictions to the product, calculating a sigma level gives a more precise view of the risk of not achieving the quality desired by customers.

As seen in the examples above, traditional capability rates are only valid when using quantitative variables. In cases using categorical variables, calculating a sigma level based on flaws, defective products or flaws per opportunity, is recommended.

Source: isixsigma.com

Statistical Analysis with R

Cài Add-In Analysis Toolpak không cần đĩa CD


Chúng ta hay gặp rắc rối khi dùng các hàm có liên quan đến Analysis Toolpak... Khi check vào Add-In này, nếu may mắn nó im re thì không nói làm gì, còn không thì nó sẽ.. "rùng mình" một cái rồi đòi ta phải cho đĩa CD Office vào... Trong lúc cấp bách đào đâu ra cái đĩa ấy chứ... 
 
Có thể làm thủ công bằng cách copy file FUNCRES.XLA cho vào đường dẫn: C:\Program Files\Microsoft Office\OFFICE[xx]\Library\Analysis thì mọi chuyện sẽ được giải quyết (OFFICE[xx] tùy thuộc vào phiên bản bạn đang dùng)

Download file zip này  >> Giải nén  >>  Copy file các file trong thư mục vừa giải nén vào thư mục nói trên >> Mở Excel, vào menu Tools\Add-Ins, check vào mục Analysis Toolpak, OK

Nguồn: giaiphapexcel.com


Bạn có thể làm tương tự đối với Excel Solver Add-In

Hướng dẫn sử dụng ngôn ngữ R trong phân tích dữ liệu

Bản Tiếng Việt (đây là bản tóm lược)

Bạn có thể xem thêm các minh họa thực hành tại đây
Bản Tiếng Anh

Ngôn ngữ lập trình R phổ biến trong giới thống kê

Theo một nhà nghiên cứu, ngôn ngữ lập trình R đang phát triển rất nhanh trong cộng đồng phân tích số liệu, vượt qua cả các gói ứng dụng phổ biến xưa nay như SAS, SPSS và MATLAB.
Ngôn ngữ lập trình R đang nhanh chóng trở thành ngôn ngữ phổ biến trong các gói ngôn ngữ dữ liệu truyền thống như SPSS, SAS và MATLAB, ít nhất là theo một nhà phân tích dữ liệu về ngôn ngữ lập trình. 
 
“Trong suốt mùa hè vừa qua, R là phần mềm phân tích được sử dụng nhiều nhất trong các bài viết học thuật chuyên sâu, chấm dứt một kỷ nguyên 16-năm của SPSS”, ông Robert Muenchen viết trong một bài blog gần đây, tổng kết thống kê của ông. 

Muenchen đánh giá tính phổ biến của các gói phần mềm dữ liệu bằng cách theo dõi tần suất người sử dụng đăng tải các nghiên cứu khoa học được công bố và số lượng người nhận xét gói phần mềm trong các thảo luận trên forum, blog, danh sách công việc và các nguồn khác. 

Trong khảo sát này của ông Muenchen, các nhà nghiên cứu tiếp tục sử dụng các gói phần mềm truyền thống trong hầu hết công việc của họ, có thể kể đến như các gói của SAS và MATLAB, cũng như gói SPSS của IBM. 

SPSS dẫn đầu với hơn 75.000 trích dẫn trong các bài báo khoa học được liệt kê trong kết quả tìm kiếm của Google Scholar. SAS theo sau, đứng thứ 2 với 40.000 trích dẫn. R được sử dụng hơn 20.000 dự án nghiên cứu. 

Ngoài ra, khi Muenchen tìm con số trích dẫn từ năm 1995, ông nhận ra rằng SPSS đã giảm kể từ năm 2007. SAS cũng theo chiều hướng của SPSS, đạt đỉnh hồi năm 2008. Ngược lại, R tăng rất nhanh, nhanh hơn cả các gói như Statistica và Stada. 

Ông Muenchen đề cập: “Xu hướng SPSS giảm và R tăng trong suốt quãng mùa hè vừa qua cho thấy R đang trở thành ngôn ngữ hàng đầu trong các gói phân tích dữ liệu được sử dụng trong các bài báo khoa học. Vì quá trình đăng tải các bài báo in xuất bản trước một thời gian trước khi đưa lên mạng, tạo chỉ mục tìm kiếm… nên chúng tôi chưa thể xác định chính xác điều gì sẽ xảy ra trong năm tới.”

R là ngôn ngữ lập trình chức năng, nguồn mở, được thiết kế chuyên cho điện toán dữ liệu và đồ hoạ.

Muenchen là nhà thống kê, quản lý mảng hỗ trợ bộ phận điện toán tại đại học Tennessee, Mỹ, ngoài việc xác nhận tính phổ biến của R, ông cũng là giáo viên giảng dạy R trên danh nghĩa Revolution Analytics. Ông còn được cộng đồng công nhận là chuyên gia về phân tích điện toán, viết mã cho SAS, SPSS và nhiều gói R khác. Ông cũng từng làm việc trong ban cố vấn của SAS, SPSS trước khi IBM mua lại hồi năm 2009.

Theo IDC, ngôn ngữ R trở nên phổ biến một phần là vì nó là nguồn mở, miễn phí và các nhà nghiên cứu có thể tải nó về để bắt đầu một dự án nào đó mà không phải tốn tiền.

Trong nghiên cứu của Muenchen, ông không phân biệt giữa các phiên bản khác nhau của R, có thể đó là phiên bản nguồn mở hoặc phiên bản dành cho doanh nghiệp của Revolution Analytics, hoặc là bản nguồn mở của R Project

Cũng có một số dấu hiệu khác cho thấy tính phổ biến của R. Nhiều đăng tải tìm việc trên Indeed.com yêu cầu thành thạo R nhiều hơn so với SPSS, mặc dù vẫn có vài nhà tuyển dụng cần đến SAS. Số lượng sách và forum thảo luận về R cũng nhiều hơn SAS và SPSS.
 
Nguồn: pcworld.com.vn

BASIC STATISTICAL TOOLS

GNU PSPP

GNU PSPP is a program for statistical analysis of sampled data. It is a Free replacement for the proprietary program SPSS, and appears very similar to it with a few exceptions.

[ Image of Variable Sheet ] The most important of these exceptions are, that there are no “time bombs”; your copy of PSPP will not “expire” or deliberately stop working in the future. Neither are there any artificial limits on the number of cases or variables which you can use. There are no additional packages to purchase in order to get “advanced” functions; all functionality that PSPP currently supports is in the core package.

Pareto Chart

Also called: Pareto diagram, Pareto analysis
Variations: weighted Pareto chart, comparative Pareto charts
A Pareto chart is a bar graph. The lengths of the bars represent frequency or cost (time or money), and are arranged with longest bars on the left and the shortest to the right. In this way the chart visually depicts which situations are more significant.

When to Use a Pareto Chart

  1. When analyzing data about the frequency of problems or causes in a process.
  2. When there are many problems or causes and you want to focus on the most significant.
  3. When analyzing broad causes by looking at their specific components.
  4. When communicating with others about your data.