Showing posts with label Phân tích dữ liệu. Show all posts

PSPP: Phần mềm phân tích thống kê nguồn mở - Hướng dẫn sử dụng

PSPP: Phan mem phan tich thong ke nguon mo - Huong dan su dung







Giới thiệu về Regression trong LibreOffice 4.0

Một ví dụ về hồi quy trên excel

Trước tiên bạn cần cài ToolPak. Để cài đặt ToolPak bạn xem tại đây

Chúng ta có số liệu đơn giản như hình, đề bài: Ảnh hưởng của tuổi tác và thu nhập đến chi tiêu
Chọn Data Analysis, trong cửa sổ hiện ra chọn Regression rồi ấn OK
Làm như trong hình, chúng ta quan tâm đến các thông số

Input Y Range: Vùng chứa biến phụ thuộc (click chuột vào ô nhập bên phải sau đó ra ngoài màn hình chính kéo chọn vùng chứa biến phụ thuộc – bao gồm cả tên biến)

Input X Range: Vùng chứa các biến độc lập (click chuột vào ô nhập bên phải sau đó ra ngoài màn hình chính kéo chọn vùng chứa các biến độc lập – bao gồm cả tên biến)

Labels: Click chọn ô này để có sử dụng tên biến

Confidence Level: Độ tin cậy (1-a), mặc định 95%, nếu muốn thay đổi thì click chuột chọn ô này và nhập độ tin cậy mới.

Output Range: Vùng xuất, click chuột chọn tùy chọn này, sau đó click chuột vào ô nhập bên phải rồi ra ngoài màn hình chính click chọn một ô bất kỳ làm nơi xuất ra.
Kết quả ta được
Xét tương quan giữa các biến

Chọn Data Analysis, cửa sổ hiện ra chọn Correlation
Trong hộp thoại hiện ra Input Range: chọn vùng chứa các biến độc lập, bao gồm tên biến
Output Range: ô xuất kết quả
Kết quả tương quan giữa 2 biến như sau
Tương quan giữa X và Z = 0.14 nhỏ hơn căn bậc hai của (R bình phương của mô hình), có thể bỏ qua đa cộng tuyến.

Các hệ số hồi quy gắn với biến X và Z đều có ý nghĩa (vì các giá trị P-value tương ứng với các hệ số hồi quy này đều nhỏ hơn anpha (a)

Mô hình có ý nghĩa vì trị thống kê của kiếm định F nhỏ hơn anpha

Kết luận: Cả thu nhập và độ tuổi đều có tác động lên chi tiêu, tuy nhiên tác động của thu nhập lên chi tiêu lớn hơn


Statistical Process Control - SPC - Reference Manual

Statistical Process Control - SPC - Reference Manual

Statistical Process Control - SPC - Reference Manual

Sự khác nhau giữa Cp, Cpk và Pp, Ppk

In the Six Sigma quality methodology, process performance is reported to the organization as a sigma level. The higher the sigma level, the better the process is performing.

Sự khác nhau giữa Cp, Cpk, Pp, Ppk Another way to report process capability and process performance is through the statistical measurements of Cp, Cpk, Pp, and Ppk. This article will present definitions, interpretations and calculations for Cpk and Ppk though the use of forum quotations. Thanks to everyone below that helped contributed to this excellent reference.


    Cp= Process Capability. A simple and straightforward indicator of process capability. Cpk= Process Capability Index. Adjustment of Cp for the effect of non-centered distribution. Pp= Process Performance. A simple and straightforward indicator of process performance. Ppk= Process Performance Index. Adjustment of Pp for the effect of non-centered distribution.

Interpreting Cp, Cpk

“Cpk is an index (a simple number) which measures how close a process is running to its specification limits, relative to the natural variability of the process. The larger the index, the less likely it is that any item will be outside the specs.” Neil Polhemus

“If you hunt our shoot targets with bow, darts, or gun try this analogy. If your shots are falling in the same spot forming a good group this is a high Cp, and when the sighting is adjusted so this tight group of shots is landing on the bullseye, you now have a high Cpk.” Tommy

“Cpk measures how close you are to your target and how consistent you are to around your average performance. A person may be performing with minimum variation, but he can be away from his target towards one of the specification limit, which indicates lower Cpk, whereas Cp will be high. On the other hand, a person may be on average exactly at the target, but the variation in performance is high (but still lower than the tolerance band (i.e., specification interval). In such case also Cpk will be lower, but Cp will be high. Cpk will be higher only when you r meeting the target consistently with minimum variation.” Ajit

“You must have a Cpk of 1.33 [4 sigma] or higher to satisfy most customers.” Joe Perito

“Consider a car and a garage. The garage defines the specification limits; the car defines the output of the process. If the car is only a little bit smaller than the garage, you had better park it right in the middle of the garage (center of the specification) if you want to get all of the car in the garage. If the car is wider than the garage, it does not matter if you have it centered; it will not fit. If the car is a lot smaller than the garage (Six Sigma process), it doesn’t matter if you park it exactly in the middle; it will fit and you have plenty of room on either side. If you have a process that is in control and with little variation, you should be able to park the car easily within the garage and thus meet customer requirements. Cpk tells you the relationship between the size of the car, the size of the garage and how far away from the middle of the garage you parked the car.” Ben
“The value itself can be thought of as the amount the process (car) can widen before hitting the nearest spec limit (garage door edge).

Cpk =1/2 means you’ve crunched nearest the door edge (ouch!)
Cpk =1 means you’re just touching the nearest edge
Cpk =2 means your width can grow 2 times before touching
Cpk =3 means your width can grow 3 times before touching” Larry Seibel

Interpreting Pp, Ppk

“Process Performance Index basically tries to verify if the sample that you have generated from the process is capable to meet Customer CTQs (requirements). It differs from Process Capability in that Process Performance only applies to a specific batch of material. Samples from the batch may need to be quite large to be representative of the variation in the batch. Process Performance is only used when process control cannot be evaluated. An example of this is for a short pre-production run. Process Performance generally uses sample sigma in its calculation; Process capability uses the process sigma value determined from either the Moving Range, Range or Sigma control charts.” Praneet

Differences Between Cpk and Ppk

“Cpk is for short term, Ppk is for long term.” Sundeep Singh “Ppk produces an index number (like 1.33) for the process variation. Cpk references the variation to your specification limits. If you just want to know how much variation the process exhibits, a Ppk measurement is fine. If you want to know how that variation will affect the ability of your process to meet customer requirements (CTQ’s), you should use Cpk.” Michael Whaley “It could be argued that the use of Ppk and Cpk (with sufficient sample size) are far more valid estimates of long and short term capability of processes since the 1.5 sigma shift has a shaky statistical foundation.” Eoin “Cpk tells you what the process is CAPABLE of doing in future, assuming it remains in a state of statistical control. Ppk tells you how the process has performed in the past. You cannot use it predict the future, like with Cpk, because the process is not in a state of control. The values for Cpk and Ppk will converge to almost the same value when the process is in statistical control. that is because sigma and the sample standard deviation will be identical (at least as can be distinguished by an F-test). When out of control, the values will be distinctly different, perhaps by a very wide margin.” Jim Parnella “Cp and Cpk are for computing the index with respect to the subgrouping of your data (different shifts, machines, operators, etc.), while Pp and Ppk are for the whole process (no subgrouping). For both Ppk and Cpk the ‘k’ stands for ‘centralizing facteur’ – it assumes the index takes into consideration the fact that your data is maybe not centered (and hence, your index shall be smaller). It is more realistic to use Pp and Ppk than Cp or Cpk as the process variation cannot be tempered with by inappropriate subgrouping. However, Cp and Cpk can be very useful in order to know if, under the best conditions, the process is capable of fitting into the specs or not.It basically gives you the best case scenario for the existing process.” Chantal “Cp should always be greater than 2.0 for a good process which is under statistical control. For a good process under statistical control, Cpk should be greater than 1.5.” Ranganadha Kumar “As for Ppk/Cpk, they mean one or the other and you will find people confusing the definitions and you WILL find books defining them versa and vice versa. You will have to ask the definition the person is using that you are talking to.” Joe Perito “I just finished up a meeting with a vendor and we had a nice discussion of Cpk vs. Ppk. We had the definitions exactly reversed between us. The outcome was to standardize on definitions and move forward from there. My suggestion to others is that each company have a procedure or document (we do not), which has the definitions of Cpk and Ppk in it. This provides everyone a standard to refer to for WHEN we forget or get confused.” John Adamo “The Six Sigma community standardized on definitions of Cp, Cpk, Pp, and Ppk from AIAG SPC manual page 80. You can get the manual for about $7.” Gary

Calculating Cpk and Ppk

“Pp = (USL – LSL)/6*
Cpl = (Mean – LSL)/3*
Cpu = (USL – Mean)/3*
Cpk= Min (Cpl, Cpu)” Ranganadha Kumar “Cpk is calculated using an estimate of the standard deviation calculated using R-bar/d2. Ppk uses the usual form of the standard deviation ie the root of the variance or the square root of the sum of squares divided by n – 1. The R-bar/D2 estimation of the standard deviation has a smoothing effect and the Cpk statistic is less sensitive to points which are further away from the mean than is Ppk.” Eoin

“Cpk is calculated using RBar/d2 or SBar/c4 for Sigma in the denominator of you equation. This calculation for Sigma REQUIRES the process to be in a state of statistical control. If not in control, your calculation of Sigma (and hence Cpk) is useless – it is only valid when in-control.” Jim Parnella

“You can have a ‘good’ Cpk yet still have data outside the specification, and the process needs to be in control before evaluating Cpk.” Matt


Cách tính chỉ số Cp, Cpk

cách tính chỉ số Cp, Cpk Vừa rồi có bạn gửi mail hỏi về cách tính chỉ số Cp, Cpk. Tài liệu bên dưới mô tả từng bước cách tính hai chỉ số này.

Vẽ biểu đồ ma trận đồ thị phân tán bởi R

Giao diện dễ dùng cho R

Giao diện mặc định của chương trình R rất đơn giản và có hạn chế là bạn phải thuộc các hàm để nhập lệnh thì chương trình mới xử lý dữ liệu bằng các thuật toán thống kê. May thay, bạn có thể bỏ qua một số hạn chế này bằng gói ứng dụng Rcmdr vừa mới được phát hành.

Nguồn: Làm bạn với máy tính.

Khắc phục lỗi không sử dụng được một số gói tiện ích trong R

Các chỉ số năng lực quá trình: Cp, Cpk, Pp, Ppk - Ý nghĩa và cách thức sử dụng

For many years industries have used Cp, Cpk, Pp and Ppk as statistical measures of process quality capability. Some segments in manufacturing have specified minimal requirements for these parameters, even for some of their key documents, such as advanced product quality planning and ISO/TS-16949. Six Sigma, however, suggests a different evaluation of process capability by measuring against a sigma level, also known as sigma capability.

Incorporating metrics that differ from traditional ones may lead some companies to wonder about the necessity and adaptation of these metrics. It is important to emphasize that traditional capability studies as well as the use of sigma capability measures carry a similar purpose. Once the process is under statistical control and showing only normal causes, it is predictable. This is when it becomes interesting for companies to predict the current process’s probability of meeting customer specifications or requirements.

Capability Studies

Traditional capability rates are calculated when a product or service feature is measured through a quantitative continuous variable, assuming the data follows a normal probability distribution. A normal distribution features the measurement of a mean and a standard deviation, making it possible to estimate the probability of an incident within any data set.

The most interesting values relate to the probability of data occurring outside of customer specifications. These are data appearing below the lower specification limit (LSL) or above the upper specification limit (USL). An ordinary mistake lies in using capability studies to deal with categorical data, turning the data into rates or percentiles. In such cases, determining specification limits becomes complex. For example, a billing process may generate correct or incorrect invoices. These represent categorical variables, which by definition carry an ideal USL of 100 percent error free processing, rendering the traditional statistical measures (Cp, Cpk, Pp and Ppk) inapplicable to categorical variables.

When working with continuous variables, the traditional statistical measures are quite useful, especially in manufacturing. The difference between capability rates (Cp and Cpk) and performance rates (Pp and Ppk) is the method of estimating the statistical population standard deviation. The difference between the centralized rates (Cp and Pp) and unilateral rates (Cpk and Ppk) is the impact of the mean decentralization over process performance estimates.

The following example details the impact that the different forms of calculating capability may have over the study results of a process. A company manufactures a product that’s acceptable dimensions, previously specified by the customer, range from 155 mm to 157 mm. The first 10 parts made by a machine that manufactures the product and works during one period only were collected as samples during a period of 28 days. Evaluation data taken from these parts was used to make a Xbar-S control chart (Figure 1).
Figure 1: Xbar-S Control Chart of Evaluation Data
Figure 1: Xbar-S Control Chart of Evaluation Data

This chart presents only common cause variation and as such, leads to the conclusion that the process is predictable. Calculation of process capability presents the results in Figure 2.
Figure 2: Process Capability of Dimension
Figure 2: Process Capability of Dimension

Calculating Cp

The Cp rate of capability is calculated from the formula:
The Cp rate of capability is calculated from the formula
where s represents the standard deviation for a population taken from , with s-bar representing the mean of deviation for each rational subgroup and c4 representing a statistical coefficient of correction.

In this case, the formula considers the quantity of variation given by standard deviation and an acceptable gap allowed by specified limits despite the mean. The results reflect the population’s standard deviation, estimated from the mean of the standard deviations within the subgroups as 0.413258, which generates a Cp of 0.81.

Rational Subgroups

A rational subgroup is a concept developed by Shewart while he was defining control graphics. It consists of a sample in which the differences in the data within a subgroup are minimized and the differences between groups are maximized. This allows a clearer identification of how the process parameters change along a time continuum. In the example above, the process used to collect the samples allows consideration of each daily collection as a particular rational subgroup.

The Cpk capability rate is calculated by the formula:

considering the same criteria of standard deviation.

In this case, besides the variation in quantity, the process mean also affects the indicators. Because the process is not perfectly centralized, the mean is closer to one of the limits and, as a consequence, presents a higher possibility of not reaching the process capability targets. In the example above, specification limits are defined as 155 mm and 157 mm. The mean (155.74) is closer to one of them than to the other, leading to a Cpk factor (0.60) that is lower than the Cp value (0.81). This implies that the LSL is more difficult to achieve than the USL. Non-conformities exist at both ends of the histogram.

Estimating Pp

Similar to the Cp calculation, the performance Pp rate is found as follows:

where s is the standard deviation of all data.

The main difference between the Pp and Cp studies is that within a rational subgroup where samples are produced practically at the same time, the standard deviation is lower. In the Pp study, variation between subgroups enhances the s value along the time continuum, a process which normally creates more conservative Pp estimates. The inclusion of between-group variation in the calculation of Pp makes the result more conservative than the estimate of Cp.

With regard to centralization, Pp and Cp measures have the same limitation, where neither considers process centralization (mean) problems. However, it is worth mentioning that Cp and Pp estimates are only possible when upper and lower specification limits exist. Many processes, especially in transactional or service areas, have only one specification limit, which makes using Cp and Pp impossible (unless the process has a physical boundary [not a specification] on the other side). In the example above, the population’s standard deviation, taken from the standard deviation of all data from all samples, is 0.436714 (overall), giving a Pp of 0.76, which is lower than the obtained value for Cp.

Estimating Ppk

The difference between Cp and Pp lies in the method for calculating s, and whether or not the existence of rational subgroups is considered. Calculating Ppk presents similarities with the calculation of Cpk. The capability rate for Ppk is calculated using the formula:

Once more it becomes clear that this estimate is able to diagnose decentralization problems, aside from the quantity of process variation. Following the tendencies detected in Cpk, notice that the Pp value (0.76) is higher than the Ppk value (0.56), due to the fact that the rate of discordance with the LSL is higher. Because the calculation of the standard deviation is not related to rational subgroups, the standard deviation is higher, resulting in a Ppk (0.56) lower than the Cpk (0.60), which reveals a more negative performance projection.

Calculating Sigma Capability

In the example above, it is possible to observe the incidence of faults caused by discordance, whether to the upper or lower specification limits. Although flaws caused by discordance to the LSL have a greater chance of happening, problems caused by the USL will continue to occur. When calculating Cpk and Ppk, this is not considered, because rates are always calculated based on the more critical side of the distribution.

In order to calculate the sigma level of this process it is necessary to estimate the Z bench. This will allow the conversion of the data distribution to a normal and standardized distribution while adding the probabilities of failure above the USL and below the LSL. The calculation is as follows:

Above the USL:

Below the LSL:

Summing both kinds of flaws produces the following result:

(Figure 3)

Figure 3: Distribution Z

The calculation to achieve the sigma level is represented below:

Sigma level = Zbench + 1.5 = 1.51695 + 1.5 = 3.1695

There is great controversy about the 1.5 deviation that is usually added to the sigma level. When a great amount of data is collected over a long period of time, multiple sources of variability will appear. Many of these sources are not present when the projection is ranged to a period of some weeks or months. The benefit of adding 1.5 to the sigma level is seen when assessing a database with a long historical data view. The short-term performance is typically better as many of the variables will change over time to reflect changes in business strategy, systems enhancements, customer requirements, etc. The addition of the 1.5 value was intentionally chosen by Motorola for this purpose and the practice is now common throughout many sigma level studies.

Comparing the Methods

When calculating Cp and Pp, the evaluation considers only the quantity of process variation related to the specification limit ranges. This method, besides being applicable only in processes with upper and lower specification limits, does not provide information about process centralization. At this point, Cpk and Ppk metrics are wider ranging because they set rates according to the most critical limit.

The difference between Cp and Pp, as well as between Cpk and Ppk, results from the method of calculating standard deviation. Cp and Cpk consider the deviation mean within rational subgroups, while Pp and Ppk set the deviation based on studied data. It is worth working with more conservative Pp and Ppk data in case it is unclear if the sample criteria follow all the prerequisites necessary to create a rational subgroup.

Cpk and Ppk rates assess process capability based on process variation and centralization. However, here only one specification limit is considered, different from the sigma metric. When a process has only one specification limit, or when the incidence of flaws over one of the two specification limits is insignificant, sigma level, Cpk and Ppk bring very similar results. When faced with a situation where both specification limits are identified and both have a history of bringing restrictions to the product, calculating a sigma level gives a more precise view of the risk of not achieving the quality desired by customers.

As seen in the examples above, traditional capability rates are only valid when using quantitative variables. In cases using categorical variables, calculating a sigma level based on flaws, defective products or flaws per opportunity, is recommended.


Việc áp dụng tiêu chuẩn mang lại lợi ích kinh tế bao nhiêu?

Có một số người cho rằng việc áp dụng các tiêu chuẩn làm cản trở tốc độ tăng trưởng. Thực ra, các tiêu chuẩn tạo ra các cơ hội kinh tế. Bởi vì các khoản tiết kiệm chi phí và các cơ hội có thể được xác định rõ thông qua việc áp dụng các tiêu chuẩn. Một phương pháp tính toán lợi ích của tiêu chuẩn hiện nay cho phép các Công ty áp dụng tính toán lợi ích mang lại trong việc áp dụng tiêu chuẩn là bao nhiêu.

Đã bao nhiêu lần bạn rời một cuộc họp và nghi ngờ rằng bất cứ điều gì đã thực sự sẽ thay đổi trong chiến lược của công ty bạn? Điều này càng khó khăn hơn khi thời gian và tiền bạc là quan trọng. Tất cả các quá thường xuyên, chúng ta cùng nhau để xác định một chiến lược và đánh giá, trong nhiều thứ khác nữa, làm thế nào và ở đâu các tiêu chuẩn phù hợp với tình hình thực tế - và đã không có điều gì được thực hiện.

Một số người xem các tiêu chuẩn như một hộ chiếu xâm nhập các thị trường xuất khẩu, một số khác xem tiêu chuẩn là một thứ tệ hại hoặc điều gì đó cần phải trải qua, và những người khác vẫn xem các tiêu chuẩn là những kiến ​​thức vô giá của các chuyên gia. Nhưng dù bạn thuộc nhóm nào ở trên, bạn sẽ phải thừa nhận rằng các tiêu chuẩn hiếm khi được mô tả trong các con số. Lấy ví dụ, tỷ lệ tăng doanh thu hoặc tăng trưởng GDP có thể dẫn đến việc ứng dụng của chúng.

Chúng ta có thể xác định số lượng những lợi ích mà các tiêu chuẩn mang lại? Câu trả là: CÓ. Các tiêu chuẩn có tác động trực tiếp đến các điểm cốt yếu, bạn có thể tính toán. Chi phí tiêu chuẩn hóa luôn luôn là tương đối dễ dàng để xác định, nhưng các tính toán lợi ích của nó thì phức tạp hơn nhiều.

Hỗ trợ bởi nhu cầu

Bạn có thể tìm hiểu cách mà công ty của bạn có thể đánh giá và truyền đạt các lợi ích kinh tế của việc áp dụng các tiêu chuẩn và xác định chính xác các khu vực có khả năng dẫn đến những lợi ích cao nhất. Đây là trọng tâm của một nghiên cứu dài hạn theo tiêu chuẩn ISO và các thành viên trong đó có khoảng 30 công ty, và thậm chí cả một ngành công nghiệp, đã xem xét kỹ lưỡng cách họ sử dụng các tiêu chuẩn và tính toán các khoản tiết kiệm đã đạt được. Từ một nhà máy bia Nga đam mê chất lượng (xem hình) cho đến một công ty nhỏ của Đức trong lĩnh vực công nghệ định vị, những con số tính toán được thật thú vị.

Tất nhiên, những điều này rất đa dạng, với những kinh nghiệm khác nhau tùy thuộc vào quy mô công ty, khu vực và các tiêu chuẩn được sử dụng. Các công ty được khảo sát từ các doanh nghiệp nhỏ với 25 nhân viên và doanh thu hàng năm khoảng 4,5 triệu USD, đến các tập đoàn có hàng ngàn nhân viên với doanh thu hàng năm hơn 1,5 tỷ USD. Những công ty này hoạt động trong một loạt các lĩnh vực kinh doanh, chẳng hạn như thực phẩm, xây dựng và viễn thông. Nhưng đối với tất cả các công ty này, lợi ích lợi ích xác định được, thường là từ 0,15% đến 5% doanh thu bán hàng hàng năm.

Bài học từ Singapore

Những thông tin quan trọng khác có được từ nghiên cứu là ảnh hưởng ngành công nghiệp của khu vực. Một trường hợp điển hình là ngành công nghiệp xây dựng và bất động sản của Singapore. Vài năm trước đây, ngành công nghiệp hàng tỷ đô la đã áp dụng tiêu chuẩn quốc gia đầu tiên của mình về công nghệ thông tin, SS CP 83, một tiêu chuẩn CAD ​​cho bản vẽ kỹ thuật. Tiêu chuẩn này đã cải thiện năng suất và hiệu quả của quá trình làm việc trong ngành công nghiệp tạo điều kiện cho việc trao đổi các bản vẽ và thành công của CORENET (Xây dựng và Mạng lưới Bất động sản) cho việc trình bản vẽ điện tử để cơ quan quản lý xem xét và phê duyệt.

Ngành công nghiệp áp dụng CP 83 trong suốt chuỗi giá trị đối với bản vẽ kỹ thuật trong thiết kế, lập kế hoạch, hoạt động, kiểm tra và vận hành thử. Việc sử dụng các tiêu chuẩn đã làm cho việc trao đổi bản vẽ kỹ thuật điện tử giữa các kiến ​​trúc sư, kỹ thuật và các công ty thiết kế khác nhau trở nên dễ dàng hơn so với việc sử dụng các bản vẽ in.

Những lợi ích vượt trội đạt được: tiết kiệm kinh tế khoảng 320 triệu SGD (250 triệu USD) cho lĩnh vực xây dựng dân dụng Singapore (từ năm 2003 đến năm 2012). Vì vậy, làm thế nào tiêu chuẩn đóng góp cho lợi ích kinh tế của ngành công nghiệp?

Tóm lại, các lợi ích thu được từ:

(1) Chi phí và nỗ lực tránh khỏi việc phải chuẩn bị bản vẽ cho các cuộc thảo luận dự án và trình duyệt
(2) Thời gian dành cho việc giải thích các bản vẽ
(3) Tiết kiệm chi phí về giấy để phương tiện truyền thông điện tử
(4) Tiết kiệm từ việc giảm đi lại
(5) Chuyển giao bí quyết của nhân viên từ công ty đến công ty kế tiếp

Kinh nghiệm của Singapore nêu bật những lợi ích của việc sử dụng một tiêu chuẩn áp dụng thống nhất cho toàn bộ ngành công nghiệp. Từ thiết kế và sản xuất đến phân phối và tiếp thị, tất cả các khía cạnh của sản phẩm và dịch vụ của ngành công nghiệp bị ảnh hưởng tại một số điểm của việc tiêu chuẩn hóa. Việc thực hiện các CP 83 - cùng với cấp phép điện tử CORENET - tăng cường đáng kể thông tin liên lạc và phối hợp giữa các bên liên quan trong quá trình thiết kế, cũng như hỗ trợ để đạt được lợi ích kinh tế đáng kể. Đối với những công ty này và những công ty khác, việc tiêu chuẩn hóa không sử dụng ngân sách công ty một cách điên rồ. Đó là chìa khóa để nâng cao năng suất và hiệu quả trong toàn bộ chuỗi giá trị ngành xây dựng.

Những con số biết nói

Trong một thập kỷ qua, sự quan tâm ngày càng tăng đã hội đủ điều kiện và định lượng các lợi ích kinh tế và xã hội của các tiêu chuẩn. Nhưng làm thế nào để tác động nhiều hơn trên quy mô quốc gia chúng ta đang đề cập? Một loạt các nghiên cứu gần đây được tiến hành tại Đức và Vương quốc Anh là mối quan hệ trực tiếp giữa việc sử dụng các tiêu chuẩn và tăng trưởng kinh tế, năng suất lao động, khả năng xuất khẩu và nhiều hơn nữa.

Một nghiên cứu ở Anh do Sở Công nghiệp và BSI, các thành viên của ISO của Anh, đã ước tính rằng các tiêu chuẩn đóng góp vào GBP 2,5 tỷ USD cho nền kinh tế Vương quốc Anh và chiếm 13% trong việc cải thiện năng suất lao động trong những năm gần đây . Tương tự như vậy, DIN, các thành viên ISO của Đức, đã xác định rằng những lợi ích của tiêu chuẩn đại diện cho 1% tổng sản phẩm quốc nội. Nghiên cứu tương tự ở Mỹ, Úc và Canada chứng thực những phát hiện này.


Sơ đồ xương cá - Fishbone

Sơ đồ Nhân - Quả (Sơ đồ xương cá) được phát minh bởi giáo sư Kaoru Ishikawa,  là một kỹ thuật đồ họa có thể được sử dụng theo nhóm để xác định và sắp xếp các nguyên nhân của một sự kiện hay một vấn đề hoặc kết quả. 

Nó minh họa mối quan hệ thứ bậc giữa các nguyên nhân theo mức độ quan trọng hoặc chi tiết và một kết quả nào đó. Sơ đồ Nhân - Quả cũng được gọi là Sơ đồ Kaoru Ishikawa

Sơ đồ xương cá được sử dụng lần đầu tiên bởi giáo sư Kaoru Ishikawa Tokyo Đại học (một chuyên gia Nhật Bản được đánh giá cao trong việc quản lý chất lượng) vào năm 1943 để giúp giải thích cho một nhóm các kỹ sư của Kawasaki Steel  Work cách một tập hợp các yếu tố có liên quan để giúp hiểu một vấn đề. 

Sử dụng Sơ đồ Nhân - Quả (Sơ đồ Xương cá) như thế nào?

  • Tập trung nỗ lực của nhóm vào một vấn đề phức tạp
  • Xác định các nguyên nhân, nguyên nhân gốc rễ cho một hậu quả cụ thể, vấn đề, hay điều kiện. 
  • Phân tích một số các tương tác liên quan giữa các yếu tố ảnh hưởng một quá trình hoặc hậu quả cụ thể.
  • Kích hoạt hành động khắc phục.

 Các bước thực hiện một sơ đồ Nhân - Quả (Sơ đồ Xương cá)

  1. Giải thích mục đích của cuộc họp. Sau đó, xác định, và nêu rõ, và đồng ý về vấn đề này hoặc có hiệu lực phải được phân tích.
  2. Định vị một tấm bảng hoặc giấy khổ to để mọi người có thể nhìn thấy nó. Vẽ một hộp có chứa các vấn đề hoặc hậu quả ở phía bên phải của sơ đồ với một cột sống ngang
  3. Thực hiện phiên "động não". Một phác thảo ban đầu cho các nhánh (xương) lớn, bạn có thể sử dụng các hạng mục sau:
    •  Công nghiệp dịch vụ: sử dụng 8Ps: Con người (People); Sản phẩm (Product) / Dịch vụ (Service); Giá (Price); Khuyến mại (Promotion); Chính sách (Policies); Quá trình (Processes); Thủ tục (Procedures); Vị trí (Place) / Nhà máy (Plant) / Công nghệ (Technology)
    • Sản xuất: sử dụng 6Ms: Nguồn nhân lực (Manpower); Phương pháp (Method); Đo lường (Measurement); Máy móc (Machine); Vật liệu (Material); Môi trường (Mother Nature)
    • Sử dụng các loại trên bằng cách hỏi, ví dụ như: Những điều gì thuộc về CON NGƯỜI gây ra / ảnh hưởng đến hậu quả / kết quả?
  4. Xác định nguyên nhân chính góp phần vào hậu quả đang xem xét. Điều này có thể được thực hiện bằng cách áp dụng phân tích Pareto (quy tắc 80/20) hoặc RCA (Phân tích nguyên nhân gốc rễ)
  5. Những nguyên nhân chính này sẽ trở thành các nhãn của các nhánh phụ trên sơ đồ của bạn.
  6. Đối với mỗi nhánh phụ chính, xác định các yếu tố cụ thể khác có thể là nguyên nhân gây ra hậu quả. Hãy hỏi: Tại sao nguyên nhân này xảy ra?
  7. Hãy xác định mức độ ngày càng chi tiết hơn về nguyên nhân và tiếp tục tổ chức chúng dưới các nguyê nhân hoặc nhóm có liên quan.
  8. Phân tích sơ đồ
  9. Thực hiện các hành động loại bỏ nguyên nhân. Cách tiếp cận có hệ thống chung cho trường hợp này thường là PDCA hoặc RACI.
Lợi ích của Sơ đồ Nhân - Quả
  1. Giúp xác định và xem xét tất cả các nguyên nhân có thể có của vấn đề chứ không phải chỉ là những nguyên nhân rõ ràng nhất.
  2. Giúp xác định nguyên nhân gốc của vấn đề hoặc đặc tính chất lượng theo cách có cấu trúc.
  3. Khuyến khích sự tham gia của nhóm và sử dụng kiến thức nhóm của quá trình.
  4. Giúp tập trung vào những nguyên nhân của vấn đề này mà không cần đến than phiền và thảo luận không liên quan. 
  5. Sử dụng một trật tự, định dạng dễ đọc để sơ đồ hóa mối quan hệ nhân-quả. 
  6. Tăng kiến thức về quá trình bằng cách giúp mọi người tìm hiểu thêm về các yếu tố trong công việc và họ có liên quan như thế nào.
  7. Xác định lĩnh vực cần nghiên cứu thêm, nơi thiếu hụt thông tin. 

Giới hạn của Sơ đồ Nhân - Quả

  • Không phải đặc biệt hữu ích cho vấn đề vô cùng phức tạp, có nhiều nguyên nhân và nhiều vấn đề quan hệ với nhau.

Giả định của Sơ đồ Nhân - Quả

  • Một vấn đề bao gồm một số lượng hạn chế các nguyên nhân, lần lượt là nguyên nhân và nguyên nhân phụ.
  • Phân biệt các nguyên nhân và nguyên nhân phụ là bước đầu tiên hữu ích để giải quyết vấn đề.

Statistical Analysis with R

Cài Add-In Analysis Toolpak không cần đĩa CD

Chúng ta hay gặp rắc rối khi dùng các hàm có liên quan đến Analysis Toolpak... Khi check vào Add-In này, nếu may mắn nó im re thì không nói làm gì, còn không thì nó sẽ.. "rùng mình" một cái rồi đòi ta phải cho đĩa CD Office vào... Trong lúc cấp bách đào đâu ra cái đĩa ấy chứ... 
Có thể làm thủ công bằng cách copy file FUNCRES.XLA cho vào đường dẫn: C:\Program Files\Microsoft Office\OFFICE[xx]\Library\Analysis thì mọi chuyện sẽ được giải quyết (OFFICE[xx] tùy thuộc vào phiên bản bạn đang dùng)

Download file zip này  >> Giải nén  >>  Copy file các file trong thư mục vừa giải nén vào thư mục nói trên >> Mở Excel, vào menu Tools\Add-Ins, check vào mục Analysis Toolpak, OK


Bạn có thể làm tương tự đối với Excel Solver Add-In

Hướng dẫn sử dụng ngôn ngữ R trong phân tích dữ liệu

Bản Tiếng Việt (đây là bản tóm lược)

Bạn có thể xem thêm các minh họa thực hành tại đây
Bản Tiếng Anh

Ngôn ngữ lập trình R phổ biến trong giới thống kê

Theo một nhà nghiên cứu, ngôn ngữ lập trình R đang phát triển rất nhanh trong cộng đồng phân tích số liệu, vượt qua cả các gói ứng dụng phổ biến xưa nay như SAS, SPSS và MATLAB.
Ngôn ngữ lập trình R đang nhanh chóng trở thành ngôn ngữ phổ biến trong các gói ngôn ngữ dữ liệu truyền thống như SPSS, SAS và MATLAB, ít nhất là theo một nhà phân tích dữ liệu về ngôn ngữ lập trình. 
“Trong suốt mùa hè vừa qua, R là phần mềm phân tích được sử dụng nhiều nhất trong các bài viết học thuật chuyên sâu, chấm dứt một kỷ nguyên 16-năm của SPSS”, ông Robert Muenchen viết trong một bài blog gần đây, tổng kết thống kê của ông. 

Muenchen đánh giá tính phổ biến của các gói phần mềm dữ liệu bằng cách theo dõi tần suất người sử dụng đăng tải các nghiên cứu khoa học được công bố và số lượng người nhận xét gói phần mềm trong các thảo luận trên forum, blog, danh sách công việc và các nguồn khác. 

Trong khảo sát này của ông Muenchen, các nhà nghiên cứu tiếp tục sử dụng các gói phần mềm truyền thống trong hầu hết công việc của họ, có thể kể đến như các gói của SAS và MATLAB, cũng như gói SPSS của IBM. 

SPSS dẫn đầu với hơn 75.000 trích dẫn trong các bài báo khoa học được liệt kê trong kết quả tìm kiếm của Google Scholar. SAS theo sau, đứng thứ 2 với 40.000 trích dẫn. R được sử dụng hơn 20.000 dự án nghiên cứu. 

Ngoài ra, khi Muenchen tìm con số trích dẫn từ năm 1995, ông nhận ra rằng SPSS đã giảm kể từ năm 2007. SAS cũng theo chiều hướng của SPSS, đạt đỉnh hồi năm 2008. Ngược lại, R tăng rất nhanh, nhanh hơn cả các gói như Statistica và Stada. 

Ông Muenchen đề cập: “Xu hướng SPSS giảm và R tăng trong suốt quãng mùa hè vừa qua cho thấy R đang trở thành ngôn ngữ hàng đầu trong các gói phân tích dữ liệu được sử dụng trong các bài báo khoa học. Vì quá trình đăng tải các bài báo in xuất bản trước một thời gian trước khi đưa lên mạng, tạo chỉ mục tìm kiếm… nên chúng tôi chưa thể xác định chính xác điều gì sẽ xảy ra trong năm tới.”

R là ngôn ngữ lập trình chức năng, nguồn mở, được thiết kế chuyên cho điện toán dữ liệu và đồ hoạ.

Muenchen là nhà thống kê, quản lý mảng hỗ trợ bộ phận điện toán tại đại học Tennessee, Mỹ, ngoài việc xác nhận tính phổ biến của R, ông cũng là giáo viên giảng dạy R trên danh nghĩa Revolution Analytics. Ông còn được cộng đồng công nhận là chuyên gia về phân tích điện toán, viết mã cho SAS, SPSS và nhiều gói R khác. Ông cũng từng làm việc trong ban cố vấn của SAS, SPSS trước khi IBM mua lại hồi năm 2009.

Theo IDC, ngôn ngữ R trở nên phổ biến một phần là vì nó là nguồn mở, miễn phí và các nhà nghiên cứu có thể tải nó về để bắt đầu một dự án nào đó mà không phải tốn tiền.

Trong nghiên cứu của Muenchen, ông không phân biệt giữa các phiên bản khác nhau của R, có thể đó là phiên bản nguồn mở hoặc phiên bản dành cho doanh nghiệp của Revolution Analytics, hoặc là bản nguồn mở của R Project

Cũng có một số dấu hiệu khác cho thấy tính phổ biến của R. Nhiều đăng tải tìm việc trên yêu cầu thành thạo R nhiều hơn so với SPSS, mặc dù vẫn có vài nhà tuyển dụng cần đến SAS. Số lượng sách và forum thảo luận về R cũng nhiều hơn SAS và SPSS.

Free Statistical Software for you

Click the links below and download what you want:
  1. List of Free Statistical Software  
  2. Statistical Packages: Free 
  3. Real Statistic. Real Statistics Using Excel 
  4. Free Statistical Software
  5. Free Quality Tools
  6. Statistical Packages Available as Free Software. Emphasis on social research. Gene Shackman.
  7. Free Statistical Software.  John C. Pezzullo.
  8. Statcon: List of Free Statistical Software. STATCON GmbH.