Перевод статьи «Мифы об убийстве и множественной регрессии» (Myths of Murder and Multiple Regression — translation into Russian)

Ниже приведен образец перевода научной статьи «Мифы об убийстве и множественной регрессии». Оригинальная статья.

Published in The Skeptical Inquirer, Volume 26, No 1, January/February 2002, pp. 19-23.
Spanish translation as «El Modelo Econometrico Como Ciencia Basura,» in Psicologia Politica, No 24 (Valencia, Spain).

Do you believe that every time a prisoner is executed in the United States, eight future murders are deterred? Do you believe that a 1% increase in the number of citizens licensed to carry concealed weapons causes a 3.3% decrease in the state’s murder rate? Do you believe that 10 to 20% of the decline in crime in the 1990s was caused by an increase in abortions in the 1970s? Or that the murder rate would have increased by 250% since 1974 if the United States had not built so many new prisons?

If you were misled by any of these studies, you may have fallen for a pernicious form of junk science: the use of mathematical models with no demonstrated predictive capability to draw policy conclusions. These studies are superficially impressive. Written by reputable social scientists from prestigious institutions, they often appear in peer reviewed scientific journals. Filled with complex statistical calculations, they give precise numerical «facts» that can be used as debaters’ points in policy arguments. But these «facts» are will o’ the wisps. Before the ink is dry on one study, another appears with completely different «facts.» Despite their scientific appearance, these models do not meet the fundamental criterion for a useful mathematical model: the ability to make predictions that are better than random chance.

Although economists are the leading practitioners of this arcane art, sociologists, criminologists and other social scientists have versions of it as well. It is known by various names, including «econometric modeling,» «structural equation modeling,» and «path analysis.» All of these are ways of using the correlations between variables to make causal inferences. The problem with this, as anyone who has had a course in statistics knows, is that correlation is not causation. Correlations between two variables are often «spurious» because they are caused by some third variable. Econometric modelers try to overcome this problem by including all the relevant variables in their analyses, using a statistical technique called «multiple regression.» If one had perfect measures of all the causal variables, this would work. But the data are never good enough. Repeated efforts to use multiple regression to achieve definitive answers to public policy questions have failed.

But many social scientists are reluctant to admit failure. They have devoted years to learning and teaching regression modeling, and they continue to use regression to make causal arguments that are not justified by their data. I call these arguments the myths of multiple regression, and I would like to use four studies of murder rates as examples.

Myth One: More Guns, Less Crime.

John Lott, an economist at Yale University, used an econometric model to argue that «allowing citizens to carry concealed weapons deters violent crimes, without increasing accidental deaths.» Lott’s analysis involved «shall issue» laws that require local authorities to issue a concealed weapons permit to any law-abiding citizen who applies for one. Lott estimated that each one percent increase in gun ownership in a population causes a 3.3% decrease in homicide rates. Lott and his co-author, David Mustard posted the first version of their study on the Internet in 1997 and tens of thousands of people downloaded it. It was the subject of policy forums, newspaper columns, and often quite sophisticated debates on the World Wide Web. In a book with the catchy title More Guns, Less Crime, Lott taunted his critics, accusing them of putting ideology ahead of science.

Lott’s work is an example of statistical one-upmanship. He has more data and a more complex analysis than anyone else studying the topic. He demands that anyone who wants to challenge his arguments become immersed in a very complex statistical debate, based on computations so difficult that they cannot be done with ordinary desktop computers. He challenges anyone who disagrees with him to download his data set and redo his calculations, but most social scientists do not think it worth their while to replicate studies using methods that have repeatedly failed. Most gun control researchers simply brushed off Lott and Mustard’s claims and went on with their work. Two highly respected criminal justice researchers, Frank Zimring and Gordon Hawkins (1997) wrote an article explaining that:
just as Messrs. Lott and Mustard can, with one model of the determinants of homicide, produce statistical residuals suggesting that ‘shall issue’ laws reduce homicide, we expect that a determined econometrician can produce a treatment of the same historical periods with different models and opposite effects. Econometric modeling is a double-edged sword in its capacity to facilitate statistical findings to warm the hearts of true believers of any stripe.

Zimring and Hawkins were right. Within a year, two determined econometricians, Dan Black and Daniel Nagin (1998) published a study showing that if they changed the statistical model a little bit, or applied it to different segments of the data, Lott and Mustard’s findings disappeared. Black and Nagin found that when Florida was removed from the sample there was «no detectable impact of the right-to-carry laws on the rate of murder and rape.» They concluded that «inference based on the Lott and Mustard model is inappropriate, and their results cannot be used responsibly to formulate public policy.»

John Lott, however, disputed their analysis and continued to promote his own. Lott had collected data for each of America’s counties for each year from 1977 to 1992. The problem with this is that America’s counties vary tremendously in size and social characteristics. A few large ones, containing major cities, account for a very large percentage of the murders in the United States. As it happens, none of these very large counties have «shall issue» gun control laws. This means that Lott’s massive data set was simply unsuitable for his task. He had no variation in his key causal variable – «shall issue» laws – in the places where most murders occurred.

He did not mention this limitation in his book or articles. When I discovered the lack of «shall issue» laws in the major cities in my own examination of his data, I asked him about it. He shrugged it off, saying that he had «controlled» for population size in his analysis. But introducing a statistical control in the mathematical analysis did not make up for the fact that he simply had no data for the major cities where the homicide problem was most acute.

It took me some time to find this problem in his data, since I was not familiar with the gun control issue. But Zimring and Hawkins zeroed in on it immediately because they knew that «shall issue» laws were instituted in states where the National Rifle Association was powerful, largely in the South, the West and in rural regions. These were states that already had few restrictions on guns. They observed that this legislative history frustrates «our capacity to compare trends in ‘shall issue’ states with trends in other states. Because the states that changed legislation are different in location and constitution from the states that did not, comparisons across legislative categories will always risk confusing demographic and regional influences with the behavioral impact of different legal regimes.» Zimring and Hawkins further observed that:
Lott and Mustard are, of course, aware of this problem. Their solution, a standard econometric technique, is to build a statistical model that will control for all the differences between Idaho and New York City that influence homicide and crime rates, other than the «shall issue» laws. If one can «specify» the major influences on homicide, rape, burglary, and auto theft in our model, then we can eliminate the influence of these factors on the different trends. Lott and Mustard build models that estimate the effects of demographic data, economic data, and criminal punishment on various offenses. These models are the ultimate in statistical home cooking in that they are created for this data set by these authors and only tested on the data that will be used in the evaluation of the right-to-carry impacts.

Lott and Mustard were comparing trends in Idaho and West Virginia and Mississippi with trends in Washington, D.C. and New York City. What actually happened was that there was an explosion of crack-related homicides in major eastern cities in the 1980s and early 1990s. Lott’s whole argument came down to a claim that the largely rural and western «shall issue» states were spared the crack-related homicide epidemic because of their «shall issue» laws. This would never have been taken seriously if it had not been obscured by a maze of equations.

Myth Two: Imprisoning More People Cuts Crime

The Lott and Mustard case was exceptional only in the amount of public attention it received. It is quite common, even typical, for rival studies to be published using econometric methods to reach opposite conclusions about the same issue. Often there is nothing demonstrably wrong with either of the analyses. They simply use slightly different data sets or different techniques to achieve different results. It seems as if regression modelers can achieve any result they want without violating the rules of regression analysis in any way. In one exceptionally frank statement of frustration with this state of affairs, two highly respected criminologists, Thomas Marvell and Carlisle Moody (1997: 221), reported on the reception of a study they did of the effect of imprisonment on homicide rates. They reported that they:

widely circulated [their] findings, along with the data used, to colleagues who specialize in quantitative analysis. The most frequent response is that they refuse to believe the results no matter how good the statistical analysis. Behind that contention is the notion, often discussed informally but seldom published, that social scientists can obtain any result desired by manipulating the procedures used. In fact, the wide variety of estimates concerning the impact of prison populations is taken as good evidence of the malleability of research. The implication, even among many who regularly publish quantitative studies, is that no matter how thorough the analysis, results are not credible unless they conform with prior expectations. A research discipline cannot succeed in such a framework.

To their great merit, Marvell and Moody frankly acknowledged the problems with multiple regression, and made some suggestions for improvement. Unfortunately, some econometricians become so immersed in their models that they lose track of how arbitrary they are. They come to believe that their models are more real, more valid, than the messy, recalcitrant, «uncontrolled» reality they purport to explain.

Myth Three: Executing People Cuts Crime

In 1975 The American Economic Review published an article by a leading economist, Isaac Ehrlich of the University of Michigan, who estimated that each execution deterred eight homicides. Before Ehrlich, the best known specialist on the effectiveness of capital punishment was Thorsten Sellen, who had used a much simpler method of analysis. Sellen prepared graphs comparing trends in different states. He found little or no difference between states with or without the death penalty, so he concluded that the death penalty made no difference. Ehrlich, in an act of statistical one-upmanship, claimed that his analysis was more valid because it controlled for all the factors that influence homicide rates.

Even before it was published, Ehrlich’s work was cited by the Solicitor General of the United States in an amicus curiae brief filed with the United States Supreme Court in defense of the death penalty. Fortunately, the Court decided not to rely upon Ehrlich’s evidence because it had not been confirmed by other researchers. This was wise, because within a year or two other researchers published equally sophisticated econometric analyses showing that the death penalty had no deterrent effect.

The controversy over Ehrlich’s work was so important that the National Research Council convened a blue ribbon panel of experts to review it. After a very thorough review, the panel decided that the problem was not just with Ehrlich’s model, but with the idea of using of econometric methods to resolve controversies over criminal justice policies. They (Manski, 1978: 422) concluded that:
because the data likely to be available for such analysis have limitations and because criminal behavior can be so complex, the emergence of a definitive behavioral study lying to rest all controversy about the behavioral effects of deterrence policies should not be expected.

Most experts now believe that Sellen was right, that capital punishment has no demonstrable effect on murder rates. But Ehrlich has not been persuaded. He is now a lonely true believer in the validity of his model. In a recent interview (Bonner and Fessendren, 2000) he insisted «if variations like unemployment, income inequality, likelihood of apprehension and willingness to use the death penalty are accounted for, the death penalty shows a significant deterring effect.»

Myth Four: Legalized Abortion Caused the Crime Drop in the 1990s.

In 1999, John Donohue and Steven Levitt released a study with a novel explanation of the sharp decline in murder rates in the 1990s. They argued that the legalization of abortion by the U.S. Supreme Court in 1973 caused a decrease in the birth of unwanted children, a disproportionate number of whom would have grown up to be criminals. The problem with this argument is that the legalization of abortion was a one-time historical event and one-time events do not provide enough data for a valid regression analysis. It is true that abortion was legalized earlier in some states than others, and Donohue and Levitt make use of this fact. But all these states were going through the same historical processes, and many other things were happening in the same historical period that effected murder rates. A valid regression analysis would have to capture all of these things, and test them under a wide range of variation. The existing data do not permit that, so the results of a regression analysis will vary depending on which data are selected for analysis.

In this case, Donohue and Levitt chose to focus on change over a twelve year time span, ignoring fluctuations within those years. By doing this, as James Fox (2000: 303) pointed out, «they missed most of the shifts in crime during this period — the upward trend during the late 1980s crack era and the downward correction in the post-crack years. This is something like studying the effects of moon phases on ocean tides but only recording data for periods of low tide.»

When I was writing this article, I included a sentence stating «soon another regression analyst will probably reanalyze the same data and reach different conclusions.» A few days later, my wife handed me a newspaper story about just such a study. The author was none other than John Lott of Yale, together with John Whitley of the University of Adelaide. They crunched the same numbers and concluded that «legalizing abortion increased murder rates by around about 0.5 to 7 percent» (Lott and Whitely, 2001).

Why such markedly different results? Each set of authors simply selected a different way to model an inadequate body of data. Econometrics cannot make a valid general law out of the historical fact that abortion was legalized in the 1970s and crime went down in the 1990s. We would need at least a few dozen such historical experiences for a valid statistical test.

Conclusions.

The acid test in statistical modeling is prediction. Prediction does not have to be perfect. If a model can predict significantly better than random guessing, it is useful. For example, if a model could predict stock prices even slightly better than random guessing, it would make its owners very wealthy. So a great deal of effort has gone into testing and evaluating models of stock prices. Unfortunately, researchers who use econometric techniques to evaluate social policies very seldom subject their models to predictive tests. Their excuse is that it takes too long for the outcomes to be known. You don’t get new data on poverty, abortion or homicide every few minutes as you do with stock prices. But researchers can do predictive testing in other ways. They can develop a model using data from one jurisdiction or time period, then use it to predict data from other times or places. But most researchers simply do not do this, or if they do the models fail and the results are never published.

The journals that publish econometric studies of public policy issues often do not require predictive testing, which shows that the editors and reviewers have low expectations for their fields. So researchers take data for a fixed period of time and keep fine tuning and adjusting their model it until they can «explain» trends that have already happened. There are always a number of ways to do this, and with modern computers it is not terribly hard to keep trying until you find something that fits. At that point, the researcher stops, writes up the findings, and sends the paper off for publication. Later, another researcher may adjust the model to obtain a different result. This fills the pages of scholarly journals, and everybody pretends not to notice that little or no progress is being made. But we are no closer to having a valid econometric model of murder rates today than we were when Isaac Ehrlich published the first model in 1975.

The scientific community does not have good procedures for acknowledging the failure of a widely used research method. Methods that are entrenched in graduate programs at leading universities and published in prestigious journals tend to be perpetuated. Many laymen assume that if a study has been published in a peer reviewed journal, it is valid. The cases we have examined show that this is not always the case. Peer review assures that established practices have been followed, but it is of little help when those practices themselves are faulty.

In 1991, David Freedman, a distinguished sociologist at the University of California at Berkeley and the author of textbooks on quantitative research methods, shook the foundations of regression modeling when he frankly stated «I do not think that regression can carry much of the burden in a causal argument. Nor do regression equations, by themselves, give much help in controlling for confounding variables» (Freedman, 1991: 292). Freedman’s article provoked a number of strong reactions. Richard Berk (1991: 315) observed that Freedman’s argument «will be very difficult for most quantitative sociologists to accept. It goes to the heart of their empirical enterprise and in so doing, puts entire professional careers in jeopardy.»

Faced with critics who want some proof that they can predict trends, regression modelers often fall back on statistical one-upmanship. They make arguments so complex that only other highly trained regression analysts can understand, let alone refute, them. Often this technique works. Potential critics simply give up in frustration. The Philadelphia Inquirer’s David Boldt (1999), after hearing John Lott speak on concealed weapons and homicide rates, and checking with other experts, lamented that «trying to sort out the academic arguments is almost a fool’s errand. You can drown in disputes over t-statistics, dummy variables and ‘Poisson’ vs. ‘least squares’ data analysis methods.»

Boldt was correct to suspect that he was being lured into a fool’s mission. There are, in fact, no important findings in sociology or criminology that cannot be communicated to journalists and policy makers who lack graduate degrees in econometrics. It is time to admit that the emperor has no clothes. When presented with an econometric model, consumers should insist on evidence that it can predict trends in data other than the data used to create it. Models that fail this test are junk science, no matter how complex the analysis.

Опубликовано в The Skeptical Inquirer, выпуск 26, № 1, январь/февраль 2002 г., стр. 19-23.
Перевод на испанский язык под названием «El Modelo Econometrico Como Ciencia Basura» в Psicologia Politica, № 24 (Валенсия, Испания).

Вы верите в то, что каждый раз, когда в Соединенных Штатах Америки казнят заключенного, предотвращается восемь будущих убийств? Вы верите, что увеличение числа граждан, имеющих лицензию на скрытое ношение оружия, на 1% ведет к уменьшению количества убийств в штате на 3,3%? Вы верите, что от 10 до 20% снижения преступности в 1990-х было следствием увеличения числа абортов в 1970-х? Или что количество убийств увеличилось бы на 250% с 1974 года, если бы США не построили так много новых тюрем?

Если вас ввели в заблуждение какие-то из этих исследований, возможно, вы поддались влиянию вредной формы «мусорной науки»: использование математических моделей, непригодных для прогнозирования, с целью сделать принципиальные выводы. На первый взгляд эти исследования впечатляют. Составленные уважаемыми социологами из престижных учреждений, они часто появляются в научных журналах с экспертной оценкой. Будучи наполненными сложными статистическими вычислениями, они дают точные числовые «факты», которые могут использоваться в качестве политических аргументов участников дебатов. Но эти «факты» – блуждающие огни. Еще до того, как высохнут чернила, которыми написано исследование, появляется другое исследование с абсолютно иными «фактами». Несмотря на то, что эти модели кажутся научными, они не отвечают фундаментальному критерию полезной математической модели: способность делать прогнозы, которые лучше, чем случайные числа.

Хотя экономисты и занимаются этим загадочным искусством больше остальных, социологи, криминологи и прочие специалисты в области общественных наук также имеют свою версию этого искусства. Оно известно под разными названиями, включая «эконометрическое моделирование», «моделирование структурными уравнениями» и «анализ пути». Это все способы использования корреляций между переменными с целью сделать причинные выводы. Проблема здесь, как известно каждому, кто проходил курс статистики, заключается в том, что корреляция не является причинно-следственным отношением. Корреляция между двумя переменными часто является «поддельной», так как причиной ее возникновения становится некая третья переменная. Создатели эконометрических моделей стараются преодолеть эту проблему, включая все имеющие отношение к делу переменные в свой анализ и используя статистический метод под названием «множественная регрессия». Если бы у кого-то были идеальные измерения всех причинных переменных, это бы сработало. Но данные всегда недостаточно хороши. Неоднократные попытки использовать множественную регрессию для получения окончательных ответов на вопросы государственной политики провалились.

Но многие социологи не желают признавать неудачу. Они посвятили годы изучению и преподаванию регрессионного моделирования и продолжают использовать регрессию для приведения причинных аргументов, которые не подтверждены их данными. Я называю эти аргументы мифами множественной регрессии, и я хотел бы привести четыре исследования числа убийств в качестве примеров.

Миф первый: чем больше оружия, тем меньше преступлений.

Джон Лотт, экономист Йельского университета, использовал эконометрическую модель, чтобы аргументировать, что «если позволить гражданам скрыто носить оружие, это сократит количество преступлений с применением насилия без увеличения числа случайных смертей». Анализ Лотта подразумевал наличие закона, по которому местные власти обязаны выдать разрешение на скрытое ношение оружия любому законопослушному гражданину, подавшему на него заявку. По оценке Лотта, увеличение числа владельцев оружия среди населения на один процент приводит к сокращению количества убийств на 3,3%. Лотт и его соавтор Дэвид Мустард опубликовали первую редакцию своего исследования в интернете в 1997 году, и десятки тысяч человек загрузили ее. Она стала темой политических форумов, колонок в газетах, и часто довольно сложных дебатов в сети. В книге с броским названием «Чем больше оружия, тем меньше преступлений» Лотт насмехался над своими критиками, обвиняя их в том, что они считали идеологию важнее науки.

Работа Лотта является примером умения превзойти других при помощи статистики. У него больше данных и более сложный анализ, чем у любого другого, изучающего эту тему. Он требует, чтобы тот, кто хочет оспорить его доводы, погрузился в очень сложную дискуссию с привлечением статистики на основании таких трудных вычислений, которые невозможно осуществить на обычных компьютерах. Он требует, чтобы каждый, кто с ним не согласен, скачал его массив данных и заново провел расчеты, но большинство ученых считают, что повторное проведение исследований с использованием методов, которые неоднократно провалились, не стоит их времени. Большинство исследователей в сфере контроля над огнестрельным оружием просто отказались слушать заявления Лотта и Мустарда и продолжили делать свою работу. Два весьма уважаемых исследователя в области уголовного правосудия Фрэнк Зимринг и Гордон Хокинс (1997) написали статью, в которой объясняется, что:
точно так же, как господа Лотт и Мустард могут при помощи одной модели определяющих факторов убийств получить статистические результаты, предполагающие, что законы, обязывающие власти выдавать разрешение на оружие, сокращают число убийств, мы полагаем, что решительный специалист по эконометрике сможет изучить те же исторические периоды с использованием других моделей и получить противоположные результаты. Эконометрическое моделирование – палка о двух концах с точки зрения ее способности содействовать получению статистических выводов и согревать сердца всех, кто по-настоящему верит.

Зимринг и Хокинс были правы. В течение года два решительных специалиста по эконометрике Дэн Блэк и Дэниел Нагин (1998) опубликовали исследование, в котором показывали, что если бы они слегка изменили статистическую модель или применили бы ее к другим сегментам данных, результаты, полученные Лоттом и Мустардом, исчезли бы. Блэк и Нагин обнаружили, что, когда Флорида была исключена из выборки, не было «никакого заметного влияния законов о ношении оружия на число убийств и изнасилований». Они сделали вывод, что «умозаключение, основанное на модели Лотта и Мустарда, неуместно, и их результаты не могут использоваться с ответственностью для формулирования государственной политики».

Однако Джон Лотт оспорил их анализ и продолжил продвигать свой. Лотт собрал данные по каждому округу Америки за каждый год с 1977 по 1992 год. Проблема здесь заключается в том, что округа Америки разительно отличаются друг от друга по размеру и социальным характеристикам. На несколько крупных округов, в состав которых входят крупные города, приходится огромный процент убийств в США. Так получилось, что ни в одном из этих очень крупных округов нет законов, обязывающих власти выдавать разрешение на оружие. Это означает, что огромный массив данных Лотта просто не подходил для решения этой задачи. Его ключевая причинная переменная – законы об обязательной выдаче разрешения на оружие – не изменялась в тех местах, где происходило большинство убийств.

Он не упоминал это ограничение в своей книге или статьях. Когда я обнаружил отсутствие законов об обязательной выдаче разрешения на оружие в крупных городах при самостоятельном изучении его данных, я спросил его об этом. Он отмахнулся и сказал, что «учел» численность населения в своем анализе. Но внедрение статистического контроля в математических анализ не компенсировало тот факт, что у него просто не было данных по крупным городам, где проблема убийств была наиболее острой.

Мне потребовалось некоторое время, чтобы найти эту проблему в его данных, так как я не был знаком с вопросом контроля над огнестрельным оружием. Но Зимринг и Хокинс сразу же сосредоточились на этом, потому что знали, что законы об обязательной выдаче разрешения на оружие были введены в тех штатах, где имела влияние Национальная стрелковая ассоциация: в значительной степени на юге, на западе и в сельских районах. Это были штаты, в которых уже действовало мало ограничений в отношении огнестрельного оружия. Они заявили, что эта законодательная история мешает «нам сравнивать тенденции в штатах с законами об обязательной выдаче разрешения на оружие с тенденциями в других штатах. Так как штаты, которые изменили законодательство, отличаются местонахождением и устройством от штатов, которые этого не сделали, сравнение, охватывающее несколько законодательных категорий, всегда несет риск того, что влияние демографии и региона будет спутано с поведенческим влиянием разных режимов права». Зимринг и Хокинс также заявили, что
конечно, Лотт и Мустард знают об этой проблеме. Их решение, стандартный эконометрический метод, заключается в построении статистической модели, в которой будут учитываться все различия между Айдахо и Нью-Йорком, которые влияют на число убийств и преступлений, кроме законов об обязательной выдаче разрешения на оружие. Если кто-то может «определить» основные факторы, влияющие на убийства, изнасилования, кражи со взломом и угон машин в нашей модели, то мы можем исключить влияние этих факторов на другие тенденции. Лотт и Мустард строят модели оценки влияния демографических данных, экономических данных и уголовного наказания на различные правонарушения. Эти модели являются отличным примером доморощенной статистики потому, что они созданы для этого набора данных этими авторами и проверены только на данных, которые будут использоваться для оценки влияния права на владение оружием.

Лотт и Мустард сравнивали тенденции в Айдахо, Западной Вирджинии и Миссисипи с тенденциями в Вашингтоне, Округ Колумбия, и Нью-Йорке. В действительности в 1980-х и начале 1990-х в крупных восточных городах произошел сильный рост связанных с крэком убийств. Все доводы Лотта сводились к заявлению, что в значительной степени сельские и западные штаты с законами об обязательной выдаче разрешения на оружие эпидемия связанных с крэком убийств обошла стороной из-за этих законов. Это никогда бы не было воспринято всерьез, если бы не было скрыто в лабиринте уравнений.

Миф второй: лишение свободы большего количества людей сокращает преступность

Случай Лотта и Мустарда был исключительным только в том, что привлек столько внимания общественности. Публикация с использованием эконометрических методов для получения противоположных выводов насчет одного и того же вопроса – довольно распространённое явление, даже типичное, для соперничающих исследований. Часто оба анализа на первый взгляд кажутся верными. В них просто используются немного разные наборы данных или разные методы для получения разных результатов. Кажется, построители регрессионных моделей могут получить любой результат, какой захотят, никоим образом не нарушая правил регрессионного анализа. В одном исключительно откровенном заявлении по поводу разочарования в положении дел два высокоуважаемых криминолога Томас Марвелл и Карлайл Муди (1997: 221) сообщили о том, как было принято их исследование о влиянии заключения в тюрьму на число убийств. Они сообщили, что они:

широко распространили результаты [своего] исследования, вместе с использованными данными, среди коллег, специализирующихся на количественном анализе. Чаще всего им отвечали, что отказываются верить результатам, независимо от того, как хорошо был проведен статистический анализ. За этим разногласием стоит часто обсуждаемое неофициально, но редко публикуемое представление о том, что ученые в области социальных наук могут получить любой желаемый результат, манипулируя используемыми процедурами. На самом деле, множество оценок касательно влияния наполненности тюрем считается хорошим свидетельством податливости исследований. И вывод, даже для тех, кто регулярно публикует количественные исследования, заключается в том, что независимо от того, насколько тщательным является анализ, результатам нельзя верить, если они не соответствуют предшествующим ожиданиям. Исследовательская дисциплина не может иметь успех в таких рамках.

Большой заслугой Марвелла и Муди является то, что они открыто признали проблемы множественной регрессии и внесли некоторые предложения по улучшению. К сожалению, некоторые эконометристы так сильно погружаются в свои модели, что перестают видеть, насколько они субъективны. Они начинают верить, что их модели более реальны, более верны, чем беспорядочная, непокорная, «неконтролируемая» реальность, которую они пытаются объяснить.

Миф третий: Казнь людей сокращает число преступлений

В 1975 году журнал The American Economic Review опубликовал статью ведущего экономиста Исаака Эрлиха из Мичиганского университета, согласно оценке которого, каждая казнь предотвращает восемь убийств. До Эрлиха самым известным специалистом по эффективности смертной казни был Торстен Селлен, который использовал гораздо более простой метод анализа. Селлен строил графики, сравнивая тенденции в разных штатах. Он обнаружил, что между штатами со смертной казнью и без нее разница была невелика или ее не было вовсе, поэтому он пришел к выводу, что наличие смертной казни ничего не меняло. Эрлих, пытаясь продемонстрировать свое превосходство, заявил, что его анализ более надежен, так как в нем учтены все факторы, влияющие на число убийств.

Еще до публикации работу Эрлиха цитировал Генеральный солиситор США в свидетельстве «amicus curiae», поданном в Верховный суд США в защиту смертной казни. К счастью, Суд решил не опираться на доказательство Эрлиха, потому что оно не было подтверждено другими исследователями. Это было мудро, так как в течение одного-двух лет другие исследователи опубликовали такие же сложные эконометрические анализы, показывающие, что смертная казнь не влияет на число будущих преступлений.

Разногласия касательно работы Эрлиха были настолько важны, что Национальный исследовательский совет созвал специальную группу экспертов для их изучения. После тщательного изучения группа решила, что проблема была не только в модели Эрлиха, но также и в самой идее использовать эконометрические методы для разрешения споров о политике уголовного правосудия. Они (Мански, 1978: 422) заключили, что:
так как данные, которые могут быть доступны для такого анализа, имеют ограничения и так как поведение преступников может быть таким сложным, не стоит ждать появления окончательного поведенческого исследования, которое положило бы конец всем разногласиям относительно влияния политики на поведение преступников.

Большинство экспертов сейчас полагает, что Селлен был прав в том, что смертная казнь не имеет никакого доказуемого воздействия на число убийств. Но Эрлиха не удалось в этом убедить. Сейчас он единственный, кто по-настоящему верит в верность этой модели. В недавнем интервью (Боннер и Фессендрен, 2000) он настаивал на том, что «если учесть такие переменные, как безработица, неравенство доходов, вероятность ареста и готовности применить смертную казнь, наличие смертной казни значительно сокращает число будущих преступлений».

Миф четвертый: легализация абортов привела к снижению преступности в 1990-х годах.

В 1999 году Джон Донохью и Стивен Левитт опубликовали исследование с необычным новым объяснением резкого сокращения числа убийств в 1990-х годах. Они утверждали, что легализация абортов Верховным судом США в 1973 году привела к снижению рождаемости нежеланных детей, многие из которых стали бы преступниками, когда выросли. Проблема с этим утверждением заключается в том, что легализация абортов произошла один раз за всю историю, а разовые события не дают достаточно данных для надежного регрессионного анализа. Правда, что аборты в некоторых штатах были разрешены раньше, чем в других, и Донохью и Левитт используют этот факт. Но все эти штаты проходили через одни и те же исторические процессы, и в тот же исторический период происходило много других вещей, которые повлияли на число убийств. В достоверный регрессионный анализ должны были бы быть включены все эти вещи и проверены в широком диапазоне значений. Существующие данные не позволяют это сделать, так что результаты регрессионного анализа будут варьироваться в зависимости от того, какие данные для него отобраны.

В данном случае Донохью и Левитт решили сосредоточиться на изменениях, произошедших за двенадцать лет, игнорируя колебания в течение этих лет. Поступив таким образом, как отметил Джеймс Фокс (2000: 303), «они упустили большинство изменений в количестве преступлений в течение этого периода: его рост в конце 1980-х в эпоху крэка и последующее сокращение после окончания этой эпидемии. Это все равно что исследовать влияние фаз луны на приливы и отливы и при этом записывать только данные периодов отливов».

Когда я писал эту статью, я включил в него предложение, в котором говорилось, что «вскоре другой специалист по регрессионному анализу вероятно заново проанализирует те же данные и придет к другим выводам». Через несколько дней моя жена дала мне газету, в которой было написано как раз о таком исследовании. Автором был не кто иной, как Джон Лотт из Йельского университета вместе с Джоном Уитли из Аделаидского университета. Они работали с теми же числами и пришли к заключению, что «узаконивание абортов увеличило число убийств примерно на 0,5-7 процентов» (Лотт и Уитли, 2001).

Почему результаты настолько разнятся? Каждая группа авторов просто выбирала другой способ моделирования недостаточного массива данных. Эконометрика не может вывести надежный общий закон из того исторического факта, что аборты были легализованы в 1970-х и преступность сократилась в 1990-х. Нам понадобилось бы по меньшей мере несколько десятков таких событий для достоверной статистической проверки.

Выводы.

Решающим испытанием в статистическом моделировании является прогноз. Прогноз не обязан быть идеальным. Если модель позволяет предсказывать события значительно лучше, чем случайное угадывание, она полезна. Например, если бы какая-то модель могла прогнозировать цены на акции хотя бы немного лучше, чем случайное угадывание, она бы сделала своих владельцев очень богатыми. Так, много усилий было приложено для проверки и оценки моделей цен на акции. К сожалению, исследователи, использующие эконометрические методы для оценки социальной политики, очень редко подвергают свои модели проверке на пригодность к прогнозированию. Их отговорка заключается в том, что для выяснения результатов требуется очень много времени. Невозможно получать данные о бедности, абортах или убийствах каждые несколько минут, как в случае с ценами на акции. Но исследователи могут проводить проверки на пригодность к прогнозированию другими способами. Они могут разработать модель с использованием данных из одной юрисдикции или периода времени, а затем использовать ее для прогнозирования данных в другое время или в другом месте. Но большинство ученых просто этого не делают, или, если делают, модели оказываются нерабочими и результаты не публикуются.

Журналы, публикующие эконометрические исследования по вопросам государственной политики, часто не требуют проведения проверки на пригодность к прогнозированию, что говорит о том, что редакторы и рецензенты многого не ожидают от этой области. Так что исследователи берут данные за определённый период времени и подстраивают свою модель до тех пор, пока не смогут «объяснить» изменения, которые уже произошли. Всегда есть ряд способов это сделать. А с современными компьютерами не так уж и трудно продолжать пытаться, пока не найдешь что-то подходящее. На этом этапе исследователь останавливается, подробно записывает полученные данные и отправляет свою работу на публикацию. Позднее другой исследователь может отрегулировать модель, чтобы получить другой результат. Вот что наполняет страницы научных журналов, и все притворяются, что не видят, что нет никакого прогресса. Но на сегодняшний день мы нисколько не приблизились к получению рабочей эконометрической модели для числа убийств по сравнению с тем временем, когда Исаак Эрлих опубликовал первую модель в 1975 году.

У научного сообщества нет хорошей процедуры признания провала широко используемого исследовательского метода. Методы, которые закреплены в образовательных программах ведущих университетов и публикуются в престижных журналах, имеют тенденцию быть увековеченными. Многие дилетанты полагают, что, если исследование было опубликовано в журнале с экспертной оценкой, оно достоверно. Рассмотренные нами случаи показывают, что это не всегда так. Экспертная оценка подтверждает следование устоявшейся практике, но это не сильно помогает, когда такая практика сама далека от совершенства.

В 1991 году Дэвид Фридман, выдающийся социолог Калифорнийского университета в Беркли и автор учебников по методам количественного исследования, пошатнул основы регрессионного моделирования, когда открыто заявил: «Я не думаю, что регрессия может нести большую ношу в причинном аргументе. И регрессионные уравнения сами по себе не особо помогают учитывать смешивающие переменные» (Фридман, 1991: 292). Статья Фридмана вызвала волну бурных реакций. Ричард Берк (1991: 315) заметил, что довод Фридмана «будет очень трудно принять большинству специалистов в области количественной социологии. Он направлен на саму их способность основываться на фактах и тем самым ставит под угрозу всю профессиональную карьеру».

В диалоге с критиками, которые хотят некоторое доказательство того, что они могут прогнозировать тенденции, построители регрессионных моделей часто используют свое превосходство в знании статистики. Они приводят настолько сложные аргументы, что только другие высококвалифицированные регрессионные аналитики могут понять их, не говоря уже о том, чтобы доказать их неправоту. Этот метод часто работает. Потенциальные критики просто сдаются в отчаянии. Дэвид Болдт из The Philadelphia Inquirer (1999), прослушав речь Джона Лотта о скрытом ношении оружия и числе убийств и поговорив с другими экспертами, сетовал, что «пытаться разобраться в академических аргументах – почти бесполезное дело. Можно утонуть в спорах о t-статистике, фиктивных переменных и методах анализа данных Пуассона и наименьших квадратов».

Болдт был прав, когда заподозрил, что его затягивает в заведомо проигрышную игру. На самом деле, в социологии и криминологии нет важных полученных данных, которые невозможно сообщить журналистам и лицам, ответственным за выработку политики, без ученой степени по эконометрике. Пора признать, что король-то голый. Когда потребителям представляют эконометрическую модель, они должны настойчиво требовать свидетельство того, что она может прогнозировать тенденции в данных, отличных от тех, что использовались для ее создания. Модели, которые не проходят эту проверку, – «мусорная наука», независимо от того, насколько сложен анализ.

Рассчитайте стоимость

Загрузить файл
Закиньте файлы до 100mb сюда
Медведева Марина - менеджер-переводчик юридического бюро переводов "ЮрПеревод"

Марина Медведева

Ваш персональный консультант